В качестве регулярного напоминания, кроме всего прочего я за последние лет 15 занимался тем публиковал довольно много кода как открытый код. В основном с надеждой на вовлечение сообщества и, где-то, это получалось, а где-то не очень. Случаев когда получалось и появлялись контрибьюторы довольно много, так что почему бы и не напомнить, на случай если возникнуть желающие воспользоваться и помочь в разработке:
- newsworker - библиотека для Python для извлечения новостей из веб страниц. Один из моих экспериментов с автоматизацией парсинга HTML закончился написанием этой библиотеки которая умеет распознавать даты в любом написании, ссылки и заголовки и текст новости.
- docx2csv - библиотека для Python и утилита командной строки по извлечению таблиц внутри файлов Microsoft Word (.DOCX).
- qddate - библиотека для идентификации дат в любом написании для условно любых языков. Изначально писалась как часть newsworker, потом была отделена. Поддерживает более 300 шаблонов написания дат.
- lazyscraper - утилита командной строки для превращения массивов HTML тэгов и HTML таблиц в таблицы CSV
- russiannames - на удивление оказавшаяся востребованной библиотека для Python и база данных для имён на русском языке и распознаванию стилей их написания. Создавалась из многих открытых источников, полезна, например, для задач когда надо понять в каком формате написано ФИО и что в нём есть что
- undatum - утилита командной строки для работы с разными структурированными данными, в первую очередь JSON lines. Фактически делалось как аналог csvkit для JSON lines, лично я ей пользуюсь ежедневно хотя и её ещё надо и надо допиливать.
- govdomains - база российских госдоменов и ассоциированного с этим кода, да, да, это не только зона .gov.ru, но и многое другое. Делалось изначально для проекта Ruarxive для понимания того что надо архивировать. Список большой, но с 2022 года развиваемый в закрытую по объективным причинам, чтобы не помогать хакерам находить уязвимости.
- metacrafter - утилита и библиотека идентификации семантических типов данных. Поддерживает десятки типов данных собранных в специальном реестре, изначально это был один из внутренних инструментов в продукте Datacrafter
- apibackuper - тоже утилита которой я пользуюсь регулярно, она создавалась для того чтобы архивировать данные предоставляемые через API. Причём всё это делается через простой конфиг файл. До сих пор многие датасеты из API я генерирую с её помощью.
- wparc - утилита архивации содержания Wordpress сайтов через API Wordpress если оно не отключено.
- ydiskarc - утилита архивирования материалов на Яндекс Диске, использует, по большей части документированное официальное API, но не требует к нему токенов или авторизации
- pyiterable - попытка унифицировать работу с данными в разных форматах: CSV, JSON, JSON lines, BSON, в том числе внутри контейнеров архивов. Регулярно сам этим пользуюсь. Изначально был план переписать undatum с использованием этой библиотеки, но руки не доходят.
- datacrafter - облегчённая ETL на Python для работы с открытыми данными, используется в одноимённом проекте datacrafter.ru, аналогично я ей сам регулярно пользуюсь когда надо систематизировать извлечение данных из открытых источников. К ней множество примеров для работы с данными на российских госсайтах.
#opensource #tools #data #datatools
В рубрике интересных проектов с открытыми данными небольшой проект Govdirectory [1] по визуализации аккаунтов органов власти в соцсетях по странам. Внутри данные из Wikidata, импортируются на регулярной основе и автор отправляет желающих что-то поправить - править сразу в Wikidata. По некоторым странам вроде Норвегии [2] внесено много и подробно. По другим, вроде России [3] довольно мало, а по большинству стран просто ничего нет, поскольку в каталоге всего 28 стран. Впрочем это Википроект где каждый может добавить что-либо, включая страну, поскольку код открыт и контрибьюторы там активны [4].
Ссылки:
[1] https://www.govdirectory.org
[2] https://www.govdirectory.org/norway/
[3] https://www.govdirectory.org/russia/
[4] https://github.com/govdirectory
#opendata #datasets #wikipedia #wikidata
Полезное чтение про данные, технологии и не только:
- Artwork Similarity Search: Exploring the Power of Vector Databases [1] технический, практический и весьма полезный обзор того как использовать векторную базу для поиска по подобиям для произведений художественного искусства. Полезно именно практичностью, буквально хоть бери Европеану или Госкаталог музейного фонда, натравливай модель и засовывай результаты в векторную БД.
- Dara Application Framework [2] очередной движок для генерации дашбордов, с открытым кодом и на Python. Выглядит неплохо, документация подробная
- Dataherald [3] преобразователь естественного языка в SQL, с открытым кодом, но требует ключа для OpenAI.
- DuckDB vs. The Titans: Spark, Elasticsearch, MongoDB — A Comparative Study in Performance and Cost [4] сравненеи DuckDB и всякого NoSQL. Сравнивается, конечно, фиолетовое с пупырчатым, но почему бы и нет.
Ссылки:
[1] https://www.otmaneboughaba.com/artwork-similarity-search
[2] https://github.com/causalens/dara
[3] https://github.com/Dataherald/dataherald
[4] https://medium.com/walmartglobaltech/duckdb-vs-the-titans-spark-elasticsearch-mongodb-a-comparative-study-in-performance-and-cost-5366b27d5aaa
#opensource #data #datatools
Хорошие ребята из проекта Если быть точным отделились в отдельный фонд и продолжают развивать свой проект с социальными показателями по России. Работа у них важная и непосредственно связанная с использованием и созданием открытых данных.
Читать полностью…В копилку плохих новостей про открытые данные, более недоступен портал Госрасходы (spending.gov.ru) [1]. Откуда его не открывай, из Армении, Европы или из России, всегда выдаётся 403 ошибка.
По этому статусу не определить отключён ли проект полностью или недоступен для широкой публики, но важная часть моей работы в Счётной палаты теперь недоступна. При том что я покинул Счетную палату уже давно и проект развивался и после моего ухода, но увы, я действительно не знаю всех причин почему его закрыли. Думаю что не последней причиной был уход Кудрина из Счетной палаты и что вот уже очень долгое время новый председатель так и не назначен.
Конечно, ещё остаётся надежда что Госрасходы отключены из-за проблем в настройках сети или случайных действий админов, но больше похоже что нет, его больше нет.
Здесь я не могу не напомнить что у нас в АНО Инфокультура (@infoculture) остался общественный проект clearspending.ru [2] где не было такой продвинутой аналитики по национальным проектам и бюджету, зато всегда была доступна и остаётся база госконтрактов. Проект останется открытым и включает дампы всей внутренней базы контрактов.
Ссылки:
[1] https://spending.gov.ru
[2] https://clearspending.ru
#opendata #contracts #sprf #infoculture
Корейский поисковик Naver выпустил языковую модель
Разработка называется HyperCLOVA X. На её базе действует похожий на ChatGTP чат-бот CLOVA X и генеративный поисковый сервис Clue, аналогичный Bing от Microsoft.
Число параметров не раскрывается, но известно, что предыдущая версия модели, HyperCLOVA, разработанная в 2021 году, имела 204 млрд параметров.
Над моделью работала команда из 500 экспертов в области ИИ и Naver теперь входит в пятёрку компаний, имеющих собственную большую языковую модель с более чем 100 млрд параметров.
Также компания разрабатывает мультимодальную языковую модель, которая могла бы генерировать помимо текста ещё и графику, видео и аудио.
Naver фокусирует продукты на национальных языках региона и стремится распространить своё покрытие на Корею, Японию, страны Юго-Восточной Азии и Ближнего Востока, для которых международные гиганты типа Microsoft и Google пока не открыли свои флагманские ИИ-сервисы.
#LLM #чатботы
https://techcrunch.com/2023/08/24/koreas-internet-giant-naver-unveils-generative-ai-services/
«А с чего вы взяли, что мы обиделись?», «Молчать придется вам», «У вас какой-то особенный канал связи с реальностью?» - Банк России завел телеграм-чат и теперь общается с гражданами
Банк России добавил к телеграм-каналу @centralbank_russia чат и активно взаимодействует с гражданами.
Приведу несколько цитат админов чата (см. скрины):
- "Знаете, если вы чего-то не видели, это не значит, что этого нет"
- "Если вы будете придерживаться такого тона, то молчать придется вам"
- "Простите, но это просто чушь"
- "А как по-вашему формировать статистические данные? Может быть, у вас есть какой-то супер лайфхак?"
- "У вас какой-то особый канал связи с реальностью, где инфляция 70%? Не нужно тут писать ерунду, здесь рады только конструктивным диалогам и интеллигентному юмору (иногда)"
- "Стоит думать, прежде чем воспользоваться любым советом, и не дважды, а постоянно"
- "Если вы знаете наш ответ, то зачем продолжаете спрашивать? Думаете, повторение одного и того же действия может дать иной результат?"
- "Просьба только обойтись без сарказма вроде тезиса об уборке помещений, это грубо. Мы ведь и ответить можем )"
- "Может быть у вас есть аргументы сильнее, чем "бред сивой кобылы"?"
- "Не нужно тут ставить никому оценок, тем более админам. За хамство - бан"
- "Вы о чем вообще?". "У кого "у нас" не работают переводы? И с чего вы взяли что мы пользуемся swift?"
- "А с чего вы взяли, что мы обиделись? Мы просто следим тут за порядком"
- "То есть вы считаете, что мы все сложили в одну кучу? А с чего вы это взяли? Вернитесь к текстам по ссылкам еще раз, там указано, какие другие были кучи и каких активов"
- "Разозлившийся комментатор, пишущий саркастический комментарий - это не оскорбление. Злиться нормально, писать комментарии - тоже. Не обижайтесь )"
- "Оскорбления (и постановка диагнозов по интернету) в комментариях запрещены"
Кстати, меня в этом чате забанили после вопроса о том, как записаться на экскурсию в Музей ЦБ, но на таком фоне это и не удивляет - наверно, не вписалась в корпоративную стилистику :D
Интеллектуальная собственность: охрана или …?
Роспатент объявил закупку на развитие ГИС «Омниканальное взаимодействие Роспатеннта с заинтересованными лицами в ходе предоставления госуслуг, услуг в рамках международных соглашений и договоров, публикации общедоступной информации о деятельности в сфере регистрации и охраны объектов интеллектуальной собственности в формате открытых данных».
НМЦК составляет 59 млн руб., поэтому ожидала найти в контракте что-то интересное о публикации открытых данных Роспатента. К сожалению, функции подсистемы «открытые данные» в данном случае сводятся к:
- публикации и просмотру расписания коллегий ППС;
- реализации реестра возражений и заявлений и поиска по нему
- возможности получения информации по делопроизводству и статусов по всем ОИС для включения в раздел «Открытые реестры».
Но в данной закупке зацепило другое. Свойства файла «Проект государственного контракта» говорят нам о том, что документ подготовлен Вероникой Ч. из организации «SPecialiST RePack». А именно такое наименование организации может говорить о пиратском происхождении софта, о чем в 2021 году писал Иван Бегтин (@begtin) и CNews.
С учетом функций Роспатента и закупки на развитие ГИС «для взаимодействия в сфере охраны объектов интеллектуальной собственности» получается весьма иронично.
It is Web Archive Wednesday My Dudes
В Twitter среди веб-архивистов популярен тег #WebArchiveWednesday — что значит, как можно догадаться, день публикации контента, связанного с цифровыми архивами.
Сделали подборку новостей и находок по теме.
● The New York Times блокирует веб-краулер от Open AI, чтобы запретить сбор контента для использования в обучении алгоритмов искусственного интеллекта. Теперь официально в условиях использования контента появился запрет на использование «robots, spiders, scripts, service, software or any manual or automatic device, tool, or process designed to data mine or scrape».
● Веб-архивы — это беспорядок. Статья, опубликованная в открытом доступе, о том, как организовать хранение наборов данных и кода в notebooks, произведенных в процессе веб-архивирования.
● Awesome Web Archiving list. Ссылка на гитхаб репозиторий с набором полезных ссылок на ресурсы, инструменты, гайды и людей.
● Librarypunk: Web Archiving and Social Media. Если вы понимаете речь на английском или знаете, как организовать перевод, то рекомендуем послушать выпуск подкаста о веб-архивировании и социальных сетях. Или заглянуть в описание, где вы найдете полезные ссылки на материалы.
Enjoy! 🤓
#WebArchiveWednesday #opendata #digitalculture
Python внутри MS Excel [1] - это признание востребованности языка для дата-анализа и тем что Python уже стал стандартом де-факто для всех кто данные обрабатывает. Но то что только в облаке Microsoft Cloud сильно ограничивает корпоративное его применение для всех кто в облаке работать не готов.
Для тех кто использовал/использует MS Excel для очистки и обогащения данных не могу не напомнить про OpenRefine [2], продукт в котором Python (Jython) был встроен с самого начала. Когда надо полуавтоматически/полувручную проверять табличные данные - это незаменимый инструмент.
Ссылки:
[1] https://techcommunity.microsoft.com/t5/microsoft-365-blog/introducing-python-in-excel-the-best-of-both-worlds-for-data/ba-p/3905482
[2] https://openrefine.org
#microsoft #excel #datatools
В рубрике как это устроено у них большая часть переписей населения в Южной Америке работает на ПО Redatam [1], оно же используется во многих странах Африки и Юго-Восточной Азии. Это продукт разработанный в Экономической комиссии для Латинской Америки и Карибского бассейна (ECLAC), специализированном подразделении ООН. На сайте продукта собраны и ссылки все опубликованные переписи населения и иные опросы в 24 странах [2], а также примеры микроданных [3].
Ссылки:
[1] https://www.redatam.org/en
[2] https://www.redatam.org/en/online-process
[3] https://www.redatam.org/en/microdata
#opendata #census #datasets #datacatalogs
Теперь уже 7055 каталогов данных в реестре каталогов данных registry.commondata.io из которых как минимум 5393 потенциально индексируемых в поиск. Много это или мало? Много. В dataportals.org всего 598 порталов, в Datashades.info 530 инсталляций CKAN, в re3data.org 3125 порталов научных данных.
Самое сложное - это собирать описания всех записей, а для этого нужны метрики качества. Для любого дата проекта нужны метрики качества и автоматизация их улучшения.
Вот в данном случае это референсная база данных, не транзакционная, а справочная для любых других проектов по систематизации данных. Полнота метаданных имеет значение и поэтому метрики именно про эту полноту: есть ли какое-то поле, ненулевое ли оно и так далее.
Вот чего не хватает так это простой системы метрик которую можно было бы пристыковать к базе данных в виде СУБД или в виде CSV/NDJSON файла.
Существующие движки оценки и мониторинга качества данных не подходят. Какие существуют альтернативы кроме как изобретать свой велосипед?
#opendata #datatools #metadata #datacatalogs #commondataindex
В рубрике интересных поисковых систем Openverse [1] поисковик по изображениям и аудио опубликованным под свободными лицензиями Creative Commons или в статусе Public Domain. Ищет по более чем 700 миллионам объектов, предоставляет открытое API [2], основные источники: Flickr, iNaturalist и Wikimedia Commons [3], а для реализация поиска используют индекс Common Crawl. У проекта полностью открытый код [4] (внутри Python, Django, Typescript, Vue). Данные собираются с помощью Apache Airflow, а внутри поисковика Elasticsearch и сотни контрибьюторов. Очень живой и развивающийся проект
До него существовал поиск на сайте Creative Commons, но теперь он превратился в мета-поиск с выбором одной из поисковых систем [5].
Ссылки:
[1] https://openverse.org
[2] https://api.openverse.engineering/v1/
[3] https://openverse.org/sources
[4] https://github.com/WordPress/openverse
[5] https://search.creativecommons.org
#openapi #searchengines #opensource
В рубрике интересных каталогов данных Sentinel Hub Public Collections [1] каталог 46 наборов данных снимков земной поверхности опубликованных в рамках проекта Sentinel Hub, компании Scorpius Labs из Словении.
Особенность в том что каталог основан на коде Amazon Open Data Registry [2] и все описания наборов данных хранятся в репозитории на Github в виде YAML файлов. Сами данные доступны под лицензией CC-BY 4.0 и являются данными из проекта Copernic, агентства ESA и других источников обработанные в Sentinel Hub.
Ссылки:
[1] https://collections.sentinel-hub.com
[2] https://registry.opendata.aws
#opendata #datacatalogs #geodata
В рубрике интересных продуктов по работе с API Metatype [1], платформа для декларативной разработки API, как сами создатели его позиционируют, продукт позволяющий проектировать API не будучи программистом. Внутри всё построено вокруг Typegraph [2], одновременно идеи и одноимённого пакета для Python с помощью которого описывается спецификация API. У продукта своя система типов, своя система управления доступа к ресурсам, интеграция с Prism, Deno и другими инструментами и ещё много чего.
Похоже что он годится как элемент строительного блока для построения собственной API платформы, хотя и удивляет что авторы игнорируют стандарт OpenAPI кроме как использования его спецификации для импорта описаний [3]
Выглядит интересно, а ещё интереcно что команда разработки явно вкладывается в документацию и, похоже, делают продукт под классическую нынче модель инвестиций когда есть корневой продукт с открытым кодом и облачная платформа на его основе. Облачную платформу пока не видно, но явно она появится.
Ссылки:
[1] https://metatype.dev
[2] https://metatype.dev/docs/concepts/typegraph
[3] https://metatype.dev/docs/guides/importing-openapi-definitions
#opensource #api #datatools
Предпосылки для развитого сектора высоких технологий в Армении были всегда. К сожалению, удручающая экономическая ситуация 1990-х и утечка мозгов привели к растрате мощного потенциала, но, судя по темпам развития IT-сектора в Армении, инновационное мышление и профессиональные знания и навыки, передававшиеся из поколения в поколение, лишь ждали своего часа, чтобы проявиться снова.
Сегодня хотим поделиться с вами прекрасным проектом IT-музея DataArt – виртуальной выставкой «Математические машины Армении». Выставка повествует об армянских инженерах-электронщиках и вычислительной технике, созданной ими во второй половине XX века. Авторы проекта наглядно показывают важность разработок армянской столицы для технологического развития различных сфер жизни всей Восточной Европы. Ереванский научно-исследовательский институт математических машин разработал первую в СССР автоматизированную систему продажи ж/д билетов, самую сбалансированную машину международного проекта ЕС ЭВМ, вычислительные комплексы для стратегической авиации. Обо всём этом в переплетении с человеческими судьбами и культурой и атмосферой Еревана и Армении вы узнаете на онлайн-выставке.
Не все знают что в Шотландии до сих пор действует закон 1491 года об общественном имуществе The Common Good Act 1491 [1]. Язык его ещё не современный английский, читать его непросто несмотря на краткость, важно знать что он определяет то что местные советы в Шотландии ведут учёт общественного имущества, движимого и недвижимого, отдельно от учёта всего остального. К общественному имуществу относятся многие земли, здания и, например, картины.
Шотландские общественники сделали сайт Commongood.scot [2] с единым реестром такого имущества.
Сейчас там всего 2960 объектов, доступных на карте, в поиске и в виде открытых данных в формате CSV.
Ссылки:
[1] https://www.legislation.gov.uk/aosp/1491/19/contents
[2] https://commongood.scot/
#opendata #uk #scotland
Привет! Это Арнольд Хачатуров, руководитель проекта «Если быть точным». Сегодня важный день, к которому мы готовились последние несколько месяцев. С 1 сентября 2023 года «Если быть точным» — независимый проект.
Почему мы отделяемся. Это было совместное решение нашей команды и коллег из фонда. Мы остаемся партнерами и хорошими друзьями, но дальше каждый пойдет своей дорогой.
За последние годы «Если быть точным» вырос из первоначальных рамок. Когда-то мы концентрировались на том, чтобы помогать некоммерческим организациям принимать решения с опорой на данные: развивали крупнейший в России каталог НКО, оценивали динамику благотворительных пожертвований и измеряли эффективность помощи.
Всем этим продолжит заниматься фонд «Нужна помощь», а мы ставим перед собой другую цель — сохранение и развитие открытых данных в России. Мы продолжим рассказывать о социальных проблемах и продвигать экспертную дискуссию с опорой на данные, но будем делать это для более широкой аудитории.
Что будет дальше. Открытые данные тают на глазах — минимум 17 ведомств скрыли важные показатели. Официальный портал открытых данных России отправили «на доработку» на неопределенный срок. Социальных проблем при этом меньше не становится.
Даже в этих условиях мы находим способы, как сделать статистику более доступной. Например, недавно мы опубликовали данные о загрязнениях воздуха в российских населенных пунктах, которые скрыл Росприроднадзор, а еще сделали инструмент для выгрузки данных с 2,5 тысяч сайтов российских судов, которым может воспользоваться любой желающий.
Чтобы развиваться и достигать своих целей, нам нужна ваша помощь. Мы больше не проект фонда, а это значит, что теперь мы финансируем себя самостоятельно. Конечно, это волнительно, но мы знаем, что у нас есть вы.
Поддержите нас, оформив регулярное пожертвование на Boosty (рубли) или на Patreon (валюта). В будущем мы откроем больше возможностей для тех, кто хочет помочь. Но прямо сейчас нам нужно убедиться, что мы сможем работать дальше — за счет вашей поддержки.
В качестве регулярного напоминания, хотя я в последние годы делаю проекты не только в России, но и в Армении, а также некоторые глобальные, но АНО Инфокультура от лица которого наша команда создавала проекты по открытости в России всё ещё действует и, несмотря на все ограничения, действовать будет дальше, как я надеюсь, во всяком случае.
Мы продолжаем и поддерживаем такие проекты как:
- Госзатраты [1] агрегатор всех государственных и муниципальных контрактов по 44-ФЗ. 223-ФЗ, 94-ФЗ и ряда постановлений Пр-ва РФ. Все доступно для поиска, доступно как открытые данные. Мы продолжим развивать его и дальше
- Открытые НКО [2] портал прозрачности НКО в России. Хотя российское Пр-во начало скрывать данные по учредителям организаций НКО ещё с весны 2021 года, мы продолжаем обновлять данные, хотя и остальные возможности развития проекта ограничены.
- Простой язык [3] сервис определения простоты текстов на русском языке. Проект остаётся неизменным уже много лет, форма куда можно отправить текст и получить оценку его простоты в годах обучения. Мы думаем как его улучшать и развивать, регулярно приходят пользователи с разными запросами.
- Хаб открытых данных [4] негосударственный портал открытых данных. Из-за потоков спама нам пришлось отключить там свободную регистрацию, но сам хаб никуда не исчезает, думаем о его перезапуске. Может быть когда Минэкономразвития России опубликует обновлённый портал data.gov.ru на Гостехе мы специально обновим Хаб открытых данных чтобы показать всем какую хрень может сотворить министерство за 100500 денюх и насколько лучше можем мы сделать с минимальным бюджетом.
- Национальный цифровой архив России [5] наш проект по архивации сайтов, был более актуален когда шла совсем полная срань с ликвидацией сайтов многих российских "инагентов", менее критично сейчас, с одной стороны, с другой всё ещё актуально. Стало сложнее архивировать госсайты, они все обзавелись капчами и блокировкой любых не-российских IP адресов. Поэтому, в очередной раз, думаем о смене приоритетов и актуализации программы архивации. У проекта есть отдельный телеграм канал /channel/ruarxive, не стесняйтесь, подписывайтесь на него.
- День открытых данных в России [6] мы не проводили его в 2022 году, всё же провели в 2023 году и планируем в том же формате в 2024 году, по большей части онлайн. Госполитика в области открытых данных в России давно уже сдувается, а сейчас ещё и сталкивается с военной цензурой и общей "разрухой в головах" , но существует всё ещё сильное русскоязычное сообщество по открытости и только ради него мы это проводим.
Хотелось бы делать больше, но существующая политическая повестка этого не позволяет. Хорошо что получается сохранять то что есть, хотя и с ощущением что в любой момент может возникнуть политическое давление и даже это будет сложно сохранить.
Из России всегда можно поддержать эти проекты на странице Инфокультуры https://www.infoculture.ru/donation/ если от физ лица или напишите мне если хотите сделать это от юридического лица.
Ссылки:
[1] https://clearspending.ru
[2] https://openngo.ru
[3] https://plainrussian.ru
[4] https://hubofdata.ru
[5] https://ruarxive.org
[6] http://opendataday.ru
#opendata #russia #infoculture #opengov
Полезный материал для тех кто изучает ценность и стоимость данных, научная статья What is the value of data? A review of empirical methods [1] в первую очередь относится к данным общедоступным, создаваемым для предоставления другим и продаваемым на маркетплейсах и иначе монетизируемых. Полезно для разговоров с про обоснование стоимости данных и не только. Полезно для измерения ценности открытия данных.
Ссылки:
[1] https://onlinelibrary.wiley.com/doi/full/10.1111/joes.12585
#opendata #articles #readings
Давно откладываю и всё никак не завершу обещанный обзор корпоративных каталогов данных и больше лонгридов, но пока длинные тексты даются мне с трудом. Кстати, до сих пор это как одно из последствий ковида, просто чувствую как на способность много-много-много писать он повлиял.
А вот что касается публикации открытых данных, то я на днях обновил список на Awesome Open Data software [1] и там большая подборка открытого и коммерческого ПО для публикации открытых данных, геоданных, научных данных и ещё ссылки на инструменты их подготовки и многочисленные стандарты.
Если думаете как и на чём публиковать данные, список будет полезен. Я постоянно нахожу что-то новое при создание каталога-каталогов данных и всё записываю в этот список, так что он растёт и развивается.
Ссылки:
[1] https://github.com/commondataio/awesome-opendata-software
#opendata #opensource #datacatalogs
Во второй раз за пару дней репощу @ahminfin, на сей раз про культуру "открытости" коммуникации ЦБ РФ. Хотелось бы сказать, они же публикуют данные и не всё так плохо, но... на деле то у ЦБ данных очень много и они рассеяны по всему их сайту и никогда не сводились в каталог для доступа. Максимум, что было - это что-то доступно через API, но далеко, далеко не всё. Учитывая что Пр-во РФ давно уже сползает от открытости данных к "открытости коммуникаций" с заведением аккаунтов в соцсетях госорганов, то можно пронаблюдать как такие коммуникации происходят. ЦБ, конечно, не орган власти, но всё очень и очень показательно;)
#opengov #russia #bankofrussia
Действительно несколько лет назад я делал такое исследование и его несложно повторить. В одном российском госоргане это привело к большим внутренним проверкам, но это было давно.
Читать полностью…Хорошая статья на Хабре про девушку которая в виду отсутствия данных о качестве воздуха в Ереване самостоятельно начала собирать датчики [1] и сделала сайт для публикации данных. Лучший способ побуждать любое государство публиковать данные - это создавать данные. Иногда, правда, у государств просто нет ресурсов. Например, Армения не самая богатая страна и данных о качестве жизни не так уж много.
Тут и сайт есть, и данные и сообщество будет формироваться. Просто отличная инициатива!
А мы обязательно добавим эти данные в каталог данных Open Data Armenia [2]
Ссылки:
[1] https://habr.com/ru/articles/755586/
[2] https://data.opendata.am
#armenia #opendata #lifequality #airquality #sensors
Госзатраты. Перезапуск
К десятилетию проекта (которое состоится в начале 2024 года) мы планируем перезапуск общественного проекта «Госзатраты» (clearspending.ru) и будем рады фидбеку, пожеланиям и критике. Если вы давно пользуетесь сайтом, API или открытыми данными проекта, нам будут полезны ваши пожелания как по сайту, так и по содержанию баз данных и API. А если еще не пользуетесь, но интересуетесь финансовыми данными или мониторите госзакупки, можете написать о том, каких функций вам не хватает в сторонних проектах. Писать можно в комментарии или в лс (@k0shk), кому как удобнее.
За последний год аудитория нашего проекта составила почти 2 млн уникальных пользователей, надеемся, что с новой версией сайта и базы данных она продолжит расти.
Ещё один интересный каталог с глобальными данными Awesome GEE Community catalog [1] создаваемый сообществом пользователей Google Earth Engine, я писал о нём год назад [2] и с тех пор каталог обрёл новый сайт и много больше данных.
Теперь он включает более 322 терабайт данных, около 1 миллиарда объектов и чуть менее 1 миллиона изображений.
Особенность этого каталога в том что это, по сути, коллекция страниц где могут быть или не быть ссылки на выгрузку данных, но всегда есть код для подключения выбранного слоя/данных к Google Earth Engine.
Ссылки:
[1] https://gee-community-catalog.org
[2] /channel/begtin/4287
#datacatalogs #opendata #datasets #geodata #google
Я регулярно пишу про доступные в России/о России открытые данные [1] и можно много чего найти по тегу #datasets здесь в телеграм канале. К этой рубрике не могу не добавить что главная сложность в поиске данных не в том что их нет, а в том что они фрагментированы до невозможности, не систематизированы и рассеяны по множеству внешних сервисов. Часть региональных властей создают собственные ГИС системы, другие используют корпоративные инсталляции ArcGIS Server, а довольно многие используют облачные услуги ArcGIS, а то есть если не покопаться в коде сайта или если не знать то данные и не найти.
Вот наглядный пример, карта экотуризма Татарстана [2], внутри ArcGIS сервер в облачной версии [3]. Не знаю как они находят способ оплачивать его, но факт остаётся фактом, загружают данные и в 2023 году и загружали ранее и я лично их никоим образом не осуждаю.
Ссылки:
[1] /channel/begtin/5078
[2] https://ecotourism-map.tatar
[3] https://services-eu1.arcgis.com/g4SaReSjB9tCbuDt/ArcGIS/rest/services
#datasets #opendata #geodata #tatarstan
Отвлекаясь от темы данных, не могу не написать что всё идёт к тому что до конца года Википедию в России заблокируют. Ничего хорошего в этом, разумеется, нет, а главный признак этого события в том что как на дрожжах появилось несколько альтернатив:
1) Большая российская энциклопедия в какой-то момент обновили свой сайт [1], приглашают авторов и сам ресурс стал выглядеть, относительно, приличнее, но общий объём статей, скажем так, несущественнен по мировым меркам. Энциклопедия существовала и раньше, в неё было "вбухано" много денег и я писал про них много раз, в последний раз в 2021 году, 2 года назад [2].
2) Знание.Вики [3] относительно новый проект Общества Знание, похоже что активно запущенный совсем недавно. Внутри его движок MediaWiki и они активно зазывают авторов, позиционируя проект как авторский и экспертный. По ощущениям, многое берётся из Википедии, но это не полный импорт, потому что нет страниц даже каких-то базовых понятий, например, не все страны.
3) RUWIKI [4], по сути, это клон русскоязычной Википедии с цензурированием всех тех страниц которые Роскомнадзор хотел бы чтобы цензурировались в самой Википедии. Поскольку это клон то объёмы сильно превосходят Знание.Вики и БРС, но в целом это вторичный продукт по отношению к Википедии поскольку никаких новаций в нём нет, только отцензурированная версия Википедии. Внутри движок Mediawiki
—
Я бы сказал что всё это сигналы что Википедию заблокируют до конца года, а в школах начнут продвигать использование одного из этих проектов или всех трёх, не берусь судить заранее, думаю что и сами инициаторы не знают до конца как это будет. Почему в школах? Потому что уже в университетах выше потребность в специализированных знаниях и если ищут в русскоязычной Википедии то только чтобы потом переключиться на другой язык или чтобы найти первоисточники и их изучить.
Впрочем речь не только об этом. Википедию неправильно рассматривать только как энциклопедию, это огромная свободно распространяемая база данных используемая Google, Bing, Yandex и другими для поисковых индексов и используемая почти всеми генеративными ИИ и ещё много кем. Собственно классические поисковые системы "отжирают" у Википедии больше трафика чем все вот эти потенциальные альтернативы или аналогичные альтернативы в других странах (Китай, Baidu).
Всё это российские "альтернативы" заменить не могут при всём желании, особенно Большая российская энциклопедия, где даже нет и не было условий использования материалов и возможности их распространения.
В любом случае я не перестаю повторять именно блокировка популярных ресурсов вроде Порнхаба или Википедии более всего вносит вклад в массовое обучение рядовых россиян для использования VPN сервисов для обхода блокировок.
Так что лично я предсказываю блокировку Википедии Роскомнадзором до конца года, со всеми вытекающими последствиями.
UPDATE:
Туда же в список альтернатив Википедиии:
- Энциклопедия Руниверсалис [5], также полный клон русской википедии
- Энциклопедия Кирилла и Мефодия [6] не вики проект и достаточно давний, по размерам меньше БРЭ, но под свободной лицензией
А также большая подборка ссылок на русскоязычные Вики проекты и инструменты работы с проектами фонда Wikimedia [7]
Ссылки:
[1] https://bigenc.ru
[2] /channel/begtin/3236
[3] https://znanierussia.ru/articles/Заглавная_страница
[4] https://ru.ruwiki.ru
[5] https://руни.рф
[6] https://megabook.ru
[7] https://github.com/alexeilutay/wiki4journals
#russia #wikipedia #censorship
В рубрике неизвестных каталогов открытых данных в России подборка ссылок на доступные геоданные:
- https://fires.dvinaland.ru/geoserver/web/ геосервер по ГИС по пожарам в Ростовской области
- http://geo3d.scanex.ru:8090 WMS сервер компании Scanex на базе MapProxy
- https://geoanswer.ru/geoserver/web/ геосервер компании Geoanswer
- https://geo.uriit.ru - геосервер ХМАО на базе NextGIS
- https://geo.uriit.ru/mp/mapproxy WMS сервер ХМАО на базе MapProxy как часть геопортала на базе NextGIS
- http://gisa.aari.ru:8080/geoserver/web/ геосервер ААНИИ
- https://gis.dornadzor-sz.ru/drn/rest/services ArcGIS REST API сервера компании Дорнадзор
- http://gis.esimo.ru/eko/web/ геосервер ЕСИМО
- http://gis-vo.volganet.ru/arcgis/rest/services ArcGIS сервер Волгоградской области
- http://mapserver.cepl.rssi.ru:8080/geoserver геосервер Центра по проблемам экологии и продуктивности лесов РАН.
- https://portal.kgilc.ru:6443/arcgis/rest/services ArcGIS сервер Мурманской области
#opendata #datasets #geodata #russia
Тут совсем недавно Ольга раскопала [1] контракт по переносу российского портала data.gov.ru на Гостех и прам-парам "неожиданно" оказалось что российское Минэкономразвития собиралось потратить на 5 месячный "перенос" портала больше средств чем потратило на его разработку и поддержку за 10 лет. Хотя итоговая сумма и поменьше, 30.9 миллионов рублей, но сути это не меняет, работы по завышенной стоимости, с рамочным ТЗ и полной неопределённостью что там будет в итоге.
И Вы спрашиваете почему, после этого всего, я отношусь к Гостеху столь негативно, потому что никакой экономии там нет и принципиально быть не может. Гостех - это внутригосударственная искусственная монополия, всё будет только дороже И всё, опять же, возвращается к вопросу, а что есть Гостех? Набор несвязанных сервисов Platform V от Сбербанка? Или презентации демонстрируемые сотрудниками одноимённого ФКУ?
Вторая часть этой истории - это рамочное ТЗ. Понятно что у Минэкономразвития нет и не может быть компетенций не то что в открытых данных, но и в управлении данными в принципе. Все их инициативы в этой области вроде их собственного портала с данными [2] превратились в тыкву. Они поленились даже заказать какому-то своему подведу/рядом сидящему подрядчику разработку ТЗ. Почему? Потому что будь оно, его слишком легко было бы раскритиковать.
В любом случае позитивных ожиданий от этой "переделки" портала открытых данных нет.
Ссылки:
[1] /channel/ahminfin/606
[2] https://data.economy.gov.ru
#opendata #data #policy #procurement #russia