Под ёлочку анонсируем наш второй конкурс открытых данных (Open Data Armenia Contest)!
2 номинации: культурные (языковые, литературные) проекты и визуализации данных.
Общий призовой фонд – 3000 долл. США. Дедлайн подачи конкурсных проектов – 16 февраля.
Итоги конкурса подведем на Дне открытых данных в Армении в рамках международной Недели открытых данных в начале марта.
Все остальные подробности на сайте, доступном на 3-х языках.
Участвуйте и приглашайте друзей, интересующихся анализом данных, программированием, армянской культурой и историей, дизайнеров и всех, кто небезразличен к открытым данным и Армении. Можете поикать членов команды прямо в чате!
Продолжая подводить итоги года, статистика моего телеграм канала по подсчётам TgStat. Тут можно учитывать что 99% того что я пишу тут в телеграм канале - это режим публичных личных заметок, я сам свой же телеграм канал использую как справочник и как базу знаний, потому и стараюсь тщательно проставлять теги всем тем текстам которые потом рассчитываю найти.
Читать полностью…В рубрике открытых данных о которых никто не знает порталы открытых данных по биоразнообразию, в том числе в России. Я писал об этом примерно 1.5 года назад [1], но можно и повторить и обновить.
Глобальный проект GBIF (Global Biodiversity Information Facility) [2] открытый каталог данных по биоразнообразию наполняется из более чем 361 инсталляции специального типа каталога данных называемого IPT (Integrated Publishing Toolkit) [3] который, как правило, развертывают университеты или их подразделения занимающиеся исследованиями в этой области.
Таких порталов много, 361 точно есть, и о них, как правило, мало кто знает за пределами этой научной дисциплины. Тем не менее это полноценные порталы с условиями использования, машиночитаемыми данными, свободными лицензиями и экспортом метаданных по стандарту DCAT.
Вот их обновлённый список в России:
- https://ipt.zin.ru
- http://altb.asu.ru/ipt/
- http://ipt.ugrasu.ru:8080/ipt/
- https://ipt.ipae.uran.ru/
- http://ib.komisc.ru:8088/ipt/
- https://gbif.ocean.ru/ipt/
- https://gbif.krc.karelia.ru/ipt/
- http://gbif.ru:8080/ipt/
Поэтому возвращаясь к вопросу о том есть ли в России раскрытие научных данных. Да, есть. Там где наука интегрирована в мировую. А где не интегрирована - там нет.
Кстати, многие данные в GBIF привязаны не к стране исследовательского центра, а к странам где проводились исследования. Многие данные по биоразнообразию Центральной Азии публиковались российскими исследователями.
Ссылки:
[1] /channel/begtin/4889
[2] https://www.gbif.org
[3] https://www.gbif.org/ipt
#opendata #biodiversity #biology #datacatalogs
Я, кстати, искал примеры живых данных в формате Parquet которые бы публиковались целенаправленно как открытые данные и таки нашёл.
Проект Open Performance Data Initiative (OPDI) [1] создан Евроконтролем в 2022 году для публикации данных об эффективности управления воздушным трафиком.
Данные на портале публикуются в виде Parquet файлов [2], с интервалами дат и инструкцией по их автоматической загрузке. По сути симуляция API.
Причём данных там немало. Данные о событиях за 10 дней собираются в Parquet файл размером до 150МБ что с учётом сжатия формата хранения раскрывается в сотни миллионов значений за три года.
Ссылки:
[1] https://www.opdi.aero
[2] https://www.opdi.aero/flight-event-data
#opendata #europe #transport #airtraffic #datasets
Вал сообщений о багах сгенерированных AI
Статья Open source maintainers are drowning in junk bug reports written by AI [1] о том как разработчиков Python и Curl заваливают низкокачественными сообщениями о багах найденных AI ботами. Ситуация неприятная потому что может сильно демотивировать профессионалов контрибьюторов в открытый код.
Лично я с этим пока не столкнулся, но подозреваю что такой день ещё настанет.
И это далеко не единственное потенциально вредное применение ИИ.
Я подозреваю что очень скоро ИИ начнут использовать и для симуляции портфолио на Github'е и ещё много чего другого.
Бойтесь LLM проникающего в процесс разработки. Это не только low-code инструменты, но и немало трэша который к нам приходит.
Ссылки:
[1] https://www.theregister.com/2024/12/10/ai_slop_bug_reports/
#opensource #ai
К вопросу о том где и как искать данные и что такое каталоги данных, есть отдельная категория каталогов данных в виде репозиториев результатов научной деятельности в которых чего только нет, но обычно это статьи, диссертации, магистерские работы, книги и реже медиафайлы и курсы. Но там бывают и данные, чаще всего их доля не очень велика, если это не специализированный репозиторий именно для данных.
Университеты таким образом публикующие данные, чаще всего используют продукты вроде DSpace, Eprints, Elsevier Pure и ещё ряд других, менее популярных.
Ключевой вопрос включать ли их все в реестр каталогов Dateno? Если да, то по каким критериям? По числу датасетов? По доле датасетов от общей доли публикации? По потенциальной возможности что датасеты там могут появится в будущем?
Вот живой пример Архив открытого доступа Санкт-Петербургского государственного университета [1], один из немногих и возможно крупнейший ресурс раскрытия публикаций университетов в России. Всего в нём сейчас 47619 публикаций. И это не то чтобы мало, даже много. Но из них всего 17 публикаций являются наборами данных и помечены как тип Dataset. Это 0.03% от общего числа публикаций. Можно ли его считать каталогом открытых данных или нет? Добавлю что ещё и то что инсталляции DSpace без доп настроек не дают поиска по типу ресурса и чтобы найти даже эти 17 датасетов пришлось скачать метаданных все 47+ тысяч записей.
А также добавлю что есть множество репозиториев научных публикаций где датасетов совсем нет, это почти все репозитории публикаций в Армении, в Казахстане и многие репозитории российских университетов.
Но ведь данные там появится могут, так что же регулярно проверять что там данные появились и только тогда вносить их как каталоги данных?
Ссылки:
[1] https://dspace.spbu.ru
[2] https://dspace.spbu.ru/handle/11701/17114?mode=full
#opendata #openaccess #researchdata #datasets
Полезное чтение про данные технологии и не только:
- Ask HN: Predictions for 2025? [1] предсказания будущего для 2025 года в комментариях на Hacker News, а заодно там же ссылки на прошлые комментарии. Во первых видно как все ошибались в прошлые годы, во вторых виден пессимизм на следующий год
- Logging, the sensible defaults [2] очень коротко о том как надо и как не надо журналировать в больших облачных продуктах. Есть над чем подумать и поменять свои практики тоже
- Open Data Editor 1.2.0 [3] стабильная версия редактора пакетов открытых данных. Полезный инструмент, хотя и пока не так популярный как мог бы быть.
Ссылки:
[1] https://news.ycombinator.com/item?id=42490343
[2] https://gerlacdt.github.io/blog/posts/logging/
[3] https://blog.okfn.org/2024/12/05/announcement-open-data-editor-1-2-0-stable-version-release/
#opendata #prediction #tech #readings
Open Data Armenia объявляет конкурс физических визуализаций на основе данных, касающихся Армении. В конкурсе могут участвовать все, кто заинтересован данными и визуализацией.
Для участия в конкурсе выполните следующие шаги:
1. выберите данные по Армении (на ваш вкус). Можете использовать датасеты из нашего каталога;
2. Подключите фантазию и креатив;
3. визуализируйте данные с помощью физических объектов;
4. сфотографируйте и опубликуйте на своей странице в соцсети, можете отметить нас;
5. отправьте ссылку на страницу Open Data Armenia в Facebook или на электронную почту opendata@opendata.am до 15 января;
6. выиграйте ежемесячный приз!
Победителями станут авторы самых креативных визуализаций. Мы подарим им книги ведущих мировых специалистов по визуализации данных.
В рубрике интересных каталогов данных я ранее писал про WIS 2.0 движок от Всемирной метеорологической организации (WMO) по сбору стандартизированных данных о погоде [1]. Но это относительно новый продукт, ведь большое число стран интегрировано с системами WMO и без него. И делают они это, не все но многие, с помощью другого продукта который называется OpenWIS [2].
Это продукт с открытым кодом созданный в The OpenWIS Association AISBL через кооперацию более чем десятка стран.
На базе OpenWIS работают порталы с данными о погоде в России [3], Таиланде [4], Индонезии [5], Южной Корее [6] и многих других странах.
Внутри OpenWIS форк продукта Geonetwork, специализированного каталога метаданных используемого для публикации и поиска по пространственным данным. Поскольку у Geonetwork много открытых API и интерфейсов то к этим порталам можно подключится даже когда их веб интерфейсы закрыты паролями. Например, у российской инсталляции OpenWIS открытое API по стандарту OAI-PMH [7] и, скорее всего и другие тоже есть.
Код OpenWIS не развивается уже несколько лет, явно постепенно метеорологические агентства будут переходить на WIS 2.0 и на другие решения, тем не менее эти порталы это тоже каталоги данных. В реестре каталогов Dateno их пока нет, кроме портала OpenWIS в Таиланде, который был идентифицирован как экземпляр Geonetwork хотя, правильнее всё же будет определять OpenWIS как отдельный тип каталогов данных.
С одной стороны данных в этих каталогах данных немного, сотни слоёв карт, максимум, а с другой стороны их сбор не требует сверхусилий и рано или поздно они появятся в поиске Dateno.
Ссылки:
[1] /channel/begtin/5972
[2] https://github.com/OpenWIS/openwis
[3] http://meta.gisc-msk.wis.mecom.ru/openwis-portal/srv/en/main.home
[4] http://wis.tmd.go.th/openwis-user-portal/srv/en/main.home
[5] http://wis.bmkg.go.id/openwis-user-portal/srv/en/about.home
[6] http://dcpc.nmsc.kma.go.kr/openwis-user-portal/srv/en/main.home
[7] http://meta.gisc-msk.wis.mecom.ru/openwis-portal/srv/en/oaipmh?verb=Identify
#opendata #datacatalogs #data #meteorology #opensource
В MIT Technology Preview статья This is where the data to build AI comes from [1] о том откуда разработчики ИИ берут данные. В основе статьи доклад от группы The Data Provenance Initiative занимающейся анализом источников данных для ИИ, исследованием происхождения и юридического статуса наборов данных.
Работа эта, в целом, неблагодарная, но необходимая и в этом докладе и в статье много важных инсайтов которые можно начать с того что 90% всех данных на которых учат ИИ происходят из США и Европы. Факт которые кажется и так очевидным, но тут имеющий фактическое подтверждение.
Другой факт который я бы выделил. в том что прямой вклад государства в наборы данных для ИИ менее 10%. Среди создателей датасетов в виде текстовых ресурсов это только 9.3%, для аудио около 6% и для видео не более 1%.
Большая часть качественных датасетов создаются исследовательскими центрами и группами, а также лабораториями от индустрии разработчиков ИИ.
Важно также что резко растёт использование синтетических данных, данных соцмедиа и текстов веб сайтов, это существенное изменение по сравнению с тем как ранее собирались академические наборы данных в компьютерной лингвистике.
И, наконец, немаловажно что многие источники датасетов имеют гораздо большие ограничения на использование чем декларируемые лицензии. Простой пример, кто-то собрал датасет с видео из ТикТока и выложил его под лицензией CC-BY, но лицензия ТикТока не CC-BY, она довольно запретительна и разработчики ИИ имеют юридические риски в таких случаях, а их очень много.
Ссылки:
[1] https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/
[2] https://www.dataprovenance.org/Multimodal_Data_Provenance.pdf
#opendata #ai #datasets #linguistics
В рубрике как это устроено у них порталы данных эпидемиологических исследований, для них существует специальное ПО с открытым кодом Obiba Mica [1], я в прошлом году упоминал [2] портал с данными по COVID-19, но это далеко не единственный такой проект с данными.
На базе Obiba Mica работает несколько десятков порталов данных в рамках проектов RECAP Preterm [3], европейский проект мониторинга детей с недостаточным весом и рождённых до срока и EUCAN Connect [4] совместные проекты Евросоюза и Канады в области персонализированной и превентивной медицины. Инсталляции на базе Obiba Mica разбросаны по разным странам: Испания [5], Португалия [6] и многие другие.
В чём особенность этих порталов? Во первых они не содержат открытые данные. Практически всегда содержащиеся там данные - это медицинские сведения, даже если они деперсонализированы, они более всего похожи на микроданные переписей и также организованы.
У датасетов есть переменные и метаданные которые детально описаны, доступны, стандартизированы, но сами данные доступны только после регистрации, направления запроса и получения подтверждения.
И, конечно, это продукт с открытым исходным кодом [7].
Во многих научных дисциплинах есть специализированные продукты/каталоги данных используемых для доступа к данным исследований в форме специфичной для этой дисциплины и Obiba Mica - это один из таких примеров.
В реестре Dateno есть около 20 дата порталов на базе Obiba Mica, в дикой среде их ещё где-то столько же, но в индексе Dateno их нет, поскольку данные из таких каталогов недоступны, а есть только метаданные. А это снижает приоритет индексирования, не говоря уже о том что наборов данных в таких порталах немного, от единиц до пары сотен датасетов.
Ссылки:
[1] https://www.obiba.org/pages/products/mica/
[2] /channel/begtin/5053
[3] https://recap-preterm.eu/
[4] https://eucanconnect.com/
[5] https://coral.igtp.cat/pub/
[6] https://recap-ispup.inesctec.pt/pub/
[7] https://github.com/obiba
#opendata #datacatalogs #datasets #dateno #microdata #epidemiology
Вышел европейский доклад
Open data in Europe 2024 [1] который также называют доклад по зрелости открытых данных (Open Data Maturity Report). В нём анализ состояния открытости данных, порталов открытых данных и госполитик в этой области по всем странам ЕС + некоторым странам кандидатам + Украине. Например, Сербия, а также Босния и Герцеговина там есть, а вот Грузии и Турции там нет. Впрочем на сегодняшний день это самый всеохватывающий доклад по открытости данных в отдельном над государственном образовании / регионе.
На первых трех местах по общей оценке идут: Франция, Польша и Украина, а на последних трёх: Албания, Мальта и Босния и Герцеговина. Последний случай особый, там отставание от стран ЕС наиболее серьёзно. По сути в Боснии и Герцеговине внятной политики открытости данных нет, портал данных тоже был в полурабочем состоянии когда я смотрел его в последний раз.
Лично мне доклад наиболее интересен большим числом кейсов, примеров и ссылок на порталы. Всегда есть что добавить в реестр каталогов данных Dateno.
Ссылки:
[1] https://data.europa.eu/en/publications/open-data-maturity/2024
#opendata #europe
Публикация данных о розничных продажах по видам товаров осуществляется Росстатом согласно позиции 1.22.11 Федерального плана статистических работ (ФПСР), утвержденного распоряжением Правительства Российской Федерации от 6 мая 2008 г. № 671-р, с квартальной периодичностью по полному кругу хозяйствующих субъектов. Ежемесячное предоставление данных не предусматривается ФПСР. При этом мы видим интерес к данной публикации со стороны бизнеса и научного сообщества. Данные о розничных продажах по видам товаров за октябрь будут опубликованы на сайте Росстата https://rosstat.gov.ru/statistics/roznichnayatorgovlya 23 декабря. В Докладе «Социально-экономическое положение России» 27 декабря будут опубликованы данные за ноябрь.
Благодарим вас за обратную связь по нашему сайту. Мы регулярно работаем над его структурой и с удовольствием рассмотрим ваши предложения по его модернизации. Пишите в личные сообщения во ВК https://vk.com/rosstatistika или Telegram /channel/rosstat_official , или напрямую мне. Всегда ответим!
Рубрика "Циничный некролог"
Гостех - всё...
Если быть точным, Гостех в Сберовском варианте - всё. Теперь будет Гостех от Ростелека.
Но это уже совсем другая история.
PS. Для тех, кто не знает номера и названия ПП РФ наизусть:
ПП РФ 2194 - "Об утверждении Положения о ФГИС "Управление единой цифровой платформой Российской Федерации "ГосТех" и Положения о ФГИС "Госмаркет""
ПП РФ 2238 - "Об утверждении Положения о единой цифровой платформе Российской Федерации "ГосТех", о внесении изменений в постановление Правительства Российской Федерации от 6 июля 2015 г. N 676 и признании утратившим силу пункта 6 изменений, которые вносятся в требования к порядку создания, развития, ввода в эксплуатацию, эксплуатации и вывода из эксплуатации государственных информационных систем и дальнейшего хранения содержащейся в их базах данных информации, утвержденных постановлением Правительства Российской Федерации от 11 мая 2017 г. N 555" (да-да - вот такое название у ПП РФ)
В рубрике закрытых данных Росстат прекратил публикацию оценок месячных оборотов розницы по компонентам о чём пишет Коммерсант в статье от 12 декабря [1].
От себя добавлю что одна из сложностей в мониторинге исчезновения данных Росстата, в том что большая часть их публикацией - это не данные как данные, а таблицы как документы HTML, Word, реже Excel. Хочется сказать что спасибо что не сканированные PDF, но в целом это вызывает оторопь как и совершенно жуткая фрагментация публикаций. Нужно буквально знать где что лежит на сайте Росстата потому что так просто не найти, даже через внешний поиск сложно найти.
Поэтому отследить исчезновение их материалов могут, как правило, те кто работает с ними постоянно.
Ну и похоже что пора архивировать официальный сайт Росстата и другие их ресурсы. Просто чтобы была архивная копия, на всякий случай.
Правда, если сайт ещё можно сохранить, то с их BI системой [2] или с витринами данных [3] или с ЕМИСС [4] всё куда сложнее.
Витрины изначально были устроены так что требуют отдельного скрипта для сбора данных, BI система вообще не приспособлена к этому, а ЕМИСС с виду кажется что вот они данные, только качай, только публикация открытых данных сделана там через ... не через голову, в общем. То что выводится на страницах и то что опубликовано в разделе открытых данных - не бьются. Тоже требуется код чтобы полноценно собирать эти данные.
Ссылки:
[1] https://www.kommersant.ru/doc/7364997
[2] https://bi.gks.ru
[3] https://showdata.gks.ru
[4] https://fedstat.ru
#opendata #closeddata #russia #statistics
И ещё про итоги года, самое время вспомнить про тренды открытости и доступности данных в мире.
1. Больше международных данных. Совершенно точно общедоступных данных становится больше, большая часть новых данных публикуются как открытые (под свободными) лицензиями. Например, на большинстве сайтов активных межгосударственных организаций разделы "Статистика" и "Исследования" переименовали в разделы "Данные" или "Данные и статистика" и "Данные и исследования". Я бы даже сказал что это стало нормой для почти всех структур входящих в ООН, к примеру.
2. Больше данных городов и муниципалитетов. Местные/городские данные один из приоритетов OGP, порталы данных городов появляются во все большем числе стран и наиболее активно создаются порталы геоданных. А также именно в городах чаще используют SaaS решения вроде OpenDataSoft и ArcGIS Hub.
3. Больше данных для машинного обучения. Этот тренд исключительно нарастает, помимо Kaggle и Hugging Face данные публикуют на многочисленных других порталах и сайтах компаний, исследовательских центров и так далее.
4. Постепенное проникновение дата инженерии и дата сайенс в открытые данные. Это происходит медленно но в последние пару лет особенно заметно и то что данные всё чаще доступны для массовой выгрузки (bulk download) и в форматах вроде parquet (данные из порталов OpenDataSoft, данные французского нац портала портала, данные нац портала Малайзии)
5. Больше особенно ценных данных. Инициатива High Value Datasets в Европейском союзе развивается и за его пределами. Появляется всё больше данных имеющих прямую измеренную пользу для экономики и всё более закрепляется политика государств что открытость этих данных несёт больше пользы обществу и бизнесу в частности чем торговля ими.
6. Расширение вклада биг техов в открытость данных. Это касается тех данных которые касаются общей инфраструктуры, данных полученных с помощью ИИ, данных необходимых для обучения LLM моделей. Чаще всего это не собственные данные, а чьи-то ещё переупакованные, обогащённые и тем не менее полезные. Например, данные в рамках Overture Maps.
7. Усиление движения открытого доступа (Open Access). Что выражается не только в том что повышается доступность научных статей, но и в появлении всё большего числа порталов исследовательских данных открытого доступа. Также становится больше специализированных порталов данных привязанных к конкретным научным дисциплинам и их специфике.
8. Сложность восприятия ИИ среди open data активистов. Главными бенефициарами открытости не только данных, но и любых других свободно распространяемых материалов оказываются big tech компании, а теперь ещё и OpenAI и лидеры рынка LLM моделей. На многих волонтеров начинает давить ощущение что именно биг техи, а не общество выигрывают от открытости данных.
#opendata #opengov #data #thoughts
Немного отвлекаясь от сугубо технических тем и возвращаясь к сбору геотреков граждан государством в РФ, а ранее историям про госозеро и про огосударствление биометрических данных.
Помимо шуток и не шуток про тотальную слежку тут важно понимать что сама ситуация абсолютно уникальная. Я лично не знаю ни одну страну где государство де-факто национализировало бы данные бизнеса в таких количествах. Обычно всё происходит иначе и взаимоотношения гос-ва и дата-корпораций состоит из 3-х частей:
1) Корпорации и общественность лоббируют доступность тех или иных госданных которые предоставляются по разным моделям: открытые данные, доверенные операторы, покупка и продажа и тд.
2) Власти принуждают корпорации отдавать свои данные рынку, через антимонопольное давление, через программы по обмену данными (data sharing), через иные формы поощрения использования и предоставления данных
3) Спецслужбы/разведки разными непубличными способами взаимодействуют с крупнейшими сборщиками и операторами данных для решения госзадач в их ведении.
Собственно первые два типа взаимоотношений мы регулярно наблюдаем, про третий тип иногда происходят утечки, но в целом это то как мир развивается.
В России всё происходит иначе. Государство в лице фед. пр-ва шаг за шагом национализирует даже не просто базы данных, а целые блоки общественной жизни которые находятся у разного рода владельцев, дата корпораций и тд. и далее может раздавать эти данные кому надо. Скорее всего тем кто окажется ближе к лицам принимающающим решения.
Данные дата-корпораций становятся из их актива в государственный ресурс сдачи и раздачи. Мне это напоминает описанное в книгах Симона Гдальевича Кордонского, но перенесённое из физического пространства, в цифровое. Цифровые компании превращаются в цифровых бояр (или помещиков), оказываются во всё большей зависимости от федеральной власти, должны жить по определённым правилам игры не все из которых изложены нормативно.
Усиливаться эти цифровые бояре могут только путём приобретения адм. ресурса и укрупнением. Собственно подобное развитие отношений государство-бизнес, вместе с другими факторами, естественно ведёт к чеболизации всей этой сферы.
Честно говоря у меня каких-либо выводов нет, современный цифровой государственный патернализм стремительно набирает обороты, и пока какой-то большой цифровой катастрофы не произойдёт, то и шансов на то что этот процесс остановится или замедлится, нет.
P.S. Хочется добавить что такими темпами цифровая катастрофа неизбежна как один из чёрных лебедей который поломает цифровую инфраструктуру и что всё это выглядит довольно хрупко, но, думаю, что это и так очевидно.
#thoughts #russia #privacy
В рубрике закрытых российских данных Росавиация опубликовала общую статистику за 2023 год [1] и убрала с своего сайта все архивные данные статистики начиная с 2010 года в виде файлов и статистику на 2021-2022 годы. Они доступны теперь только в веб архив е [2]. Также на официальном сайте более недоступны статистика перевозки пассажиров и статистика перевоза грузов и почты по авиакомпаниям. Они, также, теперь есть только в архиве Интернет-архива [3] включая исторические данные с 2010 года.
Лично я отдельной новости о закрытии этих сведений не нашёл, но произошло это относительно недавно. Последний раз архивная копия фигурирует за апрель 2024 года.
Всё это к вопросу о том зачем надо архивировать содержимое российских госсайтов.
Ссылки:
[1] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-stat-dannie/
[2] https://web.archive.org/web/20240227060215/https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-osnovnye-proizvodstvennye-pokazateli-ga/
[3] https://web.archive.org/web/20240228103322/http://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-passazhirov/
#government #russia #diigitalpreservation #airtraffic #statistics
Скоро надо будет подводить итоги этого года. Личные, профессиональные и всякие. У меня не получится изложить их в один текст/пост, начну с того что пришлось отложить и что пока не сделано. Всё это, идёт не первым приоритетом потому что first things first.
Вот наиболее технические отложенные задачи:
- Новый интерфейс для Ruarxive. Уже давно откладываемая задача на которую нет ресурсов это перезагрузка Национального цифрового архива ruarxive.org так чтобы сделать нормальный поиск по архивам, индексирование WARC файлов и удобный поиск по ним. Это оказалось не то чтобы сложной задачей, но требующей времени и концентрации хотя бы по написанию ТЗ чтобы к ней кого-то привлечь.
- Архивация госсайтов в РФ. Надо провести повторную архивацию всех ключевых российских госресурсов, в особенности всех цифровых ресурсов Росстата, сохранность их вызывает большие опасения. Но это стало сильно сложнее, многие российские госсайты теперь активно блокируют внешние краулеры, особенно из других стран
- Автоматизация документирования датасетов и баз данных. Нарастающая по важности задача поскольку данных всё больше, документировать их вручную всё более болезненно. Есть наработки в виде инструмента metacrafter'а и рассеяного кода, но надо всё свести конкретную модель и архитектуру. Скорее всего это постепенно сдвигается в сторону повышения качества Dateno и нового качества поиска.
- Много неопубликованных датасетов. По многим странам, не только по РФ. Например, база всего законодательства Казахстана в структурированном виде. Данные готовы, но не оформлены, не описаны, недостаточно ещё задокументированы.
- Библиотека универсального доступа к каталогам данных. Очень давно об этом думаю о том как сделать универсальный инструмент для поиска и доступа к данным в типовых каталогах, CKAN, DKAN, DataVerse, GeoNode и десятку других. Потому что в этом есть необходимость и довольно актуальная. Возможно наиболее логично перенести это в Dateno и сдвинуть в сторону сбора метаданных.
- Перезапустить оценку понятности языка PlainRussian. Возможно отложенное надолго поскольку LLM'ки типа GPT умеют это лучше. Конкурировать с ними сложно и непонятно зачем. Туда же относится создание оценки понятности языка для других языков, таких как армянский язык. Ничего сложного в этом нет, но опять же LLM дают лучший результат.
- Незавершённые проекты в Open Data Armenia. Многое всё ещё существует в полусобранных проектах, надо собраться с мыслями и силами довести их до продуктового состояния и продолжать развивать сообщество не только конкурсами, но и общей инфраструктурой данных.
- Неопубликованные курсы. По веб архивации, по digital humanities, по data discovery и по автоматизации каталогизации данных и их извлечению. И про обработку данных новыми инструментами.
- Недописанные книги/тексты/мануалы. Их как-то очень много, про личные тексты написать отдельно надо, а про рабочие - это тексты/книга про то как устроены данные и, что даже важнее, метаданные.
Про более приоритетное, особенно про Dateno, я ещё напишу позже.
Передаю эстафету всем тем кто думает о несделанном и думает о грузе несделанного о за прошлый год и как это сделать в следующем году.
#endofyear #thoughts #thinking #plans
В российском Форбс статья [1] о том что гос-во в лице Минцифры запланировало сбор "обезличенных геотреков" со всех сотовых операторов обо всех россиянах. В статье мой комментарий тоже есть, а я добавлю тезисов тут:
1. Надо понимать что государство ключевой маркетмейкер всего что касается закупки данных, сервисов и геоаналитики. Разговоры про сбор данных в госозеро - это де-факто национализация данных, отъём их от участников рынка и предоставление госсервисов на их основе. Госсервисов которые будут монопольны и поубивают частные потому что ни у одного сотового оператора такой базы не будет. Закончится это тем что государство, либо создаст отдельный бизнес юнит для торговли такими сервисами, или делегирует одному из имеющихся госАО, госГБУ, госАНО и тд. Как бы ни был "тяжёл" частный рынок, монополия будет хуже. Акции всех сотовых операторов и будущие доходы тоже просядут.
2. Что бы там не говорили про обезличивание по геотрекам очень просто восстановить информацию о конкретном человеке. Объектами слежки, чтобы кто там ни думал, будут не рядовые граждане, а сами же чиновники. Ничто не помешает приходящим в РФ к власти "консервативным силам" вычислить всех министров, замминистров, директоров департаментов нетрадиционной ориентации и ловить их во время очередного рейда по ночным клубам. Это и сейчас не так сложно, получая данные от сотовых операторов, но с геотреками будет ещё больше.
Я бы тут ещё много тезисов добавил, но не могу, сбоит внутренний переводчик с простого русского просторечного на русский публицистический. Но, в общем, все меня поняли;)
Ссылки:
[1] https://www.forbes.ru/tekhnologii/527832-mesta-znat-nado-gosudarstvo-hocet-sobirat-mobil-nye-geodannye-rossian-u-operatorov
#regulation #russia #privacy
К вопросу про открытые данные их количество и качество, я уже не раз обращался к теме с публикацией открытых данных Центральной Азии и Казахстана в частности, что слишком многие инициативы по открытым данным там не про быть а про казаться. В ту же копилку, портал открытых данных Казахстана data.egov.kz [1]. Помимо того что он не про открытые данные и того что там есть ограничения в виде запрета на скачивание более 100 записей (!!) и отсутствия свободных лицензий, так ещё и то что там называется данными это, как бы помягче, совсем ими не является. Вот пример, "набор данных" под названием "Контактные данные" [2]. Это просто одна строка. Всего лишь одна запись и она называется набором данных!
И это не единственный пример, таких одно-двух-трехстрочных записей много, вот ещё [3] [4] [5] [6] и ещё и ещё и ещё.
Надо ли объяснять что такие "наборы данных" полностью бесполезны, это, либо сведения которые никому не нужны, либо отдельные значения того что должно быть временным рядом.
При том что данных в стране немало, одних только данных Казстата и Нацпортала геоданных не меньше чем на data.egov.kz.
Это одна из причин почему мы до сих пор не индексируем нац портал открытых данных Казахстана в Dateno, хотя всего у нас в индексе более 34 тысяч наборов данных по стране [7] большая часть которых - это международная статистика (24 тысячи) и геопорталы страны (10 тысяч).
Ссылки:
[1] https://data.egov.kz
[2] https://data.egov.kz/datasets/view?index=bailanys_derekteri
[3] https://data.egov.kz/datasets/view?index=zhurgizilip_zhatkan_zertteuler
[4] https://data.egov.kz/datasets/view?index=basshylyk2
[5] https://data.egov.kz/datasets/view?index=number_of_active_borrowers3
[6] https://data.egov.kz/datasets/view?index=svedeniya_call_centr
[7] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Kazakhstan
#opendata #kazakhstan #datacatalogs
В рубрике как это устроено у них портал статистики Резервного банка Индии Database on Indian Economy [1] на котором публикуются сотни индикаторов и статистических данных страны и более тысячи таблиц в общей сложности.
Большая часть индикаторов годовые и квартальные, но есть и дневные и еженедельные показатели [2]. Портал отличается тем что совмещает визуализацию данных с возможностью получить в машиночитаемой форме через систему запросов к базе данных [3].
Из плюсов:
- много индикаторов
- есть оперативные показатели (до суток)
- централизованный поиск
- получение данных в CSV формате
Из минусов:
- нет документированного API (недокументированное есть)
- нет поддержки SDMX
- нет возможности массовой выгрузки (bulk download)
Если говорить объективно, то это очень консервативная штука сделанная на базе SAP BI и объективно неудобная, но на фоне многих других баз индикаторов в Индии она не так уже плоха.
Ссылки:
[1] https://data.rbi.org.in/#/dbie/home
[2] https://data.rbi.org.in/#/dbie/indicators
[3] https://data.rbi.org.in/#/dbie/dataquery_enhanced
#opendata #datasets #datacatalogs #statistics #india
В качестве регулярных напоминаний, с 1 по 7 марта 2025 года по всему миру пройдут мероприятия Дней открытых данных (Open Data Days, ODD) [1]. Это множество выступлений, лекций, семинаров и встреч по всему миру. Кто то слушает выступления других, кто-то проводит самостоятельно.
Ежегодно в России в Москве его проводит Инфокультура (@infoculture), с 2020 года в дистанционном формате. О прошлом ODD можно узнать на его сайте [2]. В 2025 году он, также, будет проходить дистанционно. Традиционно ключевая тема ODD - это открытые данные, мы также делаем акцент на данных связанных с культурой и историческим наследием, а также данными используемыми в исследовательских целях. В этот мероприятие также планируем и если у Вас есть желание выступить, то можно заранее писать мне.
В Армении мы также проводим день открытых данных, но вживую, организуя его от Open Data Armenia (@opendataam) и акцент делаем не только культурном наследии, но и на журналистике и практическом применении данных. Можно посмотреть программу прошлого ODD [3]. Если Вы в Армении и у Вас есть интересный доклад про данные и открытые данные, тоже обязательно напишите.
И, конечно, напишите, если Вы готовы выступить спонсором или иначе поддержать эти мероприятия. Наших скромных ресурсов хватает чтобы их организовать, но никогда не хватает чтобы сделать это идеально 😉
И, наконец, Open Data Day - это не только большие мероприятия, это ещё и сотни небольших митапов по всему миру, хороший повод собраться и поговорить о важном. Можно не только смотреть и участвовать в наших мероприятиях, но и организовать своё, в своём городе, университете или по какой-то своей специальной теме. О таких мероприятиях мы обязательно пишем на наших ресурсах и помогаем привлечь к ним внимание.
Ссылки:
[1] https://opendataday.org
[2] https://opendataday.ru/msk
[3] https://odd.opendata.am
#opendata #opendataday #data #events
В рубрике как это устроено у них European Health Information Gateway [1] портал данных Всемирной организации здравоохранения (WHO) на котором опубликованы десятки наборов данных с данными по статистике здравоохранения, целевым исследованиям, мониторингу и отчётам по европейским странам. Причём к Европе там отнесены и Турция, и Россия, и Армения и страны Центральной Азии. По каждой из стран доступно множество индикаторов и есть возможность работать с этими данными с помощью API [2].
Сам сайт представлен на двух языках, английском и русском, что тоже нестандартно для сайтов структур ООН, обычно там или только английский, или набор основных языков ООН.
Для тех кто ищет региональные данные не обязательно отправляться на сайт WHO, можно обратить внимание на их региональные порталы с данными. Другие примеры таких порталов по регионам:
- data.wpro.who.int - Western Pacific [3]
- opendata.paho.org - Americas [4]
- hip.searo.who.int - South-East Asia [5]
и так далее. Среди них европейский портал сделан существенно лучше, там, и удобное API,и отдельно датасеты и отдельно индикаторы.
Ссылки:
[1] https://gateway.euro.who.int/en/
[2] https://gateway.euro.who.int/en/api/
[3] https://data.wpro.who.int/
[4] https://opendata.paho.org/en
[5] https://hip.searo.who.int/dhis/dhis-web-commons/security/login.action
#opendata #datasets #europe #statistics #healthcare
Свежие тенденции госинноваций из последнего отчета ОЭСР [1]:
- Тенденция 1: ориентированные на будущее и совместно созданные государственные услуги
- Тенденция 2: Цифровые и инновационные основы для эффективных государственных услуг
- Тенденция 3: персонализированные и проактивные государственные услуги для -обеспечения доступности и инклюзивности
- Тенденция 4: Государственные услуги, основанные на данных, для принятия более эффективных решений
- Тенденция 5: Государственные услуги как возможность участия общественности
Вернее ну как свежие, мало что поменялось, разве что все инновации стали привязаны к цифровым сервисам.
Я не устаю повторять что нет давно уже цифровой экономики, есть просто Экономика и она вся цифровая, а та что нецифровая - это Маргинальная экономика.
И нет давно уже Цифрового госуправления. Есть Госуправление и оно должно быть/уже есть всё цифровое. А всё что нецифровое - это форма варварства.
По 4-му тренду практически все примеры про открытые данные и про трансформацию порталов с открытыми данным в оказание услуг информирования, например, о качестве воздуха. Про примеры я как-нибудь потом напишу, про те что самые интересные, а также как тут не вспомнить про очень полезный каталог инноваций у ОЭСР - OPSI [2] с разбором очень многих проектов.
А вообще такие доклады полезны примерами. Почитать их стоит хотя бы просто чтобы знать что в мире творится то.
Ссылки:
[1] https://www.oecd.org/en/publications/global-trends-in-government-innovation-2024_c1bc19c3-en/full-report.html
[2] https://oecd-opsi.org/
#opendata #opengov #data #oecd #government #innovation
В продолжение про зрелость открытых данных в Европе, коротко о том как в Европейском союзе устроена работа с открытыми данными.
1. У ЕС сформировалось зрелое законодательство по открытости охватывающее все страны, в которых приняты соответствующие законы, созданы порталы с открытыми данными, мониторинг их публикации и множество инициатив так или иначе с этим связанных.
2. Еврокомиссия ведёт портал data.europa.eu в котором аггрегируется уже более 1.8 миллиона наборов данных из порталов открытых данных ЕС
3. Около 2/3 всех опубликованных данных на национальных порталах открытых данных в ЕС - это геоданные.
4. В ЕС особенно много порталов данных и геопорталов регионального и муниципального уровня. В реестре каталогов данных Dateno их 467, с оговоркой что в реальности их значительно больше
5. Значительная часть региональных и городских порталов открытых данных работают на базе SaaS продукта от французского разработчика OpenDataSoft
6. В отличие от США в ЕС публикации на национальных порталах открытых данных и в научных репозиториях разделены и научные данные европейских исследователей представлены в системе OpeanAIRE
7. Важная особенность Евросоюза - это раскрытие данных особой ценности (HVD, High Value Datasets). Наборы данных про которые точно известно что они востребованы пользователями.
8. В Dateno чуть менее 7 миллионов наборов данных собраны из стран ЕС или охватывают страны ЕС. Большая часть этих данных - это геоданные, около 55%
9. При этом Dateno индексирует лишь половину национальных порталов стран ЕС поскольку другая половина использует нетиповое ПО. Откуда тогда такой охват? Из большого числа малых региональных и городских порталов данных и геопорталов, которые не попадают в общеевропейский data.europa.eu. Постепенно в Dateno будут все европейские национальные порталы данных тоже
10. Ещё одна тема не раскрываемая в отчетах Open Data Maturity - это доступность статистики. В ЕС наднациональная статистика Евростата и ЕЦБ хорошо представлена для любых пользователей, включая тех кто работает с ними как с базами данных. На национальном уровне большой разброс разных систем публикации индикаторов. но более всего используется шведская система PxWeb
11. В ЕС до сих пор популярно предоставление национальных данных через интерфейсы SPARQL и как связанные данные. Такое мало где практикуется в мире, слабо связано с современными инструментами работы с данными и дата инженерии, но имеет прямую взаимосвязь с работой с научными данными и онтологиями.
#opendata #europe #datacatalogs
А что есть наборы данных?
Мысли к которым я регулярно возвращаюсь - это размышления о том что есть данные, чем они не являются и то по каким критериям считать что цифровой объект это дата файл или датасет.
Вот несколько примеров для размышления. Репозитории данных TextGRID [1], Virtual Language Observatory [2] и ряда других репозиториев связанных с компьютерной лингвистикой содержат множество цифровых объектов которые, в целом, можно относить к данным, но одновременно с этим там огромное число мультимедиа объектов: аудио, изображений и видео, а также множество текстов.
С точки зрения компьютерных лингвистов это, наверняка, данные, но для всех остальных они немашиночитаемы. Можно ли считать их датасетами? Когда эти же цифровые объекты представлены как наборы данных для машинного обучения, то это точно датасеты, без сомнений. Почему? Потому что у них потребители дата сайентисты. А чем хуже компьютерные лингвисты тогда? Вот, в том то и вопрос.
Другой пример, обязательные к раскрытию документы публичных компаний. В США публикуют файлы через систему SEC, в других странах есть аналогичное, а также сайты бирж. Среди их документов много Excel файлов и табличек внутри файлов PDF и MS Word. Можно ли рассматривать их как датасеты? С точки зрения финансовых аналитиков это, как минимум, файлы с данными. А финансовые аналитики это тоже пользователи данных, и одни из самых активных. Так как, можно ли трактовать их как датасеты?
Или, к примеру, документы прайс листов которые компании публикуют у себя на сайтах и некоторых площадках. Это ни в какой форме не public domain, тут вероятно и авторское право присутствует. С другой стороны, никто же на него не покушается, если индексировать их поисковиком, то просто в условиях использования устанавливать что права защищены. Но можно ли такие файлы считать наборами данных? По моему скорее нет, чем да, но есть сомнения.
Главные отличия датасета от любого просто лежащего в интернете файла с данными - это наличие карточки метаданных, контент машиночитаем и наличествует квалифицированный потребитель. Но очень и очень много случаев когда потребитель не так квалифицирован, данные не совсем машиночитаемы, а карточка с метаданными минимальна.
Ссылки:
[1] https://textgridrep.org
[2] https://vlo.clarin.eu
#opendata #datasets #thoughts
Каждый имеет право на ответ (с)
Публикую текст от пресс-секретаря Росстата по ситуации с доступностью данных о розничных продажах.
#opendata #rosstat #statistics #russia
Много лет я писал что Гостех в РФ - это мертворождённый проект. Вначале от него отказались в Пр-ве Москвы, потом в Пр-ве Казахстана, а теперь и федералы слили его. Если честно в какой-то момент меня перестала беспокоить его судьба, потому что заниматься большими международными данными куда интереснее чем российская госинформатизация. Но тем не менее. Итог закономерный и это радует.
#russia #government #govtech
Какой хороший инструмент, но без открытого кода.
Я эту фразу в последние годы повторяю чаще чем хотелось бы. Применительно почти ко всем инструментам, кроме тех где отсутствие кода оправдано. Например, выбираю инструмент для создания резервных копий и это сводится в итоге к Borg или Restic, хотя есть коммерческие альтернативы и неплохие. Но зачем они нужны если есть не хуже, а иногда и лучше с открытым кодом?
Или инструменты обработки и очистки данных. Да, их много, но чаще всего достаточно OpenRefine, или инструментов вроде pandas, polars, duckdb и др. для работы с датафреймами.
Или для ведения заметок, зачем нужны другие если есть Obsidian ? Конечно много хороших инструментов, но реально Obsidian закрывает большую часть задач.
Я не единственный кто так рассуждает. Достаточно подсчитать ежемесячные/ежегодные расходы на ПО и сервисы по подписке чтобы понимать реальную нагрузку на свой кошелёк или кошелёк компании.
Всё это про ниши продуктов и про то какие их свойства и характеристики подталкивают к тому чтобы их купить и какие приводят к поиску бесплатных альтернатив. Главный критерий - это то сколько усилий нужно приложить и насколько продуктовые характеристики реально создают качество жизни, удобство работы и тд.
Я бы распределил эти фичи следующим образом:
1. AI powered. Там где это уместно, там где это логично, там где это необходимо, там где есть для этого потребность - это реально повышает качество продукта. У нас в Dateno такое давно назрело и мы всё ещё планируем и ищем человека под fulltime работу на эти задачи с учётом и оговоркой что у нас международный проект и у него есть своя специфика. Но AI powered для данных я вижу много где, в первую очередь в многочисленных аналитических сервисах которые на основе пользовательских данных генерируют разного рода дашборды. То на что аналитик может потратить несколько недель делается за несколько часов.
2. Интеграция с облаками. То что является маст-хэв фичами для почти всех инструментов для работы с данными. Так чтобы напрямую подключаться к S3 совместимому хранилищу, но с оговоркой что такие возможности стали уже по умолчанию у много каких открытых инструментов и зачем платить за коммерческую фичу.
3. Множество устройств. Особенно в части перехода с небольшого числа личных устройств на устройства для небольшой команды. У меня перед глазами есть как минимум такой инструмент и сервис как Tailscale, но это распространяется и на другие подобного рода zero-config сервисы.
Список не исчерпывающий, но важный в том что наиболее востребована комбинация стоимости воспроизведения сервиса или продукта и пользы которую он приносит.
А вот, к примеру, сейчас сложно сделать сервис ETL/ELT которому нет замены с открытым кодом
Поэтому работая над текущими продуктами всегда нужен ответ как минимум на 2 вопроса:
1) Есть ли у продукта открытая альтернатива?
2) Можно ли то же самое сделать с помощью ChatGPT ?
#thoughts #products