I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech
В продолжение поста про статистику в Dateno. Это, в принципе, очень большое изменение в том как мы наполняем поисковик. Если раньше приоритет был на индексирование внешних ресурсов и поиск только по метаданным, то сейчас появилось как минимум 2 источника - это статистика Всемирного банка и Международной организации труда которая полностью загружена во внутреннее хранилище, разобрана и подготовлена и теперь можно:
1.Скачать данные в самых популярных форматах, а не только то как они представлены в первоисточнике
2. Видеть полную документированную спецификацию каждого показателя/временного ряда
3. Видеть все дополнительные метаданные как они есть в первоисточнике (подсказка, там больше полезного чем просто в карточке датасета).
Постепенно почти вся статистика в Dateno будет представлена аналогично, это десятки миллионов временных рядов и сотни тысяч индикаторов.
Для тех кто работает со статистикой профессионально мы подготовим API именно для доступ в банк статданных.
Примеры можно посмотреть в поиске фильтруя по источникам: World Bank Open Data и ILOSTAT.
Примеры датасетов:
- набор данных Всемирного банка
- набор данных Международной организации труда
#opendata #dateno #search #datasets #statistics
Для тех кто любит не только читать, но и слушать книжки. Audiblez [1] генератор аудиокниг по текстам, с открытым кодом, командной строкой и UI интерфейсом. Поддерживает английский, испанский, французский, хинди, итальянский, японский, португальский и китайский. Русский не поддерживает и даже армянского языка нет - это минус, в основном из-за того что внутри используется Kokoro-82M [2] модель где только эти языки. Можно выбрать книгу в epub формате и голос и создать аудиокнигу.
Сама генерация аудиокниги весьма ресурсоёмкая, но реалистичная.
Лицензия MIT.
Ссылки:
[1] https://github.com/santinic/audiblez
[2] https://huggingface.co/hexgrad/Kokoro-82M
#opensource #ai #books #readings
О том как устроена архивация сайтов в примере. Я не раз писал о том как устроена веб архивация и цифровое архивирование в принципе и среди многих проблем в этой области, далеко не последняя в том что почти весь инструментарий для этой задачи, скажем так, слегка устарелый. А на то чтобы переписать его нужны серьёзные расходы, но не инвестиционные потому что они врядли окупаются.
Один из таких инструментов - это grab-site [1] от команды ArchiveTeam, волонтеров архивирующих гибнущие веб сайты.
Его ключевые фичи - это возможность динамически настраивать списки блокировки/игнорирования и большие подборки преднастроенных правил игнорирования несодержательного контента.
Это, к слову, одна из серьёзных проблем при веб архивации, чтобы краулер не оказался в ловушке циклических перенаправлений и чтобы он не индексировал дубликаты. А также у grab-site в комплекте сервер мониторинга краулинга.
Внутри grab-site используется аналог утилиты wget под названием wpull. С очень давно не обновлявшимся кодом и чуть большими возможностями по автоматизации обработки получаемого потока данных.
Все эти инструменты из экосистемы WARC, они архивируют весь контент в WARC файлы.
Это экосистема выросшая из Интернет Архива, но переставшая развиваться уже много лет. Гораздо чаще контент с сайтов краулят не для архивации, а для обработки или извлечения данных и инструменты для архивации из WARC экосистемы для этого пригодны плохо.
Вместо них используют совсем другие краулеры, в том числе ныне популярные краулеры для AI или встроенные в инструменты вроде Elastic.
Тем не менее на фоне реформы российского Росстата архивировать его контент необходимо потому что, выражаясь аллегорически, "Почему-то каждый раз когда они снимают фильм про Робин Гуда, они сжигают нашу деревню" (c).
А я напомню про ещё один инструмент, metawarc [2] это разработанная мной несколько лет назад утилита по анализу веб архивов. Она извлекает из WARC файлов метаданные и делает рядом индексный файл с которым можно работать через SQL.
Ссылки:
[1] https://github.com/ArchiveTeam/grab-site
[2] https://github.com/datacoon/metawarc
#webarchives #digitalpreservation #opensource
Как читать отчёты Счетной палаты в РФ ? Не надо читать финальные выводы и довольно бесполезно читать вступление. Всё самое главное посередине там где изложение фактов. Какие-то факты могут отсутствовать, может не быть иногда глубины, но те что приведены, как правило, достаточно точны.
История с ГАС Правосудие и потерей огромного объёма данных судебных решений именно тот случай [1]. Спасибо ребятам из Если быть точным за подробное изложение и анализ этой истории [2]. Единственно с чем я несогласен, а это не надо сотням людей использовать один парсер. Нужна была бы открытая база судебных решений которая когда-то была в Росправосудии. Парсер - это плохой путь, приводящий к массовому применении каптчи. Но создать ресурс с данными тоже непросто, его могут быстро заблокировать.
Однако в этой истории про ГАС Правосудие я хочу сделать акцент на 60+ миллиардах потраченных на эту систему денег, и даже не на то что их взломали, и это всячески скрывали. А на том у что у системы не было резервных копий.
И скажу я вам не тая, подозреваю что это не единственная российская государственная информационная система резервных копий к которых нет. И не появится если за это не будет последствий, а их похоже что нет.
И, конечно, данные по судебным делам - это самое что ни на есть общественное достояние, общественно значимые данные которые безусловно и безальтернативно должны были бы быть открытыми. Вместо того чтобы отреагировать на парсеры данных выкладкой датасетов для массовой выгрузки, сотрудники Суддепа много лет развлекались встраиванием каптчи на страницах сайта. А то есть на "вредительство" у них время и ресурсы были, а на создание архивных копий нет?
Ссылки:
[1] /channel/expertgd/12660
[2] /channel/tochno_st/518
#opendata #closeddata #theyfailed #russia
Некоторые мысли вслух по поводу технологических трендов последнего времени:
1. Возвращение профессионализации в ИТ.
Как следствие массового применения LLM для разработки и кризиса "рынка джуниоров" в ИТ. LLM ещё не скоро научатся отладке кода и в этом смысле не смогут заменить senior и middle разработчиков, а вот про массовое исчезновение вакансий и увольнения младших разработчиков - это всё уже с нами. Плохо ли это или хорошо? Это плохо для тех кто пошёл в ИТ не имея реального интереса к профессиональной ИТ разработке, хорошо для тех для кого программная инженерия - это основная специальность и очень хорошо для отраслевых специалистов готовых осваивать nocode и lowcode инструменты.
Перспектива: прямо сейчас
2. Регистрация и аттестация ИИ агентов и LLM.
В случае с ИИ повторяется история с развитием Интернета, когда технологии менялись значительно быстрее чем регуляторы могли/способны реагировать. Сейчас есть ситуация с высокой степенью фрагментации и демократизации доступа к ИИ агентам, даже при наличии очень крупных провайдеров сервисов, у них множество альтернатив и есть возможность использовать их на собственном оборудовании. Но это не значит что пр-ва по всему миру не алчут ограничить и регулировать их применение. Сейчас их останавливает только непрерывный поток технологических изменений. Как только этот поток хоть чуть-чуть сбавит напор, неизбежен приход регуляторов и введение аттестации, реестров допустимых LLM/ИИ агентов и тд. Всё это будет происходить под знамёнами: защиты перс. данных, защиты прав потребителей, цензуры (защиты от недопустимого контента), защиты детей, защиты пациентов, национальной безопасности и тд.
Перспектива: 1-3 года
3. Резкая смена ландшафта поисковых систем
Наиболее вероятный кандидат Perplexity как новый игрок, но может и Bing вынырнуть из небытия, теоретически и OpenAI и Anthropic могут реализовать полноценную замену поиску Google. Ключевое тут в контроле экосистем и изменении интересов операторов этих экосистем. А экосистем, по сути, сейчас три: Apple, Google и Microsoft. Понятно что Google не будет заменять свой поисковик на Android'е на что-либо ещё, но Apple вполне может заменить поиск под давлением регулятора и не только и пока Perplexity похоже на наиболее вероятного кандидата. Но, опять же, и Microsoft может перезапустить Bing на фоне этих событий.
Перспектива: 1 год
4. Поглощение ИИ-агентами корпоративных BI систем
Применение больших облачных ИИ агентов внутри компаний ограничено много чем, коммерческой тайной, персональными данными и тд., но "внутри" компаний могут разворачиваться собственные LLM системы которые будут чем-то похожи на корпоративные BI / ETL продукты, они тоже будут состыкованы со множеством внутренних источников данных. Сейчас разработчики корпоративных BI будут пытаться поставлять продукты с подключением к LLM/встроенным LLM. В перспективе всё будет наоборот. Будут продукты в виде корпоративных LLM с функциями BI.
Перспектива: 1-2 года
5. Сжимание рынка написания текстов / документации
Рынок документирования ИТ продукта если ещё не схлопнулся, то резко сжимается уже сейчас, а люди занимавшиеся тех писательством теперь могут оказаться без работы или с другой работой. В любом случае - это то что не просто поддаётся автоматизации, а просто напрашивающееся на неё. Всё больше стартапов и сервисов которые создадут Вам качественную документацию по Вашему коду, по спецификации API, по бессвязанным мыслям и многому другому.
Перспектива: прямо сейчас
#ai #thinking #reading #thoughts
Я об этом редко упоминаю, но у меня есть хобби по написанию наивных научно фантастических рассказов и стихов, когда есть немного свободного времени и подходящие темы.
И вот в последнее время я думаю о том какие есть подходящие темы в контексте человечества и ИИ, так чтобы в контексте современного прогресса и не сильно повторяться с НФ произведениями прошлых лет.
Вот моя коллекция потенциальных тем для сюжетов.
1. Сила одного
Развитие ИИ и интеграции ИИ агентов в повседневную жизнь даёт новые возможности одиночкам осуществлять террор. Террористы не объединяются в ячейки, не общаются между собой, к ним невозможно внедрится или "расколоть" потому что они становятся технически подкованными одиночками с помощью дронов, ИИ агентов и тд. сеящие много хаоса.
2. Безэтичные ИИ.
Параллельно к этическим ИИ появляется чёрный рынок отключения этики у ИИ моделей и продажа моделей изначально с отключённой этикой. Все спецслужбы пользуются только такими ИИ, как и многие преступники. У таких ИИ агентов нет ограничений на советы, рекомендации, действия и тд.
3. Корпорация "Сделано людьми"
Почти всё творчество в мире или создаётся ИИ, или с помощью ИИ или в среде подверженной культурному влиянию ИИ. Появляется корпорация "Сделано людьми" сертифицирующая продукцию как гарантированно произведённой человеком. Такая сертификация это сложный и болезненный процесс, требующий от желающих её пройти большой самоотдачи.
#thoughts #future #thinking #ai
Model Context Protocol (MCP) был разработан компанией Anthropic для интеграции существующих сервисов и данных в LLM Claude. Это весьма простой и неплохо стандартизированный протокол с вариантами референсной реализации на Python, Java, Typescript, Swift, Kotlin, C# и с большим числом реализаций на других языках.
Тысячи серверов MCP уже доступны и вот основные ресурсы где можно их искать:
- Model Context Protocol servers - большой каталог на Github
- Awesome MCP Servers - ещё один большой каталог с переводом на несколько языков
- Pipedream MCP - интеграция с 12.5 тысяч API и инструментов через сервис Pipedream
- Zapier MCP - интеграция с 8 тысячами приложений через сервис Zapier
- Smithery - каталог MCP серверов, 6200+ записей по множеству категорий
- MCP.so - каталог в 13100+ MCP серверов
Похоже мода на MCP пришла надолго и пора добавлять его к своим продуктам повсеместно.
#ai #opensource #aitools
В продолжение короткого анализа плана мероприятий по реформе статистики в РФ напомню мои многочисленные тексты про статистику в России и не только:
- Российская статистика: немашиночитаемая институциональная фрагментация - о том российская статистика рассеяна по сотням сайтов
- Статистика как дата продукт - о том как рассматривать статистику как дата продукты
- Дашборд Германии (Dashboard Deutchland) - о том как публикуются статистические индикаторы статслужбой ФРГ
- Обзор сайта Office for National Statistics в Великобритании - о том как раскрывают данные статслужбы Великобритании
- Обзор геопространственной статистики Мексики - от их Национального института статистики
- Признаки хорошей статистической системы - о том как можно публиковать статданные удобным образом
- О статслужбах Канады и Хорватии - и о том как официальные сайты статслужб становятся поисковиком
- О DBNomics - французском проекте по агрегации статистики со всего мира.
- Публикация данных IMF - о том как публикуются данные международного валютного фонда
И многое другое по тегу #statistics тут в телеграм канале.
Учитывая что с самого начала я заводил этот телеграм канал как базу заметок, уже чувствую необходимость превратить его в базу знаний с автоматической синхронизацией того что пишу здесь, в том что разворачивалось бы как Markdown тексты с движком вроде Docusaurus или аналогичными Wiki подобными open source продуктами. Или с автоматической синхронизацией с Obsidian или Notion.
#statistics #readings
Anthropic запустили программу AI for Science [1] обещая выдавать существенное количество кредитов для запросов к их AI моделям. Акцент в их программе на проекты в областях биологии и наук о жизни, обещают выдавать кредитов до 20 тысяч USD, так что это вполне себе серьёзные гранты для небольших целевых проектов. Ограничения по странам не указаны, но указание научного учреждения и ещё многих других данных в заявке обязательно.
И на близкую тему Charting the AI for Good Landscape – A New Look [2] о инициативах в области ИИ затрагивающих НКО и инициативы по улучшению жизни, так называемые AI for Good. Применение AI в науках о жизни - это почти всегда AI for Good, так что всё это очень взаимосвязано.
Ссылки:
[1] https://www.anthropic.com/news/ai-for-science-program
[2] https://data.org/news/charting-the-ai-for-good-landscape-a-new-look/
#openaccess #openscience #ai #grants #readings
По поводу свежего документа с планом мероприятий по реализации Стратегии развития системы государственной статистики и Росстата до 2030 года [1] принятого распоряжением Правительства РФ 30 апреля.
Опишу тезисно и сжато по результатам беглого прочтения.
Положительное
- систематизация ведения статистики, в том числе разработка стандарта (мероприятие 6) и гармонизация справочников (мероприятия 7-10) и разработка стандарта качества (мероприятия 11-13).
- предоставление статистических микроданных для исследователей (мероприятие 40) в соответствии с разрабатываемым регламентом
- явным образом декларируется участие в международных мероприятиях и международной стандартизации статистического учёта
Нейтральное
- создание межведомственного совета по статучёту, пока неясно насколько это будет функциональная и продуктивная структура
- терминологически разведены блоки мероприятий "административных данных" и "больших данных", хотя административные данные по статистическим методологиям в мире относят к подвиду "больших данных".
- ведомственная статистика явным образом не упоминается, наиболее близкий к ней пункт, это мероприятие 8 формирование единого реестра первичных статистических показателей, статистических показателей и административных данных. Возможно она находится де-факто в этом пункте
- новая (?) платформа предоставления статистических данных в мероприятиях 48 и 49. Пока ничего неизвестно по тому как она будет создаваться и эксплуатироваться. Будут ли данные там общедоступны или доступны ограниченно.
- мероприятие по созданию общедоступного архива региональных статистических изданий (мероприятие 47). Нельзя отнести к положительному поскольку срок реализации поставлен на ноябрь 2029 года, в том время как оптимизация численности Росстата запланирована на конец 2027 года. Кроме того пункт 47 неконсистентен. Название упоминает любые архивные статданные, но результат предполагается оценивать только по региональным статданным.
Отрицательное
- полное отсутствие упоминание открытости, открытых данных. Предоставление данных статистики скрыто в разделе "Модернизация инструментов распространения статистических данных", но там упоминается смешение системы публикации показателей и геопространственного представления статистики, но не режим доступа к этой системе.
- полное отсутствие упоминаний системы ЕМИСС включая её возможную судьбу: развитие, вывод из эксплуатации, интеграцию в другую информационную систему
- неопределённый статус Цифровой аналитической платформы (ЦАП) Росстата. Она упоминается в мероприятии 1, но не как система сбора и представления статистики, а как система сбора предложений об актуализации статучёта
- о существовании подсистем информационно-вычислительной системы Федеральной службы государственной статистики мы узнаем только из мероприятия 52 по реализации мер инфобеза.
- отсутствуют мероприятия по оцифровке исторических документов и библиотеки Росстата (если она ещё существует). Это не только статистика, но и иные исторические материалы
- не определена стратегия развития сайта Росстата и его терр подразделений. Именно они используются для поиска и оценки доступности статистических данных в РФ международными экспертами и именно туда приходит большая часть пользователей статистических данных.
Ссылки:
[1] http://government.ru/news/54972/
#opendata #closeddata #russia #statistics
Накопилось какое-то количество размышлений тезисами о том как файлы/документы публикуются и что с этим не так
[Не] Структурированный мир.
Огромная часть задач связанных с машинным обучением, LLM и тд. вокруг извлечения текстов и преобразования PDF документов. Чаще всего эти документы из областей жизни где они являлись нормой совсем недавно - научные статьи, патенты, гос. документы. Реже архивы. Но PDF файлы - это пример доминанты представления над содержанием. Когда в ущерб возможности работы с текстом и иным содержанием автоматизировано акцент сделан на точности визуального представления. А сейчас огромные технические ресурсы будут тратится (уже тратятся) на преобразование всего этого в машиночитаемый вид. Прорывов много, например, распознавание документов с помощью GPU чипов всё лучше, но не менее важно "заставить этот горшочек перестать варить".
Научные статьи не должны публиковаться в PDF, в PDF не должны публиковать информацию о патентах, однозначно в PDF не должна публиковаться статистика и так далее. Таких областей немало. Всё это должны заменить расширяемые, но строго специфицированные форматы предусматривающие машинную обработку. В научном мире постепенно приходят к формату data papers и в обязательные требования по публикации данных вместе со статьями. В мире статистики всё достаточно давно развивается в сторону SDMX, JSON Stat и ряда других стандартов.
Моё предсказание в том что мир гораздо быстрее побежит по направлению стандартизации представления много чего что сейчас собирается и публикуется в для чтения людьми, а не автоматизированными агентами. Появится ли когда-то глобальный реестр подобных рекомендуемых структур/схем/форматов?
Очень бы хотелось потому что это всё более актуальная задача. Про такие локальные инициативы я ранее писал, например, schema.data.gouv.fr для официальных данных во Франции и редко обновляющийся Schema.org заточенный под поиск Google.
#dataunderstanding #data
В рубрике как это устроено у них портал муниципальных данных стран ОЭСР (Local Dat Portal) [1] предоставляет детальную статистику по более чем 100 индикаторам и по всем странам входящим в ОЭСР. Портал появился в ноябре 2024 года и сделан на базе ProtoMap с динамической подгрузкой слоёв.
Ему предшествовал атлас ОЭСР по регионам и городам [2], не столь визуально приятный, но тоже полезный в своё время.
Данные доступны через раздел Regional, rural and urban development [3] на сайте статпортала ОЭСР и на самом сайте ОЭСР [4]
Ссылки:
[1] https://localdataportal.oecd.org
[2] https://www.oecd.org/en/data/tools/oecd-regions-and-cities-atlas.html
[3] https://data-explorer.oecd.org/?fs[0]=Topic%2C0%7CRegional%252C%20rural%20and%20urban%20development%23GEO%23&pg=0&fc=Topic&bp=true&snb=153
[4] https://www.oecd.org/en/data/datasets.html?orderBy=mostRelevant&page=0&facetTags=oecd-policy-areas%3Apa17
#opendata #statistics #geodata #oecd
Кстати, в качестве напоминания, не забудьте забрать свои данные из Skype. С мая он более не поддерживается, а забрать личные данные можно по инструкции https://go.skype.com/export.chat.history
Для многих это целая жизнь которая может пропасть если забыть сохранить чаты, файлы и контакты.
#digitalpreservation
Подборка регулярных ссылок про данные, технологии и не только:
- Smithy opensource генератор кода и документации для сервисов с собственным языком их описания, от команды Amazon AWS. Казалось бы зачем если есть OpenAPI/Swagger, но поддерживает множество стандартов сериализации и транспорта
- Unlock8 кампания по продвижению идеи того что навыки программирования и работы с ИИ должны быть обязательными для всех школьников в США. В подписантах сотни CEO крупнейших ИТ компаний. Тотальное обучение программированию может быть чуть-ли не единственным объективным решением после массового проникновения AI в школы. Лично я поддерживаю эту идею, но не в США конкретно, а применительно ко всем странам.
- SmolDocling особенно компактная модель распознавания образов для преобразования документов. Доступна на HuggingFace. Пишут что очень хороша, но в работе её ещё не видел. Надо смотреть и пробовать.
- NIH blocks researchers in China, Russia and other countries from multiple databases администрация Трампа с 4 апреля ограничили доступ исследователей из Китая, Ирана, России, Кубы, Венесуэлы, Гонконга и Макау ко множеству научных репозиториев данных связанных со здравоохранением. Это так называемые controlled-access data repositories (CADRs), репозитории доступ к которым предоставляется по запросу.
- A First Look at ODIN 2024/25: A Decade of Progress with New Risks Ahead обзор доступности и открытости данных по статистике по практически всем странам. Краткие выводы: открытости в целом больше, больше данных доступно, больше свободных лицензий и машиночитаемости. Я лично не со всеми их оценками могу согласится, но это объективно важный монитор общей доступности статистики в мире. Можно посмотреть, например, изменения в доступности данных по РФ за 2020-2024 годы. Кстати, если посмотреть подобно на индикаторы, то видно что оценщики не смотрели на системы типа ЕМИСС, а оценивали только по доступности данных на официальных сайта Росстата и ЦБ РФ. О чём это говорит? Нет, не о их невнимательности, а о том что сайт Росстата устарел морально и технически.
#opensource #opendata #ai #sanctions
В рубрике как это устроено у них Статистика по топливной бедности в Великобритании [1] публикуется с 2010 года в форматах Excel и ODS и даёт информацию об уровне топливной бедности, доле домохозяйств с низкими доходами, низкой энергоэффективностью и высокими расходами на топливо. Датасет создаётся из данных English Housing Survey (EHS), регулярного опроса в Англии, на основе которого формируются эти цифры.
Его особенность - это субрегиональный срез до младшего муниципального уровня [2]. Это даёт возможность анализировать реальный уровень бедности на уровне Lower layer Super Output Area (LSOA). Объёмно данных всё ещё немного, это десятки тысяч записей, но для статистического анализа - это много.
Данных нет в CSV и других машиночитаемых форматах, но есть весьма стандартизированные Excel шаблоны.
У всей субрегиональной статистики обязательно указываются 9 значные коды ONS, например, E01000001 которые закодированы по общедоступному справочнику [3] и достаточно просто геокодируются на карту страны.
Ссылки:
[1] https://www.gov.uk/government/collections/fuel-poverty-statistics
[2] https://www.gov.uk/government/statistics/sub-regional-fuel-poverty-data-2025-2023-data
[3] https://opendatacommunities.org/data/lower-layer-super-output-areas/
#opendata #statistics
Global stats just got a major upgrade at Dateno!
We’ve updated time series from the World Bank (DataBank) and International Labour Organization (ILOSTAT) — now available in a more powerful and usable format.
📊 What’s new?
19,000+ indicators across economics, employment, trade, health & more
3.85 million time series with clean structure and rich metadata
Support for multiple export formats: CSV, Excel, JSON, Stata, Parquet, and more
Fully documented schemas and all source metadata included
We’re not just expanding our data coverage — we’re raising the bar for how usable and reliable open statistical data can be.
And there’s more coming:
📡 New sources of global indicators
🧠 Improved dataset descriptions
🧩 A specialized API for working with time series in extended formats
Have a specific use case for international statistics? We’d love to hear from you → dateno@dateno.io
🔍 Try it now: https://dateno.io
#openData #datadiscovery #statistics #dataengineering #dateno #worldbank #ILOSTAT
Про MCP ещё полезное чтение
A Critical Look at MCP [1] автор задаётся вопросом о том как же так получилось что протокол MCP (Model Context Protocol) используемый для интеграции сервисов, инструментов и данных с LLM спроектирован так посредственно и описан довольно плохо. О том же пишет другой автор в заметке MCP: Untrusted Servers and Confused Clients, Plus a Sneaky Exploit [2].
Думаю что дальше будет больше критики, но популярности MCP это пока никак не отменяет
Ссылки:
[1] https://raz.sh/blog/2025-05-02_a_critical_look_at_mcp
[2] https://embracethered.com/blog/posts/2025/model-context-protocol-security-risks-and-exploits/
#ai #llm #readings
Я давно не писал про наш поисковик по данным Dateno, а там накопилось множество обновлений, надеюсь что вот-вот уже скоро смогу об этом написать. А пока приведу ещё пример в копилку задач как ИИ заменяет человека. Я много рассказывал про реестр дата каталогов который Dateno Registry dateno.io/registry, полезный для всех кто ищет не только данные, но и их источник. Этот реестр - это основа Dateno, в нём более 10 тысяч дата каталогов размеченных по разным характеристикам и с большими пробелами в описаниях. Откуда пробелы? потому что автоматизировать поиск источников удалось, а вот описание требует (требовало) много ручной работы.
Когда мы запускали Dateno на текущем реестре я оценивал трудоёмкость по его улучшению и повышении качества в полгода работы для пары человек вручную. Совсем немало скажу я вам, учитывая что этих людей ещё и надо обучить и
ещё надо контролировать качество работы и ещё и нужны инструменты чтобы всё это редактировать без ошибок.
В общем, чтобы долго не ходить, ИИ почти полностью справляется с этой задачей. Достаточно предоставить url сайта с каталогом данных и из него хорошо извлекаются все необходимые метаданные.
Для стартапа на данных - это очень заметное изменение. И это маленькая и теперь недорогая задача. После всех проверок можно будет значительно обновить реестр.
Кстати, о том зачем он нужен. Реестр каталогов данных точно нужен Dateno для индексации датасетов, но он же нужен и всем тем кто строит национальные порталы данных потому что позволяет агрегировать в него данные из всех национальных источников.
#opendata #dateno #datasets #dataengineering #llm #ai #dataunderstanding
Хороший разбор в виде дата истории темы зависимости даты рождения и даты смерти в блоге The Pudding [1]. Без какой-то единой визуализации, но со множеством графиков иллюстрирующих изыскания автора и выводы о том что да, вероятность смерти у человека выше в день рождения и близкие к нему дни и это превышение выше статистической погрешности.
Собственно это не первое и, наверняка, не последнее исследование на эту тему. В данном случае автор использовал данные полученные у властей Массачусеца с помощью запроса FOIA о 57 010 лицах.
Там же есть ссылки на исследования с большими выборками, но теми же результатами.
Так что берегите себя и внимательнее относитесь к своим дням рождения, дата эта важная, игнорировать её никак нельзя.
P.S. Интересно что данные в виде таблиц со значениями дата рождения и дата смерти - это точно не персональные данные. Ничто не мешает госорганам не только в США их раскрывать, но почему-то они, всё таки, редкость.
Ссылки:
[1] https://pudding.cool/2025/04/birthday-effect/
#opendata #dataviz #curiosity #statistics
Запоздалая новость российской статистики, система ЕМИСС (fedstat.ru) будет выведена из эксплуатации до 31 декабря 2025 года. Формулировки совместного приказа Минцифры и Росстата упоминают что именно до, а то есть в любой день до конца этого года, хоть завтра.
Что важно:
1. Этого приказа нет на сайте Минцифры России [1]. Единственный приказ опубликованный приказ с этим номером 1138 есть за 2021 год и нет на сайте официального опубликования [2].
2. Этого приказа нет на сайте Росстата [3] (или не находится и сильно далеко спрятан) и точно нет на сервере официального опубликования [4]
Откуда такая таинственность и почему он есть только в Консультант Плюс?
А самое главное, что заменит ЕМИСС? И существует ли уже это что-то
Ссылки:
[1] https://digital.gov.ru/documents
[2] http://publication.pravo.gov.ru/search/foiv290?pageSize=30&index=1&SignatoryAuthorityId=1ac1ee36-2621-4c4f-917f-9bffc35d4671&EoNumber=1138&DocumentTypes=2dddb344-d3e2-4785-a899-7aa12bd47b6f&PublishDateSearchType=0&NumberSearchType=0&DocumentDateSearchType=0&JdRegSearchType=0&SortedBy=6&SortDestination=1
[3] https://rosstat.gov.ru/search?q=%D0%9F%D1%80%D0%B8%D0%BA%D0%B0%D0%B7+673&date_from=01.01.2024&content=on&date_to=31.12.2024&search_by=all&sort=relevance
[4] http://publication.pravo.gov.ru/search/foiv296?pageSize=30&index=1&SignatoryAuthorityId=24a476cb-b5ae-46c7-b46a-194c8ee1e29a&EoNumber=673&&PublishDateSearchType=0&NumberSearchType=0&DocumentDateSearchType=0&JdRegSearchType=0&SortedBy=6&SortDestination=1
#opendata #closeddata #russia #statistics
Полезные свежие научные статьи про работу с данными:
- Large Language Models for Data Discovery and Integration: Challenges and Opportunities - обзор подходов по обнаружению и интеграции данных с помощью LLM
- Unveiling Challenges for LLMs in Enterprise Data Engineering - оценка областей применения LLM в корпоративной дата инженерии
- Magneto: Combining Small and Large Language Models for Schema Matching - про одно из решений сопоставления схем через использование LLM и SLM
- Interactive Data Harmonization with LLM Agents - интерактивная гармонизация данных с помощью LLM агентов
- Towards Efficient Data Wrangling with LLMs using Code Generation - про автоматизацию обработки данных с помощью кодогенерирующих LLM
#readings #data
В продолжение про форматы файлов и применение CSV vs Parquet, реальная разница ощущается на больших объёмах и когда работаешь с файлами без чётких спецификаций.
Вот приведу несколько примеров:
1. Статистические данные одного крупного международного агентства, сравнительно среднего объёма в CSV файлах в десятки гигабайт и сотнях миллионов строк. Какая-либо информация о файлах отсутствует, просто выложены дампами для массовой выгрузки (bulk download). Большая часть инструментов при автоматическом парсинге файлов выдаёт что у них кодировка us-ascii, но в итоге оказывается что она windows-1250 (Центрально и Восточно европейская). Причём символы выдающие эту кодировку начинаются где-то очень далеко при обработке файлов. Механизмы автоидентификации кодировки почти все используют куски файла, а не его целиком, в результате нужно понаступать на множество грабель прежде чем настроить автоматическое преобразование этих файлов в другие форматы. Могло бы быть проще будь файлы в кодировке UTF-8, или вообще не в CSV, а в Parquet, к примеру.
2. Файлы Parquet в 800MB и 3.5GB со статистикой международной торговли. Первый может быть развернут в примерно 14GB CSV файл, второй в примерно 56GB. Это сотни миллионов и даже миллиарды записей. Аналитические запросы к таким файлам, на среднем железе, выполняются очень долго и поэтому Parquet файлы необходимо разрезать на множество файлов поменьше по продукции или по странам, в зависимости от задач применения. Но и разрезка больших Parquet файлов весьма ресурсоёмкая задача если пользоваться SQL запросами на копирование. В этом случае большие CSV файлы проще и быстрее обрабатывать потоковым образом. Проблема именно в размере Parquet файлов и решается она дистрибуцией их в меньшем размере
3. В "дикой природе" на порталах открытых данных в мире CSV файлы слишком часто публикуются просто как экспорт Excel файлов которые, в свою очередь, могут не иметь нормальную табличную структуру, а имеют множество заголовков, отклонений и тд, в общем-то не рассчитанных на автоматическую обработку, не говоря уже о разнообразных кодировках. Вручную во всем этом разумеется, можно разобраться, а автоматический анализ сильно затрудняется. Например, попытка натравить duckdb на эти файлы лишь в чуть более 50% случаев заканчивается успехом, в основном потому что duckdb не умеет разные кодировки. Альтернативные способы лучше читают файлы, но существенно медленнее.
4. Один из крупных порталов международной статистики отдаёт данные статистики в CSV формате внутри файлов заархивированных 7z. Это десятки гигабайт в сжатом виде и 1.5 терабайта в разжатом. Если необходимо обработать эти данные целиком то это требует очень много дискового пространства просто потому что 7z не адаптирован под потоковую обработку файлов, если не писать специальных инструментов для работы с ним. В итоге обработка этих данных происходит через промежуточное их разжатие в виде файлов. Всё могло бы быть куда удобнее если бы данные сразу распространялись в форматах parquet или же в CSV сжатом для потоковой обработки, например, Zstandard или даже Gzip.
В принципе сейчас всё выглядит так что мир data science сейчас parquet-first, а в остальные области работа с новыми-старыми форматами файлов приходит на пересечении с data science.
#opendata #dataengineering #fileformats #csv #parquet
How Bad Is China’s Economy? The Data Needed to Answer Is Vanishing [1] статья в WSJ (под пэйволом, но можно прослушать в аудио) о том что в Китае перестали публиковать сотни статистических показателей на фоне торговой войны с США. Что-то напоминает, да?
Сейчас будет взлёт спроса на альтернативные данные о состоянии китайской экономики, получить их будет не так просто, но реалистично.
Впрочем всегда есть официальная статистика которую альтернативными способами не получить. Лично мне ещё интересно что будет с данными о внешней торговле Китая. В РФ её закрыли в первую очередь, хочется надеяться что в Китае она останется доступной.
Ссылки:
[1] https://www.wsj.com/world/china/china-economy-data-missing-096cac9a
#opendata #closeddata #china #statistics #tradewars
A framework for Al-ready data [1] свежий доклад от Open Data Institute о том как публиковать наборы данных для машинного обучения. Характерно что ссылаются на стандарт Croissant и Hugging Face и не ссылаются на Frictionless Data.
Всё выглядит разумно с примерами из публикации открытых данных и открытой научной инфраструктуры.
Ссылки:
[1] https://theodi.org/insights/reports/a-framework-for-ai-ready-data/
#opendsata #readings #standards
Подборка ссылок про данные, технологии и не только:
- State of Docs 2025 [1] результаты опроса от Gitbook про документирование программных продуктов с акцентом на документацию к API. В целом ничего нового: все используют AI, спецификацию OpenAPI и тд. Из интересного - метрики документированности и documentation observability [2], полезно для всех кто пишет техническую документацию или не пишет, хотя должен бы писать.
- UNCTAD: Working group on data governance at all levels [3] рабочая группа при ЮНКТАД по управлению данными на всех уровнях, была сформирована в ноябре 2024 года, в неё входит 27 стран членов ООН (почти все крупнейшие экономики, кроме РФ) и 27 не-государственных участников. Ожили с мая, начали проводить сессии с обсуждениями и подготовки предложений к Global Digital Compact
- SchemaStore [4] частная попытка с открытым кодом сделать репозиторий схем данных в формате JSON Schema. Не структурированно, на мой взгляд, но довольно массово, 1000+ схем. Выглядит как хорошая попытка, но я бы сделал иначе.
- The Plain Language Act: A solution, not a problem — my view on the Repeal Bill [5] в Новой Зеландии парламентарии задумали отменить Закон о Простом Языке, обязывающем чиновников излагать официальные тексты понятным образом. Те кто занимался этой темой много лет теперь бьют тревогу и ссылаются на то что другие страны (например, Норвегия), наоборот усиливают подобное законодательство.
- ContextGem: Effortless LLM extraction from documents [6] ещё один движок по анализу документов с помощью AI, пока только набирает популярность. Вместо преобразования разных форматов автор сконцентрировался на конвертере из DOCX файла и обработке текста.
- o3 Beats a Master-Level Geoguessr Player—Even with Fake EXIF Data [7] ещё один текст про прогресс ИИ в определении геолокации по фотографии, даже если указаны подложные данные в EXIF и в сравнении с человеком который давно играет в Geoguessr.
Ссылки:
[1] https://www.stateofdocs.com/2025/
[2] https://passo.uno/docs-observability-do11y/
[3] https://unctad.org/topic/commission-on-science-and-technology-for-development/working-group-on-data-governance
[4] https://github.com/SchemaStore/schemastore
[5] https://www.linkedin.com/pulse/plain-language-act-solution-problem-my-view-repeal-bill-lynda-harris-jf2pf/
[6] https://github.com/shcherbak-ai/contextgem
#opensource #datadocumentation #datapolicy #plainlanguage
По поводу свежей статьи в Forbes Russia про передачу данных сотовыми операторами в ФСБ и МВД [1] я многое что могу сказать, но самое главное, действительно самое главное, в том что всё что касается разрешений правоохранителям и спецслужбам по доступу к данным - это вопрос _легализации_ это практики, а не появление её из ниоткуда.
В реальности, легальное право для спецслужб по получению данных необходимо для того чтобы использовать эти данные в случаях обвинительных заключений, в случаях когда дело может дойти до суда или в рамках досудебного рассмотрения. Но, в любом случае, это про легализацию дальнейших действий в отношении гражданина.
По умолчанию же всегда следует считать что у спецслужб есть доступ к базам всех организаций имеющих данные реального времени по движению граждан и не только. В любой стране. В отношении любой организации. Даже если, на самом деле, такого доступа нет, надо считать что он есть. Потому что если его нет, значит спецслужбы плохо работают. А мы ведь не верим в том что они плохо работают? Вот то-то и оно, не верим. А значит доступ есть.
Пишу почти без иронии.
А ещё не могу не добавить что рано или поздно придут и за разработчиками приложений для Apple/Android, если ещё не пришли (не ко всем пришли точно). Потому что если приложение пишет и сохраняет трек передвижения пользователя и другие его действия, то оно очень даже представляет интерес для тех у кого нет доступ к данным сотового оператора.
Ссылки:
[1] https://www.forbes.ru/tekhnologii/536706-dannye-na-sdacu-kakuu-informaciu-ob-abonentah-operatory-peredadut-policii-napramuu
#privacy #security #russia
В блоге Meta подробный пост на мою любимую тему про понимание данных How Meta understands data at scale [1] про задачи с масштабами которые бывают только в очень крупных компаниях про анализ и управление схемами данных, в их случае это более 100 миллионов схем из более чем 100 систем с данными. Можно обратить внимание что эта работа по пониманию данных у них идёт через так называемую Privacy Aware Infrastructure (PAI). То есть это не столько для удобства разработчиков, хотя и это там присутствует, но, в первую очередь, для контроля распространения и использования собираемых и рассчитываемых персональных данных.
Для чего всё сведено в единый каталог схем OneCatalog который за пределами мета нигде кроме как в их публикациях не фигурирует. Штука уникальная, довольно редкая. С протоколом Thrift внутри и семантическими типами данных которыми аннотируются колонки данных схем протокола.
Ссылки:
[1] https://engineering.fb.com/2025/04/28/security/how-meta-understands-data-at-scale/
#dataengineering #data
Накопилось разное про разное про задачи и работы:
1. Нам в Dateno нужен ещё один дата инженер, полная загрузка, дистанционно. Задачи интересные, не супер сложные, но сложные. Нужно извлекать метаданные и данные из сотен и тысяч источников и по определенным правилам складывать их в базы данных. Что такое Dateno я регулярно пишу здесь - это один из крупнейших поисковиков по датасетам в мире, второй по масштабам после Google Dataset Search. Dateno международный проект, человек может быть в условно любой стране, но желательно в часовых поясах между 0 и +4 к GMT.
2. В Инфокультуре в РФ у нас есть задачи для тех кто может и любит писать про данные на регулярной основе. Нет, не в мой телеграм канал;) Но регулярно писать про применение данных, новых интересных датасетах. Как такой человек называется контент менеджер или SMM специалист? Я вот плохо это понимаю, но есть телеграм каналы и сайты которые надо вести. Если Вы такой человек, пришлите резюме на infoculture@infoculture.ru. Вопросы можно мне в личку задавать.
3. В opendataam">Open Data Armenia Есть задача которую не удалось решить за несколько попыток с помощью кодирующего ИИ - это выгрузить из статбанка Армении данные индикаторов https://statbank.armstat.am на всех доступных языках, все значения. Особенность в том что статбанк работает на базе ПО PxWeb используемое статслужбами в скандинавских странах, но инсталляция там очень старая и без открытого API. Когда говоришь LLM создать скрейпер для этого сайта, то он пытается сгенерировать код которые стучится в код API PxWeb. Поэтому есть задача для фрилансера написать скрейпер кода заставить какую-нибудь LLM такой работающий код сгенерировать. Задача для волонтера или фрилансера. Если хотите за деньги её сделать, напишите что мол "возьмусь, стоит столько то", если по цене договоримся, то можно приступать. А если как волонтер, то сразу присылайте ссылку на код на Github'е
#jobs #vacancy #data #tasks
Я как и многие прочитал про свежий список разрешённых игрушек в детских садах [1].
Подробной информации нет, а из уст министра Кравцова это звучало вот так
... Поэтому нам нужен перечень тех игрушек, которые будут поставляться в детские сады: для каждого определенного возраста - свой. К сожалению, в магазинах на полках мы до сих пор видим множество игрушек, которые формируют ценности, чуждые российским". ...
Поначалу я планировал прокомментировать это всё с долей иронии, но понял что хоть и ирония тут имеет право на существование, но сама тема очень серьёзная. Потому что реестры, списки и перечни вот уже много лет как стали одним из основных инструментов государственного управления. Я, для простоты, буду далее это называть реестровой системой управления.
Что такое реестр ? Это, как правило, белый или чёрный список организаций или людей или иных связанных с ними объектов (продуктов, товаров, произведений и тд.) с которыми связаны ограничения на доступ к определенному роду деятельности через разрешение только для включённых в этот список (белый список) или исключение включённых в него (чёрный список).
Например, реестр нежелательных организаций или реестры иноагентов или реестры недобросовестных поставщиков - это чёрные списки. А реестры отечественного ПО или реестр ИТ компаний - это белые списки. Черные списки создаются по принципу того чтобы сделать очень плохо ограниченному числу организаций или граждан, а белые списки про то чтобы сделать лучше большему числу участников и плохо всем остальным.
Что лучше, что хуже я сейчас оценивать не буду, это всё зависит от области применения. Важно помнить что это одна из форм кодификация ограничений. При этом, безусловно, реестры обладают высокой степенью коррупционноёмкости (случайно такое сложное слово вырвалось). Включение в или исключение из реестра может лишить включаемого доступа к рынку, ресурсу, возможности заниматься профессиональной деятельностью и тд.
Например, контекст вокруг списка игрушек таков что единственная модель его практического применения - это ограничения в государственном и муниципальном заказе. Но для этого надо, или провести это в федеральном законе, или навязать только для детских садов ремонтируемых за счёт федерального бюджета через требования в текстах субсидий выдаваемых Минпросвещения, или на региональном уровне решениями региональных правительств. Потому что детские сады, почти все, находятся в муниципальном ведении или, реже, в ведении субъектов федерации.
Поэтому как этот список появится, сколь скоро и насколько он будет обязательным - надо ещё последить. Важнее другое, этот реестр является абсолютно логичной моделью регулирования в рамках российской системы госуправления основанной на контроле и патернализме. Контроль - это реестр, патернализм - в том что федеральные чиновники считают что никому кроме них нельзя доверить столь ответственное дело как выбор игрушек для детей. Я об этом ранее писал в контексте ИТ рынка, но это универсальная парадигма.
Каждый такой реестр и список - это ещё один шаг в копилку тех кто хотел бы "чтобы страна жила построже". И если такой список игрушек появится и будет кодифицирован - это ровно такой пример.
Ссылки:
[1] https://rg.ru/2025/03/04/minprosveshcheniia-utverdit-perechen-igrushek-dlia-detskih-sadov.html
#government #russia #data
В рубрике как это устроено у них EarthBank [1] платформа для удобной визуализации, анализа и извлечения геопривязанных данных, полученных геохимическими лабораториями по всему миру.
Вернее, конечно по всему миру, но только с теми данными что есть в австралийских музеях и лабораториях. Это более 96 тысяч образцов собранных в 61 пакет с данными. Конечно, большая часть данных по Австралии, но есть примеры и из других стран, например, на скриншоте образцы из Адыгеи которые собраны в 2015 году и хранятся в Музее минералогии штата Виктория.
Проект создан в AuScope Geochemistry Network (AGN) на базе движка австралийского стартапа Lithodat по визуализации геохимических данных.
У проект открытое API, возможность выгрузить все наборы данных, но требуется авторизация для доступа.
Ссылки:
[1] https://ausgeochem.auscope.org.au
#opendata #geodata #geochemistry #mineralogy