begtin | Business and Startups

Telegram-канал begtin - Ivan Begtin

7027

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Subscribe to a channel

Ivan Begtin

В рубрике интересных больших наборов данных Quantarctica [1] - это коллекция наборов данных для ГИС продукта QGIS с данными по Антарктиде. Данных там порядка 6ГБ, скачать их много со множества HTTP и FTP серверов, а сам пакет был создан в Норвежском Полярном Институте и распространяется как открытые данные.

И это пример, можно сказать, отдельного вида данных - датасетов для QGIS. У QGIS есть каталог QGIS Hub [2] где есть подборка некоторых слоёв карт, моделей и стилей. Относительно немного и того же пакета Quantarctica там нет, но тем не менее.

Ссылки"
[1] https://npolar.no/quantarctica/
[2] https://hub.qgis.org/

#opendata #geodata #datasets

Читать полностью…

Ivan Begtin

Статья Teachers Are Not OK [1] в 404 Media о том как LLM повлияли на образование в США через взгляд учителей. Если вкратце, то взгляды апокалиптичные. Автор собрал полученные письма от учителей после предыдущей его статьи на тему LLM в образовании и получил ещё более яркую картину того как учителя смотрят на происходящее.

Кстати, стоит исходить из того что в США использование LLM студентами стало массовым довольно быстро, но это происходит по всему миру.

Уверен что многие читающие меня преподают, что скажете о своём опыте? Ваши студенты уже все используют LLM? И как меняется процесс обучения?

Ссылки:
[1] https://www.404media.co/teachers-are-not-ok-ai-chatgpt/

#ai #teaching #readings

Читать полностью…

Ivan Begtin

Стремительно набирающий популярность продукт MindsDB [1] который позиционируется как Data Driven AI Agents и позволяет подключать любую базу данных и получать ответы на её основе. В том числе он предоставляет MCP сервер к которому можно подключить языковую модель.

Главный минус в том что лицензия а ля Elastic [2], но для большей части проектов это не критично.

Одновременно команда предоставляет корпоративный вариант продукта, уже с петабайтным масштабированием и коммерческим применением.

Но вообще сама идея что вот тебе данные и пусть над ними будет AI интерфейс в виде чата - это ещё один гроб в рынок не автоматизированных BI систем

Ссылки:
[1] https://mindsdb.com
[2] https://github.com/mindsdb/mindsdb

#opensource #ai #data

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них французский проект по мониторингу всего кода созданного органами власти Франции, государственными научными учреждениями и в рамках госфинансирования (гранты) из французского бюджета data.code.gouv.fr [1].

Охватывает 82 источника, более 32 тысяч репозиториев, более 3 тысяч владельцев репозиториев

Построен на базе открытого кода ecosyste.ms проекта по мониторингу пакетов и репозиториев открытого кода.

Позволяет оценить масштабы государственного открытого кода во Франции и, при желании, выявить наиболее живые и востребованные проекты


Ссылки:
[1] https://data.code.gouv.fr/
[2] https://ecosyste.ms/

#opensource #france #opendata #sourcecode

Читать полностью…

Ivan Begtin

В рубрике, как это устроено у них, историческая статистика Италии [1] на портале Serie storiche (Timeseries) статистической службы Италии. Включает данные 1500 индикаторов по 22 темам начиная с 19 века, пока некоторым индикаторам с 1854 года.

Все данные в формате Excel файлов которые были созданы на основе статистических изданий 20го века с обзором исторической статистики и на основе исторических статсборников [2].

Ссылки:
[1] https://seriestoriche.istat.it
[2] https://seriestoriche.istat.it/index.php?id=8

#statistics #digitalpreservation #archives #data #timeseries

Читать полностью…

Ivan Begtin

Я недавно рассказывал что в качестве хобби занимаюсь написанием коротких наивных фантастических рассказов в стиле утопий и антиутопий. Причём поскольку прозаический опыт у меня ограниченный, я пытаюсь писать их по науке: видение -> синопсис - > пара тестовых глав -> основной текст. Это хорошая разминка для ума для которой я постоянно собираю контекст и наша антиутопическая реальность, конечно, даёт много идей.

Важная часть таких рассказов - это контекст, не фабула произведения, а среда в которой всё происходит. А поскольку сейчас одна из самых остросоциальных тем - это ИИ, то без ИИ тут не обойтись.

У меня есть какое-то число мыслей про такой контекст, а если Вы готовы поделитесь Вашими мыслями, милости прошу в комментарии:
1. Видеть невидимое. С помощью ИИинструменты наблюдения резко усиливаются. Работает сбор данных в недоступных человеку спектрах, радиодиапазонах и границ слышимости.
2. Большие прогностические модели. Непрерывно работающие прогностические модели и ИИ манипулирующий рынками. Длительный кризис фондовых рынков.
3.AI-Free зоны. В которых отключен интернет и любая связь. Там сдают экзамены и ходят на свидания ( чтобы тому кто на него идет ИИ нп подсказывал как себя вести).

Все это именно контекст, фабула по более классическим сценариям про кровь, любовь и риторику.

А какие варианты будущего как контекста видите вы?

#thoughts #writings

Читать полностью…

Ivan Begtin

Вышел свежий доклад Global Data Barometer [1] про доступность открытых данных в мире. Глобальным он, увы, быть перестал и сейчас его охват не по всем странам, а только по некоторым развивающимся (всего 43 страны).

Для тех кто развивающимися странами интересуется может быть интересно.

Например, увидеть крупные пробелы в доступности данных о языках, лоббировании и политической ответственности и регистрах компаний.

А лучше всего раскрываются данные о закупках и госрасходах.

В любом случае жаль потери глобальности.

Ссылки:
[1] https://globaldatabarometer.org/

#opendata

Читать полностью…

Ivan Begtin

Я тут часто пишу про муниципальные данные и что некоторые, всё же, есть, ну или хотя бы с какой-то агрегацией. Очень часто данные скрыты в публикациях и презентациях. Что, сильно, ограничивает их сбор, но вручную можно иа даже их. К примеру, портал криминальной статистики crimestat.ru не обновляется с 4-го квартала 2022 года, но кусочки статистики есть в отдельных разделах Генпрокуратуры РФ. В разном качестве, разных форматах и разной периодичностью, но кое что есть. Например, в разделе прокуратуры Москвы есть графики со статистикой по округам [1]. Да, в pdf или pptx файлах презентаций, но на сайте МВД нет и такой детализации как и на большинстве сайтов региональных прокуратур. Правда я скажу честно что не проверял их все, а только примерно штук 20, но картина общая именно такова. В основном же, либо актуальные данные очень обобщённые (и по разному публикуемые!), либо не публикуются вовсе много лет.

Хотя я и искал плохие примеры публикации статистики, это лучше чем полное её отсутствие. При большом желании можно вручную через LLM'ки превращать презентации с графиками в таблицы и восстанавливать временные ряды и получать хоть какое-то приближение к муниципальных данным.

Ссылки:
[1] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result

#opendata #closeddata #russia #crimestatistics

Читать полностью…

Ivan Begtin

Собственно видео про интеграцию Grok'а и Telegram из поста Дурова в X https://x.com/durov/status/1927705717626003759

Интеграция там совсем не лайт, а вполне себе углублённая.

#ai #telegram #privacy

Читать полностью…

Ivan Begtin

Свежая колонка в российском Forbes за моим авторством по поводу того как МВД начнёт следить за иностранцами в РФ в ближайшем будущем https://www.forbes.ru/tekhnologii/538203-test-na-antiutopiu-na-cto-pohoz-zakon-o-kontrole-inostrancev-cerez-smartfony

Честно говоря, я бы на эту тему скорее рассказ написал потому что сюжет уж очень просится на антиутопическую социальную фантастику.

Трудно писать о подобном не абстрагируясь. Лично мне абстрагироваться помогает написание всякой фантастики, в этом плане окружающая действительность это находка для начинающего фантаста-антиутописта.

#readings #writings #privacy

Читать полностью…

Ivan Begtin

Microsoft опубликовали Windows Subsystem for Linux как открытый код под MIT лицензией [1], а это большой проект с 70 контрибьюторами и 9 годами разработки.

У них там более тысячи issues большая часть которых это запросы на фичи, может быть теперь и появление новых возможностей ускорится.

Больше открытого исходного кода под свободными лицензиями - это, несомненно, хорошая новость.

Ссылки:
[1] https://blogs.windows.com/windowsdeveloper/2025/05/19/the-windows-subsystem-for-linux-is-now-open-source/

#opensource #microsoft

Читать полностью…

Ivan Begtin

Главархив Москвы запустил бесплатный электронный читальный зал

На сайте Главархива Москвы (cgamos.ru) появился сервис для онлайн-доступа к читальному залу: пользователи теперь могут просматривать оцифрованные копии архивных дел (метрические книги, ревизский сказки, личные дела и пр.), а со следующего года можно будет «воспользоваться каталогом аудиовизуальных документов, книжных и периодических изданий» (надеюсь, тут подразумевается использование не только каталога, но и доступ к этим изданиям).

Хочется надеяться, что другие региональные архивы возьмут пример с Главархива, а может пойдут и дальше - добавят возможность бесплатно скачать нужный документ или отдельные страницы. Например, электронный читальный зал уже несколько лет доступен в Санкт-Петербурге (spbarchives.ru), но, к сожалению, только на платной основе (оплатить необходимо как доступ к просмотру документов, так и их постраничную выгрузку).

Напоминаю, что с прошлого года мы ведем проект Цифровой архив госфинансов и госуправления (@finlibraryru, finlibrary.ru), в котором можно не только посмотреть любой заинтересовавший документ, но и скачать его.

Читать полностью…

Ivan Begtin

В рубрике закрытых данных в России, вышло Постановление Правительства Российской Федерации от 17.05.2025 № 679"О приостановлении действия пункта 21 Положения о федеральной государственной информационной системе "Единый фонд геологической информации о недрах" [1] согласно которому доступ в ЕФГИ (efgi.ru) [2] теперь только через Госуслуги.

Новость несомненно печальная. Доступ через ЕСИА отрубает любую возможность автоматического доступа к данным, кроме как если владелец данных не предоставить API отдельно.

Ссылки:
[1] http://publication.pravo.gov.ru/document/0001202505190033?index=1
[2] https://efgi.ru

#opendata #closeddata #russia

Читать полностью…

Ivan Begtin

К вопросу о российской статистике и доступных онлайн ресурсах. При архивации сайтов Росстата всплывают интересные артефакты, например, сайт mosag.rosstat.gov.ru с названием О портале Статистический портал Москвы и Московской агломерации

Я, честно говоря, вначале обрадовался и решил что именно там сейчас найдётся актуальная база статпоказателей, но нет.

Это оказался всего лишь BI портал, с годовыми показателями за 2010-2022 годы по Москве и Московской области, без муниципального деления.

Не то чтобы он совсем неживой, кое где есть данные за 2023 год, но за 2024 уже не найти и никакой ширины охвата там нет.

Архивации, он, разумеется, не поддаётся поскольку выгрузка данных там только интерактивная, а страницы BI порталов не архивируются.

Вспоминается анекдот о том что в продаже появились подделки ёлочных игрушек, выглядят как настоящие, но не радуют.

#opendata #data #statistics

Читать полностью…

Ivan Begtin

В США республиканцы добавили в поправки к бюджету пункт о запрете регулирования ИИ на уровне отдельных штатов [1] Пока не видел чтобы эта новость широко разошлась, однако она важна. Очень похоже на то что инвестиции владельцев основных ИИ продуктов в администрацию Трампа вполне оправдываются. Если поправка пройдет, то, к примеру затормозятся более 30 законопроектов о регулировании ИИ в Калифорнии. Это, кстати, ещё один ответ на вопрос почему штаб квартиры (регистрация головных компаний) связанных с ИИ в США были перемещены в другие штаты.

Похоже что регулирование ИИ выходит на первый план политической конкуренции, как минимум в США, но, конечно, не только там

Ссылки:
[1] https://www.bloodinthemachine.com/p/de-democratizing-ai

#ai #regulation

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них репозитории открытых научных данных Dataverse [1] - это программный продукт с открытым кодом репозитория научных данных, разработанный в Гарварде и имеющий более 129 инсталляций в мире, используемый для публикации именно научных данных с учётом их специфики: выдачи DOI, поддержки OAI-PMH, расширенных метаданных, разных режимов доступа и так далее.

Dataverse используют сотни исследовательских центров, их гораздо больше чем инсталляций поскольку многие институции создают собственные пространства данных (dataverses) на национальных инсталляциях. Например, такими являются репозитории Borealis [2] в Канаде и DeiC [3] в Дании, а также национальный портал научных данных Франции [4]

Dataverse - это пример продукта для игры в длинную при публикации данных. Его внедрение требует определенного уровня подготовки исследователей, понимания основных концепций и привычки. Он конкурирует с использованием альтернатив вроде Zenodo, Figshare, OSF и многочисленных порталов научных результатов на базе продуктов Elsevier, а также ePrints и dSpace.


Ссылки:
[1] https://dataverse.org/
[2] https://borealisdata.ca/
[3] https://dataverse.deic.dk/
[4] https://entrepot.recherche.data.gouv.fr/

#opendata #openaccess #datacatalogs

Читать полностью…

Ivan Begtin

Про применение ИИ в отношении официальной статистики AI Assistant [1] в статслужбе Италии ISTAT. К слову разговоры про ИИ в официальной статистике идут давно, но неспешно. Например, в презентации из Института статистики Португалии за 2024 год [2] был обзор инициатив, но практически все они про машинное обучение.

Другой пример StatGPT [3] в котором вроде как много чего декларируется и ещё в 2023 году была презентация в UNECE, но добиться рабочих результатов мне не удалось.

У UNECE есть подборка кейсов применения ИИ для статистики [4].

Но в целом ощущения такие что в части статистики всё идет довольно медленно по применению ИИ и больше шансов на появление частных аналитических решений.

Ссылки:
[1] https://esploradati.istat.it/databrowser/#/en/dw/search?ai=true
[2] https://www.ine.pt/ngt_server/attachfileu.jsp?look_parentBoui=666235758&att_display=n&att_download=y
[3] https://statgpt.dialx.ai/
[4] https://unece.github.io/genAI/

#statistics #ai #data

Читать полностью…

Ivan Begtin

Я тут было задумал написать лонгрид про стандарт SDMX по распространению статистических баз данных, о том чем он хорош и чем он плох и почему им нельзя пользоваться для публикации данных для бизнеса и необходимо использовать для взаимодействия с международными структурами. Но довольно быстро понял что сбиваюсь про состояние работы со статистическими данными в целом и о глобальном кризисе статистических служб.

А кризис то есть даже если его явно не обозначают и он в комбинации факторов которые можно описать как:
- рост запроса на оперативные данные с частотностью в неделю, день, час и неспособностью статслужб подобное обеспечить
- стремительный рост сбора альтернативных данных и более оперативных и специальных данных собираемых напрямую из ведомств и корпораций
- устаревание компетенций, возможно, безвозвратное из-за неконкурентного уровня зарплат для ИТ спецов, особенно в части работы с данными
- большие ограничения от национальной и международной бюрократии и их комбинации в части сбора и представления данных.
- рост ограничений на открытое распространение данных на фоне торговых войн, информационных войн и вооружённых конфликтов

Например, большая часть статслужб хотя и работают изначально с данными, но к периоду хайпа вокруг ИИ подошли с очень слабыми позициями. Лично я нашёл только у одной статистической службы в мире, у ISTAT в Италии, наличие ИИ помощника по работе с данными и тот был скорее про помощь в поиске данных, чем про инсайты на самих данных.

Поэтому всё это выглядит как уже затянувшийся кризис статистических служб и официальной статистики. Мягче в одних странах и жёстче в других.

#opendata #statistics #thoughts

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них статистический портал Банка Франции Webstat [1]. Содержит более 40 тысяч временных рядов из 38 баз данных/наборов данных.

Важная особенность в том что показатели эти не только изнутри самого банка, но и из Евростата, Министерства экономики Франции, Банка Англии, Института статистики Франции и других внутренних и международных источников.

Сами временные ряды доступны в форматах CSV и XLSX, а также через открытое API [2]

Ссылки:
[1] https://webstat.banque-france.fr/en/
[2] https://webstat.banque-france.fr/en/pages/guide-migration-api/

#opendata #banking #france #statistics

Читать полностью…

Ivan Begtin

Про архивацию сайтов, моё хобби, которое уже почти стало моей работой. Вот буквально несколько дней назад я мы для @ruarxive закончили архивировать все сайты Росстата и его терр. управлений. В итоге это около 315GB в сжатом виде. Много это или мало? Это нормально для такого числа сайтов и, наверное, можно было бы ещё лучше если бы добавить в исключение архивацию видеофайлов ибо кому они нужны.

Так вот, по хорошему, конечно надо проводить тотальную архивацию всех госсайтов в РФ, хотя бы ФОИВов и региональных властей. Но, есть большое НО о котором я уже писал. Подавляющее число сайтов российских органов власти недоступны из нероссийских подсетей и, хуже того, быстро блокируют доступы даже из российских.

Например, попытка архивировать сайт Таможенной службы РФ привела к блокировке краулера после выгрузки 160MB, совсем немного. Конечно можно вспомнить про возможность использования многих IP адресов, того что можно переключать прокси, но... Это всё хорошо для коммерческого парсинга и очень плохо для некоммерческой архивации.

В итоге даже с серверов/IP адресов в России можно сохранить не всё. И что с этим делать?

#webarchives #digitalpreservation

Читать полностью…

Ivan Begtin

Полезное чтение про данные, технологии и не только:
- Behind the Curtain: A white-collar bloodbath заметка в Axios по итогам выступления Dario Amodei, главы Anthropic о кризисе работы для белых воротничков в самое ближайшее время и о том что правительствам (США) надо собирать "налог на токены". Тут есть о чём подискутировать, начиная с того что кроме правительств США и Китая никто более налогов с этого не наберёт.
- Measuring the US-China AI Gap свежее исследование с анализом разрыва в области ИИ между США и Китаем от Insikt Group. Сжатое изложение полезного материала.
- Introducing Apache Spark 4.0 вышла 4-я версия Apache Spark где много нового в его Python API включая нового легковесного API клиента да и много других полезных изменений.
- Meet the dbt Fusion Engine: the new Rust-based, industrial-grade engine for dbt важное для всех кто пользуется dbt, после покупки sdf команда dbt Labs выпустила новый движок на базе Rust и обещают что он лучше, быстрее, эффективнее и тд.
- ClickStack: A High-Performance OSS Observability Stack on ClickHouse я так понимаю что Clickhouse выбрали одним из направлений конкуренцию со стеком Elastic / OpenSearch для сбора логов и наблюдаемости (observability) и ClickStack именно такое решение с открытым кодом.
- Perplexity Labs свежий сервис от Perplexity который ориентированный на воплощение идей в реальность выполнение задач по созданию продуктов с начала и до завершения. Не они первые, не они последние, инструмент полезный, один из тех что дожирают рынок фриланса
- Opening code, opening access: The World Bank’s first open source software release первый релиз открытого кода от команды Всемирного банка, они разместили код Metadata Editor инструмента описания документов, индикаторов, геоданных и иных объектов. С акцентом на статистику, конечно же. Полезно изучить тем создает и работает с официальной статистикой.

#ai #statistics #opensource #data #datatools

Читать полностью…

Ivan Begtin

DuckLake (утиное озеро) [1] новый продукт от команды DuckDB по созданию озер данных с помощью DuckDB. Очень похоже по идеологии на Apache Iceberg и Delta Lake, но с хранением метаданных в SQL, а данных в Parquet файлах.

Тот случай когда выглядит интересно и надо приглядеться к работе на практике. Лично я чаще сталкиваюсь с редко обновляемыми данными большого объёма где транзакции сильно вторичны к скорости доступа к данным. Возможно DuckLake было бы лучшим решением для такого. А может быть и нет. Надо изучать и посмотреть на примеры внедрения.

Ссылки:
[1] https://duckdb.org/2025/05/27/ducklake

#data #opensource #datatools #duckdb

Читать полностью…

Ivan Begtin

Yambda-5B [1] огромный набор данных от Яндекса с данными по рекомендациям в Яндекс Музыке. В максимальной версии - это около 75GB в файлах Parquet и чуть менее 5 миллиардов записей. Это реально очень много и на настольном железе поработать с таким объёмом будет очень сложно.

Будет очень интересен тем кто изучает рекомендательные системы.

Ссылки:
[1] https://huggingface.co/datasets/yandex/yambda

#opendata #datasets #data #yandex

Читать полностью…

Ivan Begtin

Что означает новость про то что Grok будет встроен в телеграм? То что появляется дополнительная сторона в обработке персональных данных при использовании Телеграм. Вопрос в том в каком объёме и в каких случаях данные будут передаваться. Подозреваю что согласие будет однократным, а использование без ограничений.

То что на это возбудятся европейские регуляторы - это несомненно. Российский регулятор тоже, но в России Телеграм практически безальтернативен.

Очень жду когда кто-то предметно проведет анализ этой интеграции и её последствий.

#privacy #telegram

Читать полностью…

Ivan Begtin

Для тех кто ищет российские муниципальные данные и не знает где найти, я ранее писал о некоторых очевидных и неочевидных их источниках, но их, конечно же, гораздо больше.

Вот тут пополнение списка, с данными по городам и районам:
- ДомКлик - https://blog.domclick.ru/analytics
- ВЭБ Индекс - https://citylifeindex.ru/database?pageType=CITIES
- Единое Хранилище Данных Москвы - https://ehd.moscow/
- Показатели жилищного строительства - https://наш.дом.рф/аналитика/показатели_жилищного_строительства

Кроме того в ЕМИСС (fedstat.ru) есть, как минимум, 101 индикатор которые охватывают города, только крупнейшие, но хотя бы так.

С некоторыми разумными усилиями эти данные могут быть связаны с данными Сбербанка на хакатоне Сбериндекса, на который ещё можно податься.

#opendata #hyperlocal #hackathons #data #datasets

Читать полностью…

Ivan Begtin

Полезное чтение про данные, технологии и не только:
- On file formats [1] автор систематизирует рекомендации тем кто придумывает собственные форматы файлов. Всё достаточно сжато и по делу.
- A deep dive into AlloyDB’s vector search enhancements [2] о применении векторного поиска и операций со ScanNN индексе в AlloyDB расширении для Postgres. О том как ИИ проникает в СУБД и там закрепляется.
- TrailBase [3] замена Firebase с открытым кодом
- LiamERD [4] красивые ERD диаграммы для ваших баз данных, с открытым кодом


Ссылки:
[1] https://solhsa.com/oldernews2025.html#ON-FILE-FORMATS
[2] https://cloud.google.com/blog/products/databases/alloydb-ais-scann-index-improves-search-on-all-kinds-of-data/
[3] https://github.com/trailbaseio/trailbase
[4] https://liambx.com/

#opensource #data #datatools

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них портал данных Международной продовольственной программы (WFP) [1]

Включает данные климатического эксплорера где по большинстве стран можно узнать текущие и исторические данные по осадкам и другим климатическим данным.

Выглядит очень интересно и может быть полезно для тех кто анализирует гиперлокальные (муниципальные) данные поскольку по большинству стран мониторинг охватывает до второго административного уровня - муниципаоитетов, проще говоря.

С одним очень большим но... Это большое НО - это Россия. По России доступны только общестрановые данные, что для огромной страны кажется особенно странным. Нет даже данных по регионам, хотя на карте они все есть и у структур ООН есть данные о российских границах. Лично я, конечно, подозреваю с чем это связано.

Для примера, данные по районам Армении.

Ссылки:
[1] https://dataviz.vam.wfp.org

#opendata #dataviz #climate #data #russia

Читать полностью…

Ivan Begtin

Я ранее уже писал про хакатон СберИндекса на котором ожидаются интересные муниципальные данные и не могу не обратить внимание на группу задач на сайте хакатона которые можно назвать "новые наборы данных".

Если вкратце, то в России и на постсоветском пространстве стран не входящих в ЕС, есть застарелая проблема с отсутствием муниципальных данных и, в принципе, систематизированного сбора муниципальной статистики. То что есть сейчас, скажем так, вызывает некоторые сомнения.

Поэтому всегда остаётся вопрос, где взять муниципальные данные? И тут я обозначу некоторые очевидные и не такие очевидные источники.

1. Терр органы Росстата
У Росстата множество терр. органов с разной степенью качества и полноты публикации материалов. Тем не менее на их сайтах бывают и Excel файлы с паспортами муниципалитетов, и отдельные статистические таблицы и отчеты и многое другое. Работа с этими данными может потребовать навыков их извлечения из PDF и MS Word файлов, но может дать полезные дополнительные данные по конкретным регионам и муниципалитетам.

2. Некоторые статпоказатели в ЕМИСС

ЕМИСС - это единая межведомственная система статистики (fedstat.ru) и, в целом, она не то чтобы наполнена очень актуальными данными и по большей части там про страну в целом и про регионы, тем не менее, там есть несколько показателей охватывающих города (не все муниципалитеты, а именно города).
Например:
- Индекс потребительских цен (тарифов) на отдельные товары и услуги - обновляется еженедельно, 145 видов товаров и несколько сотен городов

Возможно там есть и другие данные, их можно поискать самостоятельно или дождаться когда мы закончим архивацию ЕМИСС, но это может быть и до хакатона, так что имеет смысл поизучать самостоятельно.

3. Международные данные ООН

Да, некоторые данные связанные с городами есть в международной статистике. Например, статистике ООН есть показатели демографии за 2005-2012 годы по российским городам. Конечно данные за 2012 год уже не очень актуальны, но речь о том что в базе ООН. Потому что есть и более новые датасеты, 4-х летней давности. О чём я? О том что стоит поискать там внимательнее и на других порталах международной статистики, там могут быть данные привязанные к городам.

4. Региональные порталы данных: Москва

В некоторых регионах есть, и живые порталы открытых данных и другие каталоги данных. Например, в Москве живой портал data.mos.ru и ehd.moscow. Подсказка и там и там много муниципальных данных, но нужно приложить усилия для их интеграции с другими данными, например, теми что есть в СберИндексе

5. И, наконец, конечно поиск данных через ИИ

Да, всегда можно сформулировать промпт "Найди сайты с муниципальной статистикой Санкт-Петербурга" или для любого другого региона и получить некоторые полезные ссылки

Это не исчерпывающий список источников муниципальных и региональных данных, несомненно их гораздо больше. Создание сводных наборов интегрирующих хотя бы некоторые из них - это важный дата продукт полезный для анализа данных.

#opendata #statistics #municipalities #cities #russia

Читать полностью…

Ivan Begtin

Вышла новая версия 1.3.0 DuckDB [1] с кучей изменений и улучшений.

Из важного стоит отметить:
1. Кэширование внешних файлов.
Теперь при обращении к файлу по ссылке он по умолчанию кешируется. Это очень удобно при работе с файлами относительно небольшого объёма.Опять же DuckDB здесь выступает скорее как query engine чем как база данных

2. Прямое обращение к файлу с командной строки

Позволяет сразу передать файл параметром и сделать запрос. Удобно тем что позволяет сократить описание к командной сроке и сэкономить время.

3. Расширение для кодировок
Это, конечно, давно ожидаемая [2] возможность работы с файлами в любой кодировке. Многим это существенно облегчит жизнь.

Также пишут что системно переработали код чтения и записи в Parquet файлы и всё должно быть быстрее, вот это надо будет проверить. Потому что чтение вроде как и раньше было неплохо, а вот запись в Parquet в DuckDB съедала много оперативной памяти.

Там ещё много изменений связанных с работой с геоданными, JOIN'ам, инструмент явно и быстро улучшается.

Ссылки:
[1] https://duckdb.org/2025/05/21/announcing-duckdb-130.html
[2] https://duckdb.org/docs/stable/core_extensions/encodings

#opensource #dataengineering #duckdb

Читать полностью…

Ivan Begtin

В рубрике как это устроено не у них статистическая база статкомитета СНГ [1].

На удивление правильные декларации начиная с того что акцент на открытых данных и принципах FAIR, предоставлении открытых данных и машиночитаемых данных в SDMX, Excel, LD-JSON и других форматах.

Доступна в виде базы данных [1] и BI-портала [2]

Плюсы:
- декларируемая открытость
- экспорт данных в Excel, SDMX, CSV, JSON и XML
- достаточно подробные метаданные (в BI портале)
- раздел с открытыми данными [3] и всеми справочниками (!)
- наличие API, хоть и плохо документированного, но хоть так
- кроме данных стран СНГ, ещё и копия баз данных FAOSTAT,

Минусы:
- нет возможности массового экспорта данных (bulk download) кроме как вручную
- "плохой" SDMX, формально соответствующий стандарту, но без точек подключения к справочникам (CodeLists) и концептам (Concepts)
- отсутствие лицензий на использование данных

В целом это, скорее, удивительное явление поскольку уровень открытости повыше чем у многие проектов/порталов Росстата включая ЕМИСС. Но и масштаб сильно меньше.

В то же время это полезный источник показателей по постсоветским странам.

Ссылки:
[1] https://new.cisstat.org/web/guest/cis-stat-home
[2] https://eias.cisstat.org/biportal/
[3] https://eias.cisstat.org/downloads/

#opendata #datasets #statistics

Читать полностью…
Subscribe to a channel