begtin | Business and Startups

Telegram-канал begtin - Ivan Begtin

7027

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Subscribe to a channel

Ivan Begtin

Я тут думал было запилить гайд по сжатию данных для дата инженеров, но понял что он сведётся в итоге к формуле: сжимай всё в Parquet с компрессией Zstd

Это работает для если не всех, то большинства случаев, а всё остальное было бы просто обоснованием этого тезиса с результатами тестов на живых и синтетических данных.

Тем не менее несколько лайфхаков:
1. Сжимать CSV файлы с булевыми значениями в виде 0/1 эффективнее чем преобразовывать в Parquet потому что по умолчанию эти значения распознаются как числа int64 и даже сжатый parquet файл крупнее чем архивный.
2. Распространять файлы в унаследованных архиваторах типа ARJ - это жуткий моветон, они крайне неэффективны в потоковой обработке.
3. Большая часть инструментов загрузки датафреймов поддерживают сжатые csv файлы, но по разному. Pandas умеет открывать .xz,.gz,.zip,.zst,.bz2, а вот duckdb умеет только .gz и .zst, а остальные придётся распаковывать промежуточно куда-то ещё. Polars тоже умеет работать с .gz, а для остальных форматов сжатия надо прикладывать доп усилия.
4. Всё сводится в итоге к балансу между объёмов хранения данных, поддержкой основными инструментами аналитика и скоростью чтения данных. По этим категориям Parquet оказывается на первом месте потому что данные сжаты лучше чем большинством способов сжатия данных, чтение происходит чуть ли не быстрее чем читать файлы CSV и поддерживается он большинством современных инструментов.
5. Небольшие трюки с Parquet связаны с его колоночным сжатием данных. Уровень сжатия может зависеть и от формы представления данных. Например, если у Вас датасет с ежемесячными показаниями, то если период записывать как отдельные поля year и month, а не как дату начала месяца типа "2024-12-01", только на сжатии этой колонки можно сэкономить до 25%, потому что колонки year и month сожмутся куда лучше.
6. Аналогично с полями с булевыми значениями. Для сжатия лучше если это родное булевое поле в parquet, а не число или строка. И если булевые значения в CSV описаны как True/False, то при преобразовании/распознавании они идентифицируются как таковые. А если записаны как 0/1 или Yes/No и тд., то нет

В целом трюки со сжатием данных не так уж необходимы, реальная потребность в них возникает только в ситуациях больших регулярных потоков данных для которых оптимизация хранения и обработки даже на 10% имеет значение.

В итоге если хотите опубликовать большой набор данных - публикуйте в Parquet с внутренним сжатием, не ошибётесь.

#dataformats #dataengineering

Читать полностью…

Ivan Begtin

Кстати, ещё полезного из последнего отчета Cloudflare - это то какие домены наиболее популярны у спамеров и хакеров [1]. Можно увидеть что некоторые доменные зоны не просто популярны, а невероятно популярны именно у них. У доменных зон: .bar, .rest, .uno, .best, .click, .ws, .social, .shop, .cfd, .quest более 90% трафика email - это спам или вредоносные письма.

Вывод: использовать их для какого-либо легитимного бизнеса не рассылающего спам не стоит. Кстати из национальных зон более всего спама и вредоносов из зоны... правильно .ir (Иран), много из зон .ru и .cn.

Вообще интересная статистика, заставляет задуматься отчего так происходит.

Ссылки:
[1] https://radar.cloudflare.com/year-in-review/2024#most-observed-tlds

#internet #spam

Читать полностью…

Ivan Begtin

О, только я об этом написал, а тут у Кудрина в телеграм канале по поводу отчета Cloudflare и то что Яндекс на втором месте в мире;) Кстати, я бы не удивился что это ещё и из-за поиска по изображениям который у Яндекса реально один из лучших если не самый лучший в мире.

Читать полностью…

Ivan Begtin

Свежий годовой отчет Cloudflare о связности интернета и основных трендах [1]. Интересно хотя бы из-за масштаба Cloudflare, его однозначно можно отнести к компании управляющей глобальной критичной инфраструктурой.

Несколько быстрых фактов из их отчета:
- Chrome по прежнему доминирующий браузер в мире с более чем 65.8%. Далее Safari со значимыми 15.5%, Edge с 6.9% и Firefox с 4%
- Google по прежнему доминирует в поиске с 88.5%, но, на втором месте идёт Яндекс с 3.1%. Baidu и Bing от Яндекс'а отстают
- GoogleBot создаёт наибольшую нагрузку на веб сайты чем все остальные боты
- AI краулер Bytespider от Bytedance значительно уменьшил сбор данных в 2024 году, а ClaudeBot от Anthropic существенно подрос
- интернет трафик через StarLink вырос в 3.3 раза. После доступности сервиса StarLink у нескольких стран трафик вырос в десятки и даже сотни раз.

И там ещё много всего любопытного, а также у них есть интересный продукт Cloudflare Radar с открытой аналитикой и данными и API.

Кстати, очень показательный пример [2] дата продукта, дашборда, продукта дата аналитики и тд. Потому что это качественное совмещение визуализации и возможности самостоятельно работать с данными через API.

Ссылки:
[1] https://blog.cloudflare.com/radar-2024-year-in-review/
[2] https://radar.cloudflare.com

#opendata #datasets #analytics #readings

Читать полностью…

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- The DuckDB Avro Extension [1] новое расширение для DuckDB для поддержки формата файлов Apache Avro. Не то чтобы Avro часто встречается в дикой природе, но во многих корпоративных стеках данных он есть и хорошо что к нему есть расширение. Заодно полезное чтение про внутреннее устройство и специфику этого формата.
- Prototype Fund: a successful story of project replication within the Open Knowledge Network [2] в блоке Open Knowledge Foundation видео с рассказом про Prototype Fund в Германии и Швейцарии. Это специальный фонд для поддержки проектов с открытым кодом, про открытые данные и вообще про технологические аспекты открытости (например, стандарты) в контексте цифровой общей инфраструктуры. Иначе говоря поддержка открытых проектов создаваемых для общественного блага. Жаль этот опыт трудновоспроизводим.
- The History of the Decline and Fall of In-Memory Database Systems [3] приятный текст про "взлет и падение" баз данных работавших только в памяти и о том почему почти все СУБД вернулись к модели постоянного хранения. Спойлер: потому что цены гигабайт на SSD падают быстрее чем цены за гигабайт RAM
- Researchers achieve 96% accuracy in detecting phishing emails with open-source AI [4] вот полезное применение LLM, ловить фишинговые письма. Правда, сдаётся мне что есть способы и попроще, но и этот весьма неплох. Причём 95% точности достигается довольно легковесной моделью, а 96% уже с существенно большими требованиями
- An Open Source Python Library for Anonymizing Sensitive Data [5] статья об анонимизации данных и открытой библиотеке авторов о том как ей пользоваться.

Ссылки:
[1] https://duckdb.org/2024/12/09/duckdb-avro-extension
[2] https://blog.okfn.org/2024/12/05/prototype-fund-a-successful-story-of-project-replication-within-the-open-knowledge-network/
[3] https://cedardb.com/blog/in_memory_dbms/
[4] https://the-decoder.com/researchers-achieve-96-accuracy-in-detecting-phishing-emails-with-open-source-ai/
[5] https://www.nature.com/articles/s41597-024-04019-z

#opensource #ai #rdbms #readings

Читать полностью…

Ivan Begtin

В рубрике закрытых данных в РФ с декабря 2021 года с портала данных Министерства культуры РФ [1] исчезло 8 наборов данных. Было 62 [2], а стало 54 на начало декабря 2024 г. Новости портала не обновлялись также с середины 2021 года [3]

Хорошая новость в том что оставшиеся наборы данных пока ещё обновляются.

А когда-то это был один из лучших порталов открытых данных в России. Говорю как человек которые уже пересмотрел тысячи сайтов с открытыми данными.

Ссылки:
[1] https://opendata.mkrf.ru/opendata
[2] https://web.archive.org/web/20211130053406/https://opendata.mkrf.ru/opendata
[3] https://opendata.mkrf.ru/item/newslist

#closeddata #data #opendata #russia #culture

Читать полностью…

Ivan Begtin

В мире очень много данных о которых мало кто знает (с)

Большой срез научных данных - это данные о погоде, климате и наблюдениях за морями и океанами. Всё это является частью метеорологии и климатологии наук которые изначально про работу с большими данными, поскольку данные метеонаблюдений, спутниковых снимков и тд. - это реально большие объёмы данных поступающих в реальном времени.

Так вот большая часть этих данных в мире собирается с помощью открытого кода и публикуется в форме датасетов в каталогах данных на базе движка ERDDAP [1]. Это довольно старый программный продукт, разработанный Национальным управлением океанических и атмосферных исследований и используемый как каталог научных данных с возможностью работать с данными через API, в виде графов, таблиц и с первичными данными в формате NetCDF.

В общей сложности в мире более 100 инсталляций ERDDAP, большая их часть находится в США, но есть и в Австралии, Японии, странах ЕС и ряде других. В совокупности это более 100 тысяч наборов данных, а реальный объём данных сложно измерить, но можно исходить из того что там минимум сотни терабайт, а скорее больше.

В реестре Dateno тоже есть записи с серверами ERDDAP [2] и пока их там чуть менее 70, по большинству из них ещё не собраны нужные метаданные и сами данные ещё не индексируются.

В ближайшие недели/месяцы мы, конечно, индексировать их начнём, поскольку они неплохо стандартизированы и пригодны для индексации. Но это та область которая как бы существует сама по себе, узкая нишевая научная инфраструктура в которой, в принципе, большинство исследователей и так знают где что искать.

Поэтому для Dateno эти каталоги данных пока не первоприоритетны, но они несомненно интересны для понимания того как устроены данных в отдельных научных дисциплинах. А что то и так индексируется с существующих дата каталогов где есть ссылки на данные из ERDDAP [3]

Ссылки:
[1] https://github.com/ERDDAP
[2] https://dateno.io/registry/catalog/cdi00004521/
[3] https://dateno.io/search?query=ERDDAP

#opendata #dataportals #datasets #oceans #climatology

Читать полностью…

Ivan Begtin

Я тут задумался над тем какие практические инструменты с LLM внутри я использую в работе и для чего хотелось бы использовать ещё. Хотелось бы, для многого конечно, но не всё ещё существует

Самое очевидное это переписывание текстов с помощью DeepL Write. Очень удобно для переписке и публикаций не на родном языке, поскольку сильно выправляет текст. Похоже на Grammarly, но ощущение что итоговый текст гораздо лучше и поддерживается не только английский язык. Главный минус пока только в том что поддерживаются только 8 языков. В любом случае очень удобно для публикации в англоязычных и других соцсетях

Совсем не такое очевидное, но важное для меня это сбор информации о дата каталогах. Это довольно специфическая лично моя задача по обновлению реестра каталогов данных в Dateno. Этот процесс на текущей стадии ручной, поскольку автоматизированный ранее собранных каталогов уже выполнен и оставшаяся часть работы - это ручная разметка. В частности вручную проставляется инфа по каталогу данных:
- название
- описание
- название владельца
- тип владельца (гос-во, муниципалитет, ученые и тд.)
- тематики
- теги

А также простановка геопривязки для тех ресурсов у которых её нет или если выясняется что они уровня регионов.

Это много ручной работы напрямую влияющей на качество данных в Dateno, поскольку тип владельца, геопривязки и тематики идут в фасеты поиска, а остальные поля отображаются в карточках датасетов.

Оказалось что Perplexity отлично выдаёт ответы на такие вопросы как:
- Who owns <> website ?
- About what this website is <> ?

А также, что очень практически удобно, Perplexity умеет точно отвечать на такие вопросы как "What is ISO3166-2 code of the Magallanes and Chilean Antarctica ?" и выдавать точный код.

Скорее всего Perplexity можно заменить на другую модель, но и текущие результаты вполне полезны.

Сейчас в Dateno около 18% (3.4 миллиона) наборов данных не имеют пометки типа владельца данных, а 2.4 миллиона не имеют привязки к стране/территории.

Это, в любом случае лучше чем у Google Dataset Search, но всё ещё недостаточно хорошо.

Применение LLM в повышении качества метаданных кажется очень реалистичной задачей.

#ai #thoughts #dateno #datasets #data

Читать полностью…

Ivan Begtin

В The Economist статья The British state is blind [1] о том что статслужба Великобритании неправильно считала миграцию в страну и сильно её занижала. По оценкам с 2019 года, как минимум, был недооценён въезд около 1 миллиона мигрантов.

Статья под пэйволом, но есть копии её текста [2].

Тут бы, конечно, сдержаться от саркастического смеха, но сложно.

Чем отличается британская статслужба от других? Только тем что попались и эту ошибку признают. Почему мы полагаем что другие официальные стат агентства работают лучше или что их данные достовернее? Официальная статистика во многих странах уже достаточно давно в кризисе. Во многих неразвитых и развивающихся странах всё ещё полно технических и методических вопросов хотя бы по основным статпоказателям, а во многих развитых странах альтернативные источники данных становятся приоритетнее,

А думаете статистика в вашей стране не врёт?

Ссылки:
[1] https://www.economist.com/britain/2024/12/04/the-british-state-is-blind
[2] https://us6.campaign-archive.com/?e=35defdcd70&amp;u=1a990feb5c&amp;id=c349203b07#mctoc4

#statistics #data #migration #uk

Читать полностью…

Ivan Begtin

В рубрике интересных и полезных наборов данных geoBoundaries [1] база данных, открытые данные и открытое API с данными по границам стран с детализацией территорий, иногда, до 5 уровня, а в целом хотя бы на уровне охвата основных границ территорий.

Весь проект с открытым кодом [2] и данные всех последних версий хранятся в Github в LFS хранилище для больших файлов.

На сайте ещё и предусмотрено использование разных источников для отображения основной границы страны (да их много и они отличаются) и поддерживаются базы GADM, OCHA ROCCA, Who's On First, OSM-Boundaries возможно ещё какие-то, все не просмотрел.

Как и почти во всех таких проектах по картированию границ, здесь данные соответствуют международно-признанным границам и странам. Поэтому в аналитике где нужны ещё и, к примеру, границы Приднестровья, Южной Осетии или Абхазии и иных непризнанных территорий, эти данные необходимо дополнять.

Если Вы ищете данные с границами регионов и муниципалитетов, то на этот источник точно стоит обратить внимание. Например, данные по границам российских муниципалитетов там есть.

Данные в форматах SHP, GeoJSON, Geopackage.
Распространяются под лицензией CC-BY.
Созданы и поддерживаются Геолабораторией в университете William & Mary [3]

Ссылки:
[1] https://www.geoboundaries.org
[2] https://github.com/wmgeolab/geoBoundaries
[3] https://sites.google.com/view/wmgeolab/

#opendata #boundaries #geodata #datasets

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них официальная статистика Мексики ведётся Национальным институтом статистики и географии. Это довольно частое совмещение функций в латиноамериканских странах. Особенность мексиканской статистики в том что на официальном сайте де факто присутствует несколько каталогов публикаций/индикаторов/таблиц [1] каждый из которых можно рассматривать как каталоги данных и геоданных.

Например:
- 85+ тысяч датасетов с геоданными в разделе карт [2], преимущественно машиночитаемые
- 12+ тысяч статистических публикаций из которых около половины - это файлы Excel
- 20+ тысяч таблиц, данных, геоданных и микроданных в разделе массовой выгрузки (bulk download)
- 24+ тысячи индикаторов в банке индикаторов с их машиночитаемой выгрузкой

и другие данные в разделе открытых данных [6].

Для полного счастья нехватает только чтобы все эти данные были упакованы в единый дата каталог, но даже в текущем виде всё довольно неплохо организовано.

Ссылки:
[1] https://www.inegi.org.mx/siscon/
[2] https://en.www.inegi.org.mx/app/mapas/
[3] https://www.inegi.org.mx/app/publicaciones/
[4] https://en.www.inegi.org.mx/app/descarga/
[5] https://en.www.inegi.org.mx/app/indicadores/
[6] https://www.inegi.org.mx/datosabiertos/

#opendata #mexico #statistics

Читать полностью…

Ivan Begtin

В рубрике полезного чтения про данные, технологии и не только:
- Dismantling ELT: The Case for Graphs, Not Silos [1] размышления автора о том что такое ELT с точки зрения данных которые являются графом. Он там постоянно ссылается на закон Конвея «организации проектируют системы, которые копируют структуру коммуникаций в этой организации» и про необходимость изменения отношения к тому как данные обрабатываются.
- 7 Databases in 7 Weeks for 2025 [2] автор рассказывает о том почему стоит изучить такие базы данных как PostgreSQL, SQlite, DuckDB, Clickhouse, FoundationDB, TigerBeetle и CockroachDB. Подборка хорошая, стоит изучить
- reactable-py [3] код для быстрой визуализации датафреймов. Мне он чем то напомнил проект Datasette [4], но очень отдалённо. Удобно тем что хорошо встраивается в веб страницу и может быть полезно в дата сторителлинге.
- Field Boundaries for Agriculture (fiboa) [5] малоизвестный пока что проект по сбору наборов данных и инструментов для создания данных в сельском хозяйстве, конкретно в определении границ участков. Сами данные публикуют в Source Cooperative, каталоге больших геоданных [6]
- Common Operational Datasets [7] [8] [9] общие операционные наборы достоверных данных необходимые для принятия решений. Термин UN OCHA определяющий ключевые данные необходимые для противодействия стихийным бедствиям. Чем то напоминает концепцию high-value datasets используемую в Евросоюзе.

Ссылки:
[1] https://jack-vanlightly.com/blog/2024/11/26/dismantling-elt-the-case-for-graphs-not-silos
[2] https://matt.blwt.io/post/7-databases-in-7-weeks-for-2025/
[3] https://machow.github.io/reactable-py/get-started/index.html
[4] https://datasette.io
[5] https://github.com/fiboa
[6] https://source.coop/
[7] https://cod.unocha.org
[8] https://data.humdata.org/event/cod/
[9] https://humanitarian.atlassian.net/wiki/spaces/imtoolbox/pages/42045911/Common+Operational+Datasets+CODs

#opendata #opensource #readings #dataviz #dataframes

Читать полностью…

Ivan Begtin

Тем временем французы на национальном портале открытых данных Франции data.gouv.fr добавили возможность получать данные в формате Parquet [1]

Какие молодцы!

Ссылки:
[1] https://www.data.gouv.fr/fr/posts/telecharger-des-donnees-massives-au-format-parquet/

#opendata #parquet #france #dataengineering

Читать полностью…

Ivan Begtin

В рубрике как это работает у них данные статслужбы Хорватии. Централизовано публикуются на портале podaci.dzs.hr [1]

podaci с хорватского языка переводится как данные


Особенность портала в том что это поисковик/каталог с документами и ссылками на данные в разных форматах и информационных системах. На нём собраны:
- ссылки на таблицы из портала оперативной бизнес статистики STS Databases [2]
- ссылки не портал геостатистики [3]
- ссылки на статтаблицы в системе Px-Web [4]

А также документы статсборников и оперативные публикации в Excel.

Фактически в статслужбе Хорватии, как и во многих статслужбах, присутствует фрагментация данных по разным информационным системам и они решают её через создание единого каталога. А также развитие геостатистики где метаданные слоёв карт также доступны как открытые данные через портал на базе Geonetwork [5]

Это не самый продвинутый пример, публикации статистики, есть и более современные форматы публикации данных (parquet в статслужбе Малайзии) и более стандартизированный подход (SDMX 3.0 в международных статистических базах).

Но здесь можно обратить внимание именно на централизацию данных в рамках одного каталога данных и документов одновременно. Похожим образом организован доступ к статистике в Канаде, где сайт статслужбы в какой-то момент становится поисковиком [6].

Тем самым сайт статслужбы, де-факто, становится каталогом данных.

Ссылки:
[1] https://podaci.dzs.hr/en
[2] https://stsbaza.dzs.hr/en
[3] https://geostat.dzs.hr
[4] https://web.dzs.hr/PX-Web_e.asp?url=%22/Eng/DBHomepages/Agriculture/Agriculture.htm%22
[5] https://geostat.dzs.hr/geonetwork/srv/hrv/catalog.search
[6] https://www150.statcan.gc.ca/n1/en/type/data?MM=1

#opendata #statistics #canada #croatia #datacatalogs

Читать полностью…

Ivan Begtin

Оказывается вышел пре-релиз версии 6.0 библиотеки Plotly для визуализации данных [1] самое интересное там это то что они перешли на библиотеку Narwhals [2] которая позволяет работать с условно любой библиотекой для датафреймов и сохранять совместимость с pandas. Например, это такие библиотеки как: cuDF, Modin, pandas, Polars, PyArrow

Собственно и автор Plotly пишет про то что для не-pandas датафреймов всё ускоряется в 2-3 раза [3].

По всем параметрам хорошая штука, надо использовать на практике.

Ссылки:
[1] https://github.com/plotly/plotly.py/releases/tag/v6.0.0rc0
[2] https://github.com/narwhals-dev/narwhals
[3] https://www.linkedin.com/posts/marcogorelli_plotly-60-%F0%9D%90%A9%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%A5%F0%9D%90%9E%F0%9D%90%9A%F0%9D%90%AC%F0%9D%90%9E-is-out-activity-7267885615096991744-2ORl?utm_source=share&amp;utm_medium=member_desktop

#opensource #dataviz #dataframes

Читать полностью…

Ivan Begtin

Для настоящих фанатов работы с командной строкой переосмысление работы с оболочками/терминалами в виде Wave Terminal [1] проекта с открытым кодом для который, с одной стороны даёт возможность работать с несколькими сессиями командной строки, а с другой позволяет организовывать пространство в виде виджетов. Сейчас эти виджеты включают:
- окно терминала
- системная информация по нагрузке памяти и CPU в реальном времени
- папки с файлами
- диалоговое окно с чатботом
- окно браузера

Для Windows прозрачная интеграция с WSL и дистанционным подключением к серверам, для других OS пока не пробовал.

Ко всему ещё и под открытой лицензией, в общем-то для тех кто живёт командной строкой не продукт, а мечта. Хотя я лично для W10 и W11 давно привык к Windows Terminal [2], но этот продукт может его потеснить потому что выглядит неплохо.

И, сразу понятно как создатели могут монетизировать такой продукт:
- виджеты для дистанционного подключения к Grafana, Prometheus, Datadog, Newrelic и тд.
- сервис взаимодействия с чат ботами через свои сервера с возможностью переключения на разные AI модели, собственно это уже проксируется через них для одной модели, просто пока денег за это не берут
- интеграция с дата инженерными платформами, базами данных и тд. где есть конвееры и нагрузка на ресурсы

При этом всё настраивается через файлы конфигурации и инструменты командной строки, организуется в рабочие пространства и можно создать рабочее пространство под конкретный проект, для работы, для работы с домашними устройствами и так далее.

Для дистанционной отладки продуктов и для операций DataOps и DevOps может быть весьма полезной прикладной штукой

Ссылки:
[1] https://github.com/wavetermdev/waveterm
[2] https://github.com/microsoft/terminal

#opensource #commandline

Читать полностью…

Ivan Begtin

Для тех кто работает с архивами сайтов в формате WARC свежий инструмент WARC-GPT [1] по исследованию содержимого WARC файлов с использованием большой языковой модели (ИИ).

С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.

Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt

#opensource #digitalpreservation #ai #webarchives

Читать полностью…

Ivan Begtin

Пишут что Гарвард опубликовал датасет из более чем 1 миллиона книг которые не закрыты копирайтом и можно их свободно использовать при обучении ИИ [1].

Правда ссылки на сам датасет мне нигде не удалось найти, и даже первоисточник новости на сайте Гарварда тоже, но тем не менее.

1 миллион книг при работе с которыми нет юридических рисков - это очень много, втрое больше чем набор данных Books3 [2] к которому были как раз юридические претензии.

К вопросу о больших языковых моделей, они создаются на текстах, тексты надо откуда-то брать.

Если Ваше правительство не создаёт большие открытые наборы данных с текстами на национальном языке, значит за него это сделает кто-то ещё.

В этом смысле судьба языков малочисленных народов всё более будет под вопросом. Без большого пласта письменной истории они совсем выпадут из обихода.

Ссылки:
[1] https://www.wired.com/story/harvard-ai-training-dataset-openai-microsoft/
[2] https://www.wired.com/story/battle-over-books3/

#languages #datasets #ai

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них несколько проектов с открытыми данными по всем государственным доменам в США.

.gov data
[1] база всех доменов в зоне .gov, создана и актуализируется Cybersecurity and Infrastructure Security Agency, доступно в виде датасетов CSV файлов и файлов зоны .gov для DNS. Ведётся как полноценный дата продукт, регулярно обновляется.

GDA/govt-urls [3] репозиторий от U.S. General Services Administration с актуальным перечнем доменов/ссылок на все домены относящиеся к государству федеральные, уровня штатов, локальные, квазигосударственные и др. Огромное их число не в домене .gov кстати

ScanGov [4] публичный проект сканирования госсайтов на предмет соблюдения обязательных требований, рекомендаций и тд. В общем, лучшие практики. Создано в Civic Hacking Agency, использует базы сайтов выше и доступны новые датасеты [5]

Analytics.USA.gov [6] монитор статистики по большинству федеральных сайтов США. Отдаёт данные датасетами и API.

Service Status Checker [7] сервис проверки, мониторинга и уведомлений о недоступности для геопространственных сервисов. Мониторит большое число государственных геопространственных API в США, в основном это сервисы на базе ArcGIS и Geoserver, но не только их.

Ссылки:
[1] https://github.com/cisagov/dotgov-data
[2] https://get.gov/about/data/
[3] https://github.com/GSA/govt-urls
[4] https://scangov.org/
[5] https://docs.scangov.org/data
[6] https://analytics.usa.gov/
[7] https://statuschecker.fgdc.gov/

#opendata #government #domains #datasets

Читать полностью…

Ivan Begtin

Продолжая тему данных о климате и наблюдении за океанами и морями, проект SeaDataNet [1] пан-Европейская инициатива по упрощению доступа к данным морских исследований. Включает поиск по более чем 3 миллионам наборам данных [2] которые являются пробами, наблюдениями и так далее.

Большая часть данных происходит из Франции, более 1.1 миллиона записей, но много данных и из России, порядка 182 тысяч записей.

Данные есть из практически всех европейских и многих околоевропейских стран с выходом к морю. Поэтому данные, к примеру, из Грузии есть, а из Армении нет.

Почти все данные под лицензией Creative Commons, но для доступа нужна регистрация.

Это другой пример очень специфических отраслевых данных, можно обратить внимание что поиск по ним по собственным уникальным фильтрам таким как: морской регион, координаты, научная дисциплина, способ получения данных и так далее.

Привязка данных связана скорее с географическим положением, чем с административными границами.

Ссылки:
[1] https://www.seadatanet.org/
[2] https://cdi.seadatanet.org/search

#opendata #climate #oceans #europe #datacatalogs #datasearch

Читать полностью…

Ivan Begtin

Пишут что российское Минцифры предложило запретить использование иностранных мессенджеров в рабочих целях [1].

Очень трудно удержаться от того чтобы такое не прокомментировать. А что после этого и других подобных инициатив удивительно что все квалифицированные ИТ спецы кто могут стараются не работать из России и уезжают, кто далеко, кто недалеко? Я готов поспорить что есть прямая корреляция между запретами на коммуникацию, а также любыми ограничениями вызванными политической целесообразностью и профессиональной деятельностью.

Неважно где это происходит, в России, в Турции, или ещё в каких странах.

Государство не должно лезть в твою постель, в твой телефон и в твою голову.

P.S. И в твои данные, конечно же, тоже.

Ссылки:
[1] https://www.interfax.ru/russia/996664

#russia #government

Читать полностью…

Ivan Begtin

Про плохие практики публикации открытых данных, вот пример совершенно неожиданный, дата хаб штата Массачусетс (США) [1].

С виду он неплохо выглядит, по крайней мере внешне, но, это не должно обманывать, у него есть несколько системных недостатков:
1. Это не каталог данных, а список внешних ресурсов. Практически все ссылки ведут на другие сайты принадлежащие штату или федеральной власти, вроде сайта переписи census.gov
2. Наборов данных там всего 384 что очень мало, потому что на одном только портале города Кембридж (входит в штат) есть 432 набора данных [2]
3. В поиске нет возможности фильтровать ни по одному из фильтров кроме темы
4. Нет API, нет экспорта метаданных,
5. Часть ссылок вообще ведут на страницы сервиса Tableau с дашбордами откуда данные не скачать без авторизации [3]

В общем-то для США это довольно редкий пример, потому как там почти все порталы открытых данных сделаны, либо на движке Socrata, либо CKAN, либо ArcGIS Hub.

При этом у штата есть вполне приличный по размеру и содержанию каталог геоданных [4] с 2439 наборами данных, включая исторические.

Впрочем я уже писал о том что в США важные особенности развития открытых данных - это высокая их фрагментированность, рассеяность по множеству ресурсов и в том что геоданных и научных данных значительно больше всех остальных.

Ссылки:
[1] https://data.mass.gov
[2] https://data.cambridgema.gov/browse
[3] https://public.tableau.com/app/profile/drap4687/viz/MassachusettsTrialCourtChargesDashboard/AllCharges
[4] https://gis.data.mass.gov/search

#opendata #datasets #data #usa #geodata

Читать полностью…

Ivan Begtin

Свежий интересный доклад The UK government as a data provider for AI [1] о том используют ли LLM госсайты Великобритании и официальные государственные данные. Результаты таковы что контент с официальных сайтов активно используется, а датасеты из data.gov.uk практически нет. Результат совершенно неудивительный поскольку основные LLM тренировали на бесконечном количестве текстов собранных с помощью Common Crawl или своими ботам или из поискового индекса, как у Google и Microsoft. В общем-то не на данных, строго говоря. Причин этому много, я бы обозначил основной причиной что датасеты для ИИ в государстве никто не готовил и датасеты с большим числом текстов также.

Рекомендации в докладе вполне разумные и включают:
1. Публиковать данные более пригодными для ИИ (AI ready)
2. Сделать ревизию доступности контента для AI краулеров.
3. Создать национальную дата библиотеку для AI

Последний пункт это про создание специализированного каталога данных высокого качества. О таких проектах давно и много где говорят, вероятность появления его в Великобритании растёт, это не первый доклад где я о таком читаю.

Текст доклада опубликован Институтом открытых данных (Великобритания) и у них же в этом году выходило ещё одно исследование From co-generated data to generative AI [2] о том как устроено обучение ИИ на данных краудсорсинга и соцсетей. Ничего революционного, но чтение полезное.

Ссылки:
[1] https://theodi.cdn.ngo/media/documents/The_UK_government_as_a_data_provider_for_AI.pdf
[2] https://wp.oecd.ai/app/uploads/2024/12/From-co-generated-data-to-generative-AI-1.pdf

#opendata #datasets #ai #uk #readings

Читать полностью…

Ivan Begtin

Давно хочу написать на эту тему, но она какая-то огромная, о доступных данных в США. Сейчас в Dateno проиндексировано по США ~1.2 миллиона датасетов [1] из которых более 300 тысяч с портала data.gov. Это много, но есть и побольше.

Для сравнения по Германии есть 2.7 миллионов наборов данных [2].

Почему так? Потому что в Германии есть несколько государственных каталогов геоданных где они сверхдетально нарезали данные по малым сообществам. То есть это скорее про форму упаковки данных, чем про реальный их объём.

Но есть и другие факторы

Первый фактор в том что в США из-за их конфедеративной модели государства очень много данных находится в ведении отдельных штатов, а также городов и муниципалитетов (counties), в особенности это касается геоданных которых в США очень много и они очень рассеяны по разным сайтам

Второй фактор в том что многие дата продукты госорганами в США делаются ещё до того как сам термин открытые данные появился и до сих пор публикуются очень консервативно, выгрузками на FTP серверах. Соответственно чтобы превратить их в датасеты надо их правильно индексировать обогащая метаданными которые реконструировать из таблиц на веб сайтах, форм поиска и запроса и тд.

Наглядный пример, данные TIGER [2] (Topologically Integrated Geographic Encoding and Referencing database) информационной системы Бюро переписи США. Это десятки тысяч, может быть даже больше, файлов с геоданными с детализацией до городов и муниципалитетов и ещё и за разные годы. Они доступны через FTP сервер службы. [4] Но лишь в малой степени проиндексированы на национальном портале data.gov

Таких примеров много, это и база Sciencebase [5] USGS (Геологической службы США), и большие объёмы научных данных созданных и опубликованных в репозиториях финансируемых NSF и многое другое.

Я бы сказал если в каких то странах пр-ва пытаются завышать число реальных датасетов на национальных дата порталах, то в США ровно наоборот. Есть ощущение что команда data.gov совершенное не спешит его развивать, хотя от 2 до 5 миллионов наборов данных они могли бы добавить туда без феноменальных усилий.

В общем, лентяи;) Даже австралийцы сделали агрегатор и поисковик по госданным на базе движка Magda.

Ссылки:
[1] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=United%20States
[2] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Germany
[3] https://tigerweb.geo.census.gov
[4] https://www2.census.gov/geo/tiger/
[5] https://www.sciencebase.gov/

#opendata #usa #geodata #datasets

Читать полностью…

Ivan Begtin

Тем временем Amazon анонсировали S3 Tables [1], возможность работать с данными таблиц которые хранятся в S3, но работа с ними как с дата файлами и через SQL запросы. Внутри этого всего движок поддерживающий Apache Iceberg, относительно новый открытый формат хранения и распространения таблиц внутри которого файлы Parquet и ассоциированные с ними метаданныею

Много где пишут что такой продукт может подорвать бизнес крупнейших игроков рынка облачной дата аналитики и хранения Databricks и Snowflake [2], цена, как и у всех AWS продуктов, будет сложная, но похоже что честная за такой сервис.

Правда, по личному опыту могу сказать что использование облачных сервисов Amazon это удобно, но всегда влетает в копеечку. На эту тему бесконечное число мемов и даже стартапы есть оптимизирующие облачное использование.

Ссылки:
[1] https://aws.amazon.com/ru/blogs/aws/new-amazon-s3-tables-storage-optimized-for-analytics-workloads/
[2] https://meltware.com/2024/12/04/s3-tables.html

#opensource #dataengineering #amazon #aws

Читать полностью…

Ivan Begtin

Ещё один симпатичный движок для индексирования и поиска текста SeekStorm [1] умеет искать по тексту на разных языках, по скорости сравним с MeiliSearch, обещают многоязычность и внутри всё написано на Rust.

В примерах есть поиск по большим коллекциям PDF файлов, должен быть удобен для поиска, например, по базам научных статей которые почти всегда в PDF.

Можно попробовать с его помощью проиндексировать много миллионов документов. Десятки миллионов документов!

Но надо тестировать чтобы понять как он умеет инкрементально обрабатывать документов, сколько потребляет ресурсов и тд.

Ссылки:
[1] https://github.com/SeekStorm/SeekStorm
[2] https://deephn.org/?q=Data+indexing

#opensource #dataengineering

Читать полностью…

Ivan Begtin

А я тут раскопал свои самые первые презентации что я делал для публичных выступлений, датированные 2008-2009 годами и понял что за эти годы немного прокачал навыки их подготовки.

Но занимаюсь примерно тем же самым все эти годы, с той лишь разницей что в жизни стало меньше гражданских технологий (civic tech) и больше дата инженерии. За эти годы data.gov.ru помер и, к счастью, я к нему отношения не имел.

Проект OpenGovData переродился в Хаб открытых данных, РосГосЗатраты стали Госзатратами, а многие другие проекты и продукты были созданы и часть даже живо до сих пор.

#opendata #opengov #presentations #flashback

Читать полностью…

Ivan Begtin

И, вдогонку, признаки хорошо организованной статистической системы:
1. Данные на первом месте (data-first). Это основной тип продуктов, вся остальная деятельность статслужбы должна быть вторичны.
2. Данные доступны в современных статистических (JSON-Stat, SDMX) или аналитических (Parquet) форматах. Или, как минимум, в CSV, JSON, XML с документацией схемы данных.
3. Все метаданных используемые в статбазах и публикациях систематизированы и ведутся в системе управления метаданными, с регулярными обновлениями.
4. Данные доступны с максимально возможной глубиной, с момента ведения переписей, сбора официальной статистики.
5. Доступ ко всем статданным и базам данных возможен через API
6. Все данные доступны для массовой выгрузки, без необходимости запрашивать по API тысячи индикаторов, но с возможностью скачать их целиком.
7. Исторические статистические сборники оцифрованы, доступны
8. Абсолютно все статистические сборники вначале публикуются онлайн и печатаются только в режиме печати по требованию
9. Статистические сборники для публикации в вебе создаются как интерактивные истории в модели data storytelling
10. Статистические отчеты, если они создаются как PDF файлы, являются книгами и публикуются только в случае значимых смысловых документов, но не для печати таблиц имеющихся в статистических базах данных
11. Статистику имеющую геопространственную привязку должна быть возможность увидеть на интерактивной карте.
12. Вся геопространственная статистика должна быть доступна как открытые данные и открытые OGC совместимые точки подключения к API WFS, WMS
13. Доступ к статистике осуществляется через каталог или поисковую систему по данным, включая таблицы, визуализацию, методологию и публикации.
14. Должна быть информационная политика дефрагментации данных. В рамках конкретной темы или отрасли должна быть возможность посмотреть или найти данные за любой период времени в любой форме, без необходимости искать в десятках статистических и ведомственных информационных системах.

#statistics #thoughts

Читать полностью…

Ivan Begtin

Graphic Walker [1] ещё один симпатичный инструмент для анализа и визуализации данных позиционируемый как альтернатива Tableau.

На его основе работает GWalkR [2] инструмент для Exploratory Data Analysis (EDA) на языке R что хорошо встраивается в R Notebook и иные встроенные способы визуализации.

Ссылки:
[1] https://github.com/Kanaries/graphic-walker
[2] https://github.com/Kanaries/GWalkR

#opensource #dataviz #dataanalysis

Читать полностью…

Ivan Begtin

Написал большой текст про особенности российской официальной статистики
Российская статистика: немашиночитаемая институциональная фрагментация
в этот раз там не столько про машиночитаемость, и даже не столько про цифровизацию Росстата, сколько про его территориальные подразделения и про гигантское дробление данных и публикаций которые они создают.

Я не стал этого добавлять в большой текст, добавлю здесь. В среднем на сайте терр. органа Росстата опубликовано от 500 до 2000 документов, примерно такое же число публикаций выпущенных ими на бумаге. Если все эти документы собрать вместе то был бы каталог от 50 до 200 тысяч статистических публикаций и это было бы даже каталогом данных, наполовину,уж точно.

Но этого никогда не будет до тех пор пока подразделения Росстата торгуют данными.

#opendata #data #statistics #russia

Читать полностью…
Subscribe to a channel