begtin | Business and Startups

Telegram-канал begtin - Ivan Begtin

7027

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Subscribe to a channel

Ivan Begtin

В продолжение про БРЭ и почему печальный конец проекта был только вопросом времени. Я бы начал с того что вопрос о том почему необходимо поддерживать классические энциклопедические проекты в мире давно не стоит на повестке. В большинстве стран где создавались национальные энциклопедии этот процесс остановился ещё лет 15 назад, если не больше и Вики проекты, в первую очередь Википедия, даже не столько заменили энциклопедии в создании знания, сколько коммодизировали его доступность пусть даже и ценой меньшей достоверности, компенсируемой широтой и актуальностью.

У этого есть много причин, я бы выделил такие главные из них как:
1. Вовлечение широкого числа мотивированных участников в создание общего знания.
2. Понимание у участников того, что всё ими созданное принадлежит человечеству, не закрыто копирайтом и не является собственностью конкретного юр. лица
3. Открытая Вики экосистема: свободные лицензии, открытый код, открытые данные, открытые API и тд.
4. Гибкость, адаптируемость под новые способы работы с данными, авторедактирование, исправление и многое другое.

Для всех кто создавал знания с помощью Mediawiki или Semantic Mediawiki это может показать очевидным. Но не для создателей БРЭ в текущей их онлайн реинкарнации.

К тому как БРЭ создавалось у меня много вопросов, начиная с фундаментальной непрозрачности проекта (поди найди их годовые отчёты, их нет ) и продолжая выбранным форматом создания, но ключевое следующее:
- все материалы в БРЭ закрыты копирайтом. При том что это 100% госфинансирование, при том что в самой энциклопедии используется бесконечное число материалов взятых из первоисточников в CC-BY-NC/CC-BY.
- БРЭ никогда не была открытой средой. Там не было не только свободных лицензий, но и API, экспорта датасетов, открытого кода и вообще ничего
- всё это время чуть ли не единственная мотивация авторов писать туда была оплата за статьи. Денег нет - моментально нет нового контента.

Поэтому даже если БРЭ, по какой-либо, неведомой причине, власти РФ решат спасать то всё что необходимо сделать:
1. Опубликовать все материалы БРЭ под свободной лицензией допускающей свободное использование в любом Вики проекте, конкретно под лицензией CC-BY и в виде открытых данных.
2. Перевести в открытый код весь исходный код используемый в БРЭ.

Если не решат спасать, то сделать надо то же самое.

#government #content #encyclopedy #wiki #data

Читать полностью…

Ivan Begtin

Похоже что Большая российская энциклопедия на грани закрытия, не могу сказать что мне она когда-либо вызывала симпатию, но, похоже, сотрудников даже не предупреждали что финансирования больше нет. В комментариях к посту очень много критики в адрес руководства.

Похоже что сайт bigenc.ru придётся архивировать.

С одной стороны такова судьба всех классических энциклопедий ибо создавать контент очень дорого.

А с другой стороны, а зачем вообще на неё тратили средства?

Впрочем вангую что судьба всех остальных российских википедиезаменителей будет аналогична.

Любые энциклопедические проекты должны быть открытыми, с открытыми данными, открытым кодом, API, краудсорсингом и _без любой идеологии_.

Людей жалко, конечно.

#wikipedia #bigenc #closeddata #russia

Читать полностью…

Ivan Begtin

Сугубо техническое и инструментальное. Я на днях обновил исходный код утилиты metacrafter [1] и библиотеки для Python iterabledata [2].

Metacrafter - это утилита и библиотека для Python по выявлению семантических типов данных и далее автодокументирования датасетов. Она изначально поддерживала MongoDB, базовые типы файлов вроде csv, xml, jsonl и тд, а также большую часть SQL баз данных (через SQLAlchemy). Не хватало только поддержки файлов которые могут быть разнообразно сжаты. Эту задачу получилось решить переключившись на библиотеку iterabledata которая поддерживает работу с файлами вроде .csv.bz2, .xml.xz, .jsonl.gz и так далее. Собственно к уже имеющимся алгоритмам сжатия и форматам я добавил ещё Zstandard и Brotli. Из популярных форматов не поддерживаются пока только Snappy и 7z . Но у Snappy неудобная реализация на Python, надо её переписывать, а библиотека для 7z не поддерживает режим открытия файла в контейнере, без обязательного раз сжатия .

Но в остальном оказалось очень удобно . Осталось часть других инструментов переписать с этой библиотекой для простоты обработки условно любых входящих дата файлов с условно любым типом сжатия/контейнеров.

А поддержку сжатых файлов в metacrafter пришлось добавлять не просто так, а потому что хранение бесконечного числа CSV'шек и других первичных файлов в Dateno сжирает очень много места, а обрабатывать их надо. И обрабатывать достаточно быстро и с достаточно небольшими ресурсами памяти, процессора и тд.

Один из способов такой экономии это обновление инструментария для поддержки сжатых файлов на всех этапах. Причём не только на этапе обработки данных, но и на этапе извлечения и загрузки. Импорт в СУБД тоже нужен не в чистых .csv или .json, файлах, а в том числе, сжатыми тоже.

Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://github.com/apicrafter/pyiterable

#opensource #datatools #data #metacrafter #dateno

Читать полностью…

Ivan Begtin

Кстати, продолжая о том что получается достигать в Dateno того чего нет в других агрегаторах и поисковиках данных покажу на примере Эстонии.

В Европейском портале данных (ЕПД) всего 324 датасета из Эстонии. В Dateno их 39310.

Откуда такая разница? ЕПД агрегирует только данные национального геопортала Эстонии, а Dateno использует 43 каталога данных внутри страны и 18581 индикатор из базы Всемирного банка и 1760 индикаторов из базы индикаторов Банка международных расчётов. И ещё не все внутренние источники проиндексированы, набрать 50-60 тысяч наборов данных вполне реально.

Причём большая часть датасетов будут статистическими индикаторами, научными данными и геоданными.

#opendata #datasets #estonia #dateno #datacatalogs

Читать полностью…

Ivan Begtin

К вопросу о том сколько в мире общедоступных / открытых данных, приведу цифры чуть более приближенные к настоящим оценкам.

Всего в индексе Dateno сейчас 2 миллиона CSV файлов. Из них 144 тысячи файлов уже собраны и выгружены, на них обучаются алгоритмы и отрабатываются инструменты для выявления семантических типов, конвертации, преобразования форматов и тд. Всего эти файлы в несжатом виде составляют 697ГБ. Итого 697 ГБ / 144 * 2000 получается ~ 9.7 терабайта. Это только из проиндексированных каталогов данных и только CSV файлы. Кроме них ещё немало файлов XLS и XLSX, JSON, XML и многих других.

Ещё цифры:
- половина хранения, около 350ГБ - это 300 крупнейших CSV файлов. Наибольшие достигают размера в 11ГБ в несжатом виде
- крупнейшие датасеты выкладывают французы, канадцы, британцы и американцы на своих национальных порталах открытых данных

Если создавать архив хотя бы самых очевидных файлов в наиболее распространённых форматах потребуется порядка 100-500 ТБ хранения, конечно с оговорками что данные можно хранить сжатыми, с тем что если хранить несколько версий то старые версии можно класть в холодное хранилище и с тем что можно почистить дубликаты, но порядки примерно понятны. Большие отличия начинают возникать при хранении научных и спутниковых датасетов.

И добавлю что работа с таким бесконечным числом дата файлов вскрывает порой самые неожиданные технические челленджи. Например, то что нет функции из коробки по определению что содержание файла CSV файл. Даже если в каталоге данных написано что он CSV, на входе может быть ZIP или GZip файл с CSV внутри, HTML файл если файл уже удалили, ошибка в виде JSON ответа когда по какой-то причине сервер не отдаёт файл и так далее. Но если сервер не выдал ошибку, если файл лежит в хранилище, то лучший способ определить его формат - это прочитать и разобрать из него несколько строк. А встроенные идентификаторы формата не работают. У класса csv.Sniffer в Python слишком много ошибок False Positive (FAR), у duckdb полностью отсутствует поддержка не UTF-8 кодировок, Magika от Google выдаёт слишком много ошибок , как FAR, так и FRR. Приходится делать собственные простые инструменты.

#opendata #dateno #thoughts

Читать полностью…

Ivan Begtin

В продолжение размышлений вслух:
1. О дешёвой дата инженерии. Посмотрел на днях некоторое количество курсов по data engineering и убеждаюсь что даже когда они про современный стек данных они не про оптимизацию бюджетов. После них можно понимать конкретные инструменты, иногда даже не только инструменты, но и общие принципы, но ответить на вопрос "А как сделать тоже самое только в 100 раз дешевле?" не получится. Может свой курс сделать типа cheap data engineering crush course? Навеяно чтением статей по создаю дешёвых data pipelines из говна и палок duckdb и cron с observability только уровня операционной системы.

2. О соцсетях. Из профессиональных соцсетей где есть что почитать LinkedIn вышел в лидеры с большим отрывом. Facebook превратился в бесконечный поток бытовухи, политоты и всех форм убийства времени, Twitter/X почти уже тоже. Остаются LinkedIn, Medium и Substack. А также какое-то количество профессиональных рассылок. По крайней мере в тех policy and engineering темах которые меня лично интересуют.

3. О веб архивации. По сути работа с веб-архивами это нишевая дата-инженерная отрасль. WARC файлы можно и нужно воспринимать как legacy big data, неудобные устаревшие форматы/контейнеры для неструктурированных данных, устаревшие стандарты и многое другое. Плюс технические и концептуальные вопросы краулинга контента. Очень хочется наличия современного инструментального стека, но тема настолько нишевая и настолько недофинансированная что непонятно откуда ему взяться. Непонятно кто такое может профинансировать. Человечество, в принципе, очень небрежно относится к тому что после него останется, во всех смыслах.

4. О мобильной слежке. Странно отсутствие масштабных сложных исследований/расследований про мобильную слежку противоборствующими сторонами. Хотя бы для Android'а где это проще. Например, какие мобильные приложения созданные в Турции или связанные с Азербайджаном или включают трекеры из этих стран используются в Армении. Или какие мобильные приложения аффилированные с Украиной используются в РФ и наоборот, какие приложения передающие инфу в РФ используются на Украине. Или Иран vs Израиль к примеру. Можно ещё посмотреть на грань противостояния Китай против США и Австралии и многое другое. Туда же можно ещё немало мировых конфликтов включить, за исключением тех где совсем цифровых сервисов нет. В принципе это про то надо принимать как факт что все коммерческие данные в конкретных юрисдикциях доступны спецслужбам этих стран. А может быть всё это есть, просто очень непублично;)

#thoughts

Читать полностью…

Ivan Begtin

Чем с больше данных тем больше потребности в их эффективном сжатии. Из любопытных продуктов на эту тему:
- llama-zip - LLM-powered lossless compression tool, как уже понятно использует языковую модель LLAMA для сжатия текстов на английском языке. Работает только с текстами, сжимает как-то совсем неимоверно судя по примерам. Хочется дождаться его внешнего тестирования и сравнений с другими.
- ts_zip архиватор от Fabrice Bellard работающий с помощью встроенной языковой модели RWKV 169M v4 . Автор известен тем что создал NNCP, компрессор и прекомпрессор на основе нейросетей и побеждающий несколько лет в конкурсе Large Text Compression Benchmark

В целом же для задач дата инженерии слишком часто при сжатии данных приходится руководствоваться принципом сохранения обрабатываемости данных без полного раз сжатия, а максимальным уровнем компрессии или даже скоростью компрессии и декомпрессии.

1. Если у данных есть предопределённые схемы то самый эффективный способ их отдавать - это Parquet.
2. Если хранение данных вообще ничем не ограничено, то сохранять в JSONL
3. Если данные нужны для аналитики и их хочется сохранять сжатыми, то форматы gz, br, xz, zst, lz4 и bz2 если их обрабатывать в Clickhouse и в формате gz если в DuckDB. Фактически надо использовать сжатие GZip'ом при всех его недостатках.
4. Для холодного хранения можно сжимать чем угодно дающим хорошее сжатие, например xz, bz2 или 7z


#thoughts #compression #data #datatools

Читать полностью…

Ivan Begtin

В рубрике интересных поисковиков по данным, Lens.org научный поисковик по патентам, авторам и научным работам. Причём научных работ там проиндексировано 272 миллиона из которых 3.8 миллиона - это наборы данных.

Грамотно спроектированный интерфейс, удобный поиск (хотя и в Dateno быстрее) и большой охват источников.

Из минусов:
- существенный дисбаланс в сторону США и мало данных других стран
- многое названное там датасетами таковым не является
- только научные данные и даже не всех отраслей

#opendata #datasearch #datatools

Читать полностью…

Ivan Begtin

В продолжение международных инициатив по открытости данных, ключевая из них - это Open Data Charter (ODC) [1] международная хартия открытости данных основанная на 6 международных принципах открытых данных:

1. Для инклюзивного развития и инноваций
2. Для улучшения госуправления и вовлечения граждан
3. Сравнимые и интегрируемые
4. Доступные и пригодные к использованию
5. Своевременные и полные
6. Открытые по умолчанию

Эту хартию подписали 27 национальных правительств и 68 региональных правительств и властей городов. Эта хартия продвигается с 2015 года и процесс её принятия небыстрый и, кроме того, она идёт параллельно инициативам OGP и по многим странам нет пересечения.

Фактически, хартия - это ни к чему не обязывающее добровольное обязательство по открытости, но подтверждающее интерес к теме.

Немаловажно помнить что:
1. Темы открытого доступа и научных данных почти полностью отсутствуют в повестке OGP и ODC кроме разве что темы Climate change и то скорее в политическом чем в научном звучании.
2. Аналогично с тематикой доступности культурных данных и того что называют OpenGLAM, это слищком деполитизированная тема для международных институтов вроде OGP и ODC.
3. Многие страны с сильной внутренней политикой открытости данныхнигде в этих соглашениях не присутствуют. Примеры: Индия, Вьетнам, Таиланд, Малайзия

Ссылки:
[1] https://opendatacharter.org/

#opendata #opengov

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных

- Kiwi-Torrent-Research [1] датасет torrent файлов, включает 107 миллионов torrent'ов указывающих на 1.68 миллиардов файлов. Всего торрентов там на 59.6 GB в сжатом виде. В основе более десятка источников, в основном из Archive.org. Многие источники 3-4 летней давности, так что дамп не самый актуальный по содержанию, но, несомненно, один из самых крупных если не крупнейших.
- Rijden de Treinen train services [2] открытые данные архива данных о движении поездов в Нидерландах. Данные с 2019 по 2024 годы, в сжатом виде около 2 GB. Включают информацию о фактическом движении поездов включая информацию об остановке, времени прибытия, времени отправления, операторе, поезде и многом другом. Очень хороший обучающий датасетов учить студентов. Его используют в DuckDB для демонстрации работы базы данных [3] заодно с датасетом по расстояниям между станциями.

Ссылки:
[1] https://github.com/Kiwi-Torrent-Research/Kiwi-Torrent-Research
[2] https://www.rijdendetreinen.nl/en/open-data/train-archive
[3] https://duckdb.org/2024/05/31/analyzing-railway-traffic-in-the-netherlands.html

#opendata #datasets

Читать полностью…

Ivan Begtin

Нашёл презентацию Paul Bradshaw о недокументированных API веб-сайтов и как их искать [1]. Рецепты у него довольно простые:
- используйте Chrome Developers Tools и аналог в Firefox
- изучайте структуру ссылок и XHR типы запросов
- учитесь декодировать параметры

Ну и примеры недокументированных API тоже. Презентация должна быть доходчивой для журналистов, для которых собственно он и пишет как автор The Online Journalism Handbook.

У меня на эту же тему было несколько презентаций в контексте проблем с архивацией сайтов и в контексте поиска недокументированных API.

Так вот ключевой инструмент в работе с ними - это поисковые системы, возможность найти точки подключения проиндексированные ими.

Второй значимый инструмент - это "типовые", но недокументированные API многих программных продуктов. В первую очередь типовые API CMS.

И третий - это мобильные приложения, декодирование байткода которых или перехват их обращений к сайту также может дать много чего интересного.

Но, опять же, это всё полезно, в первую очередь журналистам, OSINT'щикам и хакерам. Для других задач нужно куда реже.

Ссылки:
[1] https://github.com/paulbradshaw/undocumentedapis/blob/main/Undocumented%20APIs.pdf

#api #readings #datajournalism

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них, об открытых данных в США:
1. Особенность открытости данных в США в сильном сдвиге раскрытия данных на данные научные и геоданные. Даже на основном федеральном портале data.gov [1] этот акцент явно присутствует. Федеральный портал работает на движке CKAN и агрегирует из многих (не всех) порталов данных федеральных органов и их правительственных организаций.
2. Далеко не у всех штатов в США есть порталы открытых данных. Например их нет у Висконсина, Вайоминга, Западной Виргинии да и многих других. При этом порталы открытых данных есть у многих городов в этих штатах, а также почти у всех штатов и ещё большего числа городов есть порталы геоданных.
3. Самые популярные продукты для публикации открытых данных - это Socrata и ArcGIS Hub. Socrata были первопроходцами SaaS сервисов для публикации данных госорганами, но уже давно стагнируют. ArcGIS Hub очень популярен в муниципалитетах и используют его, как для публикации геоданных, так и просто данных без геопривязки.
4. Почти у каждого университета где ведутся научные исследования или научного центра если, или специальный портал для публикации данных или публикация научных данных вместе с другими Research outputs (научными результатами). В основном на платформах Figshare, Elsevier Pure, Esploro, DSpace, а также большом числе специализированных научных порталах и агрегаторах таких как ScienceBase [2]
5. Большая часть корпоративных порталов открытых данных также происходят из США поскольку и дата корпораций больше в США. Порталы данных Amazon, Google, Microsoft и многих других.
6. Как и во всех развитых странах основные тренды публикации данных: открытый доступ (научные данные), геоданные/геопорталы (для аналитиков и граждан), прозрачность государства (для правозащитников и журналистов) и экономический эффект (малый и средний бизнес). Геоданных и научных данных более всего по заметности.
7. Важная особенность, почти нет такого "роccийского явления" как симуляция открытости. Госорганы в США ничего не обязаны публиковать по "белым спискам" открытых данных и если уж публикуют, то это почти всегда реакция на общественный запрос.
8. В реестре Dateno сейчас 1851 портал с данными США из которых 73% это геопорталы [3]. Всего данных на всех порталах более 1 миллиона датасетов. На самом деле порталов и данных куда больше, но их надо буквально вручную искать поскольку единого каталога порталов открытых данных в США никогда не было и нет.

Ссылки:
[1] https://www.data.gov
[2] https://www.sciencebase.gov/
[3] https://dateno.io/registry/country/US

#opendata #usa #datacatalogs #datasets

Читать полностью…

Ivan Begtin

Хорошая статья [1] о том как добиться высокой производительности Python при обработке очень больших файлов с данными на примере данных конкурса One Billion Row Challenge [2].

Ключевое что можно из статьи вынести:
- да, по умолчанию Python медленный, но есть много способов его очень сильно ускорить
- Polars и DuckDB дают сильнейшее ускорение, буквально 30кратное и делают обработку данных особенно быстрой
- Pandas - это медленно, пора отказываться от него где возможно
- замена CPython на PyPy заметно ускоряет процесс
- всё это без использования GPU, на ноутбуке

А я не могу не вспомнить что уже есть One Trillion Rows Challenge [3] где Dask претендуют на лучшую скорость обработки данных [4]

Больше соревнований хороших и разных!

Ссылки:
[1] https://towardsdatascience.com/python-one-billion-row-challenge-from-10-minutes-to-4-seconds-0718662b303e
[2] https://1brc.dev
[3] /channel/begtin/5529
[4] https://docs.coiled.io/blog/1trc.html

#data #dataengineering #contests #python

Читать полностью…

Ivan Begtin

Для тех кто работает с файлами в WARC формате (большая часть сайтов в ruarxive хранятся в нём) ещё одна утилита по работе с ними. Warchaeology [1]. Утилита создана в Национальной библиотеке Норвегии и позволяет:
- конвертировать форматы ARC, WARC и Nedlib
- листать WARC файлы
- удалять дубликаты файлов
- валидировать содержание WARC файлов
- предоставлять оболочку по работе с WARC файлами

Инструмент полезный, может пригодится тем кто любит работать в командной строке. Я также напомню про библиотеку и утилиту командной строки WarcIO [2] с функциями извлечения и пересжатия содержимого WARC файлов и разработанную мной когда-то утилиту MetaWARC [3] которая тоже умеет извлекать контент из WARC файлов и ещё индексировать их в sqlite и считать статистику и даже извлекать метаданные из вложенных файлов.

Больше инструментов полезных и разных! Если Вы знаете хорошие инструменты с открытым кодом для цифровой архивации, пишите нам, будем делать их обзоры.

Ссылки:
[1] https://github.com/nlnwa/warchaeology
[2] https://github.com/webrecorder/warcio
[3] https://github.com/datacoon/metawarc

#tools #opensource #digitalpreservation #webarchives #WARC #software

Читать полностью…

Ivan Begtin

Кстати, вот эта история про то что в РФ Роскомнадзор начал продавливать блокировку поисковых ботов для всех ресурсов в российской юрисдикции [1] , а не только для государственных - это совсем не безболезненная история и весьма неприятная долгосрочно.

Во первых актуальных архивов контента на русском языке больше не будет. Уже сейчас в Archive.org нет архивов российских госсайтов за 2 года, дальше будет хуже. То же самое с Common Crawl, останется только не самое свежее.

Во вторых для обучения российских ИИ используют эти же базы Archive.org и Common Crawl. Кроме разве что Яндекса у которого есть свой индекс. По этому из разработчиков ИИ менее всего пострадает Яндекс, но в целом пострадают все.

В третьих от блокировки поисковых ботов до блокировки поисковиков один шаг. Заблокируют ли когда-либо в РФ Google и Bing, к примеру? Врядли скоро, но могут. И это будет неприятно. Неприятнее лишь если только сам Google заблокирует все российские IP к своей инфраструктуре, вот это будет просто таки даже болезненно. Многие впервые узнают от чего зависят их сайты, продукты и устройства.

Ссылки:
[1] https://www.kommersant.ru/doc/6679719

#digitalpreservation #webarchives #closeddata #russia #search

Читать полностью…

Ivan Begtin

Велика вероятность закрытия сайта Большой российской энциклопедии (bigenc.ru) 17 июня. Руководство проекта написало об этом сегодня. Наша команда постарается сделать архивную копию на этих выходных. Если у Вас есть копии контента и Вы готовы их передать, мы обязательно добавим их в архив и сделаем материалы общедоступными.

P.S. В который раз приходится сталкиваться с ситуацией необходимости экстренной архивации государственных проектов. Очень печалит что о происходящем ранее не было известно.

#deathwatch #webarchive #bigenc

Читать полностью…

Ivan Begtin

Давайте я для разнообразия напишу про что-нибудь хорошее с открытыми данными в РФ
- похоже что жив и даже перезапущен портал справочников Минздрава (nsi.rosminzrav.ru), это 1797 наборов данных справочной информации в виде датасетов в XML, JSON, XLS и CSV форматах для экспорта
- всё ещё живы и активны многие региональные порталы открытых данных таких как портал данных Республики Коми (opendata.rkomi.ru) и портал данных города Новосибирска (opendata.novo-sibirsk.ru). Таких обновляющихся порталов около десятка.
- всё ещё доступен и обновляется портал открытых данных Минкульта РФ (opendata.mkrf.ru) , наборов данных новых там нет, но старые продолжают обновлять.
- Пушкинский дом продолжает публиковать открытые данные в своём репозитории (dataverse.pushdom.ru)
- некоторые университеты в РФ начали публиковать открытые данные о своей деятельности, например раздел с данными в формате CSV на сайте РНИМУ им. Пирогова и раздел данных Нижегородского НГТУ . А также научные данные публикуются как отдельные проекты, как это делает СГМУ в репозитории клинических данных
- некоторые датасеты для машинного обучения публикует ВНИИАС / РЖД в рамках проекта RailDataSets

#opendata #russia #datasets

Читать полностью…

Ivan Begtin

Свежий open source продукт для каталогизации корпоративных данных, в этот раз от Databricks и под названием Unity Catalog [1]. Обещают что это чуть ли не единственная open source платформа для data governance для data и AI.

Бегло посмотрев его могу сказать что:
- сделан каталог по cloud-first модели, полностью ориентирован на работу через облачных провайдеров
- в основе Delta sharing protocol, для обмена структурированными и неструктурированными данными
- UI сейчас нет, можно сказать этакий headless data catalog, может быть позже добавят
- он совсем не про инвентаризацию данных и про data assets, а скорее про приведение имеющегося к стандартным/популярным форматам
- внутри всё написано на Java

Итого:
1. Если надо сделать единый каталог для нескольких дата команд работающих с разными cloud сервисами и таблицами (Iceberg, Delta, Hudi) - годится
2. Если надо систематизировать работу data science команд с разными ML моделями и данными для обучения - скорее годится
3. Если надо проинвентаризировать корпоративные базы данных и разные данные, особенно унаследованные форматы - не подходит
4. Если надо организовать работу по документированию данных внутри - не подходит

И туда же до кучи, Snowflake тоже пообещали опубликовать код своего каталога данных Polaris [2]. Исходного кода пока нет, но тоже видно что это cloud-first решение на связке Iceberg и разных клауд провайдеров.

Ссылки:
[1] https://www.unitycatalog.io/
[2] https://github.com/snowflakedb/polaris-catalog

#opensource #datacatalogs #datatools

Читать полностью…

Ivan Begtin

Свежий гайд от Всемирного банка про Beneficial Ownership Registers: Implementation Insights and Emerging Frontiers [1] в виде пояснений о том как реализовывать реестры конечных бенефициаров компаний и с весьма конкретными рекомендациями. На сегодняшний день таких реестров немного, самый известный это реестр компаний в Великобритании и чуть меньше в других странах, но тренд в этом направлении точно есть и общедоступные и открытые данные тоже. Конкретно в этом документе разобраны такие проекты в Нигерии, Кении, Северной Македонии и Великобритании.

Кроме того напомню что в реестрах Open Ownership есть данные из Дании, Словакии и чуть-чуть Армении. [2]

Про Армению разговор отдельный, там всего несколько компаний и сами данные довольно плохого качества, можно сказать что инициативы де-факто работающей нет.

Важно отличать реестры компаний от реестров конечных бенефициаров компаний потому что реестры компаний не дают глубокой прослеживаемости фактического владения юр. лицом.

Ссылки:
[1] https://openknowledge.worldbank.org/server/api/core/bitstreams/fea074cb-e6a4-4ebe-8348-6cd151d2f424/content
[2] https://register.openownership.org/data_sources

#opendata #readings #transparency

Читать полностью…

Ivan Begtin

В рубрике как это работает у них портал transport.data.gouv.fr во Франции посвящённый открытым данным мобильности. На нём опубликованы многочисленные датасеты с данными по трафику общественного транспорта, дорогами, парковками, морском транспорте и многое другое. Причём очень много API с данными реального времени.

Используется десятками компаний большая часть из которых малые и средние предприятия. Пока покрывают 15 из 19 регионов Франции, с каждым годом наращивают покрытие.

Франция одна из немногих стран с подобным системным подходом по раскрытию данных по транспорту.

#opendata #datasets #france #transport

Читать полностью…

Ivan Begtin

Собрал свои публичные презентации по нескольким темам и понял что получится большой пост если перечислять все. Вот тут самые основные:

Открытые данные
-
Раскрытие данных о госфинансах как часть государственной политики - про проекты открытости госфинансов и их значимости
- Открытые данные как основа госполитики - о том как устроены открытые данные в мире
- Как искать данные с помощью каталогов данных. Проект Datacatalogs.ru - об одном из первых каталогов-каталогов данных
- Sharing Data for Disaster Response and Recovery Programs - об открытых данных в вопросах чрезвычайных ситуаций и восстановления
- Открытость информационных систем нормотворчества - об открытости/закрытости систем нормотворчества в России

Data engineering
-
Dateno. Global Data Discovery search engine - презентация проекта поиска по данным Dateno
-
Datacrafter. Каталог и озеро данных на базе MongoDB - презентация для выступления на конференции SmartData, о внутренностях продукта Datacrafter и куча технических подробностей

Open Data Armenia
-
Open Finances. International and Armenia overview - обзор проектов по открытости госфинансов в мире и в Армении
- Open Data, Open Code, Open Licenses - о разных компонентах открытости

Открытый код
- Открытый код в других странах - Как и в каком объёме и кто именно публикует открытый код, почему это важно и почему это становится всё более популярным

Приватность
-
Слежка через государственные мобильные приложения - о том как государственные органы следят за гражданами с помощью мобильных приложений и сливают информацию о их передвижении и действиях коммерческим компаниям
- Термины и объекты регулирования: ADM-системы - о том что такое системы для автоматического принятия решения и как они описываются в разных странах
- О необходимости контроля и аудита ADM- систем - о том как регулировать ИИ используемый для автоматического принятия решений

Веб архивация
- Организация веб-архивов - о том как устроены современные интернет архивы и Национальный цифровой архив (ruarxive.org)
- Дата инженерия и цифровая гуманитаристика - о том какие большие цифровые гуманитарные проекты есть в мире и про Национальный цифровой архив

Понятный язык
- Простой и понятный русский язык - о простоте русского языка и её измерении
- Простота нормативно-правового языка - о подходах к оценке нормативно-правовых текстов

P.S. Всего у меня 200+ неразобранных презентаций за последние 15 лет, в онлайне не больше 30. Что-то устаревает, что-то нельзя публиковать, что-то бессмысленно без самого выступления, но, по мере разбора завалов, буду выкладывать дальше.

#opendata #opensource #plainlanguage #webarchives #digitalpreservation #dataengineering #armenia

Читать полностью…

Ivan Begtin

В Бразилии местное отделение Open Knowledge Foundation запустило индекс открытости городов проанализировав доступность данных по 15 группам в 26 городах, столицах регионов. Результат ожидаемый - кроме Сан Пауло и Бело Хоризонте в большинстве городов открытости маловато.

При этом есть параллели с РФ, высокий уровень доступности данных о городских бюджетах и низкая доступность данных о нормативных документах.

Такой рейтинг полезен в странах где на федеральном уровне инициатива по открытости данных активна. К примеру, в РФ сделать такое сравнение реалистично, но необходимость совершенно неочевидна. А в Армении даже просто сделать такую оценку, но Армения унитарная страна, если сравнивать марзы, а если города, то они невелики. Но сделать такое можно, в том числе, потому что открыт код проекта.

#opendata #brazil #opengov #okfn

Читать полностью…

Ivan Begtin

Разное, дата инженерное:
1. При работе с JSON lines (NDJSON) по прежнему MongoDB поглощает любой скормленный файл, DuckDB лучше умеет считывать схемы и Clickhouse включая Clickhouse-local оказался самым "капризным". Для ситуаций данных с большим числом NoSQL данных и множеством схем clickhouse применим ограниченно и надо делать специальный инструментарий/надстройку чтобы иvмпортировать уже по предраспознанным схемам, что сильно замедлит импорт на больших файлах. По прежнему очень не хватает высокопроизводительного инструмента для работы с NoSQL.
2. DuckDB примечателен в плане й удобства разработчика, доступных примеров и документации, расширяемости и тд. DuckDB - это очень крутой инструмент. Причём можно смотреть на него как на вещь в себе и подспорье для аналитика, а можно как один из компонентов создаваемого дата-продукта.
3. Ценность Parquet'а начинаешь понимать когда взаимодействуешь с командами публикующими плохо документированные CSV файлы с кучей ошибок из-за того что они в CSV файлы упихивают иерархические структуры из первоисточника. Такие файлы или очень неудобно или совсем нормально не импортируются стандартными средствами. Parquet должен быть форматом для данных по умолчанию, остальное производится из него быстро.
4. Clickhouse или DuckDB были бы хорошими инструментами для замены движка внутри OpenRefine. Но, похоже, этого не дождаться. Разве что, сделать всё же, инструмент для headless data refine, я такой когда-то смастерил для MongoDB, но скорость там оставляет желать лучшего. Скорее это был прототип для оценки возможности реализации.
5. Классические ETL/ELT инструменты для геоданных не то чтобы совсем непригодны, но не заточены ни разу. Создавать / адаптировать существующие ETL движки под них? Или использовать что-то целенаправленно созданное в этой области? Пока не очень впечатляет всё что я видел.

#notes #dataengineering #data #datatools

Читать полностью…

Ivan Begtin

«Первое и важнейшее условие существования всякой благоустроенной системы госфинансов заключается в полнейшей гласности и отчетности расходов каждого фартинга казенных денег», 1870 г.

Удивительно, но все обоснования открытости и подотчетности государства, звучавшие при создании Открытого Правительства, разработке концепции открытых данных и развитии открытости не только в России, но и в других странах, были сформулированы еще 150 лет назад в издании Ливерпульской ассоциации финансовых реформ «Как англичане критикуют свои государственные расходы» (1870 год).

Авторы описывают необходимость открытости и подотчетности госорганов, работу государства за счет налогов граждан, необходимость бережного отношения к деньгам граждан, необходимость еще большей открытости Великобритании, а также высказывают сомнения в точности и добросовестности раскрываемой информации.

Второе издание 1908 года, пополнившее библиотеку Инфокультуры благодаря Максиму Осовскому, мы оцифровываем для проекта Цифрового архива госфинансов (@finlibraryru, подписывайтесь, будем делиться новостями проекта и находками).

Оригинал текста на скриншоте, но для удобства цитирую ниже:

«Первое и важнейшее условие существования всякой благоустроенной системы госфинансов заключается в полнейшей гласности и отчетности расходов каждого фартинга казенных денег. Государственные люди не должны забывать, что большинство доходов казны собирается в форме налогов. т.е. принудительным образом и без вознаграждения подданного каким-нибудь личным эквивалентом. Расход каждого фартинга казенных денег, поэтому, имеет особое, чуть ли не священное значение и должен совершаться с соблюдением величайшей бережливости, осторожности и гласности. … Таким образом, по мысли ливерпульского общества, власть должна производить расходы так, чтобы не только представители народа, но и всякий частный человек имел возможность проследить и проверить, куда и каким путем ушел из рук правительства каждый фартинг денег, ежегодно ассигнуемых народом на нужды государства».

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них в мире существует как минимум две большие инициативы по международной кооперации вокруг открытых данных и открытости государства.

Первая - это Open Government Partnership [1], партнёрство открытых правительств где страны и регионы участники публикуют добровольные обязательства, а НКО из этих стран мониторят их соблюдение. Всего там сейчас 75 стран и более 100 городов. Причём 55 городов и территорий присоединились в 2024 году.

Основные инициативы OGP - это открытость бюджетов, открытость парламентов, вовлечение граждан в госуправление, открытость информации, открытые данные, противодействие коррупции и ещё многое другое.

В обязательствах стран и регионов не всегда есть открытые данные, часто акцент делается на партисипаторном бюджетировании. Тем не менее открытые данные есть в повестке большей части стран и многих территорий.

Из постсоветских стран в OGP участвуют Кыргызстан, Украина, Литва, Латвия, Эстония, Грузия и Армения и ряд городов из этих стран. Например, города Армавир, Гюмри, Ванадзор, Ереван. Правда в Армении почти нет обязательств властей по публикации открытых данных, на сегодняшний день.

Акцент на вовлечение городов и территорий у OGP произошёл относительно недавно, в основном поскольку застопорилось участие национальных правительств и однозначной политической ориентированностью организации.

В OGP, к примеру, нет таких стран как Вьетнам, Таиланд, Малайзия, Турция, Индия - всё это страны с большими публичными инициативами по открытости данных и национальными программами в этой области.

Другая большая международная инициатива - это Open Data Charter, о ней я расскажу в следующий раз.

Ссылки:
[1] https://www.opengovpartnership.org
[2] https://www.opengovpartnership.org/ogp-local/

#opendata #opengov #datasets #data

Читать полностью…

Ivan Begtin

В *рубрике закрытых данных в РФ* в январе я писал о том что исчезли отчёты Системного оператора единой энергетической системы [1] по состоянию энергетики, но обнаружил недавно что написал там не всё. Кроме отчётов исчезли ещё и ежесуточные индикаторы такие как:
- План генерации и потребления
- Факт генерации и потребления
- Генерация и потребление (сут)

И так по каждому из ОЭС в рамках ЕЭС.

Данные остались только в Интернет архива [2].

В разрезе отдельных энергокомпаний мне недавно необходимо было найти данные по электрогенерации и только в паре случаев удалось найти помесячные данные по электрогенерации за 2023 год, а за 2024 год уже ничего не нашлось.

Ссылки:
[1] /channel/begtin/5359
[2] https://web.archive.org/web/20211107094307/https://www.so-ups.ru/functioning/ees/oes-center/oes-center-indicators/

#statistics #russia #opendata #closeddata #energy

Читать полностью…

Ivan Begtin

В рубрике полезного чтения:
- Science in the age of AI [1] доклад британского королевского общества о трансформации и вызовах перед наукой в контексте AI. Много примеров и полезное чтение. Для тех кто давно изучает эту тему ничего нового, но авторитетный источник старого.
- Exploring the Impact of ChatGPT on Wikipedia Engagement [2] препринт статьи о влиянии ChatGPT на вовлечение в Википедию. Выводы пока что не влияет, но полезно почитать о том как измеряют.
- Vulnerabilities across keyboard apps reveal keystrokes to network eavesdroppers [3] большой лонгрид от CitizenLab о том как они анализировали перехват набираемых текстов в приложениях клавиатур, для Android и IoS, с акцентом на китайских вендоров и китайский язык. Детальное, хорошо проработанное техническое расследование
- The Simple Macroeconomics of AI [4] работа по влиянию ИИ на макроэкономику. Текст полезный всем кто считает AI impact в конкретных отраслях. Я его ещё не дочитал, но отложил до ближайшего свободного времени.
- A New National Purpose: Harnessing Data for Health [5] доклад института Тони Блэра про создание National Data Trust по управлению данными в сфере здравоохранения в Великобритании. Открытые данные не упоминается и предполагается научное примененеи и коммерциализация в среднесрочной перспективе и то что данные могут быть персональными. Если говорить про экономику данных настоящую, то это вот так, и очень непросто в реализации.


Ссылки:
[1] https://royalsociety.org/news-resources/projects/science-in-the-age-of-ai/
[2] https://www.arxiv.org/abs/2405.10205
[3] https://citizenlab.ca/2024/04/vulnerabilities-across-keyboard-apps-reveal-keystrokes-to-network-eavesdroppers/
[4] https://www.nber.org/papers/w32487
[5] https://www.institute.global/insights/politics-and-governance/a-new-national-purpose-harnessing-data-for-health

#readings #ai #data #privacy

Читать полностью…

Ivan Begtin

В рубрике полезных инструментов по работе с данными:
Milvus Lite [1] безсерверная версия продукта Milvus, с открытым кодом и библиотекой для Python. Является векторной базой данных позволяющей реализовывать поиск по тексту или по изображениям. А также много примеров по применению вместе с языковыми моделями. [2]. Про движок Milvus [3] также забывать не стоит.

Относительно векторных баз данных то чуть ли не лучший их обзор - это примеры в документации LLamaindex [4] в разделе "Vector stores". Нет информации о производительности хранилищ, зато там перечислены практически все такие продукты.

Правда я подозреваю что DuckDB может оказаться более удобным инструментом для векторных данных и операций, если не уже, то скоро.

Ссылки:
[1] https://github.com/milvus-io/milvus-lite
[2] https://github.com/milvus-io/bootcamp/tree/master/bootcamp/tutorials
[3] https://milvus.io/
[4] https://docs.llamaindex.ai/en/stable/examples/

#vectordb #opensource #databases

Читать полностью…

Ivan Begtin

Два интересных и противоположных текста. В NYTimes о том как Марк Цукерберг поднабрал кармы и репутации выбрав open-source путь для развития AI в Meta. И, в целом, текст про пользу от открытия кода LLAMA.

Второй текст авторский от John Luttig из фонда Founders Fund, финансирующего многие AI стартапы что у нас на слуху, о том что фундаментальные модели ИИ будут с закрытым кодом. Потому что дорого, потому что национальная безопасность и много разных соображений.

Где правда? Я бы предположил что правда в будущих прецедентах. Если кто-то из недружественных для США стран попадётся на применении open-source LLM в каком-нибудь военном непотребстве конфликте, то open source LLM пришибут очень быстро.

Как бы то ни было тема важная, забывать про неё нельзя.

#opensource #ai #LLM

Читать полностью…

Ivan Begtin

Рубрика "Циничные картинки"

Читать полностью…
Subscribe to a channel