Telegram-канал begtin - Ivan Begtin: Business and Startups - каталог телеграмм

begtin | Business and Startups

Subscribe to a channel

Telegram-канал begtin - Ivan Begtin

7027

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Subscribe to a channel

Ivan Begtin

25 July 2025 08:37

Полезное чтение про данные, технологии и не только:
- DuckLake standard 0.2 обновлённая спецификация озера данных на базе DuckDB, любопытно, всё жду обзоров сравнения нескольких технологий построения подобных озер. Они больше для корпоративной аналитики чем для работы со статическими данными, но тем не менее.
- What CoPilot Won’t Teach You About Python (Part 1) полезные трюки для тех кто программирует на Python и хочет знать новые лайфхаки. Заголовок, конечно, так себе ибо LLM многое из этого умеют
- Finding a job as a product engineer про культуру работы продуктовых инженеров и компании которые продвигают и реализуют такой подход. Если кратко то это совмещение ролей product owner'а и developer'а. Идея мне нравится, вот только найти таких людей непросто
- Notate.so ИИ помощник для рассуждений над любым текстом в сети, работает как расширение для браузера и интегрирован с Obsidian. Идея любопытная, в идеале бы local first версию интегрированную с локальной версией Obisidian

#python #readings #daata #datalake #products #notes

Читать полностью…

Ivan Begtin

24 July 2025 11:33

В рубрике как это устроено у них в США существует Research Data Alliance (Альянс исследовательских данных) и они, в том числе, занимаются тем что архивируют данные ликвидируемых госагенств США и их дочерних структур.

Например, они 7 августа проводят хакатон Data Rescue Hackathon for USAID Education Data [1], совместно с ICPSR и DataFirst, командами работающими над репозиториями исследовательских данных. Архивировать там собираются образовательные данные и иные материалы USAID поскольку уже окончательно стало понятно что USAID ликвидируется.

Мне лично интересно как они его организуют, как мотивируют участников (если дополнительно мотивируют), какие задачи ставят и так далее.

Потому что организация классических хакатонов это понятный для меня механизм, а организация хакатонов по спасению данных - это новый, но важный жанр. И он ещё много где и много раз будет актуален.

Ссылки:
[1] https://rdapassociation.org/event-6266055

#opendata #digitalpreservation #events

Читать полностью…

Ivan Begtin

23 July 2025 22:44

Свежее исследование из Microsoft Research о том какие профессии более и какие менее подвержены замене на ИИ Working with AI: Measuring the Occupational Implications of Generative AI. Полезно чтобы задуматься о своей нынешней и будущей профессии.

К примеру, флеботомистам ничего не грозит (это такие мед специалисты которые берут венозную кровь из вены), ничего не грозит рабочим убирающим токсичные отходы, автослесарям тоже и тем кто чинит медицинское оборудование.

А вот переводчикам, историкам, писателям, редакторам, политологам и много кому ещё надо готовится к сокращению рынка труда.

#ai #work

Читать полностью…

Ivan Begtin

23 July 2025 14:18

Я буду изредка разбавлять рассуждения про технологии разным публицистическим оффтопиком и вот недавно я писал про всяческие предсказания будущего регулирования, но таких идей чтобы прям взял и положил в основание рассказа пока не увидел. Так что поделюсь одной идеей далёкого регулирования которая не даёт мне покоя, но пока я её недостаточно хорошо продумал чтобы описать, но достаточно чтобы обсудить.

Это налоговая лотерея! Как это выглядит.

Представим себе что вместо уплаты штрафов за парковку, несвоевременное предоставление отчетности, штрафов за превышение скорости и тд. налоговая служба устраивала бы лотерею где ты мог за платить меньшую сумму, например, 10 тысяч рублей вместо 50 тысяч рублей, но имел бы вероятность заплатить 100 тысяч рублей или даже 200 тысяч рублей при некоторой вероятности.

Представим себе что налоговая служба собирает около 5 миллиардов рублей в год которые выплачивают 100 тысяч человек по примерно 50 тысяч рублей каждый. Как правильно составить вероятности и пропорции платежей чтобы налоговая служба могла бы собирать до 10 миллиардов рублей в год используя такой механизм лотереи?

У идеи сразу несколько плюсов:
1. Государство собирает больше денег
2. Высокая, больше 50% вероятность заплатить штраф куда меньший
3. Высокая мотивация избегать повторных штрафов если пришлось платить больший штраф
4. Возможность автоматического выявления граждан с "паранормальной удачей".
5. Удовлетворение потребности определённых категорий граждан в азартных играх.

Применение к России очень условно, можно реализовать в любой стране. Понятно что не в ближайшем будущем, но к 2050 году как раз

#humour #ideas #writings

Читать полностью…

Ivan Begtin

23 July 2025 07:21

Стандарты работы с данными о которых вы могли ничего ранее не слышать:
- Oxford Common File Layout (OCFL) [1] спецификация описывающая способ хранения цифровых объектов независимо от использующего приложения с прицелом на долгосрочное хранение и использование. Используется, преимущественно, в академических проектах хранения цифровых объектов [2]
- Research Object Crate (RO-Crate) [3] "легковесная" спецификация для упаковки исследовательских данных вместе с метаданными. Отличается большим числом разных профилем под разные научные дисциплины [4]. Стандарт уже довольно зрелый, активно применяется во многих исследовательских проектах.
- The Open Data Product Standard (ODPS) [5] открытый стандарт описания дата продуктов из проекта Bitlol при Linux Foundation. Судя по спецификации всё ещё сыровато [6] и сама подача стандартов мне не очень нравится, я лично больше предпочитаю читать их в W3C стиле, но тем не менее, спецификаций на дата продукты как дата продукты мало. Текущая версия 0.9, явно ещё будет меняться
- The BagIt File Packaging Format (BagIt) [7] стандарт хранения цифровых объектов, в том числе данных, от библиотеки Конгресса США. В 2018 году его приняли как RFC 8493, но и до этого он давно существовал. Стандарт OCFL создавался как доработка BagIt поскольку в BagIt не было предусмотрено версионирование.
- FAIR4ML Metadata Schema [8] спецификация метаданных для описания моделей для машинного обучения, включая расширение для Schema.org. В основе спецификация для публикации кода Codemeta [9] тоже в виде расширения для Schema.org

Ссылки:
[1] https://ocfl.io
[2] https://github.com/OCFL/spec/wiki/Implementation
[3] https://www.researchobject.org/ro-crate/
[4] https://www.researchobject.org/ro-crate/profiles
[5] https://bitol.io/announcing-odps-major-step-toward-standardizing-data-products/
[6] https://github.com/bitol-io/open-data-product-standard/tree/main/docs
[7] https://datatracker.ietf.org/doc/html/rfc8493
[8] https://rda-fair4ml.github.io/FAIR4ML-schema/release/0.1.0/index.html
[9] https://codemeta.github.io/

#openstandards #opensource #readings

Читать полностью…

Ivan Begtin

22 July 2025 17:00

Оказывается Яндекс сертифицировался по ISO/IEC 42001:2023 до этого это сделали не так уж много компаний. Amazon AWS в декабре 2024, Microsoft несколько дней назад, Thompson Reuters в марте 2025, Anthropic в январе 2025. В любом случае их немного.

Что важно, нельзя получить сертификат используя чужую облачную LLM, это сертификат на управление ИИ, рисками и тд.
Сертификация по этому стандарту, в любом случае, никого не спасёт от регулирования, но некую планку этической разработки ИИ задаёт.

#ai

Читать полностью…

Ivan Begtin

22 July 2025 10:48

Devising a Strategic Approach to Artificial Intelligence : A Handbook for Policy Makers [1] свежий документ от Всемирного банка в виде руководства для нормотворцев и чиновников по регулированию ИИ.

Почти все примеры там из развивающихся стран и чуть-чуть из развитых, ни одна из стран постсоветского пространства не упоминается.

Выглядит как документ по которому в дальнейшем тот же Всемирный банк или какая-то из поддерживаемых им структур будет создавать AI Government maturity index или что-то вроде этого.

С одной стороны небесполезно, а с другой я столько уже видел похожих документов по другим тематикам.

Ссылки:
[1] https://documents.worldbank.org/en/publication/documents-reports/documentdetail/099060525125542871

#ai #regulation #readings

Читать полностью…

Ivan Begtin

21 July 2025 19:42

Когда я начал смотреть на то как поисковые системы по данным и крупнейшие агрегаторы репозитории устроены изнутри то единственный вывод который напрашивался - ~~все врут!~~ многое недоговаривают

Самое главная проблема о которой не говорят - это data diversity, то насколько у поисковых систем общего типа доступно данных из разных областей и для разных пользователей.

А это важно, потому что всегда есть возможность сделать поисковую систему по какой-либо тематике и выдавать её за просто поисковую систему или просто, скажем так, лукавить с цифрами.

Я расскажу об этом на примере индекса Datacite, их поисковик commons.datacite.org один из крупнейших для научных данных, но надо понимать как он формируется.

Например, в индексе Datacite, я недавно рассказывал, 43 миллиона наборов данных из исследовательских репозиториев. Всё это данные которым были присвоены DOI с помощью самого Datacite или Crossref. 43 миллиона кажется огромным количеством данных, очень и очень много. Когда я анализировал потенциальные источники данных для Dateno я не так то много находил каталогов данных где есть хотя бы миллион наборов данных. Так откуда 43 миллиона?

У меня возникли подозрения которая оправдались. Из 19.8 миллионов наборов данных имеют лишь один источник происхождения, это японский National Institute for Fusion Science которые присвоили DOI этому числу своих экспериментов, каждый из которых назван набором данных и проиндексирован в Datacite. Таким образом можно было бы сказать что Datacite Commons - это поисковик по данным ядерной физики, но никаких специфичных для этой области фильтров в нём не предусмотрено, а все данные имеют почти идентичные название отличающиеся лишь номером эксперимента с префиксом LHD Fast-RF-Spec.

Ещё от 3.5 миллионов наборов данных - это биоразнообразие, из систем GBIF и GBIF совместимых репозиториев. Это отличается от числа датасетов в самом GBIF, там их всего 115 тысяч, а эти самые 3 миллиона формируются из списка occurences (возникновений), фактов регистрации событий в привязке к биологическим видам. Это то что можно отнести к данным, но в терминах GBIF это не набор данных, это occurence.

И тут мы приходим к разнице в терминологии. Внутри Datacite все дата объекты - это наборы данных. Вне зависимости от размера и типа. Поэтому и occurences из GBIF там наборы данных и, к примеру, кристаллографические структуры из Кэмбриджского кристаллографического центра данных - это тоже наборы данных, хотя, по сути, это экспорт единичных объектов из базы данных.

Чтобы было понятнее поясню на примере Википедии. У каждой страницы Википедии есть ссылка на её XML представление. Это как если бы сделать поисковую систему по данным где проиндексировать все статьи Википедии и сказать что у тебя крупнейшая поисковая система/крупнейший каталог данных.

Когда я писал вредные советы для data.gov.ru у меня было немало примеров перед глазами.

Для сравнения, в OpenAIRE это проблему уже, частично, понимают. У них понятие набора данных уже имеет некоторое число подтипов таких как:
- dataset - собственно набор данных
- bioentity - биологическое понятие имеющие машинное представление
- collection - список объектов
- Image - изображения
- Clinical Trial - данные клинических исследований
и так далее

Но все те же проблемы что с Datacite там сохраняются, результаты ядерных экспериментов в отдельный тип там не выделены и National Institute for Fusion Science (NIFS) даже не упоминается как репозиторий (интересно почему?).

Поэтому индексирование научных каталогов данных и их агрегаторов это такая непростая задача с точки зрения их содержания. Многое из того что там содержится не является набором данных в общепринятом понимании, в лучшем случае некоторым подтипом или цифровым объектом. С их помощью мы могли бы в Dateno в очень короткие сроки сказать что у нас на 22 миллиона, в 60 или даже 100 миллионов наборов данных, но достаточно очевидно что для десятков миллионов из них пользователей в мире насчитывалось бы пара сотен человек и у них всех давно есть свои инструменты поиска и работы с этими данными в 2-3 первоисточниках.

Читать полностью…

Ivan Begtin

21 July 2025 10:40

Data engineer needed!

We are looking for a data engineer to develop an ambitious modern dataset search engine Dateno (dateno.io). Fully remote

Today the technology stack includes FastAPI, Airflow, MongoDB, Elasticsearch. We use Github + Discord for management.

Our technology stack more https://stackshare.io/dateno/dateno

Responsibilities:
Development and maintaining of Dateno data infrastructure
Preparing, adjusting and monitoring data pipelines
Resolving data quality issues

Requirements:
Experience with Python data stack 1+ year with real product;
Experience with building data pipelines with open source data stack;
Understating data quality management and monitoring;
Knowledge of the data observability issues and frameworks
Experience with REST API;
Knowledge of English at the level of reading technical documentation and basic communication;
Strong technical problem solving skills
Responsibility, ability to work independently.

Pros are:
Data engineering education: MS degree or equivalent industry experience
Experience or willingness to work with NoSQL databases such as MongoDB and Elasticsearch;
Experience and willingness to use modern database engines stack as DuckDB, Clickhouse and e.t.c.
Portfolio - github link with example projects/modules/code/contributions to open source projects;
Love for open data and open source is a definite plus.

Conditions: Full-time, salary based on the results of the interview.

The main thing - compliance with deadlines and the desire to make the world a better place.

Company: Dateno
Contact: dateno@dateno.io

Читать полностью…

Ivan Begtin

21 July 2025 08:55

🇨🇳 В Китае ввели «киберпространственные идентификаторы» для защиты ПД граждан
🔸С 15 июля в Китае вступили в силу положения о «киберпространственных идентификаторах» (КИ), призванных усилить защиту конфиденциальности персональных данных (ПД) в Интернете.
🔸Согласно документу, онлайн-идентификатор может быть двух видов: набор букв и цифр или учётная запись. Оба соответствуют реальной личности человека, но исключают какую-либо информацию в виде открытого текста.
🔸Используя КИ, граждане не должны будут предоставлять такую личную информацию, как номера карт удостоверения личности или настоящие фамилии и имена, провайдерам интернет-услуг – при регистрации или идентификации. Соответственно, онлайн-сервисы не в праве требовать от пользователя предоставления дополнительной информации «в виде открытого текста», если это не предусмотрено законами и административными регламентами.
🔸КИ рассматриваются властями как метод борьбы с утечками ПД граждан и последующим их использованием мошенниками и спамерами. Оформление КИ является добровольным.

Читать полностью…

Ivan Begtin

19 July 2025 20:52

На фоне очередных и ожидаемых ограничений в РФ на работу WhatsApp, внедрения Нацмессенжера, штрафов за VPN и постоянно обсуждаемых каких-то новых реестров мне много что есть сказать. Много-много есть что сказать, но но я поберегу слова для художественных текстов, а не публицистики. Да и из событийного, не устаю повторять, что про данные мне куда интереснее, чем про всё остальное. За исключением тем для будущих антиутопических фантастических рассказа

Поэтому в качестве оффтопа и в качестве ментального упражнения, давайте представим будущее Россия 2050. Достаточно близкое чтобы многие дожили, недостаточно близкое чтобы говорить со 100% уверенностью

Чтобы можно предсказать в виде государственных информационных систем, новых реестров, новых запретов и ограничений?

Мои предсказания:
- реестр недружественных культурных образов (всяческие там герои Марвел, Гарри Поттера и др. ). Автоматическое цензурирование и недопуск книг к публикации, фильмов к прокату и тд. Развитие рынка автоадаптации произведений под локальный рынок РФ.
- тотальное регулирование ИИ. Требования к локализации, требования к полной прослеживаемости обучения языковых моделей, обязательная аккредитация и тд.
- госцентрализация ИИ. Централизованные ИИ помощники для школьников, студентов, госслужащих через Госуслуги
- запуски программ "госсводничества" включая реестры женщин желающих детей, на фоне серьёзного демографического кризиса

Но я всё время сбиваюсь на то что могу представить и то что может быть и не через 25 лет, а через 1-2 года.

А что, всё таки, можно предсказать к 2050 году ? Интерес не праздный, ищу опору для творческого вдохновения очередного рассказа😉

#offtopic #ai #thoughts

Читать полностью…

Ivan Begtin

18 July 2025 18:18

В рубрике закрытых в России данных, я обнаружил что не писал про портал открытых данных Самарской области opendata.samregion.ru который был закрыт где-то между 2022 и 2024 году. В Интернет архиве на февраль 2022 года , а позже только слепки страниц с упоминанием геоблокировки. Сейчас портал перенаправляет на страницу на сайте Пр-ва Самарской области где вместо данных просто свалка разноформатных документов.

Архивная копия в формате WARC была сделана нами в апреле 2024 года. Данных там было немного, всего 24МБ в сжатом виде, но тем не менее.

#opendata #datasets #russia

Читать полностью…

Ivan Begtin

18 July 2025 17:34

По моему Ольга даже излишне оптимистично отзывается о новом российском портале открытых данных. Мой вердикт ему гораздо более суров. Это что-то между "очень плохо" и просто "плохо". И я об этом написал уже несколько раз. Это просто деньги выброшенные на ветер. Серьёзно. Портал открытых данных Москвы data.mos.ru созданный чёрт знает когда или портал открытых данных Минкультуры РФ opendata.mkrf.ru выглядят значительно лучше. И это то что называется "примеры рядом", а есть сотни примеров в мире.

Или посмотрите на портал данных Санкт-Петербурга data.gov.spb.ru и ещё на десятки порталов открытых данных, геопорталов и баз индикаторов в России. В реестре Dateno 170 российских порталов с данными и они не все проиндексированы только потому что российские сайты ставят геоблокировку.

Даже ~~чёртов~~ Роскосмос предоставляет свои открытые данные через STAC сервер, а не вот это всё.

На самом то деле я стал относится к российскому порталу с существенной долей пофигизма после того как понял что исправить там что-либо невозможно. Потому и занялся Dateno. Там было есть и будет гораздо больше данных, лучшего качества и в удобной форме

#opendata #russia #datacatalogs

Читать полностью…

Ivan Begtin

18 July 2025 12:46

В продолжение изысканий Ивана Бегтина о данных на новом портале ОД.
Мы поискали геоданные...и можно сказать, что не нашли. Может быть плохо искали?
https://gisgeo.org/opendata_portal/

Читать полностью…

Ivan Begtin

18 July 2025 09:56

Знаете ли Вы что... существует спецификация /llms.txt в виде сайта [1] с документацией. Спецификация - это что-то вроде карты сайта (sitemap) совмещенного с подробной документацией, но отформатированное в Markdown и приспособленное для упрощённого поглощения с помощью LLM.

Мне казалось что очень хотеть чтобы LLM съел твой контент - это странное желание, но для кого-то, видимо важное, и десятки сайтов спецификацию поддерживают [2], например, такой файл доступен у Sourcegraph [3] и у Bitcoin.com [4] и у LMStudio [5]

В большинстве случаев это документация к продуктам, иногда весьма и весьма детальная.

В отличие от MCP вокруг это спецификации хайп не наблюдается, но знать о ней стоит всем кто документацию к своим продуктам создаёт.

Ссылки:
[1] https://llmstxt.org/
[2] https://llmstxt.site/
[3] https://sourcegraph.com/docs/llms.txt
[4] https://www.bitcoin.com/llms.txt
[5] https://lmstudio.ai/llms.txt

#opensource #standards #ai

Читать полностью…

Ivan Begtin

25 July 2025 01:05

В США опубликовали AI Action plan документ стратегии ИИ который выглядит на удивление разумным и продуманным.

Какие то меры не применимы за пределами США, это целый столп III Lead in International AI Diplomacy and
Security, его трудно воспроизвести кому-то кроме Китая или ЕС, но многое другое может интересовать разных регуляторов.

Из интересного там это Build World-Class Scientific Datasets. Такое редко встретишь напрямую с госрегулировании, а ведь это создание научных наборов данных мирового класса.

#data #ai #regulation

Читать полностью…

Ivan Begtin

24 July 2025 07:53

В рубрике как это устроено у них один из крупнейших публичных репозиториев научных данных по биоразнообразию это PlutoF [1] созданный командой в Тартуском университете и интегрированный в цифровую инфраструктуру других европейских проектов.

В PlutoF собрано более 3 миллионов 200 тысяч ресурсов (наборов данных), каждому из которых присвоен идентификатор DOI.

Поиск по репозиторий организован неудобно, он очень минималистичен, но этот репозиторий хорошо индексируется Datacite Commons, OpenAIRE и другими поисковиками по научным результатам.

Ссылки:
[1] https://plutof.ut.ee/en

#opendata #datacatalogs #biodiversity #datasets

Читать полностью…

Ivan Begtin

23 July 2025 16:14

В рубрике как это устроено у них
Virtual Language Observatory [1] агрегатор и поисковая система по ресурсам компьютерной лингвистики в Европейском союзе.

Включает более 530 тысяч ресурсов из которых как наборы данных отмечены более 100 тысяч. Охватывает более 5 тысяч языков и диалектов.

В свою очередь и поиск в VLO имеют лингвистическую специфику с возможностью фильтрации по доступности, коллекциям, модальности и тд. Для этого репозитории входящие в европейский проект CLARIN предоставляют метаданные по согласованным спецификациям на основе которых и формируются карточки каждого ресурса.

Ссылки:
[1] https://vlo.clarin.eu

#opendata #datacatalogs #datasets #lingustics

Читать полностью…

Ivan Begtin

23 July 2025 10:14

Похоже организаторы конференции Dialog по компьютерной лингвистике ~~продолбали~~ потеряли сайт с материалами конференций с 2008 по 2022 годы - www.dialog-21.ru, вместо сайта теперь заглушка, на новом сайте dialogue-conf.org есть материалы только за 2025 год.

Что там случилось неизвестно, но может быть кто-то в контакте с их организаторами и есть возможность материалы восстановить?

#webarchives

Читать полностью…

Ivan Begtin

22 July 2025 17:00

Наряду с быстрым развитием ИИ возникают вопросы о его безопасности. Чтобы уменьшить возможные риски, ведущие российские компании, работающие с ИИ, следуют Кодексу этики — принципам для всех, кто связан с созданием, развитием и применением ИИ в России.

Теперь же Яндекс первым в России получил международный сертификат ISO/IEC 42001. Это означает, что компания соблюдает высокие стандарты безопасности и этики при разработке YandexGPT.

Для пользователей это дополнительная гарантия надежности. Для рынка — сигнал, что российские технологии соответствуют мировым требованиям.

Важный шаг в развитии генеративных нейросетей в стране и хороший пример для всей отрасли. Такое ответственное саморегулирование — ключевое качество для компаний, стремящихся стать лидерами в ИИ.

Читать полностью…

Ivan Begtin

22 July 2025 12:06

Про российский портал открытых данных data.gov.ru я писать в канале почти перестал, почти потому что одно из российских изданий попросило написать авторскую колонку на эту тему и я напишу, причём с тем о чём писал в лонгриде ранее повторяться не буду.

Скажу лишь что все технические проблемы портала - это ничего по сравнению с системной проблемой непонимания у вполне конкретных чиновников того как и какие данные создаются, кто их создаёт и так далее. Даже при всех ограничениях, политических прежде всего, конечно же, есть данные и их много которые востребованы. Но их не будут выкачивать с data.gov.ru потому что их там просто не будет.

Ну вот ещё одну мысль выдал, придётся в колонку хорошо писать чтобы сохранить ощущение новизны😉

#opendata #russia

Читать полностью…

Ivan Begtin

21 July 2025 20:32

Universal Tool Calling Protocol (UTCP) спецификация и SDK для тех кто думает об альтернативах MCP. Вместо специальной доработки инструментов они описываются в специальном файле utcp.json и вся взаимодействие с инструментом осуществляется через HTTP/gRPC/cli, с акцентом на то что нет накладных расходов на обращение к инструментам/сервисам.

Подробная документация на сайте utcp.io, но пока нет ни одного LLM провайдера который бы эту спецификацию поддерживал. Вот если будет хотя бы 1-2 то сможет (потенциально) потеснить MCP.

#ai #mcp #utcp #specifications

Читать полностью…

Ivan Begtin

21 July 2025 18:43

Полезные ссылки про данные, технологии и не только:
- DuckDB XML Extension - расширение для DuckDB для парсинга XML/HTML, пока не пробовал и интересно как он сможет съесть XML в пару пару десятков гигабайт, но выглядит полезно
- remote-jobs - репозиторий с огромным числом IT компаний имеющих вакансии для дистанционной работы. Некоторые компании remote-only, без офисов, в некоторых гибридный подход, в любом случае список полезный для тех кто ищет работу дистанционно
- Embedding User-Defined Indexes in Apache Parquet Files - для тех кто хочет поглубже разобраться с тем что такое Parquet, разбор реализации специализированного индекса внутри Parquet файлов.
- Rethinking CLI interfaces for AI у автора рефлексия о переосмыслении подхода к созданию и развитию утилит командной строки в контексте MCP и LLM. Текст довольно короткий, но здравый
- Edit перевыпуск древнего редактора Edit для MS-DOS переписанного на Rust под множество платформ. Для тех кого пробивает на ностальгию, но у меня лично по Edit'у никакой ностальгии не осталось, он мне не нравился ещё тогда;)

#opensource #ai #datatools

Читать полностью…

Ivan Begtin

21 July 2025 10:40

Объёмы задач в Dateno у нас постоянно растут, есть потребность в ещё одном Data инженере, с акцентом на конвееры данных, обработку большого числа наборов данных из разных источников. Напомню что Dateno - это международный стартап с командой разбросанной по разным странам и работающий по принципу remote-only, вся команда работает дистанционно.

Читать полностью…

Ivan Begtin

20 July 2025 09:50

Одна из крупнейших поисковых систем по данным в мире о которой мало кто знает - это Datacite Commons. Сервис созданный компанией Datacite специализирующейся на выдаче DOI для данных публикуемых исследователями.

Благодаря тому что при присвоении DOI каждому цифровому объекту требуется заполнить карточку с метаданными, то и индекс DOI в Datacite вырос уже до 90 миллионов записей из которых чуть менее половины, 43 миллиона - это карточки наборов данных (dataset). Ещё 15 миллионов записей тексты, около 14 миллионов физических объектов и так далее. В том числе там уже 16 тысяч data papers (статей основанных на данных).

Почти все записи в Datacite имеют привязку к организациям к которым они относятся, напрямую или через авторов, эти организации интегрированы в реестр ROR (The Research Organization Registry) хорошо известный в библиографической среде и хорошо структурированный с существенным объёмом метаданных по каждой научной организации.

Благодаря этому можно идентифицировать сколько наборов данных имеют DOI Datacite в разрезе стран.

Вот ряд цифр по некоторым постсоветским странам:
- Россия - 6806 наборов данных, большая часть от Российской академии наук
- Казахстан - 257 наборов данных, большая часть от Университета Назарбаева
- Армения - 130 наборов данных
- Узбекистан - 85 наборов данных
- Кыргызстан - 40 наборов данных

Это только те данные которые имеют прямую аффиляцию с академическими учреждениями в этих странах. Многие данные относящиеся к странам создаются в других странах. Например, исследования в США посвящённые разным российским сибирским и северным территориям или горам Центральной Азии.

Много это или мало? Это мало, с точки зрения мира, но и не полное отсутствие. Важнее почти полное отсутствие институциональной основы. Почти все эти опубликованные наборы данных загружались исследователями на открытые платформы вроде Zenodo, Dryad, Mendeley Data и зарубежные журналы.

Данные исследователей характерны тем что их востребованность весьма фрагментирована. У одного датасета могут быть сотни цитирований, но больше этого числа это уже огромная редкость. Поэтому применительно к ним не работает принцип HVD (High value datasets), нельзя определить какие-то конкретные крупные наборы данных которые должны быть доступны. Это должны быть данные из специализированной научной инфраструктуры вроде систем CLARIN для компьютерной лингвистики или ELIXIR для геномных данных, или буквально все возможные данные как результат научной деятельности.

#opendata #datasets #datadiscovery #datacite

Читать полностью…

Ivan Begtin

19 July 2025 13:14

Европейцы всё активнее обсуждают цифровой суверенитет и независимость от американских технологии, в особенности big tech'ов. .

Из свежего о чём стоит знать - это в недавних слушаниях [1] в Сенате Франции представитель Microsoft отказался под присягой давать гарантию что спецслужбы США не могут получить доступ к данным европейских граждан в европейских ЦОДах Microsoft в любой момент.

Поэтому в том что касается локализации данных - это вопрос не только физического их местонахождения, но и то кто имеет или в любой момент может получить доступ к этим данным.

Ссылки:
[1] https://www.senat.fr/compte-rendu-commissions/20250609/ce_commande_publique.html

#europe #regulation #clouds

Читать полностью…

Ivan Begtin

18 July 2025 17:34

Минэк опубликовал видео с ответами на вопросы про Портал открытых данных

На удивление, видео неплохое и даже содержательное (/channel/minec_russia/10643): есть ответы на часть вопросов, обсуждавшихся в профильных чатах, даже опубликовали тайм-коды.

Но, публиковать только в формате видео ответы на волнующие пользователей-айтишников вопросы - это не тот формат коммуникации, который можно было бы назвать удобным. Продублировать видео текстом-интервью или FAQ было бы намного удобнее.

Нерешенными все еще остаются, как минимум, следующие вопросы:

- Почему Минэк не публикует и не создает свои открытые данные?

- Почему полностью обошли стороной данные по финансам? От Минфина и Казначейства датасетов на портале нет, Казначейство, правда, вскользь упомянули в конце видео в разделе "планы».

- Почему на портале не опубликованы условия (лицензия) использования открытых данных? В разделе «Нормативные документы» можно найти типовые условия почти 10-летней давности, но надпись «Все права защищены» в футере сайта заставляет сомневаться в возможности использования данных.

- Чат-бот, судя по тексту в видео, починили. Но он до сих пор не может ответить ни на один вопрос и просто молчит.

- С момента открытия Портала открытых данных удалено несколько сотен датасетов. В видео говорили о 200, но сейчас на портале еще почти на 100 датасетов меньше. Объясняется это наличием ошибок в датасетах и модерацией. Но ошибки надо исправлять (а не удалять дотасет), а модерацию надо проводить до публикации датасета, а не после.

Единственное положительное в данном случае то, что о Портале Минэк хотя бы заговорил, есть шанс, что что-то изменится. И отдельный респект Минэку за то, что прямо и открыто признали ручную публикацию наборов открытых данных и отсутствие интеграции с другими системами.

Читать полностью…

Ivan Begtin

18 July 2025 13:48

Я очень скоро прекращу так часто упоминать российский портал открытых данных, всё таки реально применения у опубликованных там данных очень немного и одно из них более-менее не бесполезное - это обучение алгоритмов выявления семантических / смысловых типов данных. Это когда поле/колонка таблицы аннотируется пометками о том что там реально содержится. Я в своё время создавал инструмент metacrafter это такая довольно продвинутая штука с большой базой этих самых семантических типов и многое из типов там имеет реальное отношение к российским данным, всё таки русскоязычные/российские наборы данных были для меня в большей доступности долгое время.

Сейчас я metacrafter натравил на ранее скачанные из новой версии data.gov.ru наборы данных. И вот первые результаты по популярным классам данных.

1. Всего выявлено 13334 колонки с 76 семантическими типами (dataclass)
2. Более всего в наборах данных упоминаются наименования организаций, адреса, наименования в принципе (чего либо), email'ы, ссылки, даты, телефоны, полные ФИО, названия регионов и так далее.
3. Геоданные встречаются в адресах (1429 случаев), долготе (212 случаев), широте (189 случаев). Почему числа долгот и широт не совпадают я не разбирался, но в целом выходит что адреса есть в от 10 до 20% всех датасетов,
3. Данных по юрлицам и ИП с одной стороны невелики, около 10% по частоте нахождения кодов inn, ogrn, ogrn_ogrnip, а с другой, наименования организаций повсеместны. Скорее всего дело в огромном числе административных данных которые органы публикуют про себя, вроде своих адресов местонахождения или вакансий.
4. Финансовых данных практически нет. Встречаемость кодов КБК, кодов бюджетов и тд минимальна.
5. Есть какое-то число ложных срабатываний по названиям полей и типовым шаблонам, вроде определение кодов ОКПД как адресов IPv4, но это минимально.

Какие выводы:
1. Смысловые - содержание data.gov.ru по прежнему бесполезно. Я напомню что все опубликованные там данные умещаются в один 100 мегабайтный ZIP архив
2. Технические - metacrafter неплохо разбирает российские коды, для чего он и писался.

А для общего просвещения добавлю скриншот с портала открытых данных Сингапура где используя подход похожий с тем что я делал с metacrafter'ом добавили возможность фильтрации датасетов по типам полей с данными. Их там пока всего 6, но тем не менее.

Вот это можно назвать полезным развитием портала открытых данных, а не "хихикающий голосовой помощник" который на data.gov.ru отключили почти сразу после запуска.

P.S. Для тех кто хочет изучить самостоятельно, по ссылке meta.zip содержит данные о всех выявленных семантических типах в датасетах. Внутри файл JSON lines сгенерированный metacrafter'ом и небольшой файл detected_dataclasses.csv полученный из этих результатов, содержащий перечень всех идентифицированных семантических типов данных, то что я привел на скриншоте.

#opendata #opensource #datacatalogs #russia

Читать полностью…

Ivan Begtin

18 July 2025 12:39

В рубрике интересных стартапов по работе с данными и малоизвестных каталогов данных.

Data.world когда-то один из первых общедоступных облачных каталогов данных. Отличался тем что предоставлял интерфейсы для визуализации и запросов к данным которые пользователи загружали на платформу, как правило в CSV или форматах.

Со временем облачная платформа осталась только после авторизации (но всё ещё работает), а основным способом монетизации стало внедрение платформы у крупных клиентов. Это редкий случай когда платформа изначально для открытых данных эффективна перешла в корпоративный сектор.

В общей сложности за 9 лет они подняли $132 миллиона инвестиций с последним раундом в 2022 году.

При этом их облачный каталог сообщества всё ещё доступен и там можно искать по более чем 133 тысячам наборов данных опубликованных за примерно, 10 лет.

#opendata #datacatalogs

Читать полностью…

Ivan Begtin

17 July 2025 22:03

Я как мог сдерживался, но такое сдерживать сложно, да и обязательно придут те кто скажут не подсказывай им, но... а я подскажу😉 Вредные советы для делателей порталов открытых данных, ну может не в России, а в стране Вредносоветии.

Итак, сделать очень-очень много наборов данных и думаете где бы их раздобыть? И неважно нужные данные или нет, полезные или нет, большие или нет, главное чтобы формально были машиночитаемые в CSV или JSON или XML ? А я скажу вам как!

1. Берете базу официальную законодательства, в РФ это база ФСО или база Минюста. Документов там много, по моим самым скромным подсчётам не менее 1.5 миллиона документов - это всё приказы, законы, постановления, указы, распоряжения и тд. Ловким движением руки, загружаете каждый документ на портал открытых данных и у вас там сразу 1.5 миллиона наборов данных. Готов поспорить что полезных, востребованных и даже машиночитаемых потому что все будут в формате XML. Сложно это сделать? Очень просто! Даже разрешения ФСО или Минюста не потребуется.
2. Открываем госкаталог музейного фонда, а там, вы не поверите, но 52 миллиона записей. Фотографии, картины, изображения антиквариата, чего только нет. И хоть и куцое, но хоть такое есть описание к каждому доступное в виде JSON документа. Тут задача чуть посложнее, его скачать сложнее, займёт это не один, а целых два дня, зато загружаете их на портал открытых данных и там сразу +52 миллиона наборов данных и это в добавок к ранее опубликованным 1.5 миллионам машиночитаемых нормативных документов.
3. Открываете официальную статистику Росстата. Там в ЕМИСС более 6 тысяч показателей, выглядит так что немного. Но ведь у показателей есть разные размерности (dimensions). Если даже взять только регионы, которые есть у большинства показателей и даже если предположить что не по всем регионам есть статистика, то минимум этот будет 80*6000 = 480 тысяч свежесварганеных наборов данных. Что-то мало получается. Можно ещё разрезать по размерностям, к примеру, по полу, там где он указан или по виду продукции если он есть да и много других размерностей большого объёма. Путем нехитрых манипуляций можно получить от 1 до 100 миллионов наборов данных.

Итого минимум 53.5 миллиона, максимум 153.5 миллиона наборов данных можно создать в кратчайшие сроки.

Куда там европейцам с их 1.9 миллионами наборами данных на data.europa.eu.

Главное не стесняться своего успеха. Чаще меня читать и прислушиваться к моим вредным советам!

#irony #datacatalogs #opendata

Читать полностью…

Subscribe to a channel