begtin | Business and Startups

Telegram-канал begtin - Ivan Begtin

7027

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Subscribe to a channel

Ivan Begtin

Забавная утилита для командной строки ai-renamer [1] переименует фотографии в зависимости от их содержимого. Бывает полезно, но... очень многие хранят десятки фотографий одного и того же места или объекта и потом выбирают лучшую фотографию из многих.

Очень полезным инструментом был бы такой локальный органайзер который сканировал фото по наличию того что на них есть и давал бы возможность фасетного поиска с новыми тегами и атрибутами. Кстати и для корпоративных банков документов такое было бы полезно.


Ссылки:
[1] https://github.com/ozgrozer/ai-renamer

#ai #commandline #tools

Читать полностью…

Ivan Begtin

Уникальная фича Dateno [1] - это сужение поиска датасетов до субрегионального уровня, городов и регионов стран. Например, можно в фасете SubRegion где для многих стран можно найти данные сразу в региональном разрезе. Не просто по Франции, к примеру, а сразу по Парижу. В классическом поиске для этого обычно используют комбинации слов, вроде "COVID Paris" или "COVID Berlin", но на порталах данных часто неочевидно к какому города или регионы они относятся.

Такой фасет возможен самым банальным образом, автоматизированной и ручной разметкой каталогов в реестре каталогов Dateno [2]. В файлах YAML описания каталогов регионы прописываются явным образом в блоге coverage и построено это на основе стандарта ISO 3166-2, к примеру, код Берлина DE-BE.

Указание регионов есть только для каталогов которые отмечены как Regional government и Local government и тех по которым тип владельца ещё неизвестен (Unknown). Таких каталогов более 7989 и из них 1041 имеет привязку к subregion.

Это самый простой и очевидный способ дать геопривязку к данным. Аннотирование каталогов данных действенная штука для таких задач. Более сложный сценарий когда региональных каталогов мало, всё централизовано, а на центральном портале региональные данные есть. Что делать в этом случае? Тут есть два решения/подхода.

1-й - это машинное обучение и идентификация геопривязки наборов данных по ключевым словам в заголовке и в описании. Тут, правда, будет много ошибок потому что, к примеру, есть страна Armenia, а есть муниципалитет Armenia в Колумбии.

2-й - это ручное или автоматическое аннотирование публикаторов данных. На порталах данных, как правило, есть инфа о том кто данные опубликовал и по ней можно идентифицировать регион.

Это будет работать на некоторых крупных порталах данных вроде США с data.gov, но даже там на национальный уровень выводится относительно немного данных и нужен хороший матчер названий организаций и их территорий.

Эта фича ещё будет развиваться, пока же можно искать по тем данным которые уже размечены и их число будет пополнятся с каждым проходом краулера и обновлением реестра каталогов данных.

Ссылки:
[1] https://dateno.io
[2] https://dateno.io/registry

#opendata #datacatalogs #datasets #dateno

Читать полностью…

Ivan Begtin

Но есть и хорошие новости, Stats Bomb, консалтеры и разработчики дата продуктов по спортивным данным выложили под свободными лицензиями датасеты распознанных событий по Euro 2024 [1]. Всего 3400 события по 51 матчу.

Скачать данные можно у них на Github [2], при использовании и распространении просят упоминать их и использовать их лого.

Вообще это хороший пример пиара на полезных для аудитории/сообщества данных. Даже меня при очень небольшой аудитории моего телеграм канала регулярно просят что-то прорекламировать, не обязательно коммерческое, но сколь редко то что просят упомянуть является общественным благом.

Ссылки:
[1] https://statsbomb.com/news/statsbomb-release-free-euro-2024-data/
[2] https://github.com/statsbomb

#opendata #datasets #euro2024 #data

Читать полностью…

Ivan Begtin

[RU]
Немного о наших планах. Мы продолжаем наполнять каталог открытых данных data.opendata.am и отдельное огромное спасибо всем кто помогает нам собрать данные и сделать их общедоступными. Когда Пр-во страны решит создать национальный портал открытых данных страны, надеемся что наша работа вольётся в него и данных станет больше как и больше возможностей по работе с данными.

Коротко о планах на этот год:
1. Планируем добавить больше данных на портал открытых данных.
2. Осенью организуем следующий конкурс и, возможно, пока обсуждаем, хакатон.
3. Уже готовимся ко дню открытых данных на 2025 год.
4. Есть планы создать общественный геопортал Армении, уже собрали для него много геоданных
5. Ищем координатора сообщества внутри страны чтобы ещё активнее помогать сообществу. Скоро опубликуем вакансию
6. Будем организовывать семинары/вебинары как работать с данными.

Если есть какие-либо идеи/предложения/мысли что ещё хорошего можно сделать на данных

[EN]
A little bit about our plans. We continue to fill the catalog of open data data.opendata.am and a special thanks to everyone who helps us to collect data and make it publicly available. If the government of the country decides to create a national portal of open data, we hope that our work will be included in it and the data will become more available, as well as more opportunities to work with data.

Briefly about the plans for this year:
1. We plan to add more data to the Open Data Portal.
2. We will organize the next competition and possibly, still under discussion, a hackathon in autumn.
3. We are already preparing the Open Data Day for 2025.
4. There are plans to create a public geoportal of Armenia, we have already collected a lot of geodata for it.
5. We are looking for a community coordinator within the country to help the community even more actively. We will publish a job offer soon.
6. We will organize workshops/webinars on how to work with data.

If you have any ideas/suggestions/thoughts on what else can be done well with data, please let us know.

#opendata #armenia

Читать полностью…

Ivan Begtin

Прямо интересное явление последних лет - это восхождение декларативного программирования когда дело касается данных и инфраструктуры в первую очередь. Вместо написания кода, пишутся YAML или TOML файлы и на их основе бегают конвейеры данных, разворачивается инфраструктура, создаются базы данных или API сервера.

Вижу всё больше и больше таких продуктов, особенно в областях devOps, dataOps и в продуктах типа ELT/ETL и других в области современного стека данных. Я и сам в инструментах что создавал или создаю делаю такое же.

Очень скоро работа с данными не потребует знаний даже SQL потому что всё будет в этом самом декларативном программировании. Из известных мне популярных ETL/ELT движков разве что Dagster не на декларативных языках, а по модели data-as-a-code, все написано на Python.

Внутри Dateno тоже используется декларативный сбор данных с помощью движка datacrafter [1] который я изначально делал для совсем других задач по извлечению данных из API и по преобразованию файлов. А также вместе с datacrafter там работает движок apibackuper [2] в котором тоже декларативный язык но в виде конфига для Python. Его, по хорошему, надо переписать для работы с конфигом в YAML и ещё многое поправить.

Достоинство декларативных языков в том что легко генерировать эти конфиги. В Dateno краулер создаёт тысячи конфигов под каждый сайт и запускает сбор данных вызовом datacrafter'а, и уже потом собирает результаты и складывает в базу данных.

Большая часть источников данных там - это API, для каждого из которых свой шаблон и свои правила выгрузки. Иногда довольно непростые, но стандартизованные. И из имеющихся ETL движков только dlt такое может. По сути миграция кода - это преобразование одних YAML файлов в другие, при соблюдении ряда условий конечно, что схожие операции можно воспроизвести в другом движке.

Пока главный недостаток почти всех инструментов такого рода в отсутствии хорошей поддержки NoSQL в целом и MongoDB в частности. Из-за чего и приходится пользоваться собственным стеком инструментов.

Ссылки:
[1] https://github.com/apicrafter/datacrafter/
[2] https://github.com/ruarxive/apibackuper

#opensource #dataengineering #thoughts

Читать полностью…

Ivan Begtin

Ещё один пример закрытия данных Банк России приостанавливает публикацию статистики внебиржевого валютного рынка [1].

А ведь совсем недавно, в апреле, эту статистику стали публиковать расширенно [2].

Этого раздела больше нет на сайте ЦБ РФ [3], причем удалили даже архив, что непохоже на ЦБ РФ которые, к примеру, после прекращения публикации данных по экспорту в 2022 году архивные данные не удаляли.

Некоторые данные всё ещё доступны в Интернет-Архиве [4], но в целом событие печалит ещё и тем что ЦБ РФ теперь подчищает архивы и нужна регулярная архивация их сайта. В последний раз мы делали это для Национального цифрового архива [5] в 2021 году и это была веб архивация, она не охватывала данные закрытые формами и POST запросами

Ссылки:
[1] https://cbr.ru/press/pr/?file=638566558563054550DKP.htm
[2] https://www.cbr.ru/press/pr/?file=638489599567862726DATABASES.htm
[3] https://www.cbr.ru/hd_base/vko/
[4] https://web.archive.org/web/20240706093400/https://cbr.ru/hd_base/vko/
[5] https://ruarxive.org

#opendata #closeddata #cbrf #statistics #russia #webarchive #digitalpreservation

Читать полностью…

Ivan Begtin

Симпатичная open source книжка DevOps for Data Science полезная для всех кто сисадминит и хочет развиваться в сторону дата инфраструктуры. Не охватывает платформы, охватывает большую часть фундаментальных вопросов. Полезное и для дата инженеров тоже.

#readings #data #datascience #devops

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них проект Metaspace [1] в Европейском Союзе в виде каталога данных аннотированных метаболических данных полученных через спектрометрию. Это более 11 тысячи датасетов, по большей части в форматах imzML и ibd специально для публикации такого рода данных.

Помимо многих метаданных специфичных именно для этой области, ещё одна особенность этого портала в том что на нем нет постоянных ссылок на данные и когда выбираешь опцию скачать данные тебе выдаётся ссылка протухающая через полчаса. Ещё один способ бороться с краулерами и автоматической выгрузкой данных.

Данных много, данные большин, но с очень узкой областью применения.

Ссылки:
[1] https://metaspace2020.eu

#opendata #dataseta #datacatalogs #massspectrometry

Читать полностью…

Ivan Begtin

В рубрике интересных наборов геоданных, данные по зданиям в КНР, Японии и обеих Кореях в виде датасета на 23GB в сжатом виде. Внутри SHP файлы и другие стандартизированные геоформаты, а сами данные разделены по городам. Опубликовали на Zenodo 7 китайских исследователей. Источник данных непонятен, подробностей о происхождении данных нет, но сам датасет очень интересен и изза масштаба и размера и области охвата.

Данные можно отнести к научным и, одновременно, полезным не только учёным.

По моему с ним связана вот эта научная статья, но это не точно.


#opendata #data #datasets

Читать полностью…

Ivan Begtin

(EN) Even more data about Armenia outside Armenia. Dataset from Global Energy Monitor and it's dashboard
and map.

There are first datasets released and available after registration under CC-BY 4.0 International license.

(RU) Еще больше данных об Армении за пределами Армении. Набор данных из Global Energy Monitor и его информационной панели
и карта.

Появились первые наборы данных , они выпущены и доступны после регистрации по международной лицензии CC-BY 4.0.

#opendata #datasets #energy

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них, Пражский проект по доступу к городским данным Golemio [1] существует в виде команды занимающеся дата продуктами такими как портал открытых данных Праги [2] и открытые API к системам Праги [3].

Технологически ничего феноменального, собственная BI платформа, разного рода дата продукты в активе. Но, во первых это модель по созданию открытой инсорсинговой команды внутри мэрии достаточно крупного города, во вторых исходный код их платформы открыт [4] и в третьих тут нет госпатернализма, наоборот акцент на платформе данных и государства / мэрии как структур предоставляющих данные.

Ссылки:
[1] https://golemio.cz/english
[2] https://opendata.praha.eu/datasets
[3] https://api.golemio.cz/docs/openapi/#/
[4] https://gitlab.com/operator-ict/golemio

#opendata #dataportals #czechia #praha #eu

Читать полностью…

Ivan Begtin

В последнее время у меня было несколько разговоров с разными людьми, но все на одну и ту же тему что открытые данные тесно связаны с развитием свобод и демократии и что без них их не существует или становится меньше.

Хотя такая связь и есть, но из того что я много лет наблюдаю не только по РФ, но и по другим странам я вижу гораздо большую связь с устойчивостью государства, экономикой и качеством госуправления, которые, часто, высоки именно в развитых демократиях, но, при этом в демократиях бедных, к примеру, тема открытых данных не развита или на 100% зависит от внешних грантов.

В то время как внутренние инициативы по открытости данных есть в самых разных странах: Китае, Вьетнаме, Катаре, ОАЭ, Казахстане, Таиланде и даже в России в каком-то виде. Это те страны которые, к примеру, по Democracy Matrix [1] относятся к автократиям.

Про каждую страну можно не одну статью написать почему это так, и почему в этих странах, не входящих в ОЭСР или Open Government Partnership есть довольно продвинутые инициативы, законы, порталы и научные проекты про открытые данные и на их основе.

Почему так происходит? Что общего в этих странах?

У меня нет универсального ответа на этот вопрос, но есть несколько гипотез:
1. Вне зависимости от политического руководства страны не оспаривается нигде тезис что работа госаппарата по созданию и распределению общественного блага. По мере роста числа квалифицированных пользователей данными сотрудники госорганов как минимум часть своей работы раскрывают как данные просто потому что требуются дополнительные усилия чтобы эти материалы публиковать неудобным образом (в закрытых немашиночитаемых форматах).
2. Даже в авторитарных странах есть публичная коммуникация государства с гражданами и по мере нарастания госрасходов на информатизацию, раскрытие части данных является ответом на общественные запросы: "Зачем Вы потратили на это столько денег?", "Какая с этого польза гражданам?"
3. Коммуникация с местным и международным цифровым бизнесом, привлечение зарубежных инвесторов, демонстрация открытости рынка. В авторитарных странах чаще на порталах открытых данных речь идёт о коммуникации с бизнесом.
4. Развитие науки, создание проектов с раскрытием открытых научных данных
5. Демонстрация того что "вы называете нас авторитарными, а посмотрите, у нас качество госуправления и открытость повыше вашей"
6. Демонстрация устойчивости государства: "Мы сильные и устойчивые, нам нечего скрывать, наша открытость нас не пугает"

Есть и другие, более специфичные для конкретных стран гипотезы и доводы.

А есть и взгляд с другой стороны. Когда инициативы по открытости закрываются с невнятной коммуникацией ( Россия ) или когда вместо портала открытых данных есть портал закрытых данных только для граждан и с получением не более чем по 100 записей за раз (Казахстан), такие инициативы не говорят об устойчивости гос-ва, они дают только сигналы: "Мы боимся!", "Мы не умеем этим управлять!".

А я ещё не раз напишу с примерами о том как данные публикуют в недемократических государствах.

Ссылки:
[1] https://www.democracymatrix.com/ranking

#opendata #data #thoughts

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных наборы с данными по измерению скорости интернета от Measurement Lab [1] где их много и разных и почти все архивные датасеты доступны через Google Cloud.

А также датасеты OOKLA [2] по скорости сетей, которые они собирали краудсорсингом и публикуют в рамках своей Open Data Initiative. Заметим что раскрытие идёт от коммерческой компании.

Данные можно использовать самым разным образом, от измерения проникновения 5G, до мониторинга деградации качества связи или поиска мест человеческого обитания там где может показаться что людей не должно быть (шутка).

Ссылки:
[1] https://www.measurementlab.net/data/
[2] https://www.ookla.com/ookla-for-good/open-data


#opendata #datasets #networks

Читать полностью…

Ivan Begtin

К вопросу об AI и больших языковых моделях, я на днях тестировал несколько LLM'ок вопросами в форме "дай мне расходы бюджета города N по по месяцам с января по май 2024 года". И пока ни один из них не дал такого расклада со ссылкой на первоисточник документа бюджета города. Только на новости на сайте мэрии и новостных агентств.

В этом важное ограничение всех этих инструментов - у них нет доступа к огромным базам данных на которых можно строить аналитику. Я вот сомневаюсь что Bloomberg или S&P Global откроют свои базы для OpenAI или чего-то подобного, если только это не будет какое-то стратегическое партнерство. А вот применение ИИ к макропрогнозированию и работе с экономическими данными - это будет реальный прорыв для одних и катастрофа для других.

Поэтому одно из самых интересных направлений которые я вижу - это связывание языковых моделей с очень специальными большими банками данных и создание новых продуктов в этих областях.

А от AI краулеров почти все СМИ и иные контентные сайты начнут стремительно закрываться. И требовать убирать их контент из индексов этих AI моделей. Потому что бизнес модель контентных сайтов через рекламу или подписку скоро начнет стремительно рушится.

#ai #data #thoughts

Читать полностью…

Ivan Begtin

Интересные ссылки про данные, технологии и не только:
- OmniParse [1] очень интересный open source движок по применению ИИ к парсингу документов. В примерах приводят разбор PDF на картинки и таблицы. Для задач разбора PDF'ок может быть бесценен, и как идея, и как код. Лицензия GPL3, часть облачного продукта стартапа CognitiveLab

- Meta 3D Gen [2] в Meta создали модель ИИ для генерации 3D моделей. Выглядит интересно и очень много прикладного применения у такого есть. Можно начинать гадать сколько 3D дизайнеров и гейм дизайнеров лишаться работы или... сильно повысят свою продуктивность

- Google AI и Pixel 9 [3] похоже что новая версия телефонов Pixel от Google будет иметь на борту мини языковую модель и несколько продуктов на базе ИИ. Даже не знаю что сказать на это. Неужели это начало тренда когда во всех телефонах будут ИИ приложения всегда?

- Google Mesop [4] open-source движок от Гугла по быстрой разработке веб интерфейсов. Ещё бы к нему хороший автогенератор кода из ТЗ в интерфейс и было бы бесценно, как минимум, для создания быстрых демок.

- The 4M Roadmap: A Higher Road to Profitability by Using Big Data for Social Good, by Brennan Lake [5] доклад о применении корпоративных данных для общественного блага. Подробный разбор нескольких глобальных инициатив в этой области

Ссылки:
[1] https://github.com/adithya-s-k/omniparse
[2] https://venturebeat.com/ai/meta-drops-3d-gen-bomb-ai-powered-3d-asset-creation-at-lightning-speed/
[3] https://www.androidauthority.com/google-ai-recall-pixel-9-3456399/
[4] https://google.github.io/mesop/
[5] https://www.sharedvalue.org/resource/the-4m-roadmap/

#opendata #opensource #readings

Читать полностью…

Ivan Begtin

Полезное чтение про данные, технологии и не только:
- Everyone Has A Price — And Corporations Know Yours [1] о нарастающем тренде персонализированных цен в примерах. О том что накоплений данных корпорациями приводит к тому что они рано или поздно научатся контролировать то сколько денег остаётся у тебя в карманах. Статья не за пэйволом, но требует регистрации.
- Mapping the Landscape of AI-Powered Nonprofits [2] об отношении НКО и AI, примеры некоммерческого применения и НКОшек работающих с AI, а также областях применения в некоммерческом секторе
- Digital Ethology [3] книга о человеческом поведении в геопространственном контексте. Ещё не читал, но планирую. Судя по содержанию там немало про цифровые следы в пространстве что мы оставляем.
- Diversity in Artificial Intelligence Conferences [4] статья о том что в конференциях по ИИ низкий уровень diversity (разнообразия), например, мало женщин. И низкое разнообразие по странам: все из США, Европы и Китая. Почти все. Казалось бы на эти вопросы есть очевидные ответы, но тут целая научная работа.
- The Great Scrape: The Clash Between Scraping and Privacy [5] нарастающий конфликт между теми кто "обдирает" (scrape) сайты и теми кто заботится о приватности. И ранее было спорной темой, а сейчас становится особенно актуально в контексте обучения ИИ.
- Automated warfare: irresponsible even without killer robots [6] о том как Израиль применяет ИИ для идентификации зданий объектов для атаки и "социальный скоринг" палестинцев на вероятность что они боевики Хамас. Упоминаются две системы Gospel [7] и Lavander [8]

Ссылки:
[1] https://www.levernews.com/everyone-has-a-price-and-corporations-know-yours/
[2] https://ssir.org/articles/entry/ai-powered-nonprofits-landscape
[3] https://mitpress.mit.edu/9780262548137/digital-ethology/
[4] https://publications.jrc.ec.europa.eu/repository/handle/JRC137550
[5] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4884485
[6] https://r.algorithmwatch.org/nl3/lm8uSbreEO9yUU55aO0flA
[7] https://www.972mag.com/mass-assassination-factory-israel-calculated-bombing-gaza/
[8] https://www.972mag.com/lavender-ai-israeli-army-gaza/

#data #readings #ai

Читать полностью…

Ivan Begtin

В рубрике как это работает у них Repozytorium Standardów Informacyjnych [1] репозиторий стандартов для информационного обмена созданный и поддерживаемый статистической службой Польши.

В каком-то смысле это уникальный проект. В первую очередь - это реестр типов данных и их описаний которые хранятся в государственных информационных системах. Это и описания физического лица, и то какие метаданные о физ лице собираются и описания организаций и геообъектов и ещё много чего.

Но не менее важно что в систему входит реестр всех информационных систем [2], а это 614 штук и схемы данных в этих информационных системах привязанные к реестру типов данных.

Самый интересный вопрос в том причём же тут статслужба? И вот эта логика как раз очень понятна. Статслуба Польши кроме базовой статистики производит ещё и очень много экспериментальной статистики, созданной на основе одной или нескольких ведомственных информационных систем. Например, это портал транспортной статистики TranStat [3]


Ссылки:
[1] https://rsi.stat.gov.pl
[2] https://rsi.stat.gov.pl/#/rsisystemy
[3] https://transtat.stat.gov.pl

#opendata #data #statistics #poland

Читать полностью…

Ivan Begtin

Симпатичные цифры и графики развития производительности DuckDB со временем и версиями продукта [1]

Собственно они одни из главных причин почему я этот движок так расхваливаю, он хорошо годится для замены инструментов для типовых задач по обработке данных и даёт очень высокую скорость запросов и обработки данных даже при отсутствии индексов на колонках.

Очень высокая планка скорости обработки данных причём не только при локальной обработке, но и в серверной среде и с параллелизацией в облаке.

Особенно для задач дата инжиниринга на базе открытого кода.

Ссылки:
[1] https://duckdb.org/2024/06/26/benchmarks-over-time

#opensource #duckdb #dataengineering

Читать полностью…

Ivan Begtin

В рубрике как это работает у них, один из источников геоданных и их каталогизации - это геопорталы. Продуктов для их создания довольно, но есть наиболее популярные и типовые и один из них - это QGIS Web Client 2 (QWC2) [1], на его основе создано немало европейских и не только геопорталов. Например, геопорталы некоторых кантонов (регионов) Швейцарии работают на QWC2 [2] и слои карты используемые в его работе доступны онлайн через специальный файл themes.json [3]

Сами слои могут быть разным образом опубликованы, не всегда самыми очевидными геопродуктами. Получается что для их индексирования как раз эти файлы и являются наиболее удобным источником метаданных.

Слоёв данных там не так уж много, десятки, в среднем, но данные хорошо локализованы и удобно доступны.

А ещё у швейцарцев есть серия каталогов геоданных с дата моделями по их стандарту INTERLIS. Но о нём как-нибудь в другой раз. А пока в реестр Dateno вношу ряд каталогов на QWC2.

Ссылки:
[1] https://qwc-services.github.io/master/
[2] https://map.geo.gl.ch
[3] https://map.geo.gl.ch/themes.json

#opendata #datacatalogs #dateno

Читать полностью…

Ivan Begtin

Свежий open source инструмент/код по осмысленной интерпретации данных для LLM называется GraphRAG [1] весь код опубликован на Github.

Пока не могу сказать подробнее, надо экспериментировать, но выглядит просто таки очень интересно.

Ссылки:
[1] https://www.microsoft.com/en-us/research/blog/graphrag-new-tool-for-complex-data-discovery-now-on-github/

#opensource #llm #ai

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных 3D модель города Цюриха конца 1500 года опубликованная на их портале открытых данных [1] и доступная для просмотра интерактивно онлайн [2].

Опубликовано в форматах dxf, shp, gpkg и в виде веб сервисов OGC.

Кроме этого датасета в Цюрихе езё 15 датасетов с 3D моделями современных и исторических видов города [3].

Это интересная комбинация доступных данных и их исторического значения. Для тех кто изучает 3D моделирование и ищет готовые материалы это будет интересным подспорьем.

Сам портал открытых данных города включает 812 наборов данных из которых он на 50% состоит из геоданных, где-то на 30% из времянных рядов и оставшееся попадает во всё остальное.

Ссылки:
[1] https://data.stadt-zuerich.ch/dataset/geo_3d_stadtmodell_stadt_zuerich_jahresendstand_1500
[2] https://3d.stzh.ch/appl/3d/zuerich_4d_extern/#hintergrundkarte=Basiskarte%201500&easting=2683365.1302425126&northing=1246414.2127628734&blickhoehe=235.77&blickrichtung=359.35582275055935&blickwinkel=75.25719137722423&
[3] https://data.stadt-zuerich.ch/dataset?tags=3d

#opendata #datasets #switzerland #zurich #geodata #3d

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них публикация данных высокой ценности в Испании.

Ожидаемо очень много данных о земле, много геоданных, очень много статистики всех уровней и другое. В принципе идея с публикацией ценных данных в ЕС - это очень разумный подход про приоритеты. Не во всех странах ЕС этих данных уже много, но вот пример Испании весьма показателен.

Самое сложное в Испании связано с публикацией сведений о юр. лицах, там очень коммерциализированная область и прозрачность даётся с трудом, но постепенно публикуют и эти данные. На всё это можно смотреть задаваясь вопросом: "А почему в моей стране гос-во не раскрывает данные также?"

#opendata #datasets #europe #spain

Читать полностью…

Ivan Begtin

К вопросу о каталогах данных, которые я изучаю вот уже много лет, в особенности каталоги общедоступных и открытых данных, чем больше я наблюдаю рынок, экосистему и тд. в том числе относительно больших каталогов данных, тем больше убеждаюсь что весь этот рынок за очень короткое время может перемешать Microsoft или, с меньшей вероятностью, Gitlab, реализовав в Github/Gitlab такое понятие как репозиторий данных.

По сути и так огромное число датасетов публикуют через Git, особенно научные репозитории выкладывают на Github, а на размещённое там уже дают ссылки с какого нибудь Zenodo.

Причём сделать дата репозитории Microsoft может сделать очень дешёвым образом.
1. Добавить атрибут data к репозиториям с данными, чтобы их можно было бы выделить в поиске.
2. Добавить спецификацию в YAML с метаданными датасета/датасетов в этом репозитории. За основу можно взять DCAT.

К счастью или к сожалению, ничего такого они не делают и, как следствие, своего поиска по данным у Microsoft нет. Но если бы сделали то Github было бы проще индексировать с помощью Dateno.

#opendata #datasets #microsoft #github #thoughts

Читать полностью…

Ivan Begtin

К вопрос о том как исчезают данные в РФ, и не только в РФ. Многие операторы баз данных онлайн - это коммерческие компании которые особенно в последнее время активно удаляют свой контент из поисковиков и агрегаторов. Какой-нибудь energybase.ru. В какой-то момент они прописали блокировку большей части поисковых и архивных ботов. Теперь все ссылки в gem.wiki, которую я только что упоминал, протухли потому что многие сайты, например, вместо ссылок на сайты давали и дают ссылки на Интернет архив. Например, https://www.gem.wiki/Nizhne-Bureyskaya_hydroelectric_plant и теперь ссылки эти протухли(

Если, в какой-то момент, Правительство РФ решит что размещение информации о критической инфраструктуре недопустимо и заставит все такие сайты удалить информацию то и в интернет архиве ничего не останется.

Все такие случаи не отследить( К сожалению и архивация коммерческих сайтов осложнена многим, в первую очередь, тем что они особенно оберегают свои права на контент.

#data #russia #dataavailability

Читать полностью…

Ivan Begtin

А также эти данные доступны по всем странам мира, почти по всем вернее. И интересное Wiki https://www.gem.wiki от той же команды на базе Semantic MediaWiki. Про полноту не знаю, но подход у ребят системный, есть что поизучать

Читать полностью…

Ivan Begtin

В качестве лирического отступления. Если бы я был писателем пишущим по методу Хэмингуэя, без исправления текста, то сказал бы что "аллилуйя", пришёл настоящий вызов. Но я не такой писатель, и художественное творчество моё куда как скромно, но вот работа с нефункционирующей кнопкой бэкспейса на клавиатуре и ещё рядом других кнопок накладывает свои ограничения, как минимум на скорость печати. К сожалению замена клавиатуры будет только через несколько дней, так что это писать также часто как раньше пока не выходит.

Но даже так я слегка пробежался по старому коду движка metacrafter'а [1], инструмента для идентификации семантических типов данных, или более простым языком, инструмент идентификации того что за колонка в наборе данных или в базе данных и что с ней можно делать. Инструмент я потихоньку начал приводить в целевое состояние - усиление поисковых возможностей у Dateno и автодокументирование датасетов.

Что нового:
- правила для metacrafter'а перенесены теперь в новый репозиторий metacrafter-rules [2], их стало больше, в основном за счёт правил для других языков отличных от английского и русского;
- обновился серверный и клиентский режимы работы. Теперь можно ускорить сканирование данных запустив metacrafter как сервер и обращаясь к нему через параметр remote при вызовах сканирования файлов или баз данных. Это важно для ускорения процесса поскольку правила инициализируются только один раз
- добавилась команда просмотра правил 'metacrafter rules list'
- и так далее

Главный недостаток сейчас - это скорость работы на больших датасетах. Чем больше колонок тем дольше анализ, до нескольких минут. Это не так критично для задач вроде сканирования корпоративных СУБД, но тяжко для задач Dateno когда миллионы датасетов.

На самом деле чтобы всё ускорить нужно просто много ресурсов: процессорных, хранения и памяти. А прикрутив LLM'ку можно сильно повысить качество автодокументирования данных.

Понимание данных, автодокументирование датасетов, автоматизация анализа данных - это одни из наиболее любимых мной тем в дата инженерии и дата анализе. Жаль удаётся уделять немного времени.

Ссылки:
[1] https://github.com/apicrafter/metacrafter/
[2] https://github.com/apicrafter/metacrafter-rules/

#opensource #data #datatools #dateno #metacrafter

Читать полностью…

Ivan Begtin

Удивительное дело насколько все не даёт покоя идея социального рейтинга/антирейтинга и в мире пытаются так или иначе сделать скоринговые системы массовыми. Например, во Франции тестируют рейтинг подозрительности в отношении безработных желающих получить пособия. В статье это называют одним из шагов к дегуманизации общества.

Другой пример с тем что выяснилось что алгоритм проверки заявок на выплату жилищных пособий в Великобритании оказался ошибочным и выдавал 2/3 ложных срабатываний. А это не просто много, это делало его работу, фактически, бесполезной. Сейчас журналисты задаются вопросом зачем же его применяли и то во сколько встало казне его ручная проверка.

До этого в Великобритании уже были сложности с применением алгоритмов по автоматической оценке кредитополучателей , опять же алгоритмом применяемом одним из правительственных департаментов. Тогда алгоритм проверки с помощью ИИ просто отключили.

#privacy #scoring #uk #france #ai

Читать полностью…

Ivan Begtin

ОЭСР (Организация экономического сотрудничества и развития) в которой состоят практически все развитые страны обновила свой сайт oecd.org и, наконец-то, они перевели в открытый доступ все свои материалы, а публикации стали дата-ориентированными. Для тех кто не сталкивался ранее поясню, ОЭСР публиковали довольно много интересных докладов и данных о странах, но большая их часть ими продавалась и данные были неудобны в использовании. Учитывая что они сами промоутировали открытость государств, но оставались вот такими полузакрытыми то и получали немало критики. Наконец-то у них это изменилось, может быть нашли другие источники финансирования, но важно что материалы теперь их открыты. Ну и данные, конечно там много датасетов.

#opendata #datasets #datacatalogs #data #oecd

Читать полностью…

Ivan Begtin

Google с октября 2024 года не будут более доверять сертификатам от CA Entrust [1] для Google Chrome, а это, на минуточку, более 4 миллионов доменов, по статистике Censys [2]. А значит что уже сейчас пользоваться Entrust для получения сертификатов будет нецелесообразно. Хорошо пока что старые не отключены. Причины очень подробно изложены, в кратком изложении - это систематическое нарушение правил сообщества, несоблюдение стандартов, нежелание внедрять актуальные технологии и тд.

Понятно что кроме Google есть и другие браузеры, но все они в одном консорциуме/сообществе и почти наверняка та же участь постигнет Entrust и в других продуктах.

Что характерно, да, это скорее всего разумное решение. Но это же Kill Switch бигтехов, регулирование вынесенное за пределами регуляторов затрагивающее существенный бизнес и существенную цифровую инфраструктуру.

Ссылки:
[1] https://groups.google.com/a/ccadb.org/g/public/c/29CRLOPM6OM
[2] https://search.censys.io/search?resource=certificates&q=%28Entrust%29+and+parsed.issuer.organization%3D%60Entrust%2C+Inc.%60

#ca #regulation #network #google

Читать полностью…

Ivan Begtin

Свежий доклад ООН по Индикаторам устойчивого развития (SDG) [1]. Это те самые цели устойчивого развития которые являются одним из приоритетов ООН и по которым большинство стран публикуют свои показатели.

Из доклада можно узнать что:
- большая часть показателей не достигается
- всё ещё много проблем с тем что не по всем странам публикуются данные индикаторов и не всегда актуально

И, кстати, но это уже отдельная тема, много международных инициатив сейчас началось по достижению целей SDG в развивающихся странах и туда активно вовлечены бигтехи, которые или спонсируют такое, или даже помогают данными.

Ссылки:
[1] https://hlpf.un.org/sites/default/files/2024-05/SG%20SDG%20Progress%20Report%202024.pdf

#opendata #un #sdg #indicators #reports

Читать полностью…
Subscribe to a channel