Свежие и полезные инструменты с открытым кодом для загрузки и обработки данных:
- PyAirbyte [1] библиотека для Python от команды Airbyte для того чтобы перенести логику этого движка по сбору данных в Python. Поддерживает все коннекторы Airbyte ранее написанные на Python
- dlt [2] Data Load Tool, явно созвучное dbt, библиотека для Python для реализации принципа Extract-Load-Transform. Выглядит довольно целостно, стоит изучить внимательнее
- ingestr [3] утилита командной строки по переносу баз данных из одного источника в другой. Поддерживает основные SQL СУБД
- sling [4] инструмент для выгрузки/загрузки данных с большинства основных СУБД включая облачные, файловых систем и различных дата файлов. Реализован на Go, важное ограничение GPL 2 лицензия (для сравнения у dlt лицензия Apache 2, а у ingestr MIT).
И конечно остаются такие инструменты как Meltano, Dagster, CloudQuery и многие другие
Ссылки:
[1] https://airbyte.com/blog/announcing-pyairbyte
[2] https://dlthub.com
[3] https://github.com/bruin-data/ingestr
[4] https://github.com/slingdata-io/sling-cli
#opensource #dataengineering
В рубрике интересных проектов с открытым кодом Latino [1], язык программирования на испанском языке. Да, примерно как в СССР были языки программирования с ключевыми словами на русском, так же и тут, но в основе испанский.
Язык появился в 2015 году, он вполне работоспособен, хотя и, наверняка, не так продвинут как более общеупотребительные языки разработки.
По синтаксису что-то среднее между Python и Lua.
Полезен может быть тем кто учит испанский и программирует, чтобы, потренировать свои навыки и языка разговорного и языка программного.
Ссылки:
[1] https://www.lenguajelatino.org/
#opensource #programming
К вопросу о современных дата продуктах, один из способов работы с данными сейчас - это комбинация DuckDB и Polars. Например, DuckDB так стремительно набирает популярность что я не удивлюсь что скоро данные начнут распространять и публиковать как базы DuckDB, примерно как много лет назад публиковали DBF файлы и файлы MS Access [1] и также как иногда сейчас публикуют sqlite файлы [2].
В общем и целом за этим хайпом есть реальные продукты которые стоит посмотреть своими глазами.
P.S. Картинка из блога Christophe Blefari
Ссылки:
[1] https://catalog.data.gov/dataset/municipal-fiscal-indicators-2014-2018-ms-access-database
[2] https://catalog.data.gov/dataset/x-ray-properties-database-in-sqlite-format
#opensource #datatools
К вопросу о инвентаризации данных, это, как ни странно, до сих пор большая-актуальная тема как в корпоративном мире, так и в задачах data discovery (поиска данных) и создания каталогов открытых данных. Нашёлся ещё один свежий ресурс, шаблон по инвентаризации данных от Open Contracting [1].
Честно говоря, у меня лично он не вызывает какого-то восторга, довольно простой гайд и простая форма для заполнения. Даже карточки регистрации датасетов в CKAN и других каталогах данных выглядят куда обстоятельнее, а в корпоративных каталогах данных всё ещё интереснее.
Кроме того то что они называют Dictionary, по факту это схема данных и заполнять это вручную, скажем так, непрофессионально. Сбор структуры полей из файлов с данными вполне автоматизируем.
Тем не менее, для какого-то упрощённого подхода в инвентаризации это применимо.
А я напомню про разницу в инвентаризации данных между открытыми каталогами, госкаталогами и бизнес потребностями:
—
Для бизнеса ключевое:
- максимально полный охват внутренних ресурсов (баз данных)
- фиксация всех режимов доступа (кто имеет право доступа к чему)
- прослеживаемость данных, data lineage и тд.
- автоматизация измерения качества данных
- инвентаризация не только данных, но и всех data flows (процессов и потоков обработки данных)
- автоматически/автоматизированно актуализируемая документация
Для государства:
- сведения о информационной системе
- нормативный статус данных
- идентификация ответственного/владельца данных
- режим доступа к данным
- не только базы данных, но и все дата файлы и то что должно быть превращено в дата файлы
Для открытых и общедоступных данных:
- условия повторного использования
- контакты ответственного лица
- общедоступная документация
- сведения о повторном использовании и публикациях на основе данных
—
Ссылки:
[1] https://www.open-contracting.org/resources/data-inventory-template/
#opendata #data #datainventory #readings
В рубрике как это работает у них о том как публикует статистические данные Европейский Центральный Банк (ECB).
На сайте ECB есть специальный раздел с данными "Browse data" [1] с возможностью просмотра их по категориям, концептам, географии и в виде наборов данных [2]. Особенность публикации в виде набора данных в том что каждый набор - это коллекция связанных/тематических показателей которых может быть от нескольких единиц до сотен тысяч и все данные публикуются сразу для массовой выгрузки (bulk download). Иначе говоря можно скачать разом (107 файлами) в форматах CSV и SDMX (XML) данные по сразу более чем 3.3 миллиона временных рядов, а по каждому ряду до нескольких десятков значений.
Одновременно с этим данные можно искать, причём единицей поиска представлен временной ряд привязанный к конкретной территории [3], фактически показатели фрагментированы по странам/территориям и такая фрагментация оправдана поскольку чаще всего пользователи ищут данные в привязке к конкретной стране. Это очень похоже на организацию данных в портале данных Банка международных расчётов (BIS) [4].
Одновременно с этим портал даёт возможность выгрузить отдельные временные ряды в CSV, XLSX, SDMX на их страницах и включает документированное API для получения данных в JSON [5] .
Достоинства:
- хороший баланс функций для тех кто работает с данными на сайте и теми кто работает с ними локально выгрузками и через API
- возможность bulk download
- хорошо документированное API
- подробные метаданные по каждому показателю
Недостатки:
- нет поддержки современных форматов вроде Parquet
- нет программной библиотеки для Python или R
- нет интеграции в "один клик", надо писать код для работы с API или использовать SDMX connector
- нет описания API в спецификации OpenAPI
Ссылки:
[1] https://data.ecb.europa.eu/data
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/search-results
[4] https://data.bis.org
[5] https://data.ecb.europa.eu/help/api/overview
#opendata #statistics #europe
Я тут читаю про российский Евразийский IT-форум (ссылки давать не буду, легко гуглится) и мнение имею что в общем-то российским госИТ продавать там нечего. Есть ли что продавать негосударственным ИТ ничего не скажу, скорее всего есть, но поможет ли им в этом российское гос-во есть некоторые, немалые сомнения.
Что могу сказать точно, так это то что результаты более чем скромные. Внедрение того же Гостеха или Госуслуг в Беларуси, если оно когда-либо, случится, то будет исключительно за деньги российского бюджета. Во внедрения в странах АСЕАН я просто не верю, там есть те кто сами могут много что продавать другим. Так же как и в случае арабских стран.
Меня, признаться, удивило отсутствие представителей Талибана в участниках, они как-то естественно бы там смотрелись вместе с представителями Ирана и КНДР😜😱
Но физически меня там не было, так что если у кого-то есть интересные инсайды, то было бы интересно послушать тех кто знает больше/лучше. Можно анонимно, источники раскрывать не буду 🙊
#government #it
Join us in celebrating Open Data Day in Armenia!
Date and time: March 2, 2024, 11:00 AM
📍Location: Loft at 3 Moskovyan Street, Yerevan, Armenia
The Open Data Day event will be for the first time in Armenia.
The program of the event includes:
- Discussion “Open data projects landscape. View in Armenia”
- Open Data Armenia Contest Ceremony (https://contest.opendata.am/)
- Presentation “Open Data Armenia Data Citizen Portal”
- Discussion “Government Open Data in Armenia”
- Master class “Armenia Data Discovery”
- Master class “Data Scraping”
- Master class “Government Finances Open Data”
This event is part of the International Open Data Day initiative, which helps to promote the concept of open data and information transparency in the activities of public authorities, businesses, non-profit organizations and other participants. The events are held all over the world. In Armenia, this event is organized by Open Data Armenia Project Team.
The event may be of interest for developers, data researchers and analysts, digital humanities specialists, data journalists, and other engaged specialists and students.
Don't miss the opportunity to be inspired by projects, make new contacts and contribute to the development of open data in Armenia. Join us and be part of the open data community in Armenia!
More information about the event on the website: https://odd.opendata.am.
Registration Form: https://forms.gle/EZqvXg9zAAF5zade7
Organizer: Public Organization “Open Data Development Center”.
В рубрике как это устроено у них Правительство Бразилии обновило план действий по открытости государства на 2023-2027 годы, он есть на сайте Open Government Partnership [1]. Он включает список сделанного за 2023 год и перечень следующих шагов.
Что было сделано:
- Появилась процедура партисипаторного планирования когда граждане участвуют в принятии решения по долгосрочным государственным программам. Это как партисипаторное бюджетирование, но долгосрочное
- Произошло расширение Transparency, Integrity, and Anti-Corruption Council (CTICC), специального совета из граждан и чиновников по обеспечению прозрачности. Решено расширить его включением большего числа представителей гражданского общества и НКО
- Был создан Social Participation Office (Офис по социальному участию) при Президенте - содействует вовлечению граждан в деятельность гос-ва. Начиная с партисипаторного бюджетирования и продолжая другими подобными инициативами
Что планируется:
- Разработку Open Government Strategy единой стратегии, которая охватит все стороны открытости гос-ва в стране
- Внедрение партисипаторного бюджетирования в бюджетный процесс
- Множество континентальных мероприятий по открытости таких как: Open Region, Condatos и др
И ещё множество обязательств (commitments) по открытости и по доступности данных. В Бразилии открытость данных имеет чёткий акцент на противодействии коррупции. В целом же очень много усилий по вовлечению граждан во все стороны деятельности гос-ва.
Ссылки:
[1] https://www.opengovpartnership.org/es/documents/brazil-action-plan-2023-2027-december/
#opendata #opengov #brazil
В рубрике интересных проектов на данных OSS Insight [1] открытая аналитическая платформа по репозиториям в Github с аналитикой по каждому репозиторию, пользователям, языкам разработки и ещё много чему извлеченному из Github. Полезно для вылавливания новых продуктов и понимания их популярности и построения своих дашбордов по продуктам с открытым кодом.
Что интересно - так это всё является ничем иным как демкой работы облачного движка TiDB [2] в виде распределённой SQL базы данных. Причём демки достаточно живой, с демонстрацией конкретных SQL запросов построенных по этой базе, возможностью преобразовывать текст в SQL запросы и тд. В общем-то какое-то количество хайповых фич, но при этом и открытый продукт как демка коммерческого.
Это всё к вопросу о том, например, почему так полезны открытые данные в том числе. Потому что на их основе можно делать вот такие продукты.
Причём понятно почему выбраны данные именно Github'а. Потому что это открытая экосистема понятная всем разработчикам. Это к вопросу о создании его альтернатив, потому что настоящих альтернатив почти нет.
Ссылки:
[1] https://ossinsight.io
[2] https://www.pingcap.com/tidb-serverless/
#opensource #analytics #dataviz #github
В блоге Observable основатель, Mike Bostock пишет про Observable 2.0 который вот-вот вышел 15 февраля и в его основе теперь Observable Framework [2] являющийся генератором статических сайтов с визуализацией и с открытым кодом [3].
Выглядит всё это более чем интересно, фактически - это возможность делать общедоступные и корпоративные аналитические работы в виде гибких дашбордов и дата-историй. При этом всё проектируется в JS + Markdown, а итоговая визуализация может быть довольно продвинутая.
Интересен и сам факт того что автономный продукт с открытым кодом отделяется от облачного сервиса. Чаще всё происходит наоборот, вначале авторы создают крутой open source проект, а потом монетизируют сервис на его основе. А тут сервис есть с самого начала и он остаётся востребованным потому что даёт удобный инструмент для совместной работы.
У Observable, в итоге, получаются очень качественные продукты, как облачные, так и с открытым кодом и для нового фреймворка несомненно будет много интересных задач.
Ссылки:
[1] https://observablehq.com/blog/observable-2-0
[2] https://observablehq.com/framework/
[3] https://github.com/observablehq/framework
#dataviz #opensource
В рубрике как зарабатывают на открытых данных проект The Observatory of Economic Complexity (OEC) [1] визуализирует и даёт инструменты интерактивного анализа международной торговли. При том что оперируют далеко не оперативными данными, по многим странам они только за 2021 год (но есть и те по которым они есть за ноябрь 2023). Монетизируют доступ к визуализации, возможности массовой выгрузки и так далее. Pro аккаунт стоит $299, Premium за $1999. Главная добавленная стоимость именно в визуализации.
Международные датасеты отдают бесплатно, национальные за деньги.
Ссылки:
[1] https://oec.world
#opendata #business #data #trade
В рубрике как это работает у них в Великобритании в Национальном архиве сохраняются копии всех сайтов ( и данных ) государственных органов страны и большая часть из них, когда меняют свои сайты, ссылаются на архивную копию в национальном архиве когда хотят сохранить доступ к материалам. Например, статистическая служба Великобритании несколько лет назад мводернизировала свой сайт и изменило базу хранения и предоставления статистических наборов данных. Данные все были сохранены, но к изменились ссылки и для тех кто хочет скачать архивные данные они предоставляют такую ссылку в разделе временных рядов [1].
В свою очередь копия сайта в национальном архиве [2] включает все документы которые были на оригинальном сайте.
А ещё точнее, множество копий за разные промежутки времени.
Ссылки:
[1] https://www.ons.gov.uk/timeseriestool
[2] https://webarchive.nationalarchives.gov.uk/ukgwa/20160105160709/http://www.ons.gov.uk/ons/index.html
#opendata #data #statistics #uk #webarchive #digitalpreservation #archives
Как центральные банки в мире публикуют данные? В большинстве стран резервные/центральные/национальные банки это весьма консервативные организации, чаще всего публикующие данные в виде Excel, а то и PDF файлов на своих сайтах и если и предоставляющие API, то только для курсов валют. Тем не менее есть примеры системной публикации открытых данных некоторыми из них.
Портал открытых данных центрального Банка Бразилии [1] сделан на CKAN, включает как оперативные, так и редко обновляемые данные. Все они публикуются под открытой лицензией Open Data Commons Open Database License (ODbL)
Открытые данные Банка Греции [2] это де-факто каталог индикаторов с возможностью их выгрузки в Excel формате и дополнительной фильтрацией по частоте обновления. Все под лицензией Creative Commons 4.0
ECB Data Portal [3] портал данных Европейского Центрального Банка, включает продвинутое API для публикации данных с поддержкой SDMX.
ECOS Economic Statistics System [4] система индикаторов Банка Кореи. Визуально наглядно, но несколько устаревший. Нет открытого API, но есть недокументированное.
Примеров публикации официальной статистики банками гораздо больше, полноценные открытые данные всё ещё редкость.
Ссылки:
[1] https://opendata.bcb.gov.br/
[2] https://opendata.bankofgreece.gr
[3] https://data.ecb.europa.eu
[4] https://ecos.bok.or.kr
#opendata #finances #banking #datasets #datacatalogs
🏆 Results of the Open Data Armenia Contest Announced
Nomination "Data Visualization"
2nd place:
- Armenia's Energy Profile project (https://rasscrom.github.io/armenia-energy/). Authors: Beisenbaev Alikhan, Kushlevich Artem, Akynzhanov Tolegen.
3rd place:
- Armenian newborn children 2014-2023 project (https://yuu.space/2024/02/18/armenian-names-of-newborns-statistics). Author Ani Hovhannisyan.
- Project “Geoportal of Armenia build on new "Sloy" engine» (https://sloy.io/armenia). Authors:
- Project Խաղողագործության բնագավառի խնդիրները (Problems of viticulture sphere) (https://multimedia.alttv.am/page43582628.html). Authors: Khachik Danielyan, Angela Stepanyan.
Nomination "Cultural Apps"
2nd place:
- Armenian Literature project (https://arm-lit-archive.vercel.app). Author Mushegh Movsisyan.
Congratulations and thank you for your participation! In the coming days, the organizers will contact the authors of the prize-winning projects.
В качестве небольшого оффтопика подписывайтесь на телеграм канал @ministryofpoems где в поэтической, в основном, форме, а иногда и в прозе и в визуализации появляются стихи которые, конечно же, ни на что не намекают и никакого отношения к реальности не имеют. Вот пример графом, а также прообраз в виде стихотворной стенограммы /channel/ministryofpoems/247
Читать полностью…Open Data Day - это 231 мероприятие в 2024 году организованные волонтёрами по всему миру [1]. Мероприятия разные по формату: оффлайновые митапы, хакатоны, дататоны, лекции, конференции и многое другое. Где-то большие события, где-то встречи групп в несколько человек.
Обратите внимание на мероприятия:
- День открытых данных в Москве (виртуальный) https://opendataday.ru
- ODD Armenia, оффлайновый митап https://odd.opendata.am
- Вечер оживших карт в Перми https://eduthon.timepad.ru/event/2789535/
На постсоветском пространстве осталось только мероприятие в Украине, но ничего нет даже в балтийских республиках или в Центральной Азии.
У многих мероприятий будет онлайн так что будет что посмотреть потом.
#opendata #events #opengov
Интересные open source проекты про данные и не только:
- pipelined query language [1] - Спецификация и реализация компилятора из языка PQL в диалекты SDQL. Идеологически вдохновлён Kusto Query Language [2] от Microsoft, выглядит любопытно, особенно если проект проживёт долго и будет применяться.
- FileQL [3] - очередная реализация принципа "всё SQL", обёртка для SQL запросов в отношении операций с файловой системой.
- Magika [4] - программный модуль для Python и утилита по определению типа файла на основе модели обученной с помощью ML. Обещают лучшую точность и всё такое. Фактически замена программы magic для аналогичных целей в Unix/Linux.
- Gatus [5] продвинутый монитор доступности и статуса серверов/сервисов, ориентирован на разработчиков, управляется через YAML файлы конфигурации
- SSH3 [6] эволюция протокола SSH2 для дистанционного подключения к терминалам на удалённых серверах. Обещают большую производительность и большую безопасность. Может быть полезно для проксирования трафика тем кому это нужно.
Ссылки:
[1] https://github.com/runreveal/pql
[2] https://learn.microsoft.com/en-us/azure/data-explorer/kusto/query/
[3] https://github.com/AmrDeveloper/FileQL
[4] https://github.com/google/magika
[5] https://github.com/google/magika
[6] https://github.com/francoismichel/ssh3
#opensource #datatools
Рубрика "Циничная лингвистика"
"Умное правительство" на монгольском - "Ухаалаг засаг".
Вот все-таки есть что-то глубинное в языке степных кочевников!
В качестве регулярного напоминания, в России уже 11 месяцев как отсутствует федеральный портал открытых данных data.gov.ru. Он был "закрыт на ремонт" Минэкономразвития РФ в марте 2023 года [1] и с тех пор не возвращён к жизни, несмотря на то что его "перенос на Гостех" должен был завершиться к январю 2024 года.
В истории Минэка - это не последняя плохая история в их информатизации и зоной ответственности, но очень показательная поскольку закрыли старую версию портала до того как открыли новую. В общем-то всем понятно что просто хотели закрыть.
Ссылки:
[1] /channel/begtin/4714
#opendata #closeddata #russia
Программа Дня открытых данных 2024: открытые данные для науки, статистика внешней торговли, госфинансы и многое другое
🗓 Дата и время: 6 марта, 11:00-14:30
💻 Формат: онлайн-трансляция
Опубликована программа российского Дня открытых данных. Темы выступлений:
1. Открытые данные для управления российской наукой: проблемы и возможности. Спикер Иван Стерлигов, советник проректора по науке НИУ ВШЭ.
2. Открыть нельзя закрыть: особенности работы со статистикой внешней торговли России. Спикер Алина Владимирова, руководитель направления сетевого анализа, Институт востоковедения РАН.
3. Презентация проекта Dateno — поисковика по открытым и общедоступным данным по всему миру. Спикер Иван Бегтин, директор АНО «Инфокультура».
4. Открытость госфинансов: вчера, сегодня, завтра. Спикер Ольга Пархимович, руководитель проекта «Госзатраты».
5. Презентация проекта ДумаБинго: Что мы можем сказать о работе Государственной думы, используя открытые данные. Спикер Александр Верещагин, аналитик проекта.
6. Тендерскоп: инструмент общественного контроля публичных закупок. Спикер Ирина Чарикова, руководитель проекта.
📍Регистрируйтесь на мероприятие и добавляйте его себе в календарь. Подробности на сайте: https://opendataday.ru/msk
Организатором Дня открытых данных в России выступает АНО «Информационная культура».
Я давно не писал про некоторые базовые принципы работы с данными, хотя регулярно о них задумываюсь в практическом контексте применения концепций и принципов инженерии данных к открытым и общедоступным данным. Например, про data lineage, которое на русский язык коллеги переводят как генеалогию данных. Я буду использовать термин data lineage, как более употребимое.
Так вот интересное тут то что в корпоративном мире с густой аналитикой (когда аналитические команды есть и они сильные, и запрос на аналитику есть), так вот в корпоративном мире data lineage - это понятное явление, если не привычное, то активно обсуждаемое и применяемое. Потому что decision maker'ы часто задают вопросы о том как та или иная цифра вышла и надо иметь ответ о том, а как же это оно есть. А вот в мире общедоступных данных, статистики и, отчасти, науки, с data lineage всё, скажем там, плоховато или очень специфично.
В случае научных данных общего типа, происхождение данных, обычно, описано текстом, неструктурировано и, частично, выявляется из ссылок на данные которые использовались. Иногда по этим ссылкам можно определить быстро первоисточник и способы обработки, иногда сложнее. Для хорошо структурированных научных областей вроде биоинформатики это должно быть проще, для других наук сложнее и тд.
В других случаях это сложнее, иногда реально сложно. Ещё сложнее со статистикой, при том что там источники данных указываются практически всегда, но это указание может быть не на первоисточник, а на глобальный источник. Простой пример, какой-нибудь агрегатор данных статистики вроде портала данных ООН (data.un.org) может собирать данные из портала данных Международного валютного фонда (IMF) data.imf.org, а тот из первоисточника, страницы раскрытия данных на сайте резервного банка или статслужбы страны. А кто-то коммерческий может, опять же, собирать данные с портала ООН и выдавать в своём сервисе.
Будем ли он при этом рисовать полноценный data lineage от портала данных ООН до сайта статслужбы ? Вообще-то нет, источником будет указан портал ООН.
С открытыми данными данными ещё хуже, там даже приближения к генеалогии данных нет, даже если в первоисточнике базы из которой создан датасет он есть.
Потому что есть огромное немаловажное явление - это технологический разрыв между порталами раскрытия и системами управления данными.
Он особенно остро ощущается теми кто работает в обоих мирах, с корпоративными данными, и с общедоступными данными.
Лично я его ощущаю довольно сильно и проекты и инициативы которые создаются дата инженерами и, условно, идеологами и активистами отличаются очень сильно.
Первые продвинуты технологически и сразу ориентированы на разработчиков (API, структурированное хранилище, преобразование данных в удобные форматы JSON, Parquet и др.), но, часто, забывая про базовые принципы открытости.
Вторые, наоборот, ориентированы на государственную или корпоративную прозрачность, но технологическая реализация всегда оставляет ощущение архаики.
Как выглядят идеальные порталы/сайты индикаторов или порталы публикации геоданных? Лично я считаю что главное в них это максимальная ориентация на использование дата-инженерами и дата-аналитиками владеющими современными инструментами. Даже, если не суперсовременными, но хотя бы актуальными.
Это реализация data lineage, это проектирование по принципу API First, это современные форматы предоставления данных для data science, это _всегда_ наличие bulk download, это концепция в основе что data as a product, а не данные как производный продукт от чего то ещё.
#opendata #data #dataengineering #thoughts
Первый день открытых данных в Армении пройдёт 2 марта в Loft Yerevan, в форме митапа, если Вы тут находитесь или будете проездом - заходите. Будут мастер-классы, рассказ про то что мы делаем в Open Data Armenia, разговоры о проектах на открытых данных в Армении. А также на ODD Армения я расскажу, наконец-то, про поисковик по открытым данным над которыми мы работали почти год (спойлер - более 10 миллионов датасетов, моментальный поиск). Это будет оффлайн, без трансляции, но точно интересно.
6 марта пройдет виртуальный Open Data Day в России (Москве) https://opendataday.ru/msk, запишите его себе в календарь и присоединяйтесь онлайн. Российский ODD будет целиком из докладов сообщества и его программа скоро будет доступна. После него обязательно будут видеозаписи и вот тут я также расскажу про поисковик на данных и это уже будет на более широкую аудиторию. Следите на сайте и в ТГ канале Инфокультуры @infoculture.
#opendata #opengov #vents #opendataday
В рубрике интересных наборов данных Data Citation Corpus [1] от Datacite появился в рамках проекта Make Data Count. Сами данные владельцы пока не отдают в свободный оборот, надо заполнить форму запроса на использование [2], но для исследовательских проектов это не должно быть помехой.
Также, у набора данных есть дашборд с визуализацией [3].
Проект любопытный, на нём можно построить гораздо более интересную аналитику чем то что сейчас предоставляет DataCite.
Ссылки:
[1] https://makedatacount.org/data-citation/
[2] https://docs.google.com/forms/d/e/1FAIpQLSd1l7ovTQs3EMw9mz4HFaVB2SuUQ8Z8FldoCDgvD74GV-vh0Q/viewform
[3] http://corpus.datacite.org/dashboard
#opendata #data #openaccess #researchdata
Свежая картинка по продуктам с открытым кодом в области дата инженерии.
Подробнее о ней в блоге её автора на Substack [1].
А я скажу что такие картинки хороши когда надо синхронизировать картинку в голове с изменениями за год, правда, мне лично, вот такой иконостас иконок всегда казался не наглядным и куда практичнее были обзоры по наиболее интересным развивающимся и новым продуктам.
Вот в этой картинке, например, нет SODA для data quality, в платформе метаданных зачем-то CKAN, хотя он про другое.
Я, кстати, несколько по другому систематизирую инструменты с открытым кодом. Когда-то просто стал делать закладки в Github по категориям [2] и там много их, больше 30 списков.
А заодно для тех кто интересуется разного рода экзотическим открытым кодом. Markdowndb [3] наглядная реализация принципов "всё таблица" и "всё SQL". Это фреймворк превращающий документы с разметкой Markdown в SQL базу данных к которой можно делать запросы к содержимому этих файлов с фильтрацией по тэгам, файлам и тд. Внутри используют Sqlite, в гайдах рассказывают как заменить статические файлы на эту базу в статических сайтах.
Ссылки:
[1] https://practicaldataengineering.substack.com/p/open-source-data-engineering-landscape
[2] https://github.com/ivbeg?tab=stars
[3] https://markdowndb.com
#opensource #data #dataengineering #datatools
Я об этом мало рассказывал, но в течение многих лет работа с данными, особенно их систематизация были моими хобби, а не работой. Я много лет занимался вначале разработкой ПО, потом архитектурой и управлением проектами, а параллельно сводил какие-нибудь таблицы для себя потому что "очень хотелось сводить таблицы" (с). Одно из таких моих увлечений ещё давно была систематизация международных организаций, институтов развития, банков развития и другие систематизации объединяющие группы стран и международные взаимоотношения.
У меня и сейчас есть их реестр, я его давно ещё вёл в Excel, потом перенес в Airtable и до сих пор регулярно им пользуюсь, например, когда ищу данные по тематикам, часто они есть на сайтах межгосударственных организаций. Там база межгосударственных объединений, блоков стран, таможенных и экономических союзов и банков развития. Такое полезное оказалось хобби, сильно помогшее мне в будущих задачах по data discovery.
А недавно я обнаружил что в Пекинском университете ведут похожую базу данных Public Development Banks and Development Financing Institutions Database [1], но только по банкам развития.
Любопытный проект, пересекающийся с моей базой где-то на 50-60%, но с визуализацией наглядно.
И да, их данные общедоступны, но для выгрузки требуют регистрацию [2].
Ссылки:
[1] http://www.dfidatabase.pku.edu.cn/index.htm
[2] http://www.dfidatabase.pku.edu.cn/DataDownloading/index.htm
#opendata #data #finances #china #banking
Я давно не напоминал что, помимо всего прочего, я веду реестр каталогов данных по всему миру, Common Data Index [1] и там уже почти 10 тысяч записей, большая часть которых - это геопорталы/каталоги геоданных. Но также много порталов открытых данных, микроданных, научных данных, каталогов индикаторов и каталогов данных для машинного обучения. Список пополняется постоянно, но работы ещё много.
В последнее время всё больше новых каталогов данных из систем национальной статистики и национальных банков стран, о них много что можно рассказать. А пока поделюсь некоторыми накопленными наблюдениями тезисами
1. Очень малое пересечение современной дата инженерии, дата анализа и data science с порталами открытых данных и вообще почти всеми системами раскрытия информации госорганами. Публикация данных в Parquet большая редкость, в лучшем случае доступны данные в форматах SPSS или Stata, а чаще просто CSV/XLS. Официальная статистика, в принципе, феноменально консервативна. Не так много статслужб публикующих данные на постоянной основе как открытые данные, но почти все так или иначе данные публикуют.
2. Наибольший прогресс и потенциал развития в открытости научных данных. Там есть хорошие обоснования, институциональная поддержка, системная работа, обоснованная аргументация, государственные программы и многое другое ориентированное на открытость. Но нет рынка. Нет областей применения себя любому амбициозному человеку поскольку всё построено на коллаборации и согласованности совместной глобальной работы. Поэтому (но не только поэтому) в этой области почти нет стартапов и активного бизнес присутствия.
3. Государства практически не создают каталогов данных для развития ИИ. Два концентратора данных и моделей - Kaggle и HuggingFace используются всеми, частными, корпоративными и государственными исследователями. Только в некоторых странах такие наборы данных публикуются на официальных порталах открытых данных.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry
#opendata #datacatalogs #data #thoughts
#events #RadioGroot
📍В гостях: Иван Бегтин, Data, Data engineering, Tech, Open Government, автор канала про данные
🕓Дата: 13 февраля в 19:00 по мск
🖼Формат: онлайн, трансляция в канале
🔗Добавить в календарь: здесь
Первый эфир
🗣Обсудим:
⬇️срез с предыдущего выпуска
⬇️управление данными
⬇️предпринимательство
⬇️транспарентность в законодательстве и документах
7. При этом что российские госуслуги, что лучшие мировые примеры вроде Эстонии или Сингапура или госуслуги Казахстана через КаспиБанк, увы, не являются отчуждаемыми продуктами. Даже частично, даже в какой-то разумной доле снижающей стоимость внедрения. Во многих других областях решения есть: порталы данных, официальная статистика, гражданские бюджеты, порталы открытой демократии и открытого диалога и ещё много чего, но не для госуслуг. Да чего уж там, даже для национальных цифровых идентификационных платформ нет универсальных решений. Слишком большая вариативность уже созданного и необходимого для интеграции и местных законов, местной цифровой готовности и тд.
8. Поэтому пиар российских Госуслуг - это странно, очень странно. Может ещё одно предположение что всё это было к кадровым перестановкам в Пр-ве? Но, что-то вот верится с трудом. Пока всё идет к тому что ничего не поменяется (с)
9. Хорошо бы он выглядел если бы на сцену вышел бы какой-нибудь российский вице-премьер и так бы и сказал: "Друзья, мы тут с Гостехом облажались и решили его закрыть. А вот Госуслуги это супер, Госуслуги это зашибись. Теперь будем на их основе госпроекты развивать". Шучу, наверное;) Это на меня так сюрреализм происходящего влияет.
Часть 2 из 2
#thoughts #government #russia