Совершенно какой-то уникальный российский законопроект о создании государственной информационной системы "Национальный словарный фонд") [1] буквально только недавно внесённый правительством.
Во первых он определяет появление такой ФГИС как Национальный словарный фонд, а во вторых и это совсем редко, к нему приложено настоящее техническое обоснование и ФЭО. Из них, кстати, есть ощущение что всё это работа под "национализацию" корпуса русского языка который создавался не только за счёт бюджетных ресурсов, но, не совсем и не точно, потому что неизвестно соответствие этих продуктов.
Из нюансов - там на создание системы заложено 182 миллиона рублей и, конечно же, никакой открытости данных или API явным образом не упоминается. Есть только упоминание что "Информация, содержащаяся в Национальном словарном фонде, является общедоступной." в 3-м пункте законопроекта, а то есть хотя бы не под копирайтом.
Из нюансов, если это создаётся для проектов по машинному обучению и ИИ то делать его к 2026 году - это совсем неспешно.
А для чего тогда? Хочется надеяться что не для "языкового контроля". Но хотя бы не как замену Википедии.
Ссылки:
[1] https://sozd.duma.gov.ru/bill/538215-8
#government #russia #russianlang #laws
Я в своих выступлениях про поисковик по данным Dateno рассказывал про то что один из приоритетов его развития - это повышение качества данных.
Причём, чтобы было понятно, качество данных и их описания, метаданных, подавляющего числа порталов открытых данных плохое. Иногда совсем плохое - чаще, реже среднее, но очень хорошее - это огромная редкость. Причём почти всегда это качество является отражением того что с ним работают люди которые вручную вносят файлы и заполняют описание.
Вот пример одной из практических задач. В Dateno сейчас 3383 типа форматов файлов, но, в реальности, это лишь 129 форматов, потому что пользователи указывают в полях типа file format что попало, часто с ошибками. Помимо того что есть указания по которым вообще нельзя понять что это за файл, так есть ещё и много форм написания расширений и типов. На скриншотах примеры с форматами и расширениями которые приходится приводить в порядок, сейчас, полувручную. Похожая ситуация с типами MIME, они очень даже активно заполняются с ошибками, хотя, казалось бы, так быть не должно.
Поэтому большая часть работы над поисковиком - это обогащение данных, повышение качества их описания, извлечение метаданных из самих данных и многое другое для нормализации описания каждого датасета.
На скриншотах можно увидеть проверку в OpenRefine автоматически размеченных форматов и типов mime по одному из снапшотов базы Dateno. И это с оговоркой что сейчас проиндексированы далеко не самые "грязные" каталоги данных. Скорее всего ситуация будет сильно хуже с форматами когда начнём индексировать большие каталоги научных данных. Вот тут, конечно, хотелось бы найти инструмент который бы всё это делал без участия человека, но такого не наблюдается.
Потому что, например, определение форматов и типов mime относительно хорошо можно делать по содержанию файла, но скачивание всех-всех файлов для поисковика является весьма дорогостоящей задачей, и с точки зрения трафика и с точки зрения ресурсов.
#dateno #data #howitworks #datasearch #dataquality
Полезные ссылки про данные, технологии и не только:
- Про автоматизированное видеонаблюдение на олимпиаде в Париже [1]. Под пэйволом, но в общем-то и так понятно что использует положение об экспериментах в законе об Олимпийских играх во Франции [2]
- Devin, the first AI software engineer [3] AI помощник для программистов от Cognition. Ключевая фишка - он лучше умеет самостоятельно решать Github Issues, успешно около 13.86%. Не учитесь дети на программистов, скоро они останутся без работы! Шутка, а не шутка то что джуниорам придётся нелегко.
- Grok от X.AI (Элон Маск) в открытом коде [4] пока оставлю без комментариев, пусть его потестят и расскажут те кто тестят GPT-подобные модели на регулярной основе
- Croissant: a metadata format for ML-ready datasets [5] стандарт метаданных для ML датасетов. Теперь поддерживается основными платформами Kaggle, HuggingFace и OpenML. Google обещают поддерживать его в Google Dataset Search. Подробнее в спецификации тут [6]
Ссылки:
[1] https://www.lemonde.fr/en/pixels/article/2024/03/03/paris-olympics-2024-testing-on-algorithmic-video-surveillance-of-the-games-begins_6580505_13.html
[2] https://www.lemonde.fr/en/sports/article/2023/04/13/paris-2024-french-parliament-approves-the-olympic-bill-and-its-video-surveillance-flagship-project_6022755_9.html
[3] https://twitter.com/cognition_labs/status/1767548763134964000
[4] https://github.com/xai-org/grok-1
[5] https://blog.research.google/2024/03/croissant-metadata-format-for-ml-ready.html
[6] https://mlcommons.org/working-groups/data/croissant/
#data #datatools #privacy #ml #opendata #ai
В рубрике интересных наборов данных OMDB (Openmusic Database) [1] база метаданных по более чем 150 миллионам песен, 28 миллионам альбомов и 5 миллионам артистов. Всё это в виде дампа базы для PostgreSQL. В сжатом виде 72GB, в распакованном 175GB. Из известных мне это крупнейшая такая доступная база.
Из описания похоже что с копирайтами автор никак не разбирался и скрейпил описания из каких-то источников где копирайты есть, поэтому он поясняет что датасет только для исследований, а с копирайтами надо разбираться самостоятельно.
Для тех кто хочет поработать с большими наборами данных в исследовательских целях, научную статью написать или инфографику сделать, может быть весьма любопытно.
Ссылки:
[1] https://github.com/OatsCG/OMDB
#opendata #datasets #data
Для тех кто мог пропустить запуск finlibrary.ru одновременно архивного проекта и проекта с историческими экономическими данными.
Ещё бы раздобыть исторических справочников и статистики и их тоже собрать, но когда российский Росстат сподобится их оцифровать и публиковать?
Кстати, в справочниках Российской Империи на НЭБе есть немало статистики по постсоветскому пространству, а не только по нынешней России, но справочники тоже надо переводить в данные.
#opendata #digitalpreservation
В России закрыт централизованный портал поиска по судебным решениям bsr.sudrf.ru [1] через который ранее можно было найти любое принятое решение судом любой юрисдикиции. Закрыт без новостей о том насколько закрыт, когда откроют и так далее. С текущей формулировкой он может не быть открыт никогда или завтра.
Судебные решения всё ещё доступны через сайты судов в разделах "Судебное делопроизводство", однако сайтов тысячи и поиск на них требует введения каптчи.
При этом в формате открытых данных судебные решения судебным департаментом никогда не публиковались, а поиск и сайты были единственными способами получения этих сведений.
Почему закрыли версий может быть более одной. Работа журналистов расследователей , изменения в руководстве Верховного суда и многое другое. Важнее то что эти данные активно использовались во многих проектах/задачах/исследованиях и закрытие поиска это ещё один сигнал о растущей закрытости значимых для общества сведений.
Ссылки:
[1] https://bsr.sudrf.ru
#opendata #closeddata #russia
В отношении Казахстана я, также, напомню что в стране много данных за пределами официального портала data.egov.kz. Например, много геопорталов и есть, даже, пара научных репозиториев. Полный список можно увидеть в реестре Common Data Index [1] там 37 каталогов данных. Из них 9 индексируются в Dateno, это каталоги на базе Geonode, GeoServer и ArcGIS Server. Остальные сделаны, или на каких-то собственных движках, или не индексируются с внешних серверов или имеют какие-то другие ограничения.
Также в Казахстане есть система индикаторов TALDAU [2] и есть много данных на сайтах Пр-ва, госорганов, акиматов и тд. А ещё немало недокументированного API у государственных систем через которые можно собирать местные реестры.
Всё это к тому что национальный портал данных страны data.egov.kz на всём этом фоне выглядит реально вызывающе плохо.
Если появится в стране кто-то кто захочет сделать общественный портал открытых данных то собрать каталог значительно большего объёма совершенно несложно.
Я большого секрета не открою если скажу что пару лет назад мы с коллегами обсуждали не создать ли большой каталог данных на всю Центральную Азию, но в итоге делать этого не стали не будучи достаточно погруженными в местный контекст. Вместо этого появился Dateno в котором охватываются вообще все страны миры.
Ссылки:
[1] https://registry.commondata.io/country/KZ
[2] https://taldau.stat.gov.kz/
#opendata #data #datacalogs #kazakhstan
Казалось бы небольшая, но весьма интересная новость о том что проект chDB присоединяется к Clickhouse [1].
chDB [2] - это внедряемая OLAP база на движке Clickhouse, фактически прямой конкурент DuckDb и, как и DuckDb, замена Sqlite.
Казалось бы, ну что тут такого, а вот DuckDb сейчас одно и наиболее заметных явлений в дата-мире и внедряемая база это очень удобная штука. Многие датасеты может оказаться что удобнее распространять в виде такой базы данных, благо что она с открытым кодом.
И вот chDB это такое же как DuckDb по логике, но движок Clickhouse может быть поинтереснее. В треде на ycombinator [3] есть интересные ссылки на эту тему, например, сравнение clickhouse-local и DuckDb [4] и clickhouse-local там был особенно крут на больших объёмах данных. Можно предположить что автор chDb переходит в clickhouse прокачать chDB также как сейчас прокачано DuckDb.
В общем и целом новость оптимистичная, больше embedded баз данных разных и полезных.
Ссылки:
[1] https://auxten.com/chdb-is-joining-clickhouse/
[2] https://www.chdb.io/
[3] https://news.ycombinator.com/item?id=37985005
[4] https://www.vantage.sh/blog/clickhouse-local-vs-duckdb
#data #opensource #databases #datatools
К Дню архивов запускаем проект «Цифровой архив госфинансов и госуправления»
Фонд «Институт экономической политики имени Е.Т. Гайдара» и АНО «Информационная культура» запускают новый общественный проект «Цифровой архив госфинансов и госуправления», доступный по адресу finlibrary.ru.
Основная цель проекта — сохранить исторические источники о государственных финансах и госуправлении и сделать их доступными для экономистов, историков, исследователей, разработчиков и всех заинтересованных.
Портал «Цифровой архив госфинансов» создан для публикации электронных копий исторических документов и машиночитаемых данных, сгенерированных на их основе. Веб-интерфейс портала предоставляет доступ к первичным и систематизированным историческим источникам для обычных пользователей и наборам открытых данных и API для исследователей и разработчиков.
Источниками для проекта являются архивные документы, книги, визуализации и статистические сборники, размещенные на сторонних ресурсах или отсканированные силами команды проекта. Среди собранных документов можно найти Государственные бюджеты СССР и РСФСР, выпуски журнала “Проблемы экономики” и бюллетени Счетной Палаты РФ, документы департаментов Минфина XIX века, книги по истории Минфина России, бюджеты городов и многое другое.
Самый ранний государственный бюджет, доступный в базе данных проекта, датирован 1866 годом, а всего на данный момент собраны государственные бюджеты за 81 год.
Уже сейчас на портале доступно более 1000 электронных копий редких и уникальных материалов, а также несколько десятков машиночитаемых наборов данных, сформированных на основе оцифрованных и верифицированных сведений из таблиц, содержащихся в материалах-первоисточниках.
К концу 2024 года мы планируем расширить базу данных до 3 тысяч документов за счет поиска новых источников.
Будем рады пожеланиям и предложениям. Пишите на почту oparkhimovich@infoculture.ru (Ольге Пархимович) или в телеграм @k0shk. Более подробную информацию о проекте можно найти в анонсе: https://finlibrary.ru/s/finarchive/page/news.
Те кто видел мою презентацию про Dateno могли обратить внимание что я упоминал там про семантические типы данных, о которых неоднократно тут писал и о которых всегда полезно напомнить.
Семантические типы данных - это характеристики колонок в таблицах/полей в JSON и тд. которые определяют их смысловое наполнение. То есть если тип поля: строка, число и тд. определяют способ хранения и тип данных, то семантический тип определяет смысл. Например, строка может быть идентификатором организации или UUID, или датой или кодом продукта. Для всего это я когда-то написал утилиту metacrafter [1] и библиотеку для Python, которая умеет сканировать файл или таблицу в СУБД и выдавать отчёт по семантическим типам привязывая их к единому реестру. Реестр довольно обширный [2] по самым разным направлениям, а сама утилита включает набор простых правил описываемых в YAML нотации.
Эти правила бывают, как очень простые, так и довольно сложные, с разной вероятностью ложных срабатываний, но, в целом, довольно точно работающие.
Собственно не секрет что основным источником выявления правил были порталы открытых данных UK, USA, России, Франции и многих других стран.
А теперь осталось добавить их в фильтрацию в наш поисковик по данным. Это не так просто как кажется, потому что правила есть пока только для некоторых стран/языков, потому что много ошибок в первичных данных, потому что данных много, но, несомненно очень интересно.
Если, кстати, вы обогащаете внутренние каталоги данных дополнительными метаданными, то metacrafter может оказаться очень полезной штукой. Она создавалась изначально для этого и может помочь найти персональные данные в самых неожиданных местах.
Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://registry.apicrafter.io/
#opendata #opensource #data #datatools
Я давненько не писал о ярких примеров того как не надо публиковать данные и особенно российских примеров. Но вот свежий пример подоспел.
У Рослесхоза есть приказ N153 [1]
«Об отнесении лесов к защитным лесам, эксплуатационным лесам и установлении их границ, о выделении особо защитных участков лесов и установлении их границ на территории Оричевского лесничества Кировской области, о внесении изменения в приказы Федерального агентства лесного хозяйства от 30.11.2011 № 506, от 28.06.2019 № 870 и о признании утратившим силу приказа Федерального агентства лесного хозяйства от 12.04.2021 № 332»
Который состоит из двух страниц и 162 приложений половина из которых - это "Графическое описание местоположения границ земель", а вторая половина "Перечень координат характерных точек границ земель".
Как, я уверен, что вы уже догадались всё это геоданные и все они опубликованы в виде PDF файлов в 784 мегабайтном архиве.
Хорошо хоть таблицы не сканами и вполне пригодны для автоматического их извлечения.
Но, в принципе, такое сложно делать случайно. Люди которые таким образом публикуют данные совершенно точно не могут не знать что эти таблицы нужны именно в машиночитаемом виде и, по хорошему, ни в каком ином.
Публиковать, хотя бы, в Excel/ODS было бы несложно, но такого нет.
Я такого немало видел на разных ресурсах развивающихся стран, там даже данные ценового мониторинга публиковались в PDF, и ещё всякое разное. Но это всё постепенно менялось, меняется и довольно быстро. А в развитых странах геоданные - это основные открытые данные. У многих городов и регионов портала данных может не быть, но портал геоданных есть.
Не любят людей в Рослесхозе, ох как не любят.
P.S. И таких актов там много, сотни [2]. А PDF файлы приложений с таблицами могут достигать тысяч страниц
Ссылки:
[1] https://rosleshoz.gov.ru/doc/2023.02.27_pf_%E2%84%96153
[2] https://rosleshoz.gov.ru/documents/borderforest
#opendata #datasets #forestry #russia #closeddata #baddata
Моя презентация с сегодняшнего дня открытых данных , а также можно уже посмотреть работающую версию поисковика Dateno.
Он пока ещё в режиме работающей беты, а то есть ошибок много, дубликатов много, метаданные в оригинальных источниках часто кривые и ещё много чего, лучше посмотреть презентацию чтобы понять.
Но... им уже можно пользоваться. Можно задавать вопросы, можно присылать мне фидбек, можно зарегистрироваться в Discord'е чтобы задавать вопросы разработчикам. Главное помнить что в дискорде проекта рабочий язык английский.
Всего в Dateno сейчас 10M наборов данных из 4.9 тысяч каталогов. До когда 2024 года планы достигнуть 30M наборов данных, значительно улучшить веб интерфейс, добавить ещё много интересных возможностей.
У проекта есть API, оно скоро будет открытым также. Много доступно как открытый код тут. А в основе проекта реестр каталогов данных о котором я писал весь прошлый и этот годы.
#opendata #datasets #projects #datasearch #data
Завтра в День открытых данных я буду в 12:15 по Москве рассказывать про поисковую систему по датасетам над которой работал весь прошлый год. Сейчас подробностей рассказывать не буду, иначе неинтересно будет слушать, но могу сказать что целью было и есть создать альтернативу Google Data Search и собрать так много данных как только возможно и сделать удобный поисковик по ним всем. Полгода назад я рассказывал о том как шла работа над проектом на конференции Smart Data, там было много технических подробностей, но ещё не готовый продукт. А теперь продукт готов для бета пользователей.
Это будет второе публичное представление, первое было на ODD в Армении 2 марта, в оффлайне, для совсем небольшой аудитории. А это будет уже с записью и, можно сказать, как финальная тренировка перед представлением на весь мир.
#opendata #data #datasets #datacatalogs #datasearch
В рубрике интересных наборов данных данные по тестированию дисков от облачного провайдера Backblaze [1] огромный датасет замеров работы почти 270 тысяч жестких дисков, с зарегистрированными фактами почти 17 тысяч отказов.
Общий объём датасета более 100GB, там же много аналитики от Backblaze про сами диски и это бесценная информация для всех кто выбирает диски для долгосрочного хранения. У них же очень интересная аналитика [2] за многие годы.
Ссылки:
[1] https://www.backblaze.com/cloud-storage/resources/hard-drive-test-data
[2] https://www.backblaze.com/blog/backblaze-drive-stats-for-2023/
#opendata #data #datasets
В качестве регулярного напоминания, 6 лет назад мы в Инфокультуре @infoculture сделали множество карт данных, наглядной визуализации того где данные лежат. Это совершенно неформальный термин для простой и наглядной инфографики. Эти карты никуда не исчезли и по прежнему доступны на сайте [1]. При этом, конечно, за 6 лет уже произошли многие изменения, поэтому посмотреть на карты интересно и с точки зрения того как это было 6 лет назад и сравнить с тем что есть сейчас.
А я для полноты картины добавляю оригинальные карты данных которые создавались изначально в виде майндмапов.
Майндмапы удобны не всем, поэтому на сайте Инфокультуры инфографика в виде плакатов.
Ссылки:
[1] https://www.infoculture.ru/2018/12/10/datamaps/
#opendata #infoculture #data #russia #datamaps
В продолжение про то какие бывают форматы общедоступных данных, есть важный факт индикатор пересечения открытых данных с областями data science. Из, примерно, 29 миллионов ресурсов (файлов) привязанных к датасетам в Dateno, только 4700 - это файлы Parquet, ни одного файла Avro или Orc.
Только около 7 тысяч файлов - это данные в виде дампов Sqlite, и то почти все они - это данные экспортируем из разного рода каталогов геоданных и входящих в файлы geopackage.
Можно, конечно, предположить что вместо специальных форматов для машинного обучения специально публикуют CSV файлы для лучшей интеграции, но это далеко не безусловный тезис потому что по опыту, на каждый нормальный файл CSV файл приходится два файла с ошибками форматирования и экспорта.
А самые популярные общедоступные (public domain и открытые данные) данные остаются CSV, XML, XLSX, JSON, TAB, XLS и менее известные в инженерной среде, но известные в научной NetCDF.
К этому можно добавить ещё пучок файлов геоданных, но в целом состав основных данных именно таков. Всё, скорее всего, немного поменяется когда закончится индексация Kaggle и HuggingFace, но за их пределами использования форматов для data science почти не наблюдается.
И это отдельный длинный разговор почему так происходит.
#opendata #dateno #datasets #statistics
Миллионы научных статей рискуют исчезнуть из онлайн-хранилищ
Анализ цифровых идентификаторов научных статей показал, что результатов исследований публикуется больше, чем архивируется. Проблема, в первую очередь, затрагивает небольшие издательства, у которых нет средств и возможностей для долгосрочного хранения большого количества опубликованных материалов.
По данным анализа более семи миллионов цифровых публикаций, около четверти всех научных статей не архивируются и не хранятся в интернете должным образом. Результаты показывают, что онлайн-хранилища не успевают за постоянно растущим потоком новых работ, передает ERR.EE
По словам Мартина Ива, одного из авторов нового исследования, вся эпистемология науки основана на списках ссылок. Другими словами, автор статьи должен быть в состоянии проверить, что о предмете его исследования говорили другие, в противном случае ему придется полагаться на слепую веру в факты, объяснение которых ему недоступно.
Для нового анализа Ив использовал выборку из 7 438 037 научных работ. Все изученные статьи снабжены цифровым идентификатором объекта, или DOI. Это последовательность цифр, букв и символов, которая действует как идентификационный код электронного документа. DOI позволяют однозначно распознать научную работу и использовать ее в качестве ссылки.
Из всех исследований, включенных в выборку, 28%, или более двух миллионов статей, не были доступны ни в одном из крупных цифровых архивов, даже если публикация имела действующий DOI. Только 58% DOI ссылались на статьи, хранящиеся хотя бы в одном архиве. Оставшиеся 14% работ были исключены из исследования, поскольку они были опубликованы слишком недавно, не являлись журнальными статьями или их изначальный источник не мог быть определен.
Полученные результаты не означают, что статьи вообще нельзя найти в сети. Например, они могут быть доступны на сайтах издательств. Однако если последние обанкротятся или что-то случится с их серверами, соответствующие научные работы могут исчезнуть из онлайн-хранилищ.
Оказалось, что менее 1% – или всего около 200 – издательств, загрузили свои статьи в несколько архивов. Около трех четвертей издателей добавили работы в три или более архивных сред. Менее 10% разместили свои материалы как минимум в двух хранилищах.
Треть издательств вообще не занимались постоянным архивированием.
По словам Мартина Ива, его анализ следует рассматривать с некоторыми оговорками. В частности, в выборку исследования вошли только статьи с DOI-метками. Кроме того, в него были включены не все цифровые хранилища, например, архивные среды самих исследовательских институтов не рассматривались.
Несмотря на эти оговорки, анализ хорошо приняли специалисты по хранению данных, не связанных с исследованием. Например, Микаэль Лааксо, сам занимающийся вопросами публикации научных работ в Школе экономики Ханкен в Хельсинки, говорит, что многие люди слепо верят в то, что наличие DOI гарантирует вечную доступность статьи. Вместе с коллегами в 2021 году он показал, что на самом деле в период с 2000 по 2019 год из интернета исчезло более 170 журналов с открытым доступом.
Кейт Виттенберг, управляющий директор Portico, поставщика услуг цифрового архива, предупреждает, что неспособность сохранять статьи ставит под удар не столько крупные, сколько мелкие издательства. Хранение опубликованного контента стоит денег и требует инфраструктуры, технологий и опыта, которыми небольшие организации не располагают.
В своем анализе Ив предлагает меры по улучшению сохранности цифрового контента. Например, можно ужесточить требования к регистрации DOI. Также, по его мнению, стоило бы повысить осведомленность о проблеме сохранности среди издателей и самих ученых.
Исследование было опубликовано в журнале Journal of Librarianship and Scholarly Communication.
#DOI
____
@rujournals - Научные журналы и базы данных
25 recommandations pour l'IA en France или, по русски, 25 рекомендаций для ИИ выпустила французская Комиссия по искусственному интеллекту.
Вот 7 наиболее приоритетных, в моём вольном переводе:
1. Создать условия для коллективного освоения ИИ и его проблем, запустив план по повышению осведомленности и обучению нации.
2. Вложить значительные средства в цифровые компании и трансформацию бизнеса, чтобы поддержать французскую экосистему ИИ и сделать ее одним из мировых лидеров.
3. Сделать Францию и Европу крупным центром вычислительных мощностей в краткосрочной и среднесрочной перспективе.
4. Изменить наш подход к персональным данным, чтобы продолжать защищать их и в то же время способствовать инновациям для удовлетворения наших потребностей.
5. Обеспечить влияние французской культуры путем предоставления доступа к культурному контенту при соблюдая прав интеллектуальной собственности.
6. Применять принцип экспериментирования в государственных исследованиях в области ИИ для повышения их привлекательности.
7. Разработать последовательную и конкретную дипломатическую инициативу, направленную на создание глобального управления ИИ.
По ссылке есть документ на французском языке и краткое изложение на английском. Если есть возможность, я рекомендую читать именно на французском, например, а автопереводом. Там гораздо больше рассказывается, в том числе про открытость данных и значимость для открытой экосистемы.
Ссылки"
[1] https://www.gouvernement.fr/actualite/25-recommandations-pour-lia-en-france
#opendata #ai #france #strategies #reports #readings
К вопросу о том почему я лично пишу про Polars, DuckDb, а теперь ещё и присматриваюсь к chDb, потому что в моей работе есть частые задачи с очисткой и обработкой данных. В принципе, чем бы я в жизни не занимался, читал лекции, делал презентации, программировал и тд., всегда есть задача чистки данных.
Есть много способов чистить данные с помощью кода, есть хороший инструмент OpenRefine [1] известный многим кто с открытыми данными работает. Но, честно скажу, в плане скорости, но не удобства, к примеру, DuckDB бьёт все рекорды. Главный недостаток - отсутствие удобного UI аналогичного OpenRefine или то что в OpenRefine нельзя, к примеру, заменить его движок на DuckDb.
В остальном это реально очень быстро. И работать с локально с многогигабайтными датасетами и в миллионы и десятки миллионов записей - вполне реально. Для сравнения, OpenRefine у меня едва-едва тянет базу в 100 тысяч записей в 680 MB.
Использовать это можно много где. К примеру, датасет от мусорных записей, найти и удалить персональные данные, обогатить дополнительными данными на основе текущий значений столбцов, исправить ошибки в данных и многое другое.
В общем-то на базе DuckDB и, скорее всего, chDb можно построить полноценную дата-студию по приведению данных в порядок перед загрузкой в хранилище. Опять же, если иметь полноценный веб интерфейс поверх.
Такие инструменты хорошо встраиваются как ядро более прикладных дата-продуктов.
Ссылки:
[1] https://openrefine.org
#data #datatools #thoughts #duckdb #openrefine
В нашем каталоге уже доступны выгруженные усилиями нашей команды метаданные об армянских и связанных с Арменией объектах искусства, хранящихся в российских музеях. Данные пока не прошли тонкую обработку, и если вы хотите к ней присоединиться, дайте нам знать и (или) начинайте думать, что интересного можно сделать с этими данными к нашему следующему конкурсу. Подробные сведения о наборах данных на нашем Гитхабе.
Читать полностью…Наконец-то уже можно представить широко, проект Dateno, поисковая система по датасетам, о которой я писал и выступал на днях открытых данных в Ереване и в России, теперь доступна для всех желающих.
Подробнее в анонсе на Product Hunt.
Там, кстати, не хватает Ваших лайков, если каждый у кого там есть аккаунт зайдёт и отметит его, то это очень поможет;)
Сейчас в Dateno 10 миллионов наборов данных из 4.9 тысяч каталогов данных, поддерживается 13 поисковых фасетов/фильтров и вскоре будет открытое API и дополнительно открытый код.
Отдельное спасибо всем бета тестерам за отклики и обратная связь всегда бесценна. Если найдете ошибки, неудобства или идеи - пишите обязательно.
#opendata #datasets #data #datacatalogs #dateno
В Казахстане два госоргана проводят опросы по поводу открытых данных. Это Комитет государственных доходов МФ РК [1] и Акимат Северо-Казахстанской области [2]
Как думаете, что не так с этими опросами?
Не так то что в Казахстане нет портала открытых данных потому что на портале данных РК [3] не только нет свободных лицензий, но и любая выгрузка данных построчная (!). Честно говоря я ни в одной стране мира, ни на одном каталоге данных такого не видел чтобы данные отдавали построчно и не больше 100 строк за раз (!). Может после авторизации там получше, но авторизация только для граждан.
Так что нет в Казахстане портала открытых данных;)
А в опросах главная проблема в сужении раскрытия данных. Должен быть не выбор из, а открытость по умолчанию, open by default. Надо не опросы проводить что раскрыть из списка, а раскрыть всё и опросы проводить в стиле "что более востребовано из того что мы раскрыли", но это и так было бы понятно.
P.S. Вообще чувствуется что не любят в их Министерстве цифрового развития людей, ох не любят. Люто не любят. Потому что предоставлять данные построчным экспортом - это неописуемо. Я бы даже сказал уникально. Это как повесить баннер "не заходить! а если зашли, то валите отсюда!" потому что проще данные в первоисточнике взять.
Ссылки:
[1] https://dialog.egov.kz/surveycontroller/index#/view?id=5020
[2] https://dialog.egov.kz/surveycontroller/index#/view?id=5022
[3] https://data.egov.kz
#opendata #kazakhstan #closeddata #datacatalogs
Цифровой архив госфинансов: Бюджеты Российской империи и СССР в виде книг и открытых данных
К Дню архивиста мы (Инфокультура и Институт Гайдара) запускаем новый проект - Цифровой архив госфинансов и госуправления (finlibrary.ru). Наша главная задача - сохранить и сделать доступными и машиночитаемыми исторические документы о госфинансах. Мы хотим собрать источники о государственном бюджете за 150 лет, агрегировать наиболее полную базу статистических сборников и подготовить открытые данные для разработчиков.
Среди собранных документов можно найти Государственные бюджеты СССР и РСФСР, выпуски журнала “Проблемы экономики” и бюллетени Счетной Палаты РФ, документы департаментов Минфина XIX века, книги по истории Минфина России, бюджеты городов и многое другое. Уже сейчас в нашей базе данных собраны государственные бюджеты за 80 лет, с практически непрерывным покрытием 1866-1945 гг.
При разработке проекта мы делаем акцент на следующих пунктах:
1. Полнота базы данных: мы добавляем все те источники, которые можем найти (не забывая о проверке наличия открытых лицензий). На данный момент мы частично собрали источники из проекта «Исторические документы» Минфина России и проекта «Исторические материалы», а также нашли еще несколько проектов, документы с которых агрегируем в этом году.
2. Открытые данные: мы хотим не только собрать базу документов и добавить к ним текстовый слой, но и разработать на основе них наборы открытых данных.
3. Уникальные документы: года 4 мы скупаем исторические документы с профильных площадок и сканируем их. Также для данного проекта мы отсканировали личный архив исторических книг А.Л. Кудрина (в который вошли, например, 7 томов истории Минфина России). А в 2022 году мы оцифровали архивные отчеты Счетной Палаты.
4. Метаданные: большинство документов, которые мы собрали, практически не систематизированы, поэтому мы ставим для себя задачу обогатить их метаданными и разработать для этого соответствующие классификаторы.
«Почти 25 лет назад Минфин начал сохранять, формировать и популяризировать историю государственных финансов.
Мне приятно осознавать, что эта деятельность активно развивается и сегодня благодаря усилиям нового поколения специалистов в области компьютерной обработки информации.
Желаю исследователям и пользователям проекта «Цифровой архив госфинансов и госуправления» успехов в их непростой, но чрезвычайно интересной работе, требующей универсальных навыков в самых разных сферах – от истории и архивного дела до современных цифровых технологий», - Алексей Кудрин, д.э.н., главный научный сотрудник, член Попечительского совета Института Гайдара.
Иногда самые интересные книги могут быть написаны от руки. Например, исторические бюджеты Санкт-Петербурга. Такие случаи требуют особого внимания и поэтому работы предстоит очень много. Мы заинтересованы в партнерах и волонтёрах. Нам нужна помощь в следующих задачах:
⁃ сбор исторических документов с сторонних сайтов;
⁃ разметка базы данных;
⁃ разработка справочников и классификаторов;
⁃ создание наборов открытых данных;
⁃ предоставление исторических документов на оцифровку.
Будем рады пожеланиям и предложениям. Пишите на почту oparkhimovich@infoculture.ru (Ольге Пархимович) или в телеграм @k0shk. Более подробную информацию о проекте можно найти в анонсе: https://finlibrary.ru/s/finarchive/page/news.
В рубрике закрытых данных в России портал открытых данных ЯНАО (data.yanao.ru)
В веб-архиве отсутствует с мая 2022 года, где-то в 2022-2023 годах был окончательно закрыт.
Последняя архивная копия была нами снята в апреле 2022 года, объём 54Mb
#opendata #closeddata #datasets #data #russia
К вопросу о поиске по данным и Dateno, я вскоре и чаще буду писать про проект на английском, у него значительно более широкая аудитория на самых разных языках. Но кое-что важное для России важно объяснить.
Если отфильтровать в Dateno российские данные то можно найти много геоданных, большая часть из которых будет из одного источника, ГИС Портала ДВС РАН созданного на базе геокаталога Geonetwork. Данные там, если честно, в плохом виде и, возможно, весь источник придётся убрать потому что ссылки внутри него не работают. Но, важно то что в РФ только геопорталы и только некоторые более-менее соответствуют международным стандартам. А вот почти все госпорталы открытых данных не поддерживают, ни API CKAN, ни стандарт DCAT, ни даже стандарт schema.org Dataset. В итоге чтобы проиндексировать эти каталоги надо писать парсеры под каждый. Оправданно ли это учитывая что на большинстве порталов данные не обновляют лет 6 и там редко когда более тысячи датасетов ? Неоправданно. Можно пытаться индексировать реестры данных которые соответствуют методрекомендациям Минэка, но... мягко говоря эти реестры не дотягивают по аттрибутивному составу до того что нужно для индексирования.
Вторая проблема в том что почти все госсайты и проекты госорганов теперь недоступны из-за рубежа. Чтобы проиндексировать российские госкаталоги данных надо иметь IP адрес в РФ. Итог, как Вы понимаете, удручающий.
Тем не менее в Dateno есть наш Hub of data, будет много данных о России из международных каталогов данных и ещё немало всего постепенно собираемого и вносимого.
Но про эти ограничения важно не забывать.
#opendata #russia #dateno #datacatalogs
Открытые данные в Армении
На прошлых выходных мы провели первый Open Data Day в Армении. Он прошел в уютной атмосфере лофта Еревана с выступлениями представителей госорганов, дата-специалистов и журналистов.
Армения находится в начале своего пути работы с открытыми данными, поэтому на Дне открытых данных планами Министерства Высокотехнологичной Промышленности поделился Аршак Левонович Керобян, начальник Управления цифровизации.
Самым интересным, на мой взгляд, является намерение Министерства поддерживать концепцию open by default - открытость по умолчанию. В этой концепции все, что не является закрытым, должно быть доступным и открытым. Россия не придерживается концепции открытости по умолчанию, поэтому существует (устаревший) список наборов данных, которые должны быть открытыми.
Вторым интересным моментом является инвентаризация всех государственных данных и публикация созданного каталога. При этом, была озвучена идея о том, что госорганы не могут пользоваться и ссылаться на те данные, которые не включены в каталог. На мой взгляд, это отличное решение для того, чтобы госорганы своевременно вносили информацию о своих наборах данных (тем самым актуализируя каталог) и не забывали публиковать их в открытом доступе.
Рассказывали также доработке закона О свободе информации и о том, какую бурную дискуссию он вызвал даже среди потенциальных бенефициаров, которые так долго боролись за повышение открытости и прозрачности.
Закон о персональных данных также сейчас разрабатывают. Удивительно, что для регистрации информации о гражданах существует несколько не связанных друг с другом реестров, каждый из которых устаревает через пять минут.
Надеюсь, что все это (ну или хотя бы то, что касается открытых данных) в ближайшее время будет реализовано.
Кстати, некоторое время назад мы запустили общественный портал открытых данных Армении (https://data.opendata.am), загрузив первые 815 наборов данных. Государственный портал армянское правительство тоже анонсировало.
Если Вы ещё не подключились, трансляция онлайн Дня открытых данных в Москве идет вот тут https://www.youtube.com/live/qOEg6lvC1hY?feature=shared
Доклады уже начались
#opendata #events #russia
День открытых данных: 6 марта с 11:00
6 марта с 11:00 в онлайн-формате пройдет ежегодный День открытых данных. В этом году будут представлены выступления об открытых данных в российской науке, об особенностях работы со статистикой внешней торговли, презентация нового проекта Dateno и многое другое.
В 12:45 расскажу о том, что происходит в области открытых госфинансов: повышается ли уровень финансовой открытости, доступ к каким наборам данных мы потеряли, что ожидать в ближайшее время и над какими проектами мы сейчас работаем.
Заспойлерю несколько скриншотов обновленной версии сайта проекта «Госзатраты», расскажу как мы собираем 5 тысяч исторических документов о госфинансах и как мы победили в конкурсе СПб «Твой Бюджет 2.0», по результатам которого Петербургские госорганы опубликуют в открытом доступе 150 тысяч страниц о финансах Петербурга за 100 лет.
Регистрация по ссылке: https://opendataday.ru/msk
Один мой товарищ на вопрос "Как дела?" отвечал "Ну как, в моменте хорошо, но это такой момент, секунда, когда ты летишь между 99 и 98 этажами, пока летишь то хорошо, но летишь то вниз".
Если говорить о том как в России с открытыми данными и общедоступностью информации, то в моменте хорошо и даже если с другими странами сравнивать, в моменте, то тоже будет не так уж плохо. Главное не забывать что это момент полёта между 99 и 98 этажами.
Тем не менее, 6 марта онлайн пройдет День открытых данных в форме мини-конференции с докладами.
Доклады будут на разные темы текущего состояния открытости/закрытости российских данных, проектах на их основе и многом другом.
Не забудьте зарегистрироваться и присоединиться!
#opendata #opendataday #events #russia
В рубрике как это работает у них городская панель управления (city dashboard) города Тайбэя [1].
Распространяется как открытый код [2] под лицензией AGPL, используется городскими властями внутри и для публики доступно общедоступное demo.
А также к продукту есть обширная документация [3].
Городские дашборды в юго-восточной Азии не редкость, например, есть такой у Гонконга как часть портала открытых данных [4], но к нему не припомню открытого кода.
А вот в Ирландии есть целый проект Building City Dashboards [5] с разными дашбордами, научными работами и открытым кодом. Можно сказать что системный подход к вопросу.
Ссылки:
[1] https://citydashboard.taipei/dashboard-demo/dashboard?index=childcare
[2] https://github.com/tpe-doit/Taipei-City-Dashboard
[3] https://tuic.gov.taipei/documentation/front-end/introduction
[4] https://data.gov.hk/en/city-dashboard#city
[5] https://dashboards.maynoothuniversity.ie/
#dataviz #opensource #opendata #opengov #cities #roc