Graphic Walker [1] ещё один симпатичный инструмент для анализа и визуализации данных позиционируемый как альтернатива Tableau.
На его основе работает GWalkR [2] инструмент для Exploratory Data Analysis (EDA) на языке R что хорошо встраивается в R Notebook и иные встроенные способы визуализации.
Ссылки:
[1] https://github.com/Kanaries/graphic-walker
[2] https://github.com/Kanaries/GWalkR
#opensource #dataviz #dataanalysis
Написал большой текст про особенности российской официальной статистики
Российская статистика: немашиночитаемая институциональная фрагментация
в этот раз там не столько про машиночитаемость, и даже не столько про цифровизацию Росстата, сколько про его территориальные подразделения и про гигантское дробление данных и публикаций которые они создают.
Я не стал этого добавлять в большой текст, добавлю здесь. В среднем на сайте терр. органа Росстата опубликовано от 500 до 2000 документов, примерно такое же число публикаций выпущенных ими на бумаге. Если все эти документы собрать вместе то был бы каталог от 50 до 200 тысяч статистических публикаций и это было бы даже каталогом данных, наполовину,уж точно.
Но этого никогда не будет до тех пор пока подразделения Росстата торгуют данными.
#opendata #data #statistics #russia
В качестве регулярных напоминаний о том что чем занимаюсь я лично и команды Инфокультуры, Dateno и Open Data Armenia.
Международное
- Dateno - глобальная поисковая система по данным, охватывает все страны мира и 19 миллионов датасетов. Большой-маленький международный стартап помогающий находить данные по всем возможным темам. А также с открытым кодом ряда компонентов в репозиториях commondataio и dateno и реестр каталогов данных Dateno registry
- Data Catalog Armenia - общественный каталог открытых данных по Армении, пока нет государственного единственный такой каталог данных в стране. Включая открытые репозитория кода сбора данных opendataam
Проекты в России/связанные с Россией
- Хаб открытых данных - общественный портал открытых данных со множеством датасетов. Из-за наплыва спамеров пришлось закрыть в нем свободную регистрацию, но всем желающим публиковать данные всегда можем дать такую возможность.
- Госзатраты - проект по сбору и публикации всех данных о государственных и муниципальных контрактах в РФ. Включая открытое API и открытые данные. Большие данные, за более чем 10 лет.
- Ruarxive - национальный цифровой архив России, архивы всех потенциально исчезающих сайтов госорганов, организаций, НКО и отдельных проектов. Постоянно не хватает ресурсов чтобы охватить всё что хочется, потому что исчезает всё постоянно.
- OpenNGO - база по всем некоммерческим организациям в России. По всем - это всем, не только социально ориентированным. Там есть и госНКО, и университеты и тд. Включает открытые данные и открытое API.
- Datacatalogs.ru - портал каталога каталогов данных который мы делали до Dateno и до реестра каталогов данных Dateno. Только российские ресурсы и стран постсоветского пространства, включает не только "чистые" каталоги данных, но и порталы открытого бюджета, к примеру, как то что каталогами данных не является, но могло бы быть.
- Plain Russian - сервис проверки русского языка на простоту. Скорее всего скоро будет неактуальным из-за развития LLM, тем не менее, он существует, работает, полезен.
P.S. А также есть многие проекты которые ещё в работе, или подвисли, или требуют актуализации, или представленные только в виде документов или открытого кода, о них в следующий раз
#opendata #data
В продолжение текста о том как искать данные в принципе, поговорим о том где искать геоданные. С геоданными, всё, и лучше, и хуже, но важнее то что всё по другому. Иногда очень по другому.
Первое что важно знать это то что геоданные не индексируются Google Dataset Search и большей частью поисковиков которые я ранее не упоминал. Очень часто геоданные находятся, в принципе, за пределами обычного поиска и искать их необходимо в специальных каталогах и специальных сервисах.
Конечно, в первую очередь я порекомендую Dateno ;) где проиндексировано более чем 5.5 миллионов геоданных-ресурсов из геопорталов, практически по всем странам.
Но есть и другие источники:
- Geoseer - единственный известный мне поисковик по геоданным. Чем-то похож на Dateno, а Dateno на него. Охватывает 3.5 миллиона точек с гео API, в основном WMS, WFS, WCS и WMTS.
- ArcGIS Hub - портал открытых данных на базе платформы ArcGIS, охватывает все экземпляры порталов с открытыми данными на базе облачного сервиса ArcGIS
- ArcGIS Search - поисковик от ArcGIS по всем общедоступным ресурсам на их геосерверах. Шире чем поиск ArcGIS Hub, охватывает не только цифровые слои, но и другие геоартефакты
- Spatial Data Catalog - каталог данных от Carto, более 11 тысяч наборов данных удобных для интеграции с их платформой. Примерно 2/3 данных доступны только за деньги, считаются premium data
- Spatineo Directory - не каталог данных, но каталог источников геоданных, геосерверов. Можно найти нужны сервер и искать уже в нём.
А также стоит обратить внимание на порталы США: geoplatform.gov, sciencebase.gov и Европы data.europe.eu, где тоже много геоданных
Источников геоданных куда больше, это только основные ресурсы. А есть ещё базы спутниковых снимков, интерфейсы доступа к ним через стандарт STAC и многое другое. Об этом я регулярно пишу и ещё напишу здесь.
#opendata #geodata #datacatalogs
Свежее регулирование выдачи сертификатов российского НУЦ [1] предполагающее выдачу сертификатов национального удостоверяющего центра веб сайтам/сервисам и это к вопросу о том когда сайты российских госорганов и госучреждений начнут выпадать из поисковиков Google, Bing, а также более не архивироваться в Интернет Архиве.
Из интернет архива многие госсайты уже повыпадали [2] [3] [4] и многие другие могут исчезнуть в будущем.
Я бы сказал что уже давно переходить к архивации всех сайтов российских госорганов, но задача эта не только трудоёмкая, но и финансово затратная - на оборудование и на хранение, пока мы своими силами в рамках Национального цифрового архива [5] не решили. Нехватает времени/ресурсов даже нормальный каталог заархивированного сделать.
Но острота проблемы с недоступностью и потенциальной потерей контента не снимается.
Ссылки:
[1] /channel/ep_uc/2981
[2] https://web.archive.org/web/20240000000000*/https://minjust.gov.ru
[3] https://web.archive.org/web/20240000000000*/https://rkomi.ru
[4] https://web.archive.org/web/20240000000000*/https://www.mnr.gov.ru
[5] https://ruarxive.org
#digitalpreservation #webarchival #russia
В рубрике закрытых данных в РФ с 2023 года перестал работать домен rosrid.ru на котором были доступны научные работы из ЕГИСУ НИОКТР (Единая государственная информационная система учета. научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения) и вместо него теперь работает сайт gisnauka.ru [1].
Ещё до обновлений 2022-2023 года в рамках ЕГИСУ НИОКТР публиковались дампы данных/метаданных научных работ. Последнюю выгрузку их в нашу дата платформу Datacrafter мы делали в 2021 году [2].
Примерно в 2022-2023 году систему ЕГИСУ НИОКТР обновляли и вместо данных дампов теперь там стали называть открытыми данными статистику. С внедрением Домена наука ничего не изменилось, сами данные недоступны и даже полнотекстовых публикаций там также не находится, хотя и в поиске есть опция их поиска.
Ссылки:
[1] https://gisnauka.ru
[2] https://datacrafter.ru/packages/rosridnew
#opendata #closeddata #russia #openaccess
Мне вот тоже хочется поисследовать что там у нас уже набралось в Dateno, а то всё репощу исследования других, что тоже интересно, конечно.
Я, для поиска чаще всего использую datenocmd, утилитку для запросов с командной строки и, например, недавно искал что у нас с индексацией данных по криптовалютам.
Хорошая новость - датасеты в индексе есть. Не такая хорошая новость - почти это все неактуальные, исторические датасеты опубликованные исследователями в разное время популярности и непопулярности крипты.
Что удивительно, нет ни одной базы индикаторов по крипте. Коммерческих сервисов много, а ни одного центрального банка и ни одного статистического ведомства мне неизвестно которые бы эту инфу публиковали.
Даже в у Банка международных расчётов или ЕЦБ или Евростата этой информации нет, даже в экспериментальной статистике. В общем-то реально серая зона, совершенно за пределами официального статучёта.
Но мы скоро начнём добавлять эти данные в Dateno, все что найдём;)
#opendata #datasets #crypto
К вопросу, во многом философскому, но с практическим умыслом, о том что считать данными, а что нет приведу пример в временными рядами. Не для всех, но для многих пользователей данные имеют географическую привязку и работая даже с большой данных стат наблюдений интересуют конкретные страны/страна и временной ряд получаемый из этой большой базы также имеет привязку к одной или двум странам. Но есть и задачи когда надо работать с базой целиком.
На некоторых порталах открытых данных, таких как портал данных ЕЦБ или Банка международных расчётов есть понятие набора данных, их мало и они велики, и есть понятие как раз временного ряда у каждого из которых есть пермалинк. Потребители есть у обоих типов данных. В Dateno эти данные уже частично агрегируются, около 30% карточек в Dateno - это агрегированные временные ряды и это оправдано поскольку пользователи, напомню, ищут чаще в привязке к территории. Но это выходит что отдельный тип данных, который может быть, а может не быть отдельным датасетом. Потому что ещё бывает так что временные ряды публикуют как-то ещё, а не в базе статистики. Что с этим делать для большей понятности? По хорошему разделять наборы данных и временные ряды, дать возможность фильтровать в поиске только их.
Аналогичным образом с геоданными/слоями карт. Слои карт - это чаще всего не файлы, а ссылки на точки подключения к API - ArcGIS или OGC. Их можно рассматривать как наборы данных, и иногда и часто так рассматривают, но, по хорошему, это некоторое отдельное явление, которое так и надо называть "Map layer".
Таких видов данных есть ещё некоторое количество, я же добавлю ещё что кроме них есть и более сложные случаи. Например, фиды новостей RSS и ATOM. Они данные или нет? ATOM фидов довольно много, только на европейском портале данных их более 141 тысячи, поскольку они являются одним из способов экспорта и доступа к геоданным на платформах на базе Geonetwork и ряда других.
ATOM Feed'ы также используются в каталогах данных на базе Thredds для доступа к метеорологическим данным.
Но, также их условно бесконечное число разбросано по интернету, как для доступа к новостям на сайтах, так и ко многим другим типам контента.
Можно ли выделять ATOM/RSS как отдельную категорию API и рассматривать их как данные и индексировать, например, нам в Dateno?
Ответ на этот вопрос содержится в контрвопросах - А зачем? А кому это нужно?
Один из важнейших критериев отнесения цифровых объектов/артефактов в к данным - это их востребованность целевой аудиторией тех кто с данными работает: дата инженеров, дата сайентистов, дата аналитиков, геоаналитиков, статистиков, экономистов, бизнес аналитиков и так далее.
И таких примеров очень много и всё больше возникает в процесс обнаружения новых, потенциально интересных источников данных.
P.S. Мне давно уже пора завести рубрику #whatisdata, пожалуй, буду помечать будущие размышления на эту тему именно ей
#whatisdata #thoughts #dateno #data
В рубрике как это работает у них портал данных на базе Arab Region Data and Policy Support Hub (RCP) [1] создан при агентстве ООН The UN Regional Collaboration Platform (RCP) for Arab States.
Его можно отнести к одному из порталов данных ООН которых всего несколько десятков, часть из них базы индикаторов, часть каталоги данных, часть системы раскрытия информации в рамках инициатив прозрачности.
Этот портал - гибридный портал индикаторов и открытых данных. В его каталоге [2] 132 тысячи наборов данных большая часть из которых - это индикаторы из других проектов и сайтов ООН, таких как портал данных Всемирного банка и Портал статслужбы ООН.
Почти все данные - это статистика и в этом смысл проект напоминает другой похожий о котором я ранее писал, это DBNomics. Правда DBNomics несколько побольше, там 92 источника данных, 30 тысяч наборов данных и 1.4 миллиарда временных рядов.
В портале данных RCP такого числа временных рядов нет из-за отсутствия дробления/разрезания датасетов по территориям.
А также у портала есть документированное и недокументированное API, раздел с геоданными и статистические дашборды.
Ссылки:
[1] https://data.as-rcp.org/
#opendata #arabstates #data #datacatalogs #statistics
Знаете ли Вы что... DBPedia - это не только цельная база данных, но и большой каталог наборов данных созданных на её основе. Все они собраны на портале databus.dbpedia.org [1], например, в виде коллекции дата файлов извлеченных из последней итерации обработчика Википедии.
Хотя лично у меня до сих пор немало сомнений насколько концепции Semantic Web И Linked Data приживутся за пределами научного мира, но что точно способствует их популяризации так это доступность больших наборов данных. А в DBPedia Databus определённо данных много. Это немалый, хотя и малоизвестный каталог открытых данных.
Ссылки:
[1] https://databus.dbpedia.org
[2] https://databus.dbpedia.org/dbpedia/collections/latest-core
#opendata #datasets #datadiscovery
Про метрики качества данных и дата продуктов.
Я ранее писал про метрики качества в Dateno и что количество проиндексированных датасетов является важной метрикой, но далеко не единственной. Кроме него важно ещё то какие именно датасеты и их представленность - это метрика разнообразия данных, ещё важна метрика разнообразия источников данных, а то есть чтобы вся база не состояла только из научных данных или только из статистики. Ещё есть метрики глубины охвата, качества метаданных, частоты обновления и тд.
И, наконец, важная лично для меня метрика - это метрика географического охвата. Одна из изначальных идей была в том что Dateno Должно охватывать вообще все страны и территории мира. А то есть данные должны быть не только по крупнейшим развитым странам (это особенность научных каталогов данных), но и по малым развивающимся странам.
И вот, ура-ура, в последнем обновлении Dateno эта цель была окончательно достигнута. В Dateno сейчас есть датасеты привязанные ко всем странам и зависимым территориям в мире, по крайней мере при проверке по реестру стран Всемирного банка.
Как это получилось? Главное - это глобальные базы статистики международных организаций. Даже если у страны нет веб-сайта и доступа в Интернет, статистические службы взаимодействуют с ООН и статистика о них накапливается в глобальных базах индикаторов. Дальше вопрос только сбора этих данных и привязывания к странам.
Второй фактор - это то что у многих развивающихся стран нет порталов открытых данных, но есть геосервера и геопорталы которые и проиндексированы в Dateno.
Геоданных в развивающихся странах тоже мало, но больше чем открытых данных.
Итого по каждой стране есть, как минимум, данные индикаторов. Эти данные настолько хороши и полны, насколько они полны в данных первоисточников. Поэтому теперь метрика полноты данных в Dateno для меня звучит как географическое разнообразие данных не являющихся индикаторами.
И по этому критерию у нас нет датасетов по 38 странам, все они наименее развитые, или островные или иные микрогосударства. По многим из них есть каталоги данных в реестре, но пока они не проиндексированы поскольку, или нестандартны, или блокируют внешний доступ или с ними что-то ещё не так.
При этом список можно сократить и охватить почти все страны привязать к ним датасеты из других глобальных каталогов вроде Humanitarian Data Exchange или датасетов наук о земле, которые привязаны де-факто не к юрисдикации, а к инструментам/командам наблюдения и публикации научной работы.
#opendata #dateno #data #datasets
[EN] Armenian Points of interests (POI) data from Foursquare OS Places [1] is a new dataset in the Open Data Armenia data catalogue. This data is extracted from the huge OS Places dataset previously published by Foursquare [2].
The dataset contains just under 16 thousand locations across the country, most of the place names are in English, Russian and Armenian. The most places are marked in Yerevan, but not only.
Data in Parquet format is a special format for data popular in Data Science, it is most convenient to work with it using such tools as DuckDB, Pandas and Polars.
If someone needs this data in other formats, please write, we will add it.
[RU] Armenian Points of interests (POI) data from Foursquare OS Places [1] новый набор данных в каталоге данных Open Data Armenia. Эти данные извлечены из огромного датасета OS Places ранее опубликованного Foursquare [2].
Датасет содержит чуть менее 16 тысяч точек по стране, большая часть названий мест на английском, русском и армянском языках. Более всего мест отмечено в Ереване, но не только.
Данные в формате Parquet, это специальный формат для данных популярный в Data Science, с ним удобнее всего работать с помощью таких инструментов как DuckDB, Pandas и Polars.
Если кому-то понадобятся эти данные в других форматах, напишите, добавим.
Ссылки:
[1] https://data.opendata.am/dataset/am-os-places
[2] /channel/opendataam/131
#opendata #datasets #geodata #armenia #foursquare
В рубрике как это устроено у них статистический портал Канады [1] фактически превращённый в портал открытых данных. В общей сложности более 12 тысяч наборов данных из которых 11.5 тысяч - это табличные данные индикаторов с возможностью их выгрузки в форматах CSV и SDMX, а также через открытое API [2].
Характерная особенность что их аналитические тексты - это де факто data stories в форме лонгридов к которым всегда приложены таблицы с данными в их же системе [3].
То есть даже те кто приходит почитать текст имеют возможность сразу открыть таблицу и изучить данные.
Внутри всё работает на SDMX движке и есть возможность работать с API основанном на SDMX для подключения к данным. [4]
В принципе, это иллюстрация одного из трендов развития статистических продуктов в сторону профессиональных стандартов работы с данными, в данном случае SDMX.
Ссылки:
[1] https://www150.statcan.gc.ca/n1/en/type/data?MM=1
[2] https://www.statcan.gc.ca/en/developers?HPA=1
[3] https://www150.statcan.gc.ca/n1/daily-quotidien/241003/dq241003a-eng.htm
[4] https://www150.statcan.gc.ca/t1/wds/sdmx/statcan/rest/data/DF_17100005/1.1.1
#statistics #canada #opendata #sdmx #api #data
Ещё пример того как это работает у них Репозиторий открытых данных Национального банка РК [1], явно совсем недавно открытый.
Из плюсов:
- это не два-три показателя, а несколько десятков. Есть надежда что и дальше их прибавится
- данные машиночитаемы, отдаются в CSV и JSON форматах
- есть API [2] с возможностью получить данные, также в JSON
- много региональных данных, по областям Республики Казахстан
А в качестве дружелюбного фидбека добавлю:
1. Было бы хорошо указать условия распространения данных, например лицензию CC-BY или аналог, главное чтобы условия были.
2. Сейчас сайт интерактивен, у конкретного раздела или показателя нет постоянных ссылок. Это может выглядеть смазливо при показе начальству, но для пользователей скорее неудобно.
3. В продолжение про постоянные ссылки, при их наличии можно добавлять экспорт и описание метаданных в Schema.org Dataset. Тогда их сможет проиндексировать Google Dataset Search, а если сделать экспорт в DCAT, то и Dateno, впрочем Dateno скоро сможет и по Schema.org индексировать тоже.
4. Стоит сразу добавить экспорт данных в формате Parquet, это несложно, и современно и вообще хорошо.
5. Сейчас по каждому показателю данные экспортируются динамично. Это неэффективно и лишняя нагрузка на сервер. Есть смысл не только автоматически генерировать статичные датасеты, но и давать возможность получать их пермалинками, тогда данные можно легко грузить в базу данных по прямой ссылке на CSV или JSON файл
В остальном это большой прогресс для РК.
Ссылки:
[1] https://data.nationalbank.kz
[2] https://data.nationalbank.kz/api-docs
#opendata #kazakhstan #datasets #datacatalogs
Полезный свежий документ в форме отчёта по результатам мероприятия Commons Clause [1] от Open Knowledge Foundation про текущую повестку открытости технологий, кода, данных и тд. Оно примерно то же о чём я регулярно пишу, жаль мало примеров, но в части проблематики всё точно изложено.
В целом это всё, конечно, цифровой социализм в чистом виде с повесткой anti-bigtech, но многое изложено весьма правильно.
Приведу оттуда выдержку со страницей про ИИ, а вообще могу порекомендовать прочесть документ целиком.
Главное же опасение которое я давно слышу это AI eats Commons, ИИ пожирает общественное благо. Потому что ключевые бенефициары ИИ моделей приобретают от них столь много что это резко демотивирует создателей общественного блага (Commons).
Ссылки:
[1] https://blog.okfn.org/2024/11/18/report-open-movements-commons-causes/
#opendata #data #openmovement #ai
Оказывается вышел пре-релиз версии 6.0 библиотеки Plotly для визуализации данных [1] самое интересное там это то что они перешли на библиотеку Narwhals [2] которая позволяет работать с условно любой библиотекой для датафреймов и сохранять совместимость с pandas. Например, это такие библиотеки как: cuDF, Modin, pandas, Polars, PyArrow
Собственно и автор Plotly пишет про то что для не-pandas датафреймов всё ускоряется в 2-3 раза [3].
По всем параметрам хорошая штука, надо использовать на практике.
Ссылки:
[1] https://github.com/plotly/plotly.py/releases/tag/v6.0.0rc0
[2] https://github.com/narwhals-dev/narwhals
[3] https://www.linkedin.com/posts/marcogorelli_plotly-60-%F0%9D%90%A9%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%A5%F0%9D%90%9E%F0%9D%90%9A%F0%9D%90%AC%F0%9D%90%9E-is-out-activity-7267885615096991744-2ORl?utm_source=share&utm_medium=member_desktop
#opensource #dataviz #dataframes
В Буэнос-Айресе в Аргентине судьи начали применять ИИ для подготовки судебных решений [1]. Специальная система PROMETEA обучена на на более чем 300 тысячах правилах и документах и за 20 секунд принимает решения с 90% точностью. При этом ни одно решение не принимается автоматически, каждое является черновиком который вычитывается юристом и только после его одобрения становится финальным решением.
Особенность в том что система применяется не для всех, а для многочисленные налоговых и административных разбирательств, которые, в основном, довольно стандартизируемы или предсказуемы. ИИ система является помощником судей, а не их заменителем.
И это поднимает вопрос о том к чему может привести и, с высокой вероятностью, приведет при внедрении ИИ в судебный процесс. Это массовые сокращения вспомогательного персонала в судах и изменение самого принципа работы судов. Хорошо это или плохо? Пока говорить рано.
А подробнее про систему PROMETEA можно прочитать в официальном отчете [2].
Ссылки:
[1] https://restofworld.org/2024/buenos-aires-courts-adopt-chatgpt-draft-rulings/
[2] https://mpfciudad.gob.ar//storage/archivos/9c8074a610f82c7ff0b47bbb1a2abee9.pdf
#ai #courts #argentina #privacy
🇺🇸 Microsoft утверждает, что не использует документы Office для обучения ИИ-моделей
🔸Microsoft заявила, что не использует данные пользователей из приложений Microsoft 365 для обучения своих моделей искусственного интеллекта (ИИ). Заявление сделано в ответ на появившиеся в последние недели сообщения о том, что компания якобы требует от пользователей Word и Excel отказаться от использования их данных для обучения ИИ.
🔸Вопрос возник из-за настроек конфиденциальности в Microsoft Office, в которых включена опция «дополнительные подключаемые функции». Эта функция позволяет, например, «искать изображения в Интернете» или «находить доступную в сети информацию». По умолчанию эта опция включена, но в описании не упоминается, что она используется для обучения ИИ. Кроме того, документ Microsoft от 21 октября 2024 года усилил путаницу, перечисляя «подключаемые функции», которые «анализируют ваш контент», без явного исключения обучения на базе больших языковых моделей (LLM).
В рубрике интересных поисковиков по данным на которые, возможно, и нам в Dateno надо присмотреться на предмет лучших идей Discovery Portal [1] в рамках NIAID Data Ecosystem.
NIAID - это национальный институт аллергии и инфекционных болезней в США. А Discovery portal - это часть их инфраструктуры создания и научного обмена данными о заболеваниях и связанных с ними объектах исследования (геномы, биологические исследования и тд.)
Читаю в Российской газете про идею создания научного дата-хаба [1] и думаю как это прокомментировать.
Начну с того что для его создания регулирования не нужно, необходимо лишь чтобы ключевые органы власти и ряд учреждений сдали бы туда данные и чтобы ими можно было пользоваться. Это вопрос не регулирования, а как принято говорить "политической воли" или, если угодно, "государственного насилия" в отношении государственных же структур не участвующих в обмене данными.
И поэтому, разговоры про регулирование стоит воспринимать как опасный звоночек потому что не имея возможность потребовать от госорганов и госкорпораций данные, пр-во начнет регулировать бизнес сдавать данные в этот дата хаб. Вот тут регулирование нужно в полный рост, но это уже плохая форма государственного принуждения, выгодная только ограниченному числу ИИ компаний и ряду госорганов.
Ссылки:
[1] https://rg.ru/2024/11/25/rossijskij-ii-obuchat-na-otechestvennyh-dannyh.html
#opendata #data #ai #regulation #russia
Довольно неожиданный шаг со стороны испанского регулятора.
Вышел Проект Королевского указа, регулирующего выдачу расширенных коллективных лицензий на массовое использование работ и услуг, защищенных правами интеллектуальной собственности, для разработки моделей искусственного интеллекта общего назначения.[1]
Фактически разработчикам ИИ хотят дать право использовать интеллектуальную собственность через коллективные лицензии. Очень интересно как это будет развиваться, выйдет ли/уже выходит ли на наднациональные рамки Евросоюза и
как сами правообладатели к этому отнесутся.
Ссылки:
[1] https://www.cultura.gob.es/en/servicios-al-ciudadano/informacion-publica/audiencia-informacion-publica/abiertos/2024/concesion-licencias-colectivas.html
#regulation #ai #spain
Обещала описать опыт поиска данных об образовании через Dateno. Dateno (https://dateno.io) – развивающийся специализированный реестр наборов открытых данных, который регулярно пополняется новыми датасетами, дает широкие возможности для поиска, и в принципе довольно бодрый проект, разрабатываемый Иваном Бегтиным, экспертом в области открытых данных (@begtin).
С нашими дорогими educational data ("прости! не знаю, как перевести") есть сразу несколько нюансов:
1. Путаница данных об образовании и образовательных данных. Это не смертельно, если мы сразу задаемся вопросами о том, что же содержится в имеющихся датасетах.
2. Мало количество данных/датасетов при их большой содержательной фрагментарности (по чуть-чуть, но о многом, но по чуть-чуть)
3. Агрегирование и отсутствие доступа к гранулированным данным: все мы знаем, что 10 штук как среднее число компьютеров на школы региона, дает нам содержательно примерно ничего.
Есть и практическое соображение, диктуемое перспективами и тенденциями опубличивания данных в/об образовании в условиях распространения подходов открытой науки: нужны инструменты, позволяющие малой кровью отслеживать изменения в этой области и подтверждать/опровергать тренды. Пока данные в образовании редко становятся объектом управления, источником принятия решений, а имеющиеся наработки из других областей проникают со скрипом. Данные в образовании чувствительные, именно это часто мешает популяризации работы с ними. Ну, и есть некоторый карго-культ (не везде и не всегда).
### Что такое Dateno и как начать работу?
Dateno (https://dateno.io) уже содержит информацию о 19 миллионах датасетов и предоставляет понятный API для работы с ними.
1️⃣ Зарегистрируйтесь на платформе.
2️⃣ Получите токен для работы с API.
3️⃣ Используйте API (браузер, OpenRefine, старые добрые скрипты на Python/R).
### Мой эксперимент: поиск данных с ключевым словом "educational data"_*
Я залогинилась, быстро нашла свой токен, а потом запросила данные о датасетах, содержащих "educational data" в заголовке. Я рисковала, потому что датасеты из других областей тоже могут быть с такими словами, имея под собой просто учебные данные для отработки методов анализа.
Вот что удалось найти:
- Количество датасетов: 61.
- В основном, данные являются академическими/исследовательскими, то есть, датасеты распространяются как обязательства исследователей по опубличиванию результатов.
- К вопросу о том, насколько тщательно надо подходить к формулировке поискового запроса: многое из выдачи имеет мало отношения к образованию, например, мне прилетел датасет об эмигрантах в Хельсинки.
- Страны: большинство наборов данных (27) — из Восточной Азии (оно и понятно, основные датасеты из Японии), 9 — глобальные, 8 - Северная Америка.
- Форматы: .сsv (8), .json — 6, но есть и экзотика в лице .arff (текстовый формат ASCII, никогда с ним не сталкивалась).
### Потенциал Dateno для образовательных исследований
Dateno оказался полезным инструментом. Однако при работе с образовательными датасетами важно учитывать перечисленные выше нюансы. Интересно посмотреть, как представлены статистические наблюдения об образовании, и как можно прекратить пользоваться хранилищем Института статистики ЮНЕСКО. Пока не разобралась, можно ли ставить фильтр на количество записей/единиц анализа в датасете, вот это было полезно.
Гипотеза о потенциале Dateno для анализа данных вокруг образования, подтвердилась. Это хороший инструмент для того, понять, как датафицирована та или иная сфера исследований образования.
К вопросу о том как и где искать данные, в качестве регулярного напоминания:
Поисковые системы по данным
- Dateno - поисковая система по всем видам наборов данных, геоданных и научных данных, агрегирует их из более чем 5 тысяч каталогов данных, включает 19 миллионов карточек датасетов
- Google Dataset Search - исследовательская поисковая система по датасетам от Google. Охватывает все датасеты в мире опубликованные по стандарту Schema.org Dataset, включает около 50 миллионов карточек датасетов
Поисковые системы по научным данным
- DataCite Commons - поисковик по всем датасетам которым присвоен DOI через сервис DataCite. Более 22 миллионов карточек наборов данных. Используется многими другими поисковыми системами и агрегаторами наборов данных. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- OpenAIRE - поисковая система ЕС по результатам научной деятельности включая датасеты. Около 19 миллионов карточек датасетов. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- BASE (Bielefeld Academic Search Engine) - поисковая система по научным публикациям от Bielefeld University. Включает 25 миллионов карточек датасетов из которых 22 миллиона агргеггируются из DataCite. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- Mendeley Data - поисковик по научным данным от Elsevier, декларирует 26 миллионов карточек датасетов, в реальности многие из низ - это фрагменты единых баз данных или документы в университетских библиотеках. За их исключением реальное число наборов данных ближе к 5 миллионам. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
Платформы и крупнейшие порталы научных данных
- Figshare - одна из крупнейших онлайн платформ для публикации научных данных. Содержит всего 2 миллиона наборов данных включая сами данные. Более половины этих наборов данных происходят из публикаций в рамках Public Library of Science (PLOS).
- OSF - открытая платформа для публикации научных данных. Точное число датасетов измерить сложно поскольку открытой статистики, или нет, или до неё сложно добраться, но можно исходить из того что это как минимум сотни тысяч наборов данных
- DataOne - каталог и агрегатор данных наук о земле. Более 777 тысяч наборов данных, включая все ресурсы/файлы к ним приложенные
Поисковики по геоданным
- GeoSeer - чуть ли не единственный специализированный поисковик по геоданным. Обещают что охватывают 3.5 миллионов точек подключения к гео API таким как WMS, WFS, WMTS и др.
P.S. Существует также большое число крупных порталов данных и агрегаторов в других областях: машинное обучение, статистика, геоданные. О них в следующий раз
#opendata #data #datasearch #datasets #geodata #openaccess
Полезное чтение про данные, технологии и не только:
- The Death of Search [1] полезная статья о том как ИИ убивает поиск и что мы потеряем в процессе. Я бы переименовал её в The Death of Google потому что главная поисковая монополия пострадает более других. Но ещё не время пессимистичных прогнозов
- The Emergent Landscape of Data Commons: A Brief Survey and Comparison of Existing Initiatives [2] статья о инициативах публикации данных как общественного блага. Тема актуальная и про частные инициативы, и про государственные и про технологические НКО. Довольно близко к инициативам по общественной цифровой инфраструктуре (Digital Public Infrastructure, DPI)
- Congress should designate an entity to oversee data security, GAO says [3] в США Счетная палата (GAO) рекомендовала Конгрессу выбрать федеральное агентство и дать ему полномочия по защите данных. Сейчас такого агентства нет и это создаёт дополнительные риски, о чём GAO и пишут в своём докладе [4]
- OECD Digital Economy Outlook 2024 (Volume 2) [5] свежий доклад ОЭСР по цифровой экономике. Про данные мало, про многое другое много. Явные акценты на особенностях медиапотребления и на цифровой безопасности.
- How to evaluate statistical claims [6] хороший лонгрид о том как читать статистику
Ссылки:
[1] https://archive.is/ZSzAP
[2] https://medium.com/data-stewards-network/the-emergent-landscape-of-data-commons-a-brief-survey-and-comparison-of-existing-initiatives-abab7bbc4fe1
[3] https://fedscoop.com/congress-data-security-civil-rights-liberties-gao-report/
[4] https://www.gao.gov/assets/gao-25-106057.pdf
[5] https://www.oecd.org/en/publications/oecd-digital-economy-outlook-2024-volume-2_3adf705b-en.html
[6] https://seantrott.substack.com/p/how-to-evaluate-statistical-claims
#data #ai #privacy #statistics #readings
Для тех кто хочет поработать с данными из OS Places по России, на Хаб открытых данных выложен датасет в формате parquet на 3 096 012 точек [1] и общим объёмом 309 мегабайт.
Ожидаемо, у тех точек где есть привязка к региону, более всего точек у Москвы и Санкт-Петербурга. А вообще датасет можно использовать и для проверки алгоритмов повышения качества данных потому что у более чем половины точек, к примеру, нет указания региона, города и адреса, только координаты.
Датасет большой, идей по его применению может быть очень много
Ссылки:
[1] https://hubofdata.ru/dataset/ru-os-places
#opendata #russia #geodata #datasets
В рубрике как это устроено у них проекты по созданию пространств данных в Испании (Dataspaces) [1]. На них выделено 500 миллионов евро из них крупнейшая статья расходов это Kit Espacios de Datos, инициатива по вовлечению бизнеса в экономику данных с компенсацией им в виде безвозвратных субсидий того что они будут:
- использовать принятые стандарты и разрабатывать онтологии;
- подключать свои информационные системы в пространства данных (data spaces)
- публиковать данные в открытом доступе;
Это всё про перевод данных из частного блага в общественное и про денежную мотивацию бизнеса к обмену данными и вовлечению в экономику данных.
Ссылки:
[1] https://datos.gob.es/es/noticia/plan-de-impulso-de-los-espacios-de-datos-sectoriales
#opendata #datasets #spain #dataspaces #datamarket
Foursquare вот буквально только что выложили огромный набор данных в 100 миллионов точек интереса (POI) [1] [2], скачать его можно через Amazon S3 хранилище [3] в виде множества parquet файлов.
Данные охватывают 247 стран и территорий [4], например, по Армении 7425 точек (очень мало!), по Польше 3,553,098 (❗️), по России меньше чем по Польше, всего 3,125,954. А более всего, ожидаемо, по США - 22 миллиона точек. Это на апрель 2023 года и по всей базе Places, а конкретно этот набор надо изучить, что там внутри.
Всё оформлено как полноценный дата продукт, с документацией, примерами SQL запросов, API, ответами на вопросы. Необычна лицензия, Apache 2.0, она в целом для кода, а не для данных.
Ссылки:
[1] https://location.foursquare.com/resources/blog/products/foursquare-open-source-places-a-new-foundational-dataset-for-the-geospatial-community/
[2] https://opensource.foursquare.com/os-places/
[3] https://docs.foursquare.com/data-products/docs/access-fsq-os-places
[4] https://docs.foursquare.com/data-products/docs/supported-countries
#opendata #datasets #foursquare #geodata #spatial #poi
Вдогонку к порталу данных Нацбанка Казахстана, сделаю краткий обзор состояния открытых данных в Республике Казахстан.
Во первых, конечно, начать стоит с профиля страны [1] у нас в реестре Dateno там сейчас 38 каталогов данных и вскоре пополнится большим их числом.
Что можно сказать про Казахстан?
1. Много порталов геоданных, причём многие на каких-то собственных разработках, но есть и на открытом коде. В частности проект Национальная инфраструктура пространственных данных Республики Казахстан [2] работает на GeoNode и содержит 183 набора данных. На самом деле материалов там должно быть куда больше, ранее там всё было общедоступно, но теперь требуется авторизация с электронной подписью. Ещё ряд геопорталов доступны в виде серверов ArcGIS и Geoserver
2. Портал открытых данных РК [3], к сожалению, не открытых. Раньше для любой операции требовалась авторизация, а сейчас просто ограничивают выгрузку по 100 записей (!) из набора данных. Пожалуй худшая из практик в РК по публикации данных
3. Water resources data portal [4] портал данных водных ресурсов который делают в стартапе Ozen-M. Данных там немного, но датасеты хорошо организованы и все опубликованы на Github.
4. Статистическая система ТАЛДАУ [5] статслужбы РК, что удобно - наличие API и есть экспорт данных. Правда только в Excel. Выглядит работоспособно, хотя и довольно консервативно.
5. Почти нет открытых научных данных. У университетов есть развёрнутые репозитории публикаций, но датасеты среди них упоминаются только в репозитории научных результатов Университета Назарбаева и только единожды [6]. В целом такая же картина во многих постсоветских странах, не только в РК
6. Оказывается была/есть небольшая активность и группа Open Data Kazakhstan [7] на Github, но не очень масштабная и небольшими всплесками.
7. То что я знаю так то что в рамках Smart Data Ukimet в Казахстане экспериментируют сейчас с развертыванием австралийского проекта Magda [8], но пока это из пушки по воробьям, потому что Magda тяжёлый продукт и оправдывает себя на десятках тысяч наборов данных. Публичного анонса этого я не видел, поэтому прямой ссылки не даю
—
Какое-то время назад мы с коллегами думали про создание портала/порталов данных по странам Центральной Азии, но в итоге с запуском Dateno сфокусировались на индексации всех данных туда и сейчас в Dateno более 34 тысяч наборов данных классифицированных как относящихся к Казахстану [9]. Все они относятся к открытым индикаторам из международных баз данных и к геоданным. По мере того как мы улучшим инструменты геоклассификации, из других источников добавится ещё 5-6 тысяч наборов данных.
Данных о территории РК, также, много в тех глобальных каталогах научных данных о Земле которые мы ещё пока не проиндексировали.
Ссылки:
[1] https://dateno.io/registry/country/KZ/
[2] https://map.gov.kz
[3] https://data.egov.kz
[4] https://data.qiot.kz/en
[5] https://taldau.stat.gov.kz
[6] https://research.nu.edu.kz/en/publications/?type=%2Fdk%2Fatira%2Fpure%2Fresearchoutput%2Fresearchoutputtypes%2Fnontextual%2Fdatabase&nofollow=true
[7] https://github.com/open-data-kazakhstan/
[8] https://magda.io
[9] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Kazakhstan
#opendata #data #kazakhstan #datasets #dateno
В рубрике как это устроено у них я уже несколько раз писал про проект DBNomics [1] от французского think tank'а Cepremap и поддерживаемый пр-вом Франции.
Это огромный каталог, в основном, макроэкономических показателей из 92 источников, и в виде 35 тысяч датасетов и 1.4 миллиона временных рядов.
Реально огромная база индикаторов из всех ключевых источников. Чем-то похоже на то что у нас в Dateno, с той лишь разницей что в Dateno индикаторы - это лишь часть индексируемых данных и индексируются индикаторы вообще все, а не только экономические, но число источников пока и больше и меньше. Больше потому что сбор из стандартизированных источников, а меньше потому что основные данные не в них а в крупных больших базах индикаторов для которых надо писать отдельные парсеры.
Тем не менее, в нашей трактовке то что в DBNomics называется временным рядом, у нас скорее это датасет. Возможно даже, нам надо добавить отдельную типизацию данных по типам для большей точности.
Глядя на DBNomics всегда возникает вопрос, надо ли его индексировать или рассматривать только как источник информации о каталогах данных? Потому что он не первоисточник и по мере индексации первичных источников будет много дублей. А с другой стороны, данные в нём представлены куда более удобно и с ними легче работать.
До конца года хочется подключить к Dateno ещё хотя бы 5-6 миллионов наборов данных, что не так сложно, как хочется максимальной пользы от этого.
А у DBNomics также, есть открытый код, кстати, хорошее API и вообще это скорее дата продукт полноценный чем просто статистический портал.
Ссылки:
[1] https://db.nomics.world
#opendata #statistics #indicators #france #dateno
С конца ноября НКО OpenOwnership закрывают [1] свой проект Open Ownership Register [2] где была собрана база из 30 миллионов записей о конечных владельцах компаний.
Лично я так до конца и не понял почему они это делают, но в анонсе события указывается на сложности поддержания технической инфраструктуры и на фокусе на доступности данных, а не продукта основанного на данных.
Подозреваю что основной причиной было то что больших успехов достигнуть не удалось и кроме реестра бенефициаров Великобритании, всё остальное очень скромное по актуальности и по объёму.
Я когда-то списывался с ними по поводу данных по Армении, которые заявлялись как очень хорошие, а по факту там была информация всего по 8 компаниям и не то чтобы хорошо подготовленная.
В любом случае, хотя сайт у реестра уже плохо работает, раздел с выгрузкой данных всё ещё доступен [3] и обещают что он останется.
Текущая база - это 3.7ГБ файл JSON lines сжатый GZIP.
Для тех кто изучает подобные данные на практике будет очень полезно.
Ссылки:
[1] https://www.openownership.org/en/news/evolving-from-the-open-ownership-register-to-increase-our-impact/
[2] https://register.openownership.org
[3] https://register.openownership.org/download
#opendata #uk #transparency #datasets #data