Такое чувство что производители облачных СУБД "почувствовали фишку" / осознали возможность демонстрации своих продуктов через наглядное представление больших датасетов. Я ранее писал про OSS Insight [1] от TiDB Cloud с данными извлечёнными из Github, а теперь и команда ClickHouse анонсировала [2] CryptoHouse [3] как бесплатный открытый сервис для блокчейн аналитики. Просто открываешь веб интерфейс и делаешь SQL запросы. А то что интерфейс не требует даже авторизации - это лишнее подтверждение способности выдерживать большие нагрузки.
Выглядит как довольно продвинутая штука, есть немало баз данных над которыми было бы интересно иметь такой интерфейс, но без заоблачных облачных ценников и с возможностью экспорта результатов. Скорее всего это можно сделать достаточно просто и дешево с помощью ch-ui [4] и подобных инструментов.
Недостатков тоже много, в таком интерфейсе непонятно где увидеть документацию, нет data storitelling'а, есть только чистый SQL и таблицы. Не для всех задач такое подходит, но когда знаешь структуру данных и что ищешь, то вполне.
Ссылки:
[1] https://ossinsight.io/
[2] https://clickhouse.com/blog/announcing-cryptohouse-free-blockchain-analytics
[3] https://crypto.clickhouse.com/
[4] https://github.com/caioricciuti/ch-ui
#opendata #clickhouse #sql #blockchain
Существует множество деклараций открытого доступа и вот ещё одна. Учитывая охват и масштаб Sci-Hub она точно заслуживает внимания.
Читать полностью…Полезная картинка для составления стека работы с данными с помощью open source продуктов [1]. Автор большую часть основных продуктов охватил и много что не охватил как и бывает в таких картинках. Полезное когда уже знаешь большую часть продуктов и интересно находить какие-то незнакомые.
Странно что ещё никто не сделал генератор таких картинок. Оно же поддаётся автоматизации, незадорого причём
Ссылки:
[1] https://www.linkedin.com/posts/ravitjain_data-ai-dataengineering-activity-7226190324291837952-COT0/
#data #datatools
В рубрике интересных инструментов SeekTune [1] реализация алгоритма идентификации музыки, по сути аналогичный Shazam, но с открытым кодом и реализующий технологию audio fingerprinting. Причём, если посмотреть на код, то там всё просто до безобразия, алгоритм фиксирует задержки между пиками звука, но, судя по демо, это как-то работает. Хотя и надо протестировать, конечно.
Что любопытно:
- автор сам никакой исследовательской/научной работы не проводил, но собрал ссылки на научные работы и примеры кода, например на Java [2]
- автор студент из Нигерии
Для студенческого проекта очень неплохо, для тех кто работает над алгоритмами audio fingerprinting может быть полезно.
Ссылки:
[1] https://github.com/cgzirim/seek-tune
[2] https://www.royvanrijn.com/blog/2010/06/creating-shazam-in-java/
#opensource #audio #audiofingerprinting
В качестве примера живых данных чтобы проверит Duckdb, попробовал его на одном из слепков индекса Dateno.
Вот в цифрах и фактах:
- оригинальный формат JSONL, слепок данных без файлов ресурсов/ссылок, только карточки источников и наборов данных
- всего записей в базе 16 133 670
- размер parquet файла после преобразования 1.9GB
- размер базы duckdb 15GB
- простые запросы group by отрабатываются менее чем за 1 секунду
Сложности
- Есть проблемы с запросами которые необходимы для поиска записей в которых данные отсутствуют, например, где не заполнены какие-либо поля которые являются struct'ами. К пример, если мне нужно найти все записи у которых не указаны темы или привязка к стране. В MongoDB такие запросы делают гораздо проще, даже со сложными схемами когда есть вложенные массивы внутри вложенных словарей внутри вложенных массивов.
—
Но, особенность данных в том что за исключением задач дедубликации данных, можно разрезать базу на тысячи parquet файлов или баз duckdb под каждый источник данных. Поэтому метрики качества можно замерять не по единой базе, а по источникам данных и формировать в единую базу обрабатывая каждый источник отдельно и параллельно.
Например, одна из задач в документировании источников данных, привязывании их к стране, темам и к типу владельца данных. Это перевод источников из временных в постоянные. Как определять приоритеты? По числу проиндексированных датасетов, чтобы расширить метаданные хотя бы источников данных с 1000+ наборами данных.
#data #datatools #duckdb #dateno
sq data wrangler [1] или просто sq - утилита для преобразований данных в SQL базах данных. По идеологии это аналог jq, утилиты для обработки JSON файлов. Фактически, автор, явно фанат jq перенес идею на SQL. Лично мне синтаксис jq всегда был из серии перловых регулярных выражений. Недостаточно просто и ясно, но это исключительно моё личное восприятие и есть немало фанатов jq применяющих его по поводу и без.
Поддерживает MySQL, Postgres, SQL Server, SQLite, CSV, JSON и XLSX.
Включают множество самых разных команд для работы с источниками данных и таблицами. Хорошо зайдет для тех кто работает с SQL, но не любит SQL синтакс.
#datatools #datawrangiling #dataengineering #opensource #sql #jq
Почему некоторых особенно крупных порталов с данными нет в Dateno? Например, европейский портал data.europe.eu [1] кажется очень большим. Там более чем 1.8 миллиона датасетов со всех стран входящих в Европейский союз, там есть API через которое их можно выкачать и выглядит как "надо брать", проиндексировать его и сразу индекс сильно расшириться.
Всё так, за несколькими но, и очень существенными.
Проблема прослеживаемости
Data.europe.eu - это агрегатор, причём агрегатор агрегаторов. Потому что во многих европейских странах данные публикуются на городских/районных порталах, собираются на национальных и далее в индексируются в общеевропейский. В результате прослеживаемость до первоисточника и часть метаданных теряются.
Вот наглядный пример. Набор данных Miljöfarliga verksamheter (Экологически опасные виды работ) на портале данных шведского города Malmo [2] попадает на шведский национальный портал dataportal.se [2] и оттуда аггрегируется в общеевропейский [3]. В оригинальном источнике у всех ресурсов указана лицензия cc0-1.0, а в национальном и общеевропейском лицензия не указана. Также как и нет цепочки прослеживаемости до первоисточника.
Проблема полноты
На европейском портале сейчас агрегируются данные с национальных порталов открытых данных и из геокаталогов по программе INSPIRE. Для агрегации используются стандарты DCAT-AP, расширение INSPIRE для геокаталогов, в основном, на базе Geonetwork и стандарт SPARQL и расширение API для CKAN. Городские, региональные, муниципальные, научные и иные каталоги данных не поддерживающие эти стандарты туда не попадают.
В этом есть некое характерное отличие европейского портала открытых данных от, к примеру, порталу открытых данных США где более 80% всех данных - это научные данные и геоданные. В Европейском портале научных данных нет совсем, а геоданные составляют от 60% до 70% всех данных. В Евросоюзе научные данные собираются на портале OpenAIRE и в data.europe.eu не попадают. Практически все источники данных которые в data.europe.eu собираются есть и в Dateno.
Проблема качества
В европейском портале данных только около 150-180 тысяч наборов данных имеют разметку по типу используемой лицензии. Это очень, я бы даже сказал, совсем мало, максимум 10% от общего числа данных, при том что зная природу порталов открытых данных откуда агрегируются данных можно было бы идентифицировать лицензии гораздо эффективнее. Внутри Dateno сейчас идентифицируются 40 лицензий и условий использования по более чем 800 правилам
—
В целом картина складывается так что в каком-то смысле европейский портал можно рассматривать как конкурент для Dateno, а не как источник данных. Единственные значимые там характеристики - это оценка качества метаданных по их методологии и отметки что наборы данных относятся к особо ценным. Но первое можно оценивать самостоятельно, а второе содержится в метаданных первоисточников.
Важная характеристика европейского портала в попытках получить хороший поисковик выставляя высокие требования к первоисточникам которые должны соблюсти определённые стандарты.
В отличие от него в Dateno агрегируется всё что хоть как-то напоминает каталоги данных и чьи метаданные можно стандартизировать под описание схожее с DCAT, как бы оно не было в оригинале.
Ссылки:
[1] https://data.europa.eu
[2] https://ckan-malmo.dataplatform.se/dataset/miljofarliga-verksamheter
[3] https://www.dataportal.se/datasets/290_5852/miljofarliga-verksamheter
[4] https://data.europa.eu/data/datasets/https-ckan-malmo-dataplatform-se-dataset-5249aa0b-6528-43ef-880f-172adac8515b?locale=en
[5] https://github.com/commondataio/cdi-licensemapper
#opendata #data #datasets #dateno #europe
Довольно давно хочу написать гневный пост о том куда катятся современные цифровые продукты и разработка софта в целом, в целом катятся они далеко от пользователя/клиента/потребителя. Причём чем более массовое ПО, тем хуже. Начиная от "распухания" дистрибутивов где совершенно непонятно зачем нужно ставить несколько гигабайт для данного приложения, продолжая непомерным потреблением CPU и оперативной памяти и утечками памяти и постоянной загрузкой CPU у приложений которым просто незачем это делать.
Но важнее всего это всё больший сдвиг почти всех продуктов к подписочной и облачной модели. Всё больше продуктов которые нельзя купить единожды. При том что устроены они так что в постоянном их использовании нет необходимости.
Впрочем всё это потянет на рассуждения не в одном, во многих лонгридах.
А пока же для размышления, ONCE [1] новая-старая бизнес модель которую пропагандируют 37Signals и называют её Post SaaS. Анонсируют подход к распространению их продуктов за фиксированную цену, без подписки, скрытых платежей и тд.
Дословно их принципы звучат так:
- Платите один раз, владейте навсегда.
- Мы пишем код, вы его видите.
- Мы предоставляем вам программное обеспечение, вы размещаете его у себя.
- Просто и понятно, а не корпоративно и раздуто.
- За одну фиксированную цену. Один раз.
Сейчас по такой модели они продают чат Campfile за $299 [2] однократного платежа и раздают бесплатно Writebook [3], ПО для написания онлайн книг.
Что я могу сказать. Если это станет трендом, то многие SaaS стартапы поломаются или переквалифицируются, но точно потеряют сверхдоходы.
Для квалифицированного пользователя, конечно, подходы вроде ONCE или такие как Local-first, гораздо лучше.
Ссылки:
[1] https://once.com/
[2] https://once.com/campfire
[3] https://once.com/writebook
#thoughts #business #software
Полезное чтение про данные технологии и не только:
- DuckDB Spatial: Supercharged Geospatial SQL (GeoPython 2024) [1] не для чтения, а для просмотра. Супер лекция про то как работать с геоданными с помощью DuckDB. Очень хочется применить к следующему геопроекту.
- Europe PMC [2] европейский поисковик по статьям в области наук о жизни. Помимо ссылок на статьи, собирают их тексты, анализируют, выдают в результатах много дополнительной извлечённой информации о финансировании, данных на которые есть ссылки в статьях, цитировании и так далее.
- Why CSV is still king [3] автор нахваливает CSV формат за простоту и переносимость, и утверждает что он ещё долгое время будет популярен. Лично я считаю что он ошибается, скорее поддержка parquet или arrow появится в стандартных инструментах. Например, в сохранении из Excel или Google Spreadsheets или OpenOffice. В командной строке и так далее.
- A.I. May Save Us or May Construct Viruses to Kill Us [4] уже не столько про технологии сколько про видение будущего. ИИ может как спасать от пандемии, так и конструировать новые вирусы.
- BENEFICIAL OWNERSHIP TRANSPARENCY ACT, 2023 [5] 31 июля 2024 года, несколько дней назад вступил в силу закон об обязательном раскрытии конечных бенефициаров компаний на Каймановых островах. Видимо стоит вскоре ожидать что эти данные будут открыты и новых расследований?
- Inside Crowdstrike's Deployment Process [6] о том как был устроен процесс деплоймента обновлений у Crowdstrike. Очень поучительно и познавательно, особенно узнать о том что это было не обновление кода, а обновление конфигурации ПО и поэтому не проходило правильный и отработанный процесс тестирования. В общем, в компании забыли что configuration = code.
Ссылки:
[1] https://www.youtube.com/watch?v=hoyQnP8CiXE
[2] https://europepmc.org/
[3] https://konbert.com/blog/why-csv-is-still-king
[4] https://www.nytimes.com/2024/07/27/opinion/ai-advances-risks.html
[5] https://legislation.gov.ky/cms/images/LEGISLATION/PRINCIPAL/2023/2023-0013/BeneficialOwnershipTransparencyAct2023_Act%2013%20of%202023.pdf
[6] https://overmind.tech/blog/inside-crowdstrikes-deployment-process
#opendata #opensource #ai #tech #readings
Спасибо Константину Рядову, телеграм канал Знай и умей ИТ, у него вышел подкаст с моим участием и разговором про дата инженерию и дата анализ. Я к подкасту много не готовился, поэтому у меня там лёгкое естественное косноязычие, но надеюсь слушателям будет полезно.
#podcasts #data #dataengineering
Я совсем пропустил публикацию обновлённого China Open Data Index [1] в январе 2024 года, а там интересные цифры в виде 345 853 наборов данных доступных на региональных государственных порталах открытых данных Китая.
А также всего с 2017 года появилось 226 городских порталов открытых данных (60% от всех городов) и 22 региональных портала из 27 провинций.
Точный объём данных на городских порталах неизвестен, но весьма велик почти наверняка.
Много ли это? Да много. Например, в США на портале data.gov опубликовано порядка 300+ тысяч наборов данных из которых от 60 до 80% - это открытые научные данные
А в Китае очень много научных данных доступно через scidb.cn и findata.cn.
Ссылки:
[1] http://ifopendata.fudan.edu.cn
#opendata #china #data
Наконец то я дописал лонгрид про официальную статистику как дата продукт, частично пересекаясь с ранее написанным текстом про то как хорошо публиковать статистику. Вот тут текст https://begtin.substack.com/p/694
Пока писал не покидало ощущение что это же всё очевидно как-то, но... очевидно-неочевидно, а далеко не везде встречается.
#statistics #opendata #data
В рубрике как это устроено у них TERN Data Discovery Portal [1] в Австралии, портал открытых исследовательских данных созданный в рамках проекта Terrestrial Ecosystem Research Network на базе Университета Квинсленда и поддерживаемый в рамках National Collaborative Research Infrastructure Strategy.
На портале не так много данных как на других государственных порталах данных страны, всего 2724 набора данных, но важное его отличие - это проработка профиля метаданных, высокое качество описания всех датасетов и их доступность в специальных научных форматах. Так на портале присутствует 13 фильтров для фасетного поиска, фасетный поиск вообще хорошо годится для поиска по данным и тут он неплох. А также все датасеты публикуются по спецификации Research Object Crate (RO-Crate) [2], похожей на стандарт Frictionless Data, но используемый для научных данных.
Ссылки:
[1] https://portal.tern.org.au
[2] https://www.researchobject.org/ro-crate/
#opendata #data #earthsciences #datacatalogs #australia #tern #geodata
В рубрике больших каталогов геоданных - портал ArcGIS и поиск на нём [1] на онлайн сервисе компании Esri .
Ещё до появления хаба открытых данных Esri [2] который используют многочисленные муниципалитеты для публикации геоданных и данных, у Esri был и остаётся сервис поиска по георесурсам которые создавали пользовали их облачной платформы и далее делали их общедоступными.
Эти ресурсы включают: слои карт, карты, сцены, приложения, файлы и дата истории. По большей части, конечно, слои карт и файлы.
Точные объёмы измерить сложно, но вряд ли это меньше чем сотни тысяч гео ресурсов.
Главный минус - ограниченные метаданные ассоциированные с этими ресурсами.
Главный плюс - возможность найти геоданные по странам где собственные геоданные почти не существуют онлайн.
Ссылки:
[1] https://www.arcgis.com/home/search.html
[2] https://hub.arcgis.com
#opendata #arcgis #datasets #geodata #maps
В рубрике как это устроено у них публикация данных Международным валютным фондом (IMF). IMF - это значимое финансовое агентство при ООН , отвечающее как за международную финансовую помощь, так и за сбор данных о международных финансах. Значительная часть данных публикуется на основном сайте IMF (www.imf.org) [1], но, также, агентство использует несколько систем раскрытия данных.
- IMF Data [2] основной портал данных IMF с десятками датасетов для массовой выгрузки, сотнями показателей и возможностью доступа к данным индикаторов через SDMX API [3]. В основном все данные связанные с макропоказателями стран.
- Dissemination Standards Bulletin Board (DSBB) [4] портал для сбора и публикации данных в соответствии с разработанными стандартами Расширенной общей системы распространения данных. Эти данные собираются с официальных сайтов стран, как правило страниц на сайте ЦБ, опубликованных по определенным требованиям.
- Portwatch. Monitoring Trade Disruptions from Space [5] совместный проект IMF и Оксфордского университета по мониторингу портов с помощью спутников для идентификации и предупреждения событий которые могут помешать международной торговле. Предоставляет ленту событий, результаты мониторинга и другие данные. Все данные можно скачать, внутри сайта платформа ArcGIS Hub позволяющая массовую выгрузку данных
- Climate Change Indicators Dashboard [6] портал с индикаторами изменений климата по странам. Также на платформе ArcGIS Hub, и также все данные доступны для выгрузки.
Общие наблюдения по изменению в подходе к публикации данных IMF те что и для большей части структур ООН:
- переход к публикации открытых данных по умолчанию
- доступность данных одновременно для массовой выгрузки (bulk), API и в виде веб интерфейсов визуализации
- параллельное использование порталов раскрытия разработанных на заказ и типовых продуктов, в данном случае ArcGIS Hub
Ссылки:
[1] https://www.imf.org
[2] https://data.imf.org
[3] https://datahelp.imf.org/knowledgebase/articles/630877-api
[4] https://dsbb.imf.org/
[5] https://portwatch.imf.org/
[6] https://climatedata.imf.org/
#opendata #datasets #dataportals #statistics #finances #economics
В постах от 18 и 20 апреля с.г. я сообщал, что Александра Элбакян, создатель популярного в мировом научном сообществе сайта Sci-Hub (который помог многим коллегам получить доступ к научным статьям, даже если их организация не подписана на соответствующий журнал), защитила диссертацию на соискание ученой степени кандидата философских наук в Институте философии РАН. Я также писал о том, что я прочитал диссертацию Александры, которая посвящена проблемам философских оснований открытого знания, и что она мне весьма понравилась.
Сегодня я получил от коллег сообщение, что А.Элбакян вернулась к практической деятельности по продвижению идей открытого доступа к научному знанию. Насколько можно понять, она хотела бы сделать проект Sci-Hub полностью легальным. Для этого нужно, чтобы научное сообщество выступило в поддержку свободных научных библиотек.
Александра предлагает на рассмотрение научного сообщества следующую Декларацию об открытом доступе к научному знанию:
https://disk.yandex.ru/i/Y1ok2R2t-N25VQ
Прочитав этот документ, я считаю, что он содержит важные положения, однако детали того, что предлагается, требуют дополнительной проработки. Возможно, было бы правильно организовать обсуждение этой декларации в научном сообществе. Публикуя данный пост, я хотел бы привлечь внимание к декларации и призвать к обсуждению ее основных положений.
Наконец-то инициатива отделяющая Open Source от бизнес моделей с ограничениями, но то же с раскрытием кода. Называется Fair Source [1] или, по-русски, Программное обеспечение с честным исходным кодом (FSS).
Его основные принципы:
1. Общедоступно для чтения;
2. Допускает использование, модификацию и распространение с минимальными ограничениями для защиты бизнес-модели производителя; 3. Проходит процедуру отложенной публикации с открытым исходным кодом (DOSP).
У них есть две лицензии [2]
- Fair Core License (FCL)
- Business Source License (BUSL or BSL)
С обещаниями раскрытия исходного кода через 2 и 4 года соответственно.
Хорошая новость - этому явлению теперь есть более точное название чем часть Open Source
Плохая новость - пока не придумал;)
Что думаете про инициативу?
Ссылки:
[1] https://fair.io
[2] https://fair.io/licenses/
#opensource #fairsource #code #licenses
В рубрике интересных больших данных World Ocean Database [1] публикуемая Национальным управлением океанических и атмосферных исследований США.
База включает данные по множество наблюдений за океанами и морями, начиная с путешествия капитана Кука в 1772 году и до наших дней.
Из необычного, данные опубликованы не в виде стандартизированного каталога данных, а с возможностью выгрузки по годам или по географической территории по класссификации WMO. Вот, к примеру, данные по северной части Красного моря [2].
Из интересного, примеры работы с данными этой базы приведены на... трам парам... Фортране и, немного, на C [3]
Ссылки:
[1] https://www.ncei.noaa.gov/products/world-ocean-database
[2] https://www.ncei.noaa.gov/access/world-ocean-database/bin/getgeodata.pl?Depth=S&WorldOcean.x=41&WorldOcean.y=219
[3] https://www.nodc.noaa.gov/OC5/WOD/wod_programs.html
#opendata #ocean #seas #researchdata
Свежий любопытный инструмент Chartbrew [1], частичная замена Superset и ряду других BI инструментам. Одновременно существует как open source и как сервис.
Из плюсов:
- MIT лицензия
- поддержка MongoDB сразу и из коробки
- выглядит достаточно быстрым, судя по их живому демо
Минусы:
- никаких корпоративных СУБД, скорее акцент на онлайн сервисы
- есть сомнения в высокой настраиваемости, то что более продвинутые BI умеют хорошо
- непонятно что с локализацией, нет примеров
—
В итоге и судя по позиционированию выглядит как low-code BI для веб студий для их клиентов, там даже предусмотрена возможность создания аккаунтов клиентов.
Выглядит не очень продвинуто пока, но свою нишу может найти.
Ссылки:
[1] https://github.com/chartbrew/chartbrew
[2] https://app.chartbrew.com/live-demo
#opensource #bi #datatools
Commit to Data свежий проект ООН, а вернее UN Data Forum [1] состоит из добровольно взятых обязательств со стороны структур ООН, академических организаций, НКО и других по улучшению измерения целей устойчивого развития.
Казалось бы, зачем тут нужен жанр публичных обещаний? В основном для привлечения партнёров организациям которые уже запланировали определённые шаги.
Не могу сказать что в этой области нащупывается какой-то системный прорыв, сбор данных о SDG ограничен бедностью развивающихся стран тем не менее будет интересно если там будут обязательства и со стороны big tech, они бы выглядели тут весьма логично из-за значительной их цифровой инфраструктуры охватывающей весь мир.
Ссылки:
[1] https://commit-2-data.com
#opendata #sdg #data #un
Составляю внутренний список стран по которым очень мало данных, нет каталогов данных, геопорталов, недоступна или минимально доступна статистика и тд.
Лидеры списка кажутся вполне очевидными: Северная Корея, Туркменистан, Йемен, Венесуэла, Зимбабве, Ирак, Иран, но есть и более удивительные случаи.
Например, Кувейт. Нет портала открытых данных, несколько геосерверов на ArcGIS и всё. Открытые данные как открытые данные скорее экзотика. Научных открытых данных практически нет несмотря на наличие значимых университетов. В целом это противоречит тренду того что богатые арабские страны активно "прокачивают" открытость своих данных.
Похожая картина в Египте. Есть несколько геокаталогов данных, есть портал микроданных и совсем нет открытых данных.
И, наконец, Пакистан, где есть большой портал открытых данных провинции Khyber Pakhtunkhwa и нет ничего на национальном уровне или в других провинциях. В этом смысле Пакистан страна удивительная, населения много, данных мало.
И такое ещё много где. В статистике Dateno это сейчас частично отражается в каталоге каталогов данных [1], частично потому что не все каталоги данных проиндексированы и цифры датасетов по стране складываются из датасетов из каталогов данных внутри страны и международной статистики Банка международных расчётов, Мирового банка и других.
Однако по закрытым странам всегда немало данных которые удаётся собирать из международных источников, их много, очень много. Большая их часть уже собирается в Dateno. Тут важнее скорее правильно уметь их идентифицировать, определять по ключевым словам и другим признакам что данные относятся к определённым территориям.
Ссылки:
[1] https://dateno.io/registry/countries
#opendata #data #datacatalogs
Свежий национальный портал открытых данных на сей раз Боснии и Герцеговины [1], его полуоткрыли с мае 2024 года, но явно не доделали судя по текстам-заглушкам на сайте и разместили всего 12 наборов данных.
Делают его на CKAN и, в целом, как-то без энтузиазма 😜
В Боснии и Герцеговине открытых данных не так уж много, из известных мне порталов - это Otvoreni podaci Grada Prijedor [2] и несколько геокаталогов и геопорталов с геоданными.
В целом всё довольно скромно выглядит, но даже у небольшой Боснии с населением в 3.5 миллиона жителей портал открытых данных есть, а у многие крупных стран нет.
Ссылки:
[1] http://podaci.gov.ba/en/
[2] https://opendataprijedor.ba/
#opendata #bosnaihercegovina #europe #ckan #datasets
В рубрике закрытых данных в РФ Мосбиржа приостановила публикацию статистики по валютному рынку [1] на неопределённый срок. Эти данные более не публикуются в регулярных ежемесячных пресс-релизах биржи.
Ссылки:
[1] https://quote.rbc.ru/news/article/66acf1439a79476d6256d6c6
#closeddata #opendata #russia #finances
Свежая бесплатная полезная книга
Visualization for Public Involvement [1] про визуализацию инфраструктурных проектов для упрощения принятия решений, в том числе с вовлечением граждан. Вся книга построена вокруг транспортных проектов и примеров их визуализации департаментами транспорта в штатах США. Она в меньшей степени про работу с данными как с данными и в большей степени про визуализацию для нетехнических специалистов, но сложным образом, с 3D моделированием и тд. и про то как это позволяет вовлекать их в принятие решений.
Ссылки:
[1] https://nap.nationalacademies.org/catalog/27882/visualization-for-public-involvement
#dataviz #transport
Я тут регулярно ругаюсь на то как стремительно закрываются данные внутри РФ и в этом канале даже специальный хэштег есть #closeddata посвящённый случаям закрытия данных. Ни в коей мере не отказываясь от того что этот тренд развивается, для разнообразия, есть и другое мнение.
Есть проект Open Data Inventory [1] по наблюдению доступности и оценке этой доступности статистических данных ведёт его НКО Open Data Watch
основанная профессиональными исследователями и статистиками и в их понимании открытые данные - это статистика (что конечно не совсем так, но допустим).
Раз в два года они проводят оценку доступности данных по странам по критериям покрытия (coverage) и открытости (openness) официально публикуемых индикаторов.
И вот по их оценке открытость статистики РФ между 2020 и 2022 годом выросла аж на 3 балла, с 59 до 62, а позиция в общем рейтинге с 59й на 57ю.
Вы спросите как такое возможно? В основном из-за критериев оценки по доступности индикаторов, в данном случае появлении данных по уровню иммунизации и индикаторах результатам обучения, таким как SDG 4.1.1 [2] которые Росстат раскрывал в 2021 году.
Здесь, безусловно, надо оговорить то что открытость в восприятии макроэкономической статистики и о внутренних процессах - это два разных явления. Скрупулёзный анализ требует гораздо более качественных данных, с большей частотность, и большей гранулярностью чем макроэкономические годовые индикаторы охватывающие всю страну и с годовой задержкой.
Почти наверняка оценки в ODIN за 2024 год будут отличаться, не могу предсказать как, но то что будут сомнений нет. Новые оценки появятся не раньше чем к августу 2025 года.
Пока же можно посравнивать доступность статистики по разным странам за 2022 год.
Ссылки:
[1] https://odin.opendatawatch.com/
[2] https://eng.rosstat.gov.ru/4.1.1
#opendata #closeddata #statistics #openness
Свежий полезный ресурс про открытые данные о том как открытые данные пересекаются с генеративным ИИ, Observatory of Examples of How Open Data and Generative AI Intersect [1]
Много примеров применения ИИ в разных сферах, обученных на общедоступных и открытых данных. Например, меня заинтересовали исследования по применению ИИ в работе с судебными данными и текстами законов. Таких проектов 5 штук только в этой базе, а реально даже больше.
Большая тема, давно нехватает хорошего ассистента который бы вместо юриста мог бы дать простое и понятное объяснение той или иной нормы закона. Задача это, возможно, простая в некоторых кейса и сложная в
большинстве случаев. Например, обсуждается законопроект и хочется иметь чёткое структурированное описание его последствий.
По другим темам тоже немало примеров. Есть на что сослаться и о чём почитать.
Ссылки:
[1] https://repository.opendatapolicylab.org/genai
#opendata #generativeai #genai #ai
Кстати, если вы ещё не видели, мы обновили главную страницу Dateno [1] и выглядит всё лучше и лучше, а заодно можно сразу увидеть того сколько датасетов есть по разным макрорегионам.
Можно увидеть насколько много данных по развитым регионам и насколько их мало, к примеру, по Африке.
Правда у этих цифр есть объективная причина.Она в том что да, в развитых странах гораздо больше данных из-за лучшей цифровизации, культуры открытости, культуры работы с данными и тд. Данных очень много и всё больше гиперлокальных, муниципальных данных
Поэтому данных по Африке так мало, даже когда мы продолжим георазметку датасетов, всё равно их будет сильно меньше чем где-то ещё и большая часть этих данных будет создана в США и Европейских странах.
А вот то что мало данных по Азии, у этого есть объективные причины необходимости индексирования данных по Китаю, где свой уникальный софт, свои каталоги данных и тд. Если даже только основные репозитории проиндексировать там будет несколько миллионов наборов данных, но все на китайском языке😂
Ссылки:
[1] https://dateno.io
#opendata #dateno #datasets #datasearch #search
В рубрике как это устроено у них Национальная служба сельскохозяйственной статистики США (NASS) [1] собирает и раскрывает данные по сельскохозяйственным территориям, урожаю, демографии, экономике и иным предметам статистического наблюдения по всей территории США с детализацией до отдельных графств, аналог муниципалитетов.
Все данные доступны, как классическим образом, в форме таблиц и построителя запросов, так и с возможностью получить базу статистики сразу и целиком в виде нескольких файлов общим объёмом в 3GB в сжатом виде, актуализируемых ежесуточно.
А также доступ организован через API системы Quick Stats где нужные данные можно получить быстро и в формате JSON. [3]
Дополнительно эти данные распространяются в виде геопространственных данных через несколько картографических сервисов [4]
Ссылки:
[1] https://www.nass.usda.gov
[2] https://www.nass.usda.gov/datasets/
[3] https://quickstats.nass.usda.gov/api
[4] https://croplandcros.scinet.usda.gov/
#opendata #usa #statistics #agriculture #datasets
Хороший пример дата журналистики / аналитики, заметка CrowdStrike's Impact on Aviation [1]. Автор проанализировал данный показаний датчиков ADS-B для отслеживания самолётов и замерил реальные последствия падения антивируса CrowdStrike для авиации.
Итоги впечатляющие, анализ полезный для всех тех кто вломит CrowdStrike иски. Хочется надеятся что их разорят каким-нибудь особо болезненным способом чтобы такого больше никогда не повторилось (кровожадно).
Там же в статье ещё несколько инсайтов по тому как работают авиакомпании в США, речь тут о них в первую очередь.
Ссылки:
[1] https://heavymeta.org/2024/07/28/crowdstrikes-impact-on-aviation.html
#aviation #data #datajournalism #opendata #adsb #datanalysis
Пополнение в каталоге каталогов данных Dateno, +40 репозиториев научных данных на базе Weko3 [1], все они относятся к Японии и в совокупности содержат около 50 тысяч наборов данных. Не очень много по глобальным меркам, но хорошо индексируется и имеет стандартизированное API. Прежде чем данные таких каталогов индексируются в Dateno, они описываются и размещаются в реестре, идентифицируются их точки подключения к API и тд.
Ссылки:
[1] https://dateno.io/registry/country/JP
#opendata #dateno #datacatalogs