Я периодически читаю и слышу вопросы на тему где найти данные о xxx по стране yyy? В сообществах по открытым данным это самый частый вопрос, второй по частоте это где найти бесплатные данные о xxx ? Это когда автор вопроса данные уже нашёл, но платить не готов или не готов платить то за сколько данные продают самые очевидные продавцы.
Так вот про то где искать данные я уже неоднократно писал, например в рассылке в публикации Где искать данные?[1] и с тех пор список рекомендаций регулярно пополняется.
И вот ещё несколько таких пополнений:
- Geolode [2] открытый каталог открытых геоданных. Включает как ссылки на порталы геоданных, так и ссылки на конкретные большие базы георесурсов. Из плюсов - весь каталог машиночитаемый и все записи помечены темами и кодами местонахождения. Из минусов - многие записи устарели и описания имеющихся очень короткие. Тем не менее полезный инструмент когда Вы ищите геоданные привязанные к конкретной территории, можно найти очень неочевидные источники
- DataShades [3] каталог инсталляций портала открытых данных CKAN. CKAN не единственный, но самый популярный движок для открытых данных и в его инсталляциях в нужных странах можно найти довольно много интересного.
- Open Data Inception [4] большой каталог каталогов данных от OpenDataSoft. Они там, конечно, врут про 2600+ каталогов данных, там очень многие ссылки - это ссылки на законы, госполитику, отдельные датасеты и тд. Так что верить им нельзя, но есть и вполне полезные ссылки.
Эти ресурсы не являются поисковиками по данным, а скорее являются метакаталогами источников данных. Полезными при ручном поиске нужных данных в привязке к конкретным странам.
Ссылки:
[1] https://begtin.substack.com/p/datasearch
[2] https://geolode.org
[3] https://datashades.info
[4] https://opendatainception.io
[5] https://github.com/commondataio/dataportals-registry
#opendata #datadiscovery
В рубрике как это устроено у них общественный портал открытых данных Шотландии Open Data Scotland [1] создан сообществом активистов в Шотландии в рамках проекта OD_BODS и включает описание 1887 наборов данных собранных из пары десятков источников данных. Особенность Шотландии в том что региональные власти до сих пор не создали портал открытых данных при том что их много на муниципальном уровне, у отдельных органов власти и у местных университетов. Активисты решили сделать такой портал самостоятельно и, что интересно, не поленились написать сборщики данных (харвестеры) для почти всех порталов данных и собирают данные автоматически.
Из интересного, на портале реализован довольно полезный раздел аналитики [2].
Весь проект с открытым кодом и открытыми метаданными [3], работает на статическом генераторе порталов данных JKAN.
Всё это о том что не надо ждать милости от природы когда власти вашей страны/региона/города решат создать портал открытых данных, его всегда можно создать самостоятельно. По крайней мере в тех странах где есть хоть какие-то данные.
Ссылки:
[1] https://opendata.scot
[2] https://opendata.scot/analytics/
[3] https://github.com/OpenDataScotland
#opendata #datasets #uk #scotland
В рубрике полезного чтения про данные, технологии и не только:
- Zero ELT could be the death of the Modern Data Stack [1] о том как вендоры крупнейших SaaS платформ могут в короткий срок убить всю экосистему Modern Data Stack реализовав достаточно простые инструмент для загрузки данных. Zero ETL - это, по сути, "убиение" ETL, например, в этот подход склоняются Amazon и Snowflake. Вообще процесс можно описать таким образом. Вначале появляется потребность в работе с данными в облачных сервисах, в первую очередь эта потребность у тех кто и так держит данные в облаках и многочисленными провайдерами разных сервисов, вроде платежных, и вынужден объединять данные. Потом появляются нишевые стартапы хорошо решающие конкретные задачи автоматизации работы с данными (всё как по учебнику), такие как Fivetran, Dbt, Hightouch и другие. Они оказываются основой Modern data stack, объединяющего понятия хорошо интегрированных сервисов работы с данными и, наконец, оказывается что клиентам управление сложностью возникшей конфигурации может быть более затратно, чем более простые инструменты, но интегрированные в платформу базового провайдера. Поэтому Zero ETL действительно имеет хорошие перспективы.
- We need to talk about Excel [2] автор и критикует и хвалит Excel и приводит в пример несколько стартапов которые не то чтобы его заменяют, но дают некоторые близкие возможности, при этом самому Excel как продукту до сих пор замены нет. Размышления вполне структурированы и аргументированы. Я лично когда думал про Excel понял что для меня всегда главной нелюбовью к нему был язык VBA. При том что когда-то, много лет назад, я на нём даже мог писать сложные макросы и отлаживать непростой код, тем не менее он до сих пор ощущается как крайне неудобный. Будь в MS Excel нативная поддержка, например, Python. Может быть когда-нибудь Microsoft поглотит PyXLL [3] и такая поддержка появится.
- Polars – Laziness and SQL Context. [4] автор пишет о том что Polars это не только более производительный инструмент для аналитики чем Pandas, но и обладает несколькими полезными функциями такими как ленивая загрузка файлов позволяющая обрабатывать файлы размером больше чем объём памяти и SQL контекст с помощью которого можно делать SQL запросы, например, к таким лениво загруженным файлам. Возможности полезные когда работаешь с данными относительно большого объёма.
Ссылки:
[1] hugolu87/zero-elt-could-be-the-death-of-the-modern-data-stack-cfdd56c9246d" rel="nofollow">https://medium.com/@hugolu87/zero-elt-could-be-the-death-of-the-modern-data-stack-cfdd56c9246d
[2] https://davidsj.substack.com/p/we-need-to-talk-about-excel
[3] https://www.pyxll.com
[4] https://www.confessionsofadataguy.com/polars-laziness-and-sql-context/
#data #datatools #readings #etl
Amnesty International опубликовали в начале мая доклад Automated Aparteid [1] о том как в Восточном Иерусалиме и Хевроне они провели исследование и обнаружили огромное число камер и подтверждение слежки с их помощью. В докладе довольно много всего про масштаб цифрового наблюдения и отдельный акцент на почти полной непрозрачности всей этой деятельности. Доклад довольно резкий в отношении Израиля с другими акцентами чем привычные публикации про злоупотребление мониторингом камерами. Обычно все говорят о праве граждан на ограничение государства и корпораций в слежке за жителями и опрозрачивание работы систем слежки для граждан/налогоплательщиков, а здесь особая ситуация спорных территорий и слежки за гражданами другого государства. В мире таких прецедентов не так много, не так часто границы стран являются не только спорными, но и густо населены.
И, конечно, вот этот изучаемый случай как раз на грани контрастности мнений, что же важнее права человека в любом случае и в любой ситуации или безопасность.
Ссылки:
[1] https://www.amnesty.org.uk/files/2023-05/Automated%20Apartheid.pdf
#surveillance #izrael #privacy
В 2019 году кто-то структурировал и визуализировал Библию, а мы ее случайно нашли в книжных магазинах Еревана. Уровень проработанности поражает. Вот бы и Закон о бюджете в таком же виде представляли (Бюджеты для граждан не предлагать, им пока до этого уровня далеко. Всем кроме Москвы)
Читать полностью…В рубрике неочевидных источников информации и наборов данных о порталах данных о которых многие могут не подозревать.
Я ранее рассказывал что компания Esri сейчас обеспечивает работу сотен порталов открытых данных и геоданных через их продукт ArcGIS Hub [1]. В принципе же Esri вот уже много помимо корпоративных версий ArcGIS продают свои облачные сервисы и многие пользуются, как их платными так и бесплатными продуктами. Не все знают что карты, слои карт, документы большинства публичных пользователей доступны в их поисковой системе на hub.arcgis.com [2]. Причём там часто есть ссылки на слои и карты которые не найти на сайтах их создателей.
Например, у Тверского госуниверситета есть образовательный геопортал портал [3] и геоинформационная платформа [4] где кроме карт непосредственно области [5] можно ещё и воспользоваться API ArcGIS и выгрузить данные слоёв ассоциированных с этими картами [6]. Там же есть карты Оренбургского госуниверситета [7]. Многие другие данные и карты публикуются международными организациями, например Freshwater Water Monitoring Stations and Treaties-Russian Federation [8] публикуемые WESR UNEP и многое другое.
Россия в данном случае как пример, аналогично можно найти данные по постсоветским странам, странам Африки и тд. у которых так просто не найти их национальные порталы открытых данных. Сложно лишь найти данные по странам вроде Армении поскольку кроме страны есть ещё и одноимённый муниципалитет в Колумбии [9] по которому много геоданных, которые всплывают в поиске [10].
Часть данных из сервисов ArcGIS можно скачивать сразу, часть доступны через их API, но важнее то что это один из источников данных о странах где чиновники могут даже не знать о существовании этих данных.
Ссылки:
[1] /channel/begtin/4804
[2] https://hub.arcgis.com
[3] https://geoportal-gymnasiumtsu.hub.arcgis.com/
[4] https://gymnasiumtsu.maps.arcgis.com
[5] https://gymnasiumtsu.maps.arcgis.com/apps/instant/minimalist/index.html?appid=546f6308f2364aea8aedd2d4906ab801
[6] https://gymnasiumtsu.maps.arcgis.com/sharing/rest/content/items/4ef1a0683c4842bcbafd3d91d4ec0291/data?f=json
[7] https://ggf-osu.maps.arcgis.com
[8] https://hub.arcgis.com/maps/uneplive::freshwater-water-monitoring-stations-and-treaties-russian-federation/about
[9] https://en.wikipedia.org/wiki/Armenia,_Colombia
[10] https://hub.arcgis.com/search?q=Armenia
#opendata #geodata #datasets #datacatalogs
Тем временем в Испании 3 мая приняли первую национальную стратегию открытой науки [1] и собираются тратить по 23.8 миллионов евро ежегодно до 2027 года на развитие открытой науки и интеграции в мировую и европейскую инфраструктуру, в частности в European Open Science Cloud (EOSC). Учитывая что в Испании довольно развиты порталы открытых данных и не так много открытых репозиториев научных данных, я предполагаю что они пойдут французским путём и интегрируют открытые научные данные в нац портал datos.gob.es, но может быть и пойдут польским путем и вложатся в обучение работе с научными репозиториями и создании репозиториев научных данных в ведущих университетах.
Ссылки:
[1] https://www.universidades.gob.es/el-gobierno-aprueba-la-primera-estrategia-nacional-de-ciencia-abierta/
#opendata #openaccess #openscience #spain #eu
Часть 2 из 2.
—
4) Во многих африканских странах нет никаких других открытых данных кроме порталов микроданных (явно созданных при поддержке Всемирного банка и других институтов развития) и порталов геоданных, многие из которых также созданы на деньги международной помощи.
5) Количественно открытых государственных данных более всего в Европейском союзе, по объёму в США. При этом стремительный рост порталов открытых данных в Азии, в Китае с акцентом на инновации и бизнес, в других странах на открытость гос-ва, подотчетность и тд.
6) Порталы данных создают даже министерства обороны некоторых стран. В Чехии есть [3] и в США [4]. Немного, но есть.
7) Есть какая-то понятная корреляция между развитием экономики стран и доступностью их данных, но это надо изучать подробнее.
8) Есть очень большая проблема с отсутствием сетевой нейтральности. Например, российские сайты с данными не открываются не из России, многие сайты с госданными США не открываются не из США (даже IP в Германии или Франции не срабатывает), аналогично с некоторыми бразильскими сайтами и тд. Реже, но так бывает когда на сайте прямо сказано что блокируется всё не из их страны. Например, такое сообщение есть на портале данных спутниковых снимков Нидерладов [5]. А также на корейском портале AI Hub [6] открытым текстом пишут что только для корейцев
--
И ещё довольно много всего, я буду рассказывать об этом время от времени
Ссылки:
[1] https://begtin.substack.com
[2] https://github.com/commondataio/dataportals-registry
[3] https://data.army.cz
[4] https://data.defense.gov
[5] https://www.satellietdataportaal.nl
[6] https://aihub.or.kr
#opendata #commondataindex #datacatalogs #dataportals #datasets
В рубрике интересных наборов данных платформа открытых геоданных по Кавказу [1] от UN Environment Programme/GRID-Geneva
118 наборов данных связанных с населением, климатом, лесом, водой и тд. с охватом территорий Армении, Грузии, России, Азебайджана, Турции и Ирана.
В общей совокупности это относительные небольшие данные по объёму, но важные как геоснова уже размеченная на регионы и районы.
Портал создан на портале с открытым кодом GeoNode и данные доступны для ручной и автоматической выгрузке, к ним можно подключится любимым инструментом через одно из API [2]
Похожий проект есть и для Центральной Азии [3] со 192 наборами данных (слоями геоданных) по всем среднеазиатским странам.
Проект создан в рамках Central Asia Climate Information Platform (CACIP) и продолжает развиваться.
Что это значит? То что если данные не публикуют правительства стран, то это не значит что их нет. Они просто лежат в других местах;)
Ссылки:
[1] https://sustainable-caucasus.unepgrid.ch
[2] https://sustainable-caucasus.unepgrid.ch/developer/
[3] https://geonode.centralasiaclimateportal.org/
#opendata #geodata #geonode #armenia #caucasus #centralasia #datasets
Я ранее давал ссылку на текст Стивена Вольфрама про то как устроен ChatGPT [1], а вот и близкий по смыслу текст Understanding Large Language Models [2] от Себастиана Рашка, автора многочисленных книг по машинному обучению. Собственно и этот текст ориентирован в основном на тех кто машинное обучение изучал и понимает хотя бы основу.
‘Godfather of AI’ quits Google with regrets and fears about his life’s work [3] новость о том что что "один из отцов ИИ" Geoffrey Hinton покинул Google. Скорее всего практического влияния на продукты компании его уход не имеет, но репутационно это минус для Google, поскольку он немного не мало, но Тюринговский лауреат (Нобель для комьютерных наук) и уходит со словами о бесконтрольном развитии AI в Google.
Неинвазивный метод превращения мыслей в текст с помощью ИИ Scientists develop A.I. system focused on turning peoples’ thoughts into text [4]. Пока только в лаборатории и требует сложных устройств, не портативно, но уже интересно. Как минимум для записи снов, как максимум для психологической диагностики. Мне на ум сразу приходит полиграф нового типа, одновременно записывающий не только сердечный ритм, но и мысли в ответ на задаваемые вопросы.
Ссылки:
[1] /channel/begtin/4612
[2] https://magazine.sebastianraschka.com/p/understanding-large-language-models
[3] https://www.theverge.com/2023/5/1/23706311/hinton-godfather-of-ai-threats-fears-warnings
[4] https://www.cnbc.com/2023/05/01/scientists-develop-ai-system-focused-on-turning-thoughts-into-text.html
#ai #readings #technology
В рубрике интересных каталогов данных открытые каталоги данных на базе TriplyDb [1]. Это продукт с открытым кодом [2] и одноимённая компания для публикации связанных открытых данных. В принципе проникновение связанных данных (Linked Data) в порталы открытых данных оказалось довольно сложным занятием. До сих пор активное использование связанных данных есть только в интеграции научных данных и самый известный проект в этой области DBPedia, в порталах открытых данных до сих пор поддержка OWL/RDF чаще формальность чем реальность.
Тем не менее, Triply есть инсталляции 3-х каталогов:
- https://triplydb.com - каталог 1102 наборов данных
- https://druid.datalegend.net - система Druid в Университете Утрехта
- https://data.pldn.nl - платформа связанных данных Нидерландов
Другим интересным стартапом пытавшемся занять нишу порталов и сервисов данных с акцентом на связанных данных был Swirrl, но несколько лет назад их поглотила компания TPXimpact [3]
У них осталось немного инсталляций:
- https://opendatacommunities.org - официальная статистика Департамента по вопросам выравнивания, жилищного строительства и сообществ Великобритании
- https://statistics.gov.scot - Официальная статистика Шотландии
- https://beta.gss-data.org.uk - статистика по изменению климата по Великобритании
В целом это два наиболее известных мне примеров реального применения связанных данных и инфраструктуры на них за пределами академических задач и общественных проектов. Тем не менее за ними также интересно наблюдать и изучать практическое применение в будущем.
Ссылки:
[1] https://triply.cc
[2] https://github.com/TriplyDB
[3] https://pages.tpximpact.com/swirrl
#opendata #linkedata #opengov #uk #netherlands #datacatalogs #opensource
Ещё один любопытный open source продукт Evidence [1] на сей раз для изменения подхода к Business Intelligence. Вместо того чтобы делать графики и сопровождающий текст к каком-либо веб интерфейсе, подход BI-as-a-code, а то есть ты пишешь код в Markdown и он преобразуется в текст и графики.
Причём всё это в маркдауне описывается как код графиков и SQL запросы. Запросы движок умеет делать ко всем популярным SQL движкам и CSV файлам.
В основе всё та же бизнес модель: открытый код для локальной работы и облачный сервис за деньги.
Мне нравится сама идея, Markdown кажется вполне подходящей основой для такого продукта и, учитывая что сам продукт под MIT лицензией, я бы не удивился что кто-то из BI игроков и рядом с ним может захотеть к своему продукту такое добавить.
Плюс это очень удобная штука для команд с инхаус разработкой, когда надо приделать аналитику с визуализацией для себя, а времени и желания на внедрение BI продукта нет.
Ссылки:
[1] https://evidence.dev
#opensource #dataviz #bi #startups
В рубрике как это работает у них, в Аргентине Министерством науки, технологий и инноваций создана Sistema Nacional de Repositorios Digitales (Национальная система цифровых репозиториев) [1] для которой ещё в 2015 году были разработаны требования по подключению репозиториев академических учреждений с довольно простыми правилами сводящимися к заполнению метаданных по стандарту Dublin Core, поддержки интерфейсов сбора данных и так далее [2]. На организацию этих репозиториев и их приведение к стандарту университеты получали дополнительное финансирование [3] на техническую работу и на обучение кадров.
Всего таким образом охвачено 44 репозитория включающие как научные статьи и результаты конференций, так и исследовательские данные. Для исследовательских данных у них же создана отдельная система DACyTAr - Datos Primarios en Acceso Abierto de la Ciencia y la Tecnología Argentina [4]
Это во многом похоже на программы Европейского Союза, я приводил в пример появление репозиториев данных в Польше в Варшавском университете [5].
Ссылки:
[1] https://repositoriosdigitales.mincyt.gob.ar/vufind/
[2] https://repositoriosdigitales.mincyt.gob.ar/files/Directrices_SNRD_2015.pdf
[3] https://repositoriosdigitales.mincyt.gob.ar/vufind/Content/financiamiento
[4] https://dacytar.mincyt.gob.ar
[5] /channel/begtin/4759
#opendata #openaccess #openscience #data
Хороший обзор по выбору баз данных в блоге ByteByteGo [1], но блог под платную подписку поэтому ещё один текст ещё 2021 года тоже про выбор базы данных.
К примерам продуктов из которых выбирать можно относится сдержанно и реальная жизнь шире, но как систематизированное описание очень хорошо.
Я же обращу внимание на NoSQL базы данных для документов наиболее известной из которых является MongoDB. Так вот выбор там, конечно, не только между базами данных своего типа, MongoDB, ArangoDB и тд. Чаще всего выбор между NoSQL и NewSQL. Например, недавно в разговоре для подготовки к одной из конференций речь зашла о том что будет использоваться в Common Data Index, реестре и поисковике по данным который я проектирую. Для меня по умолчанию - если объект хранения иерархичный документ то это MongoDB. Но для очень многих корпоративных дата инженеров - это Postgres, что тоже логично, там есть поддержка хранения JSON и некоторые функции.
За чем правда? Я скажу так, когда речь идёт о хранении от сотнях миллионов объектов по которым могут быть сложные запросы, то Postgres показывает себя лучше. Но если данных поменьше, то MongoDB вполне себе подходит.
Случаи разные, задачи разные. Главный недостаток MongoDB в том что там там многие ветки развития для Community Edition перекрыты тем что это продукт коммерческий и если в облачной версии есть поддержка GraphQL из коробки, то в бесплатной версии и не будет похоже. Но альтернатив не так много как кажется.
Ссылки:
[1] https://blog.bytebytego.com/p/understanding-database-types
[2] https://towardsdatascience.com/datastore-choices-sql-vs-nosql-database-ebec24d56106
#opensource #databases #dbengines #data #datatools
Про сжатие данных и о том почему я регулярно пишу что Parquet - это реально значимый формат хранения и обмена данными, важнее довольно многих.
Я приведу в пример данные с которыми я лично работал в аналитических задачах. У меня есть выгрузка слепка данных из российского реестра юридических лиц ЕГРЮЛ в виде 11 миллионов записей в которых 12 полей-признаков места организации, её типа, кода окопф, оквэд, кладр, статус ликвидации и тд. Без названий и без идентификаторов, данные нужны только для аналитической работы и построения кубов и срезов для BI. В общеё сложности - это 4.07ГБ. Не очень много когда один файл и много когда таких файлов десятки. С файлом нужно иметь возможность работать, загружать в СУБД или библиотеку вроде Pandas. Как сжать эти данные?
Самое очевидное - это сжать классическими архиваторами и хранить так. Gzip даёт сжатие до 337 МБ это примерно 8.3%, альтернативный Gzip'у архиватор LZ4 для быстрого сжатия и разжатия даёт компрессию до 340МБ это тоже примерно 8.3%, а LMA-архивация с помощь. XZ даёт 136МБ это примерно 3%, но она работает значительно медленнее. Все архиваторы проверялись в режиме максимального сжатия (ключ -9).
Так вот, а если этот же CSV файл преобразовать в parquet формат со сжатием, то итоговый файл получается размером в 109МБ, это примерно 2.7% от оригинального и, при этом, с ним весьма удобно работать с инструментами вроде Pandas при том что скорость преобразования значительно быстрее чем сжатие с помощью xz, к примеру. Во многом, похоже, это происходит из-заавтоматической идентификации типов полей и их преобразования.
Причём даже если повторить используемый в parquet трюк с колоночным сжатием, так просто такой результат повторить непросто. Например, у меня есть код который из CSV файла создаёт пучёк одноколоночных CSV файлов сжатие которых по отдельности должно быть лучше чем сжатие оригинального файла. Сжатые одноколоночные файлы дают дополнительное сжатие. GZIP файлы таких файлов занимают 221 МБ вместо 337 МБ. Аналогично для lz4 и только для xz размер общий файлов увеличивается до 139 МБ.
Конечно никто такие одноколочные файлы не делает, это трюк из давнего прошлого, я привожу его исключительно как иллюстрацию. Речь о том что Parquet файл значительно меньше и практичнее в общим случаях.
Отдельная история про сжатие данных для долгосрочного хранения и для сохранения интеграции с унаследованными системами. Тем не менее, имея выбор формата для хранения данных - Parquet это хороший выбор.
Для того чтобы он стал отличным ему нехватает только некоторых опций работы стандартными инструментами. Чтобы его можно было открыть в Excel, в браузере, в чтобы были аналоги grep/cat/awk/sed или csvkit и ещё много разных других инструментов. Тем не менее и сейчас его уже можно использовать.
#dataengineering #data #compression #parquet
В рубрике интересных наборов данных Global ML Building Footprints [1] набор данных георасположения зданий по всему миру созданный компанией Microsoft в рамках Bing Maps на основе спутниковой и аэрофотосъёмки Maxar, Airbus и IGN France. В репозитории краткая документация и скрипты загрузки, а также ссылка на список всех файлов этого набора данных представленный в виде CSV [2]. В том числе этот набор данных даёт геоданные по странам где публичных геоданных немного: Россия, Казахстан, Кыргызстан, Армения, Туркменистан, Афганистан и многое другое. На мой взгляд датасет сильно недооценённый и очень интересный.
Первая его версия вышла в июле 2022 года и с тех пор неоднократно данные обновлялись, последний раз в марте 2023 года данными по Японии и по Северной Америке.
Сейчас в нём более 1.03 миллиарда зданий. Кроме того набор данных доступен под свободной лицензией ODbL, изначально создавался для интеграции в OpenStreetMap и кроме него существует ещё несколько наборов меньшего объёма с данными по зданиям в США, Австралии, Канаде, Уганде и Танзании, Южной Африке, Кении и Нигерии и Юго-восточной Азии, на них есть ссылки в этом репозитории.
Эти же данные есть в Microsoft Planetary Computer [3] доступные через платформу Azure и через API по стандарту STAC.
Как и во многих других случаях это из тех примеров когда можно найти интересные негосударственные данные о стране/странах за их пределами с потенциально большей достоверностью и свободой использования
Ссылки:
[1] https://github.com/microsoft/GlobalMLBuildingFootprints
[2] https://minedbuildings.blob.core.windows.net/global-buildings/dataset-links.csv
[3] https://planetarycomputer.microsoft.com/dataset/ms-buildings
#opendata #datasets #microsoft #geospatial
В рубрике как это устроено у них Български портал за отворена наука [1], портал открытой науки Болгарии созданный в НАЦИД (Национален център за информация и документация), государственным учреждением Болгарии подведомственным местному Министерству образования и науки. На портале собираются и публикуются данные из 8 репозиториев публикации результатов научной деятельности [3] большая часть которых являются научными статьями в открытом доступе.
По сути портал выступает в качестве поисковика по метаданным, перенаправляя на открытые репозитории содержащие тексты публикаций, в этом смысле он более похож на OpenAIRE чем, к примеру, на Dataverse. В то же время, портал был сертифицирован CoreTrustSeal [4], а то есть его создатели как минимум продумали достаточно важные системные вопросы организации его работы.
В принципе, национальные порталы открытости науки не редкость, их становится всё больше. Конкретно на этом портале открытые научные данные почти не представлены, во всяком случае их почти нет в болгарских институциональных репозиториях, можно предполагать что болгарские исследователи скорее используют напрямую общеевропейские порталы вроде Zenodo.
Ссылки:
[1] https://bpos.bg
[2] https://nacid.bg
[3] https://bpos.bg/bg/repositories
[4] https://www.coretrustseal.org/wp-content/uploads/2022/03/20220307-Bulgarian-Portal-for-Open-Science_final.pdf
#openaccess #openscience #bulgaria #eu
Вышла версия 1.0 корпоративного каталога данных Open Metadata [1] с открытым кодом. Продукт интересный, даёт уйму интересных возможностей для тех кто делает свои корпоративные каталоги данных и систематизирует внутренние ресурсы в виде данных. Я давно к нему присматриваюсь и, хотя пока ещё не смотрел версию 1.0, обязательно посмотрю. В том числе они заявляют автоматическое выявлении персональных данных (Auto PII Classification), а я продолжаю заниматься небольшим продуктом по идентификации семантических типов данных и персональные данные туда тоже входят.
Но даже до того как я посмотрю версию 1.0 я могу сказать то чего в Open Metadata точно до сих пор нет - это поддержка NoSQL во всех формах. Нет поддержки, ни Redis, ни MongoDB, ни ArangoDB, ни JSON объектов внутри NewSQL баз данных. А это значит что если у вас только SQL архитектура и инфраструктура, то это инструмент, возможно, подходящий. А если, например, кроме SQL у вас ещё и базы MongoDB для хранения, Elastic для поискового индекса, Redis для сессий пользователей и ещё что-нибудь экзотическое и какое-нибудь legacy, то нужно искать другие инструменты.
Конечно, команда Open Metadata действует как стартап и делают хорошо какую-то узкую область, но одновременно они заложили архитектурное ограничение восприятия каталогизируемых объектов как таблиц. Преодолеть им его теперь очень сложно, нужно будет переписать много кода и поломать совместимость с уже написанными расширениями.
Ссылки:
[1] https://blog.open-metadata.org/openmetadata-1-0-release-beb34762d916
#opensource #datacatalogs #metadata
В рубрике как это работает у них Геопортал Госкартгеофонда Республики Беларусь [1]. Создан на базе ПО с открытым кодом Geonetwork, включает как изображения карт, в основном ещё времен СССР, так и геосервисы для отображения. Геосервисы реализованы на базе ПО с открытым кодом Geoserver, например, http://gisserver.nca.by:8080/geoserver и https://meta.geo.by/geoserver и доступны для подключения WFS, WCS, WMS и др.
По сравнению с порталом геоданных, к примеру, Польши [2] в 11 тысяч наборов данных и Литвы [3] в 217 наборов данных - это немного, скорее удивительно что даже такой портал есть и что он сделан на Geonetwork.
Ссылки:
[1] https://meta.geo.by/geonetwork
[2] https://metadane.podgik.pl/geonetwork
[3] https://www.inspire-geoportal.lt/geonetwork
#opendata #geodata #belarus #datacatalogs
They destroyed computer drivers, they shredded files and burned all the books in libraries 🍽
На прошлой неделе стартовал сериал-антиутопия Silo. В нем рассказывается о сообществе из 10 тыс. человек, которые живут в 140-этажном бункере, укрываясь от последствий катастрофического события на Земле.
По сюжету архивы, в том числе на цифровых носителях, считаются уничтоженными силами мятежников 140 лет назад. Поэтому архивы и артефакты прошлого получили статус реликвий и стали нелегальными и запрещенными для хранения и использования, а вопросы по поводу этой нелогичности оказалось нельзя произносить вслух.
Тем не менее, один из случайно найденных жестких дисков, содержимое которого удалось восстановить, становится основой для того, чтобы подвергнуть сомнениям уклад жизни всего сообщества и необходимость выживания в бункере.
Фокус на ценности архивов в сериале — своевременное напоминание о необходимости сохранять жизненно важную информацию, которая имеет решающее значение для выживания людей и развития общества.
Рекомендуем к просмотру!
The Guardian: WhatsApp может покинуть рынок Великобритании из-за нового законопроекта
– Сервису угрожает законопроект про безопасность в интернете
– Его разрабатывают 4+ года, там 250 страниц (оглавление из 10)
– Законопроект наделяет регулятора UK новыми полномочиями
– Они будут касаться борьбы с терроризмом, защиты детей и др.
– Штрафы для компаний могут составить до 10% оборота в мире
– Фактически, этот закон будет запрещать сквозное шифрование
– Т.к. оно не дает технической возможности прочитать сообщения
– WhatsApp не готов снижать безопасность для всех
– Около 98% его пользователей находятся за пределами рынка UK
@ftsec
Полезное чтение про данные, технологии и не только:
- Parquet file format – everything you need to know! [1] короткое понятное чтение с примерами и визуализацией о том что такое формат Parquet. Автор активно рекламирует в конце Delta Lake file format от Databricks, но почему бы и нет, почитать про него тоже стоит потраченного времени.
- Dolt 1.0 [2] вышел релиз первой стабильной версии Dolt, базы данных совмещающей интерфейс MySQL и Git и сделанной по принципу git для данных. Лично я бы давно перешёл на Dolt в своих экспериментах если бы там был не аналог MySQL, а аналог MongodB, потому что плоские таблицы пригодны не для всех данных. Но конкретно Dolt очень интересная штука.
- What Happened to the Semantic Layer? [3] хороший текст про текущее состояние технологий semantic layer которые ещё называют "headless BI", автор работает на проектом Malloy в Google для языков запросов и преобразования данных в SQL-совместимых средах, так что без рекламы Malloy там текст не обошёлся, но если вы про Malloy не читали, то почитать точно вреда не будет, у технологии есть перспектива.
- Financing the common good [4] а вот это уже статья не про технологии, а про проблемы финансирования общего блага (common good) в том числе закрепленного в глобальных программах ООН и о необходимости радикальной реформы мировых финансов.
- Chandler Good Governance Index [5] вышел ежегодный индекс качества государственного управления, покрывает 104 правительства стран в мире, на постсоветском пространстве авторы не оценивали только Туркменистан и Азербайджан. Рейтинг составной, в основном учитываются другие рейтинги и опросы с подтверждённой методологией. Например, используется Open Budget Index и рейтинги оценки электронного пр-ва.
Ссылки:
[1] https://data-mozart.com/parquet-file-format-everything-you-need-to-know/
[2] https://www.dolthub.com/blog/2023-05-05-dolt-1-dot-0/
[3] https://carlineng.com/?postid=semantic-layer
[4] https://www.socialeurope.eu/financing-the-common-good
[5] https://chandlergovernmentindex.com/
#readings #data #tech
Часть 1 из 2
Я было планировал написать текст с рассказом о том как устроены открытые геоданные в мире, начиная с европейской инициативы INSPIRE, но быстро понял что текст будет неполным если также не рассказать про UN-GGIM, UNSDI, GEOSS, GMES, GeoSUR и ещё многие другие глобальные и региональные инициативы по открытости метаданных. Текст напишу уже позже и в форме лонгрида в рассылку [1].
А пока про каталогизацию каталогов данных на текущий момент. Я напомню что занимаюсь сейчас проектом Common Data Index [по систематизации каталогов данных и далее по анализу их содержания с разными продуктами на выходе. Чтобы понять какое ПО используется, какие стандарты, какие данные публикуются надо многие из них пересмотреть глазами, не всё автоматизируется. Уже сейчас доступен датасет с каталогами данных [2] и я регулярно пишу о том что же там.
Сейчас в наборе данных с каталогами открытых данных 1950 каталогов и этот список растёт, 461 каталог ещё просто не обработан и сколько-то ещё не найдено. Я могу много лекций прочитать про Data Discovery и о том как находить данные разными способами и как их публикуют.
Интересно то что в процессе выясняется столь многое что было лично мне и многие в сообществе неизвестно совершенно.
1) Начну с неожиданного, очень много порталов данных в азиатских странах: Таиланде, Японии, Южной Корее, Малайзии, Индонезии и Китае. Не так много пока как в США или в Европе, но, в принципе, очень много. Особенность их в том что они не на виду, они почти никогда не переведены на другие языки кроме государственного и их если не знать как искать или если не просматривать сайты органов власти то и не найти не местному жителю (не владеющему языком), так же они резко недопредставлены во всех предыдущих попытках систематизации каталогов данных таких как DataShades, Dataportals.org, Open Data Inception и др.
2) Очень всё не очень на постсоветском пространстве. В России наизобретали велосипедов что для открытых данных, что для геоданных и геоданными исключительно торгуют, открытых почти нет. Это резко контрастирует со всем миром. В Центральной Азии данные есть, но с систематизацией их дело обстоит плохо. В Армении надо очень много усилий приложить чтобы найти опубликованные данные, нет даже госпортала с данными. В Грузии всё выглядело неплохо, в основном из-за прицела на вступление в ЕС, непонятно что дальше. А Азербайджане ситуация мало отличная от Средней Азии и тд. А ещё во всем постсоветском пространстве кроме стран вошедших в ЕС очень скудно с публикацией открытых научных данных, даже в режиме "не быть, но казаться".
3) Иногда порталы открытых данных делают экзотическими способами на CMS вроде Semantic Mediawiki или Wordpress, но в основном, инструменты данных весьма стандартны: CKAN, Geonetwork, Dataverse, DKAN, GeoNode, NADA, OpenDataSoft, Socrata и др.
В рубрике как это работает у них портал данных для машинного обучения AI Hub в Южной Корее [1]
На портале размещено 100 наборов данных, относительно большого размера (крупнейший в 20ТБ). Все наборы данных созданы именно под машинное обучение и обучение ИИ, например, включают размеченные данные распознавания голоса, видео, текстов, изображений лидаров и так далее.
Они же проводят конкурсы по улучшению алгоритмов распознавания образов [2].
Из важных особенностей:
a) Это не открытые данные, доступ к ним только после регистрации и авторизации, для многих наборов данных стоит пометка (Only Koreans can apply for data.), иначе говоря "только для корейцев"
b) Некоторые наборы данных связанные с медициной доступны только в режиме Safe Zone, специальной среде без интернета, доступ к которой надо отдельно запрашивать.
с) По всем наборам данных очень подробное описание/документация. Это должно значительно упрощать их использование. Например, для набора данных Hearing loss test voice data [3]
Ссылки:
[1] https://aihub.or.kr
[2] https://aihub.or.kr/cpthb/cpthb/list.do?currMenu=125&topMenu=102
[3] https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71393
#datasets #datacatalogs #dataportals #korea #ai #ml
Palantir Tech опубликовали видео с применением больших языковых моделей (ИИ) в их продуктах для разведки и военных [1]. Выглядит одновременно впечатляюще и пугающе, даже при всех их многочисленных оговорках про этические ограничения.
В каком-то смысле военное применение ИИ было всегда неизбежным и Palantir не единственные кто делал и делает продукты в этом направлении, но несомненно OpenAI с их GPT-3, ChatGPT и GPT-4 подтолкнули все индустрии в этом направлении.
Тут конечно важно не забывать что Palantir - это публичная компания с серьёзным падением стоимости акций за последнюю пару лет, так что насколько их продукты уже реально включают ИИ или же это больше рассчитано на инвесторов - пока непонятно.
Ссылки:
[1] https://www.youtube.com/watch?v=XEM5qz__HOU
#ai #aiethics #palantir
В рубрике как это работает у них репозитории [больших] научных данных в области биоинформатики и не только.
GigaDB [1] репозиторий научных данных созданный командой журнала GigaScience. Создан и развивается в Гонконге, содержит 2339 наборов данных, 410263 файла общим размером около 47 ТБ (на начало мая 2023 г). Данные регулярно обновляются, а метаданные доступны по протоколу OAI-PMH используемому для обмена метаданными между репозиториями научных документов
BioStudies [2] база результатов биологических исследований включая их взаимосвязь с исследованиями в рамках работы EMBL-EBI. 2 миллиона 395 тысяч исследований и 9 миллионов 584 тысячи файлов. Данные раздаются, в том числе, через FTP и через систему обмена научными данными Globus [3]. Объём данных оценить сложно, цифры они не приводят, но он явно очень большой, сравнимый с GigaDB и, скорее всего, его превосходящий.
CSIRO Data Access portal [4] портал данных австралийского агентства CSIRO, в общем объёме чуть менее 7.5 тысяч наборов данных, все посвящены исследованиям проводимым CSIRO или в котором исследователи CSIRO принимают участие. Многие наборы данных - это большие коллекции файлов первичного наблюдения, не машиночитаемые, но также являющиеся результатом исследований.
Существует множество более узкоспециализированных репозиториев, их списки публикуют агентства финансирующие исследования и журналы принимающие научные работы:
- PLOS One recommended Repositories [5]
- The Royal Society Data Sharing [6]
И многие другие. Даже один крупный репозиторий данных в области биоинформатики по объёму хранимых данных может превосходить все национальные и региональные порталы открытых данных.
Ссылки:
[1] http://gigadb.org
[2] https://www.ebi.ac.uk/biostudies/
[3] https://www.globus.org/
[4] https://data.csiro.au/
[5] https://journals.plos.org/plosone/s/recommended-repositories
[6] https://royalsociety.org/journals/ethics-policies/data-sharing-mining/
#opendata #openaccess #openscience #datacatalogs #dataportals
С чем у Минцифры РФ хорошо, так это с самокритикой. Они тут составили подборку телеграм каналов, критично настроенных, в том числе, к их работе. Это не значит что я лично стану менее или более критично писать в их адрес.
Для свежеподписавшихся напомню что я в этом телеграм канале пишу открытые данные, инженерию данных, технологии в государстве, технологии в принципе, приватность, ИИ (взглядом через данные), цифровое сохранение, о том где находить данные, с помощью каких инструментов с ними работать.
Пишу я не только и не столько в контексте России, но и про другие страны.
На русском языке я также веду рассылку с лонгридами, а на английском языке ibegtin">блог в Medium
Телеграм канал я изначально вел и во многом веду как свод регулярных заметок о том что читаю, над чем работаю, о чём пишу и тд. поэтому все ппосты здесь в телеграм канале снабжены тегами облегчающими навигацию.
#blogging #telegram
Данные по добыче нефти в России тоже йок, РБК пишет что Росстат перестал их публиковать в ежемесячной статистике по динамике промышленного производства [1]. С одной стороны не удивительно, с другой стороны зарубежные разведки и так имеют свои источники для этих данных, а с третьей стороны у меня есть очень простой вопрос.
А где собственно постановление российского правительства запрещающее публикацию этих данных? Их отсутствие - это внутреннее решение Росстата и внутренний документ (приказ) руководителя? Постановление Пр-ва? Или, по "лучшим" практикам регулирования во время ковида, можно всё закрыть даже не имея никаких оснований?
Важно не только что делается, но и как делается. Кстати, с момента закрытия раскрытия данных можно не верить никаким утверждениям российских чиновникам по продаже и отгрузке нефти, для рынков это дополнительный фактор в сторону неопределённости.
Вообще закрытие любых экономических данных и данных о качестве жизни настораживает куда больше чем плохие значения.
Ссылки:
[1] https://www.rbc.ru/economics/26/04/2023/64492a769a794789b8b0feec
#opendata #closeddata #russia #statistics
Я, кстати, ранее ругался что на портале открытых данных Казахстана [1] ничего не скачать не имея местного ИИ, данные были доступны только после регистрации, теперь скачивать данные можно без регистрации, наверное они меня читают;) Но и тут без подвоха не обошлось, скачивать можно только до 100 записей за раз. Это, конечно, совершенно "потрясающе" как можно было до такого додуматься. Настолько смешно, что даже не знаю что добавить. В общем, портал по прежнему не про открытые данные. А вот где у них открытые данные точно есть так это в Портале открытых пространственных данных Республики Казахстан [2]. Там взяли готовый продукт Geonode и опубликовали более 500 слоёв. Но ленятся бессовестно, не указывают условия использования данных, язык везде указан как английский, хотя названия слоёв на русском. Описания есть далеко не у всех наборов данных.
Это вообще странно что решили делать каталог на GeoNode, а не GeoNetwork, не то чтобы это невозможно, но продукт другого типа.
Ссылки:
[1] https://data.egov.kz
[2] https://map.gov.kz/
#opendata #data #opengov #kazakhstan
Я, кстати, зачитался просто оценкой России по GMTI, она есть в файле который я ранее постил [1]. Открываете вкладку Metadata, выбираете страну Russia и смотрите оценки по каждому пункту. А там столько интересного что я даже не знаю, заполняли ли это эксперты на зарплате у Российского пр-ва или просто не знающие что тут реально происходило и происходит.
Итак, по пунктам:
- I-33.1 - знаете какая основная структура отвечает за Гостех в России? Можно пару попыток. Нет, не угадали. Это Агентство стратегических инициатив https://asi.ru 😐.
- I-34.6 - оказывается в России есть документ определяющий Data Governance strategy / policy. А знаете куда ведёт ссылка? В корень сайта аналитического центра при Пр-ве. 😱 Куда же они его спрятали там ?!
- I-35.1 - оказывается в России есть стратегия цифровой трансформации и это. трам-пара-рам - это Паспорт национальной программы «Цифровая экономика Российской Федерации». В файле ссылка приведена битая, но смысл не меняется. Те кто не читал этот паспорт, могут почитать тут [2]. Это не стратегия, это дорожная карта которые обычно пишут на основе стратегий, но стратегий нет. 😡
- I-37.4.1 - оказывается в России есть очень крутой закон о доступе к информации и он даже мониторится Росстатом [3] (вот этот пункт похож даже не на лукавство, а на чистый подлог, ничего такого нет по этой ссылке и мониторинг если и ведётся то в закрытом режиме и в АП РФ, а не Росстатом. Можно говорить что не ведётся). 😠
И так ещё десятки пунктов, у меня сейчас нет времени все их разбирать.
Но два тезиса я могу точно сформулировать.
1) Оценка России в индексе GMTI завышена и это на совести экспертов Всемирного банка которые её осуществляли. Если бы эта оценка хоть кого-то в мире волновала, то давно был бы скандал где индекс прополоскали бы в не-российских СМИ, но индекс не волнует никого кроме тех кто на него рукоблудит, например, пиарщиков Гостеха.
2) Там вообще нигде, никоим боком нет упоминания платформы Сбербанка которую называют в России Гостехом. Впрочем я об этом писал уже ранее.
Ссылки:
[1] /channel/begtin/4835
[2] http://static.government.ru/media/files/urKHm0gTPPnzJlaKw3M5cNLo6gczMkPF.pdf
[3] https://rosstat.gov.ru/gosusligi1
#ratings #govtech #rant