begtin | Business and Startups

Telegram-канал begtin - Ivan Begtin

7027

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Subscribe to a channel

Ivan Begtin

Про реестр каталогов данных Common Data Index и будущий поиск по ним я регулярно рассказываю и сейчас продолжу. Сейчас в реестре чуть менее 5000 каталогов с данными, количественно более всего каталогов с геоданными чаще всего представленных в виде серверов ArcGIS и Geoserver, по объему сейчас собранных данных более всего открытых данных с некоторыми оговорками.

1) Если внести все имеющиеся в листе ожидания инсталляции ArcGIS Server и ArcGIS Hub то реестр моментально превратится в каталог геокаталогов поскольку только в США у госорганов около 5 тысяч открытых инсталляций ArcGIS Server и у ещё по всему миру около 20 тысяч сайтов у SaaS сервиса ArcGIS Hub. Даже если их пофильтровать и убрать пустые и недоступные то останется не меньше 5 тысяч. Я до сих пор думаю что с этим делать поскольку превращать реестр каталогов данных в реестр каталогов геоданных совсем не было планов:) Но возможно придётся, или придётся его разделять. Не перестаю повторять что геоданных, количественно, в мире более всего, главное правильно искать

2) Для геоданных почти всё свелось к стандартам Open Geospatial Consortium (CSW, WFS, WMS, WCS, WMTS, WPS и др.). Большая часть геопорталов работает по этим стандартам и даже у ArcGIS серверов экспортируются данные по этим протоколам, хотя это и не все знают и это не вынесено в интерфейс REST API, но по факту есть.

3) Очень мало сертифицированных общедоступных каталогов данных с проверкой их качества. Только CoreTrustSeal и несколько научных сертификаций. В лучшем случае они охватывают 200-300 каталогов научных данных, а во всех остальных случаях нет ни методик, ни тех кто проверяет, ни стандартов проверки и тд. Отделить доверенные репозитории от недоверенных требует отдельно методики.

4) Более 90 видов ПО для открытых каталогов данных не считая in-house разработок. При этом не всё специализированно каталоги данных, например, реестры наборов данных часть систем раскрытия научных результатов. С одной стороны это очень много, с другой стороны больше проблем не с их разнообразием, а с очень разным качеством ведения метаданных.

5) Из всех видов каталогов данных только CKAN идентифицируется инструментами вроде BuiltWith. Буквально все остальные там не находятся и, в принципе, при том что BuiltWith лидер этого рынка данных по технологиям в вебе, видно что они сфокусировались только на быстро монетизируемых частях продукта, а альтернативы им и того хуже. В общем нехватает хороших technology discovery инструментов

6) Открытые научные данные наиболее очевидно монетизируемые как минимум гигантами вроде Elsevier с их продуктом Data Monitor. И это отдельная большая научного комплаенса который крупные игроки научной инфраструктуры сейчас продают помогая мониторить соблюдения требований научных регуляторов.

#opendata #datacatalogs #thoughts #commondataindex

Читать полностью…

Ivan Begtin

В список поисковых систем по данным, который я ранее публиковал, можно добавить GeoSeer [1] единственный известный мне поисковик по точкам подключения к гео API по всему миру. Охватывает точки подключения к WFS, WMS, WCS, WMTS и около 3.5 миллионов таких точек.

Существует в подписочной бизнес модели с оплатой за тарифы доступа к API.

При этом сам поисковик выглядит слегка кустарно и с 2022 года в нём не обновляется статистика, а с 2020 года автор(-ы) перестал публиковать посты в блоге. Тем не менее, даже с учётом этих ограничений, это один из немногих существующих поисковиков по геоданным в мире.

Ссылки:
[1] https://www.geoseer.net

#opendata #datasearch #geodata #spatial

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных первый набор данных от Overture Maps Foundation Overture 2023-07-26-alpha.0 [1] это данных о 52 миллионах местах и 785 миллионах зданий по всему миру, а также карта дорожной сети. Огромный датасет под лицензией ODbL. Причём данные в форматах Parquet, в виде доступа через SQL на AWS или Azure или через DuckDb. Всё вместе очень интересно, уже хочется нарезать его по странам, территориям и регионам.

А я напомню что Overture Maps Foundation - это некоммерческий фонд созданный big tech компаниями Amazon. Meta и Microsoft и прибившимися к ним Tom Tom и Esri. К фонду неоднозначное отношение в сообществе OpenStreetMap, что не мешает нам следить за их деятельностью.

Ссылки:
[1] https://overturemaps.org/download/overture-july-alpha-release-notes/

#opendata #datasets #bigdata

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных визуализация и набор данных по тенденциям роста растений (надпочвенного покрова) в Евразии. Охватывает всю Среднюю Азию, Монголию и часть России и Китая. По выводам там получается что зелёного покрова за 20 лет стало скорее больше. А само исследование проводилось на базе спутниковых снимков MODIS 2002–2020 (проект NASA) [2].

У исследования полностью опубликованы данные, общим объёмом 1.2Gb.

У исследователей из той же группы есть похожая публикация по кавказскому региону с охватом Армении, Грузии, Азербайджана и частично Турции, России и Ирана. Также с открытыми данными.

Ссылки:
[1] https://silvis.forest.wisc.edu/data/eurasia-trends/
[2] https://modis.gsfc.nasa.gov
[3] https://silvis.forest.wisc.edu/data2/vegetation-change-grasslands-caucasus/

#opendata #caucasus #middleasia #datasets #vegetation

Читать полностью…

Ivan Begtin

Linee Guida recanti regole tecniche per l’apertura dei dati e il riutilizzo dell’informazione del settore pubblico [1] свежее руководство для органов власти в Италии по публикации открытых данных. Весьма детальное, хорошо проработанное, с чёткими рекомендациями и требованиями. В частности рекомендуют везде использовать CC-BY 4.0 в качестве лицензии объясняют это в сравнении с другими лицензиями CC0, CDLA 2.0, ODBL и другими.

Текст полезный хотя и на итальянском языке, в основном он понятен.

Ссылки:
[1] https://www.agid.gov.it/sites/default/files/repository_files/lg-open-data_v.1.0_1.pdf

#opendata #guidelines #italy

Читать полностью…

Ivan Begtin

Любопытный доклад Cross-Border Data Policy Index [1] об уровне закрытости местных данных при кросс-граничной передаче.

Авторы доклада из Global Data Alliance объединяющего многочисленные глобальные компании в сфере цифровых продуктов, ритейла, страхования, здравоохранения и др. В общем всех тех кто зарабатывает на том что их бизнес глобален.

На картинке можно увидеть что самые жёсткие запреты теперь в России и в Китае.

Правда сам текст доклада короткий и скорее он инфографика чем предложение для регулирования, но в целом отражает позицию глобальных компаний - чем больше ограничений, тем хуже их бизнес и международная торговля.

Это важно помнить понимая это не позиция защиты данных пользователей, а позиция экономической выгоды причём именно для этой группы бизнеса.

Ссылки:
[1] https://globaldataalliance.org/resource/cross-border-data-policy-index/

#data #privacy

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных Astropedia [1] портал геологических и географических данных о планетах Солнечной системы, охватывает все планеты и часть их спутников. Создан и поддерживается USGS совместно с NASA (что показательно, занимается им Геологическая служба США).

Данные включают, как растровые карты пригодные для интеграции в ГИС, так и данные справочников и номенклатур, данных измерительных станций и так далее.

У каждого набора данных много подробностей и метаданных по контролю качества, тому в какой среде он создан и как его использовать и так далее. А интерфейс каталога включает не только перечень наборов данных, но и навигацию через выбор объекта в солнечной системе.

Это хороший пример современного курируемого каталога исследовательских данных по очень специфической теме.

Ссылки:
[1] https://astrogeology.usgs.gov

#opendata #datasets #astonomy #astrogeology

Читать полностью…

Ivan Begtin

Одна из крупнейших и малоизвестных поисковых систем по научным публикациям это BASE [1], проект немецкого Bielefeld University в котором собрано более 338 миллионов научных публикаций из более чем 11 тысяч источников.

В том числе в поисковом индексе BASE есть более 18.5 миллионов записей с исследовательскими данными, большая их часть, конечно, из систем выдачи DOI таких как Datacite и Crossref.

У проекта есть REST API и интерфейс доступа по протоколу OAI-PMH,

Ссылки:
[1] https://www.base-search.net

#opendata #openaccess #openscience #researchdata #datasearch

Читать полностью…

Ivan Begtin

Я как могу сдерживаюсь чтобы не комментировать последние законодательные инициативы в РФ, во первых чтобы не портить себе аппетит, во вторых чтобы запасы иронии не исчерпались. Обращу лишь внимание на законопроекты №346588-8, №346769-8 и №346750-8, запрещающие участие граждан РФ в незарегистрированных в специальном реестре иностранных некоммерческих организациях. Об этом совсем недавно писали в OpenNET [1] и о том что большая часть опенсорс разработок как раз делают НКО зарегистрированные в США и в Европе, пример, Linux Foundation и потому что российские правоприменители могут, с лёгкостью предположить, что эти организации деятельность в России ведут.

Я вот лично являюсь до сих пор членом НКО Clarity International посвящённой развитию простого языка [2], если меня ещё не исключили за неуплату членских взносов, конечно. Какова вероятность что она будет зарегистрирована в этом реестре? Нулевая

В общем-то в зоне риска все кто хоть какой-то профессиональной деятельностью в мире занимается. А законопроекты эти, как бы намёк, мол валите отсюда и от гражданства отказывайтесь.

Другой законопроект, про "запрет использования иностранных почтовых сервисов для регистрации в российских" звучит даже не странно, а очень странно. Что такое иностранные почтовые сервисы? Вот у меня есть почта в зоне .com, она иностранная? А если почтовые сервера в зоне .ru, тогда российская? А если эти почтовые сервера в зоне .ru хостятся в Китае, тогда не российские? Или если у меня почта в зоне .ru, а почтовый сервис от Google для домена, тогда что? И это только сугубо технические вопросы, а есть ещё и вопросы смысловые, в том зачем же всё это нужно?

Чувствую что недалёк уже тот момент когда создадут ещё и "реестр разрешений на доступ к иностранным ресурсам", как это уже есть в Китае. Нужно тебе, например, в исследовательских или коммерческих целях поработать с Google или Youtube, изволь запросить разрешение через Госуслуги. Так и будет, так и будет

Ссылки:
[1] https://www.opennet.ru/opennews/art.shtml?num=59517
[2] https://www.clarity-international.org

#regulation #russia #nocomments

Читать полностью…

Ivan Begtin

Большое обновление порталов данных в Common Data Index. Теперь их 3692, это в 1.5. раза больше чем было ещё совсем недавно. Выбирая между качеством метаданных и широтой охвата я выбрал широту и в итоге записи в реестре разделены на две ветви: обычные записи и записи с ограниченными метаданными с временными идентификаторами. Для первых почти все метаданные заполнены и курируются, для вторых есть только те метаданные что можно получить автоматически: ссылка, тип ПО, точки подключения к API, язык и страна. По некоторым странам таких временных записей более половины и чаще всего это записи каталогов с геоданными, на базе ArcGIS server или Geoserver. Напомню что реестр доступен на registry.commondata.io

А также в реестре огромное обновление всех доступных документированных и недокументированных точек подключения к API, почти для каждой записи все возможные API. Многие каталоги данных одновременно поддерживают многие режимы доступа DCAT, CSW, OAI-PMH и другое.

Одна из целей реестра каталогов данных достигнута, охвачены каталоги данных практически всех стран мира и практически всех видов данных и типов каталогов.

#opendata #datacatalogs #commondataindex

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них портал геоданных Африки [1] создан на базе ArcGIS Hub и поддерживается компанией Esri. Включает 579 наборов данных [2] и 914 карт [3]

А также включает множество подпорталов сообществ по странам, например, Морокко [4], а также всего 11 стран [5]

Портал включает данные из OpenStreetMap и иных открытых источников и сфокусирован на обучении и формировании сообщества вокруг продуктов Esri.

Это пример когда открытые каталоги данных компании создают для продвижения их коммерческих продуктов добавляя им дополнительную ценность.

Все данные можно скачать используя API ArcGIS Hub или с использованием дампов каталога в формате DCAT.

Ссылки:
[1] https://www.africageoportal.com
[2] https://www.africageoportal.com/search?collection=Dataset
[3] https://www.africageoportal.com/search?collection=App%2CMap
[4] https://morocco.africageoportal.com/
[5] https://www.africageoportal.com/pages/GeoPortal%20Initiatives

#opendata #africa #geodata #geospatial

Читать полностью…

Ivan Begtin

Написал текст в рассылку на тему того зачем создаются корпоративные каталоги данных [1]. Это часть скорее теоретическая чем практическая, в неё мало практических примеров, зато много подробностей о том зачем и в какой ситуации компании, в принципе, задумываются о внедрении каталогов данных. В следующих текстах я уже подробнее разберу случаи когда точно не надо усложнять себе жизнь и заводить каталог данных который бы перестал быть актуальным и расскажу о выборе инструментов, там уже много особенностей технологических и разные инструменты решают разные задачи. А ещё точнее с разным качеством решают одни и те же задачи.

Ссылки:
[1] https://begtin.substack.com/p/corporate-data-discovery-1

#data #datacatalogs #dataengineering #dataanalytics #compliance

Читать полностью…

Ivan Begtin

Я, кстати, не забыл про обещание вернуться к лонгридам и по результатам голосования [1] ближайшей темой напишу про Data discovery в корпоративном секторе, скорее всего до конца недели.
Однако тема эта большая и сразу всё не напишешь, можно сделать акцент на поиске данных для собственных продуктов, можно на инвентаризации личных данных, а можно, например, про разницу в инвентаризации данных бизнесом и государством и сквозная тема во всём "зачем всё это нужно". поэтому давайте сделаю второй опрос, он будет следующим сообщением,

Ссылки:
[1] https://begtin.substack.com/p/fde

#readings #blogging #data

Читать полностью…

Ivan Begtin

В рубрике интересного чтения про данные и ИИ:
- X.AI [1] свежеаносированный стартап Элона Маска по ИИ. Главным образом пока можно судить по составу команды, состав выглядит впечатляюще, посмотрим какие будут результаты. Об этом многие уже написали, так что я не буду вдаваться в подробности, подождём результаты.
- Голливудские актёры бастуют против применения образов созданных ИИ [2] по моему их применение неизбежно, посмотрим как долго продлится это противостояние.
- LINCE-ZERO [3] свежая языковая модель для испанского языка. Создано стартапом Clibrain, Лицензия Apache 2.0
- OpenMetadata 1.1 [4] новая версия корпоративного каталога данных, из интересного поддержка MongoDB. Надо посмотреть насколько там всё хорошо с этим.
- VulcanSQL [5] фреймворк по превращению SQL запросов в API. Интересная штука, полезная для многих задач

Ссылки:
[1] https://x.ai
[2] https://www.bbc.com/news/entertainment-arts-66196357
[3] https://huggingface.co/clibrain/lince-zero
[4] https://blog.open-metadata.org/openmetadata-1-1-0-release-97c1fb603bcf
[5] https://github.com/Canner/vulcan-sql

#data #datatools #ai #opensource

Читать полностью…

Ivan Begtin

Я регулярно пишу про то как устроена публикация научных данных в мире, напомню о том как она сейчас устроена в России.
В отличие от многих развитых и развивающихся стран в России отсутствует национальный репозиторий/каталог научных данных по аналогии с Zenodo (EU), ScienceDb (China) и многими другими. Впрочем аналогичная ситуация со всеми результатами научных исследований, статьями, диссертациями, конференциями и т.д., отсутствует централизованная система поиска по ним.

В то же время если не у всех, то у многих университетов и исследовательских центров есть порталы научной публикации, как правило они построены на базе DSpace, реже других видах ПО, но почти всегда open source. Ещё реже это какие-то собственные разработки или какие-то отдельные платформы.

Относительно недавно я упоминал 4 таких репозитория [1] в котором есть явное указание на наборы данных. Но, конечно, они не единственные. К системе научного раскрытия данных можно отнести систему ЕСИМО [2], но она относится не к институциональным, а скорее к функциональным системам публикации данных. Наборы данных из ЕСИМО плохо индексируются поисковиками, у них отсутствуют уникальные идентификаторы типа handle или DOI, даже просто прямые пермалинки отсутствуют.

В то же время, часть научных наборов данных рассеяны и не систематизированы по каталогам публикаций университетов, всё те же инсталляции DSpace,

Например, есть вот такой набор данных в репозитории СПбГУ [3] или вот такой [4], их можно найти вперемешку со статьями с ключевым словом "Dataset" [5], но в отдельную коллекцию или фильтр они не выделены. При том что внутри системы они достаточно чётко классифицированы по типу "dc:dataset", но фильтр по типу контента в этом репозитории не выставлен поэтому одним кликом их не отфильтровать. Надо выгружать все меданные с портала и искать уже по ним.

А иногда и даже тип контента указан недостаточно. К примеру, публикация в Электронном архиве УГЛТУ [6] включает данные в Excel файле, но тип её "Book" или же публикации данных Тихоокеанского океанологического института им. В.И. Ильичева выделены в специальную коллекцию Research data [7], но сами публикации имеют тип "Article".

Всё это о том что, по факту, скрытый пласт публикуемых научных данных в России далеко не нулевой, но из-за того что нет систематизации их публикации, то и находить их сложно. Фактически, делать это можно более-менее точно лишь по типам публикуемых файлов относящихся к данным.

В мире такой методической работой по публикации научных данных занимаются, или местные академии наук (Китай), или правительства/министерства науки (ЕС, Аргентина, США и др) и организации вроде Research Data Alliance в части систематизации метаданных и разработки стандартов.

И это же, кстати, то что можно отнести к базовой цифровой научной инфраструктуре. Когда, де факто, государства напрямую или через субсидии научным институтам создают инфраструктуру распространения научных знаний, упрощая учёным популяризацию их работ и облегчая доступ к данным сделанных другими.

Ссылки:
[1] /channel/begtin/4912
[2] http://portal.esimo.ru/portal/
[3] https://dspace.spbu.ru/handle/11701/19623
[4] https://dspace.spbu.ru/handle/11701/17279
[5] https://dspace.spbu.ru/simple-search?query=Dataset+
[6] https://elar.usfeu.ru/handle/123456789/3059?locale=en
[7] https://data.poi.dvo.ru:8443/jspui/handle/123456789/13

#opendata #openresearch #openaccess #russia #datasets

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них Historic Environment Scotland государственное учреждение в Шотландии отвечающее за ведение каталога объектов исторического наследия и ведущие одноимённый портал [1] хотя объектов на самом портале не так много, чуть менее 2000, интересно что кроме галереи объектов
у них есть ещё и поиск по картам с визуализацией исторических места: замков, исторических зданий, мест битв и так далее. По каждому историческому месту есть подробная справка о том что это такое и чем оно важно, а также все данные публикуются как открытые данные и, более того, географические объекты предоставляются через API по стандартам WFS и WMS, их можно сравнительно просто подключать в свои геопродукты [3].

Проект можно отнести к Digital Humanities и рассматривать одновременно как исторический и как проект с открытыми данными.

Ссылки:
[1] https://www.historicenvironment.scot
[2] https://hesportal.maps.arcgis.com/apps/Viewer/index.html?appid=18d2608ac1284066ba3927312710d16d
[3] https://portal.historicenvironment.scot/downloads

#opendata #datasets #digitalhumanities #scotland #history #geodata

Читать полностью…

Ivan Begtin

Typogram [1] диаграммы для тех кто не забыл что такое ASCII и псевдографику в терминалах. Реализовано в виде Javascript библиотеки от Google, содержит множество примитивов и позволяет рисовать майндмапы, деревья, гриды, послойные диаграммы и даже графики с временными рядами.

Выглядит так просто что просто прекрасно. Можно сказать воплощение принципа clean & simple при этом идеально выглядело бы встроенным в Markdown и поддерживаемом Markdown редакторами.

Причём, в отличие от Mermaid, другой библиотеки для диаграмм, в typogram объекты описываются типографически, а не семантически. Это рисунок из символов превращаемый в схему, а не слова/язык разметки.

Ссылки:
[1] https://google.github.io/typograms/
[2] https://github.com/mermaid-js/mermaid

#opensource #digramming #cleanandsimple

Читать полностью…

Ivan Begtin

В рубрике бизнеса на открытых данных Social Explorer [1], продукт и одноимённая компания в США предоставляющая аналитический сервис с визуализацией данных на картах с детализацией до отдельных графств (Counties), аналог российских муниципальных образований. Практически все данные в их продукте - это общедоступные данные переписи США, избирательных комиссий, отчетов ФБР по преступности и других статистических индикаторов публикуемых в США с довольно высокой детализацией. Особенность продукта в том что он почти полностью ориентирован на университетскую подписку. Университеты приобретают подписку и предоставляют доступ преподавателям и студентам. Поэтому в платформе отдельно реализованы разделы по быстрому старту по тому как учить и как учиться с ней работать.

Ссылки:
[1] https://www.socialexplorer.com

#startups #opendata #geodata #usa

Читать полностью…

Ivan Begtin

Как и где искать данные? Я несколько раз ранее писал про разные поисковые системы по открытым / доступным данным и список поисковиков у меня постоянно обновляется так что в этом посте их актуализированная подборка:

- Google Dataset Search - единственный поиск от крупного игрока поисковых систем, в данном случае Google. Ищет по датасетам найденным поисковой системой на веб страницах где размечен объект DataSet из Schema.org. Это, с одной стороны делает его одним из крупнейших поисковых индексов по данным в мире (45 миллионов наборов данных из 15 тысяч источников на начало 2023 года), а с другой очень сильно поиск отравлен сеошниками, даже если искать бесплатные данные. Также результаты этого поиска теперь подмешиваются в основной поиск Google при релевантных запросах

- OpenAIRE - это не в чистом виде поиск по данным, но поиск по результатам научной деятельности, Данных там тоже много, от 5 до 17 миллионов наборов данных, смотря как классифицировать объекты поиска поскольку кроме машиночитаемых таблиц там к данным отнесены ещё и изображения, видео и аудио записи. Тем не менее, даже со всеми оговорками, это один из крупнейших поисковиков по данным в мире.

- DataCite Search - поисковик от компании DataCite выдающей DOI исследователям публикующим данные. Плюс в том что их база наборов данных весьма обширна, это фактически все наборы данных публикуемые исследователями официально. Минус в том что контроля за назначением DOI нет и многочисленные ссылки там ведут просто на статьи и другие объекты, но не данные. Тем не менее база объектов поиска там обширна, более 20 миллионов записей и работа над качеством продолжается. Это один из наиболее крупных поисковиков по научным данным.

- BASE - Bielefeld Academic Search Engine, академическая поисковая система от Билефельдского университета в Германии. Охватывает более чем 339 миллионов результатов научной деятельности из которых не менее 18.5 миллионов составляют наборы данных. Конечно надо делать оговорку на то что в основе поиска по данным там индекс DataCite

- FindData - поисковая система по научным данным от Компьютерного сетевого информационного центра при Китайской академии наук. Тесно интегрирован с другим их проектом, ScienceDb. Преимущественно ищет по китайским и связанным с Китаем источникам научных данных.

- Research Data Australia - поисковик по данным как часть научной инфраструктуры Австралии. Более 200 тысяч наборов данных, только из местных каталогов данных, причём охватывает как государственные, так и научные каталоги, а также каталоги геоданных. Поддерживает поиск по территориям на карте, достаточно выделить участок карты Австралии и он выдаст все связанные наборы данных.

- Data.europe.eu - общеевропейский портал открытых данных постепенно вбирающий в себя все наборы данных из национальных порталов Евросоюза и из геопорталов в рамках инициативы INSPIRE и не только. Крупнейший наднациональный портал открытых данных в мире.

- Zenodo - крупнейший репозиторий научных данных в Европейском союзе и крупнейшая инсталляция открытого ПО для ведения коллекций цифровых объектов Invenio. Используется учёными по всему миру для публикации своих данных из-за бесплатности и автоматической выдачи DOI.

#opendata #datasets #data #datasearch

Читать полностью…

Ivan Begtin

В рубрике полезных инструментов для работы с данными Jupyter AI [1] продукта который приносит AI в Jupyter Notebook. Фактически инструмент позволяет объяснять код, генерировать новые тетрадки, искать документацию и переписывать код. Выглядит полезно хотя его ещё не пробовал, но точно стоит попробовать создавая какую-то новую тетрадку в Jupyter.

Ссылки:
[1] https://jupyter-ai.readthedocs.io/en/latest/index.html

#opensource #ai #jupyter

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них канадский портал публикации микроданных опросов посвящённых COVID-19 CITF DATA PORTAL [1] где CITF расшифровывается как he COVID-19 Immunity Task Force, рабочая группа по иммунитету от COVID. В отличие от порталов открытых данных подобные порталы опросов не бывают открытыми в виду того что содержащиеся в них данные содержат персональные данные опрашиваемых или же поскольку персональные данные могут быть из них восстановлены. Такие ресурсы ещё называют каталогами микроданных, их довольно много в мире.

Хотя эти данные редко доступны широкой аудитории, они доступны исследователям через формальные запросы и процедуры их одобрения.

Хотя здесь и нет открытых данных, но есть открытый код и конкретно CITF Data Portal создан на базе открытого ПО для эпидемиологии Obiba Mica [3].

Ссылки:
[1] https://portal.citf.mcgill.ca/
[2] https://www.covid19immunitytaskforce.ca
[3] https://www.obiba.org

#opendata #datacatalogs #microdata #canada

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных CC-MAIN-2021-31-PDF-UNTRUNCATED [1] коллекция из 8 миллионов PDF документов обнаруженных с помощью Common Crawl и выгруженных в единую коллекцию. Включает как сами файлы, так и метаданные по каждому файлу, включая геолокацию каждого документа по IP сервера и метаданные извлечённые с помощью pdfinfo. Отличается от Common Crawl тем что документы в полном размере, а в Common Crawl они обрезаны все до 1 мегабайта.

На момент создания это крупнейший единый корпус PDF документов с наиболее очевидным применением в задачах по digital forensics (цифровому дознанию).

Кстати, для тех кто интересуется, в принципе, данными по этой теме, Digital Corpora [2] это как раз проект с коллекциями документов и данных для обучения цифровому дознанию. Кроме PDF документов там ещё немало всего, дампов устройств, образов дисков, дампов сетевой активности и коллекций файлов.

Ссылки:
[1] https://digitalcorpora.org/corpora/file-corpora/cc-main-2021-31-pdf-untruncated/
[2] https://digitalcorpora.org

#opendata #security #forensics #datasets

Читать полностью…

Ivan Begtin

В рубрике как это работает у них о публикации открытых научных данных в Финляндии. В Финляндии Министерство образования и культуры создало и поддерживает портал Fairdata.fi [1] для распространения подхода принципов FAIR при публикации научных данных [2].

Помимо руководств и обучения инициатива включает 5 проектов помогающих исследователям:
- IDA Research Data Storage
- Etsin Research Dataset Finder
- Qvain Research Dataset Description Tool
- Digital Preservation Service for Research Data
- AVAA Open Data Publishing Platform

Например, система Etsin позволяет искать по более чем 5 тысячам наборам данных и размещать там свои наборы. А в системе AVAA доступны каталоги геоданных.

Кроме всего прочего данные из Etsin доступны на иследовательском портале страны Research.fi [3]. В свою очередь Research.fi был создан в 2020 году как CRIS (Current Research Information System) страны и включает, как открытые научные данные, так и базу публикаций, исследователей, исследовательских центров.

Ссылки:
[1] https://www.fairdata.fi/en/
[2] https://www.go-fair.org/fair-principles/
[3] https://research.fi/en/results/datasets

#finland #research #openaccess #opendata #openscience

Читать полностью…

Ivan Begtin

В рубрике интересных проектов на данных и около финский стартап Spatineo [1] специализирующийся на продаже продукта и услуг для мониторинга использования гео API таких как открытые точки подключения к WFS, WMS и другим. В 2023 году они вошли в топ 100 геокомпаний мира [2], но интересно не только и не столько это.

Spatineo поддерживают каталог из 87700+ точек подключения к API к геоданным по всему миру [3]. По сути это агрегатор геоинтерфейсов и у них же есть полезный гайд о том как заполнять метаданные в своих сервисах [4].

В то же время все что касается данных за пределами Европы и Северной Америки у них не очень. Всего пара точек API в Таиланде, по России почти ничего нет кроме неработающих сервисов wdcb.ru, аналогично по всем постсоветским странам, Китаю и тд.

Поэтому сервис и каталог одновременно интересный из-за огромного числа API для мониторинга и содержит огромные пробелы по странам где геосервисов, не меньше.

В любом случае этот каталог можно рассматривать как ещё один поисковик по данным, в этом случае по геоданным.

Ссылки:
[1] https://www.spatineo.com
[2] https://geoawesomeness.com/global-top-100-geospatial-companies-2023-edition/
[3] https://directory.spatineo.com
[4] https://www.spatineo.com/service-metadata-guide/

#opendata #geodata #spatial #datasearch

Читать полностью…

Ivan Begtin

6 сентября я буду рассказывать про Common Data Index на конференции Smart Data 2023 в Москве. Приходите все кто интересуется глобальным поиском по данным в мире и открытыми данными в частности. Специально для моих подписчиков организаторы предоставили промокод IBegtin2023JRGpc для получения 25% скидки.

Я подозреваю что я один из немногих кто будет рассказывать про свой пэт-проект, даже при том что он весьма немалый. Это будет моё первое выступление именно о нём, я буду рассказывать о том как работают поисковые системы на данных, почему они все фасетные, как собрать все каталоги данных, какие они бывают, о недокументированных API и о том как создать большой поисковый индекс.

Если успею к конференции, то может быть и интерфейс поиска успею показать.

#opendata #datasearch #smartdata #datasets #events

Читать полностью…

Ivan Begtin

Хотелось бы написать что-то хорошее про доступность геоданных в России, но пока только новость о том что в третьем чтении приняли закон о запрете использования иностранных геоинформационных систем [1]. В основном это, как я понимаю, ESRI ArcGIS, по крайней мере в публичном пространстве есть некоторое количество, около десятка в реестре Common Data Index [2].

Хорошо хоть не запретили бизнесу и университетам. В целом же весь этот поток ограничений, когда любое новое регулирование не разрешает что-то, а запрещает - всё это довольно утомительно. Хотя в реестре российского ПО и много продуктов "российских ГИС", однако в мире, за некоторым исключением, всё иначе.

В большинстве стран где не хотят зависеть от "зарубежного" (по факту проприетарного ПО) используют комбинации open source продуктов. Каталоги данных создают на базе Geonetwork, порталы геоданных на базе Geonode, сервера с геоданными на базе Geoserver и геопорталы на множестве продуктов.

И только в России и в Китае штампуют геоинформационные системы только для внутреннего применения.

P.S. Из большей части "российских ГИС" получить данные сильно сложнее по причине отсутствия стандартных API, вроде ArcGIS REST API, CSW и тд. Так что это тоже в минус открытости

Ссылки:
[1] https://www.tadviser.ru/a/53581
[2] https://registry.commondata.io/country/RU

#geodata #spatialdata #opensource

Читать полностью…

Ivan Begtin

В рубрике "как это устроено у них" Oskari [1] продукт с открытым кодом по созданию геопорталов на базе существующих геоданных/геокаталогов, например, каталогов созданных в рамках инициативы INSPIRE.

Продукт создан National Land Survey of Finland, государственной организацией в подчинении Министерства сельского и лесного хозяйства Финляндии.

Его можно привести в качестве успешной государственной работы над открытым кодом, поскольку проект был создан за счёт госбюджета Финляндии, выделен в открытый код, а теперь находится на инкубации в OS Geo.

На базе созданы как минимум 21 геопортал [3], в основном в Финляндии, но и в других странах Северной Европы тоже.

Формально в нем не публикуются открытые данные, но активно используются через интеграцию с Geoserver/Geonetwork/Geonode, а также реализовано собственное документированное API с экспортом картографических слоёв.

Хотя мне не встречались измерения экономического эффекта, наверняка его можно несложно подсчитать сравнив разницу внедрения Oskari с закупкой корпоративного сервера ArcGIS, к примеру.

Ссылки:
[1] https://www.oskari.org
[2] https://wiki.osgeo.org/wiki/Oskari_Incubation_Status
[3] https://www.oskari.org/gallery

#opensource #geospatial #geodata #data #finland

Читать полностью…

Ivan Begtin

К вопросу о каталогах научных данных, я писал про многие инициативы, а про одну всё не упоминал. В научной среде существуют продукты которые называются CRIS (Current Research Information System) которые также называют RIMS (Research Information Management System) [1].

В отличие от систем публикации статей или каталогов научных данных эти системы создаются для учёта всей научной деятельности научной организации/отрасли (научной дисциплины) или страны. Например, в CRIS вносятся данные по исследовательским центрам, исследователям, научным публикациям, данным, лабораториям, оборудованиям и так далее.

Такие системы могут быть как внутренними, так и открытыми. В последние годы эти системы почти все являются открытыми, или по большей части открытыми, но есть они далеко не у всех исследовательских центров и университетов, но их становится всё больше. Большая их часть создаётся на базе примерно десятка коммерческих продуктов и некоторого числа продуктов с открытым кодом.

Для университетов у которых есть такие системы, публикация данных является частью таких систем.

Реестр таких систем ведёт НКО euroCRIS [2] существующая при поддержке Евросоюза, этот реестр называется DRIS [3], там 1387 репозиториев по всему миру, большая часть из которых находятся в Индии и Норвегии, но, в принципе, рассеяны по всему миру.

Данные из систем CRIS собираются в глобальные агрегаторы такие как OpenAIRE, для чего разработан стандарт CERIF [4] для описания метаданных и для их предоставления через REST API, а у OpenAIRE есть ещё и подробное руководство для работы CRIS систем [5].

Большая часть CRIS систем - это университетские системы, но есть и крупные национальные CRIS системы в: Австралии, Испании, Финляндии и многих других странах. В реестре DRIS упомянуто 24 такие системы национального уровня, о каждой из них можно рассказывать долго и по отдельности.

Так вот CRIS системы можно также рассматривать как каталоги открытых научных данных, с оговоркой что данные там не приоритет, а скорее сопутствующий результат, а основное - это функции предоставления информации о всех результатах и инструментах исследований.

И, напоследок, можно посмотреть как это устроено на примерах националных CRIS систем, в Бразилии BrCRIS [6], в Словакии [7], в Латвии [8], в Норвегии [9].

Ссылки:
[1] https://en.wikipedia.org/wiki/Current_research_information_system
[2] https://eurocris.org/
[3] https://dspacecris.eurocris.org/cris/explore/dris
[4] https://eurocris.org/services/main-features-cerif
[5] https://guidelines.openaire.eu/en/latest/cris/index.html
[6] https://brcris.ibict.br
[7] https://www.skcris.sk/portal/
[8] https://sciencelatvia.lv
[9] https://www.cristin.no/

#openaccess #openresearch #opendata #research

Читать полностью…

Ivan Begtin

В рубрике как это работает у них польская платформа для медицинских исследований PPMR [1] включает множество открытых реестров публикаций, тезисов, исследователей, лабораторий, исследовательских подразделений, патентов, инфраструктуры и, конечно же, исследовательских данных коих там 407 наборов данных. Предоставляют API на базе REST API, GraphQL и OAI-PMH. Работает на базе ПО Omega-PSIR [2] разработанного Варшавским университетом и используемое более чем 40 научными институтами в Польше. Например, тем же Варшавским университетом [3].

Ссылки:
[1] https://ppm.edu.pl
[2] https://www.omegapsir.io/
[3] https://repo.pw.edu.pl

#opendata #datasets #openaccess #openresearch #poland

Читать полностью…

Ivan Begtin

Я как и почти все регулярно смотрю социальную фантастику вроде Черного зеркала и вижу много интересных тем будущего, но также вижу и дефицит сюжетов связанных с изменением технологий и отношения общества к ним, в попытке продумать альтернативы я сделал следующие наброски сеттингов будущего в которые можно поместить сюжеты.

Аккредитованный программист
Мир в котором произошли несколько масштабных катастроф из-за ошибок программистов. Все цифровые компании подлежат обязательной аккредитации, проверкам и аудиту. Программисты приравнены к врачам, должны проходить обязательное обучение, аналог ординатуры, допуски к работе над проектами по категориям. Программные ошибки могут быть основанием для привлечения к уголовной ответственности. Любое неаккредитованное программирование преследуется.

Авторов больше нет
Мир в котором авторское право запрещено как и любая форма владения интеллектуальной собственностью. Признаётся только имущественное право на физические объекты и запрещено владеть правами на книги, фильмы, программы, тексты статей и тд. Все произведения кроме опасных принадлежат человечеству, а опасные принадлежат государствам. Сюжет может быть построен на нищенствующих писателях и фотографах и на том что корпорации создают сверхзащищённые хранилища результатов разработок и придумывают как делать продукты чтобы никто не смог их воспроизвести.

Учёт виртуальных убийц
Государства всерьёз начинают бороться с насилием в компьютерных играх, вводятся обязательные требования по идентификации игроков для любых игр и обязательном предоставлении информации о том сколько игрок тратит времени на игру, Информацию игрового профиля могут получить правоохранительные органы для профилактики, проверить работодатели при трудоустройстве и в других ситуациях. Сюжет может быть построен на полицейском обходе игроков компьютерных игр и задержании за "виртуальные убийства".


#thoughts

Читать полностью…
Subscribe to a channel