begtin | Business and Startups

Telegram-канал begtin - Ivan Begtin

7027

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Subscribe to a channel

Ivan Begtin

Не обещаю часто пересылать сюда стихи, но уже почти 1е апреля, так что раз в год можно;)

Читать полностью…

Ivan Begtin

Меня сильно меньше в последнее время интересует состояние госинформатизации в России, слишком много антипримеров, слишком очевидны причины провалов и ещё много чего. Поэтому пишу я всё реже по этой теме и вот только сейчас не сдержусь, но опять же в контексте не только российской информатизации.

РБК пишут [1] про то что у Счетной палаты возникли претензии с порталу Работа для всех [2] с логичными вопросами о том что же так получается, столько денег потрачено, а работает хреноватенько, по сравнению с коммерческими порталами. Вопросы все, наверное, справедливые, претензии правильные и всё такое.

Вот только проблема в другом, проблема, я бы сказал, куда серьёзнее. Проблема в том что государство в лице Роструда вышло на создание продукта для массового потребителя в ситуации активного, конкурентного и состоявшегося рынка. Кроме HH и SuperJob существуют десятки если не сотни сервисов поиска вакансий и специалистов формирующих довольно успешные экосистемы с хантерами, работодателями, другими сервисами и игроками на рынке.

Так вот, ключевое в том что на этом рынке государству с самого начала делать нечего, портала Труд Всем просто не должно было существовать потому что трата денег на него - это бессмысленное сжигание средств налогоплательщиков. Я подозреваю что если аудиторы СП заглянули не только в статистику посещаемости, а ещё и опросили бы HR'ов компаний нужен ли им такой портал, оказались бы выводы куда плачевнее.

Но ведь есть Роструд скажете вы, есть центры занятости, они же там не собачий censored censored, а делом занимаются, им же нужны аналитика и данные. Так вот что я скажу, государство должно регулировать и обеспечивать мониторинг, сложившийся активный рынок продукты создаст сам. Если центры занятости хоть зачем-то ещё нужны (а есть сомнения) то всё что должен был сделать Роструд - это предоставлять собираемые из центров данные порталам поиска работы как открытые данные, через дампы и через API.

Второе что должен был Роструд делать - это собирать аналитику, статистику и ещё многие данные от коммерческих игроков для мониторинга рынка труда, публикуя хоть еженедельно аналитику по зарплатам, ожиданиям работников, востребованности профессий и так далее.

Вышло бы дешевле и было бы эффективнее. Но дешевле это не про российские ФОИВы.

А теперь у ТрудВсем одна судьба, переходить на Гостех как можно скорее. Почему? Потому что все тухлые яйца в одной корзине ронять проще!

Ссылки:
[1] https://www.rbc.ru/technology_and_media/30/03/2023/64242ef19a7947e130ede9d4
[2] https://trudvsem.ru/

#government #russia

Читать полностью…

Ivan Begtin

Как развивается цифровая инфраструктура научных данных во Франции. С 2022 года действует проект Un écosystème au service du partage et de l’ouverture des données de recherche (Экосистема на службе обмена и открытия данных исследований ) в виде сайта recherche.data.gouv.fr [1] которая является, с одной стороны частью национального портала открытых данных data.gouv.fr [2], а с другой реализуется Ministère de l'Enseignement Supérieur et de la Recherche (Министерством управления образованием и наукой) в рамках Le deuxième plan national pour la science ouverte (Второго национального плана по открытости науки 2021-2024 включающего темы открытости публикаций, открытости научных данных и открытости программного кода созданного в результате научных исследований.

Особенность французской научной экосистемы в большом числе автономных исследовательских центров которые в рамках этого проекта объединены через специальный комитет Министерства и как участники проекта в ролях кластеров данных (междисциплинарных центров) [4], центром компетенций, ресурсных центров и других участников.

Один из уже доступных результатов проектов - это национальный репозиторий открытых научных данных Recherche Data Gouv Génération datapaper (entrepot.recherche.data.gouv.fr) [5] созданный на базе продукта Dataverse. Там уже опубликованы 2413 наборов данных и 30 тысяч файлов из которых часть данных будет собираться из других научных репозиториев, сейчас подключен SciencesPo [6] и явно будут подключаться другие в течение 2023 года, благо Dataverse это позволяет без особых сложностей.

Одна из целей проекта в том чтобы стать службой европейского открытого научного облака (EOSC) [7], а то есть расширить интеграцию французских исследовательских центров в Европейскую цифровую научную инфраструктуру и, хотя это явно не заявляется, но кажется очень логичным, спозиционировать национальный портал исследовательских данных как один из универсальных репозиториев рекомендуемых ведущими научными изданиями для размещения данных.

В конце концов у китайцев же получается с SciDb [8], так может получится и во Франции, хотя это и выглядит слегка необычно поскольку в Евросоюзе есть наднациональные универсальные репозитории.

Интересно как будет развиваться дальнейшая интеграция раскрываемых государством данных и этого исследовательского портала, рискну предположить появление единого французского поисковика по всем открытым порталам данных, научным и государственным, потому что их много и не все собраны только в федеральных источниках и не все туда агрегируются.

Ссылки:
[1] https://recherche.data.gouv.fr/fr
[2] https://data.gouv.fr
[3] https://cache.media.enseignementsup-recherche.gouv.fr/file/science_ouverte/20/9/MEN_brochure_PNSO_web_1415209.pdf
[4] https://recherche.data.gouv.fr/fr/page/ateliers-de-la-donnee-des-services-generalistes-sur-tout-le-territoire
[5] https://entrepot.recherche.data.gouv.fr
[6] https://data.sciencespo.fr
[7] https://recherche.data.gouv.fr/fr/page/a-propos-de-recherche-data-gouv
[8] https://scidb.cn

#likbez #france #openaccess #opensciences #datasets #datacatalogs #opendata

Читать полностью…

Ivan Begtin

Реестр иностранных агентов в CSV

По мотивам поста Ивана Бегтина. Минюст публикует единый реестр иностранных агентов в виде PDF файла (на момент написания поста 18 страниц и 559 записей). При этом сам реестр, судя по метаданным, ведется в MS Excel 2013, но сохраняется в формате PDF. Написал на R скрипт для скачивания PDF файл с сайта Минюста и извлечения данных с помощью пакета

tabulizer
. Результат сохраняется в csv и google-таблицы. Скрипт выполняется по расписанию на моем сервере. Автоматическое обновление – каждую пятницу в 20.00 МСК. В google-таблицах размещается исходная таблица реестра, а также дополнительные поля:
• Физлицо (1 – да, 0 – нет)
• Возраст ФЛ на дату обновления данных
• Возраст ФЛ на дату включения
• Возраст ФЛ на дату исключения
• Дней в реестре
• Исключен (1 – да, 0 – нет)
• Год включения
• Год исключения

#opendata #dataset #R

Читать полностью…

Ivan Begtin

Подборка регулярного чтения про данные, технологии и не только:
- A Eulogy for Dark Sky, a Data Visualization Masterpiece [1] о визуализации данных в погодном приложении The Dark Sky для iOS и там же про наглядные решения контекстуализации данных. Я бы добавил этот термин в словарь "констектуализация данных" - это когда данные у Вас есть, но Вы подаёте их в том виде в каком они наиболее информативны и наглядны именно в том контексте/приложении/среде в которой их смотрят. А это приложение погоды отличный пример

- The Beginner's Guide to Databases [2] для новичков желающих разобраться в базах данных отличное руководство, оно не покрывает очень много чего, но одновременно даёт все нужные вводные для старта работы

- Meet Alpaca: Stanford University’s Instruction-Following Language Model that Matches GPT-3.5 Performance [3] новый интересный продукт как альтернатива GPT-3.5 под названием Альпака, главные отличия в открытости и меньших требованиях к железу. Открытый код главное преимущество [4]

- Finding Undocumented APIs [5] автор пишет про мою любимую тему, обнаружение недокументированных API. Я несколько выступлений и лекций проводил за эти годы про поиск и нахождение недокументированных API и ещё немало трюков могу рассказать о том как API находить, помимо перехвата запросов браузера к серверу. Так вот два самых очевидных способа часто срабатывающих:
* 1) Поискать API поиском Гугла на сайте явным образом вроде "REST API site:roskachestvo.gov.ru" и результат может удивить
* 2) Выяснить на каком программном продукте работает сайт и проверить не сохранилось ли в нём API идущее по умолчанию, у многих продуктов такое есть. Пример: Архив оцифрованных материалов Национальной электронной детской библиотеки РФ arch.rgdb.ru работает на движке DSpace, а у DSpace по умолчанию API доступно по ссылке /rest, проверяем, ага, вот и оно https://arch.rgdb.ru/rest/
Я могу не то что презентацию, а целый курс прочитать только по этой теме. Тем не менее ту статью рекомендую, часто информацию о API приходится выковыривать из сессий браузера.

- Data wrangling essentials: comparisons in JavaScript, Python, SQL, R, and Excel [6] сравнение функций преобразований данных в Excel, Python, R, SQL и Javascript. Полезно для тех кто вынужден пользоваться 2-3 языками/синтаксисами. Python там, правда, это не совсем Python, а конкретно Pandas, но текст от этого ценности не теряет.

Ссылки:
[1] https://nightingaledvs.com/dark-sky-weather-data-viz/
[2] https://technically.substack.com/p/the-beginners-guide-to-databases
[3] https://pub.towardsai.net/meet-alpaca-stanford-universitys-instruction-following-language-model-that-matches-gpt-3-5-490a38114a7e
[4] https://github.com/tatsu-lab/stanford_alpaca
[5] https://inspectelement.org/apis.html
[6] observablehq/data-wrangling-translations" rel="nofollow">https://observablehq.com/@observablehq/data-wrangling-translations

#opensource #readings #api #data #guides

Читать полностью…

Ivan Begtin

Миром правят кровь, любовь и риторика... с негативной эмоциональной нагрузкой

C 2000 года идёт рост использования слов связанных с негативными эмоциями в заголовках наиболее популярных (англоязычных) СМИ [1]

Ссылки:
[1] https://twitter.com/george__mack/status/1640010316468858880

#media

Читать полностью…

Ivan Begtin

Politico: Франция будет использовать камеры наблюдения на базе ИИ для Олимпийских игр 2024

– Франция создает прецедент в сфере наблюдения для ЕС
– Камеры на основе ИИ будут работать в реальном времени
– ИИ определит странное поведение, брошенные вещи и др.
– Власти одобрили инициативу после 7 часов жарких дебатов
– При этом 40 чиновников ЕС просили их голосовать против
– Также против выступают разные защитники цифровых прав
– Еще решение противоречит новому законопроекту ЕС об ИИ
– Оно также может потом стать постоянным, как было в Китае

@ftsec

Читать полностью…

Ivan Begtin

Вдогонку к тексту об исчезновении портала открытых данных data.gov.ru [1] прокомментирую желание сотрудников Минэка "проконсультироваться с рынком". Я могу сказать однозначно - это глубочайшее заблуждение что рынку нужен именно портал открытых данных.

Бизнесу нужны очень конкретные данные. Базы индикаторов, законов, юр. лиц, госзакупок, геоподосновы, реестров и так далее. Зависит от отрасли и задач, зависит от применения и так далее, но почти всегда это нечто очень конкретное. Порталы открытых данных - это лишь одна из форм представления этих данных которые чаще всего публикуются самими органами власти и иными госструктурами на своих сайтах или в своих информационных системах.

Для бизнеса гораздо важнее наличие госинициативы по раскрытию данных и возможность взаимодействовать с Пр-вом по доступу к тем данным которые ему нужны. В этом смысле порталы открытых данных - это лишь форма/инструмент, и не факт что лучший, для такого доступа.

Так зачем нужны порталы открытых данных и кому?

В мире такие порталы выполняют три основных функции:
- поисковая система/агрегатор для удобного поиска по данным
- сообщество и инструмент вовлечения пользователей
- система управления и распространения данными гос-ва

В форме поисковой системы существуют порталы большинства крупных стран - Франции, США, Индии, Австралии и других. Внутри портал является агрегатором в котором собираются метаданные из десятков и сотен других систем раскрытия данных. Особенно в Австралии яркий пример, где разработали специальный движок Magda работающий поисковиком поверх десятка федеральных порталов с данными.

В форме сообщества особенно заметны порталы открытых данных Индии и Франции, где изначально были предусмотрены и обсуждения наборов данных, и команды явно работали над вовлечением аудитории в дискуссии. Во Франции на госпортале открытых данных публикуются не только госданные, но, например, там есть данные Open Food Facts [2]

И третье применение, когда тема открытых данных является ключевой и значимой в государстве и портал оказывается ещё и инструментом распространения справочных данных и с самого начала разрабатывается как часть цифровой инфраструктуры государства. В этих случаях меньше акцентов на политической ответственности транспарентности и больше на практических задачах государственных информационных систем. Таких примеров тоже много.

Так кто аудитория порталов открытых данных? Их аудитория - это потребители государственной информации из самых разных групп. Это НКО решающие социальные проблемы, это журналисты пишущие статьи на данных, это аналитики, это исследователи и учёные ссылающиеся на данных в своих статьях и это географы/геоинформатики и все остальные работающие с геоданными и, конечно, это разработчики программных продуктов и сервисов.

У них гораздо чаще возникают задачи именно поиска и обсуждения конкретных наборов данных и потребность в использовании порталов открытых данных как поисковиков, в тех случаях когда те сделаны достаточно хорошо и хорошо собирают метаданные о наборах данных и сами наборы данных.

Задачи бизнеса в этом смысле иные. Единожды найдя первоисточник, подключится к нему и иметь канал связи с его разработчиками если что-то идёт не так. Это не значит что предприниматели не пользуются порталами открытых данных, это означает что их модель потребления данных существенно отличается.

Всё это о том что наличие действующей государственной инициативы по раскрытию данных, публикация данных по запросу бизнеса, НКО, отраслевых ассоциаций и специалистов, значительно важнее чем наличие портала открытых данных за 50 миллионов рублей.

Можно сделать портал хоть за 100 тысяч рублей на каком-нибудь движке с открытым кодом типа JKAN [3] или ещё с десяток простых решений за копейки, гораздо важнее то чем Вы его наполняете, с какими аудиториями работаете, и раскрываете ли ключевые данные.

Ссылки:
[1] /channel/begtin/4714
[2] https://www.data.gouv.fr/fr/organizations/open-food-facts/
[3] https://github.com/OpenDataScotland/jkan

#opendata #russia #thoughts

Читать полностью…

Ivan Begtin

Один из лучших порталов открытых данных с акцентом на статистические данные совершенно неожиданно для меня обнаружился в Малайзии. OpenDOSM [1] проект Департамента статистики Малайзии (аналог российского Росстата) сделали портал с открытым кодом [2] в котором учли что среди пользователей портала есть ещё и дата сайентисты и отдают данные сразу в формате parquet, и в оригинальном csv и приводят пример кода на Python.

И дашборды, нормальные дашборды как это принято в BI системах совмещённых с каталогами данных. Вообще, конечно, хочется чтобы наконец обновлённые технологические инструменты пришли в официальную статистику потому что все эти многичисленные древние и узкоотраслевые системы вроде pxweb и им подобным кажутся архаичными.

Ссылки։
[1] https://open.dosm.gov.my
[2] https://github.com/dosm-malaysia?tab=repositories

#opendata #malaysia #datasets

Читать полностью…

Ivan Begtin

Ссылки։
[1] https://economy.gov.ru/material/open_data/informaciya_dlya_polzovateley_informacionnoy_sistemy_portal_otkrytyh_dannyh_datagovru.html
[2] https://www.kommersant.ru/doc/5889649
[3] https://hubofdata.ru/dataset/datagovru-20220202
[4] /channel/begtin/3508

#opendata #government #itmarket #closeddata #russia

Читать полностью…

Ivan Begtin

О том как развивается научная инфраструктура, на примере, Австралии где с 1 января 2023 года начался полугодовой проект Australian National Persistent Identifier (PID) Strategy and Roadmap [1] по разработке дорожной карты и стратегии внедрения постоянных идентификаторов (PID) ко всем результатам, процессам, объектам, субъектам и вообще всему значимому в научной деятельности.

Этому проекту предшествовал доклад Incentives to Invest in Identifiers [2] о том как сейчас постоянные идентификаторы используются австралийскими исследовательскими центрами и, если вкратце, то там сложилась уже весьма зрелая инфраструктура с использованием DOI (Crossref, Datacite), Handle, PURL, ORCID, RoR, RaiD, IGSN и ещё многих других идентификаторов.

В исследовании есть отсылка к тому что подобная же работа идёт в Великобритании.

Похожий системный подход к постоянным идентификаторам есть в Китае, где наряду с DOI используют свой национальный идентификатор CSTR, но китайский опыт, почему-то, австралийцы в исследовании не упоминают.

Почему это важно? Для анализа любых научных данных критично иметь возможность "связывать данные" многочисленных систем учёта и управления научной деятельностью. В публичном доступе используются открытые и коммерческие графы знаний которые построены на такой связности идентификаторы, в непубличном доступе есть возможность связывать с другими данными.

Что интересно в австралийской инициативе - это взгляд на весь этот процесс с точки зрения экономии времени исследователей и средств государства, и в докладе, и в стратегии закладывается финансово-экономическое обоснование всего проекта.

Ссылки։
[1] https://ardc.edu.au/project/australian-national-persistent-identifier-pid-strategy-and-roadmap/
[2] https://ardc.edu.au/resource/incentives-to-invest-in-identifiers-report/
[3] https://www.cstr.cn/en/

#openaccess #science #persistentidentifier #scientificifrastructure

Читать полностью…

Ivan Begtin

По поводу того что в Минцифре анонсировали создание "российского Pornhub (простите - Github)" и то что на это будет направлено 1,3 млрд. рублей, это примерно 16 миллионов долларов США) [1] все уже по десять раз обсудили. А я вот, честно говоря, не считаю её глупой или бессмысленной, я выражу сомнения иначе. С момента запуска Github привлёк $350 миллионов долларов США [2], а его ближайший конкурент Gitlab и того больше, $413.5 миллионов долларов США [3].

Поэтому, скажу так, сравнивать национальные страновые репозитории для раскрытия кода связанного с госпроектами и компании формирующие глобальную цифровую инфраструктуру - некорректно. Корректнее сравнивать с некоторыми национальными инициативами по раскрытию государственного кода с такими как Чешский портал code.gov.cz [4], хотя в большинстве стран репозитории кода разворачиваются на базе Gitlab отдельными органами власти и синхронизуются с открытыми репозиториями на Github.

Как бы то ни было, раскрытие кода созданного по госзаказу и в рамках создания госпроектов на централизованном репозитории - это идея скорее здравая, главное чтобы тут политической воли хватило это реализовать.

Поэтому если кратко то я готов поверить что можно сделать систему раскрытия кода, но у меня есть сомнения что вот так просто получится создать сообщества разработчиков которыми являются Github и Gitlab, для этого и среда не та, и ресурсы не те.

Но я обращу внимание на другое, ведь важно не только то о чём пишут, а то что не упоминают. В истории с национальным репозиторием кода не упоминается что? Правильно, Гостех.
Хотя, казалось бы, национальный репозиторий кода - это как раз базовая государственная цифровая инфраструктура, но Гостеха тут нет, что лично для меня в очередной раз означает что Гостех сейчас, либо сливают, либо "локализуют в отдельную зону чтобы не мешал"․

Ссылки։
[1] https://www.forbes.ru/tekhnologii/486349-zamglavy-mincifry-maksim-parsin-ne-hotim-izolacii-no-nam-nuzen-svoj-repozitorij
[2] https://www.crunchbase.com/organization/github/company_financials
[3] https://www.crunchbase.com/organization/gitlab-com/company_financials
[4] https://code.gov.cz

#opensource #russia #regulation #government #code

Читать полностью…

Ivan Begtin

Правительство теперь официально может засекречивать любую статистику. Как минимум 14 ведомств уже это сделали – причем еще до принятия нового закона

В конце февраля Госдума приняла закон, позволяющий правительству приостанавливать публикацию любой государственной статистики. По факту этот процесс идет уже давно: мы рассказывали, что за первые полгода с начала военного конфликта с Украиной как минимум 10 ведомств закрыли свою статистику.

Теперь их стало еще больше. Мы насчитали 14 органов власти, которые частично или полностью ограничили доступ к своим данным. Некоторые полностью закрыли разделы со статистикой, другие – частично ограничили доступность.

Например, Минфин закрыл доступ к оперативным данным о доходах и расходах бюджета, но их все еще можно вытащить обходными путями – через виджет на сайте.

Из хороших новостей: в экономической статистике наметилась небольшая оттепель. ФТС частично возобновила публикацию данных по внешней торговле (которые и так можно было собрать), о планах вернуть обязательную отчетность банков заявил Центробанк.

С другой стороны, среди закрытых показателей больше всего было именно экономических. Так что сломить тренд на снижение доступности данных это не сможет.

👉 подробнее – на нашем сайте

Читать полностью…

Ivan Begtin

В Китае в состав правительства войдёт новая структура National Data Administration создаваемая для контроля за приватностью и безопасностью данных [1]. Подробностей всё ещё мало, но показательно что это именно структура в составе правительства, а то есть с достаточно серьёзными полномочиями. Есть эксперты кто считают что создание этой структуры - это кульминация китайской национальной стратегии данных [2], а также нельзя не упомянуть бюро по большим данным которые создавались в китайских провинциях с 2015 года [3], правда было немало сомнений выживет ли эта инициатива в принципе [4].

В любом случае создание специальной правительственной структуры - это серьёзный шаг на который могут обратить внимание и регуляторы других стран. Будет ли такая практика воспроизводится? Думаю что мы узнаем об этом до конца 2023 года.

Ссылки։
[1] https://www.technologyreview.com/2023/03/15/1069814/china-new-bureau-data-economiy/
[2] https://twitter.com/freefader/status/1633070438766239745
[3] https://merics.org/en/short-analysis/china-activates-data-national-interest
[4] https://thechinaproject.com/2022/10/11/the-chinese-government-wants-a-data-trading-market-but-it-may-never-happen/

#privacy #data #regulation #government #china

Читать полностью…

Ivan Begtin

Из интересного про YTsaurus от Яндекса
- полноценный продукт для операций MapReduce, замена Hadoop'а для тех кто ещё его использовал
- внутри работа с ClickHouse, YDB и Apache Spark, ИМХО, интереснее всего использование ClickHouse, хотя и было бы интересно посмотреть на бенчмарки
- собственный аналог виртуальной файловой системы и хранилища метаданных Cypress
- собственные форматы хранения данных YSON и Skiff. YSON как замена JSON с несколькими дополнительными типами данных и Skiff как бинарный формат похожий на Protobuff.
- в опубликованном коде нет UI кроме командной строки и примеров кода, потенциальная возможность для стартапов по созданию онлайн сервисов с веб уи и настройкой под себя, как это со многими другими опен сорс продуктами по модели։ открытый код + облачная подписка? просто предположение
- особенность в том что он реально про данные большого объёма, условно от десятков терабайт, хотя в Success Stories приведены примеры с сотнями терабайт. Если работа идёт с меньшим объёмом данных, то скорее всего это будет overkill, а вот если объём и инфраструктура разумно велики, то надо пробовать.

По всем ощущениям продукт очень интересный, хочется в будущем увидеть более подробные его разборы на конкретных кейсах применения и сравнениями.

#opensource #datatools #dataops #dataengineering

Читать полностью…

Ivan Begtin

Целенаправленный поиск данных в мире привычно называется data discovery (или "обнаружение данных") и его применение можно разделить на корпоративное и общедоступное.

Корпоративное применение этого термина - это про корпоративные каталоги данных, специальные внутренние инструменты для идентификации всех используемых баз данных, таблиц в них и сопровождающей информации. Корпоративные задачи data discovery - это идентификации персональных данных и соответствие требованиям законодательства, это систематизация данных для работы аналитиков, инженеров и разработчиков и, реже, но набирающее популярность применение - это идентификация данных для машинного обучения.
Всё это решается коммерческими или открытыми продуктами вроде Open Metadata, Datahub и им подобным. О том что это подробнее на английском можно легко нагуглить, или прочитать, например, тут [1]. Как-нибудь я напишу об этом этом подробнее в лонгрид в рассылку

Параллельно этом data discovery среди общедоступных данных - это поиск данных необходимых для исследовательских или рабочих задач. Как правило, это поиск открытых данных, либо данных имеющих какой-либо регламентированный доступ или возможность их запросить. Наиболее очевидный способ поиска - это привычные поисковые системы где вбиваешь что ищешь и добавляешь слова "data" или "dataset', чуть менее очевидный, но специализированный - это воспользоваться поиском Google для наборов данных он всё ещё экспериментальный, сильно зашумлённый SEOшниками коммерческих продуктов [3], но пока ничего другого сравнимого нет. Ни в Bing, ни в Ya[ndex] ничего подобного нет.

Есть ли альтернативы? Какие ещё системы поиска по данным существуют? Они есть, их не так много и они чаще всего специализированы.
Итак:
- ArcGIS Hub search https://hub.arcgis.com/search - поисковая система по наборам данных опубликованных клиентами сервиса ArcGIS Hub, используемом широко в мире (в основном в США) для публикации геоданных и открытых данных. Это один из крупных поисковиков именно по разным геоданным.
- OpenAIRE explore.openaire.eu - поисковая система по результатам научной деятельности (research output) в Евросоюзе, в первую очередь, но не только. Наборы данных подпадают под научную деятельность и OpenAIRE крупнейший индексатор и поисковик по подобным данным.
- Datacite Commons commons.datacite.org - DataCite является одним из сервисов выдачи DOI со специализацией на данных. Их поиск работает по всем работам получавшим DOI через их сервис. Являются одним из источников для OpenAIRE
- Da | Ra www.da-ra.de - поисковая система по открытым научным данным Германии
- DANS EASY easy.dans.knaw.nl - поисковая система по открытым научным данным Нидерландов
- DataMed datamed.org поисковая система по наборам данных в медицине

Этот список неполон, я постарался указать лишь наиболее известные поисковые системы и обращаю внимание что в основном они создаются вокруг данных открытости науки. Исключение лишь ArcGIS Hub, но сколь долго он будет существовать неизвестно, поскольку коммерческая польза для него для компании неочевидна.

А вот в сторону всё большего ухода в концепцию о том что open data = open research data уходят очень многие системы инфраструктуры открытости. Google Datasets в документации и дорожной карте показывают всё более тесную интеграцию с научными дата репозиториями, индексацию ORCID, DOI, ROR, связывание научных статей и цитируемых ими научных данных. Я лично не удивлюсь если в какой-то момент Google объединят поиск по наборам данных и Google Scholar. Во всяком случае в этом будет некая существенная логика.

Ссылки:
[1] https://snowplow.io/blog/data-discovery/
[2] https://datasetsearch.research.google.com/
[3] ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d" rel="nofollow">https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d

#opendata #datadiscovery #datasearch #datasets #likbez

Читать полностью…

Ivan Begtin

Вдогонку к рассказу о том французской инфраструктуре открытых научных данных, ещё один французский проект по мониторингу открытости науки. Он так и называется the French Open Science Monitor [1] и построен на мониторинге публикаций открытого доступа с Crossref DOI. Очень удобно когда все исследователи в стране публикуют статьи только с DOI и отмечают какие публикации открытые, а какие нет.

А также отдельно они мониторят упоминания наборов данных и программных продуктов в научных статьях. Например, по наборам данных, упоминания выросли с 13% до 22% всех статей.

Чуть ли не самый знаковый показатель - это число статей в которых есть отметка о доступности данных, звучит как Data Availability Statement. Так вот число таких статей выросло с 1% в 2013 году, до 21% в 2021 году. О том что это такое можно почитать например в разделе открытых исследований ЕС [2]

Французский опыт наблюдения за открытостью науки весьма неплохо даёт представление о KPI которые может/должно ставить профильное министерство в реализациях программ по открытости науки, в странах где такие планы есть или предполагаются.

Ссылки:
[1] https://frenchopensciencemonitor.esr.gouv.fr/
[2] https://open-research-europe.ec.europa.eu/for-authors/data-guidelines#dataavailabilitystatement

#opendata #openscience #openaccess #france #europe

Читать полностью…

Ivan Begtin

Google выложили в открытый доступ локальную версию СУБД AlloyDB [1] которую в прошлом году сделали доступной как сервис в своём облаке. Теперь можно скачать бесплатную версию для разработчиков и экспериментировать на своём локальном компьютере. Из заявленных фич AlloyDB - это совместимость с PostgreSQL с более чем 2-х кратным ускорением и колоночные таблицы для ускорения ряда типов запросов. Звучит достаточно интересно чтобы попробовать, насколько интересно чтобы делать на это ставку лично я пока сомневаюсь, потому что бесплатная девелоперская версия означает что в продакшн всё равно надо разворачивать на инфраструктуре Google, а это лишь очередная модель облачного vendor lock-in, лично я не люблю такие ограничения, даже при очень интересных технологиях. К тому же исходный код AlloyDB закрыт, контрибьюта в исходный код PostgreSQL также не планируется.

Не могу не напомнить что совместимых с Postgres баз данных множество и многие - это весьма активные стартапы. У Hasura есть перечень таких СУБД с которыми они работают [2], например, Neon, о которых я писал в июле 2022 г. [3], но у Neon переписанный бэкэнд с открытым кодом [4] как и у ряда других Postgres совместимых СУБД.

А вот реализация колоночных таблиц очень напоминает про Clickhouse, StarRocks и др. подобным продуктам и, быть может, в этой фиче Гугл позиционируют AlloyDB как их альтернативу. Но, опять же, выбирая между близкими по производительности продуктами с открытой лицензией и открытым кодом и без оной, с vendor lock-in и без него, выбор очевиден.

Мне лично особенно не нравится облачный vendor lock-in, потому что одно дело если ты можешь купить корпоративную лицензию, но у тебя потом есть время на миграцию, и другое дело когда ты зависишь от создателя продукта не только разрешением на его использование, но и инфраструктурно.

Поэтому возвращаясь к альтернативам, напомню про Citus [5] которые также реализовали колоночное хранилище для Postgres и с открытым кодом, именно его использует Microsoft в Azure Cosmos DB [6].


Ссылки:
[1] https://cloud.google.com/blog/products/databases/run-alloydb-anywhere
[2] https://hasura.io/docs/latest/databases/postgres/index/
[3] /channel/begtin/4113
[4] https://github.com/neondatabase/neon
[5] https://www.citusdata.com/
[6] https://learn.microsoft.com/en-us/azure/cosmos-db/postgresql/concepts-columnar

#opensource #dbms #google

Читать полностью…

Ivan Begtin

Один из важнейших элементов научной инфраструктуры данных - это так называемые универсальные репозитории (Generalist data repositories), хранилища научных данных не привязанные ни к одной из научных дисциплин и при этом дающие возможность сохранять данные условно любого объёма и с метаданными/описанием пригодным для интеграции в другие цифровые продукты и элементы цифровой научной инфраструктуры.

У журнала Nature есть неплохая подборка со списком всех хранилищ данных по их темам и, в том числе, список универсальных хранилищ [1], это:
- Dryad Digital Repository http://datadryad.org/
- figshare https://figshare.com
- Harvard Dataverse https://dataverse.harvard.edu
- Open Science Framework https://osf.io
- Zenodo https://zenodo.org
- Science Data Bank https://scidb.cn

Можно обратить внимание что тут есть китайский SciDb и китайские научные власти приложили немало усилий чтобы превратить SciDb в полноценный открытый репозиторий с интеграцией, например, с OpenAIRE. В то же время тут нет Mendeley Data от Elsevier потому что его как открытый репозиторий не рассматривает как минимум редакция Nature.

Подобные списки есть и в других изданиях, а также у многих университетов в специальных руководствах в статьях "Choosing a data repository' или "Selecting a data repository".

Помимо универсальных репозиториев есть ещё и тысячи узкодисциплинарных, привязанных к конкретным отраслям и часто включающим не только/не столько наборы данных в чистом виде, но добавления к существующим базам структурированных объектов. Например, репозиторий Vivli [2] для хранения исследовательских данных клинических исследований построен вокруг исследований (study), а не наборов данных, а исследования, в свою очередь, включают специфичные атрибуты для данной дисциплинарной области.

Ещё один подвид научных репозиториев данных - это университетские репозитории данных, чаще от одного университета, реже, но бывает, от их группы/ассоциации. Но и в этом случае создатели таких репозиториев стараются создавать профили на портале Re3Data [3] поскольку за последние годы многие издания стали рекомендовать выбирать репозиторий именно из этого каталога, при соблюдении ряда условий, таких как публикация на принципах FAIR [4].

Научные репозитории данных можно рассматривать как один из "индикаторов жизни" научных дисциплин в странах, наряду с числом публикаций, патентов, цитирований, активных исследователей и т.д.

Одним из важнейших трендов в современной цифровой научной инфраструктуре в распространении принципов открытости данных. Они касаются не только новых исследований, но и существующих архивов ранее доступных учёным только по запросу.

Открытость научных данных является одним из важнейших трендов в развитии открытости данных в мире, в ряде стран национальные порталы открытых данных уже интегрируются в научную инфраструктуру (США, Франция), в других это есть в планах.

Ссылки:
[1] https://www.nature.com/sdata/policies/repositories
[2] https://vivli.org/
[3] https://www.re3data.org
[4] https://www.go-fair.org/fair-principles/

#likbez #openscience #openaccess #data #datacatalogs

Читать полностью…

Ivan Begtin

Думаю что дня достаточно чтобы подвести итоги. Совершенно неожиданно для меня:
- менее всего всем интересно про открытие и закрытие данных в России (видимо потому что всё и так очевидно, а ведь мне немало что есть рассказать об этом). Не обещаю об этом не писать, но мнение учту
- более всего интересно про то где какие интересные и значимые данные есть. Что для меня скорее неожиданно, но по этой теме есть что написать и немало.

Далее по значимости научные данные, больше про технологии с конкретными примерами и про приватность и регулирование. Мне и самому интересно об этом читать, жаль что не так много источников как хотелось бы и приходится читать и писать самому об этом чаще.

Всем спасибо за обратную связь!

#blogging #thoughts #polls

Читать полностью…

Ivan Begtin

Пока идёт опрос в котором пока явно лидирует интерес к тому где найти значимые источники данных, подборка каталогов данных для машинного обучения

- Kaggle kaggle.com/datasets - крупнейший по числу наборов данных каталог на платформ Kaggle
- Hagging Face huggingface.co/datasets/ - не такой большой количественно, но хорошо структурированный каталог на платформе Hagging Face
- Registry of Open Data on AWS registry.opendata.aws - данных особенно большого объёма в специальном каталоге открытых данных расположенных на платформе Amazon AWS
- Azure Open Datasets https://learn.microsoft.com/en-us/azure/open-datasets/dataset-catalog - данные особенно большого объёма на платформе Azure, тоже открытые
- OpenML Datasets openml.org - много данных - каталог данных на платформе OpenML
- UCL Machine learning repository archive-beta.ics.uci.edu - академический репозиторий данных для машинного обучения
- Radiant ML Hub mlhub.earth - каталог геоданных для машинного обучения

Я добавлю также что помимо каталога данных по России и ряде постсоветских стран datacatalogs.ru у нас есть пока непубличный каталог каталогов по всему миру. Но если datacatalogs.ru был сверхдетальным, с долгим поиском не только региональных каталогов данных, но и, например, реестров данных на сайтах городов и муниципалитетов, то каталог международных данных выглядит иначе и включает информацию о ПО на котором он сделан и фокус сбора на каталогах открытых данных, статистических базах, геопорталах с данными (почти все или на Geonetwork, или на ArcGIS Hub), каталогах микроданных и ещё много всего.

Итоговый результат - это не только сам каталог, но и постепенное приближение к созданию открытого глобального индекса доступных данных и поисковой системы поверх него.

Сам каталог каталогов будет доступен сильно позже, после сборки хотя бы 1000+ таких каталогов, будет собрано.

#opendata #datasets #machinelearning

Читать полностью…

Ivan Begtin

К вопросу о публикации данных, госполитике в этой области и тд. В прошлом году страховые компании в США начали публиковать данные о ценах на услуги в рамках требований так называемого Health Plan Transparency in Coverage Rule [1] регулирования в США обязывающего страховые компании раскрывать сведения о стоимости медицинских услуг.

Согласно этому регулированию ряд страховые компании начали выкладывать данные размером ... до 50 терабайт в сжатом виде! Пример, компании Humana [2] и United Healthcare [3]. В общей сложности там более 100ТБ в сжатом виде и более 600ТБ в распакованном и ещё и с ежемесячным обновлением, об этом писали ребята из DoltHub ещё в сентябре 2022 г. [4]

Очень много данных тоже может быть проблемой, потому что нужно ну очень много ресурсов чтобы такое не только хранить и скачать, но и обработать.

А сейчас эти же ребята из Dolthub их дообработали и начали публиковать расхождения между ценами страховщиков и ценами которые госпитали указывают на сайтах [5].

Очень интересно, хотя и Dolthub не правозащитники, а просто стартап создателей одноимённой платформы а ля Git-для-данных, с хранением данных довольно большого объёма.

Но ведь интересен масштаб, не правда ли? Всё таки 600ТБ - это очень много данных, причём по социально значимой теме.

Роль государства в этом - роль регулятора, государство имеет все необходимые механизмы принуждения к открытости естественные монополии и социально значимые компании олигопольных рынков к раскрытию данных в машиночитаемых форматах. Такие действия усиливают не госконтроль, а влияние граждан. Открытость данных и информации - это всегда, в принципе, про усиление граждан .

Ссылки:
[1] https://www.cms.gov/healthplan-price-transparency
[2] https://developers.humana.com/syntheticdata/healthplan-price-transparency
[3] https://transparency-in-coverage.uhc.com/
[4] https://www.dolthub.com/blog/2022-09-02-a-trillion-prices/
[5] https://www.dolthub.com/blog/2023-03-23-illusion-of-transparency/

#opendata #usa #healthcare #datasets

Читать полностью…

Ivan Begtin

Полезное чтение про данные, технологии и не только։
- Apache Arrow nanoarrow [1] библиотека на С от создателей Apache Arrow для работы с форматом Arrow, звучит как масло-масляное, а реально нужная библиотека для создания надстроек для других языков. Напомню, Apache Arrow теперь используют во второй версии Pandas для значительно ускорения работы с датафреймами

- How fast is DuckDB really? [2] обзор производительности DuckDB от одного из ангельских инвесторов в MotherDuck и CEO Fivetran. Результаты ожидаемые - DuckDB работает быстрее многого, а ещё интересный вывод что MacBook Pro существенно обгоняет даже производительные сервера.

- Unified Streaming And Batch Pipelines At LinkedIn: Reducing Processing time by 94% with Apache Beam [3] о том как команда LinkedIn существенно ускорила производительность в обработке данных используя Apache Beam. Признаюсь я Apache Beam нигде ещё не применял и не знаю живых примеров рядом, но продукт интересный, может и надо присмотреться подробнее

- DragonflyDB reels in $21M for its speedy in-memory database [4] DragonflyDB - это эдакая замена Redis, с тем что обещают лучшую скорость для задач для key-value баз данных. В мае они же выпустили версию 1.0 [5] и декларировали 25-кратное ускорение по сравнению с Redis. Продукт с открытым кодом, а инвестиции они получают под развитие облачной версии DragonflyDB cloud

- The Right To Be Free From Automation [6] статья в Noema с рассуждениями о том обладают ли люди правом отказа от автоматизации работы, там упоминается история компании Pick n Pay которая попыталась в Южной Африке внедрить терминалы самооплаты и столкнулась с бойкотом профсоюзов и была вынуждена эти терминалы демонтировать.


Ссылки:
[1] https://arrow.apache.org/blog/2023/03/07/nanoarrow-0.1.0-release/
[2] https://www.fivetran.com/blog/how-fast-is-duckdb-really
[3] https://engineering.linkedin.com/blog/2023/unified-streaming-and-batch-pipelines-at-linkedin--reducing-proc
[4] https://siliconangle.com/2023/03/21/dragonflydb-reels-21m-speedy-memory-database/
[5] https://dragonflydb.io/blog/dragonfly-production-ready
[6] https://www.noemamag.com/the-right-to-be-free-from-automation/

#opensource #data #readings

Читать полностью…

Ivan Begtin

Портал открытых данных РФ закрыт на ревизию

Федеральный портал открытых данных (data.gov.ru) с сегодняшнего дня недоступен, т.к. «закрыт на ревизию». По информации Минэка, портал планируют развивать «в рамках перехода системы на платформу «Гостех». О Гостехе хорошо пишет Циникс, который уже успел прокомментировать недоступность портала [1].

Пока сложно предположить, когда портал и данные станут снова доступными (и будут ли данные открытыми, бесплатными и доступными для скачивания без регистрации и смс), т.к. конкретные сроки не указаны (но планируют завершить работы «как можно скорее»), да и каких-либо содержательных комментариев по развитию портала не было.

Еще в феврале уточняла у Минэка, будет ли доступен портал в формате архива, сохранятся ли текущие ссылки на наборы данных, но, к сожалению, единственное, что сейчас доступно в открытом доступе, - это PDF-список с адресами сайтов госорганов, наборы которых были размещены на портале [2]. Но, как обычно, Иван Бегтин сделал копию сайта, ссылки на которую можно найти в его комментариях по порталу [3].

Что больше всего удивляет в данной ситуации:

- непонятно, зачем нужно закрывать сайт, и почему нельзя разрабатывать новую версию на тестовом сервере параллельно с доступностью текущей или хотя бы разместить архив/дамп с текущими наборами открытых данных?
- непонятно, почему перечень порталов публикуется в формате pdf, который не относится к открытым данным, не является пригодным для автоматической обработки и анализа?
- почему публикуются только списки госорганов и их главных страниц сайтов, если можно было выгрузить из БД портала и опубликовать весь реестр наборов данных и все ссылки на первоисточники? Почему перечень госорганов не разбит хотя бы по уровню власти?
- и больше всего удивляет недоступность открытых данных Минэкономразвития. Раньше я уже поднимала вопрос отсутствия полноценного раздела Открытых данных на сайте Минэка, но всегда получала ответ о том, что данные Минэк публикует только на портале ОД, а с его работой и доступностью проблем нет. Теперь же мы видим сообщение о том, что «все данные, которые ранее автоматически предоставлялись, вы можете получить на ресурсах, перечисленных в PDF-файле», находим в этом списке сайт Минэка, и не можем скачать данные с сайта Минэка, потому что их там и не было [2].
- и еще один важный вопрос, а доступны ли данные 3-летней или 7-летней давности на порталах госорганов? Ведь мы часто сталкиваемся с тем, что исторические данные удаляют, или, например, не переносят на новый портал при разработке новых версий сайтов.

Пока много вопросов и мало ответов.

[1] /channel/CynExp/4149
[2] https://economy.gov.ru/material/open_data/informaciya_dlya_polzovateley_informacionnoy_sistemy_portal_otkrytyh_dannyh_datagovru.html
[3] /channel/begtin/4714

Читать полностью…

Ivan Begtin

Свежая новость [1] и заметка в Коммерсанте [2] о том что "временно" приостанавливается работа федерального портала открытых данных data.gov.ru и что будет через какое-то время новая/лучшая версия портала, надо только подождать.

Мне так много есть что сказать по этому поводу что короткого текста может не получится, но я постараюсь․ Начну же с того что предвидя такое развитие событий мы в Инфокультуре сделали полный слепок данных портала 2 февраля 2022 года [3], это 13ГБ в сжатом виде и 29ГБ в распакованном виде. За год данных на портале появилось и обновилось немного, так что дамп можно считать вполне полным.

Про качество данных на портале я писал неоднократно [4], но важно не только это. Важнее то что вот уже более 7 лет большинство порталов открытых государственных данных в России перестали обновляться и наполняться, Данные всё ещё публиковались на некоторых государственных информационных системах и отдельными органами власти, но, в целом, тему открытости начали "сливать" давно, вначале приведя к формальному исполнению требований и публикацией потока бессмысленных сверхмелких административных данных, а далее, при последнем российском правительстве, даже на это стали забивать.

Собственно и в этом событии важен уровень принятия решения. Это уровень не председателя Пр-ва, не вице-премьера, и даже не министра. Просто руководитель департамента в Минэкономразвития завил что мол мы портал закроем и когда-нибудь сделаем другой. В общем, портал не стал часть национальной цифровой инфраструктуры, а Минэкономразвития лишь одно из министерств без особых полномочий указывать другим органам власти что им публиковать в открытом доступе. Я, опять же, не про бессмысленный поток административных данных (вакансий, инфы по учреждениям и тд), а про реальные реестры, ведомственную статистику, крупные базы данных в управлении ФОИВов и их подведов.

Казалось бы что мешало Минэкономразвития создавать новую версию портала параллельно и анонсировать его замену после эксплуатации бета версии? Я вот не знаю что, я вижу что текущая ситуация больше похожа на заметание мусора под ковёр, чтобы никто их за руку не поймал с тем как плохо сопровождался этот портал.

В любом случае, проблема не только в словах о временном закрытии, которое с лёгкостью может стать постоянным. И даже не в анонсе переноса портала на несуществующий Гостех, а в том что даже если новый портал создать и даже не таким плохим технически как предыдущий, то чем его наполнять.

За многие годы не были видны никакие усилия Минэкономразвития в том чтобы была доступна детальная статистика по качеству жизни։ уровню преступности, загрязнении, качеству образования, здравоохранению, заболеваемости с детальностью до районов (да даже детальность до регионов не вся!). За все эти годы на портале даже не начинали публиковать наиболее востребованные данные по судебным производствам (привет Судебному Департаменту создавшему рядом коммерческую монополию) или свежезакрытым данным госфинансов или почти полностью отсутствующим в открытом пространстве геоданным, которые как раз более всего раскрываются по всем миру?

Эти риторические вопросы имеют лишь один ответ, блок на реальную открытость государства не только и не столько в этом портале. Он в отсутствии повестки открытости у текущего федерального правительства.

В качестве завершения я напомню что в мире сейчас нет развитых стран без порталов открытых данных. Даже в Китае такой есть, с акцентом на публикацию научных данных, зато неимоверного количества и объёма. Порталов открытых данных нет только у некоторых африканских стран, стран третьего мира иными словами. Стремление российского правительства руками Минэкономразвития, в данном случае, войти в список третьих стран лично у меня вызывает лишь недоверие ко всей остальной политической риторике о том "как тут всё хорошо" и как замечательно идут нацпроекты и поддержка бизнеса.

Никак не идут.

Читать полностью…

Ivan Begtin

В рубрике как это работает у них GeoPlatform.gov [1] единая платформа федеральных властей США по работе с геоданными, удобному поиску данных для учёных, разработчиков, аналитиков и тд.

Включает более115 тысяч записей о метаданных наборов геоданных из нескольких сотен государственных источников данных федеральных служб.

Важные особенности платформы на которые стоит обратить внимание։
- совмещение портала геоданных и портала научных данных, акцент на принципах FAIR
- использование портала Data.gov как базовой инфраструктуры. В GeoPlatform.gov выгружаются метаданные только тех наборов данных что загружены в Data.gov
- интеграция с ArcGIS для отображения данных (это вообще в США популярно использовать ArcGIS, а вот европейцы предпочитают OSM)
- наличие работающей стратегии развития этой платформы․ Называется National Spatial Data Infrastructure (NSDI) Strategic Plan [2]

Интересно расширят ли они проект до геоданных уровня штатов и городов, тогда число наборов данных может превысить миллионы количественно и очень много по физическому объёму, впрочем в самой гео платформе ничего не хранится кроме поискового индекса.

Это из тех проектов которые можно относить к проектам по поиску и обнаружению данных data search and discovery, причём сделанному довольно неплохо.

Ссылки:
[1] https://www.geoplatform.gov/
[2] https://www.fgdc.gov/nsdi-plan/index_html

#opendata #geodata #usa #datasets

Читать полностью…

Ivan Begtin

В рубрике как это работает у них, существует такой тип порталов и каталогов данных как каталоги микроданных. Это не про данные малого размера, но про данные создаваемые при работе социологов и конкретно при опросах граждан и бизнеса. Эти опросы проводятся регулярно на уровне стран и некоторые межгосударственные и международные организации. Особенность микроданных в том что они часто содержат сведения прямо или косвенно идентифицирующие конкретного опрашиваемого человека, поэтому чаще данные результатов опросов доступны не полностью, а только в виде метаданных с описанием и их надо запрашивать у владельца, но часто, опять же, данные проходят анонимизацию и всё же доступны для всех. В любом случае каталоги микроданных создаются с открытыми метаданными описывающими содержание собранных данных.

Наиболее популярным в мире ПО для ведения таких каталогов это NADA Microdata Cataloging Tool [1], продукт с открытым кодом разработанный за счёт Всемирного Банка и поддерживаемый организацией International Household Survey Network которые поддерживают централизованный каталог микроданных подобных опросов [2] по огромному числу стран и включающий как открытые данные, так и данные по запросу.

А также на базе NADA работают каталоги микроданных Всемирного банка [3], FAO [4], UNCHR [5], а на пост-советском пространстве в Армении [6]. В отличие от геокаталогов данных и порталов открытых данных, в каталогах микроданных используются другие стандарты метаданных. В частности, основным стандартом является DDI [7], стандарт публикации статистических данных.

В России микроданные также публикуются Росстатом, но на совершенно другом ПО, не обновлявшемся более 9 лет [8]. Данные в системе obdx.gks.ru последний раз актуализировались в 2021 году.

А ранее многие статистические службы публиковали данные через ПО Nesstar Web View, но с 2022 года развитие продукта прекратилось, а редактор данных для стандарта Nesstar также передан в IHSN [9]. В этом стандарте/формате Nesstar публиковались и российские микроданные и до сих пор публикуются во многих странах.

Ссылки:
[1] https://nada.ihsn.org/
[2] http://catalog.ihsn.org
[3] https://microdata.worldbank.org
[4] https://microdata.fao.org
[5] https://microdata.unhcr.org
[6] https://microdata.armstat.am
[7] https://ddialliance.org/
[8] https://obdx.gks.ru/
[9] http://www.ihsn.org/software/ddi-metadata-editor

#opendata #microdata #statistics #knowhow

Читать полностью…

Ivan Begtin

Команда проекта Если быть точным сделала неплохой обзор того что исчезает с сайтов органов власти. Почитайте, там всё хорошо систематизировано и многое описано, есть о чём подумать.
Я также регулярно пишу про закрываемые в России данные здесь в телеграм канале по тэгу #closeddata.

При этом закрывается данных гораздо больше, просто трудно отследить все изменения. Многое из закрываемого никогда как открытые данные и не публиковалось, это могут быть доклады, отчеты, статистика и открытые контуры информационных систем. Часто о их закрытии знают только отраслевые специалисты, часто закрывается не всё, а только самое главное что делает остальное бессмысленным.

При этом, поскольку изначально в России уровень открытости государства был довольно велик, хотя и специфичен (госфинансы - открыты, а данные о качестве жизни нет), то до сих пор может казаться что не всё так плохо. Но не надо обманываться, важнее всего то что у государства в России внятной национальной стратегии работы с данными нет.

Читать полностью…

Ivan Begtin

Написал в рассылку текст #32. Открытые данные в мире, в фактах и тезисах [1] о том как развиваются открытые данные в мире, в науке, в рамках политической подотчетности, в корпорациях и не только. Фактически это ответ вопросы "что не так с порталом открытых данных моей страны?" и "А как там у других?", а у других вот так.

А также не могу не напомнить об одном из недавних текстов #26. Открытость как признак жизни [2] о том что открытость данных, государства и не только - это один из признаков жизнеспособности какой-либо области/темы. Если нет науки, то и нет открытости науки, если нет журналистики, то и данные для журналистов не раскрываются, если нет политики, то и политическая подотчетность сводится к минимуму.

Ссылки:
[1] https://begtin.substack.com/p/d4f
[2] https://begtin.substack.com/p/26

#opendata

Читать полностью…

Ivan Begtin

В рубрике как это работает у них проект Sciencebase.gov [1], каталог публикаций, материалов, карт и геоданных Геологической службы США (USGS). В каталоге содержится более 50 тысяч наборов данных связанных только с геологическими исследованиями, там же публикуются выпуски данных геологической службы и данные полученные исследователями и научными службами финансируемыми USGS.

Интересно и то что этот репозиторий лишь один из нескольких десятков аккредитованных USGS как рекомендуемых к публикации научных данных [2], все они, либо государственные, либо академические, либо от консорциумов университетов/научных центров.

В случае Sciencebase у всех записей большой объём метаданных включающий геокоординаты набора данных, уникальные идентификаторы, информацию о авторах, организации и многое другое.

Ссылки։
[1] https://www.sciencebase.gov/catalog/
[2] https://www.usgs.gov/office-of-science-quality-and-integrity/acceptable-digital-repositories-usgs-scientific

#opendata #openaccess #openscience

Читать полностью…
Subscribe to a channel