begtin | Business and Startups

Telegram-канал begtin - Ivan Begtin

7027

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Subscribe to a channel

Ivan Begtin

Неожиданная и прекрасная карта Средиземья в 2D и 3D [1] причём автор не поленился и закодировал слои для ArcGIS Server и всё на карте отображается через FeatureServer и MapServer на серверах ArcGIS. При желании данные можно скачать посмотрев на код или просто попросив у автора. Если бы туда добавить стилизации, шрифтов, таймлайн, текстов, больше мест на карте и тд., то можно было бы превратить в произведение искусства.

Ссылки:
[1] https://www.micahvanderlugt.com/middle-earth

#dataviz #geodata #maps #middleearth #tolkien

Читать полностью…

Ivan Begtin

Для тех кто ищет идей для вдохновения для визуализации данных, по Армении доступен огромный набор данных
Armenia: High Resolution Population Density Maps + Demographic Estimates [1] созданный компанией Meta в рамках инициативы Data for Good в апреле 2023 года.

Набор данных включает:
- общую число жителей
- распределение населения по возрастным когортам: женщины, мужчины, дети, старики

Все данные доступны в форматах CSV, JSON и GeoTIFF и позиционируются компанией как наиболее точные данные по населению в мире, с детализацией до 30 метров. Подробнее о методологии
можно прочитать на сайте инициативы [2].

На Population Density Explorer [3], доступна интерактивная визуализация этих данных.

Ссылки:
[1] https://data.humdata.org/dataset/armenia-high-resolution-population-density-maps-demographic-estimates
[2] https://dataforgood.facebook.com/dfg/tools/high-resolution-population-density-maps
[3] https://populationexplorer.org/

#opendata #datasets #armenia #population #dataviz

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них открытые научные данные в такой, далеко не всем известной научной дисциплине как материаловедение.

Как и ряд других дисциплин она активно сдвигается в сторону открытости науки и открытости исследовательских данных.

Вот пример, 4-х научных проектов:
- AFlow [1] - база из 3.5 миллионов компонентов материалов и более чем 734 миллионов их свойств, под Public Domain для научного использования
- OQDM [2] база рассчитанных термодинамических и структурных характеристик более чем 1.2 миллионов материалов. Под Creative Commons
- The Materials Project [3] база по более чем 320 тысячам молекулам и материалам, а также проекты по машинному обучению предсказания свойств материалов
- NOMADS [4] база из 13 миллионов записей о материалах, как теоретических, так и полученных из экспериментов

У всех проектов лицензии на распространение материалов или Creative Commons или Public Domain, есть API на получение и на загрузку данных. Их наборы данных и отдельные записи индексируются научными поисковиками и агрегаторами. Ко всем есть API, библиотеки на Python для автоматической работы с данными, открытый код и сформировавшаяся экосистема.

Общий объём раскрываемых данных измеряется в сотнях теребайт. Начиная с 100 GB в OQMD и до 119 TB в NOMAD.

Ссылки:
[1] http://aflowlib.org/
[2] https://oqmd.org/
[3] https://next-gen.materialsproject.org/
[4] https://nomad-lab.eu/nomad-lab/

#opendata #openaccess #openscience #science #research #materials #molecules

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них и о разнице между подходами к регулированию деперсонализации данных в Евросоюзе и в России.

Amnesia [1] продукт с открытым кодом [2] в рамках европейского проекта OpenAIRE позволяет анонимизировать научные данные прежде чем их публиковать в научных репозиториях.

Базовый сценарией его применения:
1. Скачать код или дистрибутив к себе локально во внутреннюю сеть или рабочий компьютер.
2. Запустить Amnesia
3. Выбрать режим анонимизации
4. Проделать все необходимые операции по деперсонализации данных.

Работает только с табличными данными вроде TXT и CSV, имеет API, может использоваться как исследователями лично, так и лабораториями, интегрирован с Zenodo и Dataverse.

Финансируется в рамках European Union's Horizon 2020 Research and Innovation programme.

Всё это к вопросу о том что если бы российское Минцифры реально хотело бы получить анонимизированные данные для ИИ, то могло бы выдать гранты на создание продуктов на открытом коде или дать субсидии коммерческим компаниям /стартапам в рамках ФСИ на создание таких коммерческих продуктов, а не централизованно собирать персональные данные от бизнеса и внутри этого оператора эти данные анонимизировать.

Всё это к тому что есть другие решения, гораздо более безопасные. А от решения по централизации всех персональных данных в России выиграют только спецслужбы, продающие перс. данные инсайдеры и хакеры которые через инсайдеров эти данные получат.

Ссылки:
[1] https://amnesia.openaire.eu/
[2] https://github.com/dTsitsigkos/Amnesia

#privacy #opensource #eu #regulation

Читать полностью…

Ivan Begtin

Знаете ли Вы что... крупнейший каталог общедоступных геоданных в России - это каталог ДВО РАН [1] с данными Национальное управление океанических и атмосферных исследований США по дальнему востоку. Там более 96 наборов данных, с оговоркой что сам сайт всё ещё в неком тестовом режиме и все ссылки на API с данными в нём не работают.

Тем не менее - это крупнейшая инсталляция Geonetwork в России, хотя и бесполезная.

Другие геопорталы на базе Geonetwork в России:
- Каталог ГГМ РАН [2]
- Геопортал ИВиС ДВО РАН [3]
- Геопортал ТИГ ДВО РАН [4]

А Geonetwork [5] это специальное ПО каталога геоданных используемое по всему миру, на нём работает огромное число порталов с геоданными, например, большая часть национальных порталов геоданных стран Европейского союза в рамках раскрытия данных по инициативе INSPIRE.

Иногда Geonetwork используется как бекэнд для других платформ. Например, внутри Geoplatform.gov [6], портала для публикации геоданных Правительства США, используется Geonetwork.


Ссылки:
[1] http://gis.satellite.dvo.ru/geonetwork/srv/eng/catalog.search#/home
[2] https://maps.geologyscience.ru/geonetwork
[3] http://geoportal.kscnet.ru/geonetwork
[4] http://gis.tigdvo.ru:9190/geonetwork
[5] https://geonetwork-opensource.org
[6] https://www.geoplatform.gov

#opendata #geodata #geonetwork #datacatalogs

Читать полностью…

Ivan Begtin

С августа, вот уже 5-й месяц, не работает портал открытых данных Беларуси opendata.by [1]. Портал никогда не был государственным и поддерживался сообществом и ещё на 1 августа его копия была в Интернет архиве [2].

Данных там было не очень много, около 229 наборов, но теперь нет даже их.

Напомню что какой-либо государственной инициативы по открытости гос-ва, открытости данных в Беларуси нет и национальный портал открытых данных там так и не появился, зато теперь исчез и общественный.

Ссылки:
[1] https://opendata.by
[2] https://web.archive.org/web/20230801163122/https://opendata.by/

#opendata #belarus #closeddata

Читать полностью…

Ivan Begtin

Armenia's first open data-based project contest starts on December 25, 2023.

We invite authors of projects based on a variety of data sources, including open government resources, data on the history, culture, and art of Armenia, data on the economy, and other spheres.

Nominations

1. Culture Apps. The nomination accepts technological projects (applications and services) dedicated to Armenian culture, history, and language. For whom: software developers, digital humanities specialists, analysts, and students of these fields.

2. Data visualization. The nomination accepts data visualization projects based on any data related to Armenia. Interactive visualizations with a formal design are preferred. For whom: designers, journalists, infographics specialists, digital humanities specialists, analysts, and students of these fields.

The prize pool of the contest is $3000.

February 18, 2024 is the last day of applications submissions.

The Awards Ceremony for the winners will take place on March 2, 2024, during the Open Data Day event in Armenia. This marks the first time the Open Data Day event will be organized in Armenia. The International Open Data Day is an initiative by the Open Knowledge International Foundation, with support from various intergovernmental and international organizations such as the United Nations and the World Bank. This event is celebrated worldwide.

We hope this contest will encourage the formation of a community of developers and researchers, thereby increasing the value of open data in Armenia.

More information about the contest: https://contest.opendata.am.

Partners: The National Center for Innovation and Entrepreneurship of The Ministry of Economy of the Republic of Armenia, the network of investors and entrepreneurs BANA Angels and the Open Knowledge Foundation.

Organizer: Public Organization “Open Data Development Center”.

Читать полностью…

Ivan Begtin

В рубрике как это работает у них портал данных Банка международных расчётов (BIS) data.bis.org [1]. Как и у многих межгосударственных организаций портал данных является, по факту, порталом для публикации статистических индикаторов. В данном случае это экономические и финансовые индикаторы с той особенностью что они разделены по странам с детализацией до страны. Поэтому, к примеру, по Армении доступно 3455 индикаторов, а по России 9312 индикаторов. В общей сложности так получается несколько сотен тысяч индикаторов по странам и несколько тысяч/десятков тысяч глобальных таблиц. В общей сложности на портале около 1 миллиона временных рядов которые можно считать, также, наборами данных

У портала есть открытое API [2], внутри и снаружи всё на основе формата SDMX, с экспортом в CSV, Excel, XML (SDMX).

Этот портал - это хороший пример публикации и визуализации статистики, с огромными объёмами временных рядов, пояснениями, экспортом, цитированием, визуализацией и удобным поиском по всем собранным данным. Глядя на многие порталы статистики многих стран, часто, хочется подобного.

А для тех кто ищет международные данные с временными рядами напомню про такие порталы как:
- портал данных Всемирного банка data.worldbank.org
- портал данных ООН data.un.org
- портал данных ОЭСР data.oecd.org

а также существуют десятки других.

Ссылки:
[1] https://data.bis.org
[2] https://stats.bis.org/api-doc/v1/

#opendata #datasets #timeseries #datacatalogs #data

Читать полностью…

Ivan Begtin

Сооснователь «Викимедиа РУ» Станислав Козловский объявил о закрытии организации.

Это произошло после того, как МГУ, где он работал доцентом факультета психологии, предложило ему написать заявление на увольнение. «Меня вызвали и сказали, что в ректорат пришла информация, что меня признают в эту пятницу иноагентом. Предложили уволиться, написать заявление по собственному желанию. Я его подписал», — сообщил РБК Козловский.

После этого прошло общее собрание «Викимедиа РУ», где было решено, что «в таких условиях работать невозможно», поэтому организацию закроют.

«Викимедиа РУ» содействует развитию «Википедии» на территории России, при этом это юридически самостоятельная организация, которая не имеет контроля над сайтами Фонда Викимедиа.

Читать полностью…

Ivan Begtin

Подборка полезных ссылок для чтения про данные и не только:
- WikiCrow [1] генератор статей для Википедии/другой вики посвящённых научным явлениям, в демо показывают генерацию статей по человеческим генам. Используют внутреннюю LLM без галлюцинаций и сравнивают результат со статьями в Википедии подчёркивая большую полноту и качество созданных статей. Уже интересно, подключат такой движок к Википедии или запретят подобное и появятся новые вики проекты подготовленные ИИ?
- How to make data open? Stop overlooking librarians [2] заметка в Nature про то что не надо игнорировать библиотекарей при подготовке открытых научных данных к публикации. С упоминанием инструментов Bitcurator и ReproZIP, но почему-то не упоминает автор про FrictionlessData.
- Meta is giving researchers more access to Facebook and Instagram data [3] в Meta сдвинулись в сторону предоставления доступа к данным соцсетей для исследователей. Весьма интересно, хорошо бы узнать потом в каких научных работах это будет упоминаться. Подозреваю что высока вероятность что первыми туда придут политологи в США чтобы изучать политическую рекламу.
- The oligopoly’s shift to open access: How the big five academic publishers profit from article processing charges [4] статья с оценками того сколько олигополия академических издательств зарабатывает на платежах за обработку научных статей. Подсказка - много, возможно слишком много.

Ссылки:
[1] https://www.futurehouse.org/wikicrow
[2] https://www.nature.com/articles/d41586-023-03935-1
[3] https://www.technologyreview.com/2023/11/21/1083760/meta-transparency-research-database-nick-clegg/
[4] https://direct.mit.edu/qss/article/doi/10.1162/qss_a_00272/118070/The-Oligopoly-s-Shift-to-Open-Access-How-the-Big

#opendata #data #ai #openaccess #readings

Читать полностью…

Ivan Begtin

MongoDB взломали [1] и, похоже, скомпрометировали как минимум часть паролей клиентов, но пока нет подтверждений что хакеры получили доступ к данным клиентов в MongoDB Atlas. В любом случае, для SaaS сервиса обеспечивающего хранение данных этот инцидент крайне неприятный, плохо отразится на бизнесе.

Ссылки:
[1] https://www.mongodb.com/alerts

#data #saas #mongodb #security

Читать полностью…

Ivan Begtin

Вышел новый релиз датасета Overture Buildings от Overture Maps [1], туда добавили данные из датасета Google и теперь единый набор данных составляет 2.3 миллиарда зданий против 1.4 в предыдущих релизах. Особенно много зданий добавлено в Азии.

Набор данных доступен в формате GeoParquet [2] и с примерами работы с ним на нескольких облачных хранилищах [3]

Данные доступны под лицензиями Odbl и CDLA Permissive 2.0.

Ссылки։
[1] https://overturemaps.org/overture-buildings-theme-hits-2-3b-buildings-with-addition-of-google-open-buildings-data/
[2] https://overturemaps.org/overture-december-2023-release-notes/
[3] https://github.com/OvertureMaps/data#data-release-feedback

#opendata #data #datasets #geodata

Читать полностью…

Ivan Begtin

В марте в России запланированы выборы Президента РФ после которых, как минимум формально, должно быть отправлено в отставку текущее Правительство и собрано новое. Сейчас нельзя предсказать произойдет ли ротация министров и других должностных лиц или всё останется по прежнему, но мы планируем с января по март запустить архивационную кампанию по сохранению официальных сайтов Правительства и федеральных органов власти. Последний раз такая кампания масштабно проводилась в 2017 году перед сменой Правительства 2018 года.

Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.

Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов

К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.

На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.

А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).

#digitalpreservation #russia #elections #archives

Читать полностью…

Ivan Begtin

Почему я задумался о Wikibase и аналогичным проектам, потому что Airtable поменял уже какое-то время назад тарифы и теперь поддерживать там бесплатно большие таблицы невозможно. Какие-то таблицы вроде семантических типов данных и реестра каталогов данных я уже переносил в режим их редактирования в Github'е в виде тысяч YAML файлов. А теперь у меня закончилась квота на базы редактирования доменов, международных договоров и архивов сайтов. В общем что-то с этим надо делать и, либо найти альтернативу Airtable, либо перенести на Github и эти базы.

Главное отличие в том что у этих баз много разных связанных сущностей. В этом смысле гораздо проще вести базу каталогов данных, там основная сущность - это каталог. А даже в одной только базе госсайтов сущности включают: домен, организацию, ASN, регион и несколько десятков атрибутов.

Я всерьёз подумываю о том можно ли перенести такое на Wikibase или найти разумную альтернативу Airtable.

#opendata #datasets #data #government #domains

Читать полностью…

Ivan Begtin

Незаслуженно упущенный мной документ GENERATIVE ARTIFICIAL INTELLIGENCE. OPPORTUNITIES, RISKS AND POLICY CHALLENGES [1] отчет European Parliamentary Technology Assessment о генеративном ИИ с точки зрения регуляторов в Евросоюзе и немного в Японии в контексте влияния ИИ на демократию. В целом весьма полезный обзорный документ.

И туда же вдогонку публикация про норвежский бюджет 2024 года [2] и упоминания расходов на ИИ в нём.

Ссылки:
[1] https://teknologiradet.no/en/publication/epta-report-2023-generative-artificial-intelligence-opportunities-risks-and-policy-challenges/
[2] https://medium.com/ethical-ai-resources/artificial-intelligence-in-the-norwegian-national-budget-for-2024-4f4d5bdde6fc

#ai #readings #eu #norway

Читать полностью…

Ivan Begtin

Немного отвлекаясь от темы данных, хотя и отчасти соприкасаясь с темой открытости данных, есть такое явление в России, как минимум, последние 6 лет, как снижение институциональной прозрачности. Оно касается доступности информации о ключевых решениях властей всех уровней, в особенности нормативных документов, бюджетов, государственных программ, планов, дорожных карт и много-го другого. Всё то что позволяет принимать осмысленные решения всем кто с государством взаимодействует.

Это снижение происходило, как в данных, например, исчезновение реестра субсидий, закрытие отчётов об исполнении бюджетов или учредителей НКО, так и в сведениях которых может быть открытыми данными не были, но имели значение. Например, я много писал о том что главное всех новых инициатив Пр-ва и Национальных проектов в их запредельной непрозрачности. Некоторые документы, например, структуру фед.проекта по Искусственному интеллекту можно найти только в базе Консультант Плюс, но не на сайте Правительства РФ или в официальных базах законодательства, Да и у самого документа нет статуса нормативного документа, а "всего лишь" он решение президиума правкомиссии. Зато есть множество пропагандистских проектов расхваливающих инициативы Пр-ва, есть аккаунты в министерств в соцсетях, причём даже "приближенных к народу", постящих гороскопы, как в соцсетях Минфина РФ.

К этим же событиям можно отнести и засекречивание крайне значительного числа указов и распоряжений Президента РФ и очень многое другое. На фоне активной цифровизации государственного патернализма, вроде госуслуг, и других "тяжёлых" госсистем, полностью замерло всё что касалось повышению прозрачности. Не появилось единого портала по прозрачности гос-ва с централизованной публикацией всех деклараций, портал открытых данных ещё до исчезновения был в замороженно-мусорном состоянии, был закрыт портал Госрасходы (spending.gov.ru) да и даже такое банальное явление как публикация нормативных текстов в виде текстов до сих пор не решена, официальное опубликование документов на publication.pravo.gov.ru до сих пор осуществляется сканами. Да, для справки, это единственный сайт официального опубликования, а не сайт Пр-ва, Пр-та или ГД.

А недавно я искал такую банальщину как состав экспертного совета по ИИ при РКН (ещё вернее при ГРЧС, но новости о нём только на РКН) и ничего нет.

Такого много, это не измеряется внешними или внутренними индексами и рейтингами, а все СМИ и НКО которые подобное отслеживали признаны иноагентами или нежелательными организациями.

Нет, это началось задолго до военных действий и не закончится когда эти военные действия закончатся. Оно началось когда окончательно стало понятно что РФ не вернётся в G8 и не вступит в ОЭСР.

Всё это при том что изначально уровень институциональной прозрачности был достаточно высок чтобы казалось что процесс её снижение идёт очень медленно. Но важное отличие не только в уровне, но и в тренде.

#thoughts #transparency #openness #opengov #opendata

Читать полностью…

Ivan Begtin

Подводить итоги 2023 года сложно, можно коротко описать как "ещё один плохой год", а я попробую себя в жанре предсказаний на 2024 г.:
1. Всё что касается регулирования интернета, данных и ИТ в целом будет ухудшаться в мире. Цензура в авторитарных странах продолжит ужесточаться вплоть до постепенному приходу к работе по белым спискам, а в демократических введут механизмы блокировок по аналогии с авторитарными режимами. Регулирование ИИ будет ужесточаться, но не в России, в России ключевые ИИ компании выторгуют, если ещё не выторговали, послабления, под страхами "потери лидерства", "утечки мозгов" и тд. Регулирование приватности и управления данными будет ухудшаться в России, в первую очередь из-за инициативы по централизованной деперсонализации данных госоператором.

2. Тема открытых данных в мире продолжится, основные данные будут раскрываться научными организациями. Открытый доступ (open access) продолжит своё развитие, в том числе в развивающихся странах. Фактически открытые научные данные будут везде где есть живая наука интегрированная в мировую. Но и основные другие инициативы никуда не исчезнут. Будет больше проектов связанных с доступностью данных машинного обучения.

3. Хайп вокруг ИИ продолжится и начнёт стихать только к концу 2024 года, когда станет понятно что все "сливки" снимут ограниченное число очень крупных игроков. Но для инвесторов сохранится приоритет на инвестиции в "поумневшие" сервисы, самого разного толка. Будет как минимум 2-3 крупных скандала вокруг ИИ игроков, регулирования, инвестиций и тд.

#opendata #predictions #2024 #ai #regulation #data #privacy

Читать полностью…

Ivan Begtin

На Новый год всем хочу пожелать много данных
Больших, небольших, интересных и странных
Открытости по умолчанию везде где возможно
И мира хотелось бы, а то как-то тревожно

Читать полностью…

Ivan Begtin

Европейский доклад о гомогенизации особо ценных наборов данных (Report on Data Homogenisation for High- value Datasets) [1] вышел ещё 5 декабря. Небольшой по объёму и посвящён тому как в странах ЕС публикуют реестры компаний, данные по мобильности населения и официальную статистику. А также о том как можно было бы унифицировать публикацию таких данных. Можно уже ожидать что в 2024 году, или отдельно, или как часть существующего, но будет рейтинг/индекс/сравнение стран ЕС именно по публикации данных особой ценности.

Если кто-то пропустил, то эти наборы данных должны публиковаться в ЕС в рамках директивы 2023/138 [2] и, в принципе, европейское регулирование открытости данных идёт в направлении не только "открытости по умолчанию", но и гарантированной доступности данных по которым подтверждён общественный и коммерческий запрос. В частности - это данные реестров компаний, статистики, геоданные, метеоданные и многое другое.

Ссылки:
[1] https://data.europa.eu/en/doc/report-data-homogenisation-high-value-datasets
[2] https://eur-lex.europa.eu/eli/reg_impl/2023/138/oj

#opendata #eu #readings #reports

Читать полностью…

Ivan Begtin

Мы будем публиковать идеи для проектов на номинации конкурса и вот свежие данные только что утверждённого бюджета Еревана. Доступны в виде таблиц в PDF файле [1], таблицы можно извлечь с помощью таких инструментов как ABBYY FineReader, а для визуализации воспользоваться одним из существующих инструментов с открытым кодом или написать свой код и сделать инфографику самостоятельно.

Как выглядят визуализации бюджетов в мире?

Одна из самых известных визуализаций в мире - это Death and Taxes по бюджету США [2]. Она уже много лет служит вдохновением для тех кто хочет наглядно представить эти данные.

А вот пример, интерактивный бюджет Австралии, по нему также доступен исходный код [3]. Достаточно подготовить данные и опубликовать их с помощью уже готового кода.

Ещё примеры визуализаций с открытым кодом:
- Budget Visualization Framework [4]
- Budget Vis [5]

А также другие примеры

Специальный портал по открытости бюджета Санкт-Петербурга [6], а в Румынии бюджет свёрстан в цветовой гамме флага страны и он интерактивен [7] или же визуализация федерального бюджета США [8] с детализацией до контрактов.

Ссылки:
[1] https://www.yerevan.am/uploads/media/default/0002/30/1c00c8d6f8f9ef7f67a523d40e56c4738b56a044.pdf
[2] https://www.visualcapitalist.com/death-taxes-2015-visual-guide-tax-dollars-go/
[3] https://github.com/informeren/dataviz-budget
[4] https://github.com/goinvo/Visual-Town-Budget
[5] https://github.com/shurkhovetskyy/budget-vis
[6] https://budget.gov.spb.ru/
[7] https://openbudget.ro/buget/2023/
[8] https://www.usaspending.gov/explorer/budget_function

#opendata #visualization #budget #yerevan #dataviz

Читать полностью…

Ivan Begtin

Свежий OECD OURdata Index [1] рейтинг открытости данных по странам ОЭСР и кандидатам в члены ОЭСР. На первых местах Корея, Франция, Польша, Эстония, Испания, Ирландия, Словения, Дания, Швеция и Литва.

Выводов там немало, из важнейших то что:
- несмотря на COVID-19 всё ещё мало данных об общественном здоровье
- гораздо больше усилий государств по открытости данных/доступности данных, но не по повторному использованию
- только 48% особо ценных наборов данных доступно
- мало особо ценных данных о госфинансах и подотчетностью органов власти

Лично меня удивили низкие оценки Австралии, всегда был уверен что там неплохо всё развивается, но нет, не всё так хорошо. Также важно что оценивалась именно госполитика открытости данных, а не открытые научные данные, к примеру.

Ссылки:
[1] https://www.oecd-ilibrary.org/governance/2023-oecd-open-useful-and-re-usable-data-ourdata-index_a37f51c3-en

#opendata #oecd #ratings

Читать полностью…

Ivan Begtin

Наконец-то можно анонсировать, мы запускаем конкурс по открытым данным Армении в двух номинациях:
- Приложения для культуры
- Визуализация данных

Общий призовой фонд $3000, а заявки можно подавать до 18 февраля 2024 г., с подведением итогов 2 марта 2024 г. на Open Data Day в Ереване.

Для участия главное чтобы Ваш проект был на открытых данных и посвящён Армении, при этом конкурс не только для граждан, но и для тех кто относит себя к диаспорам по всему миру (Россия, Франция, США и другие страны), а также для тех кто просто относится к Армении с любовью и хочет чтобы стране было лучше.

Открытых данных много, можно многие найти на нашем портале data.opendata.am и мы будем регулярно писать про новые данные и где их найти в телеграм канале проекта @opendataam, подписывайтесь если ещё не подписались;)

#opendata #armenia #data #contest

Читать полностью…

Ivan Begtin

Не так сложно изнутри России найти VPN или прокси, как сложно многим уехавшим заплатить за квартиру, налоги и ещё много что. Многие госсайты блокируют любое подключение извне, в том числе Интернет-архив. Многое из публикуемого российскими госструктурами может исчезнуть одномоментно, потому что Интернет архив просто не может до них достучаться.

Вот неполная подборка, со ссылками на archive.org для подтверждения:
- Минюст России [1] - полностью не индексируется
- МВД России [2] - полностью не индексируется
- МЧС России [3] - падение индексации в несколько раз, первое полугодие 2023 года совсем не индексировался
- ФССП России [4] - с виду индексируется, по факту сайт выдаёт заглушку [5]
- Росздравнадзор [6] - с виду индексируется, по факту заглушка Forbidden [7]
- Минкультуры России [8] - падение индексации более чем в 4 раза, индексировался в первом квартале 2023 г. и немного в конце года.
- Минприроды России [9] - почти не индексировался в 2023 году, мало в 2022.
- Росприроднадзор [10] - не индексировался с середины 2022 года по середину 2023, минимально индексировался в 2023
- Минпросвещения России [11] - почти не индексировался с начала 2023 года, немного вначале года и чуть-чуть в конце
- Минвостокразвития России [12] - почти не индексировался в 2023 году, немного лишь в конце года
- Минсельхоз России [13] - не индексируется с марта 2022 года, более 1.5 лет

Список можно продолжать долго, практически бесконечно. Туда же надо смотреть многие сайты госучреждений, региональных властей и государственных информационных систем. Я подозреваю что какие-то подсети полностью выпадали из доступа не с российских IP адресов.

Последствия ровно те с которых я начал:
1) Россияне не из России не могут проделывать многие операции
2) Огромное число официальных сайтов государства теперь не архивируются, повышая безнаказанность действующего Пр-ва

Ссылки:
[1] https://web.archive.org/web/20230000000000*/https://minjust.gov.ru/ru/
[2] https://web.archive.org/web/20230000000000*/https://mvd.gov.ru
[3] https://web.archive.org/web/20230801000000*/https://mchs.gov.ru
[4] https://web.archive.org/web/20230801000000*/https://fssp.gov.ru
[5] https://web.archive.org/web/20231029194721/https://fssp.gov.ru/
[6] https://web.archive.org/web/20230000000000*/https://roszdravnadzor.gov.ru/
[7] https://web.archive.org/web/20231204003333/https://roszdravnadzor.gov.ru/
[8] https://web.archive.org/web/20230000000000*/culture.gov.ru
[9] https://web.archive.org/web/20230000000000*/www.mnr.gov.ru
[10] https://web.archive.org/web/20230000000000*/rpn.gov.ru
[11] https://web.archive.org/web/20230000000000*/edu.gov.ru
[12] https://web.archive.org/web/20230000000000*/minvr.gov.ru
[13] https://web.archive.org/web/20230000000000*/mcx.gov.ru

#webarchives #digitalpreservation #russia #government

Читать полностью…

Ivan Begtin

Долго думал как это прокомментировать, но комментарий подобрать никак не могу. Ничего хорошего, в принципе не-государственных и независящих от государства НКО в России практически не остаётся. Чтобы там кому ни нравилось в Википедии, страна сильно беднеет от того что вместо множества мнений остаётся лишь официальная идеология.

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных свежий датасет из 228 тысяч нормативных документов (законов, решений и тд.) Австралии. Автор собрал датасет и выложил на Hugging Face [1],а также описал процесс у себя в блоге [2] и само описание - это хорошее руководство того как самостоятельно создавать наборы данных и выложил исходный код использованный для создания такого датасета [3]. Во всех смыслах хороший пример - открытые данные + открытый код + датасет для машинного обучения. Особенно учитывая сложности в том что Австралия является конфедерацией и нет единой базы всего законодательства, а вместо этого отдельные системы на уровне центрального правительства и отдельные у штатов и в сейчас нет штата Виктория. Но даже при этих ограничениях - это большой корпус англоязычных документов полезный в работе многих инструментов.

Ссылки:
[1] https://huggingface.co/datasets/umarbutler/open-australian-legal-corpus
[2] https://umarbutler.com/how-i-built-the-largest-open-database-of-australian-law/
[3] https://github.com/umarbutler/open-australian-legal-corpus-creator

#dataset #opendata #data

Читать полностью…

Ivan Begtin

С сайта Росимущества исчез раздел Открытые данные [1], он располагался по пути /opendata и теперь вместо него выдаётся 404 ошибка. Это раздел существовал ещё в феврале 2022 года в чём можно убедиться посмотрев его на сайте Интернет-архива [2]

Когда именно раздел и данные исчезли сейчас сказать сложно, но факт остаётся фактом, данных более нет.

Также можно убедиться что с февраля 2022 года сайт, как и многие сайты госорганов в России, заблокирован для внешнего индексирования не с российских IP адресов и в интернет архив его страницы более не попадают. Это означает что если его содержание будет исчезать, то восстановить его будет неоткуда.

Спасибо читателю канала обратившему внимание на этот сайт.

Ссылки։
[1] https://rosim.gov.ru/opendata
[2] https://web.archive.org/web/20220205150400/https://rosim.gov.ru/opendata

#russia #closeddata #opendata #digitalpreservation

Читать полностью…

Ivan Begtin

Вдогонку к числу законов принятых в России [1], можно не дожидаться января, в 2023 году всего принято 694 закона, чуть чуть недотянули до 700. Для сравнения в 2022 году было принято 645 законов. Итого, выражаясь в терминах "палочной" статистики МВД рост составил 7,6% АППГ (к аналогичному периоду прошлого года). Можно было бы подумать как хорошо законодатели поработали в этом году, но реальность такова что больше законов - больше нормативная нагрузка на людей и бизнес. Выигрывают от них только госорганы и то не все.

Всё это напрямую относится и к регулированию данных, персональных данных, ИИ, информационной безопасности и других технологических областей. И судя по всему нет признаков того что этот тренд на рост листажа бумаги закончится.

Я хорошо помню как много лет назад когда я работал на больших ИТ проектах государственных информационных систем приёмка осуществлялась буквально килограммами бумаги. Я был свидетелем лично случая когда один начальник отдела в российском министерстве экономического хаоса указывал подрядчику показывая стопки бумаги. "Вот смотри", говорил он, "это проект на 2 миллиона и тут 200 листов, а у ты сдаёшь проект на 10 миллионов, а у тебя всего 40 листов. Надо хотя бы 400, а лучше 1000, тогда прокуроры точно утомятся читать при проверке".

Конечно, законодатели, это несколько другой случай и другая мотивация, а 99% принимаемых законов это изменения в существующие законы, но бюрократическая культура общая, в отсутствии осознания вреда от подобного нормативного "бешенства".

Ссылки։
[1] /channel/begtin/5257

#laws #regulation #russia

Читать полностью…

Ivan Begtin

Вышел свежий доклад Open Data Maturity 2023 [1] посвящённый целиком зрелости открытых данных в Европейском союзе, странах EFTA и ряде стран кандидатов. Наилучшие оценки в Франции, Польши и Эстонии, далее Украина, Испания и Кипр.

У доклада весьма продуманная методология учитывающая не только и не столько объёмы опубликованных данных, сколько регуляторный фреймворк, измерение востребованности, наличие продуманной стратегии и контроль качества данных. Лично я не удивлён что лидируют французы потому что у них реально портал открытых данных data.gouv.fr лежит в основе их госполитики управления данными, с внятной дорожной картой и инициативами в открытости науки и доступности геоданных как часть общей стратегии и этого портала.

Отдельно интересно что Великобританию в этих докладах более не рассматривают, даже для сравнения со странами ЕС. В профилях стран вместо UK пустое место, что выглядит немного забавно, словно Великобритания исчезла с карт.

В отчёте большой акцент на качестве данных и нему приложены файлы методологии и подробных ответов в опроснике где многое можно узнать о политике стран по открытости. Я, например, узнал что у Черногории таки есть геопортал с экспортом метаданных по стандарту INSPIRE, хотя он и оказался сейчас недоступен.

Ссылки։
[1] https://data.europa.eu/en/publications/open-data-maturity/2023

#opendata #reports #europe

Читать полностью…

Ivan Begtin

Не все знают что в основе проекта Wikidata лежит расширение для MediaWiki под названием Wikibase [1]. Это продукт с открытым кодом созданный в Wikimedia Deutschland и используемый для баз объектов в стиле Mediawiki, со встроенным редактором свойств, схем, объектов, API и поддержкой связанных данных. У Wikibase существует множество инсталляций база которых собрана на Wikibase.world (тоже инсталляция Wikibase)).

Главное отличие Wikibase от того же Semantic MediaWiki, в том что в Semantic Mediawiki есть попытка приблизить текст к структуре, а в Wikibase это попытка приблизить данные к Wiki.

По природе своей проекты на Wikibase включая Wikidata гораздо ближе к сообществам библиотекарей, архивистов, историков и тд. Очень многие проекты на его основе сфокусированы на библиографии, языках и тд.

Но постепенно, та же Wikidata, наполняется референсными данными с которыми можно работать напрямую используя API и библиотеки вроде WikidataIntegrator [3].

Главные плюсы - системность решения, главные минусы - негибкость в отображении данных. Например, у меня в работе есть множество больших реестров которым нужны интерфейсы редактирования и визуализации, с обновлением схем и тд.

Я о некоторых писал, какие-то менее известны:
- реестр всех государственных доменных имён в РФ (от 10 до 200 тысяч)
- реестр семантических типов данных (до 5000)
- реестр порталов данных (от 10 до 20 тысяч)
- каталогов всех цифровых слепков сайлов из Ruarxive (от 10 тысяч)

Вести их в Wikibase было бы правильно, но жуть как неудобно если это не повседневный инструмент. Причём главным образом из-за отсутствия табличного, массового режима обновления данных. Хотя и интеграция с Wikidata актуальна во проектах.

Ссылки:
[1] https://www.mediawiki.org/wiki/Wikibase/Using_Wikibase
[2] https://wikibase.world/query/#PREFIX%20wdt%3A%20%3Chttps%3A%2F%2Fwikibase.world%2Fprop%2Fdirect%2F%3E%0APREFIX%20wd%3A%20%3Chttps%3A%2F%2Fwikibase.world%2Fentity%2F%3E%0A%0ASELECT%20%3FitemLabel%20%3Furl%20%3Fitem%20WHERE%20%7B%0A%20%20%20%20%3Fitem%20wdt%3AP3%20wd%3AQ10%20.%0A%20%20%20%20%3Fitem%20wdt%3AP1%20%3Furl%20.%0A%20%20%20%20%3Fitem%20wdt%3AP13%20wd%3AQ54%20.%0A%20%20%20%20SERVICE%20wikibase%3Alabel%20%7B%20bd%3AserviceParam%20wikibase%3Alanguage%20%22%5BAUTO_LANGUAGE%5D%2Cen%22.%20%7D%0A%7D
[3] https://github.com/SuLab/WikidataIntegrator

#opensource #wikidata #wiki

Читать полностью…

Ivan Begtin

Les grands embrasements naissent de petites étincelles

На сайте Сорбонны опубликована новость о том, что ведущий университет Франции прекратил свою подписку на Web of Science, а также перестанет использовать другие библиометрические инструменты Clarivate в 2024 году. На выходных эту новость подхватили многие наши коллеги после заметки Ивана Бегтина.

Такое решение обусловлено тенденцией к переходу от проприетарных продуктов к открытым и бесплатным инструментам. Вместо WoS Сорбонна будет использовать OpenAlex, с которым университет собирается заключить партнерское соглашение. В будущем ожидается, что обе стороны возьмут на себя обязательства по сотрудничеству и улучшению качества данных, относящихся к Сорбонне.

Решение Сорбонны подпадает под общий тренд последних лет, связанный с Open Access. Так, в анонсе Сорбонны упоминается Лейденский CWTS Ranking, который также заявляет о приоритетности открытых данных, стремится к полной прозрачности и воспроизводимости своих рейтингов при помощи CrossRef и OpenAlex. Кроме того, Лейденский Университет анонсирует версию «открытого издания» своего рейтинга на базе OpenAlex в 2024 году.

Про OpenAlex в качестве потенциального конкурента библиометрических баз, доступных по подписке, довольно позитивно отзываются и другие университеты:

• Библиотеки HKU, HKUST, Сингапурского университета менеджмента и Университета Калгари публиковали обзорные статьи про OpenAlex с примерами составления API-запросов;
• О преимуществах использования OpenAlex писал университет Хьюстона;
• Лаборатория Утрехтского университета предлагает использовать данные базы в проекте FAIR data;
• Университет Милана официально ссылается на данные OpenAlex в отчетах о научно-исследовательской работе;
• Политехнический университет Каталонии (BarcelonaTech) использует данные базы в рамках мониторинга открытого доступа в каталонских университетах.

Как видно из приведенных заметок, обращение к открытым данных пока ограничивается лишь рекомендациями и инструкциями. Однако уже сейчас очевидно, что инициативу Сорбонны в перспективе могут разделить и другие ведущие университеты. Ведь большие пожары зарождаются из маленьких искр.

#анонсы #новости #открытыйдоступ #университеты #openalex

Читать полностью…
Subscribe to a channel