В продолжение про Национальный проект "Экономика данных" я не могу не напомнить про мой текст 2019 года Национальные проекты или бег по кругу [1] о том что что с точки зрения прозрачности государства и открытости расходов и результатов хуже нацпроектов только последующие за ними "инициативы социально-экономического развития". В 2021 году я обновлял таблицу сравнения разных госинициатив за последние 20 лет и из этой таблицы всё довольно очевидно.
Также в 2019 году я публиковал колонку в РБК Информационный барьер: как нацпроекты сделали бюджет менее прозрачным [2] в котором есть ещё и некоторые "технические нюансы" изменений в бюджетной росписи и отчетности сделавшие процесс ещё менее открытым.
Если кратко, то так:
1. Все отчетные сведения по формированию и исполнению нацпроектов закрыты для граждан в отличие от того что когда-то было для ФЦП, Госпрограмм и тд.
2. Почти вся публичная активность вокруг нац. проектов - PR. Содержания там минимум.
3. До закрытия реестра субсидий хотя бы частично информацию можно было собирать оттуда и из реестра госконтрактов. Сейчас только из реестра госконтрактов, в ограниченном объёме потому что не всё там контракты
4. Это не ошибка, не недосмотр, а целенаправленная политика по снижению прозрачности Правительства РФ в целом.
5. Говорить про эффективность нац проектов бессмысленно, до тех пор пока внутренние системы сбора показателей не будут раскрыты.
Ссылки:
[1] https://begtin.tech/natsional-nye-proekty-ili-beg-po-krugu/
[2] https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea
#government #spending #russia
В рубрике как это работает у них, портал открытых данных Таиланда data.go.th [1] малоизвестный за пределами англо-читающей среды поскольку, как и в большинстве азиатских стран, почти все материалы на нём и о нём на тайском языке.
Портал включает 9 732 набора данных, сделан на движке управления открытыми данными с открытым кодом CKAN и был бы в целом не очень примечателен если бы не системный подход. Вся инициатива по открытости в Таиланде чётко систематизирована, задокументирована, описана с процессной точки зрения и внедряется как полноценная государственная информационная система, а не какой-то побочный и ненужный продукт. На специальном сайте [2] описано всё что должны делать органы власти по развертыванию своих каталогов данных и публикации наборов данных, что, также, находится на контроле и мониторится.
Кроме того тайские власти разработали инструкцию по публикации метаданных the Data Description Standards or Metadata for Government Data Sets. [3] и даже разработали и опубликовали ПО нескольких расширений для CKAN ckanext-thai_gdc,
ckanext-gdc_agency и др. [4] для публикации их метаданных правильным образом, для учёта, анализа, отслеживания использования данных и так далее.
Ссылки:
[1] https://data.go.th/en/
[2] https://gdhelppage.nso.go.th
[3] https://www.dga.or.th/wp-content/uploads/2021/03/Final_GD-Catalog-Guideline-v.1.0_16032564-3.pdf
[4] https://gitlab.nectec.or.th/opend/installing-ckan/-/blob/master/README.md
#opendata #datasets #thailand #datacatalogs #ckan
Практически незаметно прошла новость о том что администрация Байдена вернулась к практике публикации информации о посетителях Белого дома [1]. Эта практика была среди инициатив Барака Обамы, но после того как президентом США стал Дональд Трамп эти данные не публиковали. И вот в мае 2023 года данные вновь публикуются. Больших данных там нет, всего лишь 514 тысяч записей логов о посетителях [2], тем не менее это важная практика для обеспечения прозрачности исполнительной власти в целом и лоббизма в частности.
Ссылки:
[1] https://www.whitehouse.gov/briefing-room/disclosures/2021/05/07/biden-harris-administration-reinstates-visitor-log-policy-will-be-first-administration-to-post-records-from-first-full-year-in-office/
[2] https://www.whitehouse.gov/disclosures/visitor-logs/
#opendata #datasets #data #usa
Когда-то одним из наиболее удобных инструментов для ведения заметок был Evernote, продукт одноимённого стартапа которые почти идеально для 2004 года, года его запуска, синхронизировался с устройствами и долгие годы был любим многими пользователями. Я лично пользовался им около 7 лет, скажу тогда это был очень удобный инструмент. Потом пришло много инструментов ему на замену, от личных wiki, до продуктов вроде Notion, Obsidian, Roam и ещё многих других.
В декабре 2022 года Evernote купила европейская компания Binding Spoons, в феврале 2023 года они уволили там 129 сотрудников, а 10 июля анонсировали полное увольнение офиса в США [1] и что разработка вестись будет теперь только в Европе. Правда непонятно кем учитывая что разработчики были в США, но, тем не менее, происходящее уже свершившийся факт.
Что использовать ему на замену?
Лично я исхожу из следующего подхода:
- результаты изучения, чтения чего-то и размышлений, которые могут быть публичными, для этого использую этот телеграм канал
- личные заметки в Joplin, Notion или Obsidian. Я лично предпочитаю Notion, но не претендую что это лучший вариант для всех
- рабочие заметки в Markdown и в Git когда это возможно
Ссылки:
[1] https://arstechnica.com/gadgets/2023/07/evernote-the-memory-app-people-forgot-about-lays-off-entire-us-staff/
#evernote #startups #notetaking
Вышел свежий доклад ЮНЕСКО Open data for AI: what now? [1] посвящённый, как вы догадались, открытым данным для ИИ. Доклад короткий, на 64 страницы, но весьма интересный по содержанию, как с обзором текущих инициатив по открытости данных, так и развития их использования для создания ИИ инструментов и с учётом имеющихся рисков и ограничений.
Перечень действий и рекомендаций там довольно универсальный для публикации открытых данных, к ним лишь добавился акцент на данных высокого качества и по публикации данных AI-Ready (готовых для ИИ).
В целом, мне нравится этот документ, он чётко про открытость данных, с набором конкретных рекомендаций которые, я не сомневаюсь, будут применяться многими развивающимися странами. Для правительств стран раздумывающих о перезапуске повестки открытых данных - это важный ориентир для публикации данных в привязке к ИИ.
Ссылки:
[1] https://unesdoc.unesco.org/ark:/48223/pf0000385841
#opendata #unesco #documents #readings
Но есть и хорошие новости, крипто-пузырь сдувается в ноль [1] и, лично я считаю, что это только к лучшему. Удивительно даже как долго этот хайп длился и что у него до сих пор так много фанатов.
Ссылки:
[1] https://www.brookings.edu/articles/crypto-crashes-and-job-slashes-lessons-for-local-leaders-on-building-an-innovation-ecosystem/
#crypto #tech #readings
You are probably going to be surprised, but Armenia holds one of the leading positions in the region of Eastern Europe and Central Asia, backing down only to Ukraine and slightly surpassing Kazakhstan and Russia, according to the Global Data Barometer 2022.
The Armenia’s assessment comprised by Georgia-based experts shows that the country’s relative strength affecting the relatively high index (44.6/100) is its public finance data. On the other hand, the weakest of Armenia’s capabilities is its situation with the open data. We will spare no effort to boost this dimension of Armenia’s culture of dealing with the data, which will result in deeper societal changes, increasing consciousness and self-reflexion, as well as in policy responsiveness and effectiveness.
В рубрике как это работает у них, портал визуализации статистики внешней торговли Эстонии data.stat.ee [1]. Создан командой Datawheel, стартапа которые когда-то создавали DataUSA и ещё ряд проектов с наглядной визуализацией разного рода официальной и частной статистики.
В случае Эстонии это госпортал с официальной статистикой внешней торговли, с наглядной визуализацией и с интерактивной частью где можно посмотреть.
Лично я предпочитаю порталы где можно удобно работать с данными, скачивать или делать запросы к СУБД, но вот такие визуализации хороши когда нужна наглядная визуализация для презентации.
Ссылки:
[1] https://data.stat.ee
#opendata #dataviz #estonia
Тем временем в Великобритании вновь возвращаются принятию Online Safety Bill, проекта закона пережившего уже 3-х премьер министров и обязывающего платформы встраивать бэк-доры для служб Правительства UK для возможности поиска в мессенжерах на устройствах пользователей противоправного контента. Об этом многие специалисты в инфобезе бьют тревогу [1] и даже есть открытое письмо на эту тему [2]. Собственно представителей правозащитных организаций об этом и говорят что такое демонстративное пренебрежение правами людей со стороны либеральной демократии это очень плохой сигнал для всех стран [3].
Посмотрим чем закончится принятие это законопроекта. Я ставлю на то что если его примут, то компании предоставляющие услуги P2P коммуникаций скорее уйдут с рынка UK.
Ссылки:
[1] https://techcrunch.com/2023/07/05/uk-online-safety-bill-risks-e2ee/
[2] https://haddadi.github.io/UKOSBOpenletter.pdf
[3] https://twitter.com/OpenRightsGroup/status/1676860821857509376
#privacy #security #uk
В продолжение новости о возобновлении публикации отчетности банков: Стал доступен перечень сведений, которые компании-эмитенты вправе не раскрывать.
К таким сведениям относится информация:
– о лицах, входящих в состав органов управления и органов контроля за финансово-хозяйственной детяельность;
- о сделках эмитента, его контролирующих лиц, подконтрольных ему лиц;
- о банковских группах, банковских холдингах и ассоциациях;
- о лицах, являющихся или являвшихся акционерами эмитента и подконтрольной эмитенту организации;
- о дочерних организациях эмитента;
- о финансовых вложениях эмитента;
- об операциях и объеме средств в иностранной валюте;
- об остатках и обеме средств на счетах;
- о контрагентах;
- о реаорганизации эмитента и подконтрольных эмитенту организаций;
- и др.
Полный перечень можно найти в Постановлении Правительства РФ от 4 июля 2023 года (http://static.government.ru/media/files/LI99DyXKF4GmQRe0YAsF1wH5cgNEoKnN.pdf)
Свежий доклад ОЭСР по применению ИИ в науке [1], вернее это даже не доклад, а сборник статей объединённых одной темой. Много примеров того как ИИ уже сейчас применяется в научной работе и о том как может применяться в ближайшем будущем. В целом документ ИИ-оптимистичен, практически все тексты о том как ИИ хорош и полезен во всём: автоматизации лабораторий, поиске лекарств, удобных инструментах управления знаниями и так далее.
Важная часть текстов посвящена вопросу Is science getting harder? (Становится ли тяжелее заниматься наукой?) и ответ на этот вопрос - да, а ИИ рассматривается как важный усилитель работы учёных.
Почитать полезно, поскольку это та область которая как раз должна вызывать наименьшие опасения этики работы с ИИ. Возможно.
Ссылки:
[1] https://www.oecd.org/publications/artificial-intelligence-in-science-a8d820bd-en.htm
#openscience #ai #readings
В рубрике как это работает у них, портал открытых данных Абу Даби (ОАЭ) [1]
На портале 3329 наборов данных, внутри используется движок DKAN, поверх него работает фронтэнд который взаимодействует с этим движком через API.
Из плюсов: несколько API реального времени, симпатичный дизайн, регулярное обновление, данные доступны файлами и через API
Из минусов: не поддерживает стандарты экспорта метаданных вроде DCAT, лукавят с цифрами наборов данных потому что разрезали некоторые наборы данных помесячно.
Ссылки:
[1] https://data.abudhabi
#opendata #opengov #uae
Тут буквально недавно Миннауки РФ разродилось контрактом на 344 млн. руб. с на создание сервисов в рамках "домена наука" на базе ЕГИСУ НИОКР.
Контракт, ожидаемо, с ед. исполнителем, их подведом ЦИТИСом.
Отдельная история про смысл этой работы, о ней как-то в другой раз. А отдельно про "нюансы" с Гостехом. Так вот упоминание Гостеха там в документе щедро раскидано, но... как опытный чтец ТЗ на госсистемы отмечу следующее:
1. В документе акцент не на создание на базе Гостеха, а на "готовности перевода сервисов", а значит Минобрнауки сможет принять работы и без переноса.
2. Технические мероприятия не включают перевод в промышленную эксплуатацию (впрочем это касается всего что делает ЦИТИС, а не только ГосТех, можно сказать что это такая "особенность")
3. Гостех описывается исключительно как платформа для хостинга. Требования к оборудованию нет, всё что касается сервисной инфраструктуры отсутствует.
4. Про взаимодействие через витрины данных описывается в модели "если они будут".
5. Стоит обратить внимание что размещение гостайны на Гостехе не предусмотрено, поэтому ЕГИСУ НИОКТР разделяют на две части: на инфраструктуре ЦИТИСа и на инфраструктуре ГосТеха.
В итоге, что и требовалось доказать. Гостех ничем не отличается от того чтобы вместо него использовался бы ЦОД Госзнака или Ростелекома или ГЕОП и ещё много чего.
Учитывая насколько представители Сбера стали реже упоминать себя в контексте ГосТеха, в банке то понимают насколько они портят себе этим репутацию. Собственно и мне инсайдеры в Сбере периодически честно говорят, что из всего технологического что банк делает, именно Гостех - это самый неаппетитный результат жизнедеятельности.
Ссылки:
[1] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=1971006293923000063&contractInfoId=83142106
#government #govtech #spending
Я уже несколько раз писал о том что государства по всему миру продолжают создавать каталоги API, по аналогии с сайтами для разработчиков предлагаемыми в коммерческом секторе. Новые каталоги API в тот же список:
- Каталог административных API Японии http://api-catalog.e-gov.go.jp/ открыт 31 марта 2023 г., 39 API
- Государственные API в Малайзии https://www.mygdx.gov.my/en/landing-page/architecture?theme=first-theme 130 API
- Портал API налоговой службы Австралии https://apiportal.ato.gov.au, 6 API
- Портал госAPI ОАЭ https://api.government.ae 29 API
- Портал API налоговой службы Новой Зеландии https://portal.api.business.govt.nz 30 API
- Каталог API Литвы https://api.gov.lt около 40 API
А также предыдущий список из 6 каталогов API.
Таких порталов становится всё больше и, надо отметить, что появляются они в странах где порталы открытых данных уже стали нормой и такие каталоги API их дополняют для задач где сложно или неудобно выгружать весь набор данных целиком или органы власти требуют авторизации.
#openapi #opendata #api #government
Я тут недавно выступал на одной из конференций с презентацией на русском языке про текущее состояние открытых данных и очень хотел добавить к ней цифры по числу и объёму открытых данных в мире. Такие цифры никто не собирал и, в принципе, это трудоёмкая задача. Поэтому получилось измерить минимальное число каталогов с данными, их около 3000+, но число самих данных в Common Data Index пока только 3.3 миллиона, с оговорками что не всё индексируется, не всё индексируется хорошо и тд. Но есть ли хотя бы ориентиры?
Итак вот 2 цифры:
- 45 миллионов наборов данных - это то что заявляет команда Google dataset search [1] на февраль 2023 года и собранные из 13 тысяч сайтов с разметкой Schema.org Dataset
- 53 миллиона наборов данных - это число наборов данных содержащихся в 10 крупнейших репозиториях (содержащих от 100 тысяч наборов данных) и агрегаторах научных данных, OpenAIRE, Data Mendeley, DataCite, SciDb, Figshare, DataOn, Data One, Pangaea, Zenodo, IRDB. Подсчитано мной вручную, с оговоркой что научных репозиториев много, миллионников мало, но под 100 тысяч могут быть какие-то какие я не видел ещё. Так что 53 миллиона это минимальные оценки.
Измерить объёмы данных также можно, но это будет очень большим допущением потому что до 99.9% объёма всех данных будут результаты исследований CERN и аэрофотосъёмка. Там много-много-много десятков петабайт. Речь только про доступные данные, конечно.
Ссылки:
[1] https://ai.googleblog.com/2023/02/datasets-at-your-fingertips-in-google.html
#opendata #datasets
Мне бы хотелось что-то сказать про хоть что-то позитивное в части доступности данных в России, но из речи Путина на конференции по Квантовым вычислениям и из анонса Национального проекта "Экономика данных" [1] у меня весьма удручённое впечатление. В выступлении ничего не прозвучало про открытость государства, доступность данных, регулирование в сторону открытости, зато много что звучало про "суверенность" данных, технологий и тд. Слова открытость и прозрачность в последние годы начисто пропали из речей федеральных политиков, в этом смысле ничего не поменялось, лишь подтвердилось.
Что можно сказать:
1. Явный акцент на экономику данных без открытости - это "игра" в сторону крупных корпораций собирающих данные и договаривающихся с гос-вом по использованию персональных данных граждан и наоборот всё больший сбор информации о гражданах государством через корпорации. Помяните моё слово, так и будет в ближайшие годы.
2. То же самое с квантовыми вычислениями. Это не про малый и средний бизнес, а про российские аналоги Дзайбацу (полу-семейных финансово-промышленных конгломератов).
3. В чём будет "суверенность" работы с данными можно предполагать в раздаче особо крупных субсидий на строительство и развитие ЦОДов и российских систем хранения данных, потому что без них всё это, скажем так, не полетит.
4. Про суверенные протоколы и стандарты я бы много чего сказал, но ограничусь тем что более менее неплохо переводили международные стандарты. Разработка своих стандартов, серьёзно? Кем? Впрочем пока даже непонятно о чём речь.
5. Развитые страны достаточно давно уже стремительно уходят от риторики экономики данных и переходят к риторике защиты прав граждан от злоупотребления их персональными данными и к открытости данных государств и корпораций для общественного блага и решения глобальных проблем. Пожалуй, худшее что было в это речи, то что ничего подобного не упоминалось. Есть много международных инициатив data for good, ai for good и тд.
Итого, это была речь не для граждан и не для малого среднего бизнеса, а для бизнес-крупняка, финансово-промышленных конгломератов, о том что государство делает специальный национальный проект чтобы "дружить" с ними ещё лучше и больше.
Как-то так.
Ссылки:
[1] /channel/mintsifry/1908
#data #russia #regulation #thoughts
В рубрике больших наборов данных Open Buildings [1] от Google. Набор данных идентификации зданий в странах Глобального Юга: Африка, Латинская Америка и Юго-Восточная Азия. Набор данных относительно велик, 178GB. Работать с ним можно в облаке Google или скачать себе локально его целиком или отдельные сегменты разделённые по геометрии S2 [2]. Кроме того каждому зданию присваиваются Plus codes [3], уникальные идентификаторы используемые в Google Maps.
Это уже третья версия этого набора данных, в ней появилась Латинская Америка и Карибы.
А я напомню что похожий набор данных публикуется Microsoft и охватывает меньше стран, зато есть и развитые страны США, Австралия, Канада в виде отдельных наборов данных и весь мир в качестве единого набора данных [4].
Было бы интересно увидеть сравнения этих наборов данных.
Ссылки:
[1] https://sites.research.google/open-buildings/
[2] https://s2geometry.io/
[3] https://maps.google.com/pluscodes/
[4] https://github.com/microsoft/GlobalMLBuildingFootprints
#opendata #google #microsoft #earth #datasets #data
Я, кстати, не могу не отметить что в реестре порталов с данными Common Data Index уже больше порталов данных стран постсоветского пространства чем в datacatalogs.ru. Например, в реестре 37 порталов с данными в Республике Казахстан [1] из которых, правда, 33 являются геопорталами, по большей части на базе ArcGIS. Данные оттуда вполне можно получить, главные ограничения юридические поскольку в ArcGIS не вносят информацию о лицензиях/правах на данные. Впрочем я уже неоднократно писал [2] что с открытыми данными в Казахстане проблема другого рода, по факту data.egov.kz порталом открытых данных не является и его создатели всячески препятствуют использованию этих данных. Зачем они так делают я недоумеваю, странно что негосударственный портал открытых данных Казахстана ещё никто не создал.
Ссылки:
[1] https://registry.commondata.io/country/KZ
[2] /channel/begtin/4626
#opendata #data #kazakhstan
Ещё один интересный документ-доклад OECD Government at a Glance 2023 [1]. Как очевидно из названия документ от ОЭСР и посвящён эффективности и деятельности входящих в ОЭСР стран и ряда стран кандидатов. В докладе много цифр и фактов про государственное управление разделённых по главам доверия к демократии, цифровое правительство, открытые госданные, бюджетирование, система госзакупок и так далее. Для тех кто интересуется как развиваются все эти темы в развитых странах это будет полезное чтение. Для облегчения его я могу порекомендовать сразу скачать доклад в PDF [2], поскольку онлайн версия там не самая удобная. А также посмотреть конкретные цифры на портале статистики ОЭСР [3], правда портал ОЭСР прямые ссылки на статразделы не поддерживает, поэтому там надо искать нужные данные в разделе Public Sector, Taxation and Market Regulation.
Этот доклад ОЭСР публикуют раз в 2 года и последний был в 2021 году. Тогда ещё были данные по России, которые собирались несмотря на заморозку в 2014 году вступления России в ОЭСР. В 2023 году данных по России уже нет совсем, все упоминания России только в контексте военного конфликта, роста инфляции, роста цен на продовольствие и так далее.
Ссылки:
[1] https://www.oecd-ilibrary.org/governance/government-at-a-glance-2023_3d5c5d31-en
[2] https://www.oecd-ilibrary.org/deliver/3d5c5d31-en.pdf?itemId=%2Fcontent%2Fpublication%2F3d5c5d31-en&mimeType=pdf
[3] https://stats.oecd.org/
#opendata #oecd #digitalgovernment #government #readings
В рубрике интересных наборов данных, набор данных по использованию земли в Европейском союзе начиная с 2000 года по 2019 [1], а также визуальное представление этих данных в проекте The Open-Earth-Monitor Cyberinfrastructure [2]
Этот проект, как и многие другие геоданные с высокой детализацией, создаются в рамках исследовательской программы ЕС консорциумом университетов, исследовательских групп и частных компаний. Кроме него стоит посмотреть на другие значимые наборы геоданных публикуемые OpenGeoHub [3].
В очень хорошем смысле можно позавидовать их команде, создающей огромные наборы данных в хорошем качестве и за государственный счёт (научных программ ЕС и глобальных институтов).
Ссылки:
[1] https://opengeohub.org/datasets/high-resolution-annual-continental-european-land-use-land-cover-data-since-2000/
[2] https://ecodatacube.eu
[3] https://opengeohub.org
#opendata #datasets #geodata #europe
К вопросу о поиске данных, в портал открытых данных по Армении (data.opendata.am) [1] мы начали загружать больше данных из разных источников и автоматически. Я вспомнил навыки по загрузке данных в CKAN и просто загрузил датасеты которые собирал в рамках Common Data Index с фильтром по Армении как по стране. Сейчас там более 700 наборов данных и ещё не меньше можно собрать.
По такому же принципу существует портал openAfrica [2], тоже общественная инициатива, только они собрали 6 886 по всему континенту. Не очень много, можно и больше, я недавно с ними общался и подсказывал где больше африканских порталов с данными. Собственно порталы на базе CKAN обладают встроенными API и функциями сбора данных из других порталов. По опыту API удобнее, правда.
И вот тут есть особенность что чем больше страна, тем больше по ней данных разбросано по международным и научным каталогам данных, потому что есть данные исследователей из страны, есть данные по биоразнообразию, есть данные исследований о земле, данные спутниковых снимков и так далее. Если поискать, например, данные о России за пределами России то можно насобирать до 40-50 тысяч наборов данных без феноменальных сложностей.
На одном только портале Pangaea более 14 тысяч наборов данных [4] по ключевому слову "Russia". К примеру, по слову "Armenia" находится только 46 наборов данных [5]. Поэтому размер территории, экономики и научной активности имеет значение когда собираешь данные по отдельной стране, за её пределами.
Я когда-то думал об этом размышляя над перезапуском нашего российского Хаба открытых данных [3]. Я совершенно не шучу что туда можно очень быстро добавить очень много данных, очень-очень много данных, разного размера, от маленького объёма до баз данных которые невозможно обработать на персональном компьютере.
Но в целом Государство российское, в его нынешней инкарнации, много лет скорее препятствует работе по повышению доступности данных. Помимо того что они убили Кенни портал открытых данных data.gov.ru, так за все эти годы не появилось ни одного портала научных данных, кроме ЕСИМО, нет нормальных каталогов геоданных, и сами открытые данные госорганов сейчас крайне фрагментированы даже когда доступны.
Поэтому можно ли и нужно ли создавать Российский национальный не-государственный портал открытых данных - это вопрос открытый. И в значительной степени он упирается в аудиторию такого проекта.
Ссылки:
[1] https://data.opendata.am
[2] https://africaopendata.net
[3] https://hubofdata.ru
[4] https://pangaea.de/?q=Russia
[5] https://pangaea.de/?q=Armenia
#opendata #datasets #russia #armenia #datacatalogs #data
В рубрике интересных наборов данных сайт-сообщество iNaturalist [1] изначально созданный как неофициальное сообщество наблюдение за животными и растениями и идентификацией их экспертами/участниками сообщества, далее взятый под опеку Калифорнийской академией наук и развиваемый в тесной интеграцией с другими большими проектами по систематизаций флоры и фауны, такими как GBIF.
В iNaturalists участники публикуют фотографии/наблюдения животных в естественной среде, всего размещено более 147 миллионов наблюдений от 2.7 миллионов наблюдателей, а также зарегистрировано 432 тысячи видов животных и 316 тысяч экспертов.
У проекта есть открытое API [2], а также слепок данных по 66 миллионам наблюдений опубликованный на GBIF [3] (на GBIF попадает не всё, а только наблюдения подтвержденные экспертами).
Это большой некоммерческий научный проект который можно отнести к гражданской науке и который охватывает практически весь мир. В нём можно найти экспертов и наблюдателей и результаты наблюдения из практически всех, даже очень малых или очень бедных стран
Ссылки:
[1] https://www.inaturalist.org
[2] https://api.inaturalist.org/v1/docs/
[3] https://www.gbif.org/dataset/50c9509d-22c7-4a22-a47d-8c48425ef4a7
#opendata #datasets #biology
Свежий инструмент Hashnode Rix [1] по модели компаньёна разработчика. Умеет отвечать на вопросы относительно написания кода, На сложные вопросы ответить не может, а на вот такие простые легко.
Уже просто таки даже интересно, когда от supportive AI придёт мода на proactive AI. Пишешь код, к примеру, а тут тебе AI помощник и пишет "Йоу, чувак, да у тебя веб приложение. А кинь мне список страниц что тебе нужны, я сейчас сгенерю" и тд.
Ссылки:
[1] https://hashnode.com/rix
#ai #tools
Eusko Jaurlaritzaren datu irekiak
В рубрике как это устроено у них портал открытых данных Страны басков (провинция Испании) [1]. Можно сказать что является типичным европейским регионалом порталом открытых данных с акцентом на статистике и на геоданных, кроме двух интересных особенностей.
Во первых на нём размещено около 10 тысяч наборов данных, при том что население провинции составляет всего около 2 миллионов человек. Это довольно много, даже если предположить что они тоже дробят статистические показатели.
И, во вторых, портал построен на тематической классификации по 16 Objetivos de Desarrollo Sostenible (Целям устойчивого развития, ЦУР), что для порталов открытых данных довольно необычно, обычно темы используют другие, в Европе это или геотемы из ISO 19115 или Data Themes применяемые в Европейском портале открытых данных.
Плюс у портала есть множество API, поддержка SPARQL и тд.
Ссылки:
[1] https://opendata.euskadi.eus/hasiera/
#opendata #spain #basque #euskadi #datasets
Из любопытного, в Meilisearch, одном из самых быстрых опенсорсных движков для поиска структурированного контента, добавили векторный поиск [1], а их CTO интересно и с примерами рассказывает про применение Meilisearch для семантического поиска и построения чат-ботов [2]. Там есть технические подробности для интересующихся, лично я планирую посмотреть пристально на эту новую возможность.
А из другого бросившегося в глаза в их анонсе, это ссылка на бот дающего ответы на основе их же документации [3], чат боты для технической документации это хорошая идея, да и для любой другой документации больших текстов тоже.
Ссылки:
[1] https://blog.meilisearch.com/vector-search-announcement/
[2] https://github.com/meilisearch/meilisearch/issues/3838
[3] https://blazy-chat.vercel.app/
#opensource #search
В рубрике как это работает у них, корейский негосударственный агрегатор поисковик по открытым данным Kimi Nine [1] 149 тысяч наборов данных, 11 тысяч API, 39 тысяч слоёв карт и 451 набор больших данных из 54 источников, большая часть источников - это государственные и научные каталоги данных.
Агрегатор заодно даёт картину того как устроена публикация данных в Южной Корее.
Ссылки:
[1] https://gimi9.com
#opendata #korea #datasets
К вопросу о цифровой архивации данных, единственный известный мне портал открытых данных Афганистана Afghanistan Disaster Risk Information Portal [1] на базе Geonode, был доступен до декабря 2022 г. [2], а потом просто исчез. Особенность как его, так и очень многих других порталов с данными в том что поисковые системы и интернет-архив их почти не индексируют, потому что интерфейсы построены поверх вызовов API и сами данные доступны не всегда файлами, часто через точки подключения.
Один лишь пример из многих
Ссылки:
[1] https://disasterrisk.af
[2] https://web.archive.org/web/20221223165024/https://disasterrisk.af/
#opendata #digitalpreservation #afganistan #geodata
Свежий текст в рассылку на Substack, текстов я туда не писал давно, поэтому перезапускаю с вопроса. О чём же написать в первую очередь? Опрос прямо там же, на Substack [1]
Ссылки:
[1] https://begtin.substack.com/p/fde
#blogging #data #substack
В рубрике как это устроено у них, экспериментальный австралийский проект их департамента финансов (аналог Министерства финансов в РФ и постсоветских странах) по созданию так называемого финансового графа по органам власти Австралии. С атрибутами, свойствами и характеристиками органов власти с точки зрения их участия в бюджетном процессе. Можно посмотреть вживую на structure.gov.au [1]
В России похожий проект был в виде реестра участников и неучастников бюджетного процесса, но только связанных данных там не было, но информации значительно больше публиковалось и частично публикуется.
В мире такие проекты редкость, сложные формальные реестры - это одна из областей где применение связанных данных оправданно и логично, хотя и от конечного неквалицированного пользователяь оторвано.
Для тех кто любит оперировать смыслами понятий в госуправлении и управлении бюджетными процессами - это сложная и интересная штука.
Ссылки:
[1] https://structure.gov.au/body/department-finance
#opendata #linkedata #govfinances #government #australia
Любопытный свежий документ Deloitte про открытые данные и открытый банкинг Digital transformation of financial services and moving from Open Banking to Open Data [1], подготовленный в продолжение отчёта ОЭСР Shifting from open banking to open finance [2] от февраля 2023. В документе Deloitte в большей степени и в документе ОЭСР в меньшей степени упоминаются открытые данные, но термин постоянно подменяется с "open data" на "Open Data Ecosystem" и то что там описывается, формально, конечно, никакими открытыми данными не являются. Это данные, в том числе персональные, доступные в рамках различных инициатив по data sharing и само регулирование и примеры в этих документах это практики корпоративного обмена данными и предоставление данных через стандартизованные интерфейсы.
С точки зрения интересных примеров регулирования работы с данными - почитать полезно, в остальном, довольно активная подмена понятий, особенно в тексте от Deloitte.
Ссылки:
[1] https://www.deloitte.com/global/en/Industries/financial-services/perspectives/ecosystem-imperative.html
[2] https://www.oecd.org/publications/shifting-from-open-banking-to-open-finance-9f881c0c-en.htm
#opendata #readings