begtin | Business and Startups

Telegram-канал begtin - Ivan Begtin

7027

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Subscribe to a channel

Ivan Begtin

Сегодня интернет-архив Archive.org был недоступен в течение часа, о чём написал его основатель Brewster Kahle в блоге архива [1] о том что на сайт архива обрушилось более 10 тысяч запросов в секунду для доступа к архиву оцифрованных книг. В итоге техническая команда архива заблокировала около 64 адресов с которых сыпались такие запросы. В твиттере архива есть подробности [2] и скорее всего эту нагрузку создавала одна из компаний создающих продукты на базе ИИ. После этого сложно говорить что разработка ИИ не наносит вреда;) как минимум косвенного.

Сейчас интернет-архив работает стабильно, хочется надеяться что они смогут лучше противодействовать в будущем таким хищническим нагрузкам со стороны ИИ стартапов.

Ссылки:
[1] https://blog.archive.org/2023/05/29/let-us-serve-you-but-dont-bring-us-down/
[2] https://twitter.com/internetarchive/status/1662999547138945030

#ai #archives #internetarchive #outage

Читать полностью…

Ivan Begtin

Про публикацию открытых государственных данных в России иногда, всё же, можно рассказать и что-то хорошее, хотя и нечасто. ФНС России обновило портал ФИАС [1] (Федеральной информационной адресной системы) в которой собраны сведения о более чем 32 миллионах зданий и сооружений и других связанных с ними объектов [2]. Система эта существует достаточно давно и доступ к ней есть через скачивание полных дампов, скачивание дельт изменений, API и СМЭВ. В общем это очень хороший пример того как правильно публиковать данные в открытом доступе если делать это на системной основе.

Я бы сказал что высокие оценки ФНС в части открытости [3] вполне оправданы, это редкое по нынешним временам системное раскрытие нужных бизнесу данных, причём данных референсных, составляющих базовую цифровую инфраструктуру. По сравнению с каким-нибудь Минэкономразвития России ФНС большие молодцы.

Особенно важно что в ведомстве понимают продолжают публиковать данные для массовой выгрузки в виде полных дампов, до 36GB в сжатом виде один дамп. К сравнению власти Санкт-Петербурга "похоронили" свой портал открытых данных ради портала API [4], что власти города конечно не красит.

Возвращаясь к ФИАС, конечно, даже подобная публикация данных неидеальна и её есть куда улучшить, особенно если смотреть не на форму, а на суть данных. А суть в том что это геоданные, без геоидентификаторов. Для того чтобы данные можно было применять в большой аналитической работе необходимо чтобы записи о муниципалитетах, улицах, зданиях и иных объектах содержали их геокоординаты, геоформу, включали Shape файлы, KML, GeoJSON, GML и все остальные геоформаты доступа к таким данным. Иначе говоря были бы интегрированы с данными Росреестра и доступны для выгрузки.

Другая важная сторона публикации данных в раскрытии их под свободными лицензиями. До сих пор на сайте ФИАС нет явно указанных, четких, не имеющих оговорок, условий использования этих данных. А чтобы использовать их в таких проектах как Wikidata или OSM лицензии имеют значение. Публикация данных под Creative Commons Zero выглядит наиболее логично.

Ссылки:
[1] https://fias.nalog.ru
[2] https://fias.nalog.ru/Statistics/
[3] /channel/ahminfin/568
[4] https://api.petersburg.ru

#opendata #geodata #russia #api #datasets

Читать полностью…

Ivan Begtin

В течение 27 мая Архив Санкт-Петербурга будет открытым

В честь Дня города (27 мая) Архивный комитет Санкт-Петербурга открывает на сутки доступ к документам, размещенным на портале "Архивы Санкт-Петербурга» (spbarchives.ru).

На сайте доступны различные исторические документы, в том числе и финансовые, например:

- Протоколы заседаний комиссии по бюджету (1928-1929)
- Переписка о финансировании по бюджету (1941-1942)
- Отчеты об исполнении бюджета г. Ленинграда (1940)
- Проекты районного бюджета Красногвардейского района (1942)
- Местный бюджет Ленинградской губернии (1926-1927)
- Протокол заседания комиссии по пересмотру бюджета Ленинградских академических театров (1928)

Есть несколько особенностей:
- оцифровано не все, поэтому лучше сразу поставить фильтр «только с электронными образами»
- доступ только по ЕСИА (Госуслуги)
- качество электронных образов не очень высокое, есть водяные знаки. Если нужны качественные сканы, то доступ только платный - 20 руб/страница.

На конкурс «Твой Бюджет 2.0» мы подавали идею проекта «Петербургский цифровой архив госфинансов и госуправления» и услышали критику о том, что «работа архивариусов стоит дорого, поэтому за нее нужно платить». Но мы, как налогоплательщики, уже заплатили за создание архивов и работу Архивного комитета. Тем более, не зная прошлого нельзя построить будущее, особенно если для получения знаний создаются искусственные барьеры.

У Яндекса есть поиск по архивам (yandex.ru/archive), который был бы невозможен, если бы архивы 7 российских регионов не публиковались в открытом доступе. К сожалению, Санкт-Петербурга в этом списке нет, но хочется надеяться, что власти города поймут, что открытость принесла бы городу гораздо больше, чем те небольшие деньги, которые архивная служба зарабатывает на простых и не очень богатых людях, большинство из которых хотят узнать историю своей семьи с помощью высокотехнологических инструментов. И если Яндекс и другие организации (тот же Минфин России) позволяют бесплатно искать по миллионам сканированных документов (в том числе и по рукописным с использованием алгоритмов распознавания текста), то документы из «закрытых» архивов, таких как Петербургские, остаются для нас малодоступными.

#госархив #открытыеданные #архивныйкомитет #санктпетербург #твойбюджет #госфинансы

Читать полностью…

Ivan Begtin

Where to find sociological data about Armenia? Let's take a look:

- IPUMS International database of the sociological survey. It's not a data catalog but a unified database. It includes data on Armenia surveys in 2001 and 2011
- World Bank Microdata catalog database of all microdata surveys in the World. It includes 81 survey datasets from Armenia.
- Food and Agriculture Microdata Catalogue 25 survey datasets from UN FAO agency.

And Armenian statistical agency provides Armstat Microdata Library with 26 datasets available after registration.

Microdata datasets is not always provided as open data, but sometimes they could be downloaded as public files or requested from a data provider.

#opendata #datasets #sociology #data #armenia

Читать полностью…

Ivan Begtin

А теперь о хорошем, прекрасная визуализация домохозяйств в США на от Nathan Yau на Flowing Data [1]

Кроме 100 наиболее распространённых типов домохозяйств по отношениям между входящими в него людьми и визуализация крупнейшего домохозяйства 19 человек.

Крупнейшего, конечно, с оговоркой что это не данные переписи, а данные опроса 2021 American Community Survey которые автор выгрузил из IPUMS [2] это такая хорошо известная социологам сеть баз данных опросов по США и другим странам. Главное в работе с ними понимать как они устроены поскольку для неподготовленного человека можно легко запутаться в выборе переменных и их сочетаниях.

И вдогонку очень рекомендую визуализацию 2016 года разницы между структурой домохозяйств в США между 1970 годом и 2014 [3] всё кажется очень очевидным, меньше пар с детьми, больше одиночек, и очень наглядным.

Ссылки:
[1] https://flowingdata.com/2023/05/23/all-the-household-types-in-the-u-s/
[2] https://www.ipums.org/
[3] https://flowingdata.com/2016/08/09/household-types-then-and-now/

#opendata #dataviz #infographics

Читать полностью…

Ivan Begtin

Да-да, не могу не добавить, не без иронии, что в 2020 году активно начали (продолжали) закрывать в России данные, а теперь начинают (начали) закрывать людей?

Читать полностью…

Ivan Begtin

Я давненько не писал про работу над моим пэт-проектом Common Data Index по созданию поисковой системы по всем общедоступным открытым данным который по мере развития получит институциализацию. Пока же о текущем состоянии. В каталоге сейчас 2027 каталогов данных из которых большая часть это порталы открытых данных. Ещё 824 каталога данных найдены, но ещё не включены в каталог, большая их часть - это геопорталы. После обновления, скорее всего, число геопорталов будет больше числа порталов открытых данных.

Реестр теперь можно увидеть наглядно на сайте registry.commondata.io и у каждого каталога есть отдельная страница, уникальный идентификатор с префиксом cdi, а также можно увидеть статистику реестра целиком и профили по странам и, конечно, скачать сам реестр целиком.

#opendata #datasets #dataportals #datacatalog

Читать полностью…

Ivan Begtin

В рубрике как это работает у них IRDB (Institutional Repositories DataBase) [1] японский агрегатор результатов научной деятельности в котором собрано более 3.8 миллионов записей, большая часть которых - это научные публикации, но более 100 тысяч открытые наборы данных.

В агрегаторе собираются материалы из 486 японских исследовательских репозиториев, а для сбора данных используется JPCOAR [2], японский вариант стандарта публикации результатов научных работ.

Эту базу можно, в чём-то сравнить с китайским SciDB, однако последний сделан с акцентом только на данные, а здесь все научные результаты. Поэтому корректнее сравнивать его с европейским OpenAIRE, на который он по смыслу и идеологии весьма похож.

Ссылки:
[1] https://irdb.nii.ac.jp/en
[2] https://schema.irdb.nii.ac.jp/en
#opendata #openaccess #japan #openscience

Читать полностью…

Ivan Begtin

Есть такой тип данных как референсные данные или, как их чаще называют в России, справочники и классификаторы. Одна из особенностей данных по России в том что какое-то количество референсных данных опубликовано на специальных порталах.
- ЕСНСИ Госуслуг https://esnsi.gosuslugi.ru
- НСИ ФОМС http://nsi.ffoms.ru
- НСИ Минздрава https://nsi.rosminzdrav.ru
- НСИ Москвы https://nsi-asur.mos.ru/List/ (вообще их система требует авторизации, но есть прямая ссылка на полный список)
- Система НСИ Санкт-Петербурга https://classif.gov.spb.ru
И ещё много других.

Эти порталы очень похожи на порталы открытых данных, также разные наборы данных, также возможность машиночитаемой выгрузки и есть API, разница в том лишь что нет отдельных лицензий и множества публикаторов. Условия использования, как правило, единые.

В мире таких порталов, на удивление, не так много или они порталы с открытыми данными не напоминают, и устроены несколько иначе. Чаще всего в виде сложных моделей данных и схем, также общедоступных. В России же многие справочники выведены в открытый доступ, это, особенность, в первую очередь создания очень крупных информационных систем с большим числом интегрируемых ИС, в том чтобы такие данные были доступны. В мире такие системы референсных данных могут быть в США, ЕС и ряде крупных стран, но, опять же, подчеркну что не на виду.

Лично я до сих пор не понимаю относить ли такие системы к порталам открытых данных, например, в Common Data Index сейчас включены:
- Порталы открытых данных
- Геопорталы
- Научные репозитории
- Порталы микроданных
- Порталы индикаторов
- Порталы данных для машинного обучения
- Системы поиска по данным
- Маркетплейсы данных
и Каталоги API

В общем каталогов референсных данных тут нет, а если добавить то будут только российские. Так что вопрос остаётся открытый в том числе и в том что польза от таких данных опосредованная.

#opendata #datasets #referencedata

Читать полностью…

Ivan Begtin

Я про российский ГосТех пишу мало не потому что за ним не слежу, а потому что "что тут писать когда всё понятно?". Надо понимать что срок переноса Госуслуг на ГосТех не временный, а единственный сценарий при котором Госуслуги будут на Гостехе - это если Ростелеком переподчинят Сбербанку или Сбербанк Ростелекому. Но как бы помягче, сценарий такой маловероятен.

Что я могу точно сказать, так после глобальной пиар акции Пр-ва по продвижению ГосТеха вывод можно сделать один продукт настолько говно несовершенен что нужны административные ресурсы на уровне главы Пр-ва чтобы продавить его использование что на федеральном уровне, что у субъектов федерации. Это очень и очень печально и на месте команды ГосТеха я бы крепко напрягся (хотя может они уже а я и не знаю?) потому что главные бенефициары тех или иных госинициатив вылезают на свет выходят на сцену только когда ситуация находится в серьёзном внутреннем кризисе.

Ещё много лет назад, мне знакомые прокуроры объясняли как всё работает. Топов никогда не привлекают к ответственности по иным причинам кроме политических, а вот средний менеджемент подписывающий документы прекрасно попадают под определение всё продолбали ввели руководство в заблуждение. Триггером будет когда хоть кто-то на высшем уровне заговорит о том какая же замечательная идея ГосТех, но в этот раз не получилась, но мы от неё не откажемся. После чего будут искать виноватых. А тут срабатывает правило любой авантюры, тот кто в команде не знает кто за это будет сидеть, тот и главный кандидат;)

Как мне в кулуарах говорили уважаемые люди на российском рынке, если тебя в ГосТех позовут работать и тебе деньги ну очень нужны, то стоит идти, только ничего не подписывай!.
Мне печально лишь наблюдать, не в первый раз, о том что вначале много лет учишь тому как госинформатизация происходит в мире, а потом она реинкарнирует в России в наиболее извращённой местной форме.

#government #regulation #it #russia #govtech

Читать полностью…

Ivan Begtin

Кратко об открытых данных в Санкт-Петербурге: 3 новых набора данных за 2022-2023 гг

Раз уж пришлось погрузиться в обдумывание идей «Цифровых сервисов» для Санкт-Петербурга, решила заодно посмотреть, что же стало с «Порталом открытых данных», который в марте 2021 года объединили с Системой классификаторов Санкт-Петербурга (до сих пор непонятно, почему Портал ОД является подмножеством Системы классификаторов, но там так интересно все устроено, что об этом будет отдельный пост).

На запрос об «упразднении Портала» Правительство Петербурга ответило: «публикация всех актуальных данных и доступ к уже опубликованным ранее теперь происходят на одном ресурсе». Кстати, спустя два года на сайте Комитета по информатизации нет упоминания о том, что ГИС «Открытые данные Санкт-Петербурга» упразднен, а посвященная ему страница есть.

Что изменилось за два года?

- «исторические» метаданные всех наборов, опубликованных до 2021 года утеряны. Все наборы перенесены с датой версии (первой публикации?) от марта 2021 года. Что было до - не восстановить;

- в паспорте набора нет ни одной даты: невозможно узнать дату актуализации, дату обновления набора данных, дату первой публикации набора данных. Для поиска всех наборов, опубликованных в первые в 2022-2023 году, мне пришлось вручную пройтись по внутренним вкладкам каждого набора данных;

- единственная доступная дата - «дата создания версии». Не нашла на портале, что имеется в виду: Дата выгрузки набора данных из информационной системы? Дата загрузки набора данных на Портал открытых данных? Дата актуальности?

- за 2022-2023 год опубликовано 3 новых набора данных: список светофорных объектов, торговый реестр, внутридворовые спортивные площадки Санкт-Петербурга. Все. В 2020 году на сайте было 194 набора данных, сейчас - 198.

- какие-то старые наборы данных обновляются, некоторые даже регулярно. Но без метаданных их использование затруднительно.
То есть формально Портал открытых данных объединен с Системой классификаторов СПб, но фактически работа над ним не ведется, новые данные не загружаются. Ожидаемо.

При этом в Петербурге есть уникальные и интересные системы, работа над которыми активно ведется: Портал API для разработчиков; Система классификаторов (не в части Портала ОД); Реестр ГИСов Санкт-Петербурга. Жаль, что Порталу открытых данных так «не повезло».

#открытыеданные #спб #системаклассификаторов #открытость

Читать полностью…

Ivan Begtin

Среди малоизвестных продуктов для публикации открытых данных есть такой продукт как Open Data Cube [1]. Можно перевести его как "куб открытых данных", но скорее он является "Открытым кубом данных". Это ПО с открытым кодом [2] для создания каталогов спутниковых данных. Продукт достаточно давний и его первые версии распространялись CEOS [3] (The Committee on Earth Observation Satellites) и до сих пор развёрнуты во многих странах, но работают, в основном, в закрытом режиме.

Последняя версия Open Data Cube, именно про открытые данные. Причём помимо возможности работать с данными и скачивать данные привычным образом, эта версия ПО по умолчанию поддерживает протокол по спецификации STAC [4].

Уже есть некоторое число общедоступных инсталляций, часть из которых зарегистрирована в реестре STAC, а часть надо искать, впрочем я облегчу задачу и приведу примеры тут:
- Digital Earth Africa - https://explorer.digitalearth.africa
- Digital Earth Australia - https://explorer.nci.dea.ga.gov.au
- Common Sensing Ltd. - https://cubeexplorer.csopenportal.co.uk
- Maynooth University - https://tai-odc.terrainai.com
- Thai Geo and space agency - https://datacube.gistda.or.th

В Open Data Cube своя терминология которую важно учитывать. Например, термин dataset, который по сути является срезом наблюдения на определённую дату и время, поэтому, например, в каком-нибудь Digital Earth Africa может быть до 1 миллиона датасетов. А то что датасетом считают в других порталах тут называют product. Например, именно product является объектом лицензионных рассмотрений и публикуется под какой-то конкретной лицензией, например, CC-BY 4.0.

Ссылки:
[1] https://www.opendatacube.org
[2] https://github.com/opendatacube
[3] https://www.opendatacube.org/ceos
[4] https://stacspec.org/en

#opensource #opendata #geodata #dataportals

Читать полностью…

Ivan Begtin

Свежая статья о том кто контрибьютит открытый код в мире [1]. Авторы изучили вклад 43 миллионов человек в 160 миллионов проектов включая репозитории кода с 1971 года. Собственно авторы Rossi и Zacchiroli одни из основателей и участников французского проекта по архивации исходного кода Software Heritage, где эти данные с кодом и собираются и накапливаются. Можно увидеть что большая часть контрибьторов происходят из США и Европы и значительная доля уже у Южной и Центральной Америки.

У России там что-то около 5%, малых стран по отдельности нет, они попадают в макро-группы.

И в том же контексте, исследование октября 2021 года про региональность OSS разработчиков [2], часто несвязанную с концентрацией ИТ компаний/специалистов. Там внутри есть и по странам, и по Европе отдельный фокус. Пропорциональность они считали по числу OSS разработчиков на 100 тысяч человек и использовали только данные Github.

Ссылки:
[1] https://dl.acm.org/doi/pdf/10.1145/3524842.3528471
[2] https://arxiv.org/pdf/2107.03200.pdf

#opensource #readings

Читать полностью…

Ivan Begtin

🇪🇺Европарламент принял поправки к закону об ИИ.

В Европарламенте приняли первые в истории правила для искусственного интеллекта. Правила придерживаются риск-ориентированного подхода, и устанавливают обязательства для поставщиков и пользователей в зависимости от уровня риска, который может генерировать ИИ.

Запреты установлены на следующие использование систем ИИ:

- Системы удаленной биометрической идентификации “в реальном времени” в общедоступных пространствах;
- Системы биометрической категоризации, использующие чувствительные характеристики (например, пол, раса, этническая принадлежность, статус гражданства, религия, политическая ориентация);
- Системы прогнозирования полицейской деятельности (на основе профилирования, местоположения или прошлого преступного поведения);
- Системы распознавания эмоций в правоохранительных органах, управлении границами, на рабочих местах и в учебных заведениях; и
- Неизбирательное удаление биометрических данных из социальных сетей или видеозаписей с камер видеонаблюдения для создания баз данных распознавания лиц (нарушение прав человека и права на неприкосновенность частной жизни).

Также правила предусматривают обязательства для поставщиков базовых моделей - таких как GPT, дополнительные требования прозрачности, в частности раскрытие того, что контент был сгенерирован ИИ.

Читать полностью…

Ivan Begtin

Интересный текст Silicon Valley’s Civil War [1] от Nadia Asparouhova о контрэлите из Кремниевой долине. Контрэлита, в данном случае, это совокупный образ сверхбогатых техно-олигархов вроде Маска или Цукерберга провопоставляемых условно "классической элите", а в данном случае автор ещё и сопоставляет их с Давосским форумом, как совокупное представление элиты.

В тексте хорошие примеры очень быстрой реакции именно контрэлиты в лице Ryan Petersen из Flexport по личному анализу проблем с доставкой во время COVID-19 и про Patrick Collison, сооснователя Stripe, который в течение недели собрал и раздал грантов на $50 миллионов учёным исследующим COVID-19 и долго ожидающим начала финансирования от National Institute of Health в США.

Текст, кстати, во многом объясняющий столь контрастную реакцию на деятельность Элона Маска, он довольно яркий представитель контр-элиты. В статье есть также противопоставление поколенческое и, возможно, им же можно объяснить этот термин контр элит, но важное отличие именно представителей контр элиты в индивидуализме, собственном восприятии мира и готовностью менять мир.

В итоге текст интересный, как минимум дающий дополнительный взгляд на происходящее

Ссылки:
[1] https://www.tabletmag.com/sections/news/articles/silicon-valley-civil-war

#readings #tech

Читать полностью…

Ivan Begtin

[RU] Многие открытые данные и материалы культурного наследия Армении и армян разбросаны по архивам по всему миру, картины художников, работы скульпторов, книги писателей доступны на сайтах музеев, галерей и архивов. Чаще всего их невозможно найти просто указанием страны, не все архивы позволяют искать идентифицируя по культурному происхождению или по стране.

В некоторых странах, например, в Российской Федерации значительная часть культурных данных доступны в виде больших наборов данных, доступных для выгрузки, анализа и исследований. Где найти эти культурные данные?

Госкаталог музейного фонда (https://goskatalog.ru)

Создан Минкультуры РФ, включает описание и превью более чем 37 миллионов экспонатов. В каталоге много материалов относящихся к Армении, например, картины Ованесса Айваязана (Ивана Айвазовского) [1] или картины и иные материалы связанные с работой Мартироса Сарьяна [2]. Данные из Госкаталога доступны в на портале открытых данных Минкультуры РФ, их можно скачать и найти в них эти и другие материалы связанные с культурой и историей Армении и армянского народа.

Артефакт – гид по музеям России (https://ar.culture.ru)

Другой проект Минкультуры России охватывает множество музеев РФ и предоставляет изображения экспонатов в высоком качестве. В этом проекте, также, немало картин имеющих отношение к Армении и армянским художникам. Там есть страница и галерея посвящённая Ивану Айвазовскому (Ованесу Айвазяну) [4], или Налбандяна Дмитрия Аркадьевича [5] и многих других художников. В системе Артефакт не публикуются открытые данные, но есть недокументированное API и возможность собрать данных через скрейпинг данных.

Национальная электронная библиотека (https://rusneb.ru)

В Национальной электронной библиотеке собраны миллионы книг открытого доступа из библиотек и архивов России. Многие книги в НЭБ написаны армянскими писателями на русском языке или переведены на русский язык. Например, в НЭБ есть книги Мартироса Сарьяна [6] и Ованеса Туманяна [7], а также небольшое число книг на армянском языке [8]. У НЭБ нет открытого API или открытых данных, но эти и другие материалы можно найти поиском и собрать скрейпингом с веб-страниц НЭБ. Также в НЭБ немало документов Российской Империи включающих историю и статистику губерний населённых армянами.

Этот список источников далеко не исчерпывающий, многие художественные произведения публикуются на сайтах других музеев, галерей, библиотек и архивов. Мы собираем список таких источников данных со всего мира и если Вы знаете такие сайты, обязательно напишите нам, мы опубликуем итоговый список в в каталоге данных Open Data Armenia и организуем сбор этих данных.

Ссылки:
[1] https://t.ly/MbOQ
[2] https://t.ly/g2-LI
[3] https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits
[4] https://ar.culture.ru/ru/person/ayvazovskiy-ik
[5] https://ar.culture.ru/ru/person/dmitriy-arkadevich-nalbandyan
[6] https://t.ly/A9ph
[7] https://t.ly/T71z
[8] https://t.ly/FAsT

#opendata #digitalheritage #culture #armenia #datasets

Читать полностью…

Ivan Begtin

Я ранее несколько раз писал про портал открытых данных Казахстана data.egov.kz [1] и то что на портале есть множество ограничений по выгрузке данных (не более 100 записей за один раз, каптча), а ранее неграждане страны вообще не могли ничего оттуда выгружать. Теперь, пересмотрев несколько тысяч порталов с данными по всему миру могу сказать что вот этот казахстанский пример абсолютно уникален, ни на одном национальном портале данных в мире нет таких ограничений.

Другое удивительное явление в Казахстане - это то что несмотря на то что страна богатая деньгами, ресурсами и развитой ИТ средой, тем не менее практически нет тематических и региональных порталов с данными. Во многих странах всё скорее наоборот, может национального портала не быть, но городские и региональные повсеместны.

Параллельно неработающему национальному порталу открытых данных есть немалое число доступных геоданных и даже научных данных.
Например, в Университете Назарбаева открытые данные публикуются на двух ресурсах:
- https://issai.nu.edu.kz/issai-datasets/ коллекция наборов данных под свободными лицензиями от ISSAI - Институт Умных Систем и Искусственного Интеллекта. Множество наборов данных для машинного обучения
- https://research.nu.edu.kz/en/publications/ - наборы данных среди результатов исследований университета, фильтруются по "Type" - "Dataset". Пока там всего один набор данных, правда [2]

Научных данных пока немного, как и инфраструктуры для работы с ними, но что-то есть. Впрочем, как я понимаю, большая часть учёных в Казахстане также как и многие другие публикуют свои данные в Zenodo [3]

А вот с геопорталами интересно, мне лично за час удалось найти несколько десятков открытых геопорталов и в общей сложности в Казахстане их найдено 33. Так много геопорталов появилось относительно недавно и практически все они работают на базе ArcGIS Enterprise или Geoserver или на базе ГИС разабатываемых вендорами внутри страны, но во всех геопорталах есть развитое недокументированное API.

Все каталоги данных и геопорталы Казахстана собраны в профиле страны в Common Data Index [4]. Если Вы знаете какие-то порталы данных и гепорталы которые там не указаны, напишите в личку, обязательно их добавлю в следующих обновлениях.

Ссылки:
[1] /channel/begtin/4464
[2] https://research.nu.edu.kz/en/publications/kazakhstan-soil-microbiome-scientific-data-mendeley-data-v1
[3] https://zenodo.org/record/7749411
[4] https://registry.commondata.io/country/KZ

#opendata #datasets #dataportals #datacatalogs

Читать полностью…

Ivan Begtin

Я, кстати, кажется не писал про PortalJS [1] это относительно недавняя разработка с открытым кодом компании Datopian, той же команды что стоит за поддержкой ПО CKAN используемого повсеместно для каталогов открытых данных.

Те кто видел CKAN в деле знают что выглядит он, в целом, непрезентабельно. Приемлимо, и у нас он много где используется, но слишком уж визуально неэстетично, особенно его тема по умолчанию и поэтому очень многие команды в госорганах используют CKAN как систему управления данными DMS (Data management system) и поверх его API писали свои обёртки. Так было с канадским национальным порталом данных, частично так в США где несколько интерфейсов у data.gov и так сейчас в Великобритании с их порталом data.gov.uk.

Так вот PortalJS - это попытка бьютификации CKAN'а так сказать от разработчиков. Их предложение взять эту надстройку вместо того чтобы клепать свою.
Это выглядит очень резонно, потому что всё что я знаю и вижу про существующий рынок порталов открытых данных и научных репозиториев там коммерческие игроки с облачными порталами уже сильно CKAN превосходят по возможностям из коробки, хотя и пока не по всему спектру возможностей вообще.

На базе PortalJS, например, работает портал открытых данных ОАЭ [2] и портал открытых данных Северной Ирландии [3].

Впрочем особенность PortalJS в том что там заявляется что бэкэндом может быть не только CKAN и это не совсем продукт, а скорее фреймворк для донастройки со множеством примеров.

Продукт интересный, обязательно надо опробовать на одном из наших открытых порталов с данными.

Ссылки:
[1] https://portaljs.org
[2] https://opendata.fcsc.gov.ae
[3] https://www.opendatani.gov.uk

#opendata #datacatalogs #opensource #dataportals

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них, открытые данные Республики Таджкистан (Ҷумҳурии Тоҷикистон). В Таджикистане нет национального портала открытых данных и данные госорганов по прежнему рассеяны по множеству сайтов и информационных систем, в то же время в Таджикистане есть 3 каталога общедоступных геоданных, это:
- http://maps.wis.tj:555 портал геоданных Национальной информационной системы о воде создан на базе Geonode. 8 слоёв геоданных
- https://sdi.tj - портал геоданных созданных кооперацией ряда органов власти и Aga Khan Agency for Habitat. Также на базе Geonode и 43 слоя геоданных
- https://nsdi.tj/datasets - национальная геопространственная инфраструктура Таджикистана, на момент написания сайт не открывался.

В Таджикистане также был каталог микроданных на базе NADA http://nada.stat.tj (достаточно давно, то ли закрытый паролем, то ли вместо него другая информационная система).

В целом же Таджикистан - это одна из стран по которым данных немного, что, возможно, связано с отсутствием на месте сообщества, а также с тем что, как и в африканских странах, многие данные собираются в рамках международной помощи и доступны на сайтах программ ООН и других глобальных инициатив.

Каталоги открытых данных Таджикистана собраны в реестре Common Data Index https://registry.commondata.io/country/TJ и в каталоге данных https://datacatalogs.ru

#opendata #tajikistan #datasets

Читать полностью…

Ivan Begtin

Рубрика "Циничная нефтедобыча"
Сергей Плуготаренко, директор РАЭК, 2020 год: "Информация и данные — новая нефть экономики"
Сергей Плуготаренко, Генеральный директор АНО "Цифровая экономика", 2023 год: "Кадры — новая нефть цифровой экономики"
Похоже, назревает циничный опрос на тему следующих "новых нефтей".

Читать полностью…

Ivan Begtin

В The Verge очень подробное интервью Kevin Scott, CTO Microsoft о том что компания планирует поместить AI инструменты разработки практически во все свои инструменты [1]. В MS Office, в инструменты разработки, в терминал и всюду и всюду и всюду. Прям даже интересно, в ядро ОС они его тоже встроят или ещё рано?

Интервью интересное, не только разговорами про возвращение Sydney в Bing, но и стратегией компании в целом.

Я вот подозреваю что самое очевидное применение будет информационная безопасность и именно под этим соусом и соусом продуктивности ИИ появится в ядрах Windows, OSX, Linux и других.

Ссылки:
[1] https://www.theverge.com/23733388/microsoft-kevin-scott-open-ai-chat-gpt-bing-github-word-excel-outlook-copilots-sydney

#ai #readings #microsoft

Читать полностью…

Ivan Begtin

Пришло время рассказать о том, чем я давно занимаюсь, а это, трам-парам-пам, ни много ни мало, а создание проекта по открытым данным в Республике Армения - Open Data Armenia, также посвященного армянской культуре, языку и истории по всему миру.

Признаюсь, идея начать делать проекты по открытости, связанные с Арменией, была у меня давно. Среди моих предков - амшенские армяне, в начале 20-го века бежавшие из Трапезунда в Турции от Геноцида армян. Планы были давно, и наконец-то удалось к ним приступить.

Любой проект по открытым данным начинается с портала открытых данных https://data.opendata.am, который пока существует в общественном статусе и наполняется нашей командой и волонтерами. Мы ищем интересные наборы данных, связанные с Арменией по всему миру, и вносим их раз за разом.

Что дальше? Конечно же, конкурсы, хакатоны, интересные проекты на открытых данных.. И хотя у нашей команды и был соблазн сразу делать что-то интересное на открытых данных, начали мы именно с каталога, поскольку, как оказалось, в Армении его до сих пор не было. Теперь этот каталог есть, и есть телеграм канал /channel/opendataam и телеграм-чат, в котором мы будем формировать сообщество по открытым данным /channel/opendataamchat.

Проекту можно помочь многими способами. Если Вы из ИТ-компании в Армении или связанной с Арменией, то можно помочь собрать призовой фонд для хакатонов и конкурсов. Если Вы программист, то можно помочь с преобразованием немашиночитаемых данных в форматы CSV/JSON/XML. Если просто интересуетесь, то подсказать где найти интересные данные, предложить идеи проектов на основе данных.

Идеи, предложения партнерства, готовность помочь и тд. - пишите на opendata@opendata.am или в личку в телеграм.

#opendata #armenia #opengov

Читать полностью…

Ivan Begtin

По всему миру неприятные новости по стартапы и увольнения, помимо того что теперь стало значительно сложнее найти венчурные средства, так ещё и увольнения идут не только в и бигтехе, но и в, казалось бы, очень неплохо чувствующим себя стартапам. И вот оказывается в dbt Labs увольнения [1] и это при том что год назад они привлекли $222M инвестиций и, в принципе, обладают одним из наиболее востребованных продуктов интегрированным в большую часть инфраструктуры входящей в Modern Data Stack.

Но, теперь они сокращают 15% сотрудников, а то есть дела не так хороши как хотелось бы.
Несмотря на это надо оговориться что рынок ИТ и рынок данных по прежнему остаётся рынком соискателя, а не работодателя. Сокращения уменьшают число комфортных и особенно интересных мест работы, но работы много и даже очень много.

Ссылки:
[1] https://www.getdbt.com/blog/dbt-labs-update-a-message-from-ceo-tristan-handy/
[2] https://www.crunchbase.com/organization/dbt-labs/company_financials

#itmarket #it #moderndatastack #dbt

Читать полностью…

Ivan Begtin

Развитие единой системы предоставления госуслуг на «платформе ГосТех» в срок до 1 июля 2023 года не представляется возможным, в связи с чем необходим перенос срока до 1 июля 2024 года.

Минцифры России разработан соответствующий проект постановления Правительства

Единственный ли это срок, который переносят на год🧐

Читать полностью…

Ivan Begtin

В рубрике открытых данных о которых почти никто не знает. Один из малоизвестных типов каталогов данных за пределами профессионального сообщества - это IPT: The Integrated Publishing Toolkit [1] специально ПО используемое ботаниками, биологами для публикации открытых наборов данных интегрированных в международный проект GBIF (Global Core Biodata Resource).

В России есть множество инсталляций IPT, например, от Зоологического института в СПб [2] и Югорского госуниверситета [3]. Его инсталляции есть даже в Иране [4], а все данные из IPT агрегируются в поиск GBIF где уже более 85 тысяч наборов данных

Некоторые инсталляции IPT по странам находятся в других странах. Например, IPT по Армении [5], поэтому поиск по наборам данных помогает найти данные даже по тем странам где инсталляции IPT формально отсутствуют.

Все данные публикуются под свободными лицензиями, как правило CC-BY

Всё это о том что значительная часть открытых данных в мире находится не на поверхности, неизвестна широкой публики и имеет, преимущественно, узкоотраслевое применение.

Но они есть и их очень много.

Ссылки:
[1] https://www.gbif.org/ipt
[2] http://ipt.zin.ru:8080/ipt/
[3] http://ipt.ugrasu.ru:8080/
[4] http://217.11.23.22/ipt/
[5] https://www.gbif.org/dataset/search
[6] https://armenia.ipt.gbif.no/

#opendata #openaccess #openscience #biology #plants

Читать полностью…

Ivan Begtin

Читаю интересный лонгрид из выступления Брюса Шнайера на тему Rethinking democracy for the age of AI [1] на конференции RSA в Сан-Франциско 25 апреля 2023 г. Прочитать его рекомендую всем кто думает о ИИ не только с технико-прикладной стороны применения языковых моделей, но и социальных последствий. Серьёзный вопрос который есть в его выступлении в том могут ли существовать капитализм и демократия в текущей форме когда развитие ИИ может снова вернуть возможности централизованного планирования, без социальных перегибов, и, возможно, исправить наиболее неэффективные стороны капитализма.

Речь там, конечно, не только об этом, но и о переосмыслении демократий и парламентских систем возникших ещё в индустриальную эпоху. Размышления гораздо более актуальные чем могу показаться с первого взгляда.

И, взгляд с другой стороны, о других социальных последствиях. Развитие ИИ сейчас, в виде языковых моделей, идёт по пути их создания на доступных языковых корпусах. Поэтому они есть для наиболее популярных (коммерчески востребованных) языков и отсутствуют для тех по которым нет или слишком мало текстов, нет языковых корпусов для обучения и тд.
Важный вопрос - судьба "малых и средних языков". Что должны предпринимать правительства стран для сохранения своей языковой культуры? И должны ли вообще?
Есть пример Испании инвестирующей большие ресурсы в испаноязычные языковые модели на государственном уровне, есть похожее в ряде развитых стран и почти ничего про страны экономически и культурно уязвимые. Лично мне пока не попадались исследования и выступления на эту тему, но рано или поздно кто-то должен об этом начать говорить.

Возвращаясь к выступлению Брюса Шнайера, я склоняюсь к тому что регулирование ИИ будет стремительно ужесточаться по всему миру в ближайшие даже не годы, а месяцы.

Ссылки:
[1] https://readwise.io/reader/shared/01h0482q0hkka4hhyhd9qtq9j5/

#readings #ai #government

Читать полностью…

Ivan Begtin

В качестве регулярного напоминания, если Вы ищите данные по России и постсоветским странам, то в каталоге каталогов данных DataCatalogs.ru [1] они как раз собраны.

В проекте сейчас 322 каталога данных, из которых 294 по России, ещё 28 по Казахстану, Кыргызстану, Узбекистану, Армении и тд.

В данном случае открытые данные трактуются расширительно, исходя из того что в каталоге каталогов собраны и источники не только открытых данных в строгом определении, но и другие общедоступные источники данных которые что называется "недооткрыты", например, порталы открытого бюджета или геопорталы.

Этот проект был одним из источников для создаваемого сейчас Common Data Index [2] реестра каталогов данных по всему миру, где их уже более 2000+ тысяч и о котором я, также, регулярно пишу.

Ссылки:
[1] https://www.datacatalogs.ru/
[2] https://github.com/commondataio/dataportals-registry

#opendata #datacatalogs #dataportals #metadata

Читать полностью…

Ivan Begtin

В рубрике как это работает у них Платформа геоданных Малави [1] африканской страны с 16 миллионным населением и довольно небольшой экономикой.

Портал создан на базе open source движка Geonode [2] том же самом на котором сделан, к примеру, Портал открытых пространственных данных Республики Казахстан (map.gov.kz) [2] и ещё пара сотен государственных, муниципальных и научных порталов открытых геоданных.

На портале размещено 547 наборов данных в виде слоёв карт из разных источников, внутренних и внешних, например OSM.

И как и все порталы на базе GeoNode включает доступное по умолчанию API для доступа к данным в разделе "Developers" [3].

Особенность доступа к данным в Малави как и в большинстве африканских стран в том что национальные порталы открытых данных у них отсутствуют, а вот порталы открытых геоданных имеются и активно развиваются.

Ссылки:
[1] https://www.masdap.mw
[2] https://map.gov.kz
[3] https://www.masdap.mw/developer/

#opendata #geodata #malawi #africa #dataportals

Читать полностью…

Ivan Begtin

По поводу перевода сайтов российских госорганов в доменную зону .gov.ru я вначале с большим недоумением прочитал что российские СМИ вообще считают это инфоповодом и активно об этом пишут. Потом я вспомнил про те масштабные ротации и кризис в российских СМИ в последние годы и недоумение пропало, но ситуация от этого менее идиотской не стала.

Я много лет веду реестр всех российских госсайтов, его публичная часть в репозитории на Github [1] и есть ещё непубличная часть в таблице в Airtable и я слишком хорошо знаю сколько и какие домены госорганы используют в работе, где они хостятся и так далее.

Перевод сайтов сайтов в зону .gov.ru обсуждался ещё 10-15 лет назад, и не так давно, пару-тройку лет назад, предпринимались усилия по переносу многих сайтов госорганов, большую часть с той поры перенесли, но не все.

Перенос домена сайта госоргана в зону .gov.ru - это вопрос скорее эстетический, по принципу "почему у всех правильно, а тут нет?", меня тоже всегда раздражало что сайты многих госорганов и госинициатив надо искать. Неудобно же!

Но, тут важно помнить, что нахождение сайтов госорганов в одной доменной зоне может иметь всего два практических смысла:
1. Большее доверие сайтам госорганов в ситуации когда есть "сайты обманки" или каким-то образом возникали ситуации недоверия. Это не то чтобы часто является проблемой, но иногда важно.
2. Возможность архивации сайтов госорганов автоматизированными краулерами. Так, например, устроено в Великобритании, где Национальный архив архивирует все сайты в зоне .gov.uk каждый час. Это называется UK Government Web Archive [2] и такие же инициативы есть в десятках стран, во всех странах где есть думают о будущем, я бы сказал.

Про практический смысл, первый пункт в России не актуален, а второй до сих пор ни в какой форме не реализован. Я за все эти годы не увидел ни одной инициативы внутри российского государства по архивации хотя бы собственных принятых решений. Хочется иронично спросить, как же так, если за то что делаете не стыдно, то сохраняйте для потомков, а если так стыдно что не сохраняете, то может и не делать? Поэтому если кратко, все инициативы по архивации сайтов госорганов в России сейчас гражданские, вроде нашего Национального цифрового архива [3]

Остаётся эстетический смысл исключительно который выглядит так что кто-то хочет обсудить цвет двери которую уже сорвало с петель и порвало на части. Важно ли что эта дверь была зёленая? Может быть салатово-фиолетовой ей было бы быть лучше? Иначе говоря на фоне повсеместного постепенно закрытия госданных, исчезновение ключевой информации с сайтов госорганов, изначальная непрозрачность множества инициатив, де-факто разрушение российской журналистики и исчезновение возможности журналистам получать содержательные ответы от госорганов, и при этом говорить про госдомены в зоне .gov.ru ? Самое близкое к этому - это публичное рукоблудие. Общественное внимание привлекает, смысла не имеет, приличия тоже.

Лично мне нет никакой разницы находится ли сайт криминальной статистики crimestat.ru в зоне .gov.ru или нет если он более не обновляется. Нет разницы находится ли национальный портал открытых данных data.gov.ru в зоне .gov.ru или нет, если он закрыт, и судя по сумбурности представителей Минэка, надолго если не навсегда и так далее.

В истинном золоте блеска нет и двулично говорить о том что надо делать хоть что-то что можно в текущей ситуации. Просто не надо тратить время на эту ерунду. Я вот немного потратил его, о чём уже жалею, и написал про это всё и больше не буду.

Ссылки:
[1] https://github.com/infoculture/govdomains
[2] https://www.nationalarchives.gov.uk/webarchive/
[3] https://ruarxive.org

#government #transparency #websites #opendata #opengov

Читать полностью…

Ivan Begtin

Очень забавный по подаче проект карты Github'а [1] с визуализацией 400,000+ Github репозиториев.

Автор собрал базу в 350 миллионов лайков ("звездочек" в Github) и подсчитал коэффициент Жаккара для всех репозиториев и собрал кластеры репозиториев и далее оформил в интерактивную карту. Многие делали разные базы и визуализации Github, но вот эта, пожалуй, особенно неплоха.

Например, я там нашёл "полуостров открытого кода для публикации открытых данных" (CKAN, Dataverse и тд). Там видны довольно чёткие кластер по ИИ и данным и так далее.

Практического применения этому пока не видно, но как визуализация вполне неплохо.

Ссылки:
[1] https://anvaka.github.io/map-of-github/

#opensource #dataviz #github

Читать полностью…
Subscribe to a channel