I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech
Можно дискутировать остались ли в России открытые данные или нет. Многие, включая меня, считают что открытость сейчас под большим вопросом, другие удивляются что вообще хоть какие-то данные доступны.
Тем временем у федерального портала открытых данных data.gov.ru просрочен сертификат. Удивительно ли это ? Нет, Минэкономразвития РФ довольно сильно запустило портал, сейчас он забит бесконечным объёмом микро-файлов. Но тут важнее то что на портал просто забили, даже не отслеживая протухание сертификата.
Впрочем это не единственная проблема с этим сайтом. Например, поломался экспорт реестра наборов данных [1].
Впрочем, как я уже говорил ранее, даже если сертификат исправят и экспорт данных вылечат, фундаментальной проблемы плохой работы этого портала это не решит.
Ссылки:
[1] https://data.gov.ru/opendata/export/csv
#opendata #russia #government #opengov #closeddata
Я тут из-за вынужденной паузы в работе, слегка приболел, и увлёкся чтением художественной литературы. Так что прочитал выложенные на днях
Методрекомендации Минцифры по управлению данными ГИСов на Гостех (оригинальное название звучит совсем вычурно). Чтение оказалось скорее бульварным чем художественным. Для концептуального документа в нём нет ни одного пояснения почему, зачем, и как авторы этих рекомендаций к ним пришли. Не говоря уже о том что базовые принципы управления данными совершенно точно отделены от всей инициативы под названием ГосТех. А для практического документа там нет привязки к инструментам которые на сегодняшний день в ГосТехе и вообще в Минцифре есть. Иначе говоря уровень абстракции там такой что, ни смысловой, ни практической пользы нет. Отдельная история с иерархией управления данными, по этим метод рекомендациям в каждом органе власти должен быть директор по данным который со всей своей командой в иерархии должен подчиняться Управлению данными Минцифры. Довольно экзотическая модель управления, она должна понравится Минцифре и что-то я не представляю как она может понравится ФОИВам и другим органам власти.
Я лично очень рад что сам не принимал участие в "экспертном обсуждении" вот этого вот, потому что за всё время разговоров вокруг Гостеха в РФ я не увидел ни одного вменяемого документа.
Сам документ этих методрекомендаций, если кто-то их ещё не видел, я выложил в чат.
#data #government #regulation
Свежий обзор европейских зарплат специалистов по данным - аналитики, дата-сайентисты и дата-инженеры на 2023 год [1] на оснований 500 объявлений о работе для специалистов в Европе.
Любопытные выводы։
1. Зарплаты в Берлине ниже чем в Лондоне или Дублине и в Германии, в принципе, зарплаты ниже.
2.Крупные бигтех компании в Европе платят больше других
3. Разница в средней годовой зарплате джунов ($70k) и миддлов ($83k) не так уже велика. Хотя лично меня удивляют такие зарплаты джунов в Европе, в России, к примеру, они резко отличаются. Конкуренция и квалификация у джунов невелика сейчас из-за безумного числа плохих ИТ курсов.
Ссылки։
[1] https://www.synq.io/blog/europe-data-salary-benchmark-2023
#europe #itmarket
Весьма любопытная штука trustfall инструмент и язык запросов чтобы делать запросы к, условно, к чему угодно и в комбинациях чего угодно։ базы данных, API, CSV, JSON и тд.
С открытым кодом и с выступлением автора на ту же тему "How to Query (Almost) Everything" [2]
Всё, конечно, не так просто и нужно писать адаптеры для каждого источника данных. Но сам подход автора весьма интересен, для полного счастья не хватает только более подробной спецификации языка запросов, а не только примеров.
Написано на Rust, с интегрированной интеграцией с Python при каждой сборке. Распространяется под Apache лицензией.
Ссылки։
[1] https://github.com/obi1kenobi/trustfall
[2] https://www.hytradboi.com/2022/how-to-query-almost-everything
#datatools #data #opensource
Свежие новости открытых данных в России - Росимущество удалило все наборы открытых данных со своего сайта. Раздел с открытыми данными более недоступен [1], а ссылки на него с других страниц убраны.
Непонятно когда точно это произошло, потому что в веб-архиве последний раз страница сохранялась 5 февраля 2022 года, а я лично архивировал эти данные в июле 2021 года.
Общий объём публикуемых там данных был около 1ГБ в форме XML файлов 24 наборов данных.
Много это или мало? По сравнению с объёмом данных внутри систем Росимущества - это мало, а по сравнению со многими органами власти - это много. Но теперь нет и этого.
Ссылки։
[1] https://rosim.gov.ru/opendata
#closeddata #russia #government
Slack начал (продолжил?) отключать сообщества связанные с Россией. Сегодня прислал уведомление о принудительном закрытии сообщества opendatarussia.slack.com только по той причине что оно было зарегистрировано на адрес электронной почты в зоне .ru
Что тут сказать, хорошо ещё что сообщество оказалось заброшенным и большая часть общения перешла ещё давно в @opendatarussiachat, но в целом всё это конечно мне напоминает историю с тем как для некоммерческих проектов мы использовали французский хостинг Scaleway, а в апреле 2022 они с недельным предупреждением "оплатите или удалим" с пометкой "но мы то знаем что Вы не можете оплатить", просто удалили все наши ресурсы. Хорошо что у нас были резервные копии и такой сценарий просчитывался, но выглядело мягко говоря так себе.
До сих пор мы не все наши некоммерческие проекты @infoculture восстановили поскольку многие из них были в режиме сопровождения уже много лет, а доп ресурсов на них уже не найти.
Также и здесь Slack приравнивает email адреса в зоне .ru к юрисдикции в России и оперирует не санкционными списками, а просто блокировкой всего что с Россией связано.
#opendata #sanctions #slack
В рубрике интересных наборов данных Software mentions - это большой набор данных всех упоминаний программных продуктов в научных статьях и литературе по биомедицине. В репозитории представлен код которым собирался этот набор данных [1] и сам набор данных также доступен [2]. В нём, в общей сложности, 1,12 миллион упоминаний программных продуктов извлеченных из 2,4 миллионов научных статей извлеченных из NIH PMC-OA Commercial subset, 481 упоминание программных продуктов из NIH PMC-OA Non-Commercial subset и 934 тысячи упоминаний программных продуктов из 4 миллионов статей в NIH Publishers Collection. Это всё около 4Гб в сжатом виде.
Поэтому если кратко, то это большой набор данных, дающий, как минимум, возможность оценить популярность инструментов и языков разработки используемых специалистами в области биоинформатики. Удивительно что пока никто не визуализировал эти данных, скорее всего просто мало кто знает о существовании этого набора данных.
Создание набора данных профинансировал фонд Chan-Zukerberg Initiative, который стоит упомянуть отдельно как один из крупнейших в мире фондов поддерживающий открытую науку и открытые инструменты для учёных в частности [3]. Это, в принципе, из тех инициатив которые являются другой гранью биг теха. С одной стороны, Facebook, одна из компаний построенных исключительно на недружелюбной слежке за пользователями, а с другой Цукерберг создал и развивает не имитационную, а самую настоящую некоммерческую инициативу без каких-либо "камней за пазухой".
У многих биг тех компаний и их основателей похожий подход. Да, в каких-то вопросах их репутация может быть крайне плохой, а в других наоборот обвинить не в чем. Мир совсем не чёрно белый.
Ссылки։
[1] https://github.com/chanzuckerberg/software-mentions
[2] https://doi.org/10.5061/dryad.6wwpzgn2c
[3] https://tech.chanzuckerberg.com/scitech/
#openaccess #openscience #scitech #datasets #data #opendata
В блоге Стивена Вольфрама, создателя Wolfram Alpha и Wolfram Mathematica появился интересный текст What Is ChatGPT Doing … and Why Does It Work? [1] с тщательным разбором того как работает ChatGPT и множеством подробностей. Текст не очень сложный, но очень длинный, объясняющий как работают нейросети, хотя, на мой взгляд здесь ситуация примерно как с работой мозга. Можно объяснить как работает один нейрон и гораздо сложнее когда их миллиарды. Текст будет очень интересен тем кто хочет понять как сложные вещи работают изнутри.
Там же, чуть ранее, другой текст со сравнением Wolfram Alpha и ChatGPT [2] описывающий, на самом деле, что ChatGPT можно сильно улучшить с помощью computational language используемый в Wolfram Alpha.
Я лично много лет смотрю с интересом на Wolfram Alpha и периодически думал как найти практическое применение этому продукту/сервису, за пределами обучения/образования, но ничего такого не удаётся.
Можно уже сказать что проблема Wolfram Alpha в том что это, как и все остальные продукты Стивена Вольфрама, продукт замкнутый на собственную экосистему. Свой язык, своя среда разработки, свой аналог электронных тетрадок (notebook), своё API, не очень хорошо документированное. Да, есть ядро Wolfram language для Jupyter Notebook [3], но не то чтобы оно было очень популярным и разработка его не ведётся уже давно.
По моим ощущениям уже начал накапливаться и остро сказываться эффект разницы в ресурсах между относительно небольшой командой Вольфрама и вложениями в дата-сайенс со стороны big tech и сложившихся огромных экосистем вокруг популярных открытых инструментов, языков разработки и тд.
Иначе говоря, моё сугубо личное мнение, что сколь бы ни был велик начальный задел за Wolfram Alpha, продукт всё более отстаёт от уже сделанного и от потенциала того что создаётся на базе языковых моделей.
Ссылки:
[1] https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/
[2] https://writings.stephenwolfram.com/2023/01/wolframalpha-as-the-way-to-bring-computational-knowledge-superpowers-to-chatgpt/
[3] https://github.com/WolframResearch/WolframLanguageForJupyter
#opensource #chatgpt #wolframalpha
В продолжение анализа про портал открытых данных Кыргызстана я в форме большого лонгрида написал в рассылку заметку "Что не так с порталом открытых данных Узбекистана?"․ Лонгрид получился потому что и сам портал казался больше, анализ его должен был быть куда более кропотливым.
Продублирую тут итоги.
Выводы очень неутешительны. 6623 набора данных в итоге оказываются всего лишь 40 мегабайтами данных, а фактическое число наборов данных оказывается искусственно раздутым. Мониторинг наборов данных выполняет даже не декоративную, а скорее манипулятивную функцию не давая реальной картины, но показывая обновлёнными данные которые совершенно точно не обновлялись. Даже портал открытых данных Киргизии, при всего лишь 646 наборах данных в Excel оказывается больше по объёму, не говоря уже о многих других порталах открытых данных других стран.
#opendata #uzbekistan #dataportals #government
В рубрике как это устроено у них, проекты по систематизации доступа к данным и госсервисам для разработчиков в мире. Я несколько раз писал о таких проектах, но не грех и напомнить.
- API.GOUV.FR - каталог API, стандарты и рекомендации Франции
- API.GOVERNMENT.AE - каталог API Объединённых Арабских эмиратов
- API.GOV.UK - каталог государственных API Великобритании
- API.GOV.AU - австралийский государственный стандарт предоставления API и каталог общедоступных API
- DEVELOPER.VIC.GOV.AU - портал для программистов (каталог API) правительства штата Виктория, Австралия
- DEVELOPER.TECH.GOV.SG - портал для разработчиков от Правительства Сингапура, API, документация и тд.
Общедоступные API создаются на тех же принципах что и порталы открытых данных, в их основе восприятие ИТ компаний и ИТ специалистов как отдельной аудитории для коммуникации. Признание самого факта что государства создают продукты не только для конечных потребителей, но и развивают внутренний рынок ИТ продуктов и сервисов, предоставляют данные аналитикам и журналистам.
#opengov #government #api #opendata
Интересное мероприятие Software Source Code as documentary heritage организованное ЮНЕСКО совместно с французским некоммерческим проектом Software Heritage о сохранении исходного кода.
Там много интересных докладов, например, об организации хранения петабайтов в человеческом ДНК и о том сжатии огромных объёмов открытого кода.
Но важнее то что открытый код рассматривается как часть культурного/цифрового наследия человечества.
https://webcast.unesco.org/events/2023-02-07-software-heritage/
#opensource #opendata #software
Мы продолжаем работать над нашим проектом Каталога каталогов данных в котором собраны ссылки на порталы открытых данных, а также иные источники данных которые должны наполнять эти порталы. Бета версия нового портала размещена по адресу datacatalogs.infoculture.ru. Пока она, в основном, воспроизводит функции предыдущей версии, но даёт больше возможностей по фильтрации и больше метаданных теперь отображается на веб-странице.
Мы, также, приступили к добавлению в каталог источников данных по пост-советскому пространству. В первую очередь поддерживающих русский язык в этих источниках данных. В том числе это такие источники данных как։
- Данные Армении для Целей - Устойчивого Развития https://sdg.armstat.am
- ArmStatBank https://statbank.armstat.am
- Портал открытых данных Республики Узбекистан https://data.egov.uz
- Талдау. Информационно-аналитическая система Бюро Национальной статистики Агентства по стратегическому планированию и реформам Республики Казахстан https://taldau.stat.gov.kz
- Портал открытых данных Республики Казахстан https://data.egov.kz/
- Открытые данные Алматы (Smart Almaty) https://opendata.smartalmaty.kz/
- ASIS. Azerbajan statistical information service https://www.azstat.org/portal/?lang=en
Мы вносим в каталог, в первую очередь, источники по следующим категориям։
* порталы открытых данных
* порталы/каталоги репозиториев научных данных
* порталы/сайты с базами статистических показателей
* порталы геоданных
* сайты проектов открытого бюджета (как правило включают много наборов данных или документов которые должны ими быть)
* порталы справочников и классификаторов
Список постоянно пополняется. Если обнаружите ошибку или есть предложения по наполнению сайта, напишите нам, проект продолжает развиваться. А все материалы доступны под лицензией CC-BY.
#opendata #datacatalogs
В рубрике интересных открытых проектов на открытых данных, французский проект Inventaire [1] для коллаборативного ведения списков собственных книг и возможности делиться информацией с друзьями, коллегами и тд., в том числе запоминая кому и когда какие книжки ты отдавал или у кого ты их брал.
Особенность проекта в том что книжки сопоставляются с записями в Wikidata, а также данные проекта доступны в виде дампов [2] и API [3]
У проекта открытый код [4], его автор давний контрибьютор в Wikidata, а этот проект развивает с 2015 года.
Как и у всех подобных проектов, главные вопрос в экономической модели. Его создатель изначально делал проект на чистом энтузиазме, с 2019 года создал НКО в форме некоммерческой ассоциации и получил небольшие гранты от нидерландского фонда NLNet.
Ссылки:
[1] https://inventaire.io
[2] https://data.inventaire.io/
[3] https://api.inventaire.io/#/Entities
[4] https://github.com/inventaire/inventaire
[5] https://wiki.inventaire.io/wiki/Economic_model
#opendata #data #wikidata
В NYT статья о том как косвенным образом журналисты пытаются понять реальную смертность от COVID'а в Китае [1]. Журналисты взяли публикации некрологов двух государственных институтов и проанализировали вручную их число и возраст умерших. Если кратко, то смертность значительно выросла в декабре 2022 г. и январе 2023 г.
Всё это об альтернативных данных и о том как важно не доверять официальной статистике, в данном случае китайской, и искать другие, альтернативные данные. На альтернативных данных сейчас принимаются решения не реже чем на официальной статистике.
И, конечно, это большое искусство и много опыта нужно в том чтобы понимать как такие данные находить и собирать.
Ссылки:
[1] https://www.nytimes.com/interactive/2023/02/05/world/asia/china-obits-covid.html
#opendata #alternativedata #china #covid
Полезное про данные, технологии и не только։
- glidesort [1] презентация и открытый код для Rust [2] по ускоренному алгоритму сортировки данных от Orson Peters студента Phd в Database Architecture group at CWI Amsterdam. По многим оценкам может быть гораздо эффективнее на современных процессорах через использование параллельных вычислений.
- What's the Modern Data Stack? [3] очередная попытка найти ответ на вопрос что такое современный стек данных. Небесполезная для внутреннего понимания и использования продуктов по работе с данными
- 2023 State of Databases for Serverless & Edge [4] обзор сервисов для работы с СУБД без серверов, довольно большой спектр услуг и активно растущий
- Select Star Raises $15 Million in Series A Funding Led by Lightspeed Venture Partners [5] стартап Select Star получил $15M на следующий раунд, что интересно продукт у них можно сказать уже типовой, каталог метаданных/данных. Таких довольно много, но инвесторы, похоже, всё ещё видят в этом рынке потенциал
- APITable [6] очередная попытка создать продукт с открытым кодом с возможностями как у AirTable. Выглядит интересно, но надо тестировать. В области low-code продуктов именно альтернативы AirTable имеют хороший потенциал, потому что применение почти универсально.
Ссылки։
[1] https://fosdem.org/2023/schedule/event/rust_glidesort/
[2] https://github.com/orlp/glidesort
[3] https://technically.substack.com/p/whats-the-modern-data-stack
[4] https://leerob.substack.com/p/databases-serverless-edge
[5] https://www.businesswire.com/news/home/20230131005354/en/Select-Star-Raises-15-Million-in-Series-A-Funding-Led-by-Lightspeed-Venture-Partners
[6] https://github.com/apitable/apitable
#opensource #data #startups #moderndatastack
Присоединяйтесь ко Дню открытых данных 2023!
4 марта 2023 года состоится ежегодный День открытых данных — онлайн!
Приглашаем разработчиков, ИТ-специалистов, дата-журналистов, гражданских активистов и других участников российского движения открытости. Некоторые темы выступлений:
— Как искать данные с помощью каталогов данных. Проект datacatalogs.ru.
— Если быть точным в 2022 году: доступны ли данные по социальным проблемам.
— Мастер-класс «Визуализация открытых геоданных Москвы для медиа и соцсетей».
— Мастер-класс «Как мы визуализируем гео-данные в "билайне": от кейсов к практике».
Слушайте доклады, принимайте участие в мастер-классах и становитесь частью движения, создавая и продвигая открытые данные в своей деятельности!
Программа мероприятия и регистрация уже доступны по ссылке: https://opendataday.ru/msk
#ODD2023 #OpenDataDay #OpenData
Когда я регулярно рассказываю о том как устроены порталы открытых данных в мире и раскрытие данных в принципе, то регулярно пишу о том что многие из этих проектов находятся в весьма запущенном состоянии или изначально создавались скорее как имитация для международных рейтингов чем полноценной работы. В некоторых случаях, как, например, в Казахстане портал открытых данных [1] таковым в принципе не является поскольку для доступа к данным необходим ИИН и авторизация через местный сервис гарантированной идентификации человека. Иначе говоря, ни открытости, ни машиночитаемости тут полноценной нет.
Значит ли это что открытых данных нет? Скажем так, нет данных которое бы правительство РК по своей инициативе, целенаправленно, с диалогом с обществом, публиковало бы под свободными лицензиями. Но это не значит что общедоступные данные органов власти не публикуются в машиночитаемом виде. Конечно же, как и в большинстве развитых и развивающихся, но не беднейших стран, данные публикуются. Чаще больше и удобнее чем на портале открытых данных.
Например։
- открытое API системы государственной статистики ТАЛДАУ [2]. Это API к базе статистических показателей, в документации указано что данные возвращаются в XML, по факту в XML и JSON и также присутствуют недокументированные точки доступа к API. Не требует авторизации
- недокументированное API на сайте Правительства РК www.gov.kz. Я писал о нём ранее [3], там есть и REST API, и точка подключения Graphql. Также не требует авторизации, позволяет получать все материалы с сайта в машиночитаемом формате
- многочисленные сервисы геопорталов на базе ArcGIS, например, gis.geology.gov.kz [4] и ещё многих других
Я большого секрета не открою сказав что у информационных систем министерств в РК открытых API не меньше чем, к примеру, в России. При желании и небольших усилиях можно хоть самостоятельно сделать аналог портала открытых данных страны с большим объёмом данных и большей открытостью (да просто без авторизации!).
Создатели порталов открытых данных внутри гос-ва не всегда понимают что по сути каждый такой портал - это систематизация уже имеющегося. Это организационно-техническая задача по систематизации существующих государственных дата-продуктов. Иногда, да, она сопряжена с задачей по оцифровке данных и переводу неструктурированной информации в машиночитаемую форму, но даже просто взять и систематизировать имеющиеся данные органов власти опубликованные и общедоступные - это самое простое и очевидное.
Но, конечно, не снижая доступности данных, наоборот повышая их находимость. Лучшие примеры такого подхода сейчас есть в Австралии, Франции, США и многих европейских странах.
Казахстан - это лишь как пример одной из наиболее технологически развитых стран на пост-советском пространстве. Похожая ситуация повсеместна, технологии меняются, разработчики делают API, открывают данные отдельных информационных систем потому что так просто _значительно удобнее_ работать с технически квалифицированными потребителями.
Ссылки:
[1] https://data.gov.kz
[2] https://taldau.stat.gov.kz/ru/Api/Dev
[3] /channel/begtin/4380
[4] https://gis.geology.gov.kz/arcgis/rest/services
#opendata #opengov #kazakhstan #government
Свежий доклад ОЭСР по инновациям в государстве на 2023 год [1], большой подробный документ со множеством примеров описывающих тренды на 2023 год.
Тренд и тенденции там не то чтобы очевидные, но ожидаемые։
- Тенденция 1: Новые формы подотчетности для новой эры правительства
Алгоритмическая подотчетность
Новые аспекты прозрачности
Институционализация инновационной подотчетности
- Тенденция 2: Новые подходы к уходу
Переориентация (эко)систем ухода
Сочувствие и забота для поддержания психического здоровья
Новые технологии, революционизирующие здравоохранение
- Тенденция 3: Новые методы сохранения самобытности и укрепления равенства
Почитание обществ коренных народов и местных культур
Создание благоприятных условий для семей и общин
Борьба с созданием неполного класса "гиг-экономики"
- Тенденция 4: Новые способы вовлечения граждан и жителей
Децентрализация государственной власти
Перевоплощение сообществ, физически и виртуально
А также четыре вторичных тренда։
- Трансформация государственного управления.
- Новые основы для молодежи и справедливость в отношениях между поколениями.
- Ускорение пути к чистому нулю.
- Укрепление и использование экосистем GovTech.
Там реально много текста, я его дочитал ещё не до конца, но вот несколько тезисов могу сформулировать уже сейчас։
1. Явный тренд на усиление госрегулирования применения ИИ, как в государственных задачах, так и в частных. Тренд явный, проявляющийся во всех развитых странах. Активно закрепляется законодательно. Всё это подаётся примерами по многим странам больших факапов сделанных алгоритмическими системами.
2. Если случится чудо и Россия снова когда-либо сможет подать заявку на участие в ОЭСР, то внезапно(!) окажется что российский Гостех от мирового GovTech отличается как небо и земля. В материалах ОЭСР / GovTech - это экосистема, в которой правительства сотрудничают со стартапами, МСП и другими участниками, использующими интеллектуальные данные, цифровые технологии и инновационные методы. Методологии для предоставления продуктов и услуг для решения общественных проблем. Они предлагают
новые формы государственно-частного партнерства для освоения цифровых инноваций и анализа данных с целью повышения эффективности, результативности и прозрачности предоставления государственных услуг. / [2]. И все примеры докладе описывают GovTech как стартапы создающие инновационные решения для госорганов.
3. Отдельная тема - инкубаторы подотчетности, это специальные проекты по прокачке граждан в борьбе с коррупцией. Тоже часть государственных инициатив в ряде стран.
4. Много примеров проектов развития культурных инициатив через открытость знаний, кода и данных. Многие из них такие что просто "бери и воспроизводи"․
И там ещё много всего, я до конца пока ещё дочитываю, определённо через какое-то время напишу про некоторые интересные примеры оттуда по работе с данными и не только.
Ссылки։
[1] https://oecd-opsi.org/publications/trends-2023/
[2] http://scioteca.caf.com/handle/123456789/1580
#government #opendata #openness #opengov #oecd #govtech
Появились первые отчёты о прозрачности [1] корпораций подписавших Европейский Кодекс практик против дезинформации (The Code of Practice on Disinformation) [2].
А это такие компании как Microsoft, Google, Meta, Adobe, Twitter, TikTok и ещё многие другие.
Отчеты, разные по качеству. Короткий отчет от Twitter, к примеру, и подобные отчеты от Google и Microsoft.
Конечно, добровольность кодекса и этих отчетов не означает что отчетам можно безусловно доверять, но хотя бы они показывают какие компании отнеслись серьёзно к этому упражнению, а для каких даже это оказалось сложно.
Кстати, на примере этого кодекса можно не могу не вернуться к вопросу об отечественном кодексе ИИ и его функциональной бесполезности. Если к кодексу ничего не стоит присоединиться и его выполнение никак не мониторится, то и цена ему невелика. В этом смысле европейский кодекс нагляднее, к нему присоединяются только те кто хотя бы готов на регулярной основе добровольно раскрывать информацию о конкретных действиях.
Ссылки:
[1] https://disinfocode.eu/reports-archive/?years=2023
[2] https://disinfocode.eu/introduction-to-the-code/
#privacy #ethics #disinformation #europe #bigtech
Rath, свежий инструмент по визуализации данных [1] как альтернатива Tableau, но с открытым кодом. Может оказаться интересной находкой для тех кто вынужден/хочет/планирует мигрировать с проприетарных настольных BI инструментов. Возможностей у него явно поменьше, я, пока его не проверял на собственных больших коллекциях данных, но всё таки открытый код под AGPL лицензией. Разработчики Kanaries [2] явно делают его под венчурное финансирование их облачного продукта и предоставляют открытую и бесплатную версию параллельно.
Ссылки:
[1] https://github.com/Kanaries/Rath
[2] https://kanaries.net/
#opensource #datatools #dataviz #datapreparation #dataanalysis
Я тут было подумал написать свежий текст о том что не так с госинформатизацией и с "Гостехом-в-вакууме" как одним из явлений этой же природы в России. Чуть менее чем год назад я тезисно об этом писал [1] и один из тезисов был то что в России много лет информатизация государства шла по пути технологической унитаризации. Это такое, в каком-то смысле уникальное российское явление о котором я писал ещё в 2011 году, но почти все мои тексты того времени куда подевались. Его суть в том что такое обилие глобальных федеральных государственных информационных систем (далее - ФГИС), совершенно монструозных по масштабу, потраченным деньгам и функциям, всё это следствие неявно обозначенной стратегии "поджирания полномочий" федеральными властями в отношении региональных и муниципальных властей.
ФГИС с которыми были и сейчас обязаны работать регионы и муниципалитеты чаще всего создавались по пограничной зоне ответственности федеральной и региональной власти, но, при этом под федеральным органом органом власти осуществляющим регулирование. Так создавалась единая система в сфере закупок, так создаётся единая система в сфере торгов , так создана ЕГР ЗАГС, Электронная школа и ещё многое другое. Только Москва всегда была исключением и московские чиновники ещё давно, при Лужкове, единственные на моей памяти говорили про то что некоторые федеральные законы не соответствуют Конституции РФ.
Такую централизацию всегда можно преподносить как благо, как возможность получить гарантированный сервис не зависящий от региона. Это федеральные власти и делали всё это время. Такие ФГИС закреплялись надолго федеральными законами и выдачей субсидий на информатизацию из федерального бюджета. Обычно происходило выведение из эксплуатации региональной информационной системы, например, системы закупок и переход региональных и муниципальных чиновников на ФГИС.
Часто, те кто писали про коррупцию при создании таких ФГИС не вполне понимали природу самого этого явления. То что при их создании коррупция может быть, да кто бы сомневался. Но важнее что их предназначение было изначально в централизации власти.
И власть это данные и данные это власть. Централизация данных в ФГИСах привела к тому что многие региональные власти не обладают полнотой доступа к собственным данным. Кое-где, например, в тех же госзакупках изначально вопрос открытости данных был необходим именно для доступа регионов. По этой же причине эти данные всё ещё сложно до конца закрыть, как бы кое-кто кое-где этого бы ни хотел. Но многие другие централизованно собираемые данные региональным властям доступны ограничено. Федеральная власть ведёт себя как некоторые корпорации и некоторые страны, это называется цифровой колонизацией и стратегией "данные приходят, данные не выходят".
Поэтому и странные фантазии некоторых не-российских политиков про сепаратизм в Российских регионах очень оторван от реальности, цифровая инфраструктура выстраивалась так чтобы эта вероятность была минимальной, а цена запредельной.
Из-за монструозности этих ФГИСов и тем что за каждой из них стоит, как правило, очень крупный системный интегратор и государственный интересант(-ы)/бенефициар(-ы), приводят к тому что они формируют, костяк цифровой системы госуправления, со всеми её плюсами и минусами. Любую из этих систем очень сложно убрать, сложно обслуживать. Любая из них, при неработоспособности, создаёт существенные проблемы для системы госуправления, граждан и/или бизнеса, потому что на них заворачивали большую часть сервисов и функций госорганов. И даже их модернизация, а уж тем более импортозамещение, это очень непростая задача. И по деньгам, и по мотивации интеграторов, и по рискам простоя и тд.
Далее вместо того чтобы писать длинный абзац того к чему всё это идёт, я задам лишь один, возможно, риторический вопрос. И вот где во всём этом место Гостеху?
Ссылки:
[1] /channel/begtin/3600
#government #govtech #itmarket
Я ранее рассказывал про разные эксперименты в обработке данных, например, про обработку данных в NoSQL базах данных и про экспериментальную библиотеку mongorefine [1].
Когда-то из других экспериментов у меня получилась библиотека по автоматизации извлечения новостей из HTML newsworker [2]. Я её почти не обновлял несколько лет, но это и не требовалось.
А вот про один эксперимент, к я практически не рассказывал, это попытка ответить на вопрос - можно ли работать с HTML как с SQL? Так чтобы не делать запросы через язык запросов xpath или API библиотек парсинга. Но после нескольких прикидок стало очевидно что усилий потребуется много, фактически надо сделать SQL движок с нуля и решить вопрос с тем как данные преобразовать из иерархических в плоскую таблицу.
Зачем вообще это было нужно? В задаче по извлечению новостей которую я решал в библиотеке newsworker одной из внутренних задач была кластеризация тегов. Метод который я использовал для кластеризации предполагал сбор о каждом теге дополнительных данных, которых нет в содержании HTML страницы. Это данные о позиции тега внутри родительского тега и о глубине тега относительно корневого тега. В целом это решалось относительно просто за счёт того что в библиотеке newsworker кластеризация шла по тегам отмеченным как содержащие даты, а таких на веб страницах редко более 100.
Тем не менее той задачей всё это не ограничивалось и идея с тем что можно работать с HTML как данными меня не покидала. В другом эксперименте я попробовал преобразовывать HTML в плоский Pandas DataFrame. Всё таки DataFrame - это почти как SQL, а может и лучше и удобнее. Как при этом решить перевод иерархических данных в плоские? Собираем все атрибуты тегов, разворачиваем их в колонки и для всех тегов заполняем таблицу где если атрибута нет то у него нулевое значение в ячейке.
С точки зрения удобства технического анализа - это очень удобно. Плоская таблица, можно делать запросы простым образом, они обрабатываются быстрее. С точки зрения эффективности работы с памятью - это, конечно, не так хорошо. Размер DataFrame от 7 до 21 раза превышает объём оригинальной веб-страницы. Конечно это именно из-за большого числа пустых колонок в получающейся таблице. Собственно поэтому я код этого эксперимента так и не опубликовал, раздумывая над тем как можно, или придумать другой способ делать быстрые запросы к дереву тегов, или как сжимать пространство атрибутов к тегам с сохранением эффективности запросов.
Наверное, в какой-то момент когда у меня будет больше свободного времени и готовность дописать документацию я смогу показать что получается.
Но в целом я хотел рассказать про этот эксперимент как иллюстрацию подхода к созданию чего-то нового по принципу "А давайте возьмём вот это с нестандартным интерфейсом и приделаем один из стандартных?". Идей для такого множество, какие-то совершенно некоммерческие, другие могут иметь разные формы применения.
Например։
- работа с почтовыми ящиками как с SQL или NoSQL базами данных. Есть несколько продуктов превращающих IMAP/POP3 ящики в REST API, что тоже даёт возможности для интеграции в Modern Data Stack, но можно ещё больше
- универсальные API для работы с любыми документами разметки. Из того что есть в открытом коде к этому более всего приближается unstructured [3], дающий одинаковые инструменты для разбора PDF, DOCX, HTML и электронных писем.
И ещё очень многое упрощающее интеграцию того что можно отнести к унаследованным протоколам, форматам и стандартам работы к тем что лучше интегрируются с новыми продуктами.
Ссылки։
[1] ibegtin/nosql-data-wrangling-50b5a2898a83" rel="nofollow">https://medium.com/@ibegtin/nosql-data-wrangling-50b5a2898a83
[2] https://github.com/ivbeg/newsworker
[3] https://github.com/Unstructured-IO/unstructured
#datatools #opensource #experiments
В рубрике интересных наборов данных, сайт День сурка (Groundhog-Day.com) [1] где собрана база из 74 животных предсказателей длинной зимы или ранней весны, включая 43 сурка.
Сделано явно с большой любовью к животным и к данным, потому что у сайта есть открытое API [2] с информацией о всех животных, их местонахождении и предсказаниях.
Ссылки:
[1] https://groundhog-day.com
[2] https://groundhog-day.com/api
#opendata #api
Я регулярно рассказываю про порталы данных и другие госпроекты по открытости в странах мира. Можно уже создать такую отдельную регулярную рубрику и в этот раз про портал открытых данных Республики Киргизия data.gov.kg
Портал создан в 2019 году и содержит 646 наборов данных включающих 1167 файлов общим объёмом около 570Мб. Более всего наборов данных опубликовано статистическим комитетом, а наибольший набор данных это - Сведения по рецептам по Дополнительной программе ОМС, в общей сложности 229МБ.
Из плюсов։
- портал существует (это уже редкость для многих стран, например, в Армении его нет)
- есть несколько любопытных наборов данных
- портал работает на CKAN и предоставляет стандартизованное API
Из минусов։
- портал уже несколько лет заброшен, новые данные на нём почти не публикуют, последнее небольшое обновление в середине 2022 г.
- данных мало, даже только на сайте статкомитета Киргизии опубликовано более 10 тысяч Excel файлов статпоказателей
- геоданные полностью отсутствуют, хотя эти данные доступны на других государственных геопорталах
- информация о продуктах на базе этого портала не собирается, новости не публикуются, есть ощущение что ничего не происходит
- машиночитаемых форматов практически нет, работы над переводом Excel файлов хотя бы в CSV не наблюдается
Общее итоговое ощущение что портал "висит в воздухе", без потребителей, мотивации госорганов к раскрытию данных, методик его работы, ответственных и тд. И всё это за довольно короткий срок, буквально в 3 года.
Поэтому приходится рассматривать его скорее как антипример госпортала открытых данных. При том что довести его до ума не требует ни больших сил, ни ресурсов, ни много людей.
#opendata #kyrgyzstan #dataportals
Я сегодня потратил какое-то время и посмотрел видео вначале встречи Президента РФ, а потом главы Пр-ва РФ с молодыми учёными и в обоих случаях речь шла про доступ учёных к данным. Понятно что на таких встречах все вопросы и выступления заранее готовятся, фильтруются и доходят в каком-то ограниченном объёме. Но без весьма серьёзного сожаления слышать всё это было невозможно. Состояние науки в РФ достаточно давно оказывается в состоянии когда Минобрнауки или РАН не имеют возможности/ресурсов/потенции/мотивации к тому чтобы научная информационная инфраструктура существовала и развивалась. Отсюда и запросы, вроде жалобы на отсутствие доступа к данным судовых измерений, к примеру.
Особенно учитывая что российская наука сейчас оказывается от мировой особняком, хорошо ещё что российским институциям дают возможность получать коды DOI и не все подписки на зарубежные научные ресурсы ограничены. Впрочем сами исследователи лучше чем я могут рассказать о своих проблемах.
А я расскажу о проблемах в странах где открытость исследований, наоборот, ставится во главу угла. В США сейчас у учёных развернулась дискуссия среди астрономов по поводу свежей темы госполитики по максимально оперативному раскрытию исследований на деньги налогоплательщиков. В частности, работа телескопов вроде Хаббл - это тоже расходы налогоплательщиков и, казалось бы, это очень хорошо что данные будут раскрываться сразу. Справедливо даже и может значительно ускорять научные работы большого числа учёных. А с другой стороны, многие астрономы активно пользовались тем что ранее материалы публиковались с 6 месячной задержкой и благодаря этому у них был эксклюзивный материал для научной статьи. А если публиковать сразу то другие узнают над чем ты работаешь. Так может и пропасть интерес к здоровой конкуренции. Об этом весьма подробно вышла статья What's the fairest way to share cosmic views from Hubble and James Webb telescopes? [1]
Но это, повторюсь, проблема другого рода. Это проблема как раз конфликта сложившихся общественных отношений, индивидуальной мотивации и требований государства по открытости. В данном случае государство в США выступает не ограничителем открытости, а, наоборот, принуждает к ней.
А применительно к отсутствию данных для исследователей в России, я напомню мою июльскую заметку Открытость как признак жизни [2]. Когда открытость не обеспечивается - это синоним обезжизнивания отрасли, либо в виду отсутствия кооперации между участниками, либо симуляции деятельности.
Ссылки:
[1] https://www.npr.org/2023/02/07/1154840710/whats-the-fairest-way-to-share-cosmic-views-from-hubble-and-james-webb-telescope
[2] https://begtin.substack.com/p/26
#opendata #openaccess #openscience
Ещё одна любопытная альтернатива формату файлов parquet - это lance [1]. Обещают 100-кратное ускорение при произвольном доступе, совместимость с Apache Arrow и DuckDB. Создатели позиционируют это как альтернативу Parquet, Iceberg и Delta.
По формату есть дизайн гайд [2], презентация [3]. В общем и целом посмотреть на него будет любопытно, как минимум.
Остаётся, правда, вопрос с объёмом хранения, потому что опций сжатия нет, а если данные не сжаты, то хранение их будет дороже чем parquet.
Ссылки։
[1] https://github.com/eto-ai/lance
[2] https://eto-ai.github.io/lance/format.html
[3] https://docs.google.com/presentation/d/1a4nAiQAkPDBtOfXFpPg7lbeDAxcNDVKgoUkw3cUs2rE/edit#slide=id.p
#datatools #opensource
Microsoft презентовали обновлённую поисковую систему Bing с встроенным чат-ботом на базе OpenAI [1] и множеством других связанных новаций, в том числе встраиванием ИИ в ранжирование в поисковой системе.
Изменит ли это нашу реальность больше чем ChatGPT ? Похоже нет, ChatGPT уже достаточно всех вдохновил и напугал.
А вот Microsoft может получить существенную долю поискового рынка для Bing.
Ссылки:
[1] https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/
#ai #microsoft #search
У Jordan Tigani, основателя компании Mother Duck стоящей за СУБД DuckDB замечательный текст Big Data is Dead [1] который, трам-пам-пам, как вы догадались, о том что Big Data это уже давно мёртвый хайп. Не он первый и не он последний об этом говорит, но никогда не лишний раз напомнить.
Краткое изложение его текста։
- большая часть данных, на самом деле, не так уже велика
- а даже если велика то чаще всего нет необходимости делать запросы ко всем данным
- и даже если так, то чаще всего это можно сделать на одном компьютере
- если нет, то по прежнему данные можно суммаризировать и сжимать
- так почему же инструменты делают в основном для оставшихся 1% случаев?
Ссылки։
[1] https://motherduck.com/blog/big-data-is-dead/
#data #readings
В рубрике как это устроено у них. В Турции нет единого национального портала открытых данных, однако есть много государственных систем и региональных порталов где они публикуются.
Наиболее полный их список собран в Open data index of Turkey [1] репозитории на Github. Там перечислены ключевые национальные, региональные и частные инициативы, такие как։
- Data portal for statistics [2] портал данных статистической службы с возможностью выгрузки всех данных в машиночитаемой форме.
- IMM Open Data Portal [3] - портал открытых данных Стамбула, классический портал открытых данных на базе CKAN с 286 наборами данных
- Izmir Acik Veri Portali [4] портал открытых данных города Измир, 32 организации, 180 наборов данных
- Konya Acik Veri Portali [5] портал открытых данных города Konya, 16 организаций, 115 наборов данных
Кроме того в Турции довольно много открытых геоинформационных систем на базе ArcGIS данные откуда тоже доступны, хотя формально открытыми данными не являются.
Турецкий опыт нельзя рассматривать как пример именно продвинутого опубликования данных. Ничего нет про данные для ИИ, всё довольно слабо в части предоставления открытых API, нет национального портала открытых данных, но для понимания того как развивается открытость государства в других странах.
Турция вступала в Open Government Partnership в 2012 году, а в 2017 окончательно вышла из организации [6]. Но, практически все активности по открытости данных начались уже ближе к 2020 году. Без наличия национальных планов по открытости, а на уровне муниципальных инициатив.
Ссылки:
[1] https://github.com/evrifaessa/open-data-turkey
[2] https://data.tuik.gov.tr/
[3] https://data.ibb.gov.tr
[4] https://acikveri.bizizmir.com/
[5] https://acikveri.konya.bel.tr/
[6] https://www.opengovpartnership.org/turkey-withdrawn/
#opendata #turkey #opengov
Элон Маск, по видимому, решил всё же разрушить экосистему Twitter'а и теперь Twitter API только за деньги [1]. Это повлияет на то что от соцсети отключаться очень многие сервисы, продукты и инструменты. Например, ранее Twitter был одной из самых лояльных к архивации социальных сетей и было несколько хороших инструментов по архивации контента. Теперь, похоже, как и Facebook, Instagram и другие в Twitter'е начнут ловить и блокировать разного рода ухищрения работать с их контентом через неофициальные API.
Не знаю из какой парадигмы в новой команде Twitter՛а исходили в этом решении, считали ли они бесплатных пользователей API нахлебниками, или просто то что надо монетизироваться любой ценой. К тому же есть примеры соц сетей вроде Facebook'а которая всегда была закрытой. Но по модели использования Twitter не Facebook и не Instagram. Его реально можно заменить на Mastodon, пусть и с неудобствами.
Ссылки։
[1] https://twitter.com/TwitterDev/status/1621026986784337922
#API #twitter #socialnetworks