I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech
В продолжение про NAO и другие инструменты вайб кодинга такие как Cursor, Copilot и тд. Их становится всё больше, хайпа вокруг них тоже немало. Что с этим делать и как к этому относиться?
1. AI инструменты для программистов явление обоюдоострое, чрезвычайно полезная там где они оттестированы и вредны там где нет. Из личного опыта, Copilot прекрасно обогащает CSV файлы по промпту. Например, грузишь CSV файл с перечнем названий стран на итальянском и просишь создать и заполнить колонку с их кодом из справочника ISO3166-1. А вот, например, запрос к Claude 3.5 (не самая мощная модель, да) на то чтобы получить рекомендации по оптимизации кода, в 2-х из 5-ти рекомендаций он выдал лютые глюки с несуществующими функциями.
2. Тем не менее в руках senior и middle разработчиков это сильное подспорье, способное значительно облегчить работу в очень многих задачах. Причём чем опытнее разработчик тем эффективнее будет инструмент. Правда не все разработчики старой школы готовы ИИ агентами пользоваться.
3. И наоборот, я бы поостерёгся брать на работу джуниоров-вайбкодеров потому что "важное не ударить, а знать где ударить". Последствия могут быть плохопредсказуемыми и лично я придерживаюсь мнения что не набив шишек на реальной работе вайбкодить нельзя категорически.
4. При этом применение LLM для работы с данными значительно сложнее. Почему? Потому что открытого кода и кусочков кода в сети безграничное количество, многие не будут опасаться отправлять свой код в облачные LLM, если только это не код каких-то уникальных алгоритмов, а это уже редкость. А вот данные могут содержать персональные данные, коммерческую тайну и ещё много чего. Использовать для анализа корп данных облачные LLM будет плохой практикой.
5. AI инструменты для разработчиков пытаются сделать повседневными. Что это значит? Максимальное упрощение пользовательского пути до ИИ агента. Примеры Cursor, NAO и ряда других AI IDE это про это. Такие инструменты создают ситуацию когда ты можешь отправить свой код или данные в любой момент в LLM, как говорится, одно неосторожное движение и... Для создателей инструментов это то о чём многие мечтали, наконец-то можно делать IDE зависящее от облачных сервисов и разработчики будут соглашаться авторизовываться и работать в облаке. IDE по подписке в общем. Для разработчиков будет развилка, открытые бесплатные IDE вроде VSCodium или продвинутые зависящие от облачных ИИ агентов.
#thoughts #ai
В продолжение про инструмент metawarc, о котором я ранее писал и то зачем он нужен и может применяться. Вот у меня как маленькое цифровое хобби есть архивация сайтов исчезающих и иных ценных ресурсов, в том числе российских госорганов. Всё оно сфокусировано на проект Национальный цифровой архив ruarxive.org и сообщество в ТГ.
И вот несколько недель назад закончилась архивация сайта Росстата и его территориальных управлений и вот вам некоторое количество цифр которые дадут более-полную-картину.
1. Общий архив сайтов Росстата и территориальных органов - это 330ГБ WARC файлов в сжатом виде (в разжатом виде около 1.1ТБ)
2. Индекс созданный с помощью metawarc занимает 144МБ (0.04% от объёма WARC файлов). Без сбора метаданных из изображений, PDF и файлов MS Office, только записи, заголовки и ссылки. Но поскольку задач OSINT тут нет, то и остальные метаданные не собирались. Впрочем и их объёмы были бы сравнимого размера.
3. На сайтах Росстата опубликовано в общей сложности:
- 64 020 файлов XLSX
- 17 562 файлов XLS
- 14 410 файлов RAR и ZIP внутри которых могут быть ещё десятки таблицы в XLS/XLSX (а могут и не быть, не во всех)
4. Итого если даже только на основе статистики Росстата создавали когда-то портал data.gov.ru там было могли быть десятки тысяч, если не хороших, то совершенно точно используемых аналитиками и исследователями данных.
5. То как оно сейчас на сайте Росстата и его террорганов опубликовано - это, конечно, ужас-ужас. Просто ну очень плохо, нет ни единого поиска, ни унифицированных метаданных и форматов, ни единой группировки и тд. Чем Росстат занимался последнее десятилетие я даже не представляю себе, вернее представляю, но не комментирую.
6. Забегая вперед и отвечая на незаданный вопрос, нет, не у всех статслужб в мире всё так же. В таком состоянии дела обычно только у статслужб развивающихся стран.
7. Возвращаясь к содержанию сайтов Росстата. Преимущественно публикации на них - это PDF файлы и таблички в HTML. Всего около 152 тысяч PDF файлов. Даже если предположить что какая-то их часть - это приказы и иные документы без данных, но разного рода статистика составляет львиную их часть.
Архивы сайтов могут быть довольно таки ценным источником данных, но для их извлечения надо приложить существенные усилия. Особенно когда они фрагментированы так как это произошло на сайте Росстата. Однако учитывая что многие сайты закрываются и исчезают и часто от них всё что остаётся - это как раз веб-архивы, то только из этих веб архивов и можно извлекать данные и документы.
#opendata #opensource #webarchivesё
Для тех кто интересуется моя презентация Особенности открытого доступа и открытых данных в гуманитарных науках [1] в открытом доступе, с обзором открытого доступа и открытых научных данных
Ссылки:
[1] https://www.beautiful.ai/player/-OTvQBg2a4JCj0PfyeTk
#opendata #openaccess
Любопытная книжка Library Catalogues as Data: Research, Practice and Usage
[1] о том что работа библиотекаря сейчас и работа с библиотеками - это работа с данными. В книге публикации из сектора GLAM (Galleries, Libraries, Archives and Museums) о метаданных, данных и их применении и использовании, в том числе для обучения ИИ. Лично я не уверен что готов отдать за неё 60 или 120 евро (мягкая или твердая обложка), но кто знает, выглядит любопытно.
Ссылки:
[1] https://www.facetpublishing.co.uk/page/detail/library-catalogues-as-data/
#openaccess #glam #libraries #opendata #data
DataChain [1] хранилище для AI датасетов с неструктурированными данными вроде изображений, видео, аудио, документов. Открытый код, лицензия Apache 2.0, стремительно набирает пользовательскую базу. Опубликовано одноимённым стартапом. Для хранения используют S3, какой-то отдельный язык запросов я не увидел.
За проектом стоит команда которая делала аналог Git'а для данных DVC, а то есть проблематику они должны понимать хорошо.
В коммерческом сервисе обещают всякие ништяки вроде каталога данных, прослеживаемость данных, интерфейс просмотра мультимодальных данных и тд. Но это то на что интересно посмотреть, а так то может быть применение и только open source продукту.
Ссылки:
[1] https://github.com/iterative/datachain
#opensource #dataengineering
Вышла 3-я редакция стандарта формата для изображений PNG [1]. Почему это событие? Потому что предыдущая, вторая редакция [2], выходила в 2003 году (22 года назад!)
Что нового:
- признание анимированных PNG (APNG)
- правильная поддержка HDR
- официальная поддержка данных Exif
А также многое другое, но каких то особенных действий предпринимать не нужно поскольку большая часть популярных инструментов и так поддерживали эти расширения PNG и без принятого стандарта.
Ссылки:
[1] https://www.w3.org/TR/png-3/
[2] https://www.w3.org/TR/2003/REC-PNG-20031110/
#standards
На днях я решил проинвентаризировать свои презентации за 5 лет и обнаружил что у меня их какое-то чрезмерное количество и недостаточно организованное. Подумываю о том чтобы хотя бы по части из них проводить открытые вебинары (уж не знаю стоит ли делать платные вебинары, хотя иногда и выступаю на коммерческой основе).
И вот я, наконец-то, чувствую что восстановился после COVID'а, прошло много лет, но реально два года после 2020 ощущение было ослабленности сознания, потом получше, но все публичные выступления я резко сократил. Теперь ощущения сильно лучше, как минимум я перестал опасаться выступать на большую аудиторию и, помимо работы над Dateno, время от времени рассказываю о чём-то новом и старом.
Что думаете, на какие темы стоило бы провести вебинар/вебинары?
Вот список
Государство, данные и ИИ
- Применение ИИ для госсектора
- Управление основанное на данных
- Инвентаризация данных. Объекты, подходы, инструменты
- Ключевые наборы данных и их поиск и инвентаризация
- Реестры государственных систем, государственных ресурсов и НСИ
- Открытый государственный код
- Искусственный интеллект в правоохранительной системе. Миф или реальность?
- Этика работы с данными и ИИ
Дата аналитика и инженерия
- Application of neural networks for tasks of automatic identification of semantic data types
- Альтернативные данные (о показателях за пределами официальной статистики)
- Мастер классы: ищем данные, чистим и структурируем данные
- Контроль качества данных
Открытые данные
- Открытые данные в мире
- Открытые данные как основа госполитики
- Поиск данных (data discovery) для дата проектов
- Городские и гиперлокальные данные в мире
- Sharing Data for Disaster Response and Recovery Programs
Открытые API
- Открытые API. Основы
- Открытые API. Платформы и сообщества
Работа с данными для исследователей
- Практика использования DuckDB для работы с большими исследовательскими данными
- Дата инженерия в цифровой гуманитаристике
- Сервисы инфраструктуры данных для исследователей
Цифровая и веб архивация
- Практика и особенности экстренной архивации веб-ресурсов
- Введение в цифровую архивацию
- Веб-архивация
- Архивация специализированных ресурсов
- Интернет архив с точки зрения цифрового архивиста
- Национальный цифровой архив. Цифровая архивация медиа
- Цифровая архивация. Подходы и практика
Журналистика и общественный контроль
- Скрытые данные / Какие данные спрятаны в госсайтах?
- Дата-журналистика в контексте доступности источников данных
- Приватность мобильных приложений
- Слежка через государственные мобильные приложения
- О необходимости контроля и аудита ADM- систем
- Дата расследования
- Нормативная открытость
- Открытость информационных систем нормотворчества
- Простой и понятный русский язык
#thoughts #presentations
Свежее исследование How do people feel about AI? [1] о восприятии ИИ в Великобритании от Института Алана Тюринга и Института Ады Лавлейс. Последний раз оно проводилось в 2023 году, поэтому в исследовании 2025 года много сравнений и отражение изменений с 2023 года.
Вот ключевые факты:
- 72% британцев считают что регулирование сделает для них использование ИИ более комфортным. Два года назад так говорили лишь 62%
- большие языковые модели стали мейнстримом и о их использовании говорят уже 61% респондентов
- уровень доверия ИИ стабилен, а уровень тревожности в отношении ИИ вырос с 44% в 2023 году, до 59% в 2025 году
- 75% жителей считают важным появление регулятора ИИ
- есть большой разброс того что люди знают об ИИ. Почти все знают об автомобилях без водителей и немногие знают о ИИ для распределения социальных пособий.
- пользователи по разному относятся к применению LLM к разным задачам. Менее всего они склонны их использовать в задачах имеющих юридические последствия, более всего для поиска
- самым позитивным применением считаются технологии распознавания лиц (!)
- самым негативным - автомобили без водителей
Там ещё много всего, исследование весьма подробное и его стоит почитать всем кто изучает влияние ИИ на общество.
Важно не забывать что оно проводилось в Великобритании и в разных странах опасения могут быть и будут разными.
Ссылки:
[1] https://attitudestoai.uk/
#readings #ai #uk
Полезное чтение про данные, технологии и не только:
- I feel open source has turned into two worlds [1] автор пишет про то как классический open source мир столкнулся с корпоративным и это ещё один водораздел между теми кто исповедует открытость как ценность и теми кто зарабатывает на этом деньги.
- Can A.I. Quicken the Pace of Math Discovery? [2] могут ли ИИ помощники усилить и ускорить научные открытия в высшей математике ? Тема очень и очень непростая, но в США DARPA запускают инициативу в которой хотят это попробовать.
- The Brute Squad [3] автор поёт оды вайб-кодингу, насколько оправданные - вот в чём вопрос. Но прочитать стоит
Ссылки:
[1] https://utcc.utoronto.ca/~cks/space/blog/tech/OpenSourceTwoWorlds
[2] https://www.nytimes.com/2025/06/19/science/math-ai-darpa.html
[3] https://sourcegraph.com/blog/the-brute-squad
#readings #ai #opensource
MIT: ChatGPT может разучить тебя думать
Новое исследование MIT показало: если писать с помощью AI, мозг начинает халтурить. У студентов, которые писали эссе с ChatGPT, слабее работали участки мозга, отвечающие за внимание и память. Они хуже запоминали, что сами же только что написали, и выдавали более шаблонные тексты.
Учёные называют это «когнитивным долгом»: ты передаёшь мышление модели, а сам просто жмешь кнопки.
Эффект остаётся даже после отключения AI. Те, кто долго писал с чат-ботом, потом хуже справлялись без него. А вот если сначала думал сам, а потом подключал ChatGPT — мозг наоборот работал лучше.
Отчет ученых из MIT можно почитать тут: https://arxiv.org/pdf/2506.08872v1
26-29 июня пройдет V международная летняя школа молодых ученых по исторической информатике [1] где я 29-го числа дистанционно выступлю с докладом Особенности открытого доступа и открытых данных в гуманитарных науках
Я долго думал какую тему туда предложить и буду говорить с акцентом на открытость, а не на ИИ, или на данных вне открытого контура. Вернее про ИИ тоже буду, но в контексте возможностей и рисков закрытия общедоступных культурных ресурсов.
Ссылки:
[1] https://aik.timepad.ru/event/3375051/
#opendata #openaccess
Некоторые мысли вслух относительно организации своей и не только своей работы. Я лично довольно давно увлекался разными инструментами и подходами к самоорганизации. Какие-то из них самоочевидны, а какие-то - это хорошо обновлённое старое, а не что-то новое.
Один из таких подходов - это рабочий журнал.
Если какая-либо задача не является на 100% очевидной и требует каких-либо проверок гипотез, проверки кода или инструментов, то очень хорошая практика в том чтобы вести журнал. Я его называю рабочим или аналитическим журналом, в зависимости от типа задачи.
Он напоминает список задач и экспериментов которые пишут сами себе некоторые продвинутые LLM расписывая логику рассуждений и это делает эти LLM, не всегда, но часто, эффективнее работы аналитиков или разработчиков джуниоров.
В ведении рабочего журнала нет ничего нового, это, по сути, адаптированный к ИТ и аналитическим задачам журнал экспериментов. Итогом ведения журнала почти всегда является, либо список конкретных задач, либо решение поставленной задачи по мере его достижения.
Лично я не всегда, но всё чаще веду такой журнал при какой-либо аналитической работе, по анализу источников данных, по подготовке документов и тд. Даже когда какие-то художественные тексты пишу, тоже стараюсь вести подобные структурированные заметки именно в форме журнала.
Своими техническими журналами я поделиться, увы, не могу, они очень специализированы для того что я делаю. Может быть когда-нибудь смогу поделиться таким журналом по подготовке какого-либо аналитического документа.
Но для тех кто сталкивается с регулярным вопросом "А чем ты там занимался?" - это важный и содержательный ответ. Подход достаточно универсальный для задач занимающих время более 1 часа.
Кстати, на ту же тему, уже не раз сталкивался с рассуждениями о том как выбирать сотрудников программистов/аналитиков/дата-инженеров и тд. Стандартный подход - это брать людей с опытом работы в FAANG и большим опытом в индустрии и работает он так себе. А вот один из важных критериев - это способность документировать свою работу.
Документирование - это одно из важных отличий senior специалистов от начинающих.
А какие рабочие практики и лайфхаки Вы используете?
#thoughts #it #lifehacks
Свежий любопытный продукт Nimtable [1] для корпоративных каталогов данных. Работает поверх каталогов Apache Iceberg, позволяет управлять каталогами, делать запросы к ним и оптимизировать таблицы с данными. Выглядит интересно и определённо стоит посмотреть его в работе.
Ссылки:
[1] https://github.com/nimtable/nimtable
#dataenginering #datatools
Ещё один доступный источник общедоступных данных монитогринга погоды/климата. Инсталляция WIS 2.0 в Кыргызстане [1]. WIS 2.0 это открытый сервис агргегирующий данные из метеостанций страны и отдающий по стандартизированным протоколам OGC. Этот продукт с открытым кодом распространяет Всемирная метеорологическая организация и он развернут уже более чем в 35 странах мира.
Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.
Конкретно вы Кыргызстане данные собираются с 36 метеостанций.
На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]
Ссылки:
[1] http://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] http://wis2box.mecom.ru
#opendata #openapi #api #geodata #datasets #kyrgyzstan
Когда появится AGI (Общий искусственный интеллект)? Коллекция предсказаний от тех кто создаёт ИИ моделей и ряда экспертов [1]
Хорошая новость - есть шанс что при нашей жизни
Плохая новость - определённо есть шанс что при нашей жизни
У меня вот тоже есть очень мрачные прогнозы:
- многие страны поменяют ядерные доктрины,
- всё что касается датацентров для AGI начнут секретить
- вероятность терактов в отношении датацентров, ведущих ИИ компаний и их сотрудников резко вырастет.
Вообще судя по тому что происходит сейчас в мире, появление AGI мира не принесёт, а вот войны могут выйти на другой уровень
Ссылки:
[1] https://sherwood.news/tech/gi-artificial-general-intelligence-when-predictions/
#preditions #ai
Свежий любопытный редактор кода и данных NAO [1] профинансирован Y Combinator, предлагают аналог VSCode со встроенным AI ассистентом заточенным под данные, помогает строить пайплайны, разбирает SQL запросы, позволяет делать с данными и запросами к ним всякое. Позиционируется как Cursor для данных и заточенность под SQL.
Из минусов, поддерживает только облачные базы данных и Postgres, не имеет никакой поддержки NoSQL. Из плюсов, тем кто работает с SQL может пригодится.
Ссылки:
[1] https://getnao.io
#dataanalytics #dataengineering
Для тех кто работает с веб архивами я обновил инструмент metawarc [1] это утилита для извлечения метаданных из файлов WARC (формат файлов веб архива).
Инструмент нужен для тех кто извлекает метаданные и файлы из WARC файлов, например, можно скачать WARC файл архива сайта Минспорта за 2019 г. , он небольшой, всего около 1ГБ, проиндексировать его и извлечь все PDF файлы, или файлы MS Word, или сразу извлечь все метаданные из документов и изображений.
Штука которая полезна для OSINT задач анализа сайтов организаций, но тема OSINT меня интересует мало.
А основное применение - это анализ больших архивов и организация поиска по ним и поиск интересных данных.
Когда-то давно я делал эту штуку и через неё находил массовое использование пиратского офисного ПО на российских госсайтах, но это было давно и уже давно малоинтересно. Внутри там использовалась база sqlite и при индексации всех метаданных размер этой базы мог достигать до 20% от размера WARC файла. То есть для коллекции в 1ТБ WARC'ов это получалось до 200GB база. А это совсем никуда не годится. После переписывания всё на связку DuckDB + Parquet после индексации объём уменьшился на порядки. Для WARC файла в 4.5ГБ извлеченные метаданные занимают 3.5МБ. А это 0.07%. Реальное сжатие в 285 раз (!), не говоря уже о ускорении операций по анализу и извлечению документов.
Ссылки:
[1] https://github.com/datacoon/metawarc
#opensource #webarchives
Вышел отчёт ОЭСР Government at Glance 2025 [1] с обзором состояния и трендов государств членов и кандидатов в ОЭСР по таким темам как бюджетные расходы (дефицит), цифровизация, открытость и многое другое.
Для тех кто следит за публикациями ОЭСР будет не так интересно, поскольку в отчетах приводятся данные прошлых лет, 2022-2024 в данном случае, например, цифры по открытости данных из индекса OURIndex за 2023 год и так далее.
Но отчет будет интересен тем что предпочитает читать слова, а не таблицы.
Там же доступны отчеты по отдельным странам.
Из постсоветских стран в ОЭСР представлены только Латвия, Литва и Эстония.
Лично я эти отчеты читаю по диагонали потому что там только общие оценки и графики, а не разбор конкретных кейсов, такие материалы в других документах, но любопытное встречается.
Например, то что в РФ называют проактивными госуслугами, в терминологии ОЭСР звучит как life events approach to service design and delivery и далеко не во всех развитых странах он существует.
Ссылки:
[1] https://www.oecd.org/en/publications/government-at-a-glance-2025_0efd0bcd-en.html
#opengovernment #opendata #readings #oecd #reports
В рубрике открытых российских данных
Цифровой гербарий Московского университета [1] включает более 1 миллиона объектов, фотографий и записей о растениях по всему миру. Копия этой коллекции есть в репозитории GBIF [2] и она доступна в форме открытых данных в форматах аннотированного архива GBIF, EML и CSV файлов.
Он охватывает все постсоветсткие страны и многие страны мира и является одним из крупнейших российских ресурсов открытой науки.
Материалы гербария доступны под лицензией CC-BY
Ссылки:
[1] https://plant.depo.msu.ru/open/public/en
[2] https://www.gbif.org/dataset/902c8fe7-8f38-45b0-854e-c324fed36303
#opendata #russia #msu #herbarium #plants
Галлюцинации у LLM - это, всё таки, повсеместная проблема и ИИ сервисы глобальных игроков получше с этим справляются чем российские, даже в вопросах на которых российские LLM должны быть значительно эффективнее.
Вот пример, запроса Собери информацию по всем ФОИВам в России. Верни результат в виде CSV файла с колонками "id", "name", "website", "description" к Гигачату от Сбербанка в режиме "Провести исследование".
Откровенных ошибок в названиях и в ссылках на сайты очень много. Настолько что можно вручную собирать и это будет точнее.
Для сравнения, не буду называть конкретные китайские, европейские и американские LLM, выдают очень точный результат.
Запрос этот из реальной жизни, на него регулярно важно знать ответ при архивации официальных сайтов.
#ai
Foursquare официально анонсировали [1] SQLRooms [2]. Это инструмент для построения дашбордов в основе которого DuckDB и интегрированный AI ассистент.
Можно вживую его посмотреть в интерфейсе куда можно загрузить данные и посмотреть запросы к ним [3] и в демо AI аналитика [4]
Про SQLRooms я ранее писал, но теперь он анонсирован официально и я так понимаю что весьма активно развивается.
А ещё они следуют ровно той концепции о которой я ранее писал - Local-first [5]
Ссылки:
[1] foursquare/foursquare-introduces-sqlrooms-b6397d53546c" rel="nofollow">https://medium.com/@foursquare/foursquare-introduces-sqlrooms-b6397d53546c
[2] https://sqlrooms.org
[3] https://query.sqlrooms.org/
[4] https://sqlrooms-ai.netlify.app/
[5] https://github.com/sqlrooms/sqlrooms
#opensource #dataanalytics #dataengineering #duckdb
Свежий доклад по регулированию и использованию ИИ экспертов ООН в рамках рабочей группы по правам человека. Если вкратце то выводы и рекомендации о том что права человека должны быть основным ориентиром для разработчиков и заказчик продуктов на базе ИИ и учитываться при их создании и закупке.
Документ там небольшой, 26 страниц, вот тут прямая ссылка на версию на русском языке [2], но читать документы ООН всегда очень тяжело. Их не пишут простым языком, они всегда забюрократизированы, но читать их важно, в том числе учитывать при разработке новых ИИ продуктов.
Ссылки:
[1] https://www.ohchr.org/en/documents/thematic-reports/ahrc5953-artificial-intelligence-procurement-and-deployment-ensuring
[2] https://docs.un.org/ru/A/HRC/59/53
#readings #ai #UN
Многие ждут когда в США появится официальный сайт AI.gov пока он редиректит на сайт Белого Дома, но он много где уже проанонсирован и там ожидаются наиболее полные материалы по госполитике в отношении ИИ в США.
Я вот, тем временем, наблюдаю как регуляторы думают про применение ИИ в целом и в госсекторе, вопрос к тому как нормативка будет развиваться очень много поскольку регулирование ИИ будет касаться и цензурирования, и цены ошибки, и применения в критических отраслях, и передача данных между юрисдикциями и ещё много чего.
Но некоторые изменения мне представляются уже очень очевидными:
1. Практически неизбежно, вопрос лишь когда, будет аттестация и аккредитация ИИ. Позитивное регулирование может исходить из создания "реестров доверенных моделей и сервисов", негативное регулирование в блокировках и запрете использования определённых моделей и сервисов или запрете вообще всех кроме ограниченного числа.
2. Применительно к ИИ в госсекторе неизбежна централизация и G2G внутригосударственные облачные сервисы. Рано или поздно возникнут запреты на использование облачных частных продуктов и будут разворачиваться ИИ модели и сервисы на уровне регионов или отраслевых министерств или на уровне центрального правительства как G2G услуги. Причин несколько, но главная - ограничения на передачу персональных данных и гарантия что используемые данные не будут использоваться для обогащения большой облачной модели. Я знаю страны и регионы некоторых стран где такое уже практикуют.
3. Реорганизация экзаменов, постепенно во всем мире. Их проведение в местах с гарантированным отсутствием интернета и электричества. Почему? Только сдавать мобильные устройства недостаточно, будут пользоваться умными очками или иными скрытыми устройствами. Договорится со всеми крупнейшими облачными сервисами ИИ о том чтобы они не работали на время экзаменов тоже будет сложно, блокировка на страновом уровне тоже будет иметь ограниченный эффект. Только полное отсутствие интернета и изъятие устройств достаточно мощных чтобы в них работать SLM (малые языковые модели).
4. Реорганизация и кризис медицинских услуг особенно в странах где медицина стоит очень дорого. Стремительное применение ИИ для диагностики (уже происходит) и отдельное регулирование этой сферы (тоже уже происходит). Специалисты в этой области могут рассказать больше, но в целом применение ИИ в медицине - это та область которой игроки созданию ИИ оправдывают их создание и инвестиции более чем во всём остальном.
5. Страновые соглашения крупных игроков в области ИИ с национальными правительствами малых стран. У многих небольших развивающихся стран и стран с малыми доходами не будет достаточного числа ресурсов чтобы развернуть свои ИИ модели для внутригосударственных нужд, особенно с учётом того что их языки могут иметь очень немного носителей и очень мало текстов. В какой-то момент крупные игроки начнут заключать страновые соглашения по предоставлению своих продуктов с доработкой под эти языки (кстати ИИ от Яндекса пока понимает армянский язык лучше чем у всех международных игроков, просто для иллюстрации).
#ai #regulation #thoughts
Я ранее писал про российскую базу статистики ЕМИСС и то в каком она состоянии и то что её Росстат и Минцифры закрывают в конце 2025 года. Мы все материалы из ЕМИСС начали архивировать, первичные заархивировали, а когда будут готовы обработанные, то рано или поздно они станут общедоступными.
И вот по поводу ЕМИСС у меня смешанные чувства. С одной стороны это большая база плохих данных, с другой стороны это чуть ли не единственный работавший продукт Росстата/Минцифры с более менее стандартизированным экспортом данных и метаданными.
А для иллюстрации текущего состояния ЕМИСС я приведу Вам некоторые цифры
- заявленное число показателей в ЕМИСС - 8773 (включая архивные), реальное число показателей которые удалось скачать - 6905
- из 6905 показателей лишь 807 имеют значения за 2025 год (около 11.7%) из них 277 показателей имеют значения ТОЛЬКО за 2025 год (около 4%)
- с данными последний раз обновлявшимися за 2024 год всего 1898 показателей (около 27.5% показателей)
- с данными последний раз обновлявшимися за 2023 год всего 1316 показателей (около 19% показателей)
Итого: 41,8% показателей не обновлялись с 2022 года
Ведомства у которых у которых данные не обновлялись это:
- Россельхознадзор (последнее обновление в 2014 г.)
- Роскомнадзор (последнее обновление в 2019 г.
- Росгвардия (последнее обновление в 2021 г.)
При желании это можно проверить на сайте ЕМИСС, пример, показатель Россельхознадзора, там же находятся все остальные.
Подробная раскладка по ведомствам на скриншоте, приведенные там годы - это год последней актуализации временного ряда, а число - это число временных рядов в последний раз обновлённых в этом году. В последней колонке "Доля устаревших" приведена доля временных рядов не обновлявшихся с 2021 года.
Всё это без анализа содержания самих временных рядов, методологии, полноты, без анализа широты их охвата (регионы/города), наличия непустых значений (а там тоже не всё хорошо).
Выводы можно сделать самостоятельно. Но про ЕМИСС можно хотя бы провести такой анализ, а вот про Цифровую аналитическую платформу даже его сделать невозможно.
#opendata #data #statistics #russia
В рубрике как это устроено у них каталоги данных по биоразнообразию на базе типового каталога ALA (Atlas of Livinga Australia) разработанного в Австралии и далее используемое сообществами и органами власти по всему миру [1]. Например, в Австрии [2], Австралии [3], Хорватии [4] и ещё более чем в 10 странах.
На этих порталах публикуются как структурированные данных о биоразнообразии, информация о растениях и животных, так и наборы данных на которых эта база основана.
При этом это полноценный каталог данных, с указанием лицензий, метаданных, с данными в разных форматах и почти всегда с выдачей кода DOI через GBIF или Pangaea.
Это пример отраслевых/тематических/дисциплинарных научных репозиториев данных помогающим в работе исследователям-биологам.
Ссылки:
[1] https://living-atlases.gbif.org
[2] https://collectory.biodiversityatlas.at/datasets
[3] https://collections.ala.org.au/datasets
[4] https://collections-bioatlas.bioportal.hr/datasets?lang=hr
#opendata #datasets #biodiversity
Некоторые мысли вслух:
1. Интересно когда наступит момент когда проекты или сайты компаний будут динамически создаваться ИИ? Буквально, по 2-3 страницам текста от начала и до конца. Полноценного AGI для этого не нужно, нужно лишь доступ ИИ к хостинг провайдеру через API и побольше времени чем одиночный запрос. Я так понимаю что технологическая готовность к этому есть и ждать осталось недолго. Рынок веб разработки это если не разрушит, то сильно разворошит. А может уже началось, а я ещё не отследил такое.
2. Рано или поздно кто-то натравит LLM'ки на глубокий анализ текстов госконтрактов, законов и тд. Уже напрашивается, правда требует хорошего понимания предметной области, но поиск "красных флажков" может выйти на новый уровень. Но не в России в ближайшие, а может быть и в не ближайшие годы тоже.
#thoughts
Совсем свежее The OpenAI Files [1] сайт посвящённый практикам ведения бизнеса в OpenAI собранный группой расследователей The Midas Project и The Tech Oversight Project.
Ценность его в сжатости изложения проблем и наборе конкретных рекомендаций [2] о том что с этим всем делать.
Не стоит полагать что OpenAI единственная компания с такими практиками, но они стремительно выросли, обладают всё большим влиянием и очень высокой непрозрачностью.
Чтение полезное для всех кто интересуется AI и этикой.
Ссылки:
[1] https://www.openaifiles.org/
[2] https://www.openaifiles.org/vision-for-change
#readings #ai #openai #ethics
Доля расходов на продовольствие в расходах населения
Неделю назад коллеги выложили очень интересные наборы данных, которые кропотливо собирал Сбериндекс. Есть там и уникальные наборы — например, по структуре расходов населения в большинстве регионов страны (кроме украинского приграничья, Ингушетии, Бурятии и отдельных районов других регионов).
Более половины средств расходуют на продовольствие жители Костромской, Кировской областей и смежных районов (очень характерно, что в этом ареале также выше всего доля населения старше трудоспособного возраста). Вообще в основной полосе расселения работает правило, что чем севернее район, тем больше там будут тратить на еду (потому что возможностей вырастить что-то самостоятельно очень немного).
Меньше всего тратят на еду в Москве и Санкт-Петербурге (и в принципе в крупных городах с высокими доходами), а также на Кавказе (поскольку климат позволяет существенную часть еды производить самостоятельно). В большинстве же муниципалитетов на продовольствие уходит около 40-45% расходов.
Хайрез в комментариях + работаем над тем, чтобы переложить муниципальные карты в веб-формат для интерактива
Подписаться
#соцэк
Выводят ли боты с искусственным интеллектом культурное наследие из строя? [1] свежий доклад Макла Вайнберга из GLASB e-Lab посвящённый тому что ИИ боты нарушают работу открытых культурных ресурсов.
И это куда серьёзнее чем ранее существовавшие проблемы открытого доступа, теперь ИИ боты напрямую злоупотребляют открытостью и от них отбиваются с помощью многочисленных CDN и иных сервисов блокирующих любое индексирование сайтов и проверяющих доступ к материалам на "человечность" запрашивающего.
Почитать стоит о том что теперь поддержание открытых коллекций стоит существенно дороже и о разных мерах применяемых к ботам, самые радикальные из этих мер - это блокировка по географии, когда блокируются некоторые страны. Например, я знаю довольно много онлайн ресурсов которые более не открываются с IP адресов относимых к России и к Китаю именно по этой причине.
При всех полезных сторонах ИИ, есть реальная угроза того что многие общедоступные культурные ресурсы будут уходить в режим доступа только после авторизации и их доступность будет существенно снижаться.
#opendata #culturalheritage #readings
242 миллиарда токенов, 384 миллиона страниц, 983 тысячи книг на 254 языках в новом наборе данных для машинного обучения Institutional Books 1.0 [1] опубликованном Библиотекой Гарварда на HuggingFace.
Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.
К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.
Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300
#opendata #datasets #data #ai