begtin | Business and Startups

Telegram-канал begtin - Ivan Begtin

7027

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Subscribe to a channel

Ivan Begtin

Я очень давно не писал на тему того как не надо публиковать данные хотя примеров таких было когда-то очень много. Я до сих пор помню как многие органы власти в России публиковали данные с расширением XML которые потом оказывались экспортированными файлами разметки презентаций или файлов MS Word. Эдакая симуляция машиночитаемости.

Но часто публикация материалов - это не только вопрос машиночитаемости, данные могут быть в Excel, и даже текстовые документы бывают редкостью когда вместо них публикуют сканы.

Сегодня на сцене чиновники Департамента городского имущества города Москвы публикующие таблицы с данными о приватизированных помещениях запихивая протоколы внутрь файлов Excel [2]. Причём файлы в формате PDF, просто перетащенные в Excel и открываемые только через Excel, только если установлен именно Adobe Acrobat Reader. Потому что открывается через внедрённый OLE Object (те кто не знает, не заморачивайтесь, в данном случае это просто Windows специфичный способ запуска документов)

Я, честно говоря, более всего в недоумении как я сам раньше не додумался о таком прекрасном, в кавычках, способе выполнять разного рода требования по раскрытию информации.

MS Office позволяет устраивать хранение данных объектов до любой глубины.
А значит можно как в сказке про кощея утка в зайце, яйцо в утке, игла в яйце. Вот точно также можно хоть градостроительные планы прятать гигабайтного размера։
1. Работать с этим будет крайне неудобно
2. Поисковики умеющие индексировать файлы MS Office не углубляются во вложенные объекты
3. При этом все законы и требования о раскрытии тех или иных сведений такие случаи не покрывают. Формально требования все соблюдены.

От этого спасает, опять же, в кавычках, только то что чаще когда каким-либо официальным лицам не хочется чтобы граждане или бизнес работали с теми или иными документами, то они просто публикуют сканы, в особенности кривоватые.

Ссылки։
[1] https://www.mos.ru/dgi/documents/view/233957220/

#opendata #idiotseverythere #data #moscow #government

Читать полностью…

Ivan Begtin

Много лет своей жизни я провёл анализируя данные госзакупок/госконтрактов/госфинансов. Это привело к созданию таких проектов как Госзатраты clearspending.ru и Госрасходы spending.gov.ru, а также множеству расследований публичных и непубличных. Я много что могу рассказать о том как система госзакупок в России формировалась, почему она открыта настолько насколько открыта и о истинной природе многих требований 44-ФЗ и 223-ФЗ которые регулировали систему госзакупок в целом.

По поводу предложений Валентины Матвиенко, главы Совфеда о моратории на действие закона о госзакупках, видимо она имела в виду 44-ФЗ, на время военных действий я много что могу сказать.

Особенность системы госзакупок в России в том что в одних и тех же законах открытость была смешана с процедурным контролем. В одном и том же 44-ФЗ прописаны, как все полномочия о контроле, так и требования к открытости. При этом это явления разного порядка.

Введение и усиление контроля изначально в 94-ФЗ и в 44-ФЗ далее было сделано для усиления связки Минфин, Казначейство, ФАС. Мало кто вспоминает что ранее регионы и муниципалитеты осуществляли контроль самостоятельно, более того, эта модель куда более соответствовала Конституции РФ поскольку субъекты федерации и муниципалитеты самостоятельно должны управлять своими бюджетами. Но ещё даже в первых редакциях законов только некоторые чиновники в Правительстве Москвы сопротивлялись этим введениям, но недолго.

Из-за огромного дисбаланса процедурных требований, требований бюджетного кодекса, ограничений по согласованиям в рамках госпрограмм и нацпроектов, сложившаяся российская система госзаказа крайне громоздка и построена так что контролёры всегда могут найти нарушения. Более того любой госзаказчик который хочет обеспечить качество работ или товаров, должен действовать также как и коррупционный заказчик. Вначале искать поставщика какими-то другими методами, а потом искать возможность заключить контракт именно с ним. Это будет долго объяснять почему невозможно иначе, но все кто когда-либо выступал в роли поставщика или заказчика по 44-ФЗ знают о чём идёт речь.

Открытость этой системы была её единственным плюсом. Открытость давала если не эффективность, то хотя бы отчасти возможность предупреждать совсем уж запредельные случаи воровства. Хоть какой-то гражданский контроль был возможен только благодаря раскрытию информации о том кто является победителем по госконтрактам.

Поэтому приостановка закона или его отмена в будущем имеет две важные грани։
1. Для кого-то из госзаказчиков эффективность работы повысится просто потому что отпадёт процедурный контроль. После этого ФАС можно распускать, но в какой-то степени в каких-то областях эффективность процессов в государстве даже повысится. В основном там где речь идёт про стройку и крупные контракты. Но это предположение, не аксиома.
2. А вот снижение открытости приведёт неизбежно к тому что всё что связано с контрактами затрагивающими жизнь людей станет сильно хуже. Общественный контроль всегда был в этой области сильнее и тут он будет резко ограничен.

Условно "правильная" реформа госзаказа должна была быть в разделении непосредственно регулирования процедур закупок и исполнения контрактов в один закон и обеспечение открытости отдельным нормативным документом. В изменении самого смысла контроля от контроля процедур, к контролю результатов и ещё много чего связанного с мониторингом исполнения контрактов, а не только с финансовым контролем.

Поэтому, если коротко, закон менять надо, а вернее писать новый(-е), а вот ставить мораторий на открытость глупо, и ни к чему хорошему не приведёт. Разве что кроме того что добьют региональную журналистику, вслед за федеральной.

Но это всё уже очень далеко от данных и технологий про которые мне говорить и писать куда интереснее.

#opengov #procurement

Читать полностью…

Ivan Begtin

Dataskop [1] свежее приложение от команды AlgorithWatch по сбору и визуализации данных которые собирает о пользователе ТикТок и с возможностью пожертвовать эти свои данные на исследования в области приватности. Сама идея интересная, делать приложения по анализу приватности в виде приложения с браузером внутри. Вместо того чтобы делать расширение для браузера, согласовывать его с владельцем магазина расширений, проще поместить Chromium в оболочку и делать исследование в замкнутом пространстве. Хорошая идея, тянет на возможность её универсальной реализации, не только применительно к ТикТоку.

А пока можно скачать приложение и поэкспериментировать. Я вот, к сожалению, проверить не могу, ТикТоком совсем не пользуюсь.

Ссылки:
[1] https://dataskop.net/overview-in-english/

#privacy #software #tiktok

Читать полностью…

Ivan Begtin

В рубрике интересных проектов на данных, общественный проект OpenAQ (Open Air Quality) посвящённый, как вы догадались, качеству воздуха и инструментам его измерения. Они обновили свой навигатор по датчикам, теперь можно увидеть [1] их во многих странах, особенно в Евросоюзе и США. А также много датчиков в Чили, Австралии и в Таиланде.

Проект любопытный, с открытыми данными, интерфейсами для разработчиков и тд.

Ссылки:
[1] https://explore.openaq.org/

#opendata #datasets #API #airquality #lifequality

Читать полностью…

Ivan Begtin

Так вот Гостех в России такой командой не является. Это некая закрытая группа без заметных публичных результатов кода, документов, гайдов, системных подходов и всего остального. В текущей модели существования - они прослойка между госорганами и платформой Сбербанка (читай - Сбербанком) и являются "приложением к единой цифровой платформе". Иначе говоря, по модели реализации Гостеха в России, люди вторичны, информационная система первична. А что касается информационной системы см. пункт 1. Гайд по Agile сделанный командой ГосТех՛а - это ещё раз подтверждает. Это обезличенный забюократизированный документ с заложенными минами привязки к ЕЦП Гостех и при этом оторванный от реальности госпроектов ограниченных законами о госзакупках, госслужбе и практике согласования с Минцифрой, планами информатизации и последующими проверками прокуратуры и Счетной палаты. Кто-то скажет что, "но иначе же невозможно!". Возможно, и как раз большая часть инновационных команд в мире специализировались на том чтобы это было возможно.

Инвестиции в людей и сбор сильных команд в госсекторе не является простой задачей, в мире тоже не так много примеров, но они есть. в России они мне почти неизвестны, а там где они есть присутствует очень сильная отраслевая специфика.

Выводы можете сделать самостоятельно.


#govtech #russia #government #thoughts

Читать полностью…

Ivan Begtin

Интересная свежая научная статья The Semantic Scholar Open Data Platform [1] как видно из названия посвящена Semantic Scholar [2], огромной базе данных научных статей и научного цитирования созданная и развиваемая Allen Institute for Artificial Intelligence.

Очень интересно для всех кто занимается наукометрией и, также, в статье много подробностей о том как проект устроен внутри, исходном коде отдельных компонентов и многое другое.

Ещё интересны цифры и сравнение с другими проектами. Крупнейшая база статей на сегодняшний день Aminer [3], с оговоркой что реальный объём базы Google Scholar неизвестен.

Интересно, кстати, что такие проекты - это проекты с большой частью дата-инженерии. И, хотя там нет сверхплотных потоков ежесекундных транзакций, но решаемые задачи весьма непросты как в части сбора, так и в части обогащения данных.

Ссылки։
[1] https://www.semanticscholar.org/reader/cb92a7f9d9dbcf9145e32fdfa0e70e2a6b828eb1
[2] https://www.semanticscholar.org
[3] https://aminer.org

#readings #articles #opendata #openscience #openaccess

Читать полностью…

Ivan Begtin

В Open Government Partnership опубликовали доклад Broken Links: Open Data to Advance Accountability and Combat Corruption [1] где на основе результатов Global Data Barometer подсветили практики открытости по всему миру, в первую очередь в странах входящих в OGP, на постсоветском пространстве - это Латвия, Литва, Эстония, Украина, Киргизия, Грузия, Армения и Азербайджан. В данном случае у них акцент на открытости и прозрачности в контексте борьбы с коррупцией и подотчетности власти. Обзор хорош конкретными примерами, вроде украинской системы системы закупок Prozorro, или Латвийского реестра лоббистов, или изменения в регулировании Армении с раскрытием бенефициаров в реестре владельцев компаний.

В российских реалиях обзор применим только с точки зрения понимания "как всё развивается у них", Россия не входит в OGP, а для многих постсоветских и не только стран увидеть пробелы в собственной открытости.

Ссылки։
[1] https://www.opengovpartnership.org/broken-links

#opendata #opengov

Читать полностью…

Ivan Begtin

У ОЭСР вышла свежая публикация по теме регионального развития Using private sector geospatial data to inform policy [1] с обзором государственно-частных партнерств по созданию продуктов на основе геоданных поставляемых и государственной геоинфраструктуры и частных поставщиков и партнеров. Документ любопытный большим числом ссылок, форматов партнерства и конкретных рассмотренных примеров из Евросоюза, Южной Кореи, Индии, Канады и других стран.

Впрочем главное в документе это не только примеры, но и институциональная рамка таких партнерств, а это Data Partnership [2], а это сотрудничество между международными организациями и технологическими компаниями, способствующее эффективному и ответственному использованию данных третьих лиц в международном развитии.

Организованное под эгидой Мирового Банка и в партнерстве со всем крупным биг тех сектором и крупнейшими "игроками рынка" международного развития.

Я об этих партнерствах писал довольно мало, хотя это важное изменение с политике крупных межгосударственных структур и по масштабам оно гораздо больше чем политика работы с открытыми данными.

Однако, возвращаясь к конкретно этому документу, геоданные являются одним из наиболее приоритетных источников партнерств потому как органы власти слишком часто не обладают ресурсами условных Google или Meta по сбору данных о каждом жителе. А для бигтеха - это возможность иметь про запасы аргументы в разговорах с регуляторами почему они не такие плохие и что слежка за всеми оправдана.

Ссылки:
[1] https://www.oecd-ilibrary.org/urban-rural-and-regional-development/using-private-sector-geospatial-data-to-inform-policy_242f51b8-en
[2] https://datapartnership.org/

#data #regulation #policies #oecd #datapartnership

Читать полностью…

Ivan Begtin

Напоминаю что в пятницу будет проходить Privacy Day 2023, на сайте доступен перечень спикеров и программа. А само мероприятие будет транслироваться на Youtube.
Мероприятие ранее проходило ежегодно в Москве, теперь организаторы сделали его международным и проходящим полностью онлайн. Так что будет интересно всем для погружения в повестку приватности не только в России.

#events #privacy

Читать полностью…

Ivan Begtin

⚡️Новый сервис «Поиск по архивам» от Яндекса

Сервис помогает находить рукописные документы по ключевым словам, используя имена, фамилии, названия населённых пунктов и любые другие слова.

Сейчас в базе более 2,5 миллионов архивных документов XVIII — начала XX века из хранилищ Москвы, Оренбурга и Великого Новгорода. Чаще всего это метрические книги с записями актов гражданского состояния (рождений, браков, смертей), исповедные ведомости со списками прихожан церквей и ревизские сказки с результатами переписей населения.

В основе сервиса используются нейросети, способные расшифровывать архивные записи с дореволюционной орфографией.

Попробовать поиск по архивам: https://yandex.ru/archive

Читать полностью…

Ivan Begtin

Для тех кто находится в развивающихся странах и интересуется открытыми данными Global Data Barometer раздаёт мини гранты до $5000 [1] для проектов в странах Глобального Юга (Global South). Для тех кто не знает - это модель разделения развитых и развивающихся стран по критерию их местонахождения [2]. Термин довольно давний, часто используемый для разделения развитых и развивающихся стран. При том что есть исключения в виде Австралии которая находится в Южном Полушарии, но относится к Глобальному Северу из-за высокого уровня жизни. А также сейчас сложно относить Китай к развивающимся странам.

Тем не менее термин существует, кооперация между этими странами есть, глобальная международная помощь также присутствует, а GDB раздаёт гранты на проекты в этих странах. Из постсоветских стран к Глобальному Югу относятся։ Узбекистан, Таджикистан, Киргизия, Туркменистан. Все остальные включая Россию, Казахстан, Армению, Азербайджан, Беларусь, Украину и балтийские республики к ним отнести уже давно нельзя.

Гранты небольшие, скорее под личные просветительские проекты. Требуют знания английского языка и даются на 3 месяца с февраля по май 2023 г.


Ссылки։
[1] https://globaldatabarometer.org/2023/01/call-for-proposals-supporting-uses-of-gdb-data-to-advance-the-knowledge-on-data-for-public-good/
[2] https://en.wikipedia.org/wiki/Global_North_and_Global_South

#opendata #grants #opengov

Читать полностью…

Ivan Begtin

Минцифры РФ через Гостех разродили документ МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ОРГАНИЗАЦИИ ПРОИЗВОДСТВЕННОГО ПРОЦЕССА РАЗРАБОТКИ ГОСУДАРСТВЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ С УЧЕТОМ ПРИМЕНЕНИЯ ИТЕРАЦИОННОГО ПОДХОДА К РАЗРАБОТКЕ

Он легко гуглится на Tadviser'е и других ресурсах [1].

Я о нём подробно напишу позже, чтобы бить в одну воронку надо долго прицеливаться (с). А пока вопрос с ходу - не превышает ли Минцифры свои полномочия распространяя методические рекомендации на все госконтракты и уровни государственной власти, напоминаю, они могут быть федеральные и субъектов федерации. Муниципальная власть, пока, отдельно.

Ссылки։
[1] https://www.tadviser.ru/images/1/1c/%D0%9C%D0%A0_%D0%98%D1%82%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B8%D0%B7%D0%B2%D0%BE%D0%B4%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81_%D0%93%D0%98%D0%A1.pdf

#government #tech #readings

Читать полностью…

Ivan Begtin

Полезное чтение про данные, технологии и не только։

Why I moved my dbt workloads to GitHub and saved over $65,000 [1] автор пишет о том что заменил облако dbt (продукт dbt cloud) на Github Actions и сэкономил много денег. Правда в комментариях ему пишут что мол автор, это же очевидно. Но про несколько важных выводом можно вспомнить։
1) Github - это теперь в первую очередь система управления разработкой и автоматизации задач и лишь во вторую хранилище кода. Как минимум с точки зрения бизнес модели.
2) Крупные инфраструктурные игроки могут достаточно легко подорвать бизнес open source сервисов вроде dbt, просто предлагая то же сильно дешевле. Кстати, пример с конфликтом лицензий Elastic тоже был из той же природы, когда Amazon давали аналогичный сервис значительно дешевле

The State of Data Testing [2] обзор состояния задач и подходов к тестированию данных. Автор сотрудник компании Datafold и текст в их блоге. Поскольку компания как раз на тестировании данных специализируется, то и акценты на их компетенциях. С другой стороны все перечисленные подходы действительно есть, а их data-diff [3] полезный продукт с открытым кодом для сравнения таблиц. Почему подходы не полны? Это всё та же ситуация с управляемыми и неуправляемыми источниками данных. Задачи корпоративной дата-инженерии чаще всего сводятся к работе с управляемыми источниками или в возможности воздействия на них в случаях ошибок в данных. Работа с общедоступными данными слишком часто означает ненадёжность источника, невозможность повлиять на качество данных привычными методами.

Ссылки:
[1] datajuls/why-i-moved-my-dbt-workloads-to-github-and-saved-over-65-000-759b37486001" rel="nofollow">https://medium.com/@datajuls/why-i-moved-my-dbt-workloads-to-github-and-saved-over-65-000-759b37486001
[2] https://www.datafold.com/blog/the-state-of-data-testing
[3] https://github.com/datafold/data-diff

#data #readings #dataengineering #dataquality

Читать полностью…

Ivan Begtin

В каталог каталогов открытых данных Datacatalogs.ru добавлены новые 9 новых каталогов. Из них 8 - это геопорталы региональных правительств, городов и научных центров, а один - это пропущенный ранее портал открытых данных Амурской области.


- Геопортал Республики Саха-Якутия https://sakhagis.ru/
- Геопортал МГИС г. Череповец МАУ "ЦМИРиТ" https://map.cmirit.ru/portal-gorod/
- Геопортал ИВМ СО РАН http://gis.krasn.ru/
- Геопортал Челябинской области https://gis.inf74.ru
- Геопортал города Выборг https://map.vbglenobl.ru/
- Геопортал города Калининграда https://geoportal.klgd.ru
- Геоинформационный портал города Владивостока https://gorod.vlc.ru
- ГИСОГД Нижегородской области https://gisogdno.ru/
- Открытые данные Амурской области https://opendata.amurobl.ru

Если Вы знаете порталы открытых данных, а также каталоги данных и геопорталы с публикацией слоёв геоданных, добавляйте их в форме на сайте или пишите нам в чате.

#opendata #datacatalogs #datasets

Читать полностью…

Ivan Begtin

В рубрике открытых научных данных в России система ЕСИМО (Единая государственная система информации об обстановке в Мировом океане) [1].

Систему создавали начиная, как минимум, с 1999 года и в неё включены данные собираемые различными подведомственными структурами Росгидромета. Система финансировалась из Федеральной целевой программы Мировой океан. Только на основном портале упомянуто 2305 наборов данных.

Далеко не все данные в этой системе являются открытыми, часто они являются коллекциями ресурсов со ссылками на закрытые порталы входящие в ЕСИМО, но часть данных опубликованы и являются полностью общедоступными.

В мире во многих странах есть похожие информационные системы. Например, Portail des données marines [2] во Франции и многочисленные международные проекты и порталы.

Конкретно ЕСИМО создано на довольно старых технологиях, с одной стороны, а с другой весьма детально проработано с точки зрения управления данными. Включает метаданные, связь типов данных с конкретными наборами данных.

Ссылки:
[1] http://portal.esimo.ru
[2] http://data.ifremer.fr/

#opendata #openaccess #russia

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных, небольшой, но полезный датасет проекта Caniuse [1] посвящённый тому какие веб-технологии поддерживают современные браузеры. Всего 530+ технологий и 19 браузеров из которых 6 настольных и 13 мобильных. Кроме того что информацию можно наглядно посмотреть на сайте или скачать в JSON формате.

Вообще это большая работа и один человек делает то что обычно делают исследовательские лаборатории в крупных компаниях или университетах.

Ссылки։
[1] https://caniuse.com/
[2] https://github.com/Fyrd/caniuse

#opendata #datasets #browsers #web

Читать полностью…

Ivan Begtin

В каталог каталогов открытых данных Datacatalogs.ru добавлен BI портал Росстата http://bi.gks.ru где публикуются ряд показателей с возможностью их получения в машиночитаемом виде. А также планируется к удалению Витрина статистических данных (https://showdata.gks.ru), поскольку данный сайт более недоступен, при том что Росстат не уведомлял и предупреждал закрытии этой информационной системы.

В дальнейшем планируется добавить в каталог больше общедоступных BI систем органов власти в которых присутствует возможность получения данных в машиночитаемых форматах. Если Вы знаете такие порталы/сайты, пишите нам, мы их обязательно добавим в каталог․

#opendata #data #datacatalog #statistics

Читать полностью…

Ivan Begtin

Как продвигать открытость органов власти и международных структур финансируемых за счет общественных средств? Публичными кампаниями. Например, есть такое Международное энергетическое агентство (IEA) которое финансируется взносами стран участников, собирает от них данные, но предоставляет их только за деньги [1].

Активисты запустили сайт Free IEA Data [2] ещё год назад и тогда же был большой текст объясняющий зачем это нужно [3]. Если кратко, то это сейчас единственный источник подробных и выверенных данных по энергопроизводству и энергопотреблению, охватывающий почти весь мир.

Лично я подозреваю что недоступность этих данных как открытых вызвана не только жадностью, но и тем что ряд стран не хотят делать общедоступными их данные и могут перестать передавать их IEA в случае полной открытости.

Но я лично согласен что такие данные должны быть общедоступны и общественные кампании - это одна из форм воздействия на лиц принимающих решения в пользу открытости этих данных.

Ссылки:
[1] https://www.iea.org/data-and-statistics
[2] https://free-iea-data.com/
[3] https://ourworldindata.org/iea-open-data

#opendata #energy

Читать полностью…

Ivan Begtin

Любопытный стандарт публикации продуктов на данных Open Data Product Specification [1] специально для тех компаний и не только компаний которые торгуют данными. Да, да, это не [Open Data] Product specification, а именно [Open] Data Product Specification. Слово Open тут про открытость стандарта, а не про открытые данные.

Что, впрочем, не делает стандарт менее любопытным. Идея любопытная как альтернатива спецификациям общедоступных данных для повышения находимости именно коммерческих данных. Хорошо бы дополнило стандарт Schema.org.


Ссылки։
[1] https://opendataproducts.org

#opendata #data #specifications #

Читать полностью…

Ivan Begtin

Я тут уже какое-то время размышляю над тем чтобы начать и написать лонгрид о том "Что не так с российским ГосТехом?", но эти размышления не проходят важный фильтр "а нахрена?". Потому что, во первых, надо для этого интересоваться госинформатизацией в России больше чем я сейчас интересуюсь, во вторых, оно и так само помрёт, и в третьих, это как в грязи копаться, если уж разбирать эту историю во всех подробностях.

Единственный резон в том чтобы об этом писать тщательно и детально, это сравнивать с проектами в других странах под общей идеей того как делать не надо.

Поэтому я напишу только самое очевидное оставив полноценное исследование/расследование/анализ за рамками и я повторю пару тезисов о которых не раз писал ранее.

1. В госсекторе если система/продукт/инфраструктура не является жизненно необходимой, она гарантированно умирает. (с)

Да, можно придумать безумную хрень и влить в неё 100500 миллиардов бюджетных средств, да многие ГИСы дублируют друг друга, да ведомства российские и не только большие мастера в лоскутной информатизации, но... важно понимать что есть информационные системы которые создавались 10-15 лет, и они никуда не денутся не по той причине что они хорошо сделаны.

Поэтому чтобы там не происходило, портал Госуслуг будет жить долго, или портал госзакупок, или портал госторгов, или Электронный бюджет и ещё много что. Да, эти системы могут переделывать, объединять, и тд., но лишь путём довольно сложных операций. Опытные госинформатизаторы и группы интересантов как внутри компаний поставщиков так и их лоббистов знали и знают что главное - это то чтобы от закрытия финансирования твоей системы пострадали ключевые функции государства или конкретного ведомства. Я таких случаев знаю очень много, не про все лишь могу/имею право рассказывать.

ГосТех в России пытаются протаскивать именно как информационную систему. Не архитектурную доктрину, не огненную команду сверхлюдей, не идеологическую основу, не концепцию, и даже не как фундаментальную цифровую инфрраструктуру, а именно информационную систему. При этом критической она не является, какой бы пиар шум не создавался, нормативкой она полноценно не обвязана, на ней пытаются создавать какие-то новые сервисы/информационные системы ни одна из которых критической не является.

Что это означает? что в любой момент финансирование можно прикрыть, ФКУ ГосТех переименовать во что нибудь другое (оно и ГосТех то стало после переименования), команду всю распустить, а не-нормативку почистить за короткий срок. И ничего не случится (с). А это означает что если госаппарат может без этого прожить, значит при любом последующем секвестре бюджета это всё порежут.

2. Сначала люди потом системы

Все без исключения инициативы по инновациям в госсекторе которые я знаю в мире - это инвестиции в людей. Гостех в Сингапуре - это команда, GDS в Великобритании - это команда, 18F в США - это команда и так далее, таких команд много. Все эти команды набирались по модели сбора топовых разработчиков для разработки открытого кода, дебюрократизации, работы в роли пожарных команд и других альтернатив классическим отношениям в госсекторе։ заказчик-подрядчик. Продукты созданные этими командами имеют ценность, но именно как капитализация ценности этих команд для государства.

Читать полностью…

Ivan Begtin

Разное полезное чтение про данные, технологии и не только։

- ivanreznikov/how-misused-terminology-is-damaging-the-data-field-28881a96c7f">How Misused Terminology is Damaging the Data Field - заголовок слегка провокационный, а по сути там разбор того как связаны и пересекаются термины вроде Business Intelligence, Data engineering, Data science и другие. Ценность в наглядности

- Fivetran free plan - для тех кто не знает, Fivetran - это крупнейший облачный ETL сервис, популярный среди тех кто пользуется крупнейшими облачными хранилищами, не в России в общем, и в обновлении прайс-листа они обнародовали бесплатный тариф с ограничением до 500 тысяч строк. Конкуренция среди продуктов такого типа растёт, так что шаг больше похож на вынужденный

- Whalesync: Announcing Our $1.8M Pre-Seed Round - стартап в виде ETL для контента, упоминают кучу коннекторов и интеграцию с Webflow и Wordpress. Анонсируют раунд в $1.8M что, в целом, немного для этого рынка, с одной стороны, а с другой - это pre-seed раунд.

- A Major App Flaw Exposed the Data of Millions of Indian Students - разработчики государственного индийского приложения для дистанционного обучения, Diksha, держали большие объёмы персональных данных на открытом, незащищённом сервере в облаке Azure. Этот сервер нашли исследователи безопасности, неизвестно сколько успели найти и забрать хакеры.

- 2023 Edelman Trust Barometer Reveals Business is the Only Institution Viewed as Ethical and Competent; Emerges as Ethical Force for Good in a Polarized World - это довольно интересное явление, ежегодный индекс доверия граждан к разным общественным институтам, государству, СМИ, бизнесу и др. В 2023 году резко вырос уровень доверия бизнесу причём связывают это с исходом более чем 1000 зарубежных компаний из России. Там ещё много интересного, например, растущий кризис доверия к государству. В 16 из 28 стран уровень доверия госорганам ниже 51%

- Global Renewables Watch - проект по мониторингу установок на солнечной энергии и ветровых турбин, делается Microsoft, Planet и The Nature Conservancy. Пока в private beta, интересно что будет когда откроется.

#readings

Читать полностью…

Ivan Begtin

В рубрике как это работает у них, шведский портал данных о COVID-19 The Swedish COVID-19 & Pandemic Preparedness Data Portal [1]. Создан командой проекта SciLifeLab [2] который, в свою очередь, создан консорциумом 4-х государственных университетов, как проект по работе с данными о науках о жизни.

На сайте одновременно есть наборы данных, результаты исследований, публикации, научные статьи и информация о идущих исследованиях и их планировании. В итоге это не только геномные данные, но и все остальные данные связанные с пандемией прямо или косвенно.

Ссылки։
[1] https://covid19dataportal.se/
[2] https://www.scilifelab.se/

#opendata #covid19 #datasets

Читать полностью…

Ivan Begtin

В 1 февраля 2023 года должен начаться большой глобальный проект Open Global Data Citation Corpus [1]. Это большой корпус по данным научного цитирования включающий публикации с DOI и без DOI и реализуемый в партнерстве Wellcome Trust, Chan Zuckerberg Initiative и DataCite. А также я так понимаю что туда вовлечены участники из проектов EMBL-EBI, COKI, OpenAIRE, and OpenCitations․ Это может быть весьма большим и интересным набором данных поскольку до сих пор никто такую глобальную базу не собирал. Лично мне правда интересно почему не взяли за основу OpenCitations [2], а может как раз и взяли и просто ещё не рассказали нам об этом до анонса. Главным недостатком OpenCitations как раз и было то что их база охватывала только документы с DOI, которых много, но они не все.

Ссылки։
[1] https://blog.datacite.org/data-citation-corpus-announcement-2023/
[2] https://opencitations.net/

#opendata #datasets #openaccess #openscience

Читать полностью…

Ivan Begtin

The State of European Tech 2022 [1] большой обзор венчурного рынка в Евросоюзе от Atomico. Тем кто интересуется привлечением и раздачей инвестиций там много интересного, тем что следит за отраслями и регулированием тоже. Например, полезно будет узнать что большинство респондентов этого обзора из числа инвесторов негативно оценивают европейские законы о защите данных и приватности, а представители академических структур и наёмные работники позитивно. Это всё к тому что европейские регуляторы явно действуют в интересах электората, а не рынка.

Но в целом там ещё много интересного, особенно про различия в восприятии инвесторов и фаундеров компаний и том как фаундеры и инвесторы меняют стратегии в ситуации сжимания объёма доступных инвестиционных средств.

Ссылки:
[1] https://stateofeuropeantech.com/

#startups

Читать полностью…

Ivan Begtin

У CitizenLab, канадской лаборатории при Университете Торонто специализирующейся на приватности вышло большое исследование-лонгрид You Move, They Follow Uncovering Iran’s Mobile Legal Intercept System [1] на основе документов электронной переписки которые им передал источник связанный с Иранским телеком-регулятором Communications Regulatory Authority of Iran (CRA).

Исследование/расследование длинное, с большим числом ссылок и подробностей, с важным акцентом на их канадского вендора PortaOne и с упоминанием ещё и британского Telinsor и российского Protei (догадаться несложно оригинальное название в кириллице).

Применительно к вендорам одна из ключевых тем исследования что "все врут", а то есть нигде не указывают сотрудничество с Иранскими компаниями, хотя, как утверждается, его осуществляют.

Другая интересная часть там - это про то как в Иране регулятор буквально встраивает своё API в системы операторов и знает о всех учётных действиях пользователя, а некоторые даже согласуются только через него, например, смена мобильного оператора.

Российской системе слежки за абонентами есть куда стремиться, хотя, может мы просто о ней недостаточно знаем.

Ссылки։
[1] https://citizenlab.ca/2023/01/uncovering-irans-mobile-legal-intercept-system/

#privacy #security #iran #surveillance

Читать полностью…

Ivan Begtin

The State of Open Data Policy Repository [1] коллекция регуляторных документов в отношении открытых данных в мире собираемая Open Data Policy Lab. Плюс - мало где такие коллекции есть, я припоминаю разве что коллекции ОЭСР и OGP, минус - пока документов мало, в виде набора данных не публикуют. Совсем нет уровней Sub-national и Local, по-русски - региональные и муниципальные уровни власти. Совсем нет про открытый доступ. Но полезно даже то что там есть, а это 60 документов в общей сложности.

Ссылки։
[1] https://repository.opendatapolicylab.org/

#opendata #policies #regulation

Читать полностью…

Ivan Begtin

В начале 2007 года пропала посылка, отправленная с севера Англии в Национальное контрольно-ревизионное управление (NAO) в Лондоне. В нем находились два диска с личными записями двадцати пяти миллионов человек, включая их адреса, дни рождения и номера национальной страховки, необходимые для работы в Соединенном Королевстве, которые NAO намеревалась использовать для «независимого исследования» база данных детских пособий для проверки на предполагаемое мошенничество. Вместо этого эта информация так и не была восстановлена, последовал национальный скандал, а младший чиновник, отправивший посылку, был уволен...

Познавательная статья Database States от Sanjana Varghese вышла в Baffler [1] и автор пишет о том как Великобритания превратилась в страну баз данных где собирается неимоверное число баз данных. Автор там же ссылается на доклад 2009 года с похожим названием Database State [2] подготовленную группой исследователей из Joseph Rowntree Reform Trust Ltd.

Ключевая тема в статье Sanjana Varghese о том что работа с базами данных все эти годы только нарастала, данных становится больше, они лучшего качества и они не нейтральны, иначе говоря их владельцы могут применять и специальные службы их не только по прямому назначению и этот тренд только нарастает.

Здесь я не могу не оговориться что такая ситуация не только в Великобритании, обзор нарушения приватности с помощью государственных баз данных будет актуален и для России и для многих других не только постсоветских стран.

Ссылки:
[1] https://thebaffler.com/latest/database-states-varghese
[2] https://www.cl.cam.ac.uk/~rja14/Papers/database-state.pdf

#privacy #data #government

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных данные World Values Survey [1] глобального опроса о ценностях проводимого среди жителей десятков стран. Опросы проводятся 5 летними периодами и последняя 7я волна проходила с 2017 по 2022 года. Например, опрос в России проводился в 2017 году, а в Нидерландах в 2022 году. Это делает такой анализ довольно необычным по сравнению с ежегодными исследованиями и рейтингами, а с другой стороны измеряются же фундаментальные ценности, поэтому такие периоды вполне оправданы.

Что не менее интересно и важно, все данные публикуются в машиночитаемых форматах [2] которые включают данные в CSV, SPSS, STATA и пакетами для языка R. Причём за все волны исследований, начиная с 1981 года.

Фактически основной результат исследований - это данные, их хорошо знают социологи работающие с подобными данными во многих странах.

Последнее обновление с актуальными временными рядами были опубликованы в декабре 2022 года и теперь можно визуализировать изменения в ценностях с 1981 по 2022 годы.

Ссылки:
[1] https://www.worldvaluessurvey.org
[2] https://www.worldvaluessurvey.org/WVSContents.jsp

#opendata #datasets #data

Читать полностью…

Ivan Begtin

Я сегодня потратил несколько часов смотря брифинг Чернышенко и Шадаева по поводу цифровой трансформации государства в РФ в 2022 году. И, конечно же, как и всегда важно не то что говорят, а то о чём _не говорят_. Пока слушал я делал пометки, постараюсь изложить их тут в сжатом виде.

1. Практически окончательный переход от открытости государства к цифровому патернализму. Запомните этот термин и вспоминайте его слушая про проекты государства в цифре. Развитые госуслуги - это ровно про повышение качества патернализма, государства взаимодействие с которым происходит по строго проложенным рельсам. Всё что за пределами этого оказывается далеко в не столь прекрасно поданном состоянии.
2. Единственная форма открытости которая сейчас упоминается - это присутствие госорганов с соцсетях, что можно перевести как лоббирование VK гарантированным наполнением контентом их проектов, а пиарщиков контрактами на ведение этих пабликов. Всё это никак не отражает реальную открытость. Присутствие органа власти в соцсети не означает вменяемости того что там будут писать, гарантию ответа и вообще не имеет значимого юридического эффекта.
3. Слыша про упоминание Гостеха надо задавать себе лишь один вопрос а существует ли Гостех? Если бы брифинг был настоящие, а у журналистов была бы возможность/готовность/интерес задавать реальные вопросы то ключевые вопросы очень простые։
- почему Правительство Москвы отказалось от Гостеха?
- почему Правительство Казахстана отказалось от Гостеха?
- почему до сих пор нет стратегии, концепции, архитектуры Гостеха?
Ответы отчасти риторические, хотя было бы любопытно услышать Собянина о том почему Гостех "не взлетел в Москве".
4. При этом реклама/маркетинг которым продвигают Гостеха весьма агрессивны интенсивны. Фактически, Гостех продвигают так словно он в совсем хреновом состоянии. Потому что на хороший продукт столько маркетинга, с привлечением вице-премьера, не нужно. Хороший продукт "продаёт" себя сам. А вот такое административное давление на госорганы федеральные и региональные - это демонстрация давления на сомневающихся, потому что ответственные за ИТ люди в госорганах, помимо того что просто не хотят терять контроля за ИТ системами, но ещё и понимают что потеряют контроль за их разработкой, развитием, гарантией результата и тд.
5. Меры про удержание ИТшников в России я даже не комментирую.

В качестве резюме։ выглядит это всё весьма печально. Я более 10 лет изучаю того как устроены подходы государства к цифровой трансформации и внедрении технологий и чем дальше тем больше убеждаюсь что
наблюдать за происходящим в России довольно бессмысленно. Ну или полезно только для примеров того как делать не надо.

#government #policies

Читать полностью…

Ivan Begtin

Ребята из Digital Rights Center и Privacy Accelerator проводят международную конференцию Privacy Day [1]. Она пройдет 27 января этого года, буквально через неделю в пятницу. Пометьте себе в календаре, конференция интересная, выступления там живые и по делу.

Я также буду там участвовать в секции Приватность во время военных действий и глобальных катастроф. Пока не знаю с презентацией или в дискуссии, но постараюсь рассказать что-то интересное.

И напомню что после очень долгих размышлений и сомнений, мы всё таки проведем день открытых данных в Москве, в сокращённом, формате - в виде онлайн, а не большой оффлайн конференции. Тем не менее там тоже будут интересные доклады, примеры и кейсы работы с данными и инструментами. Подробности будут на сайте Opendataday.ru [2] и в телеграм канале Инфокультуры [3]. День открытых данных по всему миру будет проходить 5 марта.

Ссылки։
[1] https://2023.privacyday.net/
[2] https://opendataday.ru
[3] /channel/infoculture

#privacy #opendata #events

Читать полностью…
Subscribe to a channel