О том что не так с докладом СП РФ по открытости государства. Часть 4. Что реально происходило с открытостью, в примерах
Всё это находилось и находится в ведении, не отдельных ФОИВов, не они принимают решения, решения принимаются на уровне Правительства и Президента. Хотя правильнее сказать не принимаются.
Я приведу несколько примеров. Данные криминальной статистики публиковались до недавнего времени на портале crimestat.ru, при этом у него не было никогда нормативного закрепления и требований по доступности, он был создан исключительно по "доброй воле Генеральной прокуратуры РФ". Но Генеральная прокуратура не ФОИВ, им вообще никто не может приказать кроме законодателя что-то открывать. Составители доклада даже не предполагали, видимо, что какие-то данные могут быть не у исполнительной власти.
Другой пример, данные результатов судебных слушаний. По ним полная монополия у Судебного департамента, который, опять же, никому кроме законодателей в лице ГД, СФ и ПР РФ не подчиняется, эти данные не были и не планируются к открытию. Участники рынка данных прекрасно знают, что как минимум поверх базы данных арбитражных судов существуют коммерческий монополист, которого де-факто почти не обойти, когда нужны данные в этой области.
И таких примеров много, очень много. Но особенно яркая картина за все эти годы складывалась вокруг национального портала открытых данных data.gov.ru. Минэкономразвития РФ, которое отвечало за его ведение, вначале превратило его в помойку из бесконечного числа сверх мелких бессмысленных датасетов по 10–20 строчек вакансий или подведов организаций, а закончилось всё закрытием портала открытых данных.
#opendata #russia
О том что не так с докладом СП РФ по открытости государства. Часть 2. Продолжение предистории
Собственно идея оценки ФОИВов в этом докладе исходила из как раз взгляда на него как медийного продукта. Журналистам было гораздо проще писать про понятные им позиции в рейтинге, чем про смысл доступности тех или иных данных. Лично я до сих пор считаю своей большой ошибкой того времени что я не настаивал на качественном, а не рейтинговом описании происходящего с открытостью, но качественное описание - это не медийный продукт. Это серьёзная аналитическая работа, к которой, на тот момент готовности внутри СП не было. Всё это с оговоркой общей благонамеренностью всех участников с желанием добиться открытость или хотя бы сохранить то что было сделано за предыдущие годы.
Как я писал выше модель с рейтингом была востребована СМИ, на неё живо реагировали ФОИВы и начиная с 2020 и уже к 2021 годам она привела к тому что параллельно привела к тому что команда внутри СП проводила семинары для ФОИВов разъясняя методологогию оценки. Многие органы власти быстро поняли как именно им "прокачать открытость" не реализуя практически никаких шагов в этом направлении кроме эстетических. Многие критерии методологий по всем направлениям были таковы что их было очень просто реализовать, при этом не повышая реальную открытость органа власти. Почему так? Потому что все подобные количественные оценки не основанные на качественном анализе были бессмысленно. Для меня лично было совершенно очевидно что подавляющее число ФОИВов не только относятся к подобным оценкам крайне формально, но и реально не хотят ничего открывать. Почему? Потому что, я напомню, правила / НПА по открытости находятся в ведении ФОИВов и политика текущего состава Правительства и его аппарата была в заметании всей этой темы под ковер. ФОИВы реагировали в инерционной модели, но и даже в рамках неё рейтинг не оказывал никакого влияния на их реальные шаги по открытости для граждан.
О том что реально происходило я опишу в следующей публикации.
#opendata #russia
Счетная Палата представила рейтинг открытости российских органов власти. «Если быть точным» участвовал в разработке дизайна исследования, но мы не согласны с выводами – вот почему
Сегодня Счетная палата опубликовала ежегодный рейтинг открытости государственных органов исполнительной власти. В разработке методологии рейтинга этого года участвовала команда «Если быть точным».
Важно: мы не занимались оценкой открытости данных и не имеем отношения к итоговым баллам, которые получили ведомства. Мы давали внешний комментарий по методологии, который не был учтен в основном докладе, а самой оценкой занимались другие эксперты.
Более того, мы считаем, что открытость данных в России радикально ухудшилась, о чем регулярно пишем. Всего с начала 2022 года, по нашим оценкам, данные засекретили как минимум 20 органов власти.
В чем состоял наш вклад в рейтинг
В конце 2021 года мы начали готовить для СП аналитическую записку, в которой описали один из недостатков текущей методологии исследования – формальный критерий открытости. Он заключается в том, что оценивается в первую очередь само наличие в открытом доступе наборов данных, но не их качество и востребованность.
Яркий пример такого подхода — Минздрав. На его сайте выложены перечни лекарств, списки медицинских учреждений, актуальные на 2014–2017 год. При этом министерство не дает доступа к важной информации по заболеваемости и охвату лечением разных групп болезней.
Расширенная методология предполагает более глубокую оценку того, насколько востребованы и актуальны опубликованные наборы данных, но не решает многих других проблем, связанных с открытостью государства. К тому же основной доклад СП построен по старой методике. Альтернативные результаты представлены в конце как приложение.
Мы считаем важной экспертную дискуссию про методологии оценки открытости, но не можем согласиться с выводами из рейтинга СП. Подробнее про это можно почитать в нашем материале, а здесь – полный текст доклада.
Честно говоря у меня в сегодняшних планах не было ничего связанного со Счетной палатой, но сегодня публично вышел их доклад по открытости гос-ва. Я ещё несколько месяцев назад думал что у оставшихся там коллег хватит ума и совести такой доклад не выпускать, но думал зря. Ссылку специально не даю, его несложно найти, впрочем и интерес к нему уже исключительно искусствоведческий по предмету "Искусство манипуляции".
Говоря коротко - всё плохо, особенно плохо что там засветились ребята из Если быть точным которых я ещё недавно хвалил. Зря хвалил похоже, очень зря(
Большую часть того что происходит на самом деле Вы и так читали в моём телеграм канале все эти годы. А самое главное, идущее вне категорий, что открытость невозможна без тех кто открытостью пользуется - журналистов и НКО, в первую очередь. В ситуации массовых репрессий против них и отсутствие их упоминаний весь доклад, как бы помягче, ну в общем вы меня поняли.
Я сегодня позже разберу подробнее что там не так.
#opendata #russia #opengov
Сразу две интересных новости про данные от Яндекса.
Первое - это открытие кода Datalens [1] и это вот просто таки прекрасно, очень-очень интересно попробовать уже в open source исполнении и хочется чтобы такой проект активно развивался. Больше BI инструментов хороших и разных. Инфа и документация продукта на отдельном сайте [2]
Вторая новость в публикации Geo Reviews Dataset 2023 [3] где собраны 500 000 уникальных отзывов на организации по России с января по июль 2023 года. Очень интересно и под MIT лицензией. Для исследовательских целей подходит очень хорошо.
Ссылки:
[1] https://github.com/datalens-tech/datalens
[2] https://datalens.tech
[3] https://github.com/yandex/geo-reviews-dataset-2023
#opendata #opensource #yandex
Свежая статья [1] о Data Commons [2] от исследователей в Google с обзором текущего состояния проекта и потенциала его развития. Вообще этот проект называется Google’s Public Data Commons (GPDC) и он является открытой корпоративной альтернативой Wikidata и идее Linked Data. Главная цель проекта в том чтобы облегчить интеграцию открытых / общедоступных данных в единый граф знаний. При этом акцент у проекта явным образом на США и статистике в США, это именно те данные которых там более всего, но по другим территориям данные тоже есть, хотя их и меньше.
Собственно статья хотя и научная, но обзорная, о том как этот проект устроен внутри и такие идеи как подключение к нему языковых моделей для структурированных ответов на вопросы на естественном языке.
Ссылки:
[1] https://docs.datacommons.org/papers/dc_overview.pdf
[2] https://www.datacommons.org
#opendata #datasets #statistics
Я редко пишу здесь о чем то кроме гос-ва, технологий и данных, но это важная тема которую невозможно проигнорировать любому кто связан с Арменией.
Читать полностью…В качестве регулярного напоминания, хотя портал data.gov.ru недоступен и нет признаков что даже если его перезапустят там будут те же данные что были и ранее и хотя есть большие сомнения что ранее опубликованные там данные были актуальны и полезны, но мы сделали полную архивную копию. Это ZIP файл на 14 GB в который сохранено всё что можно было сохранить, на 2 февраля 2022 года. Соответственно после распаковки размер будет несколько больше. Сразу скажу что основной объём там создают несколько больших наборов данных вроде слепка базы ФИАС (не самого актуального, кстати), а всё остальное представлено в виде бесконечного числа мелких CSV файлов из регионов и муниципалитетов.
Прямую ссылку не даю чтобы совсем не забить трафик на сервер, но если кому-либо понадобится этот архив - пишите в личку в телеграм, пришлю ссылку. Есть желание, также, загрузить эти данные в Интернет-архив, но всё это время просто не доходили руки.
#opendata #archive #russia #datasets
Алексей Радченко в своём канале разбирает условия использования данных в транспортном комплексе Москвы, рекомендую почитать, это полезный пример того что даже на самом старте юридического, а ещё даже не технического анализа сбора данных, всплывает много косяков. В данном случае ключевые проблемы в том что условия использования... отсутствуют. В России с этим большая проблема, при запуске многочисленных государственных и полугосударственных систем про условия использования часто забывают. Не только в области транспорта, а просто повсеместно. И ведь исправить это несложно, но видимо мало жалоб. А с другой стороны, куда жаловаться, в Роскомнадзор?
#privacy #russia #transport
Поскольку в России, вот уже в который раз, запускают госинициативу по работе с данными, на сей раз нац. проект "Экономика данных", то я сделаю краткий экскурс текущего состояния открытых данных:
1. С момента ликвидации Открытого пр-ва в 2018 году полномочия по открытости данных остались у Минэкономразвития как министерства и аппарата Пр-ва как вышестоящей структуры. В аппарате правительства эти полномочия были у вице-премьера Григоренко, который за 5 лет ничего не предпринял в этом направлении, также как и Минэкономразвития ничего не делало, ни в регуляторике, ни в практическом применении.
2. Ключевое не сделанное - это, фактически, полностью заброшенный план по открытости данных в органах власти. Его тихо замели под ковер, по нему ничего не делали, а потом он просто перестал быть актуальным и его не обновляли.
3. Из активно сделанного в минус - это то что национальный портал data.gov.ru сначала "превратился в руины" в свалку данных, а потом просто был закрыт Минэкономразвития. Сейчас декларируется его перенос на платформу Гостех, но, как бы и Гостех это не плюс, а ещё более жирный минус. Учитывая что публичной работы над ТТ и ТЗ на портал не велось, то ожидания от потенциального нового портала не лучше чем от предыдущего.
4. Минэкономразвития России, которое отвечает формально за открытые данные, потеряло последние компетенции по работе с данными внутри себя. Их портал data.economy.gov.ru год от года уменьшался по объёму публикуемого, а также многие собственные наборы данных министерства публиковались на data.gov.ru который, внимание, они же и снесли. Это не говоря уже о том что в ведении министерства было и есть более десятка государственных информационных систем.
5. В отдельных российских ведомствах и регионах всё ещё публикуются новые и обновляются существующие наборы данных. В основном в тех где всё ещё понимают необходимость коммуникации с профессиональным сообществом, бизнесом и гражданами. В большинстве же данные не обновляются, порталы (региональные) с открытыми данными закрываются.
6. Есть отдельные положительные примеры, порталы с данными университетов, учреждений, порталы API субъектов федерации, но они лишь редко выбиваются из общей безрадостной картины.
7. Отдельная тема что работа с государством сейчас стала сверхтоксична. Многие эксперты более не взаимодействуют с любыми органами власти или нигде не афишируют это поскольку, и качество госуправления, скажем так, невысокое, и с тем что берегут свою репутацию
8. Думаю что причины сверхтоксичности государства вполне очевидны - это не только полностью провальная внешняя политика с военным конфликтом на Украине, "сливом" Арцаха, заигрыванием с наиболее одиозными диктаторами и талибаном, это ещё и нарастающая репрессивная внутренняя политика и ужесточающаяся пропаганда делающая жизнь в России всё менее комфортной. Многие из тех кто остаются делают это не благодаря, а вопреки действиям государства. А многие из тех кто уезжают, делают это не от недостатка патриотизма, а от глубокого разочарования в будущем. Впрочем это относится ко всем областям требующим осмысленных дейстий.
9. Ещё одна особенность происходящего и следствие плохого госуправления - это неспособность регуляторов услышать большую часть стейкхолдеров и то что почти всё регулирование сводится к ограниченной собственными интересами группе крупных лоббистов. У них дела, тоже, не то чтобы хорошо идут. Технологические компании в большинстве до сих пор не понимают что в России модели "мягкого лоббизма" давным давно померли и работают только модели "жёсткого лоббизма" коррупции через внедрения собственных акторов на руководящие посты.
(часть 1/2)
#opendata #russia #regulation
Немного рефлексии после выступления на Smart Data 2023:
1. Многие говорят что надо делать поисковик по данным общедоступным даже при его текущем несовершенном виде, а там всего 3.3 миллиона датасетов в демо версии, неоптимизированный фронт, косяки с отображением описаний датасетов в HTML и тд. в общем-то всё сравнительно легко исправляется, но на всё нужно время:) Я пока затягиваю публичный анонс, но, наверное, можно будет его сделать раньше.
Пока демо версию я впервые публично показывал на Smart Data и её видело максимум пару десятков человек.
2. К выступлению в реестре каталогов данных Common Data Index уже почти 10 тысяч каталогов данных. Всё больше и больше геодкаталогов, геосерверов, геоданных. С оговоркой что количество каталогов данных - это не число самих наборов данных и не их объём.
3. По моим ощущениям аудитории моё выступление зашло, некоторые вопросы были о том можно ли оптимизировать большой пласт ручной работы. Как бы я сам хотел бы это оптимизировать! Например, как было бы круто уметь определять название организации и её тип (госструктура, университет, нко) по сайту её каталога данных и как было бы круто определять автоматически город/регион/страну для каталогов данных у которых невозможно сразу определить их по gtld.
4, Важный вопрос о том что некоторые ссылки в поисковой системе ведут в пустоту потому что каталоги меняются и отваливаются и что с этим делать. Самое правильное решение - архивировать, иметь локальную копию, предоставлять её по запросу.
Мой доклад слегка выбивался из общего списка корпоративных дата-инженерных выступлений, кстати, весьма интересных, но слушателей было немало и у меня:)
А в качестве завершения могу сказать что Smart Data, однозначно, одна из наиболее полезных конференций по данным идущих в России, ради неё стоит приезжать в Москву послушать и пообщаться вживую. Собственно и не секрет что многие дата-инженеры, программисты и аналитики приезжают на такие конференции не из России, давно уже перебравшись в близлежащие страны.
#opendata #events #thoughts
Открытые данные в России о которых многие не знают,
- Открытые данные ГУАП [1] ГУАП - это Санкт-Петербургский государственный университет аэрокосмического приборостроения, а на сайте у них есть раздел с API с информацией о ВУЗе. Есть внятное API, для полной открытости нехватает условий использования.
- Открытые API для сервисов Санкт-Петербурга [2] категорически малоизвестный портал Санкт-Петербурга с их официальными API к городским информационным системам. Развивают они его, почему-то, параллельно порталу открытых данных, а не совместно. Как и во многих других случаях, "забывают" написать про условия использования, но сами данные есть.
- Геопортал СВКНИИ ДВО РАН [3] и другие их ГИС сервисы [4] с картами и слоями карт по Дальнему востоку. Включает доступ к данным через открытое API сервера ArcGIS
Ссылки:
[1] https://api.guap.ru/data/
[2] https://api.petersburg.ru
[3] http://hags.north-east.ru:8080/geoportal/catalog/main/home.page
[4] http://www2.neisri.ru/index.php/ru/%D0%B3%D0%B8%D1%81-%D1%81%D0%B5%D1%80%D0%B2%D0%B8%D1%81%D1%8B.html
#opendata #datasets #api #russia #geodata
More Armenian open data available. We added list of all branches of Armenian post (Haypost) [1] in Armenian, English and Russian. Data collected from Haypost public but undocumented API.
Also we added lists of Armenia related keywords [2] in Russian and, in future, in English to collect Armenia-related data from Russian data sources like Goskatalog and National Electronic Library. These lists are still in development and include mostly geographic names related to Armenia and family names related to Armenians.
We keep working to collect more interesting datasets for our upcoming open data contest that we will announce soon!
LInks:
[1] https://data.opendata.am/dataset/armenian-post-branches
[2] https://github.com/opendataam/armenian-keywords
#opendata #armenia #datasets
Команда Mozilla опубликовала очередное интересное исследование по приватности, на сей раз приватности при использовании автомобилей 25 брендов и о том как вендоры собирают информацию [1] из которого можно узнать что:
- все без исключения вендоры собирают персональные данные
- 84% вендоров закладывают право передавать или продавать эти данные
- 92% вендоров не дают контроля над своими персональными данными
- 56% вендоров закладывают право передавать данные по запросу госорганов, вне зависимости официальные ли это запросы или "неформальные"
- ни один из вендоров не соответствует минимальным стандартам безопасности которые Mozilla продвигала ранее.
- Nissan, кроме всего прочего, собирает данные о сексуальной активности, не шутка.
В исследовании есть развернутая информация по каждому вендору, а анализ проходил путем изучения их условий использования, политик приватности и иных связанных с техническим оснащением документов. Иначе говоря исследователи проводили бумажный анализ, а не полевой с выявлением куда и как передаются данные, но и юридический бумажный анализ рисует вот такую неприглядную картину.
Ссылки:
[1] https://foundation.mozilla.org/en/privacynotincluded/articles/its-official-cars-are-the-worst-product-category-we-have-ever-reviewed-for-privacy/
#privacy #data #mozilla #research
Свежий список компаний [1] попадающих под регулирование Евросоюза Digital Markets Act включает:
Alphabet
Amazon
Apple
ByteDance
Meta
Microsoft
А также список их продуктов. Список интересен тем что охватывает не все продукты компаний, а лишь те что значимы. Например, поиск Google там есть, а поиска Bing там нет. Также интересно что компании Маска и Twitter'а там тоже нет.
Правда этот список на 6 сентября и явно будет расти постепенно.
Учитывая что многие смотрят на регуляторов в ЕС как на пример для подражания я бы не удивился появлению схожего регулирования в Китае, не идентичного, а именно схожего по смыслу регулирования крупнейших цифровых игроков. И, с какой-то вероятностью, в России, со схожей риторикой, но достаточно жёсткими обременениями произвольного применения.
Ссылки:
[1] https://ec.europa.eu/commission/presscorner/detail/en/qanda_20_2349
#regulation #eu #datamarket #digital
О том что не так с докладом СП РФ по открытости государства. Часть 3. Что реально происходило с открытостью
Открытость государства, конечно, охватывает довольно много областей. Взаимодействие с гражданами, свобода доступа к информации и открытые данные. При этом открытость данных уже давно является приоритетной темой для большинства развитых стран и рассматривается скорее отдельно от открытости коммуникации поскольку имеет не только социальные, но и экономические эффекты. Открытость данных государств замеряется многими способами, были Open Data Index и Open Data Barometer, а также и по сей день существуют методики оценки Global Data Barometer и OURData. Это специализированные рейтинги, посвящённые открытости данных, подробные и хорошо документированные.
Среди них ключевым я бы выделил оценку от Global Data Barometer как наиболее продуманную и детальную, а OURData — это был индекс ОЭСР и охватывал только развитые страны и кандидатов в ОЭСР.
Ключевое во всех международных рейтингах в том, что они оценивают не органы власти, не конкретное министерство, службу или какое-то там учреждение, они оценивают принципиальную доступность данных в конкретной области. Например, данных о качестве работы школ или данных о национальном бюджете или данных о государственных закупках/контрактах и так далее. Доступность этих данных — это решения не органов власти, а Правительства как политической структуры, иначе говоря, это исключительно политические решения. Кстати, в разговорах с чиновниками министерств эта также вскрывается. В тех случаях, когда внутри органа власти нет жёсткого сопротивления всё равно всё упирается в то есть ли политическое решение на открытость или нет.
Позиции России в рейтинге Global Data Barometer в 2021были не такими уж плохими примерно, как у Португалии, но это всё было результатом решений принятых ещё в 2005-2018 годах, после этого периода, более 5 лет тренд шёл на закрытость данных.
Это выражалось во многом. В том что были закрыты данные о субсидиях федеральной власти, в том что были скрыты сведения об учредителях вначале НКО, а далее всех юр лиц, в том были скрыты сведения о получателях контрактов по закупкам по 223-ФЗ (госкомпании и естественные монополии), в том что скрываются значительные пласты данных по статистике, в том что что более не публикуются данные криминальной статистики и так далее.
#opendata #russia
О том что не так с докладом СП РФ по открытости государства. Часть 1. Предистория
Как обещал пишу про смысл/отсутствие смыслов в докладе Счетной палаты по открытости. Чтобы не расписывать простыню текста постараюсь сжато и разделю на несколько постов.
Итак, что не так с докладом СП и вообще откуда он появился, для чего был нужен изначально и во что превратился в итоге.
Изначально, когда доклад по открытости Счетной палаты затевался в 2019 году в РФ была ситуация когда Открытое Правительство было закрыто ещё в 2018 году и формально полномочия по регулированию/развитию открытых данных были нечётким образом разделены между Аппаратом Правительства РФ и Минэкономразвития РФ. Почему нечётко? Потому что никаких НПА по поводу этого разделения принято не было, совет по открытым данным при правительственной комиссии закрыли, а экспертный совет при Пр-ве также закрыли и сейчас, кстати, его тоже нет, то что пришло ему на смену называется несколько иначе, но об этом отдельно.
В этом "вакууме открытости" в Счетную палату приходит Алексей Кудрин и в документе стратегии развития Счетной палаты вписываются задачи обеспечения и мониторинга открытости со стороны СП. С вполне логичной амбицией контролю за открытостью ФОИВов раз Правительство де-факто отказалось от этой функции. В рамках этой позиции по открытости создавался, например, такой портал как Госрасходы (spending.gov.ru) совсем недавно закрытый руководством СП. В рамках этого раскрывался код связанный с частью проектов СП, в рамках этого же создавался первый доклад Счетной палаты и в рамках этого я участвовал в подготовке первых 2-х докладов и прекратил участвовать в начиная с 3-го поскольку лично мне стало очевидность тупика в создании подобных докладов.
В чём особенность этого доклада? С самого начала он создавался как медийный, а не как аналитический продукт. Его условными KPI были массовость публикаций в СМИ, особенно в деловой прессе, реакция органов власти. Конечно, с некоторой надеждой на последующий конструктивный диалог со стороны правительственных структур, но без большой надежды. Отход от открытости у органов власти в РФ начался задолго до военного конфликта февраля 2022 года и был результатом окончательного политического сдвига в патерналистическую модель коммуникации с обществом и параллельными репрессиями в отношении наиболее активных потребителей открытости государства - это журналисты расследователи и некоммерческие организации в первую очередь.
#opendata #russia
Ребята из Если быть точным своё участие прокомментировали, что ж, это хорошо, ко крайней мере я могу извиниться за часть грубых слов в их адрес. Хотя я и по прежнему считаю что никакой методикой оценки ФОИВ ситуацию не исправить и в 2021 году это было также бесполезно. Как обещал, свой разбор этого доклада я также напишу. Придётся, правда, писать не о том что там есть, а о том чего там нет.
Читать полностью…Рубрика "Циничная открытость"
Счетная палата выпустила юбилейный, 5-ый по счету доклад "Открытость государства в России".
Если вам казалось, что год от года открытость государства в России снижается, то вам казалось.
Потому что год от года открытость государства остается на высоком уровне, хотя <цитата из пресс-релиза СП> по некоторым направлениям наметилась тенденция к снижению.
Я циник, и я не участвовал в подготовке доклада СП, поэтому у меня искаженная точка зрения на открытость государства:
1. С 2020 года Минфин и Казначейство закрыли реестр соглашений о субсидиях федерального бюджета. То, что "открыли" через год с лишним, иначе как издёвкой не назвать.
2. С весны 2022 года Казначейство перестало публиковать отчеты о кассовом исполнении федерального бюджета. Чтобы - сами понимаете...
3. Паспорта национальных и федеральных проектов не публикуются с 2020 года.
4. Из постановлений Правительства РФ об утверждении госпрограмм с 2022 года исчезли паспорта с финансовыми данными.
5. С осени 2022 года Минцифры закрыло (сделало вид, что поломался) раздел открытых данных на портале ФГИС КИ, где можно было увидеть хоть и кривой, но хоть какой-то перечень федеральных ГИС.
6. С начала 2023 года Минэк закрыл Портал открытых данных "на реконструкцию и перевод на платформу Гостех". Впрочем, пользы от этой инфопомойки и в пору ее открытости было ноль.
7. Из всей движухи вокруг Гостеха открытым является только пиар. Все содержательные решения по Гостеху принимаются президиумом Правкомиссии по цифровому развитию в закрытом режиме.
8. Рейтинги "цифровых спецназовцев" (замруководителей ведомств по цифровой трансформации) федерального и регионального уровней ни разу не публиковались в полном виде - только в виде пиар-цитат. Не говоря уже о методике рейтингования.
9. Не менее четверти (с тенденцией к постоянному повышению) расходов на госИТ федерального уровня идет в форме субсидий из федерального бюджета, сведения о которых (см. пункт 1) не публикуются уже почти 3 года.
10. Летом 2023 года закрылся проект Счетной палаты "Госрасходы", агрегировавший и публиковавший открытые данные о расходах федерального бюджета (госконтракты, субсидии, госпрограммы, нацпроекты, исполнение бюджета) из официальных источников. Видимо, за ненадобностью. Ведь открытость государства и так на высоком уровне.
А в остальном, прекрасная маркиза, всё хорошо, всё хорошо...
Хороший ли механизм историй в Телеграм или наоборот неудобный? Лично я пока ещё не решил. В любом случая я обещаю им не злоупотреблять, классические публикации в канале мне нравятся больше. Однако если у Вас премиум аккаунт и истории здесь Вы читать готовы, то жмите на ссылку /channel/begtin?boost
#blogging #telegram
Друзья, мы ещё напишем о планах на ближайшее будущее, которое в последние дни сократилось до минут, а пока делимся акцией товарищей, которым мы доверяем.
Читать полностью…Любопытное про стартапы на данных:
- Collibbra приобрели стартап по созданию SQL тетрадок Huspray [1] учитывая что основной бизнес Collibra это корпоративные каталоги данных, причём изначально с сильным акцентом на выявление персональных данных, то эта покупка про сдвиг приоритетов на дата аналитиков.
- Treefera подняли pre-seed $2.2 миллиона инвестиций на дата-платформу по мониторингу лесного покрова [2], внутри обещают ИИ и создание data продуктов
- DataBricks получили ещё $500 миллионов инвестиций в рамках Series I [3], пишут что это скорее всего раунд перед IPO и на IPO оценка может достигнуть $43 миллиардов.
- Gable получил $7 миллионов на seed стадии [4] - Gable это стартап по повышению качества данных через применение data contracts. Тут так и хочется спросить "а что так можно было?!", стартап явно под экосистему работы с данными в Modern data stack и под последующую покупку одним из крупных платформенных игроков.
Ссылки:
[1] https://www.collibra.com/us/en/company/newsroom/press-releases/collibra-acquires-sql-data-notebook-vendor-husprey
[2] https://www.treefera.com/blog/treefera-pre-seed-funding-round
[3] https://techcrunch.com/2023/09/14/databricks-raises-500m-more-boosting-valuation-to-43b-despite-late-stage-gloom/
[4] https://www.linkedin.com/feed/update/urn:li:activity:7107413267072917504/
#startups #data #dataquality
Меня тут зацепил пост Ивана Бегтина про то, какие данные собирают производители автомобилей (советую читать статью, а не пост, она более взвешенная). Общий смысл, что данных собирается очень много, включая данные про про все перемещения и даже сексуальную жизнь. И хотя сначала я был разочарован что вся аналитика там строиться лишь по пользовательским соглашениям, мне стало любопытно что в пользовательских соглашениях в России, причем именно в сфере общественного транспорта. Вот что получилось:
1. Московский транспорт - ссылка на лицензионное соглашение ведет на https://api.mosgorpass.ru/license_agreement - у меня не открылось. Посмотреть не смог.
2. Помощник Москвы - тоже не открылось. Ведет на https://pakpm.mos.ru/api/help/privacy_policy.
3. Метро Москвы - Ссылка ведет на https://www.mosmetro.ru/app/oferta/new_oferta.pdf. Сайт выдает ошибку 404.
4. Моя Тройка - приложение Сбера по управлению картой тройка. Пишет что данных не собирается совсем - но описания снова нет - ошибка 404.
5. Приложение ЦППК (официальное?) - тут документ есть, но датирован аж 2018 годом и ведется от лица неизвестной компании Айтифорс, сайт которой уже не работает. Из еще более странного - это соглашение об обработке пользовательских данных, которое лежит в самом приложении - это явно внутренний документ описывающий взаимоотношения работодателя и его сотрудников, но никак не пользователей приложения.
6. Транспорт Подмосковья - соглашение с ООО ДатаПакс есть, но довольно формальное. Передача третьим лицам есть.
7. Яндекс Такси - самое подробное и детальное соглашение, нормально описывающее что именно будет собрано, с уточнением юрисдикций.
8. Социальное такси - тоже от московского дептранса. Тут соглашение есть, но максимально формальное и обезличенное. Документ в гуглдоке не имеет даже имени компании или адреса от лица кого это соглашение.
9. Транспорт Перми - приложения о персданных нет, ссылка на сайт разработчика.
10. Парковки Краснодара - ссылка битая - документа нет. Как впрочем и у 99% других приложений из регионов.
Вывод по общественному транспорту в итоге еще страшнее, чем с автомобилями. В случае тех, приложений, что вам предлагаю государственные органы власти и аффилированные компании вы даже не сможете узнать что и как делают с вашими персональными данными. Чем дальше от государства тем лучше и честнее представлена информация и тем прозрачнее политика работы с персональными данными.
10. Из массовых потребностей о которых никто почти публично не говорит - это полная закрытость и торговля государства геоданными. В большинстве развитых стран сейчас наоборот геоданные максимально общедоступны. Государства не монетизируют их, а раздают в удобных форматах потому что от их доступности есть прямой и очевидный экономический эффект для всех. Может ли государство Российское сделать общедоступными Фонды пространственных данных? Могло бы, если бы было способно.
11. Аналогичная ситуация с сотнями крупнейших государственных информационных систем по которым нет внятной госполитики кроме "никому ничего не давать, а то как бы чего не случилось чего мы даже не знаем".
12. Впрочем, в текущих реалиях см пункт 8. Попытки пр-ва собирать госпроекты развития в ситуации де-факто военной экономики выглядят заведомо провально.
(часть 2/2)
#opendata #russia #regulation
После моего выступления на SmartData чуть ли не большая часть вопросов, во всяком случае существенная, была про семантические типы данных. Я много писал про них ранее. Для тех кто не читал или подзабыл, семантические типы данных - это когда полям таблицы или дата-файла добавляется идентификатор характеризующий содержание этой колонки/полня с данными.
Например, не просто колонка со строкой, а колонка с полными ФИО человека, или колонка с названием страны, или города, или кодом организации и так далее. Это нужно для многих задач, самая распространённая из которых - выявление персональных данных в базах данных.
И напомню про инструмент metacrafter [1] который ещё 2 года назад я выкладывал в открытый код и в котором реализована идентификация семантических типов.
Инструмент работает через набор правил описываемых в YAML файлах и ссылающихся на реестр семантических типов [2].
Правила отличаются от очень простых, до довольно сложных. Простые сводятся к соответствие 1 к 1, сложные к комплексным регулярным выражениям и описанию правил скриптами или кодом для pyparsing [3].
pyparsing - это, кстати, реальная находка для таких задач поскольку конечные автоматы описанные этой библиотекой работают гораздо быстрее регулярных выражений в Python и выглядит более читабельно через регулярные выражения, хотя и длиннее.
Пример: Word(nums, exact=3) + Literal('-').suppress() + Word(nums, exact=1) + Literal('-').suppress() + Word(nums, exact=2) + Literal('-').suppress() + Word(nums, exact=6) + Literal('-').suppress() + Word(nums, exact=1)
Этот код для идентификации кодов для ISBN13, а сами правила можно посмотреть в репозитории [4].
Инструмент работает как библиотека для Python и как утилита командной строки. Поддерживает файлы в форматах CSV, JSON, NDJSON, Parquet, XML, и базы SQL и MongoDB.
Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://registry.apicrafter.io
[3] https://github.com/pyparsing/pyparsing/
[4] https://github.com/apicrafter/metacrafter/tree/main/rules
#opensource #datatools #metacrafter
Для тех кто будет сегодня в Москве или в онлайне на конференции Smart Data 2023 напоминаю что я буду там выступать в 11:30 с докладом Common Data Index. Как построить поисковую систему по открытым данным такую же, как Google Dataset Search, но проще и быстрее [1]
Тема будет довольно необычной, систем поиска общедоступных данных в мире не так много, я буду рассказывать как про предметные, так и про технические сложности в её построении. Через какое-то время будет доступна и презентация, но, конечно, я в выступлении рассказываю значительно больше того что остаётся в слайдах.
Ссылки:
[1] https://smartdataconf.ru/talks/6d6d864c6f5840a491d1f7921e7b79c7/
#opendata #events #datasearch
В рубрике как это работает у них Национальная платформа общественных геопространственных сервисов Китая [1] включает:
- онлайн карты на сайте
- API для данных и геокодирования
- API по стандартам OGC: WMTS и другие
- API для встраивания в сайты
- каталог слоёв карт и данных
- подпорталы и каталоги геоданных для каждой из провинций Китая
Портал поддерживается National Geomatics Center of China находящемся в подчинении у Министерства природных ресурсов КНР.
Непонятно на каком движке сайт работает, скорее этой какой-то самописный/самостоятельный продукт.
В Китае довольно мало открытых стандартизированных API для геоданных, но есть общедоступный ArcGIS сервер компании Geoq [2] который упоминают китайские геоаналитики в своих обзорах.
Ссылки:
[1] https://www.tianditu.gov.cn
[2] https://map.geoq.cn/arcgis/rest/services
#opendata #geodata #china #datasets
Свежий европейский доклад Mapping the landscape of data intermediaries [1] о таких посредниках в работе с данными как: системы управления персональной информацией (PIMS), информационные кооперативы, трасты данных, профсоюзы данных, рынки данных и пулы обмена данными.
Много примеров из европейской практики, включая разбор бизнес моделей каждого из 6 типов посредников.
Например, малоизвестные мне ранее, профсоюзы данных (data unions) объединяющие людей предоставляющих свои данные, их примеры: TheDataUnion [2] и Unbankx [3].
А также многое другое. Полезно всем кто хочет знать как изнутри устроены _некоторые_, не все, рынки данных.
Ссылки:
[1] https://publications.jrc.ec.europa.eu/repository/handle/JRC133988
[2] https://thedataunion.eu
[3] https://www.unbanx.me
#data #research #readings #eu
В качестве вот уже регулярного вынужденного отвлечения на российское регулирование, меня недавно несколько изданий расспрашивали про то на что повлияет инициатива НПА от Минцифры про запрет и блокировки публикаций о том как обходить блокировки. Это, несомненно, такая же вредная инициатива как и многочисленные законы и законопроекты расширяющие государственную цензуру, но одновременно оно же и весьма бессмысленное, на текущей стадии.
Во первых о том как обходить блокировки могут быть совершенно невинные тексты просто о том как устроены VPN и какие продукты существуют. Нет-нет, не призывая их использовать, просто рассказать о них.
Во вторых пишут о VPN сервисах достаточно часто на русском языке те кто в российской юрисдикции никогда не находился или не находится уже давно.
И, наконец, в третьих пока не заблокировали Google, нет шансов что этот запрет будет хоть как-то эффективен.
Я же хочу обратить внимание и ещё раз сделать ключевой акцент, на том что самое неприятное это гораздо менее активно обсуждаемое насаждение госприложений и приложений компаний находящихся под прямым или опосредованным государственным контролем. В частности это касается магазина приложений RuStore.
Почему это опасно? Потому что главный, ключевой и наиболее серьёзный барьер к тотальной слежке - это отсутствие контроля за конечными устройствами. Это то что есть у глобальных корпораций и то чего нет у большинства государств. Обязательные госприложения, с системными правами, например, для просмотра установленного ПО или доступа к сетевой активности, могут в любой момент быть использованы против пользователя, а на постоянной основе создавать дополнительный контур слежки. Я сознательно не хочу описывать сценарии как это можно делать, но исключать такие сценарии нельзя.
Это как с российским корневым сервером для выдачи сертификатов для доступа к сайтам. Очень и очень плохая затея для конечных пользователей.
#privacy #security #regulation
Хорошо иметь исторические данные за несколько столетий и пример их практического использования французский проект "История политического конфликта" (Une histoire du conflit politique) [1] в котором собраны данные показателей жизни и голосования во Франции начиная с 1789 года в виде индикаторов по всей стране, карт, отдельным муниципалитетам и политическим предпочтениям.
Все данные и их визуализации доступны для выгрузки в форматах CSV и DTA (Stata) [2]
Ссылки:
[1] https://unehistoireduconflitpolitique.fr
[2] https://unehistoireduconflitpolitique.fr/telecharger.html
#opendata #datasets #digitalhumanities #france #dataviz