По поводу ЦБ РФ и "закрытой комнаты" со статистикой [1], когда данные передаются исследователям внутри физически закрытой инфраструктуры - это совсем не новая идея.
Подобное достаточно давно есть во многих странах. Например, в Великобритании довольно давно существует служба UK Data Service [2] обеспечивающая доступ учёных к инфраструктуре данных имеющих "особую чувствительность", вплоть до персональных данных в некоторых случаях.
У службы есть три режима распространения данных [3]:
- открытые данные: свободные лицензии CC-BY или OGL и свободное скачивание
- защищённые данные: можно скачать после регистрации и соглашения со специальной лицензией
- контролируемые данные через SecureLab: Доступ к слишком подробным, деликатным или конфиденциальным данным осуществляется через SecureLab. После регистрации опытные исследователи могут подать заявку на доступ к контролируемым данным.
SecureLab - это специальное ПО и режим доступа к данным только с контролируемых рабочих мест, с полной записью процесса доступа к данным. Сессия пользователя записывается и сохраняется, на случай нарушения пользователем соглашения о доступе к данным. Данные нельзя скачивать, только сохранить результаты своего исследования.
В основном такой режим доступа распространяется на детальные данные переписей, опросов и детальных показателей по бизнесу. В UK многие индикаторы индивидуальные для компаний, в отличие, к примеру, от России, являются коммерческой тайной и доступны только при соблюдении определённых условий.
В чём важные характеристики UK Data Service:
1. Есть общий открытый общедоступный каталог данных где перечислены все наборы данных: открытые, закрытые, охраняемые [5]. Это означает что нет ситуации когда Вы не можете запросить данные просто поскольку не знаете о их существовании.
2. Даже закрытые данные доступные через SecureLab тщательно документированы и документация общедоступна [6]
3. К каждому набору данных приложены не только данные (для открытых данных или доступных после регистрации), но и результаты исследований на их основе [7]
Кроме Великобритании такая практика есть во многих странах, я бы даже сказал что почти во всех развитых странах, где-то это организованно системно, где-то на соглашениях исследовательских центров и статистических служб, центральных банков и тд.
—
Подобная практика является хорошей и допустимой при соблюдении баланса открытости и приватности, публикации документации, общедоступного каталога и при том что в закрытой части оказываются только, действительно, чувствительные данные.
Иначе говоря, если ЦБ РФ даст исследователям доступ к данным которые ранее не раскрывались и затрагивают коммерческую тайну или иные ограничения - это скорее хорошая практика, эти данные и не могли бы быть открытыми.
А если ЦБ РФ перенесёт в "закрытую комнату" ту статистику что они публикуют сейчас и она исчезнет из открытого доступа или резко сократится в объёме и детализации, то это будет исключительно плохим шагом для рынка, общества и так далее.
Поскольку подробностей пока нет, я лично не знаю какой сценарий тут предполагается.
Ссылки:
[1] https://www.vedomosti.ru/finance/articles/2023/10/24/1002303-tsb-sozdat-komnatu-s-zakritoi-statistikoi
[2] https://ukdataservice.ac.uk
[3] https://ukdataservice.ac.uk/find-data/access-conditions/
[4] https://ukdataservice.ac.uk/cd137-enduserlicence/
[5] https://beta.ukdataservice.ac.uk/datacatalogue/studies/?Search=#!?Search=&Rows=10&Sort=0&DateFrom=440&DateTo=2023&AccessFacet=Controlled&Page=1
[6] https://beta.ukdataservice.ac.uk/datacatalogue/studies/study?id=6697#!/documentation
[7] https://beta.ukdataservice.ac.uk/datacatalogue/studies/study?id=6697#!/resources
#opendata #banking #cbrf #data #datasets #datacatalogs
В рубрике интересных наборов данных United Nations Parallel Corpus [1] с одной стороны многим известный, а с другой, на удивление, далеко не всем.
Этот набор данных включает связанные тексты на разных языках позволяя развивать технологии перевода, как минимум, между популярными языками которые использует ООН.
В общей сложности это 799 276 документов и 1 727 539 пар связанных документов.
Доступно под свободной лицензией, но не стандартной, а с требованием упоминания ООН и исследования в рамках которого этот набор данных был создан.
Ссылки:
[1] https://conferences.unite.un.org/uncorpus
#opendata #un #datasets #languages #translation
Сегодня я выступал на EDPC [1] с темой Прозрачность политик приватности как необходимая часть политик компаний про то как ведущие компании ведут свои политики приватности и этики в открытом доступе. Частично выступление есть в моей презентации [2], а через какое-то время будут доступны и записи выступлений на сайте мероприятия.
У многих выступающих звучала явно или опосредовано мысль про ухудшение регулирования данных в России, кто-то говорил о том что "Россия и раньше не была нормальной юрисдикцией, а что уж говорить и сейчас", а я лично не устаю повторять что "акулы почуяли кровь" (с), регуляторы почувствовали безнаказанность и готовы жертвовать экономикой ради цензуры.
И тут, как будто неслучайно, появилась новость на РБК о поручении Президента РФ по переносу игр в доменную зону .ru/.рф [3]. А почему раньше глобальные игроки этого не делали? Может быть из-за изуверских российских законов в этой области? Может быть из-за свежих законов, постановлений Пр-ва и приказов служб и министерств усиливающих право госструктур на то чтобы залезать в любые данные любых компаний? Игровая индустрия в этом смысле глобальна, юрисдикции выбираются по критериям возможности приёма платежей (штат Делавэр в США или Сингапур), по адекватности регулирования работы с данными и по техническим возможностям (отклику при передаче данных), а также по цене инфраструктуры.
Но я скажу ещё и о другом. Российское регулирование в последние годы особенно сильно скатилось к модели "президент поручил" или "вот мы такое придумали". Теперь в его основе почти никогда нет заранее проведённого анализа, исследования, подкреплённых фактами обоснований, доводов за или против и тд. Есть лоббисты обладающие административным ресурсом протаскивающие любую ересь под соусом безумности контекста и есть госолигархия и госаппарат протаскивающие усиление государственного контроля.
Здесь хотелось бы добавить какой-то не слишком пессимистичный вывод, но оптимизма мало.
Ссылки:
[1] https://edpc.network
[2] https://www.beautiful.ai/player/-Nh7XHE3Ae2sXhVDyRZz
[3] https://www.rbc.ru/technology_and_media/19/10/2023/6531212f9a794737466a98ab
#privacy #personaldata #regulation
Полезное чтение про данные, технологии и не только:
- Generative AI Prohibited Use Policy [1] политика Google по продуктам Generative AI. Документ от марта 2023 года, хорош своей лаконичностью, многим нормотворцам на заметку. Саморегулирование в области ИИ должно быть, в том числе, таким.
- TileDB closes a $34M Series B round [2] про стартап TileDB облачной и с открытым кодом СУБД который привлёк раунд B инвестиций на $34M. Из особенностей продукта это ориентация на данные в виде массивов и адаптированность под данные для машинного обучения и геоданные
- Where is data diplomacy happening? A reading list [3] о том где и как происходит "дипломатия данных" в мире. Неплохой список, со ссылками на практические инициативы, книги и научные статьи.
- From Data to Decision Intelligence: The Potential of Decision Accelerator Labs [4] новый-старый термин Decision Intelligence в статье Stefaan G. Verhulst о недостаточности решений основанных на данных и необходимости их интеграции с существующими процессами, практиками, жизненным опытом и так далее. Термин давно встречается в контексте продуктов для business intelligence [5]
- Ranking Nations [6] книга за авторством Stephen Morse о том как читать и понимать рейтинги стран основанные на статистических показателях. Книга свежая, я лично её ещё не читал, но скорее всего запланирую на ближайшие месяцы. Судя по описанию она весьма полезна для развития критического мышления в приложении к глобальным оценкам.
Ссылки:
[1] https://policies.google.com/terms/generative-ai/use-policy
[2] https://tiledb.com/blog/tiledb-closes-series-b-to-advance-the-vision-of-the-modern-database
[3] https://medium.com/odi-research/where-is-data-diplomacy-happening-a-reading-list-45ce5eddf016
[4] https://medium.com/data-stewards-network/from-data-to-decision-intelligence-the-potential-of-decision-accelerator-labs-33f4060734a8
[5] https://en.wikipedia.org/wiki/Decision_intelligence
[6] https://www.e-elgar.com/shop/usd/ranking-nations-9781800886308.html
#readings #ai #data #policies #statistics
В Rest of world статья о стереотипах о странах заложенных в генеративные ИИ [1]. Например, Indian person обычно старый мужчина с бородой, Mexican person обычно мужчина в сомбреро, а American person чаще женщина и чаще блондинка на фоне флага.
В целом статья о том как генеративный ИИ сужает мир до стереотипов и в этом мало хорошего, впрочем эта проблема на поверхности и точно будет решаться в новых моделях, инструментах, практике их применения.
Ссылки:
[1] https://restofworld.org/2023/ai-image-stereotypes/
#ai #generativeai #sterotypes #readings
Полезные ссылки про данные, технологии и ИИ
Проекты
- Polymatic AI [1] свежеанонсированный проект про разработку ИИ моделей для кросс-дисциплинарных исследований в науке. Потенциально интересный продукт может получится, команда состоит из специалистов по ML и предметных экспертов
Инструменты
- Malloy 4.0 [2] свежая версия языка/инструмента Malloy для сложных запросов к базам данных, один из потенциальных заменителей SQL для тех кто не любит SQL. В новой версии много несовместимого с предыдущей, постепенно растёт в очень интересный продукт
- Python 3.12 [3] главные изменения в чуть большей скорости работы, в остальном пока ничего не видно критичного ради чего на него стоит переходить
Чтение
- These Prisoners Are Training AI [4] о том как заключённые в Финляндии помогают тренировать модели для ИИ. В самом деле, а где ещё найти много недорогой рабочей силы для тренировки моделей на национальных языках?
- AI Engineer Foundation [5] новый фонд посвящённый ИИ инженерам. Обещают акцент на Open Source, из анонсированных проектов Agents Protocol, A unified interface standard for the world to communicate with Agents that conform to the protocol. Предлагают также помогать маркетингом проектам для ИИ с открытым кодом.
- Ben Bites [6] отличная рассылка посвящённая свежим ИИ продуктам и сервисам, часть ссылок я подсмотрел там
Ссылки:
[1] https://polymathic-ai.org/
[2] https://malloydata.github.io/blog/2023-10-03-malloy-four/
[3] https://docs.python.org/3/whatsnew/3.12.html
[4] https://www.wired.com/story/prisoners-training-ai-finland/
[5] https://www.aie.foundation/
[6] https://bensbites.beehiiv.com/subscribe?ref=ZCof81aeyC
#data #datatools #opensource #ai #readings
У технической команды Dropbox интересная публикация про идентификацию дат из названий файлов [1] и автозаполнение полей форм при их загрузке.
Хорошая практическая задача, а тут ещё и описание подхода и инструментов. Правда почти всё описываемое про англоязычные даты, но, возможно, другие языки просто не описаны.
Причём подход описывается как замена распознаванию дат по правилам. Правда ML подход работает медленнее, о чём они пишут.
А я когда-то делал инструмент для идентификации дат в тексте. Это библиотека qddate (quick-and-dirty date) [2]. Я написал её около 10 лет назад, а 6 лет назад её обновил и выложил в открытый доступ. С тех пор почти не обновлял. Что я могу сказать, так то что распознавание по правилам недооценено и может быть гораздо эффективнее и быстрее. Правда, в qddate я решал задачу производительности и внутри много "грязных хаков" ускоряющих распознавание дат, но, в общем, это из тех задач для которых я считаю ML избыточным.
Хотя и на результат которого достигли эти ребята хотелось бы посмотреть подробнее.
Ссылки:
[1] https://dropbox.tech/machine-learning/using-ml-to-identify-date-formats-in-file-names
[2] https://github.com/ivbeg/qddate
#datatools #data #ml
В Великобритании правительственная цифровая служба анонсировала [1] сервис создания форм для госагенств GOV.UK Forms [2].
Идея проста, сделать универсальный генератор форм которые могли бы создавать специалисты без технических знаний. Аналог TypeForm, Google Forms и других коммерческих продуктов, но с учётом требований и особенностей госорганов.
Продукт чрезвычайно похож на Сингапурский государственный проект FormSG [3] который ещё и существует с открытым кодом и построенном на тех же принципах, конструктора форм, кроме всего прочего поддерживающего аутентификацию через государственных и частных провайдеров аутентификации в Сингапуре.
Что характерно, FormSG - это открытый код, можно скачать его себе и использовать даже не будучи государственным агентством.
Интересный вопрос в том почему только в Сингапуре и Великобритании есть такие проекты?
Ссылки:
[1] https://gds.blog.gov.uk/2023/10/03/how-were-opening-up-access-to-gov-uk-forms/
[2] https://www.forms.service.gov.uk
[3] https://form.gov.sg
#opensource #govtech #government #singapore #uk
В связи с новостями о том что Роснано может стать банкротом в ближайшее время [1] напомним что ещё в 2021 году на новостях со сменой руководства госкорпорации мы делали полный архив известных на тот момент сайтов организации. Архив доступен в форматах warc по ссылке [2].
Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com
Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.
Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
#digitalpreservation #rosnano #webarchive #ruarxive
В рубрике интересных наборов данных проект Census Tree [1] как результат работы группы исследователей по сопоставлению данных переписей США с 1870 по 1940 годы и созданию наборов данных связей между людьми. Причём искали их создавая специальный алгоритм сопоставления и используя генеалогические базы данных. Уникально и то что в США существуют открытые микроданные переписей начиная с 1790 года [2] и то что исследователи могут с этим работать.
Результаты представлены в виде коллекции наборов данных [3] сопоставлений связей между двумя переписями. Наборы данных включают файлы от нескольких мегабайт до нескольких гигабайт, но для выгрузки нужна регистрация на OpenICPSR [4].
Данные доступны в формате CSV под лицензией CC-BY 4.0
Ссылки:
[1] https://www.censustree.org
[2] https://usa.ipums.org/usa/full_count.shtml
[3] https://www.censustree.org/data
[4] https://www.openicpsr.org
#opendata #usa #census #sociology #datasets
Для тех кто работает с открытыми данными регулярно не могу не напомнить что у Open Knowledge Foundation есть проект Frictionless Data и, в частности, frictionless-py [1], программная библиотека и утилита командной строки для анализа данных и подготовки пакетов данных для публикации. Это инструмент совершенно далёкий для большинства тех кто занимается корпоративной дата-инженерией, но уже немного известный тем кто готовит научные данные для публикации. Инструмент сильно развился за последний год, там теперь поддерживается много разных форматов, наконец-то поддерживаются форматы вроде Parquet и JSONl/NDJSON. Если бы он был на несколько лет раньше, я бы многие свои инструменты делал на его основе. Как бы то ни было это существенная часть экосистемы вокруг ПО порталов для публикации открытых данных CKAN.
Сейчас его же авторы сделали GUI обёртку под названием Open Data Editor [2], продукт позволяющий готовить данные вручную и отправлять на публикацию в CKAN, Zenodo или Github.
Пока ещё это не финальный продукт и ошибки встречаются, но вот это хороший прогресс в экосистеме публикации открытых данных в мире.
Ссылки:
[1] https://framework.frictionlessdata.io
[2] https://opendataeditor.okfn.org
#opensource #opendata #ckan #datatools
Свежее исследование Consumer Surveillance and Financial Fraud [1] о том как новые требования к приложениям по ограничению слежки за пользователями повлияли кибербезопасность и частоту жалоб пользователей, опубликованное National Bureau of Economic Research в США.
Тем кому лень читать всё исследование расскажу коротко. Apple ввели App Tracking Transparency (ATT) в 2021 году как обязательное требование для всех кто создает приложения для iOS, iPadOS и tvOS [2]. Эти требования сильно ограничили бизнес компаний которые отслеживали поведение пользователей внутри приложений и внешними трекерами.
В исследовании выяснилось что если 10% пользователей блокируют сбор данных, то снижение жалоб на взломы и нарушение приватности снижается на 3.21%. Много ли это или мало? Это очень много.
Ссылки:
[1] https://www.nber.org/papers/w31692
[2] https://support.apple.com/en-us/HT212025
#privacy #apple #mobileapps
Наглядная визуализация датасетов Google и Microsoft с распознанными зданиями [1], а также открытый код библиотеки Leafmap[2] с помощью которой идет визуализация. Автор утверждает что для отображения всего набора данных в 165 ГБ потребовалось всего несколько строчек кода [3]
Ссылки:
[1] https://apps.opengeos.org/buildings.html
[2] https://github.com/opengeos/leafmap
[3] https://twitter.com/giswqs/status/1706800470290051548
#opendata #dataviz #geodata
В Forbes, который не российский, а глобальный большая статья про открытые данные [1] от Linux Foundation, с незамысловатыми акцентами на том что open source, open hardware и open data - это всё разные стороны одного глобального движения за открытость. С явным акцентом на языковые модели, открытые стандарты и международные организации активные в этой области. При этом важно помнить что Linux Foundation всегда были про открытый код, в том числе для управления корпоративными данными, но про открытые данные они почти не были.
Честно говоря, даже интересно, является ли эта статья прологом к тому что в этой области появится ещё один институциональный игрок или это просто, можно сказать, обзор в контексте популярной темы открытых языковых моделей. Я вот не знаю, но интересно.
Впрочем кое что уже есть, например, Overture Maps Foundation [2] это порождение от Linux Foundation, также как и Agstack [3] проект по открытой цифровой инфраструктуре для сельского хозяйства - это тоже Linux Foundation.
В свою очередь сам фонд - это порождение коллективных активностей Big Tech, которые где-то конкурируют, а где совместно создают весьма любопытные продукты. Скажем так - это наиболее социально значимая/социально ответственная область их деятельности.
Ссылки:
[1] https://www.forbes.com/sites/adrianbridgwater/2023/09/20/linux-foundation-why-open-data-matters/
[2] https://overturemaps.org
[3] https://agstack.org
#opendata #readings
До свидания, «Госрасходы»
Пришло время сообщить, что с 1 августа 2023 года мы больше не занимаемся проектом СП РФ «Госрасходы».
Это был, наверно, единственный крупный проект по открытости, запущенный после упразднения Открытого Правительства (с 2018 года). Пользуясь случаем, не могу не поблагодарить А.Л. Кудрина (@AlekseiKudrin) и Ивана Бегтина (@begtin) за то, что этот проект существовал и активно развивался больше 4 лет. Еще и на домене, на который мы засматривались года с 2013 (spending.gov.ru).
За это время было немало сделано (но хотелось, конечно, больше):
- мы почти достигли 1 млн уникальных посетителей;
- посещаемость сайта проекта практически в два раза превышала посещаемость сайта СП РФ;
- мы запустили раздел «Нацпроекты», методика отбора контрактов для которого была точнее, чем у Казначейства России;
- проект был единственным государственным источником, содержавшим архив реестра субсидий из федерального бюджета (реестр был удален с Портала Электронного бюджета);
- мы агрегировали данные по Госпрограммам, предоставляя их в более детализированном виде, чем на портале госпрограмм;
- мы разработали профили организаций, вовлеченных в операции с бюджетными средствами, объединив данные из ЕГРЮЛ, субсидий и контрактов;
- мы смогли придумать формат представления данных о федеральном бюджете, позволяющий не только отслеживать построчное исполнение бюджета, но и наглядно расшифровывать для пользователей все используемые классификаторы;
- мы формировали собственные справочники бюджетной классификации, вычищая дубликаты, черновые записи и добавляя недостающие записи в те файлы, которые официально публиковались Минфином России и Федеральным казначейством;
- отдельного внимания заслуживает интерактивный рейтинг регионального протекционизма и наборы индикаторов по разработанным аналитиками проекта методикам;
- также мы занимались и «невидимой» пользователям работой, взаимодействуя с инспекциями СП РФ, предоставляя им данные и разрабатывая методики для проверки гипотез и проведения контрольных мероприятий.
Большое спасибо коллегам из СП РФ, которые участвовали в работе над проектом и использовали его данные в реальных задачах, и, конечно, спасибо команде проекта, без которой не было бы этих результатов ♥️.
Надеюсь, это не последний крупный государственный проект по открытости, а мы в свою очередь продолжаем работу над «Госзатратами» (clearspending.ru) и готовим кое-что новое.
Совершенно незаслуженно упущенный мной и ранее не упомянутый вызов/challenge по созданию 30 дневных карт, 30DayMapChallenge [1]. Он организован специально для самых упоротых упорных дизайнеров, проходит 30 дней с 1 по 30 ноября в течение которых необходимо каждый день публиковать карту на заданную тему: точки, линии, полигоны и так далее. Каждый день надо публиковать результат в социальных медиа с хэштегом #30DayMapChallenge
Весь проект - это частная инициатива Topi Tjukanov который проводит эти конкурсы с 2019 года. Можно посмотреть, например, на работы 2022 года [2].
Никаких призов нет, только фан и репутации в сообществе. Это крутой челлендж, с оценкой результатов по "лайкам" и "ретвитам". Потому что это вызов (challenge), а не конкурс
Правил там немного, главное из которых я бы выделил Don’t be an asshole. Для тех кто хочет самому(-ой) себе бросить вызов - это будет прекрасная возможность, попробовать свои навыки, а потом ещё и рассказать об этом по завершению.
Ссылки:
[1] https://30daymapchallenge.com
[2] https://30daymapchallenge.com/2022/
#gis #contests #challenges #geodata #opendata
Прекрасная история преподавателя на Python у которого навсегда забанили аккаунт для рекламы его курсов на Facebook [1] предположив что курсы про Python и Pandas - это курсы про работу с живыми питонами и пандами. Причём сделали это даже после ревью его аккаунта который однозначно показывал что его владелец учит программированию за деньги, а не дрессирует диких животных.
Что интересно так это то что из текста можно узнать о том что Facebook придерживается политики удаления данных в течении 180 дней и поэтому когда через год он через знакомых в Facebook'е попросил узнать за что же его забанили и как разбанить, оказалось что этих сведений уже нет. Пожизненная блокировка есть, а обоснований её уже нет.
Эта история одна из многих побуждающих к дискуссии о том что глобальные монополии с их правилами могут быть даже хуже чем взаимодействие с госорганами, у них может напрочь отсутствовать механизм аппеляции, например.
Ссылки:
[1] https://lerner.co.il/2023/10/19/im-banned-for-life-from-advertising-on-meta-because-i-teach-python/
#python #stories #facebook
В рубрике интересных проектов на данных Open Syllabus [1] проект по сбору базы данных и визуализации информации о литературе для чтения рекомендуемой на курсах в университетах и колледжах. Огромный охват курсов по США, Великобритании и другим англосаксонским странам, в меньшей степени по странам Европы, а также довольно много по Японии, Тайваню и ряду других стран. Сразу скажу что из постсоветских стран там нет России, Туркменистана, Азербайджана, Таджикистана, остальные есть, но, как я понимаю, только в англоязычной их части и привязанные к англоязычным курсам.
В то же время проект очень наглядный, хорошо демонстрирующий влияние писателей и произведений на образование. Из российских писателей времен империи ожидаемо акцент на Достоевском.
Все источники открытые, явно немало ручной работы. Сам проект имеет открытый контур в виде базы, рейтингов, визуализаций и тд.
А монетизация идёт через сервис аналитики для методистов [2].
Ссылки:
[1] https://www.opensyllabus.org
[2] https://analytics.opensyllabus.org
#opendata #readings #texts #syllabus
На фоне всё усиливающегося государственного регулирования в области персональных данных в России я не могу не вспомнить как 5 лет назад в 2018 году я проводил исследование "легализованных утечек персональных данных". Это когда персональные данные не хакеры крадут, а когда государственные органы по причине непонимания последствий хренового регулирования и несоблюдения базовых требований разработки информационных систем делают эти данные доступными. Я писал об этом у себя в блоге [1] и были публикации в РБК и не только в 2919 году. А ещё до этого в 2018 году я эти материалы отправлял в Роскомнадзор, одному, не буду называть кому, зам. министру цифрового развития и тд.
Полный текст того исследования я никогда не публиковал и даже убрал его публичную версию, без инструкций по воспроизведению, из открытого доступа, но вот что я вам скажу. Мало что изменилось с тех пор. Исчезли некоторые самые одиозные случаи, вроде того как УЦ Миноброны светил внутренние контакты/email'ы, а также некоторые особо вопиющие случаи раскрытия паспортных данных.
Но, исправили далеко не все!🤦♂️Особенно в части утечек связки ФИО + СНИЛС + email. Это не так подгорает по сравнению с хакерскими утечками, но не так уже мало количественно.
По многим причинам я далее не публиковал обновления того исследования, в первую очередь поскольку не было никакого желания чтобы закрывали некоторые важные публичные источники данных, а также с тем что нет желания давать хакерам наводки.
Но... увы, не могу не констатировать что российское государство довольно плохой регулятор персональных данных. Фактически, сапожник без сапог.
Ссылки:
[1] https://beta.begtin.tech/pdleaks-p3-govsys/
[2] https://www.rbc.ru/politics/15/05/2019/5cdac8469a79479a27bd4eca
#privacy #reports #readings #personaldata #regulation
Свежие картинки по LLMops Market Map от CB Insights [1]. Все эти картинки, симпатичные, но они лишь визуально иллюстрируют рынок AI/LLM/Generative AI и инвестиции в него.
Лично мне среди AI продуктов интереснее всего развитие поисковиков по данным и продукты по автоматизации (ИИзации) аналитики по данным. Уже есть несколько стартапов обещающих автоматизацию построения дашбордов на основе клиентских данных.
Ссылки:
[1] https://www.cbinsights.com/research/large-language-model-operations-llmops-market-map/
#ai #analytics #llmops
19-20 октября, EDPC, полезное мероприятие по приватности в Москве. К участникам можно добавить и спикеров из Армении, меня можно равным образом относить к Армении и я там выступаю.
Я лично мероприятие рекомендую, там много интересных спикеров
—
🎓Eurasian Data Protection Congress - первое мероприятие по приватности, которое организовано сообществами и ассоциациями со всего мира. В нем примут участие 25 спикеров из России, Беларуси, Казахстана и Сербии. Это эксперты, компании, государственные и общественные организации, занимающиеся вопросами защиты персональных данных.
🕒Дата и время мероприятия: 19 октября 2023 года, 10:00
Формат: онлайн.
Стоимость для слушателей: бесплатно.
Язык: русский и английский.
Программа и трансляция EDPC - здесь🔗 и здесь🔗
🔗Добавить в календарь
🎓Оффлайн нетворкинг Евразийского конгресса по защите данных
📌Где: Офис Сити
🕒Дата и время мероприятия: 20 октября, сбор в 16:30
В программе крутейший нетворкинг и неформальное общение, информационный обмен, знакомство со спикерами и друг с другом, а также Обсуждение «ПРИВсущностей» и прошедшей конференции
"🔊РЕГИСТРАЦИЯ НА НЕТВОРКИНГ
(Нужно для оформления пропуска)
Всем отличной пятницы, помните, что самая лучшая пятница этой осени - уже через неделю😎
#events #privacy #russia
Для тех кто заботится о приватности по умолчанию, Consent-O-Matic [1] расширение для браузера Chrome автоматически закрывающее окна [1] с выбором объёма кук на которые Вы согласны.
Разработано командной из Aarhus University в Дании, поддерживает около 680 видов всплывающих окошек с запросом выбора режима сохранения кук.
На сайте есть, также, версия для Firefox и Safari и полностью открытый код [2]
Ссылки:
[1] https://chrome.google.com/webstore/detail/consent-o-matic/mdjildafknihdffpkfmmpnpoiajfjnjd
[2] https://consentomatic.au.dk/
#opensource #privacy #cookies
Свежая новость о том что Правительство РФ планирует выделить 250 миллионов рублей на раскрытие данных для бизнеса [1] в рамках разработки моделей ИИ. По нынешнему курсу это что-то около 2.5 миллионов долларов США. Много это или мало?
Примеры, навскидку:
- в 2014 году Правительство Великобритании создало два фонда Breakthrough Fund и Release of Data Fund на который ежегодно [2], общий их бюджет составлял 9.5 миллионов фунтов в год, он распределялся грантами по региональным и муниципальным властям чтобы те открывали свои данные.
- в Испании на языковые данные и технологии было выделено 330 миллионов евро на 2020-2026 годы и до этого 90 миллионов евро за 2016-2020 годы [3]
И таких примеров много, особенно, конечно, характерна модель "создания" наборов данных в России. В мире государства инвестируют в ИИ через грантовые программы ВУЗам и научным центрам и предоставление им и на их основе инфраструктуры для их открытой публикации. Те же испанцы публиковали языковые модели на Kaggle и Huggingface.
Судя по тому что я пока видел из активностей Минцифры РФ в этой области, я бы не ждал чего-то выдающегося. Тем более что, похоже, там сами до сих пор не знают что именно будет публиковаться, насколько открыто и так далее.
Ссылки:
[1] /channel/government_rus/9165
[2] https://www.gov.uk/government/publications/breakthrough-fund-and-release-of-data-fund
[3] https://plantl.mineco.gob.es/Paginas/index.aspx
#opendata #datasets #ai #russia
В рубрике интересных продуктов на данных SemOpenAlex [1] граф знаний на 26 миллиардов RDF triples с базой из более чем 249 миллионов научных работ от 135 миллионов авторов и из 226 тысяч источников.
Проект включает открытое API и возможность скачать дамп целиком [2].
Данные и API доступны под лицензией CC0 и имеют множество возможных применений во всём что касается картирования науки и научной деятельности.
Ссылки:
[1] https://semopenalex.org
[2] https://semopenalex.org/resource/?uri=http%3A%2F%2Fdatasets.metaphacts.com%2Fsemopenalex
#opendata #datasets #researchdata #science #semanticdata
Можно сказать новый/старый жанр в технических инструментах, сделай как лидер рынка, но с открытым кодом и приватностью. Bruno - это клиент с открытым кодом для тестирования и работы с API [1], фактическая замена продукта Postman хорошо известного инструмента в среде создателей API.
Особенность Bruno в том что в нём нет никакой необходимости в облачном аккаунте, нет синхронизации в облаке и есть явный акцент на приватности. Дословно это звучит так
Bruno is offline-only. There are no plans to add cloud-sync to Bruno, ever. We value your data privacy and believe it should stay on your device. Read our long-term vision here.
Авторы подробно рассказывают о своём видении подобных инструментов [2], сравнивают их и описывают свой как единственный полностью оффлайновый.
А тем кто хочет синхронизовать свои спецификации API с другими, они дают возможность делать это через git, на Github или другом сервисе.
Лично я на этот инструмент обратил внимание по двум причинам.
Первая, конечно, в том что инструменты моделирования API будут актуальны ещё долго.
И вторая в том что сама модель оффлайн инструментов с синхронизацией через Git представляется хорошей идеей. Не монетизируемой, но востребованной.
Ссылки:
[1] https://www.usebruno.com
[2] https://github.com/usebruno/bruno/discussions/269
#opensource #api
Международная активность по открытым данным иногда для меня удивительна.
Например, есть свежая инициатива и разговоры про стандартизацию публикации открытых данных о выборах от OKF. Было несколько таких проектов, на самом деле много проектов, например Open Election Data [1] профинансированный USAID и, похоже, не институционализированный. А у OASIS стандарт Election Markup Language (EML) [2], а также множество национальных и других стандартов и форматов.
Как бы ни было удобно иметь данные о выборах в машиночитаемой форме, сдаётся мне что не это главное в конкретном данном случае. К примеру, "открытость данных" блокчейна с электронными голосами в России доверие государству нисколько не повысили. А вот ситуация когда власти могут использовать международные стандарты для "симуляции открытости" без соблюдения других условий прозрачности выборов и наблюдения за ними, вполне возможно.
В каких-то странах сложившейся или переходной демократии они могут быть важны, но уже в рамках общей открытости того что называют political integrity.
Что думаете? Актуальны ли стандарты публикации данных о выборах?
Ссылки:
[1] https://openelectiondata.net
[2] https://www.oasis-open.org/standard/eml/
[3] https://datastandards.directory/Elections
#opendata #openstandards
В который раз напишу что комментировать все законодательные инициативы российских нормотворцев дело крайне вредное для желудка и настроения. Не пропущу только вот эту инициативу по доступу силовиков к базам персональных данных коммерческих операторов и возможности эти данные менять. О ней написали в российском Forbes [1], а также можно прочитать (продраться до смысла) в первоисточнике на сайте ГД [2].
У этого законопроекта много разных плохих последствий, начиная с глубокой государственной руки в задницах российских интернет компаний вмешательства государства в бизнес деятельность и есть ещё одна немаленькая хрень немаловажная проблема. Компании в российской юрисдикции оперируют данными пользователей других стран наравне с россиянами. Это жители Казахстана, Грузии, Армении, Узбекистана, Кыргызстана, Узбекистана и др., да и в каких-то ещё странах. Что сделают регуляторы этих стран после принятия такого закона в России? Правильно, потребуют от всех компаний в на которые регулирование распространяется подтвердить что данные их жителей в единой базе компаний не содержаться и российским силовикам недоступны.
Хотите перечислим компании у которых будет пиздец сёрьёзные проблемы с регуляторами? Многие, очень многие. Сотовые операторы как минимум, но не только.
И это, заметим, что я привожу только понятные нормотворцам проблемы. Не вдаваясь в этические и проблемы нарушения прав человека, вмешательства силовиков в частную жизнь и, наоборот, сокрытие информации о разного рода нехороших людях особых категориях граждан определённых указом ПП РФ.
Ссылки:
[1] https://www.forbes.ru/tekhnologii/497493-biznes-vystupil-protiv-beskontrol-nyh-pravok-silovikov-v-bazah-personal-nyh-dannyh
[2] https://sozd.duma.gov.ru/bill/416441-8
#privacy #regulation #russia
В рубрике интересных наборов данных CloudDrift, a platform for accelerating research with Lagrangian climate data [1] - это программная библиотека для доступа к данным собираемым с 25 тысяч дрейфующих буев в рамках программы Global Drifter Program (GDP) [2] реализуемой Национальным управлением океанических и атмосферных исследований США. Сами данные размещены на серверах Amazon и доступны в их сервисе S3 [3].
Особенность Clouddrift в том к конкретным датасетам публикуется ещё и полноценная библиотека для доступа к ним и анализа с учётом специфики данных и контекста. Авторы не первые и не единственные кто так делает, для Python есть какое-то количество программных библиотек реализованных на том же принципе, когда данные доступны не только как файлы и API, но и сразу в виде DataFrame для Pandas или как XArray в данном случае.
Что характерно, этот проект один из десятков проектов данных и инструментов о Земле финансируемый Национальным научным фондом США в рамках сообщества и программы EarthCube [4]
Ссылки:
[1] https://cloud-drift.github.io/clouddrift/
[2] https://www.aoml.noaa.gov/phod/gdp/
[3] https://registry.opendata.aws/noaa-oar-hourly-gdp/
[4] https://www.earthcube.org/funded-projects
#opendata #opensource #science #usa #earthsciences #geodata
Свежий портал открытых данных, на сей раз в Баварии open.bydata.de [1]
Более 1100 наборов данных, несколько видов API для доступа; через SPARQL, API для CKAN и своё API для доступа к внутренней базе.
Что характерно для всех европейских порталов с данными почти половина наборов данных - это геоданные. Они включают: слои к геокартам в формате WMS, файлы GeoJSON, файлы Esri Shape (SHP) и API серверов ArcGIS.
Помимо геоданных большая часть других датасетов посвящена городской инфраструктуре и её использованию в городах Баварии. У портала явный акцент на вовлечение в использовании городских/территориальных данных.
Ссылки:
[1] https://open.bydata.de
#opendata #datasets #germany
О том что не так с докладом СП РФ по открытости государства. Часть 5. Завершение
Чуть ли не самое главное в отношение доклада в том что, казалось бы, доклад должен иметь практическое применение. Но что с его выводами могу сделать я или кто-либо ещё? Кто его адресаты? Для кого он пишется? Ответы были бы понятны если бы госполитика открытости в какой-либо форме в России существовала и была бы последовательной. В мире она бывает с разными акцентами:
- на политической прозрачности власти и повышения доверия
- на выравнивании социальной несправедливости и доступности данных о качестве жизни
- на развитии цифрового бизнеса и любого иного бизнеса связанного с данными
- на развитии науки и интеграции в мировую научную инфраструктуру
Это довольно очевидные направления, в разных формах реализуемые в большинстве стран и, как правило, закреплённые законами, дорожными картами и так далее.
Очень недолгое время в России акцент был на политической прозрачности, позже было несколько попыток связать открытые данные и потребности бизнеса, сейчас нет вообще ничего. Отсюда проистекает и "подвешенность" этого доклада, невозможно ответить на вопрос зачем он нужен, потому что предметная область находится в зыбком состоянии.
Был бы в нём акцент на политической прозрачности, речь бы шла о доступности данных деклараций чиновников, выборов, госфинансов помимо публикуемой информации и ещё много что.
Был бы в нём акцент на экономическом развитии, речь бы шла о экономическом эффекте и открытии данных из государственных информационных систем, публикации геоданных и тд.
Был бы в нём акцент на социальной несправедливости, речь бы шла о доступности данных об успешности операций, качестве образования, уровне преступности, уровне загрязнения почвы, воды, воздуха и тому подобном в максимально детальном разрезе
Был бы в нём акцент на развитии науки, речь бы шла о публикации результатов научных исследований, наличии данных полученных российскими исследователями на платформах публикации научных данных.
Но в докладе нет об этом всё ровным счётом ничего, а от сравнения ФОИВов по _абсолютно любой методике_ мы ничего не приобретаем. Даже Счетная палата уже давно ничего не приобретает поскольку изначальная цель в получении больших полномочий по надзору за открытостью уже совершенно точно недостижима. Люди внутри органов власти это, также, прекрасно понимают, потому что никакого содержательного выхлопа нет ни от доклада, ни от тех кто мог бы подискутировать вокруг его результатов.
Да и сам повод для обсуждения стал совершенно ничтожным. Я бы даже не писал об этом если бы какая-то часть моей жизни много лет назад не была бы связана с подготовкой первых редакций. Но, пожалуй, и у меня интереса не осталось.
Открытые данные как тема существовала и существует без органов власти, может развиваться без их вовлечения или с минимальным вовлечением тех кто ещё готов выстраивать диалог с потребителями. Вне зависимости от того последний ли это доклад Счетной палаты, будет ли следующий значительно лучше или останется таким же плохим, он ни на что не влияет.
#opendata #russia #opengov