I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech
В рубрике полезного чтения про данные, технологии, программирование и не только:
- Software engineering practices [1] простые и полезные практики софтверной разработки. Лично я со всеми согласен, особенно с тем что нужно делать шаблоны для проектов.
- Self-hosting a Web scraping Farm [2] о том как организовать ферму устройств на базе Raspberry Pi для скрейпинга данных.
- Huak [3] менеджер пакетов для языка Python с благозвучным названием написанный на Rust. Слова huak huak в продакшн начинают приобретать новый смысл. Как минимум любопытная штука сама по себе.
- The Illustrated Stable Diffusion [4] о том как работает Stable Diffusion, генератор изображений на основе текстового описания. С картинками и пояснениями. Довольно доходчиво даже для неспециалистов в machine learning
- What to consider when using text in data visualizations [5] о чём думать когда подбираешь способ визуализации текста в блоге сервиса Datawrapper и с большим числом примеров
Ссылки:
[1] https://simonwillison.net/2022/Oct/1/software-engineering-practices/
[2] tp4348/self-hosting-a-web-scraping-farm-699c12bfd138" rel="nofollow">https://medium.com/@tp4348/self-hosting-a-web-scraping-farm-699c12bfd138
[3] https://github.com/cnpryer/huak
[4] https://jalammar.github.io/illustrated-stable-diffusion/
[5] https://blog.datawrapper.de/text-in-data-visualizations/
#opensource #readings #ai #softwareengineering
Не могу не упомянуть последнюю публикацию Счетной палаты РФ по поводу открытости Минстроя. Нет, Минстрой далеко не самое открытое ведомство, не надо этому верить. Как минимум в части открытых данных, большая часть открытых данных Минстроя не обновлялись 5 лет. Остальные критерии по которым оценивались органы власти - весьма надуманные. В первую очередь потому что рассматривать критерии открытости диалога в ситуации с уничтоженными независимыми СМИ в России невозможно.
В этом году мы в @infoculture не стали проводить День открытых данных этой весной считая что говорить об открытости российского государства сейчас будет двулично. Я считал и считаю вот этот последний доклад Счетной палаты не просто слабым, а просто некорректным. Открытость государства сейчас снижается довольно резко. Нельзя было проводить её оценку так словно ничего не происходит.
Поэтому нет, Минстрой не самый открытый орган власти. Сравнивать органы власти по открытости сейчас бессмысленно.
#opendata #russia #opengov
Для тех кто изучает открытые данные открытой части федерального бюджета России напомню что официальное опубликование бюджета происходит в системе СОЗД Государственной Думы РФ это законопроект № 201614-8 [1]․ Внутри него 602 файла в форматах PDF и DOC и для тех кому сложно с ними работать у нас в на сайте архива мы сделали копию всех файлов, 348 мегабайт ZIP архив [2]. Содержание архива есть в списке извлеченных с веб-страницы ссылок файле dataset.csv [3] и в файле processed.csv [4] по итогам выгрузки файлов.
Как работать с этими документами ? Внутри PDF документов и DOC файлов тексты и гигантские таблицы на тысячи строк. Для извлечения текстов и таблиц из PDF документов я рекомендую использовать коммерческие продукты вроде ABBYY Finereader. А для DOC файлов таблицы извлекаются другими инструментами.
Например, таблицы из файлов DOCX извлекаются с помощью утилиты docx2csv [5] о которой я ранее писал и я же её автор. Таблицы извлекаются в командной строке командой экстракт. Например вот такая команда docx2csv extract DACE8F84-B774-4B5B-B747-F3189B25E596.docx создаст две таблицы из этого файла.
Ограничение в том DOCX файлов среди этих файлов всего 49, а файлов в формате DOC 45 и самые большие таблицы внутри DOC файлов.
Поэтому DOC надо преобразовать в DOCX. При наличии MS Office на компьютере это автоматизируется с помощью утилиты Wordconv которая идёт в его базовой поставке. Вот тут есть инструкция [6] для командной строки.
Прилагаю полученный таким образом набор данных ведомственной структуры расходов фед. бюджета.
Ссылки:
[1] https://sozd.duma.gov.ru/bill/201614-8
[2] https://cdn1.ruarxive.org/public/datacollect/budget2023/files.zip
[3] https://cdn1.ruarxive.org/public/datacollect/budget2023/dataset.csv
[4] https://cdn1.ruarxive.org/public/datacollect/budget2023/processed.csv
[5] https://github.com/ivbeg/docx2csv/
[6] https://stackoverflow.com/questions/2405417/automation-how-to-automate-transforming-doc-to-docx
#opendata #opensource #datasets #budget #russia #government
Австралийская схема данных (DATA Scheme) [1] - это концепция доступа к данным продвигаемая их офисом национального комиссара по данным. В Российской логике наименований это звучало бы примерно как "Уполномоченный по данным", поскольку должность персонализированная.
В основе схемы модель взаимодействия с потребителями данных в части предоставления доступа к чувствительным госданным через аккредитацию сервис провайдеров и пользователей.А также определение списка "дата стражей" (data custodians), органов власти отвечающих за доступ к определенным данным.
Особенность в том что это не открытые данные, а данные доступные на определенных условиях. На каких-то ранних стадиях обсуждалось что доступ будет, также, у бизнеса, но в финальной схеме описывается модель с доступом к данным у органов власти и университетов.
Всё это можно сравнить с российской инициативой НСУД (Национальная система управления данными) с той разницей что в австралийской модели всё происходит через специальную платформу Data Place. Она, фактически, работает скорее по академической модели предоставления доступа к чувствительным данным, запросы и обоснованные отказы или согласия.
При этом, австралийское правительство явным образом обещает что если запрашиваемые данные не будут чувствительными, то они готовы публиковать их на data.gov.au, портале открытых данных Австралии [3]
Ссылки:
[1] https://www.datacommissioner.gov.au/the-data-scheme
[2] https://www.dataplace.gov.au/
[3] https://www.dataplace.gov.au/articles/KA-01031
#opendata #australia #datasharing
В качестве регулярных напоминаний, хотя и разработка кода не основное моё занятие, я довольно много публикую открытого кода, более всего для обработки данных. В первую очередь для поддержания собственных навыков в Python и для того чтобы были инструменты для того что сам же делаешь.
Работа с данными
- datacrafter - ETL движок для NoSQL данных с обработкой их с помощью конфигурационных файлов написанных на YAML. Заход на аналог Meltano или Dagster, но для NoSQL. Используется в datacrafter.ru
- apicrafter - автоматизированная оболочка для генерации REST API для доступа к данным в базах MongoDB. Используется в datacrafter.ru
- metacrafter - утилита по автоматической идентификации семантических типов данных. Используется для идентификации персональных данных в наборах данных. Поддерживает базы данных с SQL, файлы JSON, CSV, JSON lines, BSON и MongoDB
- undatum - утилита для командной строки для обработки иерархических данных в JSON lines и BSON. Поддерживает также CSV, но это не основная возможность. Позволяет считать статистику, извлекать частоты значений, уникальные значения, преобразовывать данные
- mongorefine - экспериментальная библиотека для Python по обработке данных в MongoDB как если бы MongoDB была бы колоночной, а не документальной базой. Позволяет проводить операции над коллекциями данных на колоночном уровне: добавлять, удалять, преобразовывать. Функции похожи на функции OpenRefine, известного открытого инструмента для подготовки данных
- mongo2md - утилита и библиотека для Python по автоматическому документированию коллекций для MongoDB
- diffmongo - библиотека для Python по сравнению данных в коллекциях MongoDB
Парсинг и сбор данных
- newsworker - библиотека для Python по автоматическому извлечению текстов новостей из сайтов где нет RSS лент. Работает полностью автоматически, разбирает структуру страницы, идентифицирует картинки, даты, тексты и формирует новостную ленту. Использует библиотеку qddate
- qddate - библиотека для Python для автоматической идентификации дат в любом написании. Умеет распознавать более 300 форматов на многих языках. Используется во многих других репозиториях и проектах.
- russiannames - библиотека для Python по автоматическому парсингу имён на русском языке, идентификации гендера и немножко национальных признаков. Умеет идентифицировать ФИО в форматах "Иван Петров", "Сидоров Иван Петрович", "Иванов В.А.", "Иванова А." и тд. Включает большую базу фамилий, имен и отчеств.
- docx2csv - библиотека для Python и утилита извлечения таблиц из файлов docx. Очень удобна для генерации CSV файлов из разного рода корпоративных и госотчетов. Но только для docx
- lazyscraper - утилита командной строки по быстрому извлечению таблиц и иных данных из веб-страниц с минимальными усилиями кодирования. Фактически только через написание xpath запроса. Изначально хотелось сделать её ещё более умной, но и это оказалось полезным.
Работа с веб-архивами и цифровая архивация
- metawarc - утилита для автоматизации обработки WARC файлов. Изначально создавалась в целях расследований для автоматизации извлечения свойств файлов MS Office и PDF из веб-архивов. Когда ты вначале всё архивируешь, а потом уже из веб архива собираешь метаданные. Я с её помощью проводил исследования использования пиратского ПО в российских госорганах несколько лет назад.
- apibackuper - утилита по автоматизации выгрузки данных из общедоступных API. Используется в Национальном цифровом архиве и в datacrafter.ru для формирования наборов данных
- ydiskarc - утилита для архивации данных по публичным ссылкам на Яндекс диск. Используется в Национальном цифровом архиве для архивации папок с Яндекс Диска
- wparc - утилита по архивации контента сайтов на Wordpress и медиа файлов с этих сайтов посредством встроенного в Wordpress REST API. Используется в Национальном цифровом архиве
- spcrawler - утилита по выгрузке данных из сайтов на базе Sharepoint используя их общедоступное API. Не завершена, но в работе.
#opensource #datatools #data #commandline #python
Если Вы ещё думаете какой язык программирования изучать, то вот маленькая подсказка в виде графика популярности языков программирования для data science из доклада State of data science проведенного KDNuggets в 2021 году и картинка отметок применимости языков программирования для разного рода задач связанных с данными. Во втором случае, ИМХО, не вполне корректно про Rust и Go, для этих языков сейчас много что написано расширяющего возможности работы с данными, но в остальном похоже на правду.
А также, в добавок и для разноообразия источник этих материалов и текст с рассуждением на испанском языке на портале открытых данных Испании [1] (не всё же англоязычные тексты постить, в самом деле).
Ссылки:
[1] https://datos.gob.es/es/blog/cuando-utilizar-cada-lenguaje-de-programacion-en-ciencia-de-datos
#data
На РБК вышла статья с комментариями участников рынка про отъезд ИТ специалистов [1], там есть и мои комментарии и мне тоже есть что к этому добавить. Вообще много что есть написать, но требуется время чтобы упаковывать эти мысли в сухой профессиональный, а не эмоциональный текст.
Пишу, насколько возможно, сухо и коротко, по возможности без иронии:
1. Настроения плохие, мысли об отъезде есть даже у тех кто не собирался уезжать потому что их тут держат: престарелые родители, ипотека, семья, дети, обязательства и тд. Из последнего что я слышу в личных разговорах они звучат примерно так. "Они нас превращают в животных, мы теперь даже не можем думать о будущем", "Если бы нас напали я бы сам в военкомат пошёл, так не напали же!". Это дословно и буквально.
2. Причины не только в "частичной мобилизации", а в том как всё это проводится. Российские законы/указы Пр-та и Пост-я Пр-ва в последние годы почти все перешли в жанр "Всех расстрелять!". Они принимаются в самой неудобоваримой форме, а потом уже "поднимается вой" (читай - резкое возмущение) тех кого они затрагивают и начинаются запросы, письма, потоки лоббистов чтобы хоть чуточку сбавить их "людоедскость" (читай - неприемлимость). Каждый может гадать почему так: потому что неграмотные нормотворцы, потому что паника у авторов этих норм или потому что кто-то открыл(-и) кассовые комнаты и взимают оброк с просителей за конкретные защищаемые интересы. Лоббизм в России выродился в "защитный лоббизм", не того чтобы продвинуть свои интересы, а того чтобы добиться чтобы твои интересы пострадали меньше.
3. Поэтому когда принимается указ Пр-та после которого (неожиданно!) оказывается что он неконкретный, что его надо разъяснять, что вместо нормативных разъяснений идут ненормативные разъяснения от пропагандистов всех цветов радуги, то это поражает главное - полнейшее недоверие будущему. И смесь раздражения, злобы, уныния у тех кто будущего не видит.
4. Это звучит как "если они такое $&*$# вот так приняли, то что им помешает завтра принять закон который расширит категории военнообязанных или ещё чего". Мне лично трудно пока измерить уровень произошедшей делигитиматизации, но и без того невысокий уровень доверия гос-ву упал ещё ниже.
5. Тех кто не поддаётся панике куда больше волнует не мобилизация, а разговоры про применение ядерного оружия. Все кто знает как российская медийная машина устроена понимают что всех кто говорит про ядерное оружие могли бы легко заткнуть чтобы не нагнетать панику. Но их не затыкают, что означает что они чьи то интересы отрабатывают. Любое применение ядерного оружия сейчас - это перевод тех кто это сделает в статус военных преступников автоматически. Но может так оказаться что нас это волновать уже не будет.
6. Многие хвалят Максута Шадаева за то что он вписывается сейчас за ИТ рынок в РФ и делает всё возможное чтобы под мобилизацию попало меньше ИТ специалистов. Я ничего плохого про Максута сказать не могу, при всех возможных грехах он человеческого облика никогда не терял. Но, мы же все понимаем, что на настроения уезжать или нет, влияет не он. Меры доступные Минцифры РФ ограничены их полномочиями, они были бы хороши лет 10-15 назад, а сейчас не они могут исправить текущую ситуацию. В лучшем случае, чуть-чуть, сгладить.
Я бы сказал что у меня есть какой-то рецепт как делать всё правильно, но у меня его нет. Процитирую Фазиля Искандера из "Кролики и удавы" - "Если мудрость не может творить добро, она удлиняет путь зла". Будьте мудры.
Я, ещё раз подчеркну, что пишу в России и остаюсь в России так долго как только смогу.
Ссылки:
[1] https://www.rbc.ru/technology_and_media/28/09/2022/633324f39a7947518c6fd452
#it #itmarket #thoughts
В рубрике как это работает у них, вышло обновление [1] документа политики управления и обмена данными [2] National Institutes of Health (NIH) США через который преимущественно осуществляется госфинансирование исследований в области здравоохранения. NIH - это крупнейший грантодатель на биомедицинские исследования в мире и поэтому его политики устанавливают "правила игры" для большей части исследовательских центров в области биомедицины в США.
В документе есть три ключевых акцента.
1. Использование устоявшихся репозиториев. Это означает не создание своих порталов/репозиториев с нуля, а использование и не через персональные аккаунты, а через устоявшиеся институциональные репозитории такие как Dryad, например.
2. Своевременная публикация. Данные исследований должны публиковаться сразу же с научной работой или же по завершению работы в целом (определяется сроком завершения гранта выделенного на работу).
3. Подтверждение качества данных. На качестве данных делается существенный акцент и оно определяется как возможность проверки и воспроизведения исследования на их основе.
Ссылки:
[1] https://blog.datadryad.org/2022/09/23/u-s-policy-dryads-role-in-the-nihs-new-policy-for-data-management-and-sharing/
[2] https://grants.nih.gov/grants/guide/notice-files/NOT-OD-21-013.html#_ftn8
#opendata #datapolicy #openaccess
О том что Apple удалили из магазина приложений все приложения связанные с холдингом VK, это все, наверняка, уже прочитали. Вроде как ещё не удалили приложение Одноклассников, но если удаление было из-за санкций, то это вопрос только времени. Пока видно что в Google Play приложения MailRu Group остались, но, опять же, если удаление из-за санкций, то вероятность их исчезновения велика.
Правда для Android'а есть RuStore по приватности приложений в котором мы делали исследование совсем недавно и, если кратко, всё там даже хуже чем в Google Play.
Но я о другом. Много лет я пишу и два исследования мы провели о том что во многих приложениях содержатся внешние трекеры позволяющие третьим сторонам получать данные действий пользователей. В лидерах распространения таких трекеров глобальные рекламные корпорации вроде Facebook и Google, но, в России тоже есть свои игроки. Один из крупнейших из которых теперь холдинг VK.
Например, во многих приложениях стоят трекеры myTracker и myTarget от MailRu Group. В проекте Exodus Privacy посчитано 1281приложение с myTracker и 2826 с myTarget , но в реальности их гораздо больше. Кроме этих рекламных трекеров многие разработчики интегрируют SDK для авторизации во Вконтакте, есть как минимум 845 таких приложений. Всё это про приложения для Android, но SDK myTarget, myTracker и VKontakte есть и для iOS.
А теперь, внимание, вопрос․ Будут ли следующим шагом платформы Apple и Google предупреждать авторов приложений использующих трекеры VK о том что их приложения могут могут быть удалены из магазинов приложений если они этот код из приложений не уберут?
Следующим постом я запилил опрос на ту же тему.
#privacy #security #vk #mobileapps #trackers #android #apple
К вопросу о проектах по замене SQL на другие языки запросов, а есть и другой путь, создания спецификации описывающей все известные операции по работе с данными и работе SQL поверх неё и использования конверсии из её описания в SQL запросы.
Такой проект есть, он называется Substrait [1]. Его автор сооснователь проектов Apache Calcite, Apache Arrow, Apache Drill и ряда стартапов таких как Sundesk и Dreamio.
Основная идея в том чтобы стандарт для дата-операций был универсальным и через него можно было бы выполнять запросы к хранилищам данных.
Уже есть много референсных реализаций спецификации для Ibis, Dpyr, Apache Calcite, Trino и Spark.
Для тех кто не сталкивался с этими продуктами - все они представляют уровни абстракции для работы с данными. Например, Ibis в Python [3] даёт возможность делать SQL запросы без SQL. Удобно для тех кто любит Python way для работы с данными.
Substrait выглядит весьма перспективно, если вендоры в этом направлении потянутся, то может стать глобальной спецификацией и даже стандартом.
Ссылки:
[1] https://substrait.io/
[2] https://docs.google.com/presentation/d/1HQReIM6uB1Dli_yXfELOJWAE6KsvXAoUmHLlTYZ8laA/edit#slide=id.g1476627d6f9_0_213
[3] https://ibis-project.org
#standards #data #bigdata #dataengineering
Полезное чтение про данные, технологии, программирование и не только в виде дайджеста:
- The impossible case of pitching rust in a web dev shop [1] полезный образный кейс и подборка примеров того почему крупнейшие компании переходят на Rust и очень конкретные примеры того к какой эффективности это приводит. В основном речь о сокращении энергопотребления, меньшем объёме потребления памяти, значительно лучшей производительности.
- Hurl [2] инструмент тестирования запросов к веб-сайтам через скриптовое описание текста в простом тексте. Умеет то же что и Curl, но через скрипты и включает удобную проверку результатов. Несомненно полезно и необходимо для автоматизации тестирования API.
- MFA Fatigue: Hackers’ new favorite tactic in high-profile breaches [3] новая тактика хакеров по взлому аккаунтов через "задалбывание пользователей" запросами через многофакторную аутентификацию. Так чтобы пользователь, или случайно, или от усталости подтвердил вход. Уже несколько компаний были успешно взломаны через такую социальную инженерию. В частности это был Uber.
- Rocketry [4] система планирования задач написанная на Python и позволяющая регулярно выполнять определенные задачи в отдельной нити или в отдельном процессе. Казалось бы зачем это нужно если есть Crontab для локального или Airflow для глобального? Потому что позволяет строить трубы задач (pipelines) и помогает решать более комплексно чем crontab, и потому что сильно проще чем Airflow. И, конечно, потому что концепция Everything as a code - не такая уж плохая концепция.
- The beginning of ‘Everything as Code’ [5] в качестве напоминания текст Ethan Batraski от 2020 года про то что "всё код" и концепцию Everything-as-a-Code (EaC). Он там приводит немало примеров того что можно, также, представить в форме кода: управление настройками, документацию, политики соответствия и тд. и тп.
- The World Bank Data Catalog [6] весьма развившийся каталог данных Мирового Банка. 5449 наборов данных на 24 сентября, из них 175 наборов данных связаны с Россией.
Ссылки:
[1] https://flakm.github.io/posts/rust_why_dev_shop/
[2] https://hurl.dev/
[3] https://www.bleepingcomputer.com/news/security/mfa-fatigue-hackers-new-favorite-tactic-in-high-profile-breaches/
[4] https://rocketry.readthedocs.io
[5] https://medium.com/ethanjb/the-beginning-of-everything-as-code-a25c4e9a75e9
[6] https://datacatalog.worldbank.org/home
[7] https://datacatalog.worldbank.org/search?fq=(geographical_extent%2Fcoverage%2Fany(geo:geo%2Fname%20eq%20%27Russian%20Federation%27))&q=&sort=last_updated_date%20desc
#opendata #data #opensource #datatools #readings
В рубрике интересных стартапов на данных Whaly [1] французский стартап в области автоматизации BI и аналитики, привлекший $1.9M венчурных инвестиций в июле 2022 г. [2]. Стартап любопытный в том что конкурирует с Looker, но своим рыночным преимуществом указывает что умеет интегрироваться с десятками онлайн сервисов и эта интеграция не требует внешнего ETԼ сервиса. Что, в целом, соответствует тому о чём писал Benn Stancil [3] о том что ETL бизнесу вроде Fivetran недолго осталось царствовать. Whaly продукт весьма любопытный, но бесплатно его не попробовать и ценообразование там какое-то непонятное, всё через созвон с сейлами и в прайс листе указано что
планы начинаются с $460 в месяц. Наверное сервис хороший, но вот этот вот подход с невозможностью бесплатного тестирования мне лично категорически не нравится.
И, признаюсь, я лично, обжёгшись на Gitbook'е и Scaleway очень настороженно отношусь к французским стартапам. Даже когда продукт выглядит интересно, customer service оказывается ужасающим.
Ссылки:
[1] https://whaly.io/
[2] https://www.crunchbase.com/organization/whaly
[3] https://benn.substack.com/p/how-fivetran-fails
#data #datatools #startups #analytics #BI
Вчера я выступал на Kazan Digital Week про открытость транспортных данных и, похоже, я был единственным на этом мероприятии кто вообще говорил про открытость государства хотя бы частично. Осталось ощущение гласа вопиющего в пустыни.
Читать полностью…Интересная и пока малопопулярная, но перспективная штука Daft [1] это интерфейс работы с датафреймами вместе с мультимедиа и другими файлами, например, это актуально в задачах генеративного искусства, автоматического создания текстов, изображений, аудио и видео.
Поддерживает стандартный интерфейс датафреймов а-ля Pandas и позволяет выполнять комплексные запросы.
Я чувствую что как-то надо сделать обзор движков для датафреймов, их возможностей и ограничений. В первую очередь с точки зрения работы с данными в диких / реальных, а не лабораторно выверенных условиях.
Ссылки:
[1] https://www.getdaft.io/
#data #datatools
The right to privacy in the digital age
Свежий доклад представителя по правам человека ООН [1]. Документ короткий, на 17 страниц. Там про всё, взломы телефонов правительствами (спецслужбами), массовую слежку, ограничения в использовании шифрования, нарушениях прав человека и так далее.
То о чём писали многие, но изложено сжато и в докладе ООН.
Ссылки:
[1] https://documents-dds-ny.un.org/doc/UNDOC/GEN/G22/442/29/PDF/G2244229.pdf?OpenElement
#privacy #reports
Команда Clickhouse, создателей одной из лучших аналитических СУБД, запустили бета версию облачной версии продукта [1]. Сейчас облако работает с поминутной тарификацией на базе инфраструктуры AWS․ Главное достоинство в том что продукт непосредственно от команды разработчиков Clickhouse, а значит можно надеяться на лучшую производительность и техническую поддержку.
При том что кластеры на Clickhouse существуют уже много где. Например, в Яндекс облаке [2] с ежесуточной и ежемесячной тарификацией и в самом AWS [3].
Clickhouse не единственная СУБД для аналитики в реальном времени на базе которой создаются DBAAS (database-as-a-service) продукты. Например, команда их менее популярного, но близкого по производительности, конкурента StarRocks анонсировали появление их облака в 3-м квартале 2022 г. [4]. 3-й квартал вот только что прошёл, ждём когда же можно будет увидеть обещанное.
А я напомню интересную штуку от Clickhouse по открытым замерам производительности баз данных [5] с весьма неплохим их сравнением.
Ссылки:
[1] https://clickhouse.com/blog/clickhouse-cloud-public-beta
[2] https://cloud.yandex.com/en/services/managed-clickhouse
[3] https://aws.amazon.com/ru/quickstart/architecture/clickhouse-cluster/
[4] https://starrocks.io/blog/starrocks-launches-the-industrys-fastest-cloud-native-real-time-analytics-engine
[5] https://benchmark.clickhouse.com
#opensource #startups #dbms #clickhouse
По поводу новой процедуры аккредитации ИТ компаний организованной Минцифры РФ мне много что есть сказать, поскольку несколько лет я не только изучал реестр аккредитованных компаний, но и сопоставлял его с другими реестрами, находил там аномалии разной степени необычности и публиковал тут у себя в телеграм канале и передавал сотрудникам Минцифры ещё в июне-июле месяце.
В реестре аккредитованных и сейчас осталось немало туроператоров, семейных частных отелей и иных организаций не имеющих никакого отношения к ИТ. Но, чисто по человечески, лучше уж больше непрофильных компаний получат возможность для отсрочки ИТ сотрудников от мобилизации, чем список аккредитованных сокращать. В конце то концов это сотрудники Минцифры берут на себя ответственность за аккредитацию, главное лишь понимать и всегда помнить что реестр аккредитованных компаний != реестр ИТ компаний. Там намешаны ИТ компании, технологические компании на классических рынках и вообще не относящиеся к ИТ юр. лица. Поэтому для любых аналитических задач он малопригоден.
Как писал Иван Покровский в статье с критикой Минпромторга сейчас Минцифры, при большом количестве других претензий, особенно к нормативке, ведёт себя куда приличнее того же Минпромторга.
#russia #data #digital
В рубрике интересных наборов данных, коллекции данных создаваемые из веб-индексов
Dresden Web Table Corpus (DWTC) [1] набор данных состоящий из 125 миллионов таблиц извлеченных из архива веб-индекса Common Crawl․ Последнее обновление было в 2015 году основано на базе в 266ТБ из 3.6 миллиардов веб страниц.
Web Data Commons [2] - это коллекция из многих наборов данных созданных на основе Common Crawl и развиваемая командой университета Маннхейма. В проекте множество наборов данных созданных через извлечение объектов перечисленных в Schema.org из тела веб-страниц и иной мета информации. Например, там же свежий набор данных SOTAB с аннотированными таблицами привязанными к понятиям в Schema.org [3]
ACL Anthology [4] каталог научных публикаций и наборов данных. Включает наборы данных с полной антологией публикаций и цитированием, а также включает множество работ созданных на основе наборов данных таких как Common Crawl, например Learning Word Vectors for 157 Languages [5]
Ссылки:
[1] https://wwwdb.inf.tu-dresden.de/research-projects/dresden-web-table-corpus/
[2] http://webdatacommons.org/
[3] http://webdatacommons.org/structureddata/sotab/
[4] https://aclanthology.org/
[5] https://aclanthology.org/L18-1550/
#opendata #datasets #digitalhumanities
Подборка интересного чтение про данные, технологии и не только:
- Can We Use AI to Communicate With Animals? [1] может ли ИИ помочь в коммуникации с животными? заметка с материалами исследований по этой теме. Примерами когда ИИ использовался для восстановления мертвых языков и того как в 2017 году с помощью алгоритма распознали трели, чириканье и писк мартышек с 90% точностью [2]. Много ссылок, важная тема. Область где применение ИИ может дать реальное изменение в человеческой жизни (и жизни животных тоже).
- The United Nations E-Government Survey 2022 [3] свежий рейтинг развития электронного правительства от ООН. Только в PDF файлах, поэтому на оценки конкретной страны сослаться сложно. Россия там в группе Very High Tier II, то есть с довольно высоким уровнем развития. Из постсоветских стран лидируют страны Балтии и хуже ситуация в Туркменистане.
- Lawless Surveillance [4] научная статья в открытом доступе об огромном объёме слежки в США, по большей части нерегулируемой и "незаконной". Полезно для понимания как это устроено в США и то что это не ограничено только одной страной, а встречается во многих технологических развитых странах.
- The Era of Fast, Cheap Genome Sequencing Is Here [5] компания Illumina, мировой почти монополист в устройствах секвенирования генома, анонсировали новые устройства в которых обещают сокращение времени секвенирования генома вдвое и не более чем за $200 за один геном. Как это повлияет на развитие рынков? Больше компаний будут предлагать услуги расшифровки, цены за расшифровку генома должны будут снижаться, а больше данных геномов будет доступно.
- Wasabi Technologies Closes $250 Million [6] конкурент Amazon Web Services, компания Wasabi Technologies привлекла раунд в $250M инвестиций и обещают технологический стек с возможностью сокращения расходов на 80% по сравнению с Amazon. Это, в первую очередь, касается облачного хранилища аналогичного AWS S3.
Ссылки:
[1] https://lastweekin.ai/p/can-we-use-ai-to-communicate-with
[2] https://www.spectrumnews.org/news/ai-interprets-marmosets-trills-chirps-peeps/
[3] https://publicadministration.un.org/en/Research/UN-e-Government-Surveys
[4] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4111547
[5] https://archive.ph/C5eQ2#selection-464.0-464.1
[6] https://wasabi.com/press-releases/wasabi-technologies-closes-250-million-in-new-funding-to-usher-in-the-future-of-cloud-storage/
#tech #readings #un #ai
Полезное чтение про данные, технологии и не только:
- datasets-server [1] сервер для работы с наборами данных от Hugging Faces. К уже существующим open source каталогам данных появляется новая категория, каталоги данных ориентированные не просто на data science, а на публичное машинное обучение.
- refurb [2] утилита для языка Python по повышению качества кода. Правил пока мало, работает только на Python 3.10, но результаты интересные. Она не заменяет pylint, не проверяет стиль кода, а именно улучшает имеющийся код.
- Better than JPEG? Researcher discovers that Stable Diffusion can compress images [3] исследователи выяснили что с помощью Stable Diffusion можно достигать лучше сжатия JPEG'ов. Даже интересно когда развитие ИИ достигнет уровня разработки новых алгоритмов сжатия.
- Open Sourcing Venice – LinkedIn’s Derived Data Platform [4] в блоге LinkedIn о платформе работы с данными Venice. Пока не до конца понятно как её использовать саму по себе, она выглядит интегрированной в другие дата-продукты LinkedIn
- Platformatic DB [5] основанный на Node JS движок генерирующий REST API и GraphQL поверх схемы СУБД. Не первый и не последний такой движок, но несомненно надо бы его потестить в работе.
- StockAI [6] "убийца" стоковых каталогов, огромная база стоковых изображений и генератор новых если такого ещё нет. Страшная вещь, поубивает весь стоковый рынок. Интересно какие ещё рынки можно поубивать генераторами изображений? Генератор воллпейперов через ИИ ещё не сделали?
- What is Data Engineering: Part 2 [7] вторая часть описания природы инженерии данных от Pragmatic Programmer. Полезно для всех кто работает в этой области.
Ссылки:
[1] https://github.com/huggingface/datasets-server
[2] https://github.com/dosisod/refurb
[3] https://arstechnica.com/information-technology/2022/09/better-than-jpeg-researcher-discovers-that-stable-diffusion-can-compress-images/
[4] https://engineering.linkedin.com/blog/2022/open-sourcing-venice--linkedin-s-derived-data-platform
[5] https://oss.platformatic.dev/
[6] https://www.stockai.com/
[7] https://newsletter.pragmaticengineer.com/p/what-is-data-engineering-part-2
#opensource #data #datatools #readings
В рубрике интересных наборов данных Bible geocoding data [1] набор данных по геокодированию мест упомянутых в библии. Автор занимался этим с 2007 года и в прошлом году существенно обновил предыдущую работу. О самой инициативе и данные для Google Earth в формате KMZ есть на его сайте [2] и там же у него на сайте OpenBible разного рода эксперименты по визуализации [3].
Из весьма интересного - это AI-Assisted Bible Study [4] суммаризатор ответов и вопросов по главам библии через использование ИИ.
В данном случае библия важный пример, но сам подход ей не ограничивается. Один из путей/способов развития цифровой гуманитаристики - это подходы "всё-код" и "всё-данные". Любое художественное, религиозное или документальное произведение можно рассматривать как базу данных. Можно, например, геокодировать "Войну и мир", превращать в граф знаний "Властелин колец" и остальные произведения Толкиена, проводить интерактивную реконструкцию исторических событий. О многих подобных проектах я пишу время от времени [5].
Важное отличие современных проектов в этой области - это открытость данных и кода. Открытые проекты позволяют создавать новые проекты/продукты/исследования на их основе.
Ссылки:
[1] https://github.com/openbibleinfo/Bible-Geocoding-Data
[2] https://www.openbible.info/geo/
[3] https://www.openbible.info/labs/
[4] https://www.openbible.info/labs/ai-bible-study/
[5] /channel/begtin/4147
#datasets #opensource #opendata #digitalhumanities
В рубрике больших наборов данных Awesome Google Earth Engine Community Datasets [1] каталог геоданных специально подготовленных для быстрого подключения к Google Earth. В каталоге, в общей сложности 105.7 TB данных, 584 тысячи изображений, всего коллекций с изображениями 268, с описаниями объектов 414 и более 518 миллионов характеристик (features) объектов в общей сложности.
Из особенно интересного, там есть данные LandScan [3] собираемые ORNL (Oak Ridge National Laboratory) [4] в США. LandScan даёт возможность просматривать плотность населения на территориях с очень высоким разрешением.
Кроме того там много других интересных наборов данных для всех кто работает с геоданными.
Ссылки:
[1] https://samapriya.github.io/awesome-gee-community-datasets/
[2] https://samapriya.github.io/awesome-gee-community-datasets/stats/
[3] https://samapriya.github.io/awesome-gee-community-datasets/projects/landscan/
[4] https://landscan.ornl.gov
#opendata #datasets #geo #googleearth #datacatalogs
В рубрике полезных инструментов для обработки данных VisiData [1]. Это весьма популярный в ограниченных кругах открытый продукт по просмотру и обработке данных через визуальный текстовый интерфейс. Такие инструменты ещё называют TUI (Text User Interface). Для кого-то это будет напоминать утилиты вроде Dos Navigator / Norton Commander / Vim и ещё огромное число утилит для Unix / DOS. А сейчас это вновь набирающее оборот явление, можно сказать что переоткрываемое.
VisiData позволяет просматривать файлы и базы данных делая запросы, листая результаты и предоставляя возможность обрабатывать строки и колонки с данными. Плюс он там ещё может считать статистику по файлам, строить гистограммы и ещё много чего.
Хорошая утилита, как по мне. Идет, почти, вровень с open refine когда дело касается обработки данных (data wrangling / refining).
Как и все подобные GUI / TUI инструменты он, в первую очередь, полезен тем кто решает задачи обработки данных без программирования. Например, дата-журналистам и аналитикам.
Ссылки:
[1] https://github.com/saulpw/visidata
#data #datatools #dataengineering #datajournalism #datawrangling #opensource
Я вот уже несколько дней отказываюсь комментировать журналистам всё что связано с мобилизацией, войной, информатизацией военкоматов. Сейчас предостаточно политологов которые комментируют происходящее чуть ли не ежеминутно.
Я лично нахожусь в России, и надеюсь находится так долго как только смогу, как бы власти не усложняли жизнь мне и многим другим.
Но есть то я могу точно сказать и о чём говорить важно. Вся эта история с "отечественными сертификатами" у Сбербанка и корневыми сертификатами НУЦ Минцифры очень плохая.
Смысл сертификата в том чтобы обеспечивать защищённый канал связи между пользователем и сервером. Корневой сертификат необходим для того чтобы браузеры и другое ПО не выдавало ошибки при попытках связи с серверами использующими сертификаты выпущенные удостоверяющими центрами (УЦ).
УЦ, в свою очередь проходят определенную сертификацию для того чтобы обеспечить это доверие. Число таких корневых сертификатов в ОС Windows, MacOS, IOS, Android ограничено и то что там за все эти годы не появилось российского корневого УЦ должно только настораживать.
Добавив корневой сертификат в доверенные, сделает доверенными не только сертификат Сбербанка, но и может быть выпущен сертификат с помощью которого можно перехватывать трафик к HTTPS сайтам, например, органами правоохраны. Власти Казахстана пытались навязать госсертификат в декабре 2020 года (легко гуглится), но всё это провалилось в итоге. А здесь даже принуждения нет, вернее оно через принуждение сервисом: хочешь Сбербанк - ставь сертификат.
Поэтому, если всё таки, жизнь так распорядилась что доступ к сайту Сбербанка необходим или на другие сайты его распространят я рекомендую:
- либо устанавливать сертификат на отдельное, редко используемое устройство;
- либо устанавливать его на виртуальную операционную систему; используемую редко и не устанавливать его на основное устройство(-а)
- либо перестать использовать Сбербанк и любой иной сервис который такие сертификаты будет навязывать
#security #privacy
В рубрике интересных открытых проектов на данных Data Commons [1] проект по агрегированию открытых данных о географии, индикаторах и многих понятиях с формированием единой онтологии и визуального представления данных.
Данные внутри Data Commons предоставляются для запросов через Google BigQuery, точку подключения SPARQL и REST API. На апрель 2022 г. всего интегрировано в базу данных 2.9 миллионов мест, 3 миллиарда записей временных рядов, 100 000 переменных и 1.4 триллиона триплов (единичных значений).
Проект создан давно и активно развивается, например, недавно к нему добавили инструмент выгрузки данных [2].
Лично по мне так проект интересный, чем-то сравнимый с WikiData и, кстати, с WikiData интегрированный, а чем-то похожий на проекты по визуализации статистики вроде DataUSA и USAFacts.
Из особенностей, у авторов явно временно достигнут предел масштабирования поскольку они охватили довольно хорошо данные по США, но по другим странам, особенно малым, требуется значительно больше усилий, знания языков и тд. Кроме того многие понятия там закодированы так словно их нет за пределами США. Например, ссылка на почтовый индекс [3] не имеет странового префикса и такого много.
Проект поддерживается компанией Google, его код и код отдельных компонентов доступен как открытый код [4].
Ссылки:
[1] https://datacommons.org
[2] https://docs.datacommons.org/2022/09/14/download-tool.html
[3] https://datacommons.org/place/zip/60651
[4] https://github.com/datacommonsorg
#opendata #google #datasets
Всемирная организация здравоохранения приняла новую политику с требованием по обязательному раскрытию данных всех финансируемых ими научных исследований [1] в их анонсе ссылка на документ руководства опубликованного в апреле 2022 г.
Распространение и повторное использование медико-санитарных данных в исследовательских целях: руководство ВОЗ по политике и осуществлению [2]
Если изложить кратко тезисами, то примерно так:
1. Все данные исследований должны раскрываться
2. Данные должны публиковаться в одном из открытых репозиториев соответствующих ряду критериев. Примеры приведены
3. Исследования должны быть основаны на принципах FAIR [3]
4. Данные должны проходить деперсонализацию.
Как я уже много раз писал, структуры ООН сейчас одни из лидирующих в мире по масштабам раскрытия данных.
Ссылки:
[1] https://www.who.int/news/item/16-09-2022-new-who-policy-requires-sharing-of-all-research-data
[2] https://www.who.int/ru/publications/i/item/9789240044968
[3] https://www.go-fair.org/fair-principles/
#opendata #un #who #openaccess
Председатель Ассоциации участников рынка данных Иван Бегтин о доступности транспортных данных, собираемых госсистемами, для использования бизнесом.
Выступление на круглом столе «Большие данные в транспортной отрасли на примере работы ГИС «Электронные перевозочные документы»”, KAZAN DIGITAL WEEK
В рубрике как это работает у них, портал открытых транспортных данных Франции transport.data.gouv.fr [1] я писал о нём несколько лет назад и за эти годы портал активно развивался.
На портале уже размещено 417 наборов данных [2] причем 112 наборов данных - это данные реального времени!
Данные публикуются в соответствии с 6 национальными стандартами описания транспортных данных.
Многие данные можно, также, увидеть на интерактивной карте [7] в реальном времени по местам публикации этих данных их владельцами.
Ссылки:
[1] https://transport.data.gouv.fr
[2] https://transport.data.gouv.fr/datasets?
[3] https://normes.transport.data.gouv.fr/
[4] https://transport.data.gouv.fr/explore
#opendata #france #transport #datasets
Полезное чтение про управление командами данных. Onboarding for Data teams [1] о том как собирать команды дата специалистов и погружать их в работу. Онбоардинг - это быстрое погружение в работу. Много полезных советов и рекомендаций.
Мне понравилась идея в том что новичок в первый день должен сделать коммит в промышленный код (production). Что-то в этой идее есть.
Ссылки:
[1] https://seattledataguy.substack.com/p/onboarding-for-data-teams
#data #datateams
В рубрике интересных наборов данных открытое API проекта Metaculus [1] по краудсорсингу предсказаний.
Проект позволяет регистрировать предсказания, собирать оценки от пользователей и измерять точность предсказаний.
Все эти сведения доступны в формате JSON через API проекта [2].
Всего в проекте более 1 миллиона предсказаний [3] что очень даже немало.
Для полного счастья нехватает только дампов данных, но может быть авторы добавят их в будущем.
Ссылки:
[1] https://www.metaculus.com
[2] https://www.metaculus.com/api2/
[3] https://twitter.com/fianxu/status/1569537658103431168
#opendata #predictions #datasets #API