I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech
Результаты опроса. В итоге видно что уровень доверия в России Росстату (и не только) весьма и весьма низок. Впрочем, ничего неожиданного.
Читать полностью…Иногда поражает какие стартапы получают финансирование, например, стартап OneSchema [1] автоматизирует загрузку и проверку CSV файлов. Основатели позиционируют свой продукт как the embeddable CSV importer for developers и получили недавно $6.3 миллиона инвестиций от нескольких венчурных фондов.
Лично мне эта задача всегда казалась слишком маленькой чтобы её стоило или было бы важно автоматизировать. Но, нет, оказывается венчурные фонды думают иначе.
Это хороший пример небольшого, но очень точного продукта для работы с данными решающего очень узкую задачу и оказавшегося востребованным.
Ссылки:
[1] https://www.oneschema.co
[2] https://www.oneschema.co/blog/oneschema-announces-6m-fundraise
#datatools #startups #data #csv
Забавный текст и термин уютные данные или cozy data [1] за авторством Zach Musgrave в блоге Dolthub. Идея очень проста, в том что cozy data это такой антоним big data. Это такие данные которыми ты занимаешься как хобби, вроде личной картотеки личной коллекции бабочек или результативности игроков в настольный теннис. Иначе говоря это небольшие по объёму, хорошо структурируемые и лично курируемые данные над которыми, как правило, работает один человек, реже больше.
Если не считать того что автор бесстыдно рекламирует Dolthub сама концепция весьма интересная. Cozy дата в этом смысле - это бесконечно число баз в Excel и Access созданное за десятки лет. Частично их создатели перебрались в Google Sheets и Airtable, но далеко не все.
Для тех кто живёт в мире уютных данных главным недостатком онлайн сервисов является подписочная модель оплаты. Я больше поверю в развитие продуктов вроде Strapi и Directus именно для таких пользователей.
Но, кто знает, быть может кто-то ещё сможет создать гармоничное сочетание гибридного клиент-серверного аналога Access'а когда от потери доступа к онлайн сервису доступ к своим данным потерян не будет.
Ссылки:
[1] https://www.dolthub.com/blog/2022-11-18-cozy-data/
#data #datatools
Группа исследователей в области инфобеза выяснили что сервис аналитики компании Apple, так и называется Apple Analytics, собирает персонально идентифицирующую информацию о пользователях [1].
В передаваемых данных там есть параметр "dsId" который они проверили и подтвердили что он является "Directory Services Identifier”, уникальный идентификатор аккаунта iCloud, хотя в условиях использования Apple фигурирует что [2] None of the collected information identifies you personally.
Ждём опровержений, исков к Apple, расследований регуляторов в ЕС и США.
Ссылки:
[1] https://twitter.com/mysk_co/status/1594515229915979776
[2] https://www.apple.com/legal/privacy/data/en/device-analytics/
#privacy #security #apple #surveillance
В The Verge статья [1] о том что Элон Маск собирается перезапустить механизм прямых сообщений в Twitter и дать возможность обмениваться зашифрованными сообщениями, аудио и видео и тд. И даже собираются сотрудничать с командой Signal в этой задаче. Звучит как конкурент как раз Signal, WhatsApp, Telegram (?), но от Элона Маска.
Может ли Twitter пройти такое преобразование? Почему бы и нет, тогда и логика с платностью аккаунтов и премиумом будет иметь больше пространств для расширения возможностей.
Иначе говоря, если Twitter сможет превратиться аналог в Telegram, то у Telegram՛а появится сильный конкурент. Хотя о чём я, скорее Telegram станет ещё более прямым аналогом Twitter'а ;)
Ссылки:
[1] https://www.theverge.com/2022/11/21/23472174/twitter-dms-encrypted-elon-musk-voice-video-calling
#twitter #telegram #tech #privacy
В рубрике интересных инструментов работы с данными Rasgo [1], интерактивный каталог данных работающий поверх Snowflake и BigQuery и в планах команды поддержать RedShift и Delta Lake. Основная идея в том что командам по работе с данными может быть сложно работать с данными в облачных хранилищах и Rasgo должен помочь им в этих задачах. Через интерактивное построние запросов и систематизацию метаданных.
Заход интересный тем что они пытаются совместить интерактивный каталог с интерактивным no-code построителем запросов к базам данных.
А также пытаются идти по пути инструментов очистки данных, оценки их качества и ещё многое другое с акцентом на команды работающие с данными в области ИИ (разработки моделей).
Непонятно что из этого выстрелит, но стоит внимания и наблюдения за их судьбой.
Продукт не на открытом коде, привлекли $20 миллионов инвестиций в июне 2021 года.
Ссылки:
[1] https://www.rasgoml.com/
#startups #data #datatools #dataengineering #datacatalogs
Суд Европейского Союза принял решение о том что раскрытие реестров бенефициаров противоречит правам человека [1]. Сейчас реестры закрыли Голландия и Люксембург, вполне возможно вскоре такая же участь последует другие открытые реестры. При этом, не могу не напомнить, что раскрытие реестров бенефициаров было официально поддержано на встрече G20 и в мире есть несколько больших инициатив в этой области, в основном родом из Великобритании. Например, Open Ownership [2].
Означает ли это что будет сложнее расследовать коррупционные схемы с участием компаний зарегистрированных в Европе? Для журналистов - скорее всего да.
Действительно, что важнее, общественный интерес или частная жизнь (бизнес) ? Лично я считаю что в данном случае интерес общества и практики проверки контрагентов перевешивают риски для человека.
Ссылки:
[1] https://delano.lu/article/court-of-justice-of-the-eu-que
[2] /channel/begtin/4382
[3] https://openownership.org
#opendata #opengov #transparency #eu
Интересное и познавательное чтение про то как Amazon изучал рынок блокчейна в 2016 году, но компания не стала в него вкладываться [1]. Автор, Тим Брэй, бывший вице президент Amazon тогда изучал блокчейн-стартапы, встречался с финансовыми компаниями/банками/представителями бирж и по сути изучал рынок и спрос. Изучение показало что:
1) У финансовых институтов действительно был (и есть) запрос на распределённые базы данных, цифровые подписки, продукт на основе digital ledger, без привязки к блокчейну
2) Почти все напыщенные блокчейн стартапы декларирующие соответствие регуляторным требованиям, наличие крупных клиентов и тд, по факту ничем этим не обладали.
Автор в итоге возвращается к тому что отказ инвестиций в блокчейн и связанные с ним технологии было стратегически правильно для Amazon.
А поводом для его обсуждений является новость о том что австралийская биржа, в том же 2016 году запустившая эксперимент на блокчейне и потратившая на него $165 миллионов долларов теперь от него полностью отказалась [2]
Ссылки:
[1] https://www.tbray.org/ongoing/When/202x/2022/11/19/AWS-Blockchain
[2] https://www.forbes.com/sites/michaeldelcastillo/2022/11/16/seminal-blockchain-project--goes-down-the-drain-chairman-apologizes/?sh=566b795a17d3
#technology #blockchain
Полезное чтение про данные, технологии и не только:
- Your Data Catalog Shouldn’t Be Just One More UI [1] автор рассуждает о том что каталоги данных должны быть API First, построены изначально под автоматизацию работы с данными. Приводит в пример Datahub и OpenMetadata. Мои мысли с ним созвучны, только я думал о том же в форме Headless data catalog и Headless data management system.
- Visualization Tips for Data Story-Telling [2] как подбирать цвета при визуализации данных и много других советов.
- Dataclasses: Supercharge your Python code [3] классы данных, для тех кто хочет продвинутся в разработке на Python в сторону датацентричности. Классы данных хорошая штука, нехватает только ещё более удобных инструментов для маппинга их на хранилища.
- Introducing Notion AI [4] Notion обещают ИИ который будет помогать писать тексты. Таких предложений всё больше, скоро их будет какое-то пугающее количество. Когда наступит перелом, когда Google добавит похожее в Google Docs и GMail или когда Microsoft поместит это в онлайн версию MS Office?
- DuckDB — What’s the Hype About? [5] рассуждения о хайпе вокруг DuckDB. Всё по делу, главное достоинство DuckDB - это возможность работы с данными локально, и без дополнительных знаний кроме Pandas. Главное не забывать это это локальная аналитическая база не заменяющая серверные продукты.
Ссылки:
[1] https://towardsdatascience.com/your-data-catalog-shouldnt-be-just-one-more-ui-e6bffb793cf1
[2] https://medium.com/mlearning-ai/visualization-tips-for-data-story-telling-1e99cccbb8c7
[3] https://heyashy.medium.com/supercharge-your-python-code-with-dataclasses-6965ddd7fb98
[4] https://www.notion.so/product/ai
[5] https://olivermolander.medium.com/duckdb-whats-the-hype-about-5d46aaa73196
#opensource #readings #datatools #data #ai
Для тех кто любит программировать на Python и не любит Javascript не могу не рассказать о таком проекте как PyScript [1], код для исполнения кода Python'а на стороне браузера. Включает как простые, так и сложные примеры [2], а также по нему есть огромное руководство с кучей подробностей [3].
Признаюсь, я лично, никогда не любил разработку фронтэнда именно из-за Javascript'а, какое-то сильное чувство отторжение у меня вызывало его использование, так что не только Javascript'у проникать на сервер, но и Python'у в браузер.
А их свежего и любопытного - руководство по написанию расширений для Google Chrome с помощью PyScript [4].
Почему это важно? Многие продукты по обработке и визуализации данных не сервере написаны на Python. Если PyScript будет работать с хорошей производительностью, то часть задач обработки можно будет перенести в браузер и поддерживать единую кодовую базу.
Пока единственное ограничение в том что PyScript более-менее оттестирован в Chrome, но даже в Firefox'е его активно не проверяли.
Тем не менее, экспериментировать можно уже сейчас.
Ссылки:
[1] https://pyscript.net
[2] https://pyscript.net/examples/
[3] https://realpython.com/pyscript-python-in-browser/#modules-missing-from-the-python-standard-library
[4] petefison/write-chrome-extensions-in-python-6c6b0e2e1573" rel="nofollow">https://medium.com/@petefison/write-chrome-extensions-in-python-6c6b0e2e1573
#opensource #python #programming
Я регулярно рассказываю про работу над выявлением смысловых типов данных, это моя любимая тема в работе с данными - семантические типы данных. Я писал об этом большой текст на английском языке [1] и про проекты metacrafter [2] по идентификации типов данных и metacrafter-registry [3] реестр семантических типов данных.
В них пока небольшие, но обновления.
1. В реестр добавлены много типов персональных данных в реестр, например, идентификаторы паспортов [4] и водительских удостоверений. Везде где возможно приведены регулярные выражения для проверки этих типов данных.
2. Добавлены новые правила идентификации смысловых полей для русского и французского языка. Теперь можно использовать metacrafter на русскоязычных и франкоязычных наборах данных.
И, конечно, всё это расширяемые проекты и если какие-то данные ещё не идентифицируются, то их можно добавить.
А я напомню что metacrafter сейчас используется в другом нашем проекте Datacrafter для идентификации типов данных в каталоге [7].
Ссылки:
[1] ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b" rel="nofollow">https://medium.com/@ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b
[2] https://github.com/apicrafter/metacrafter
[3] https://github.com/apicrafter/metacrafter-registry
[4] https://registry.apicrafter.io/datatype/aupassport
[5] https://registry.apicrafter.io/datatype/cadriverlic
[6] https://github.com/apicrafter/metacrafter/tree/main/rules
[7] https://datacrafter.ru/class
#opensource #datatools #data #dataengineering
В рубрике больших открытых наборов данных The Stack [1] 3.1 терабайта 300 миллионов файлов исходного кода на 30 языках программирования с разрешающими лицензиями (permissive licenses) на его повторное использование. Опубликован на Hugging Face, кроме программных языков, охватывает около 20 естественных языков (английский, китайский, испанский, русский и др.)
Является результатом проекта BigCode [2], совместных усилий команд ServiceNow и Hugging Face․
Можно сказать что это большой шаг вперед к развитию языковых моделей для программного кода и появлению новых продуктов похожих на Github Copilot и аналоги, но, на сей раз, с соблюдением лицензионной чистоты.
А также большой тред в твиттере с рассказом об этом наборе данных [3]
Ссылки:
[1] https://huggingface.co/datasets/bigcode/the-stack
[2] https://www.bigcode-project.org/
[3] https://twitter.com/BigCodeProject/status/1585631176353796097
#opendata #opensource #datasets
DuckDuckGo добавили в своё приложение для Android возможность отслеживать отслеживающих, перехватывать и блокировать отправку данных о пользователе трекерами в мобильных приложениях. Об этом в заметке в The Verge [1]․
У меня после обновления приложение активировалось только на одном Андроид устройстве, на втором пока говорит что надо присоединиться к листу ожидания.
На этом устройстве у меня сейчас нет госприложений, поэтому не могу ничего сказать про них, но обязательно проверю позже. Зато есть такие приложения как Яндекс Такси, Тинькофф банк и Discord. Их всех успешно DuckDuckGo перехватывает.
Думаю что скоро у DuckDuckGo будет потрясающая по масштабам база результатов мониторинга слежки и возможность рейтинговать приложения по её масштабам.
Обратите внимание - это не статический анализ и проверка на "принциальную возможность утечки", это отслеженные факты передачи данных о пользователе.
Само приложение DuckDuckGo можно поставить здесь [2]
P.S. Если у Вас стоят госприложения на телефоне из списка [3] не поленитесь потратить немного времени и замерить куда и какую информацию они сливают․ Присылайте скриншоты или ссылки на Ваши телеграм каналы если Вы запостите эти скриншоты туда.
Ссылки:
[1] https://www.theverge.com/2022/11/16/23462053/duckduckgo-app-tracking-tool-beta-android-users
[2] https://play.google.com/store/apps/details?id=com.duckduckgo.mobile.android
[3] https://apps.rustore.ru/state
#privacy #government #tracking
Недавно я написал про то какое открытое API есть на сайте органов власти Казахстана [1], такой подход к доступу к контенту имеет свои плюсы и минусы. Да, минус в сложности архивации, но плюсы в скорости отображения, в работе на мобильных устройствах и тд. В целом можно обсуждать и дискутировать насколько он оправдан и что задачи архивации можно решать, например, публикацией наборов данных.
Но, изначально, к мыслям о проблемах доступа к материалам меня натолкнул последний сайт российского Росстата где с недавних пор почти весь контент подгружается через Javascript.
Возьмём любую произвольную страницу со списком публикаций [2]. Внутри страницы нет HTML контента, только обрамление, а реальный контент подгружается через Ajax запрос который возвращает JSON объект внутри которого HTML веб страница [3].
Такой подход применяют когда есть цель целенаправленно ограничить доступ поисковых систем и краулеров к контенту. Или по большому недомыслию.
Всегда хочется надеяться на второе, но приходится учитывать и первое.
Это не означает что контент на сайте Росстата не индексируется, если даётся ссылка на прямую публикацию, вроде такой [4] то там есть контент и она будет проиндексирована. Но это уже не заслуга сотрудников Росстата, а скорее если кто-то на эти публикации где-то ещё ссылается. Иначе говоря глобальные поисковики индексируют сайт и документы Росстата потому что другие сайты ссылаются на отдельные документы, но сам сайт организован так чтобы индексирование было ограничено.
Ссылки:
[1] /channel/begtin/4380
[2] https://rosstat.gov.ru/compendium
[3] https://rosstat.gov.ru/compendium/getPage?page=1&order=
[4] https://rosstat.gov.ru/compendium/document/50801
#data #statistics #government #opendata
Сейчас многие активно обсуждают решение Сената Франции с рекомендацией Правительству Франции о признании Нагорно-Карабахской республики и призывом к выводу азербайджанских войск с территории Республики Армения [1], а я как раз давно планировал написать о том как Сенат Франции публикует данные о своей деятельности.
На сайте Сената есть баннер со ссылкой на их портал открытых данных [2] где не только собраны сведения о выборах, принятых законопроектах, сенаторах, полученных ими грантах и всё это в форматах CSV, JSON и XML, но там также есть такое редкое явление как полные дампы базы данных публикуемые в формате SQL дампов для СУБД Postgres.
Например, база поправок в законодательство, Ameli [3] и в 100 мегабайтном ZIP файле содержит 500 мегабайтный SQL файл. Для полной радости не хватает только чтобы они вообще всю базу целиком публиковали для выгрузки, а не несколькими SQL файлами и чтобы к данным и к дампам баз данных была бы более полная документация.
Ссылки:
[1] http://www.senat.fr/dossier-legislatif/ppr22-003.html
[2] https://data.senat.fr/
[3] https://data.senat.fr/ameli/
#opendata #datasets #france #parliaments #opengov
В рубрике доступных открытых данных и инструментов работы с ними։
- Ensaio [1] инструмент с открытым кодом для работы с данными о геонауках․ Включает множество наборов наборов данных из проекта Fatiando a Terra [2]
- Corpus of Decisions: Permanent Court of International Justice (CD-PCIJ) [3] набор данных и научная статья о решениях Постоянной палаты международного правосудия Лиги Наций, действовавшей с 1920 года по 1940 год. Данных не так много, 259 документов на английском языке и 260 на французском, но они хорошо структурированы.
- Human and economic impacts of natural disasters: can we trust the global data? [4] статья в Nature о том что невозможно до конца доверять данным о природных катастрофах потому что они недостаточно качественно собираются.
- Redesign and new features for data.europa.eu [5] европейский портал открытых данных готовят к обновлению. Много изменений обещают, главное в том что владельцы данных смогут публиковать их на портале напрямую, а не на национальных порталах открытых данных. А также в том что европейский портал приближается к научным порталам данных и будет поддерживать принципы FAIR.
Ссылки։
[1] https://www.fatiando.org/ensaio/v0.5.0/index.html
[2] https://github.com/fatiando-data
[3] https://zenodo.org/record/7051934
[4] https://www.nature.com/articles/s41597-022-01667-x
[5] https://data.europa.eu/en/news-events/news/redesign-and-new-features-dataeuropaeu
#opendata #readings
Инструмент того как можно / нужно и хорошо визуализировать статистику переписи и иную гиперлокальную статистику. Census Maps [1] от статистической службы Великобритании отображает данные максимально гиперлокальным образом, с подсветкой кварталов и с детализацией по региону происхождения, по числу членов семьи, по доле мигрантов и многое другое.
Пока проект в режиме бета, там только индикаторы связанные с населением, но даже так выглядит более чем интересно.
Всё это результаты переписи 2021 года. Также по ней есть публичный план публикации свежих данных [2]
Отдельно можно поговорить почему подобное невозможно или очень и очень сложно сделать для России. А прежде чем поговорить, сделаю ка я опрос. Он будет следующим постом.
Ссылки:
[1] https://www.ons.gov.uk/census/maps
[2] https://census.gov.uk/census-2021-results/phase-one-topic-summaries
#data #opendata #census #uk #statistics
ТикТок анонсировали API для доступа к их аналитике исследователям/учёным [1]. Сами ссылки на API и форма запроса доступа, видимо, появятся позже, а сейчас с ними работают представители их Content and Safety Advisory Councils (общественных советов по контенту).
Ссылки:
[1] https://newsroom.tiktok.com/en-us/an-update-on-our-platform-api-for-researchers
#api #tiktok #transparency #data
У Stable Diffusion, движка с открытым кодом для генерации изображений с помощью ИИ, вышла вторая версия [1] [2].
Среди возможностей:
- визуальное улучшение изображений в плохом разрешении
- развитая генерация изображений на основе изображений с сохранением структуры изображения
- улучшенная генерация изображений из текста
и ещё многое другое.
Если Вы ещё не пробовали Stable Diffusion, то определённо стоит попробовать.
Ссылки:
[1] https://stability.ai/blog/stable-diffusion-v2-release
[2] https://huggingface.co/stabilityai/stable-diffusion-2-base
#ai #opensource #datasets
Для тех кто любит диаграммы и не любит рисовать их мышкой, декларативный язык программирования D2 [1] позволяет определить набором простых правил как необходимо отобразить нужные блоки диаграммы и получить нужную диаграмму автоматически.
Опубликовано с открытым кодом [2], может использоваться как утилита командной строки или как библиотека для языка Go.
Развивается стартапом Terrastruct [3] у которого есть облачный сервис генерации диаграмм. Стартап существует с 2019 года, а код D2 они выложили месяц назад. Выглядит он довольно зрелым и похож на внутреннюю разработку выложенную в открытый доступ и открытый код.
Ссылки:
[1] https://d2lang.com
[2] https://github.com/terrastruct/d2
[3] https://terrastruct.com/
#opensource #diagramming #datatools #programming
В рубрике интересных наборов данных открытый датасет The Global Jukebox: A public database of performing arts and culture [1] как часть одноимённой научной работы посвящённой сбору, систематизации и изучению традиционных песен.
Включает тысячи песен, открытые данные на Zenodo [2] и данные и код на Github [3], а также интерактивный сайт [4]
Прекрасный пример проекта в области цифровой гуманитаристики. Объём данных, относительно, невелик, но культурная значимость несомненна
Ссылки:
[1] https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0275469
[2] https://zenodo.org/record/6537663#.YnszmllS_BK
[3] https://github.com/theglobaljukebox
[4] https://theglobaljukebox.org/
#opendata #digitalhumanities
Свежая система раскрытия данных о госконтрактах в Пуэрто Рико Contratos En Ley [1]
Включает два раздела - поиск и анализ. В поиске можно найти данные о контрактах и их исполнителе, а в анализе обзоры контрактной системы Пуэрто Рико [2]
Поиск идёт по более чем 1.5 млн записей, не так много по сравнению с другими странами, но много для Пуэрто Рико.
Данные можно выгрузить в CSV, а сам проект сделан на основе стандарта Open Contracting и на базе нескольких инструментов сбора данных с открытым кодом.
Проект развивается НКО Sembrando Sentido (Сеющий смысл) [3] хочется надеяться что открытый код они также опубликуют.
Ссылки:
[1] http://contratosenley.org/en
[2] https://bit.ly/3AqPZUz
[3] https://www.sembrandosentido.org
#opendata #contracting #procurement #usa #transparency
Многие следят за событиями в Twitter'е с массовыми увольнениями инженеров и руганью Элона Маска с некоторыми из них публично. Можно смотреть на это с разными эмоциями, кто-то, надеюсь меньшинство думает что "так мол им и надо зажравшимся смузеедам", а кому-то события вокруг твиттера лишь в очередной раз напоминают что чем меньше ты зависишь от централизованных платформ тем лучше.
Поэтому, мой аккаунт в Mastodon ibegtin" rel="nofollow">https://mastodon.world/@ibegtin где я буду время от времени писать на преимущественно на английском языке, может на каких-то ещё. Как ни странно сервера Mastodon ещё не заблокировали в России, но это же ненадолго, мы же понимаем.
На всякий случай напоминаю мой блог с длинными техническими текстами на английском языке ibegtin" rel="nofollow">https://medium.com/@ibegtin, рассылка в с длинными текстами на русском https://begtin.substack.com
#blogging
Ещё одна утилита идентифицирующая смысл данных в базах данных - catwright [1]. Авторы декларируют что используют ИИ и поддержку категорий данных времени и геоданных. Правда они называют категориями то что все остальные называют семантическими типами данных. Сейчас правил и категорий там мало, зато есть предобученная модель.
Выглядит любопытно, но, пока, не более того. Я всё же скажу что metacrafter [2] куда практичнее поскольку расширяем.
Ссылки:
[1] https://github.com/jataware/cartwright
[2] https://github.com/apicrafter/metacrafter
#opensource #datatypes #dataengineering
Собирать обратную связь создателям продуктов сложно, это требует навыков и понимания того как работать с аудиторией, клиентами, потребителями и экспертами. Я в последний месяц несколько часов посвятил продукту CKAN [1] - это продукт для публикации открытых данных с открытым кодом разрабатываемый большой международной компанией и поддерживаемый парой коммерческих компаний сопровождающих порталы созданные на нём CKAN.
Они недавно опубликовали результаты своего исследования [2], они полезны тем кто изучает экосистему открытости данных в мире. А я могу поделиться собственными ощущениями.
Начну с того что собирать обратную связь действительно сложно. Когда ты создаёшь продукт коммерческий то обратная связь начинается когда у него появляется лояльная аудитория. Спроси внешнего человека, он, скорее всего, проигнорирует и ещё и подумает "Зачем мне тратить на это время?". Спроси эксперта - он скажет "ребята, это консалтинг, моё время стоит денег". Продукт должен быть, либо феноменальным, либо ты им пользуешься уже много лет и есть что сказать, либо собирать надо так чтобы мотивировать пользователей. Опять же это с точки зрения пользователя, стороннего наблюдателя.
В случае с продуктами на открытом исходном коде ситуация несколько иная. Обратная связь, часто, возникает потому что даже если бенефициарами продукта являются коммерческие компании, у него есть открытый контур и коммерческая версия продукта добавляет ему качества, но открытая никуда не исчезает. Обратите внимание, не бесплатная, которую владельцы/разработчики в любой момент могут сделать платной, а именно открытая.
Поэтому какой-нибудь продукт вроде dbt, Meltano, Dagster (примеры из рынка данных) имеют какую-то невероятную обратную связь от пользователей и немало контрибьюторов в код даже при том что их создают и развивают стартапы эффективно их монетизирующие.
Всё вместе это и называется работа с сообществом. Я тут не могу не напомнить про отличную книгу от Nadia Engball под названием Working in Public: The Making and Maintenance of Open Source Software [3] о том как создаются и развиваются сообщества открытого кода и что делает их устойчивыми.
Ссылки:
[1] https://ckan.org
[2] https://ckan.org/blog/ckan-30-product-strategy-research-part-3
[3] https://www.amazon.com/gp/product/B08BDGXVK9/ref=as_li_tl?ie=UTF8&camp=1789&creative=9325&creativeASIN=B08BDGXVK9&linkCode=as2&tag=begtintech-20&linkId=5df79c2a091bee55a08f60476f15ac33
#opensource #thoughts
Прекрасное руководство [1] с примерами по тому как можно визуализировать реки и затопленные территории с помощью QGIS и RiverREM [2], библиотеки для Python из проекта OpenTopography.
Примеры все из США где в рамках программы 3D Elevation Program [4] сейчас оцифрована почти каждая миля страны с высокой степенью геометрической детализации.
Есть, также, очень подробное руководство как создавать именно такие картинки [5] с использованием файлов DEM (Digital elevation model), а на Flickr есть коллекция изображений подобных этим [6] которые можно использовать в некоммерческих целях.
Ссылки:
[1] https://www.beautifulpublicdata.com/visualizing-rivers-and-floodplains/
[2] https://github.com/klarrieu/RiverREM
[3] https://opentopography.org/
[4] https://www.usgs.gov/3d-elevation-program
[5] https://dancoecarto.com/creating-rems-in-qgis-the-idw-method
[6] https://www.flickr.com/photos/165735975@N07/sets/72177720300430208/
#dataviz #opendata
Mother Duck, компания созданная для развития СУБД DuckDB получили $47.5 миллионов инвестиций от Andreessen Horowitz [1]․ У них забавный лозунг Making analytics fun, frictionless and ducking awesome. Ducking awesome звучит особенно замечательно, невозможно перевести это с языка оригинала.
Для тех кто не помнит, DuckDB - это такая OLAP база данных, работающая полностью в памяти и внутри процесса из которого запускается. Её называют SQLite для аналитики и вокруг неё уже выстроилось большое сообщество, создан специальный фонд DuckDB Foundation [2] в который входят многие компании, включая Mother Duck, Mode, Posit и другие компании, в основном стартапы.
Как бы то ни было если Вы занимаетесь обсчётом больших данных в аналитических СУБД, то попробовать DuckDB стоит .
Ссылки:
[1] https://techcrunch.com/2022/11/15/motherduck-secures-investment-from-andreessen-horowitz-to-commercialize-duckdb/
[2] https://duckdb.org/foundation/
#startups #data #datatools
В рубрике "как это устроено у них" программа Pathways to Enable Open-Source Ecosystems (POSE) [1] от Национального научного фонда США по финансированию экосистемы открытого кода. Общая сумма фонда 8 миллионов долларов (около 480 миллионов рублей)
Полный список из 25 проектов включает проекты по гражданской науке, по развитию продуктов с открытым кодом для создания экосистемы открытых данных [2]․ Средний размер гранта на этой фазе (Phase 1) - это $300 тысяч, это порядка 18 миллионов рублей и все они выдаются именно научным командам которые исследуют то как устроены те или иные экосистемы открытого кода и также, привлекают к проектам в этих экосистемах дополнительные ресурсы.
Ссылки:
[1] https://beta.nsf.gov/funding/opportunities/pathways-enable-open-source-ecosystems-pose
[2] https://www.nsf.gov/awardsearch/advancedSearchResult?ProgEleCode=211Y&BooleanElement=Any&BooleanRef=Any&ActiveAwards=true#results
#opendata #openaccess #opensource
По поводу новости о том что российские власти в лице Минюста РФ хотят публиковать в открытом доступе СНИЛС и ИНН иностранных агентов [1] я многое могу об этом сказать, но начну с того что сама практика публикации персональных и личных данных граждан является ущербной.
В российском законе о персональных данных была и есть оговорка о том что их использование, по смыслу, включая раскрытие возможно в соответствии с нормативно-правовыми актами. Чаще всего эта практика шла, либо от целенаправленной дискриминации определённых групп граждан, или от идиотского сочетания устоявшихся юридических практик и законов которые этого не учитывали.
Несколько лет назад я публиковал исследование Утечки персональных данных из государственных информационных систем. Открытая часть доклада [2] со множеством примеров когда из государственных официальных информационных систем и реестров публиковались паспортные данные, ИНН, СНИЛС и иные персональные данные граждан. Самая яркая из описанных там историй - это раскрытие данных о СНИЛС в электронных сертификатах и цифровых подписях к документам сделанных этими сертификатами.
Другой пример в виде дискриминируемых групп был в раскрытии данных о людях подозреваемых в преступлениях, например, в сообщениях арбитражных судов [3] и разного рода уполномоченных гос-вом агентов.
До недавних пор чиновников обязанных сдавать декларации публикуемые на сайтах органов власти также можно было бы отнести к подобным дискриминируемым меньшинствам. Эта дискриминация была основана на контроле над бюрократией со стороны политического руководства и большим пластом международных практик, соглашений, инициатив по прозрачности государства. А то есть контроль политической власти над властью административной.
Сейчас, когда Минюст инициирует раскрытие данных персональных данных иностранных агентов, де факто - это как раз пример признания власти другой группы лиц, в данном случае обладающих медийной властью (по мнению Минюста, полагаю). Что, разумеется, большое лукавство и сам способ дискриминации выглядит не только архаично, но и предельно цинично.
Как и всё законодательство об инагентах эта инициатива весьма порочна по своей природе. Лично я считаю что законодательство должно меняться в сторону снижения раскрытия личных данных о гражданах, а не политически мотивированным расширением.
В России именно государство, в своей широкой массе органов власти, бюджетных учреждений и уполномоченных организаций, и является совокупностью крупнейших нарушений в сборе и публикации персональных данных. И с той поры как я публиковал то исследование по "легальным утечкам" персональных данных мало что изменилось.
Ссылки:
[1] https://www.rbc.ru/politics/13/11/2022/6370be7d9a79471426620f95
[2] https://begtin.tech/pdleaks-p3-govsys/
[3] https://www.asv.org.ru/news/612038
#privacy #security #data #personaldata
Пока все обсуждают разного рода макрополитические аспекты саммита G20 я не могу не обратить внимание на обсуждавшиеся там вопросы открытости. А на саммите обсуждались темы связанные с прозрачностью и открытостью. Подробнее можно прочитать в B20 Indonesia 2022. Integrity and compliance task force. Policy paper [1]. Там же есть и про открытые данные в других областях, важно что тема не просто есть на повестке, но и развивается.
#opendata #opengov
Ссылки:
[1] https://t.co/T6Jd3B6sCH