I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech
База Government Open Source Software Policies [1] опубликована CSIS, Центром стратегий и международных исследований включает описание сотен нормативных документов и стратегий правительств большинства стран мира в части внедрения открытого кода. Данные можно скачать в CSV [2], посмотреть визуально в сервисе Datawrapper [3] и посмотреть версию на Github [4] вместе с документацией.
Данные включают, в том числе, многие постсоветские страны։ РФ, Казахстан, Армения, Киргизия
По России документы упоминаются довольно давние, последний за 2010 год. По другим странам всё куда актуальнее.
Ссылки։
[1] https://www.csis.org/programs/strategic-technologies-program/government-open-source-software-policies
[2] https://csis-website-prod.s3.amazonaws.com/s3fs-public/230105_Government_Open_Source.xlsx?3OPFGJtU3MnmeMLFqDFr0WVytCpiTkXC
[3] https://datawrapper.dwcdn.net/tIMj9/41/
[4] https://github.com/github/government-open-source-policies
#opendata #opensource #policies #regulation
Ещё один шаг в сторону от открытости гос-ва в России - Госдума прекратила трансляции своей работы [1]. Казалось бы, там одни лишь не секретные темы обсуждения, казалось бы и судя по риторике депутатов работы они своей не стыдятся, казалось бы вообще-то законотворчество в принципе должно бы максимально прозрачным, казалось бы члены ГД и так все под санкциями так чего им бояться.
Хорошо ещё не закрыли систему АСОЗД с законопроектами и базы НПА, а то, вдруг ещё и окажется что и законы граждане знать будут должны только когда их по этим законам будут штрафовать или сажать.
Откручивать назад все инициативы по открытости власти - это каждый раз говорить обществу о движении к Северо-корейской модели государства.
Собственно все проблемы с открытостью гос-ва в России не в уровне открытости здесь и сейчас, а в уверенном движении по закрытию. В этом смысле многие постсоветские страны обладают куда меньшей открытостью гос-ва, данных и тд., но двигаются не против, а наоборот, в сторону большей открытости.
А я не могу не напомнить про пример того куда должна двигаться парламентская открытость в мире, проект OpenParliament.tv [2] с трансляцией заседаний парламента Германии (Бундестага) с построчной расшифровкой, поиском по тексту, открытыми данными, API и тд.
P.S. произошло это ещё в прошлом году, но как бы в этом году не закрыли ещё больше
Ссылки։
[1] https://www.vedomosti.ru/politics/articles/2022/10/19/946242-ne-mesto-dlya-translyatsii
[2] https://de.openparliament.tv/
#government #parliament #russia #openness
К вопросу о том как зарабатывают на открытых данных, открытом коде, экосистеме открытости и почему многие компании используют это в маркетинге своих продуктов успешно.
В качестве предисловия, я регулярно читаю и слышу жалобы российских "импортозамещающих компаний" что вот мол они делают хороший продукт и почему-то никто им не пользуются и "как же обидно почему о них никто не говорит и не пишет". Скажу сдержанно, про хорошие продукты говорят всегда, про очень плохие тоже, с другим контекстом, а на посредственные пусть тратят время и деньги на рекламу. В то же время в мире сейчас, кроме уже устоявшихся бизнес моделей по клонированию продуктов, есть несколько бизнес моделей или ключевых их элементов связанных с открытостью. Я перечислю некоторые.
Открытый код + облачный коммерческий сервис.
Идея проста до безобразия. Если кто-то сделал крутой коммерческий продукт или сервис, успешный и раскрученный, то всегда можно сделать его клон, но конкурировать перпендикулярно, подрывая бизнес того продукта. Создав клон с открытым кодом и его облачной версией с бесплатным аккаунтом и с подпиской за деньги. Таким образом создают сейчас клоны Notion, клоны Airtable, клоны Google таблиц и ещё кучи всяких разных сервисов и продуктов. Причём на такие клоны успешно фандрайзят венчурные деньги, потому что есть подтверждение рынка существованием того платного конкурента(-ов) и раскручивают продукт пользователи которые используют, в том числе, версию с открытым кодом. Это очень популярная бизнес модель в последнее время.
Открытому - бесплатно
Широкая бизнес модель, в разных вариациях, но суть её в том что то что имеет общественную ценность, будь то открытый код, открытые данные, свободно распространяемый контент, а также любые сервисы на их основе отдаются бесплатно. К примеру, сервисы проверки исходного кода. Для открытых git репозиториев бесплатно, для закрытых репозиториев за деньги. Или бизнес модель Github, для открытых репозиториев без ограничений, для закрытых репозиториев и доп сервисов за деньги. По такой же модели существуют сервисы доступа к данным Dolthub и Bit.io и многие другие. Их идея проста, из тех пользователей кто точно не станет их клиентами, но могут распространять о них информацию и создавать вокруг экосистему, создавать большое сообщество.
К вопросу о том как искать данные, ключевой проект в этой области - это Google Dataset search [1] который до сих пор имеет статус исследовательского и "не вышел из инкубатора". Он всем хорош, например, использует разметку Dataset из Schema.org для идентификации наборов данных на сайтах и позволяет получать нужные данные быстро если владелец их разметил. Но у него есть системная проблема, она заключается в том что для наборов данных не работает ранжирование теми же методами что для других поисковых индексов, они редко ссылаются друг на друга. Так как определить данные по значимости при поиске? По ключевым словам? Поиск быстро "замусоривается"․ Что и произошло с ним в данном случае. Например, когда ищешь стат показатели по множеству запросов вылезают ссылки на коммерческий проект CEIC. Вроде такого [2], выдаётся первым на запрос "European statistics". Разметка на странице там есть, а вот содержания нет. Нет там и лицензий CC-BY, ни многого другого. Это типичная SEO страница для тех кто торгует данными. Это если мы ищем любые данные, не только бесплатные. А если сделаем фильтр на бесплатные и поищем "Russian statistics" то первым вылезет ссылка на набор данных Linkedin users in Russian Federation [3] сервиса NapoleonCat где нет никаких данных, только график картинкой.
Краткий вывод неутешителен, хороших поисковиков по данным сейчас нет. Задачи data discovery требуют больших усилий, с одной стороны, с другой это не рынок услуг, поскольку платить кому-то за целенаправленный поиск мало кто готов. Только рынок продуктов. Интересно когда появятся достойные альтернативы?
Ссылки:
[1] https://datasetsearch.research.google.com
[2] https://www.ceicdata.com/en/european-union/eurostat-trade-statistics-by-sitc-european-union-russia
[3] https://napoleoncat.com/stats/linkedin-users-in-russian_federation/2022/01/
#datadiscovery #datasets #opendata #searchengines #google
Свежее что почитать про данные
Measuring the value of data and data flows [1] любопытный документ от вышел от имени ОЭСР с подходами к оценке экономики данных, оценке значения данных и потоков данных. В основном основан он на экономике США, но упоминаются там и другие страны. Много цифр, графиков и оценок полезных для содержательных дискуссий.
European Research Data Landscape [2] результаты исследования в виде опроса учёных про инфраструктуру данных Евросоюза. Общая оценка что уровень использования и публикации данных довольно высокий и там же в исследовании есть рейтинг порталов научных данных по соответствию принципам FAIR. Этих порталов очень много! Основное что происходит - это ранее закрытые порталы открываются.
Semantic Media: Mapping Meaning on the Internet [3] свежая книга, платная, $18 про развитие semantic web и онтологий. Для тех кто не сталкивался, semantic web это довольно продвинутые, но сложные в изучении инструменты. Самая успешная практическая их адаптация - это Wikidata
Research in programming Wikidata [4] замечательная подборка курсов по тому как работать с Викидата, созданна командой Андрея Крижановского из Петрозаводского государственного университета. Есть и на русском языке [5]. Для тех кто хочет формировать интересные наборы данных там много практического SPARQL с примерами запросов.
Ссылки:
[1] https://www.oecd-ilibrary.org/science-and-technology/measuring-the-value-of-data-and-data-flows_923230a6-en
[2] https://op.europa.eu/en/publication-detail/-/publication/03b5562d-6a35-11ed-b14f-01aa75ed71a1/language-en
[3] https://www.wiley.com/en-us/Semantic+Media:+Mapping+Meaning+on+the+Internet-p-9781509542598
[4] https://en.wikiversity.org/wiki/Research_in_programming_Wikidata
[5] https://ru.wikiversity.org/wiki/%D0%9F%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%92%D0%B8%D0%BA%D0%B8%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85
#readings #data #opendata #wikidata #ontology #semanticweb
В рубрике как устроены научные репозитории данных, проект DataOne [1]. Это каталог и сервис поиска данных и организации собственных каталогов данных для исследовательских центров о Земле (Earth sciences), по таким темам как։ метеорология, изучение океанов, гидрография, геология, биология, география и другие. Проект изначально был профинансирован Национальным научным фондом США на $21 миллион на 4 года с 2009 по 2013, получателем гранта был Университет Нью Мексико, сейчас он называется Университет Калифорнии, Санта Барбара. Этот университет и сейчас развивает этот проект и связанные с ним продукты.
В общей сложности DataOne агрегирует данные из более чем 60 порталов, часть из которых работают на его же движке в что и DataOne. В проекте сочетается его модель существования как открытого проекта и коммерческие сервисы через продукт для университетов по созданию հօsted repository когда сотрудники университета могут гибко управлять своим каталогом онлайн.
Важная особенность в том что собираются не только данные, но и метаданные которые специфичны для геонаук.
Например։
- методы исследования
- перечень исследователей с их идентификаторами (ORCID)
- георегион(-ы)
- временной диапазон
- информация о проекте
- источник финансирования
А также детальные метаданные по каждому полю в таблицах CSV, XML, XLS и др.
Это далеко не единственный портал данных в науках о Земле, существует немало национальных и тематических порталов данных.
Ссылки։
[1] https://dataone.org
[2] https://search.dataone.org/data
#opendata #datasets #dataportals #openaccess #openscience
👁 Как за нами следят? Видео на 10 мин со слушаний в Мосгордуме
https://youtu.be/v3mrR7YfMwU
Москва занимает 13-е место в мире по количеству камер видеонаблюдения. Но кто именно регулирует систему распознавания лиц? Как происходит обработка полученной информации? И давали ли москвичи свое согласие на сбор их персональных данных?
Об этом и многом другом мы говорили 15 декабря 2022 года на круглом столе в Мосгордуме. Экспертами выступили депутаты, социологи, специалисты в области компьютерного зрения, вендоры и сотрудники исследовательских институтов. Спасибо депутату Максиму Круглову и фракции Яблоко в Мосгордуме за инициативу и организацию слушаний по этому важному вопросу на стыке новых технологий, безопасности и демократии.
Главные тезисы с нашего круглого стола — в видео по ссылке.
Разные интересные свежие проекты с открытым кодом про данные и ИИ։
- gpt_index [1] библиотека для Python. На вход принимает коллекцию документов и на их основе даёт возможность делать к ним запросы естественным языком. Требует ключ для доступа к API OpenAI, использует модель text-davinci-003
- OpenAI Cookbook [2] коллекция рецептов по работе с продуктами/API OpenAI. Много примеров в формате Jupyter Notebook
- Papers we love [3] довольно давний открытый репозиторий научных статей про данные, ML, ИИ и всё что вокруг и рядом
- Lama Cleaner [4] довольно необычная штука позволяющая убирать закрашенные части с изображения. Например, если в паинтере нарисовать линии поверх фотографии то с помощью Lama Cleaner можно исходное изображение восстановить. Или не совсем исходное если было закрашено что-то целиком.
- AFFiNE [5] обещают альтернативу Miro и Notion с открытым кодом. Делает какая-то большая китайская команда, непонятно откуда инвестиции, но делают как-то очень бодро. Хотя и не видно пока возможностей аналогичных Miro, только неполная альтернатива Notion.
Ссылки։
[1] https://github.com/jerryjliu/gpt_index
[2] https://github.com/openai/openai-cookbook
[3] https://github.com/papers-we-love/papers-we-love
[4] https://github.com/Sanster/lama-cleaner
[5] https://affine.pro/
#opensource #ai #datatools
В рубрике полезных инструментов с открытым кодом для работы с данными Memphis [1], продукт по обработке очередей сообщений по аналогии с RabbitMQ и, частично, Kafka. Продукту как продукту всего год, при этом у него весьма обстоятельная документация, много пользователей и активная команда разработки с детальной дорожной картой. Судя по качеству и скорости проработки, явно уже нашли или ищут инвестиции под облачный сервис [2].
Я бы сказал что для опенсорс проекта они очень хорошо себя подают(продают), посмотреть точно стоит, даже при то что не все функции уже реализованы.
Ссылки:
[1] https://memphis.dev
[2] https://www.crunchbase.com/organization/memphis-dev
#opensource #datatools #dataengineering
Для тех кто ищет бесплатные и открытые инструменты для работы с данными, любопытный инструмент VDK (Versatile Data Kit) от Vmware [1].
Это малоизвестная альтернатива Meltano или Dagster для извлечения и обработки данных. Чем-то похоже на dbt, но не такое проработанное.
Построено вокруг обработки данных в SQL источниках, ИМХО, достоинством может быть только большая простота чем у dbt в связке с одним из дата оркестраторов. Написано всё на Python.
Не могу сказать что я до конца понимаю в чём магия именно этого инструмента, но команда у него активная, код активно разрабатывается, документацию пишут, может быть и вырастет что-то неожиданно полезное.
P.S. Я стараюсь не лениться и когда нахожу какой-то инструмент который имеет открытый код на Github то вношу его в один из личных списков таких как: Data catalogs, Data pipelines, Data transformation, Data tools и так далее. Если хотите их видеть то они собраны на странице [2] и можно подписаться на то чтобы видеть их обновления зафолловив меня на Github
Ссылки:
[1] https://github.com/vmware/versatile-data-kit
[2] https://github.com/ivbeg?tab=stars
#opensource #datatools #datengineering
В прошлом году мы командой Инфокультуры не проводили ежегодно проводившийся ранее День открытых данных в Москве (opendataday.ru) поскольку проводить его в марте 2022 года было совершенно неуместно. В течение всего этого года были большие сомнения проводить ли его в 2023 году, потому что значительная часть тех кто с кем ранее мы его организовывали теперь признаны инагентами, многие не признанные уехали и теперь формируют русскоязычную диаспору за пределами РФ, а госорганы в России сильно отходят от тематики открытости. Иначе говоря сомнений было и есть много.
Но День открытых данных не всегда был большой конференцией, в мире он проходит в разных форматах, от митапов и отдельных встреч и семинаров до недельных конференций. Главное - тематика открытости, открытых данных и открытости гос-ва/корпораций. Поэтому, возможно и никогда не поздно провести его хотя бы в сокращённом формате и по тем темам которые остаются актуальными.
Для того чтобы понять проводить ли мероприятие в этом году и если проводить то как мы сделали опрос https://forms.gle/p1EH8fSNTH6LsVEf7
Цель опроса понять актуален ли ещё День открытых данных, о чём хочется на нем услышать и есть ли достаточное число докладчиков. Чем больше заинтересованных в открытых данных его заполнит, тем больше вероятность проведения. Так что заполняйте и распространяйте;)
#opendata #opendataday
Интересные продукты, проекты и не только декларирующие использование AI, ChatGPT или схожие инструменты։
- Buildt [1] поисковик по исходному коду умеющий находить нужный сниппет кода через запрос естественным языком
- Nostalgia.photo [2] восстанавливает старые фотографии с высокой степенью фотореалистичности
- The Jam Machine [3] музыкальный композитор на базе ИИ и множества midi файлов
- Fact GPT [4] генератор персонализированного контента с цитатами. Может создавать обзоры продуктов, новостей, мнения на события, сравнения продуктов и многое другое.
Разное для чтения։
- Top AI conference bans use of ChatGPT and AI language tools to write academic papers [5] заголовок в точности отражает смысл. Ведущие научные конференции по ИИ запретили использовать инструменты ИИ для написания академических статей.
- Open Source Highlights 2022 for Machine Learning & AI [6] обзор интересного произошедшего в открытом коде по ML за 2022 год
- Predictions for 2023 [7] набор любопытных предсказаний на этот год. Ключевое, ИМХО, в том что Тик Ток "сожрёт интернет"․ Не конкретно компания, а как медиа жанр.
Ссылки։
[1] https://www.buildt.ai/
[2] https://www.nostalgia.photo/
[3] https://huggingface.co/spaces/JammyMachina/the-jam-machine-app
[4] https://www.longshot.ai/features/longshot-fact-gpt
[5] https://www.theverge.com/2023/1/5/23540291/chatgpt-ai-writing-tool-banned-writing-academic-icml-paper
[6] https://sebastianraschka.com/blog/2023/open-source-highlights-2022.html
[7] https://latecheckout.substack.com/p/my-predictions-for-2023
#ai #data #readings #startups
В блоге Clickhouse хороший разбор того как локальная версия clickhouse-local может использоваться для аналитики [1]. Фактически это про то что Clickhouse в локальной версии - это прекрасная альтернатива DuckDB. В общем-то и раньше не было сомнений, но тут ещё и хороший текст. Это же, кстати, делает Clickhouse хорошей СУБД для обучения студентов работе с данными.
Впрочем корректнее всего сравнивать DuckDB, Clickhouse и другие подобные базы даже не с СУБД, а с инструментами вроде csvkit, textql и тд. поскольку они заменяют именно их при работе с локальными CSV, JSON и другими файлами. Но и тут clickhouse интересен поддержкой очень большого числа форматов и типов файлов прямо из коробки [2].
Хороший продукт, главное чтобы его бесплатные возможности не "растерялись" при его коммерческом развитии.
Ссылки:
[1] https://clickhouse.com/blog/extracting-converting-querying-local-files-with-sql-clickhouse-local
[2] https://clickhouse.com/docs/en/sql-reference/formats
#data #datatools #analytics
Исследователь безопасности Matt Kunze опубликовал большой текст [1] о том как он нашёл в колонке Google Home Mini уязвимость позволяющую превращать её в шпионское устройство и дающее возможность записывать всё что человек рядом с колонкой произносит. Автор нашёл эту уязвимость ещё в 2021 году, участвовал в программе баг баунти от Google и в итоге получил от них $107 500 наградой за обнаружение этой уязвимости.
Можно предположить что условием получение этого приза было то что он не мог публиковать подробности какое-то время и вот только уже в декабре 2022 года он разместил очень подробное и хорошо проработанное описание.
Почему это важно? Потому что даже если предположить что корпорации создающие подобные устройства не являются безусловным злом и сами не следят за Вами, это не значит что такая возможность отсутствует принципиально. Умными колонками могут использоваться для слежки хакерами, полицией, правительственными службами, кибервойсками противоборствующих стран, конкурентами и многими другими.
Это, конечно же, при том вольном предположении что корпорации не являются этим самым безусловным злом.
При этом важное отличие колонок и других "домашних умных вещей" в том что их, в том что их меняют реже чем телефоны. Их трафик ещё сложнее контролировать чем трафик настольных компьютеров или телефонов. Уязвимости в таких устройствах могут существовать достаточно долгое время, и неизвестно сколь многие могут их использовать. Не говоря уже о том что спецслужбы могут иметь прямое влияние на устанавливающие их компании и иметь возможность дистанционного подключения в нужных им случаях.
Как бы то ни было каждый для себя сам подбирает комфортный уровень паранойи, а подобные находки можно просто принимать для сведения.
Ссылки։
[1] https://downrightnifty.me/blog/2022/12/26/hacking-google-home.html
#privacy #security #iot #google
В рубрике интересных проектов на открытых данных и создающих открытые данные база DB Nomics [1]. Это общедоступная база открытых данных показателей собранных из 65 источников таких как UN Data, портал открытых данных Всемирного банка, данные центральных банков многих стран, Евростата и так далее. Даже с сайта российского Росстата собирается несколько показателей [2]. Все содержимое сайта доступно через через открытое API [3] и в репозиториях на Git вместе с его кодом, который также полностью открыт [4]. Кроме того существуют клиенты для доступа к данным для языков программирования Python, R, Julia и для продуктов Mathlab, Stata и многих других. В общей сложности там собрано 24862 показателя, многие из которых обновляются ежедневно.
DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года.
Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации.
Ссылки։
[1] https://db.nomics.world/
[2] https://db.nomics.world/ROSSTAT
[3] https://api.db.nomics.world/v22/apidocs
[4] https://git.nomics.world/dbnomics
[5] https://www.cepremap.fr/depot/2022/12/2022-12-23-Macroeconomic-Outlook.pdf
#opendata #dataset #economy #france #indicators
Полезное для тех кто постоянно работает с Pandas в наборе заметок Modern Polars [1] написанных по мотивам Modern Pandas [2]. Основная идея в том что Polars существенно быстрее и более однозначно позволяет работать с теми же данными и миграция на Polars с Pandas не является чем-то реально очень сложным. Наоборот, это довольно просто.
А также несколько полезных обзоров Polars в Towards Data Science:
- Pandas vs. Polars: A Syntax and Speed Comparison [3]
- Tips and Tricks for Working with Strings in Polars [4]
- Polars: Pandas DataFrame but Much Faster [5]
Про Polars именно сейчас особенно много пишут и как продукт он полностью подпадает под категорию
давайте сделаем продукт совместимый с продуктом лидером, но значительно быстрее.
Кроме Polars, конечно, есть ещё modin, PandaPy, datatable, Dask, PySpark, Vaex и другие. Надеюсь однажды увидеть обзор со сравнением их всех.
Ссылки։
[1] https://kevinheavey.github.io/modern-polars/
[2] https://tomaugspurger.github.io/posts/modern-8-scaling/
[3] https://towardsdatascience.com/pandas-vs-polars-a-syntax-and-speed-comparison-5aa54e27497e
[4] https://towardsdatascience.com/tips-and-tricks-for-working-with-strings-in-polars-ec6bb74aeec2
[5] https://towardsdatascience.com/pandas-dataframe-but-much-faster-f475d6be4cd4
#opensource #datatools
Существенный бесплатный и открытый сервис
Это с одной стороны сложная, с другой очень понятная модель очень хорошего моделирования разницы между бесплатными аккаунтами в своём сервисе и тем за что берутся деньги. Сложная потому что если дать слишком много возможностей в бесплатном аккаунте, то конверсия в платные может не происходить вовсе, а если не дать вообще, то пользователи не будут приходить чтобы попробовать и распространять. Хороший баланс возникает когда есть возможность выделить те функции которыми пользуются те кто не платят деньги или сделать обременение брендом. Например, сервисы визуализации данных позволяющие визуализировать данные и встраивать в свои сайты. В бесплатной версии всегда висит бренд и могут быть ограничения, например, по объёму данных или внешним источникам. В платной версии может быть white label. Иногда такая бизнес модель очень сложна из-за злоупотреблений. Например, я знаю несколько историй когда разработчики злоупотребляли бесплатными сервисами Google Big Query по триальным серверам и плодили их тысячами для снижения расходов на обработку данных на Amazon.
—————
Большая часть таких подходов требует существенных ресурсов, часто успешно применяется в проектах существующих на венчурных рынках. Я лично вижу десятки продуктов ежемесячно применяющих одну или несколько из из этих бизнес моделей. Иногда они чрезвычайно успешны. Тот же dbt сумели собрать огромное сообщество вокруг открытого и облачного продукта и теперь они что-то вроде центра притяжения в экосистеме Modern Data Stack. В то же время многие такие продукты, часто, после пары лет раскрутки могут терять открытость или переструктурировать развитие от открытости к коммерческим сервисам, предварительно воспользовавшись сообществом, и далее от него отдаляясь. Дебаты вокруг смены лицензии Elastic и отделение проекта OpenSearch - это именно про это.
Таких продуктов и проектов будет только больше и я ещё не все бизнес модели и бизнес практики вокруг открытости перечислил. Если Вы знаете интересные подходы к монетизации в экосистемах открытости, обязательно напишите об этом.
#opendata #opensource #business #startups #openness
Как я обещал публикую результаты опроса по поводу организации Дня открытых данных в Москве в 2023 году. Всего опрошенных 100 человек, из опроса можно узнать что։
- большинство за его проведения
- 11 потенциальных докладчиков, плюс ещё несколько приглашённых, в итоге до 14-15
- большинство интересуют лекции и разборы кейсов
- ждут доклады средней сложности
- большинство специалисты по работе с данными и исследователи
- ключевые темы которые большинству интересны։
— где искать данные
— открытые государственные данные
— open source инструменты на данных
Результаты очень хорошие, видно что многим не хватало дня открытых данных в прошлом году.
Итого։ мы начинаем планировать ОДД, предварительный ориентир 4 марта, пока склоняемся к формату того чтобы сделать онлайн конференцию + митап вживую на следующий день. Докладчиков не так много поэтому пока непонятно нужен ли программный комитет, но если есть кого в него порекомендовать напишите мне в личку. Рекомендовать можно кого-то кроме самого себя.
Напомню что День открытых данных (ODD) - это ежегодные мероприятия происходящие одновременно по всему миру в форматах митапов, конференций, хакатонов и других мероприятий. Последний раз в России он проходил в 2021 году. Ранее на эти мероприятия мы активно приглашали российских чиновников и представителей бизнеса, сейчас мы возвращаемся к изначальному формату проведения сообществом ради сообщества.
И, конечно, если Вы захотите организовать локальный митап/хакатон/другое событие в своём городе в России, то напишите нам на infoculture@infoculture.ru или мне в личку о том какая нужна помощь, если она нужна.
#opendataday #opendata #events
дарю идею совершенно безвозмездно (с)
Сделать аналог RSS читалки для телеграм каналов и, при желании, твиттера и мастодона который был бы исключительно про потребление инфы, а не для коммуникации. Специально для тех кто не пересылает и смешивать чтение и общение не хочет.
Зато сделать туда несколько важных фич։
1. Дайджестирование подписок. Иначе говоря, настраивать сгруппировывание постов от некоторых каналов сразу по n штук. Помогает читать чрезмерно частящие каналы
2. Спам фильтры. В некоторых телеграм каналах реклама уже за... раздражает. Нужны механизмы фильтрации по тегам или по ключевым словам и встроенные спам фильтры. На этом же можно монетизироваться. Спам фильтры можно [и нужно] вести централизованно.
3. Бьютификация контента. Удаление смайликов и тд.
Минус - экосистема телеграма вне контроля, поменяются правила и API и всё на... закончится.
Плюс - рынок точно есть, монетизация не конфликтует пока с монетизацией телеграма.
#ideas
Интересные стартапы по дата инженерии։
- Seek AI [1] позиционируют себя как Generative AI for Data. Ты формулируешь запрос/вопрос на аналитику общими словами, а они используют ИИ для генерации ответа. Привлекли $7.5m инвестиций в этом январе [2], очень интересно что будет их итоговым продуктом потому что общедоступной информации маловато.
- Metaplane [3] платформа для мониторинга данных включая базы данных, трубы данных, источники и тд. Позиционируют себя как Datadog for data. Позиционирование довольно грамотное, для облачной дата инфраструктуры это актуально начиная со средних размеров компаний. Привлекли $8.4m инвестиций в последнем раунде в этом январе [4]. Таких проектов всё больше, с разными акцентами и шансами на выживаемость. Делать аналог Datadog кажется вполне разумной затеей.
- XetData [5] ещё один проект Git для данных, с поддержкой версионности и git-подобного режима доступа к данным. Акценты делают на обучении моделей работы с данными, возможности исследования данных (data exploration) и на эффективной дедупликации данных с сильным сжатием оригинальных данных. Привлекли $7.5m инвестиций. Выглядят интересно, но это лишь ещё один проект "git for data" вроде тех о которых я писал недавно [7]. ИМХО, в этой области модель github'а не сработает, потому что код давно уже гораздо больше подходит под общественное достояние, а данные являются объектами монетизации. Скорее востребовано должна быть модель Gitlab для данных, с возможность делать свои инстансы бесплатно или за небольшие деньги и управлять хранилищем данных подключая разные опции. А сервисы вроде XetData или того же Dolt(-а) больше напоминают сервисы очень специализированного хостинга с монетизацией за гигабайт/терабайт и каналы доступа.
Ссылки։
[1] https://www.seek.ai
[2] https://www.seek.ai/press-01-11-23
[3] https://www.metaplane.dev
[4] https://www.metaplane.dev/blog/the-next-stage-of-metaplane
[5] https://xetdata.com
[6] https://xetdata.com/blog/2022/12/13/introducing-xethub/
[7] /channel/begtin/4532
#startups #data #dataquality #git #dataengineering
В рубрике открытых продуктов для работы с данными, в первую очередь с открытыми данными.
Datalad [1] - библиотека и утилита командной строки с открытым кодом для управления данными по аналогии с управлением кодом, через git и git подобные системы. Использует внутри git и git-anned и позволяет։
- отслеживать изменения в данных
- возвращаться к предыдущим версиям
- сохранять прослеживаемость данных
- обеспечивать полную воспроизводимость
Кроме того умеет создавать статистические html сайты с каталогами данных [2] и сами данные можно скачивать с помощью командной строки и клонировать, по аналогии с клонированием репозиториев кода.
Как можно догадаться, изначально создавался этот движок для работы с научными данными и в примерах его использования чаще фигурируют именно такие наборы данных. Делают его активно с 2015 года, уже 8 лет.
Всё это время он развивался на гранты Германского министерства образования и науки и Национального научного фонда США.
Проект полезный для тех кто работает с исследовательскими данными и публикует данные собственных исследований.
И, в качестве напоминания, аналогичный подход Git для данных также реализуется в таких проектах как DVC (Data version control) [3], Dolt [4] и lakeFS [5].
Ссылки։
[1] https://www.datalad.org/
[2] https://datalad.github.io/datalad-catalog/
[3] https://dvc.org/
[4] https://github.com/dolthub/dolt
[5] https://lakefs.io/
#datatools #opensource #opendata
В прошлом году я сильно сократил всю активность связанную с общением с госорганами и вот только ходил на круглый стол в Мосгордуму посвящённую системам слежки.
Читать полностью…В Новая Газета Европа подробный текст про исследование отъезда российских разработчиков из РФ на основе изменений в локации в аккаунтах на Github [1]. Метод неидеальный, поскольку многие меняют локацию не уезжая, а многие уехавшие не меняют, но вполне достойный внимания в контексте сравнения с другими странами.
И тут я не могу не прокомментировать что мотивировать ИТ специалистов возвратом в Россию оплатой перелёта и тд. это довольно сомнительная затея. На самом деле у Минцифры нет инструментов удержания профессионалов позитивной или негативной мотивацией. Для позитивной мотивации доверие к российскому гос-ву, скажу мягко, на очень невысоком уровне. Даже обсуждаемая "бронь для ИТшников" не имеет нормативного статуса, а если бы и имело, то все прекрасно знают что законы могут поменять очень быстро. А негативная мотивация через повышение НДФЛ, будет либо обходится, либо разработчики и другие ИТ люди активно поувольняются из российских компаний.
Я обо всём этом уже много раз писал и лично я считаю что если Минцифры и все остальные захотят реально сохранить ИТ рынок в России, то надо не привозить ИТ специалистов обратно и не повышать налоги, а снижать и ещё раз снижать налоги.
1. Снизить налоговую ставку для ИТшников нерезидентов, сейчас 30%, до текущей ставки в 13% внутри страны. Почему? Чтобы российские ИТ компании чьи специалисты уехали сохранили бы своих сотрудников.
2. Привязать налоговую ставку к квалификации и местонахождению. Продумать механизм подтверждения квалификации. С джуниоров 13%, с миддлов 10% и сеньёров 7% например. Для тех кто остаётся российскими резидентами. Привязать к сдаче квалификационных экзаменов и тд. В общем хорошенько продумать как именно.
3. Снизить до 0% налоги для ИТ компаний работающих только не на российским рынке (только на экспорт) и с сотрудниками. Почему? Чтобы дать удобную юрисдикцию тем кто работает на зарубежные рынки. Работа таких компаний сейчас сильно ограничена, они, в основном, уже почти все убежали
Этого всего тоже недостаточно, но хоть что-то.
Ссылки։
[1] https://novayagazeta.eu/articles/2023/01/11/kod-na-iskhode
#policies #itmarket
Многие считают что слежка компаний за пользователями не имеет значения. "За всеми следят, ничего не случится если последят ещё и за мной" (с). Это очень распространённый аргумент среди тех кто не понимает как развиваются технологии.
Тем временем компанию Adobe поймали на том что они следят за артистами чтобы обучать свой ИИ [1].
Причём сделано это так что включено по умолчанию и чтобы запретить это надо зайти в свой профиль и отключить эту галочку.
Будем ждать новых подобных конфликтов в этом году.
Главное помнить что если за вами ещё не следят это не значит что вас ещё не хотят заменить роботом.
Ссылки։
[1] https://www.fastcompany.com/90831386/artists-accuse-adobe-tracking-design-ai
#ai #privacy
В конце декабря прошлого года Белый дом (США) опубликовал пятый план по открытости государства
Fifth U.S. Open Government National Action Plan [1].
На что стоит обратить внимание։
- открытые данные составляют больше половины части этого плана
- важный акцент на безусловной общедоступности данных финансируемых государством исследований
- акцент на доказательной политике и доступе исследователей к конфиденциальным государственным данным
- повышение доступности информации из государственных архивов, включая полную оцифровку всех каталогов
- расширение объёма раскрываемых данных о получателях госконтрактов и грантов
- расширение раскрытие данных об окружающей среде и создание инструментов оценки окружающей среды (звучит как - environmental justice)
- развитие гражданской науки и участия граждан в научных проектах
- расширение действия закона о свободе доступа к информации (FOIA)
Там ещё довольно много всего, я выбрал только те пункты что относятся к доступу к данным и информации.
Ссылки:
[1] https://open.usa.gov/national-action-plan/5/
#opendata #usa #policies
В рубрике как это работает у них, данные о переписи населения в Великобритании в 2021 году․
В процессе переписи единицей географического измерения был переписной участок, или участок статистического наблюдения с весьма высокой степенью гранулярности, причём по каждому из них были выложены данные.
Например, таблица TS001 в данных переписи [1] содержит данные по числу жителей в привязке к такому кварталу. Это более 181 тысячи записи включающей код квартала, дату измерения и число резидентов. По объёму эти данные - это всего несколько мегабайт, по полезности же они весьма важны поскольку такие данные можно относить к ключевым, многие показатели на территориях рассчитываются в соотношении к числу жителей.
На основе этих данных можно довольно многое делать, и для бизнеса, и для государственных органов, например, инструмент определения численности населения по точке и радиусу [2] который скорее демонстрация возможностей, чем что-то востребованное, но на его примере можно увидеть что подумать о том востребованное можно создать։ инструменты планирования для ритейл компаний, системы измерения транспортной доступности на весьма гранулярном уровне и так далее.
Всё это происходит поскольку ONS (статистический орган Великобритании) раскрывает огромные объёмы данных и геоданных на портале геоданных [3] и на портале связанных данных [4] в интегрированном виде. А также через систему раскрытия данных о переписи Nomis [5].
Ссылки։
[1] https://www.nomisweb.co.uk/sources/census_2021_bulk
[2] https://www.datadaptive.com/pop/
[3] https://geoportal.statistics.gov.uk/
[4] https://statistics.data.gov.uk
[5] https://www.nomisweb.co.uk/
#opendata #datasets #uk #census
В рубрике как это работает у них, о том что не все форматы файлов для работы с данными сводятся к CSV, SQL, JSON и другим наиболее распространённым. На порталах открытых данных часто встречаются файлы в непривычных форматах, например PX [1], этот формат ещё называют PX-Axis потому что он используется в одноимённом программном продукте который позже переименовали в серию продуктов PxWeb, PxWin и PxEdit. PxWeb и PxWin были разработаны статистическим ведомством Швеции [2] и переведены, по большей части, в открытый код. А PxEdit сделали в статистическом ведомстве Финляндии [3].
Во многих странах и организациях собирающих статистику этот программный пакет весьма популярен. Например, в Испании на портале открытых данных страны в формате PX-Axis опубликовано 24 169 наборов данных [4]. Все эти файлы это индикаторы из национальных и региональных статистических систем. У многих регионов Испании они свои и практически все дают возможность получения данных показателей в разных форматах. Аналогично публикуются 7 131 статистический индикатор в Ирландии в виде наборов открытых данных на официальном портале [5] и, конечно же, непосредственно в Швеции, Финляндии и во многих других странах.
Столкнуться с этим форматом в России практически невозможно, российская статистика преимущественно использует свои внутренние форматы + некую версию SDMX. В других постсоветских странах, большая часть статистики публикуется только в Excel или самостоятельно разработанных информационных системах, вроде Талдау в Казахстане. Но если Вам доведётся поработать с данными в других странах, то с PX файлами можно столкнуться.
Ссылки։
[1] https://www.scb.se/en/services/statistical-programs-for-px-files/px-file-format/
[2] https://www.scb.se/en/services/statistical-programs-for-px-files/
[3] https://www.stat.fi/tup/tilastotietokannat/px-tuoteperhe_en.html
[4] https://datos.gob.es/es/catalogo?res_format_label=PC-Axis
[5] https://data.gov.ie/dataset?res_format=PX
#opendata #datasets #fileformats #data
Полезное чтение про данные, технологии и не только։
- Data science has a tool obsession [1] о том что в data science все слишком много обсуждают инструменты и что не всё сводится к инструментам.
- What if we rewrite everything ? [2] рассуждения о техническом долге и мыслях многих разработчиков о том что "всё надо переписать!". Кстати о техническом долге, главное отличие миддлов от сеньёров в осознании что не всегда и не всё можно и нужно переписывать, а вот документировать надо всегда.
- HTTPIE AI [3] изначально httpie была очень удобной, я бы даже сказал элегантной утилитой командной строки чтобы делать запросы к API, а теперь анонсируют AI Assistant превращающий человеческий текст в запросы. В прошлом году они подняли $6.5M инвестиций [4] и активно делают облачный сервис. Я ещё удивлялся в чём их бизнес модель, а они нацеливаются на вот такие фишки. ИМХО, в таком виде бизнес преимуществ немного.
- Recap: A Data Catalog for People Who Hate Data Catalogs [5] автор сделал то о чём я лично давно думал, каталог данных не для людей, а я для машин. Вернее, сделал некий хороший прототип с поддержкой кучи СУБД, но без документации и тд. Посмотрю как будет развиваться.
- Introducing ADBC: Database Access for Apache Arrow [6] проект по универсализации доступа к СУБД без привязки к вендорам, альтернатива JDBC и ODBC и с поддержкой стандарта/формата Arrow по умолчанию. Выглядит логично и полезно․ Расшифровывается как Arrow Database Connectivity.
- Salesforce Guts Tableau After Spending $15.7 Billion in 2019 Deal [7] в Salesforce увольняют 10% сотрудников, включая тех кто работает в приобретённым ими ранее Tableau. Интересно как это отразится на продукте в итоге.
Ссылки։
[1] https://counting.substack.com/p/data-science-has-a-tool-obsession
[2] https://blog.malt.engineering/what-if-we-rewrite-everything-e1662e86da41
[3] https://httpie.io/blog/ai
[4] /channel/begtin/3871
[5] https://cnr.sh/essays/recap-for-people-who-hate-data-catalogs
[6] https://arrow.apache.org/blog/2023/01/05/introducing-arrow-adbc/
#data #datatools #readings #technology
Особый жанр в рынке данных - это стартапы-дискаунтеры, расширяющие доступность данных переводя премиум-продукты в разряд общедоступных меняя модель ценообразования. У Александра Горного интересный пост [1] про стартап Databento [2]. Данные те же что и у других провайдеров высокочастотных биржевых данных, но покупать можно небольшими порциями и иметь возможность обучать свои алгоритмы без очень дорогих коммерческих подписок. Получили $63M инвестиций за 3 года, последний раунд в $31.8M был анонсирован 19 декабря 2022 года. [3]
Другой пример стартапа Rejustify [4], это стартап по обогащению данных общедоступной статистикой. Можно сказать полноценно стартап на открытых данных. Они используют данные из проекта DB Nomics о котором я ранее писал [5] и помогают обогащать таблицы данными этих показателей. Сумма привлеченных инвестиций не раскрывается и, лично по мне, так у них всё плохо с маркетингом, но сама задумка более чем интересная.
Ещё один любопытный испанский стартап Citibeats [6] отслеживающий общественное мнение по публикациям в социальных сетях. От других подобных продуктов отличаются автоматическим построением отчетов и отслеживанием тем, в основном, связанных с международной повесткой. А то есть ориентированы они на международный бизнес и межгосударственные структуры. Привлекли $4M инвестиций, что немного и поэтому интересно где они берут данные и как их собирают. Потому что $4M будет достаточно только для интерфейса и обработки данных, а сбор тут самое дорогое.
Ссылки։
[1] /channel/startupoftheday/2752
[2] https://databento.com
[3] https://www.crunchbase.com/organization/databento
[4] https://rejustify.com
[5] /channel/begtin/4512
[6] https://www.citibeats.com
[7] https://www.crunchbase.com/organization/citibeats
#startups #data #opendata
Восстанавливаю привычку писать в блог тексты длиннее половины страницы. Написал в рассылку большой пост [1] про общедоступные каталоги межгосударственных структур вроде ООН того как они развиваются и с множеством примеров каталогов данных таких организаций.
Если коротко։
1. Развиваются хорошо, открытых данных всё больше
2. Десятки порталов открытых данных создано межгосударственными структурами.
Ссылки։
[1] https://begtin.substack.com/p/cb4
#opendata #un #datasets #blogging