Telegram-канал begtin - Ivan Begtin: Business and Startups - каталог телеграмм

begtin | Business and Startups

Subscribe to a channel

Telegram-канал begtin - Ivan Begtin

7027

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Subscribe to a channel

Ivan Begtin

14 November 2022 13:05

Такое чувство что всех дата продуктами интересуется, пользуется и развивается как аналитик данных и дата инженер не обошла тема modern data stack. Я регулярно писал о том как эта концепция набирала обороты последние 2-3 года и сейчас превратилась в какой-то непрерывный хайп. Вот и автор текста Is It Time To Rebrand (or Rethink) the Modern Data Stack? [1] соучредитель стартапа Validio задаётся тем же вопросом.

Не пора переосмыслить само это понятие?

А с другой стороны интервью с основателем dbt по поводу партнерств в Modern data stack [2].

Лично я бы сказал так, что для применения в гос продуктах modern data stack пока, практически, невозможен или крайне ограничен, поскольку все танцы с бубном тут вокруг облачных хранилищ и их экосистемы.

А для стартапов и корпоративных продуктов и дата инфраструктуры это актуально, но надо делить на 10 все обещания "серебрянных пуль". И отдавать себе отчет в рисках и моделировании инфраструктуры из десятков компонентов вне своего прямого контроля.

Ссылки:
[1] https://betterprogramming.pub/is-it-time-to-rebrand-or-rethink-the-modern-data-stack-5d76366e3c95
[2] https://www.madrona.com/dbt-labs-founder-tristan-handy-on-the-modern-data-stack-partnerships-and-creating-community/

#moderndatastack #data #readings

Читать полностью…

Ivan Begtin

14 November 2022 07:03

В рубрике полезного регулярного чтения

Tragedy of the Digital Commons [1] свежая научная статья об открытом исходном коде и роли государства в контексте уязвимости Log4Shell. Суть статьи в размышлении вокруг проблемы того что сообщество открытого кода само не всегда может оперативно и с достаточными ресурсами реагировать на zero-day уязвимости и о том какова роль государства в этом всём. Автор приходит к мысли что государство выступает как орган стандартизации, клиент, регулятор и контрибьютор кода, а также как потенциальная ресурсная база для сообществ открытого кода. При этом то что саморегулирование в открытом коде распространено повсеместно и попытки прямого регулирования могут повредить.

GDP is getting a makeover — what it means for economies, health and the planet [2] статья в Nature о том том что GDP (ВВП) теперь является плохой метрикой экономики и что эта метрика должна быть заменена, приводятся несколько подходов к такой замене в том числе через Gross Ecosystem Product (GEP) [3]. Помимо всего прочего это может изменить подход к макроэкономической статистике и её расчетам.

Ethics, Integrity and Policymaking [4] книга об этичном регулировании и доказательной политике, в открытом доступе. Она вся построена из примеров в Хорватии, Великобритании, Индии, Эфиопии и не только. Плюс затрагивает тему регулирования и применения в регулировании искусственного интеллекта.

Data Structures the Fun Way [5] книга рассказывающая о структурах данных смешным образом. С сайта можно скачать одну главу, а целиком только если заказать онлайн. По сути книга о том как устроена организация разного типа данных, но в слегка юмористическом стиле в части примеров и диалогов. Полезно для всех кто разрабатывает базы данных и работает с данными в задачах требующих высокой производительности.

Ссылки:
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4245266
[2] https://www.nature.com/articles/d41586-022-03576-w
[3] https://www.nature.com/articles/d41586-020-01390-w
[4] https://link.springer.com/book/10.1007/978-3-031-15746-2#about-this-book
[5] https://nostarch.com/data-structures-fun-way

#opensource #opengov #security #opendata #data #policymaking #readings

Читать полностью…

Ivan Begtin

12 November 2022 08:46

Mage.ai свежий инструмент по организации пайплайнов для обработки данных [1]. Его команда позиционирует продукт как замену Airflow. За продуктом команда поднявшая $6.3M инвестиций в октябре 2021 года на ИИ инструмент для разаботчиков продукта.

Если честно, ИИ там не видно, но есть аналог Airflow со смазливым интерфейсом и неполной документацией. Тем не менее продукт любопытный, последить за ним стоит.

Ссылки:
[1] https://www.mage.ai/
[2] https://www.crunchbase.com/organization/mage-38af/company_financials

#data #startups #datatools

Читать полностью…

Ivan Begtin

10 November 2022 07:44

Подробности по делу за использование VPN, на самом деле там оказался не VPN, а мессенжер Vipole

что ничуть не лучше, поскольку формулировки дела таковы:
...осуществил поиск вредоносной компьютерной программы «Vipole», выражающейся в невозможности однозначной идентификации пользователя сети «Интернет» и его сетевой активности...
и
...осознавая, что использование данной программы приведет к нейтрализации средств защиты компьютерной информации провайдеров, регулярно осуществлял запуск вредоносной компьютерной программы «Vipole» со своего персонального компьютера, тем самым используя ее...

Под эти формулировки попадают, и VPN, и мессенжеры вроде Signal и ещё много что.

#privacy #security #vpn #messengers

Читать полностью…

Ivan Begtin

09 November 2022 07:29

Полезное чтение про данные и не только:
- No, you don’t need MLOps [1] текст о том что MLOps это маркетинговый термин на который не надо покупаться и есть много инструментов настолько упростивших создание моделей для data science что покупаться на MLOps не нужно.
- Raster4ML [2] программная библиотека для Python по извлечению данных для машинного обучения из спутниковых снимков. По сути превращает растр в данные
- Command-line data analytics made easy [3] заметка про spysql, утилиту командной строки на Python позволяющей делать SQL подобные запросы к файлам CSV или JSON.
- Process Large Dataset with DataTable, Replacement for Pandas Library? [4] потенциальная альтернатива Pandas, библиотека datatables. Довольно давняя, но и Pandas интегрировано много с чем что сильно его ускоряет.

Ссылки:
[1] https://lakshmanok.medium.com/no-you-dont-need-mlops-5e1ce9fdaa4b
[2] https://raster4ml.readthedocs.io/index.html
[3] https://danielcmoura.com/blog/2022/spyql-cell-towers/
[4] https://towardsdev.com/process-large-dataset-with-datatable-replacement-for-pandas-library-31414cbba549

#readings #data #datatools #opensource

Читать полностью…

Ivan Begtin

08 November 2022 17:04

В рубрике полезных инструментов по работе с данными, инструменты по документированию баз данных.
- schemaspy [1] довольно древний популярный инструмент по генерации документации к базам данных. На входе настройки подключения, на выходе папка с HTML файлами. Сам движок написан на Java, поддерживает только SQL базы данных, но не все.
- dbdocs.io [2] онлайн сервис/продукт по генерации документации к базам данных․ Кусочек в открытом
коде, но сам сервис онлайн. Self hosted версии пока нет․ Эта же команда разработчики стандарта DBML [3] по описанию баз данных
- tbls [4] движок по генерации документации написанный на Go. В том числе поддерживает NoSQL и генерацию документации в разных форматах и с очень гибкими настройками.
- SchemaCrawler [5] открытый код на Java и поддержка любой СУБД через JDBC, очень много возможностей и опций.

А также есть много узкоспециализированных инструментов и коммерческих продуктов.

В средних и крупных компаниях сейчас такими инструментами пользуются редко поскольку мигрируют на каталоги данных и системы управления метаданными, поскольку важнее становится не только то где данные хранятся, а все объекты дата-инженерии, взаимосвязи, data lineage (нет нормального перевода этого термина) и так далее.

Тем не менее инструменты документирования данных имеют своё применение. Лично я предполагаю их будущее в направлении загрузки данных в каталоги данных.

Ссылки:
[1] https://github.com/schemaspy/schemaspy
[2] https://dbdocs.io
[3] https://www.dbml.org
[4] https://github.com/k1LoW/tbls
[5] https://github.com/schemacrawler/SchemaCrawler

#data #datatools #opensource #datadocumentation #datacatalogs

Читать полностью…

Ivan Begtin

08 November 2022 12:34

Интересные стартапы про данные и их свежие раунды финансирования:
- Galileo [1] MLOps платформа для интеграции машинного обучения на Python с подключением отладки и мониторинга. Подняли раунд А на $18M.
- Dataloop [2] стартап по разметке данных с фокусом на качество данных. Получили $33M в рамках раунда B
- Alation [3] стартап за одноимённым продуктом каталогов данных. Подняли $123M в рамках раунда E. У них много продуктов, непонятно на какой именно пойдут инвестиции.

Ссылки:
[1] https://techcrunch.com/2022/11/01/mlops-platform-galileo-lands-18m-to-launch-a-free-service/
[2] https://dataloop.ai/blog/dataloop-raises-33-million-to-help-companies-build-data-engines-for-ai/
[3] https://www.alation.com/press-releases/alation-raises-series-e-funding/

#data #startups

Читать полностью…

Ivan Begtin

05 November 2022 09:58

9. Одна из наиболее внятных и разумных инициатив - конкурсы Код-ЦТ и Код-ИИ организуемые Фондом содействия инноваций - это реальные попытки хоть что-то изменить и попытаться опереться на те ИТ компании и ИТ команды которые готовы и умеют развивать продукты с открытым кодом. ФСИ даёт гранты даже большие чем германский Prototype Fund, но это капля в море по сравнением с субсидиями академическим институтам и университетам на научную деятельность результат которой не виден, не известен и закрыт.
10. Аналогично с инициативами связанными с Национальным репозиторием кода, Гостехом и ещё много чем. Для понимания, в основе Гостех в Сингапуре или в Эстонии открытый код. Все лучшие примеры цифровизации госухи в мире на которые сотрудники РосГосТеха могут ссылаться тоже будут открытыми, а вот их платформа даже намеков на открытость не имеет
11. В случае с национальным репозиторием кода, то что он заменит ФАП не означает что код там будет открыт. Скорее он будет открыт для технического аудита, но даже не факт что разработка будет вестись в нём, а не использоваться только для публикации кода в момент сдачи контрактной отчетности. Это уже прогресс, но медленный.
12. Но, я повторюсь, что всё начинается с открытости результатов научных исследований. Почему он не публикуется? Спросите Минобрнауки, но там даже отвечать некому;)

Тут надо бы добавить что всё это было справедливо в мирные времена, а сейчас многие из тех кто понимает что и как можно было бы исправить и изменить, не будут работать с российскими госорганами ни на каких условиях, даже если госполитика цифровизации была бы иной.

Ссылки:
[1] https://data.world/ibegtin/open-source-government-project
[2] https://government.github.com/

#government #opensource #it #opendata #openaccess #research

Читать полностью…

Ivan Begtin

04 November 2022 06:47

В рубрике полезного чтения про данные, технологии и не только:
- Coding for economists [1] руководство по программированию для экономистов, автор пишет книгу которая уже частично доступна. В книге о том как обрабатывать экономические данные, статистику, много примеров в Jupyter Notebook, эконометрии и визуализации данных. Напоминает похожие книги по программированию для историков и многих гуманитарных профессий.
- Dashboard Design Patterns [2] шаблоны проектирования дашбордов собранные группой специалистов по визуализации. Полезно, но оторвано от шаблонов потребления значений в дашбордах, это ощущается и по команде тех кто делает ресурс, почти все они из академического сообщества.
- Where are the Datasets? A case study on the German Academic Web Archive. [3] автор научной статьи попытался поискать наборы данных на сайтах академических учреждений Германии используя веб архив GAW (German Academic Web) с архивом сайтов основных научных институтов Германии. Автор пишет что мало что удалось найти и многое ещё можно сделать.

Ссылки:
[1] https://aeturrell.github.io/coding-for-economists/intro.html
[2] https://dashboarddesignpatterns.github.io/
[3] https://amor.cms.hu-berlin.de/~jaeschkr/pdf/younes2022where.pdf
[4] https://german-academic-web.de/

#opendata #data #dataviz #opensource

Читать полностью…

Ivan Begtin

03 November 2022 13:48

Из открытого доступа исчезло содержание сайта ИА REGNUM (regnum.ru), вначале была заглушка с текстом о конфликте редакции с собственником, далее нейтральная, но в любом случае ситуация такова что всё содержание исчезло одномоментно.

Мы ранее не архивировали сайт Regnum'а исходя из того что СМИ редко исчезают одним днём, такое происходило ранее только с сайтом znak.com, закрывшемся в марте 2022 года, поэтому архивной копии сайта Regnum у нас нет.

Если содержание сайта Regnum не вернётся в ближайшие дни, то наша команда постарается восстановить его содержимое из кэша поисковых систем и внести к нам в архив.

Но даже в этом случае, если у кого-либо есть копия содержания сайта, или если кто-то делал его копию - просим ей поделиться и мы добавим её в Ruarxive.org и сделаем общедоступной.

#webarchives #digitalpreservation #mediaarchive

Читать полностью…

Ivan Begtin

02 November 2022 05:26

В июне 2022 г. я писал несколько предсказаний [1], в том числе то что VPN станет госуслугой. За 3 месяца этого не произошло, но вот свежая новость

Минцифры проводит работу по изучению потребностей и особенностей использования технологий и сервисов VPN (Virtual Private Network) на территории Российской Федерации. [2]

Зачем сотрудники Минцифры это делают можно предполагать разное, но сценарий с блокировкой всех основных VPN протоколов и регистрация пользователей VPN через Госуслуги я бы не исключал. В рамках текущего цензурного госрегулирования это вполне очевидный шаг, плохой, но очевидный.

Что будет в итоге? Правильно, расцветут VPN'ы через все "нестандартные" протоколы.

Ссылки:
[1] /channel/begtin/3971
[2] /channel/Telecomreview/9682

#vpn #security #privacy #government #russia

Читать полностью…

Ivan Begtin

01 November 2022 16:51

Меня время от времени спрашивают что я думаю про те или иные российские технологические государственные инициативы, вроде того же ГосТеха. И я давно хочу написать про самый главный важнейший приоритетнейший и тд. критерий при рассмотрении всех таких систем и, кстати, деятельности любых госорганов, организаций и всего остального.

Критерий очень простой - насколько стране и скольким людям станет плохо если это исчезнет, безвозвратно и невосстановимо. Самое простое и понятное - представьте что упадёт метеорит (менее красивый, но более реалистичный аналог - представьте что сменится правительство и новое всех разгонит).

Например, давайте предположим на ФКУ Гостех упадёт метеорит и упадёт он так точно что накроет сразу здание, команду, сервера и все что касается проекта. То есть Гостех перестанет существовать как сущность в какой-либо форме. Насколько серьёзно пострадает работа госорганов? Сколь многих людей это затронет?

Я подскажу, затронет немногих, критическая инфраструктура не пострадает, граждане не останутся без госуслуг, госорганы не потеряют возможности коммуникации, ключевые бизнес процессы и функции государства не пострадают.

Для сравнения если аналогичный метеорит упадёт на ФГИС Электронный бюджет, АИС Налог-3 или портал Госуслуг, то стране будет плохо, число пострадавших граждан, бизнесов и тд. будет исчисляться десятками миллионов.

Аналогичный подход применим и к любым организациям и госструктурам. Если, например, случится зомби-апокалипсис, или упадёт метеорит, или ликвидируют одним днём, или ещё что-то не менее смешное и апокалиптичное случится с Россотрудничеством, Росмолодежью, или вот уже случилось с Ростуризмом, и ещё со многими госорганами, то никто и не заметит. А если затронет "корневые" органы власти вроде Минфина и др. то заметят сразу и все.

Поэтому, в отношении Гостеха всё, на самом деле, очень просто. Пока он не стал критичной инфраструктурой он может просто не пережить электоральный цикл и смену Пр-ва. А если не станет в ближайший год-два, то точно не переживёт.

#thoughts #government #it

Читать полностью…

Ivan Begtin

01 November 2022 05:34

В рубрике интересных ссылок про данные, технологии и не только:
- This Implant Turns Brain Waves Into Words [1] в журнале IEEE Spectrum об импланте преобразующем мозговые волны в слова на экране. Выглядит как большой прорыв и он основан, в том числе, на нескольких больших датасетов собранных исследователями и объединённых в нейросеть: данные по нейро активности и данные кинематики (движения мускулов) при речи.

Базы данных
- Why is PostgreSQL the most loved database [2] в блоге ByteByteGo о том почему все так любят СУБД Postgres. Если кратко, то многое в ней реализовано и есть немало расширений делающих эту систему ещё лучше.
- RQLite [3] продукт по превращению SQLite в распределённую СУБД. Казалось бы зачем, если есть Postgres, но кому-то нравится. В том числе реализует богатое Data API для доступа к данным.
- Go Performance Case Studies [4] в блоги Dolt внутренние подробности того как их разработчики пишут движок СУБД на Go. Пример того как выглядит технологический евангелизм не от маркетологов, а от инженеров.

Регулирование
- Europe prepares to rewrite the rules of the Internet [5] в Arstechnica о том как европейский Digital Markets Act может поменять экосистемы технологических гигантов, в части регулирования ИИ и многого другого. Косвенными бенефициарами будут и многие другие страны.
- Businesses call for mandatory nature impact data [6] 330 компаний из 52 стран призывают ввести обязательные отчеты для крупных компаний о воздействии их и зависимости от природы и природных ресурсов. Среди подписантов очень много крупных ритейловых, банковых, косметических и строительных холдингов.

Открытые данные
- The open data revolution [7] сэр Nigel Shadbolt, основатель Института открытых данных в Великобритании, рефлексирует над последним десятилетием и будущих годах развития открытости данных.
- Hyperlocal [8] не совсем про открытые данные, но связано с ними, о изменениях на территориях и поселениях на гиперлокальном уровне и принятиях решений связанных с гиперлокальностью

Ссылки:
[1] https://spectrum.ieee.org/brain-computer-interface-speech
[2] https://blog.bytebytego.com/p/ep30-why-is-postgresql-the-most-loved
[3] https://github.com/rqlite/rqlite
[4] https://www.dolthub.com/blog/2022-10-14-golang-performance-case-studies/
[5] https://arstechnica.com/tech-policy/2022/10/europe-prepares-to-rewrite-the-rules-of-the-internet/
[6] https://www.businessfornature.org/
[7] https://theodi.org/article/the-open-data-revolution-sir-nigel-shadbolt-reflects-on-the-odis-first-decade-and-considers-what-the-next-might-hold/
[8] https://www.brookings.edu/book/hyperlocal/

#opendata #opensource #ai #tech #regulation

Читать полностью…

Ivan Begtin

29 October 2022 07:27

Тем кто следит за российским и не только законодательством по регулированию данных будет интересна научная статья Does South Africa's Proposed State Ownership of Data Make Any Sense? [1] разбор черновика регулирования данных в Южной Африке который правительство страны публиковало в 2021 году для общественного обсуждения.

Там немало того что хорошо знакомо в России и других странах, например, требований по локализации данных. Но есть и одна немаловажная особенность: де-факто национализация всех данных создаваемых в Южной Африке.

Это звучит как:
10.4.1 All data classified/identified as critical Information Infrastructure shall be processed and stored within the borders of South Africa.
10.4.2 Cross-border transfer of citizen data shall only be carried out in adherence with South African privacy protection policies and legislation (POPIA), the provisions of the Constitution, and in compliance with international best practice.
10.4.3 Notwithstanding the policy intervention above, a copy of such data must be stored in South Africa for the purposes of law enforcement.
10.4.4 To ensure ownership and control:
• Data generated in South Africa shall be the property of South Africa, regardless of where the technology company is domiciled.
• Government shall act as a trustee for all government data generated within the borders of South Africa.
• All research data shall be governed by the Research Big Data Strategy of the Department of Science and Innovation (DSI).

Там же ещё много всего, а в научной статье аргументируется почему такой подход не работает и не может работать в принципе.

Но совершенно точно правительства многих стран думают и предпринимают шаги в том же направлении, признании данных аналогом [не]возобновляемого ресурса и вплоть до конституционного признания владения ими государством напрямую или государством через "владение народом".

Что будет если это произойдет? Давайте перенесем на российские реалии. Представьте себе что интернет сервисы будут работать только по концессии и лицензии. Не как сейчас, когда собираешь данные и регистрируешься в реестре операторов перс данных, а так что если ты хочешь собирать те или иные данные, то вначале на это получаешь разрешение с указанием что и как собираешь и где хранишь и только после этого ты можешь сбор и обработку данных начинать.

Кажется фантастикой? А ведь так работают многие отрасли. Так думают многие регуляторы. И только высокая динамика рынка труда ИТ специалистов, венчурного рынка и цифрового бизнеса сдерживает регуляторов от ужесточения контроля.

Ссылки:
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4238027
[2] https://www.gov.za/sites/default/files/gcis_document/202104/44389gon206.pdf

#data #regulation #laws #southafrica

Читать полностью…

Ivan Begtin

28 October 2022 17:11

Венчурный капиталист Томаш Тунгуз (Tomasz Tunguz) поделился прекрасным постом по итогам конференции Monte Carlo
про будущее дата-индсутрии на 2023 год.

Томаш как-то объявил, что в 2020 году мы вошли в декаду дату-стартапов и последовательно развивает этот тезис в своем блоге. За последние пару лет его работодатель, VC фонд, Redpoint Ventures проинвестировал в HEX, ClickHouse, Materialize, Monte Carlo, Omni. Большинство этих сделок лидидровал Томаш, так что прислушаться к его советам стоит.

Главные тезисы:

1. В 2021 году стартапы в области данных привлекли в общей сложности более $60 млрд, что составляет более 20% от всех венчурных долларов в мире.

2. Облачные хранилища данных (DWH) будут отвечать за 75% рабочих нагрузок (workloads) к 2024 году. За последние пять лет облачные DWH выросли с обработки 20% workloads до 50%. Оставшуюся часть составляют локальные базы данных. За это время объем отрасли вырос с $36 млрд до $80 млрд.

3. Workloads, связанные с данными, разделяются на три группы. In-memory бд, такие как DuckDB, будут доминировать в локальном анализе даже весьма массивных файлов. DWH сохранят классическое применение в BI и аналитике. Data lakes данных будут обслуживать таски, работающие с обработкой массивных данных, но которым не требуется высокая latency - и делать это за половину стоимости хранения.

4. Metrics layers объединит стек данных. Сегодня существует два разных направления в работе с данными – BI и машинное обучение. В первом случае мы используем ETL для перекачки данных в DWH, затем в BI или инструмент исследования данных. Отличие процессов машинного обучения том, что на выходе – обслуживание модели и обучение модели. Metrics layers станет единым местом определения метрик и характеристик, объединяя стек и потенциально перемещая обслуживание и обучение моделей в базу данных.

5. Большие языковые модели изменят роль инженеров по обработке данных. Здесь Томаш восхищается Copilot и верит, что подобные технологии, продвинут работу по проектированию данных на более высокий уровень абстракции.

6. WebAssembly (WASM) станет неотъемлемой частью приложений для работы с данными для конечных пользователей. WASM - это технология, которая ускоряет работу по браузера. Страницы загружаются быстрее, обработка данных происходит быстрее, а пользователи становятся счастливее.

7. Ноутбуки завоюют 20% пользователей Excel. Из 1 млрд. пользователей Excel в мире 20% станут пользователями, пишущими на Python/SQL для анализа данных. Эти блокноты станут приложениями для работы с данными, используемыми конечными пользователями внутри компаний, заменив хрупкие Excel и Google Sheets.

8. SaaS-приложения будут использовать облачные DWH в качестве бэкенда для чтения и записи (см.статью выше). Сегодня данные о продажах, маркетинге и финансах хранятся в разрозненных системах. Системы ETL используют API для передачи этих данных в DWH для анализа. В будущем программные продукты будут создавать свои приложения на базе DWH, чтобы воспользоваться преимуществами централизованной безопасности, ускорения процессов закупок и смежных данных. Эти системы также будут записывать данные в DWH.

9. Data Observability становится обязательным условием. Команды по работе с данными будут согласовывать показатели времени безотказной работы/точности данных. Сегодня команды по работе с данными сталкиваются с 70 инцидентами на 1000 таблиц.

@mobilefirstasia

Читать полностью…

Ivan Begtin

14 November 2022 10:25

Я регулярно писал о том что в России много открытых и общедоступных данных гос-ва через открытые API, нигде не документированные, но существующие [1]. Но это, конечно же, не только российская специфика и очень многие сайты создаются по архитектуре Jamstack [2] и данные подгружаются через вызовы REST API или запросы GraphQL.

Такой подход имеет много преимуществ при доступе с мобильных устройств и для ускорения настольных браузеров, но имеет один важнейший недостаток - контент сайтов выпадает из архивации. Поэтому, к примеру, многие данные с сайта Мэрии Москвы (mos.ru) не архивируются, они доступны только через API и не присутствуют в форме HTML кода.

А вот выдался и наглядный пример из другой страны. Относительно недавно обновился официальный сайт органов власти Республики Казахстан (www.gov.kz) [3]. Выглядит он сейчас весьма прилично, быстро грузится и обладает многими полезными характеристиками: удобным поиском, чёткой структурой и быстрым откликом.

И, как Вы уже догадались новый сайт Правительства Казахстана сделан именно таким. Почти весь контент отдаётся через GraphQL или REST API. Например, документы Министерства цифрового развития, инноваций и аэрокосмической промышленности Республики Казахстан [4] возвращаются именно через такое API [5]. Аналогично новости, события, вакансии, госуслуги, жизненные ситуации и тд. по всем организациям на этом портале.

Казалось бы почему бы не публиковать их сразу как открытые данные? Но это другой вопрос. Сейчас ничто не мешает желающим превращать данные из API с этого сайта/этой госсистемы в общедоступные наборы данных.

Но, конечно, это никак не поможет тому что сайт gov.kz будет хуже индексироваться поисковыми системами, что архивы материалов в Интернет-архиве (archive.org) будут не полны и что если теперь делать архивную копию этого сайта, то надо учитывать ещё и его API.

Ссылки:
[1] /channel/begtin/3303
[2] https://jamstack.org/
[3] https://www.gov.kz
[4] https://www.gov.kz/memleket/entities/mdai?lang=ru
[5] https://www.gov.kz/api/v1/public/content-manager/documents?sort-by=created_date:DESC&projects=eq:mdai&page=1&size=10

#opendata #opengov #digitalpreservation #webarchives #api #government #kazakhstan

Читать полностью…

Ivan Begtin

12 November 2022 10:03

В рубрике полезных инструментов по работе с данными, сервис GraphCommons [1] по визуализации графов онлайн. Он существует относительно давно и даже частично с открытым кодом [2] для подключения к нему программным образом.

Сервис позволяет рисовать довольно сложные графы, указывая типы объектов, виды связей и многое другое. Основное применение - это визуализация разного рода данных для презентаций или чтобы поделиться ими публично. Можно посмотреть на примере графа экосистемы открытости во Франции [3]. Выглядит неплохо, но не бизнес модель не тянет или тянет не до конца, компания не привлекала венчурного финансирования и создание графов в моменте не кажется ежедневно используемым продуктом. Для графов в расследованиях есть иные инструменты.

Тем не менее Graph Commons и Kumu, другой похожий продукт и компания, весьма любопытные продукты для визуализации графов.

На Kumu я когда-то делал довольно визуализаций помогающих структурировать какие-либо материалы, например, верхнеуровневый граф предустанавливаемого российского ПО в на телефоны для андроида [5]. Но это, что называется, самый что ни на есть простой пример, более сложные, увы, не имею права показывать. Но, в итоге, Kumu как продукт скорее разочаровывающий. Потенциал хороший, развитие минимальное.

Кроме этих двух продуктов есть много других: Neo4J, GraphXR, Aleph, Maltego, Linkurious, Graphistry и другие.

Ссылки:
[1] https://graphcommons.com
[2] https://github.com/graphcommons
[3] https://graphcommons.com/graphs/baa12ee7-e391-4f02-acd6-dda3b73d8c9d?show=info
[4] https://kumu.io/
[5] https://embed.kumu.io/db05ce5d67611103337a6a101da9d937

#graph #dataviz #startups #data

Читать полностью…

Ivan Begtin

11 November 2022 10:54

Для тех кто недавно подписался и в качестве регулярных напоминаний о том кто я и о чем тут пишу.

Я много лет в занимаюсь темой открытых данных и возглавляю АНО Инфокультура НКО со специализацией на открытости данных, государства и, в последние годы, приватности. Наши проекты включают Госзатраты, Открытые НКО, Простым языком и многие другие, их можно найти на сайте. У Инфокультуры есть телеграм канал @infoculture․ Много лет мы организовывали ежегодное мероприятие Open Data Day в России, в этом годы мы не стали этого делать поскольку как диалог с гос-вом она более не работает, большинство людей активно действовавших в открытости гос-ва покинули Россию.

Также я являюсь основателем проекта Национальный цифровой архив (Ruarxive) в котором наша команда архивирует сайты и иной цифровой контент находящиеся под угрозой исчезновения. О нём можно узнать больше в телеграм канале @ruarxive.

Цифровой архив (Ruarxive) и исследования о приватности такие как Исследование приватности мобильных приложений в RuStore - это то на чём мы делали акцент последние пару лет, видя как ухудшается ситуация с открытостью в России.

Пока ещё всем этим удаётся заниматься, хотя и риски растут, а многие наши друзья и некоммерческие организации были признаны инагентами, покинули страну и подвергаются ничем не обоснованным гонениям. Но, безусловно, ресурсов на некоммерческую деятельность стало сильно меньше.

Сейчас значительная часть всей этой некоммерческой активности финансируется тем что она поддерживается нашей коммерческой ИТ компанией где наша ИТ команда делает коммерческие и некоммерческие ИТ проекты, часть из которых известны, часть гораздо меньше чем публичные некоммерческие проекты. Подробнее о нашей компании DataCoon и продаем сервисы через такие продукты как APICrafter.

В основе всех проектов лежит открытый код, значительная часть которого открыта нами и публикуется на нескольких аккаунтах на Github.

Я лично финансирую деятельность Инфокультуры и некоммерческие проекты занимаясь консалтингом, консультациями и преподаванием по темам работы с данными и передавая полученные средства на некоммерческую деятельность.

Из России вы можете помочь нашим проектам пожертвовав на сайте Инфокультуры, а также при заказе нам технологических проектов и продуктов можете быть уверены что часть этих средств пойдет на поддержание некоммерческой деятельности.

Также, для проекта Цифрового архива можно пожертвовать сервера, компьютеры, диски, системы хранения и сетевое оборудование. Мы используем его для создания резервных копий и улучшения инфраструктуры проекта.

В этом телеграм канале (@begtin) я пишу по темам открытости данных, технологиях, работы с данными в принципе, инженерии данных, государственных технологиях (gov tech) и стартапах.
Значительно реже, я пишу о общетехнологических вопросах и проблемам с которыми все мы сталкиваемся.

Пожалуйста, имейте это в виду когда подписываетесь, вполне возможно что темы этого канала могут оказаться слишком техническими для кого-то и недостаточно глубоко техническими для других.

#opendata #opensource #opengov #infoculture

Читать полностью…

Ivan Begtin

09 November 2022 21:31

Похоже, ПЕРВАЯ УГОЛОВКА за использование VPN в личных целях!

Подписчик, Андрей Лаптев, прислал прекрасное. Томский районный суд приговорил гражданина К. к 3-м годам ограничения свободы за использование VPN-программы, квалифицировав данное деяние по ст.273 УК РФ (вредоносные программы). Осужденный признал, что с помощью VPN были нейтрализованы средства защиты компьютерной информации, выразившиеся в невозможности однозначной идентификации пользователя и его сетевой активности в сети «Интернет».

Оборот «регулярно осуществлял запуск вредоносной компьютерной программы со своего персонального компьютера, тем самым используя ее» поверг меня в легкий ступор, но такова уж наша судебная лексика.

Обратите внимание. Речь идет об ограничении свободы, а не о лишении. То есть в места не столь отдаленные 👮 виновник не пойдет, но три года - это три года! Железный занавес 🤬 все ближе…

ЗЫ. По ссылка пока только резолютивная часть - приговор в силу еще не вступил.

Читать полностью…

Ivan Begtin

08 November 2022 19:03

Вышел доклад/исследование State of Frontend [1] по технологиям фронтэнд разработки основанный на опросе 3703 разработчиков и с комментариями нескольких экспертов. Хотя я лично и далёк от темы фронтэнда, но тут большой любопытный текст с интересными результатами.

Вот подборка фактов:
- большинство прошедших опрос работают дистанционно: 59.7%, ещё 35.3% в гибридном формате
- в безусловных лидерах фреймворки Angular (51%) и React (25%), наиболее перспективные Svelte и Next.js
- самые популярные дизайн системы Material UI, Tailwind UI и Bootstrap
- Typescript используют 84% разработчиков и большинство (43%) считают что он заменит Javascript однажды
- большинство используют сервера AWS (Amazon) или свои собственные
- подавляющее большинство используют Visual Studio Code: 74.4%

И там ещё много всего, что-то кажется очевидным, что-то совсем нет. Например, про VS Code или про Typescript.

Ссылки:
[1] https://tsh.io/state-of-frontend/

#reports #research #frontend #javascript #development

Читать полностью…

Ivan Begtin

08 November 2022 16:30

Тем временем в Финляндии организуют конкурс на создание приложений по преодолению энергетического кризиса [1], ключевое условие - использование открытых источников данных или частных данных и реализация проекта на принципах честной экономики данных (fair data economy) о которой их мозговой центр Sitra публиковал свод правил [2]. Идей для конкурса там много, например, рекомендации потребителям по времени использования электричества за меньшую цену или анализ энергопотребления домохозяйств или бизнеса и рекомендации по корректировке.

В целом публикация открытых данных и конкурсы и хакатоны и иные соревнования для этого и нужны, для решения актуальных задач.

Для участия не обязательно быть из Финляндии, но заявки из России врядли примут. Возможные суммы финансирования: от 5 до 15 тысяч евро на первом этапе и от 20 до 65 тысяч евро на втором.

Ссылки:
[1] https://www.sitra.fi/en/projects/call-for-solutions-using-data-to-curb-energy-use/
[2] https://www.sitra.fi/en/publications/rulebook-for-a-fair-data-economy/

#opendata #contests #energy #finland

Читать полностью…

Ivan Begtin

07 November 2022 13:09

В рубрике интересных инструментов с открытым кодом для работы с данными и не только, сегодняшняя подборка:
- Surrealdb [1] распределённая СУБД с поддержкой SQL и NoSQL, написана на Rust, позиционируется как СУБД для веба реального времени. По факту, конечно, реального времени там нет. Много разных интересных возможностей и собственный язык запросов SurrealQL [2]
- Mastodon [3] альтернатива Твиттеру с открытым кодом. О нём многие давно знают, поэтому просто напоминание для тех кому Твиттер может стать дискомфортным после прихода туда Элона Маска
- Stash [4] очень важный и нужный и актуальный инструмент по организации порно на собственном компьютере/сервере.
- Hosts [5] файл hosts из 152+ тысяч записей тщательно собранных и используемых, например, для фильтрации контента. По сути это агрегатор из десятков источников используемых для защиты компьютеров пользователей.
- Awesome forensic tools list [6] мой собственный репозиторий с коллекцией инструментов для цифрового дознания. Чаще оно называется OSINT и используется для сбора данных из доступных источников.

Ссылки:
[1] https://github.com/surrealdb/surrealdb
[2] https://surrealdb.com/features#surrealql
[3] https://github.com/mastodon/mastodon
[4] https://github.com/stashapp/stash
[5] https://github.com/StevenBlack/hosts
[6] https://github.com/ivbeg/awesome-forensicstools

#opendata #opensource #datatools

Читать полностью…

Ivan Begtin

05 November 2022 09:58

Про открытый код, роль государства и что не так с этим сейчас в России и не только

Я много лет занимался проектом Open Source Government [1] оценки того как много и как именно открытого кода публикуют органы власти по всему миру. Собственно ещё в прошлом году были планы сделать его не pet-проектом, а полноценным, с веб-сайтом, рейтингом и тд., но он основывался на данных о коде публикуемом органами власти и гражданскими хакерами на Github [2]. Перспективы публикации там российского госкода теперь минимальны. Так что если его делать то только без России.

И вот об этом я хочу в очередной раз сказать, блеск и нищета открытости кода в России в отсутствии не только внятной госполитики его поддержки, но и применения открытого кода в целом.

Ключевое тут в том как открытый государственный код становился госполитикой в мире и как он продолжает развиваться. Поскольку это жанр текста в телеграм, я не буду тут приводить много ссылок на законы и публикации, только тезисами:
1. Политика открытого кода в фактическом регулировании начиналась в областях создания общественного блага на деньги налогоплательщиков. А то есть - это научные работы, исследования и иные продукты создаваемые за счёт государственных грантов. Большая часть открытого кода и, кстати, открытых данных в США созданы государственными научными учреждениями. Аналогично во многих других странах.
2. Открытый код публикуемый органами власти - это то же самое что открытый код крупный корпораций и компаний. Сильным трендом это стало за последние 15 лет и, причины этого в:
а) Появлении больших платформ открытой разработки таких как Github, Gitlab и др.
б) Появлении большого числа гражданских хакеров (civic hackers), людей заинтересованных в улучшении сервисов государства и готовых помогать в этом
в) Стремлении экономить средства налогоплательщиков
г) Необходимости интеграции в существующие экосистемы открытых проектов, когда чтобы улучшить их под себя необходимо и самому публиковать открытый код.
3. В России отсутствуют и отсутствовали требования РНФ, РГНФ, РНЦИ и других каналов госфинансирования науки по обязательному раскрытию кода. Научные организации если и публикуют открытый код, то это единичные случаи, часто не подкреплённые даже локальными нормативными документами.
4. В России у государственных органов опыта ведения открытой разработки нет. Подчеркну, не раскрытия кода, а именно ведения открытой разработки. Публикация кода - это процесс связанный с прозрачностью гос-ва. Оно необходимо для технического аудита и важно, но открытая разработка - это публичность команды разработки, готовность этой команды вести технологический евангелизм, взаимодействовать с другими и вовлекать других разработчиков в улучшение продуктов.
5. В мире таких людей много, но не фантастически много, чаще всего к разработке кода на государство привлекались/нанимались люди, либо из сообществ гражданских хакеров, либо с хорошим личным опытом в работе над открытым кодом. Многие известные мне команды и отдельные разработчики имели опыт с работой над открытым кодом государственных научных учреждений.
6. Отдельная и важная категория гражданских хакеров, кто-то из них прагматично уходил работать на государство, потом возвращался или оставался, а кто-то продолжают развивать продукты на открытом коде не вступая с госорганами в трудовые отношения, получая гранты от частных или госфондов на развитие открытого кода.
7. В России большая часть таких гражданских хакеров господдержки не получало, а в течение последнего десятилетия ещё и были под нарастающим прессингом с признанием инагентами ряда НКО где они были.
8. Поэтому, в качестве тезиса, в России за эти годы государство не накопило ни компетенций, ни внятной госполитики, ни кадрового потенциала для создания репутации в открытости кода.

Читать полностью…

Ivan Begtin

03 November 2022 22:24

О том как развивается открытие данных в мире. Во Франции государственная ИТ команда Etalab разметила обновлённый интерфейс просмотра данных национального портала открытых данных data.gov.fr [1].

Интерфейс чем-то напоминает коммерческие продукты такие как Socrata и OpenDataSoft, а чем-то движок публикации данных datasette с открытым кодом.

Сам подход заключается в том чтобы уже опубликованные данные приводить в более удобный вид. Путь интересный, но не единственный.

Ссылки:
[1] https://explore.data.gouv.fr

#opendata #france #eu

Читать полностью…

Ivan Begtin

03 November 2022 05:24

В рубрике больших открытых наборов данных HTTP Archive [1], большая открытая база по веб-технологиям собираемая из данных миллионов веб сайтов и составляющая почти 44ТБ данных и 8.4М сайтов на 2022 год.

Команда проекта состоит из волонтеров которые ежегодно актуализируют эту базу данных и подготавливают веб-альманах с рассказом о том как технологии меняются и развиваются. Альманах за 2022 год [2] был выпущен в сентябре 2022 г. и обновлен в октябре и включает много интересного, например, раздел про публикацию структурированных общедоступных данных в формах JSON-LD, микроформатах и тд. [3]. Интересный факт - структурированных данных всё больше, самые популярные форматы RDF и Open Graph.
Правда важно отметить что RDF - это RDFa и применяется, в основном, для отметки изображений с типом foaf:image. А вот использование microformats2 [4] совершенно минимальное.

Там очень много что есть изучить по производительности, разметке, приватности, безопасности и иным сведениям по датасету.

В качестве примера, любопытные языковые и страновые факты:
- русский язык указан на веб-страницах в HTML примерно 2% сайтов (входит в список наиболее популярных наравне с английским, немецким, испанским, португальским и японским)
- самые популярные "фабрики шрифтов" (font foundries) - это Google и Font Awesome
- кириллические шрифты вторые по распространённости после латинского письма
- 1С-Битрикс входит в топ-10 CMS, правда, с наихудшими, по сравнению с остальными, оценками доступности контента для людей с ограниченными возможностями

Важно то что все эти данные общедоступны через Google BigQuery․ К ним можно подключится и делать нужные выборки сведений, для чего есть подробное руководство [5].

Поэтому практически ничто не мешает использовать эти данные в собственных исследованиях.

Ссылки:
[1] https://httparchive.org/
[2] https://almanac.httparchive.org/en/2022/
[3] https://almanac.httparchive.org/en/2022/structured-data
[4] https://microformats.org/wiki/microformats2
[5] https://github.com/HTTPArchive/httparchive.org/blob/main/docs/gettingstarted_bigquery.md

#opendata #datasets #web

Читать полностью…

Ivan Begtin

01 November 2022 19:07

История Рунета нашими глазами

За 10 лет в цифровом мире произошло много всего. Сейчас мы собрали наиболее важные события, связанные с блокировками в Рунете и другими нарушениями цифровых прав: от «чёрного списка» сайтов, через слежку, блокировку Telegram и Tor, а также давление на СМИ, до военной цензуры.

Россия прошла регрессивный путь в области свободы Рунета. Но хорошее тоже было. Хорошее – это мы с вами. То, что мы делали, чтобы отстоять свои цифровые права и свободы. К сожалению, они не даются без борьбы. Но мы верим, что технологии развиваются быстрее, чем цензура.

Мы остаёмся на страже цифровых прав и желаем всем вам быть в безопасности, а мы вместе с вашей помощью продолжим отстаивать наши с вами цифровые права всеми своими силами и возможностями!

История Рунета нашими глазами
➡️ https://x.roskomsvoboda.org/

Другие релизы сегодняшнего дня: материал издания «Новая газета. Европа» о десятилетии блокировок в России, большое обновление Censor Tracker, а также обновление визуализации нашего реестра запрещённых сайтов
➡️ https://roskomsvoboda.org/post/desyat-let-jubiley-rks/

Читать полностью…

Ivan Begtin

01 November 2022 15:05

В полку сервисов/продуктов на базе ИИ по автоматизации написания кода прибыло, в Arstechnica статья и Replit Ghostwriter [1], прямой конкурент Github Copilot и умеющий программировать и объяснять на 16 языках. Они предоставляют несколько тарифных планов, начиная с бесплатного и до $7 в месяц [2] для работы в online IDE.

С одной стороны такие сервисы это явный и безусловный прогресс, не всё можно автоматизировать, но очень многое. А вместе с NoCode платформами есть шанс на то что часть разработки перейдет на такие IDE и платформы автоматизация программирования.

А с другой стороны, конечно, это сильный драйвер в сторону зависимости от облачных платформ, даже ещё больше чем сейчас. Сейчас, по моему личному мнению, настольные IDE очень хороши и мигрировать в облака большого резона нет, кроме тех областей где иначе нельзя. А в продуктах вроде Copilot и Ghostwriter закладывается модель cloud-first и цикл разработки компании получает ещё одну зависимость.

Тем не менее тема очень горячая, у меня нет сомнений что инвестиции в неё и гибриды с NoSQL будут существенно расти в ближайшие годы.

Ссылки:
[1] https://arstechnica.com/information-technology/2022/10/replits-ghostwriter-ai-can-explain-programs-to-you-or-help-write-them/
[2] https://replit.com/pricing

#ai #programming

Читать полностью…

Ivan Begtin

30 October 2022 06:31

В Великобритании запустили свежий портал открытых данных, на сей раз по теме планирования и управления территориями, planning.data.gov.uk [1].

В отличие от файлов/классических порталов открытых данных он написан с нуля и его код открыт [2] и все загруженные в него данные доступны изначально в структурированных унифицированных форматах, с полным описанием входящих таблиц которые сейчас отдают в форматах JSON и CSV и API, а обещают ещё и добавить экспорт в формат data packages и GeoJSON. У проекта есть дорожная карта [3] где обещано это и новые данные.

На что стоит обратить внимание:
1. Это портал открытых данных создаваемый с чётким пониманием того как данные будут использоваться.
2. Структурированное представление данных похоже на то что мы делаем в проекте Datacrafter.ru [4] и ещё ряде продуктов. Не просто файло-помойка данных, а хорошо подготовленные данные.

Ссылки:
[1] https://www.planning.data.gov.uk/
[2] https://github.com/digital-land/digital-land.info
[3] https://www.planning.data.gov.uk/about/roadmap
[4] https://datacrafter.ru

#opendata #uk #planning #housing #datacatalogs

Читать полностью…

Ivan Begtin

28 October 2022 20:19

Интересный текст про сжатие данных и эволюцию DuckDB в этом направлении [1]․ Если вкратце, то текст о том как разработчики DuckDB организовали хранение данных улучшив за полтора года его примерно в 3 раза.

Для CSV файла в 17ГБ в версии 0.2.8 от июля 2021 г. данные занимали 15.3ГБ, а текущей версии они занимают порядка 4.8ГБ.

Для того чтобы обеспечить это сжатие разработчики использовали новый алгоритм Chimp [2] для сжатия чисел с плавающей запятой.

Это ниже чем сжатие алгоритмами Zstd или Snappy, но, важно помнить что сжатие в DuckDB обеспечивается практически без потери производительности.

Это важно поскольку DuckDB - это весьма перспективная SQL OLAP база данных, предназначенная для оптимизации аналитических расчётов.

Сам подход такого сжатия, ориентированного на быструю декомпрессию данных, весьма любопытен и наверняка переносим на другие продукты, многие из которых также используют похожий алгоритм Gorilla [3], на базе которого и построен алгоритм Chimp.

В обоих случаях числа сжимаются через специально подобранные операции основанные на XOR и повторяемости значений в битах чисел с плавающей запятой.

И, чтобы два раза не вставать, туда же в тему интересных исследований про данные, статья прошлого года в VLDB - DBOS: A DBMS-oriented Operating System [4] о том что вполне возможно построить операционную систему на основе высокопроизводительной базы данных. Подход очень оригинальный, это не просто data-shell, оболочка для работы с OS словно с базой данных и не data API для работы с функциями и настройками ОС через интерфейс API, а прямо таки полноценная ОС. А оно, тем временем, развивается [5] и может быть когда-то появится.

Ссылки:
[1] https://duckdb.org/2022/10/28/lightweight-compression.html
[2] https://www.vldb.org/pvldb/vol15/p3058-liakos.pdf
[3] https://www.vldb.org/pvldb/vol8/p1816-teller.pdf
[4] https://www.vldb.org/pvldb/vol15/p21-skiadopoulos.pdf
[5] https://dbos-project.github.io/

#dbms #duckdb #olap #dwh

Читать полностью…

Ivan Begtin

28 October 2022 06:57

Я ранее регулярно рассказывал как работать с веб-архивами и про инструменты которые мы создаём для работы с ними. За пару отпускных дней удалось вернуться к давним планам по улучшению инструментов по работе с ними и пора рассказать о развитии инструмента metawarc [1].

Metawarc - это утилита командной строки созданная изначально для задач цифрового дознания, сбора данных из архивов веб- сайтов. Я лично активно её применял в задачах исследований/расследований, вроде "Государство как пират" [2] о том как косвенные следы пиратского ПО находятся в документах на сайтах госорганов.

Эта утилита работает с WARC файлами, слепками веб-сайтов которые умеют создавать такие инструменты как wget, wpull, Heritrix и другие краулеры веб-сайтов из так называемой экосистемы WARC.

Изначальные функции инструмента были в том чтобы заглянуть в содержание WARC файла, перебрать каждую запись, найти попадающие под типы офисных документов и из каждого офисного документа (.doc, .docx, .xls и других) извлечь кто его создал, какая компания, когда и тд. Задача которая относится скорее к цифровому дознанию чем к цифровой архивации. Цифровое дознание (digital forensic) - это, в принципе, одно из применений веб-архивов и цифровых архивов в принципе.

Но кроме цифрового дознания есть много других областей в которых нужна обработка WARC файлов. Например, извлечение данных определенного типа, вроде файлов Excel или извлечение содержания веб-страниц для последующего полнотекстового индексирования или анализ полноты загруженных файлов и упрощение их обработки.

Поэтому утилиту я, наконец-то, обновил изменив команду index, теперь она не генерирует JSON файл с метаданными, а создает базу SQLite куда эти метаданные кладет. Это не метаданные внутри офисных файлов, но метаданные HTTP запросов и параметров записей в WARC. Их использование сильно ускоряет другие задачи, например, это новые команды поддерживаемые metawrc - dump, stats, list, export

Команда stats выводит статистику по числу записей в WARC файле в разрезе расширений файлов или типов контента (mime)

Команда list позволяет листать записи в WARC файле передавая в качестве параметров список расширений, список типов контента или запрос к SQLite базе данных (кусок SQL запроса после WHERE).

Команда dump работает как list, но для сохранения выбранный файлов в отдельную папку. Поскольку не все файлы в WARC можно сохранять с полным путем, то файлы сохраняются каждый с уникальным идентификатором и к ним прилагается список файлов с соответствием каждого файла ссылке в WARC файле.

Команда export позволяет выгружать содержимое WARC файла в машиночитаемом виде. Она даёт возможности экспортировать заголовки из WARC файла в формате JSON lines и содержимое HTML страниц для полнотекстового индексирования, например, с помощью Opensearch, Elastic или Meilisearch.

Инструмент будет полезен всем кто изучает веб сайты, работает с архивами в формате WARC и создает их. Желающие могут воспользоваться, к примеру, архивами сайтов Мемориала [3] или архивами сайтов Роснано [4] которые мы сохраняли в @ruarxive в 2021 году.

Ошибки, идеи и предложения пишите в Issues на github [5]

Ссылки:
[1] https://github.com/datacoon/metawarc
[2] https://begtin.tech/government-piracy/
[3] https://cdn.ruarxive.org/public/webcollect2021/memorial2021/
[4] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
[5] https://github.com/datacoon/metawarc/issues

#opensource #webarchives #digitalpreservation #opendata

Читать полностью…

Subscribe to a channel