👋 Привет, меня зовут Никита. Я живу в Калифорнии и разрабатываю продукты c визуализацией данных. Пишу про датавиз и генеративный дизайн. Мои проекты: https://unovis.dev | https://cosmograph.app | https://interacta.io По вопросам писать @nikitarokotyan
🦍 Небольшой прорыв в AI x Data Vis. Только что выпущенная модель o3 самостоятельно понимает, что загруженный в нее датасет является фейковым и распознает на нем гориллу!
Все прошлые модели от OpenAI и Anthropic при просьбе проанализировать данные в лучшем случае могли сказать, что те выглядят искусственно. А при просьбе пристально посмотреть на график могли увидеть там мультяшный образ — Pepe the Frog или Baby Yoda — но не гориллу (удивительно).
Экспоненциальный рост способностей AI в действии. Но всё-таки, если задавать совсем специфические вопросы (вроде «какая корреляция между тем-то и тем-то»), то горилла вновь становится «невидимой». Впрочем, студенты, изучающие статистику, тоже видят гориллу, только в одном случае из четырёх (статья).
Оригинальный эксперимент от февраля 2025: https://chiraaggohel.com/posts/llms-eda/
P.S. Если ничего не слышали про Selective Attention Test, посмотрите https://www.youtube.com/watch?v=vJG698U2Mvo
@dataviznews
На прошлой неделе побывал на вечеринке в Сан Франциско в честь переиздания книги Info we Trust от RJ Andrews.
Я был знаком с его работами совсем немного, о книге не знал совсем, а она заслуживает внимания — там охвачена тема визуализаци информаци с древних времен до современности!
Приятно порадовало, что автор любит советские информационные атласы. И я, конечно же, не мог не вспомнить про «Атлас Азиатской России» 1914 года.
P. S. Удивительно, что Ар Джей выкупил права на книгу у предыдущего издателя, что бы переиздать ее самому. Ему не нравилось, что книгу печатали не теми чернилами и на не очень хорошей бумаге. Я, как человек, отработавший в типографии в предпечатной подготовке два с лишним года, не мог этого не оценить!
Еще, если интересно, у Ар Джея написано несколько постов про процесс создания книги:
- Make a Book in 80 Weeks. The numbers from pitch to publication.
- Hand Drawing a Book. Process and logic behind 300 illustrations.
- Multiple Book Narratives, Weaving text, marginalia, and illustrations.
И, в целом, классный блог: https://infowetrust.com/essays
@dataviznews
Интересное исследование точности поисковых инструментов на основе LLM.
Тогда как другие исследования показывают, что RAG может снизить частоту галлюцинаций до 1–2%, в реальных повседневных сценариях проблемы всё ещё остаются.
Я лично пользуюсь ChatGPT и Perplexity (когда нужно искать в Reddit) и часто замечаю, что их саммари бывает ошибочно, но примерно половина найденных ресурсов оказывается релевантной и содержит нужный мне ответ.
https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php
@dataviznews
Попал на обложку анонса жюри для Information is Beautiful Awards 2024. Мелочь, а приятно!
Буду судить категории "Science, Technology & Health" и "Unusual" — мои любимые.
Обещают сотни работ и много потраченных часов на их отсмотр.
К слову, на Webby было всего около 70 работ, заявленных в категории датавиза, что неудивительно из-за непростительно высокой стоимости участия.
https://www.informationisbeautifulawards.com/news/640-meet-the-2024-judges
@dataviznews
👆Интересный инструмент анализа зарплат в IT от @data_bar и @joni_in_web
https://public.tableau.com/shared/3KN2X2YXN?:display_count=n&:origin=viz_share_link&:showVizHome=no
Готовлю доклад на конференцию Visual Communication Symposium в Rice University в Техасе, где я буду рассказывать о том, как AI уже повлиял на индустрию визуализации данных и как еще будет влиять.
Наткнулся на любопытную иллюстрацию 1828 года — антипропаганду индустриализации и научного подхода. Кажется, будто картинку нарисовали не 200 лет назад, а вчера 😅
Еще не могу не упомянуть иллюстрации против электричества, которого люди тоже боялись.
https://forgottenfiles.substack.com/p/destructive-power-of-ai-predicted
https://forgottenfiles.substack.com/p/the-dark-side-of-the-light-bulb
@dataviznews
Поделюсь еще одним курсом от друзей-коллег. Ребята из @setka_design на днях запустили JavaScript курс по созданию красивых, динамичных, интерактивных сайтов.
Это не датавиз, но навыки очень смежные, особенно если хотите делать сложные дата-журналистские проекты. Считаю, что изучать вэб-разработку через такие вот творческие задачи — самый веселый и правильный способ это делать. Всем удачи!
Продолжаем образовательную тему. Observable взял пример с Datawrapper и начал писать в блог образовательные посты с кликбейтными заголовками:
🖥️ Seven ways to design better dashboards (Семь способов создать более эффективные дашборды)
🍩 Everything you think you know about pie charts is wrong (Всё, что вы знаете о круговых диаграммах — неправда)
📊 Five techniques to improve chart annotations (Пять методов улучшения аннотаций к графикам)
🎞️ Five ways to effectively use animation in data visualization (Пять способов эффективно использовать анимацию в визуализации данных)
📉 It’s never okay to crop the y-axis, except when it is (Обрезать ось Y никогда не допустимо — кроме тех случаев, когда это всё-таки допустимо)
@dataviznews
Ура ура наконец-то лендинг курса "гибкий график" 🚀
Сегодня первый запуск курса! 11 глав, куча домашек с обратной связью от графиков до дэшбордов 🤓
Посмотреть, что внутри и купить можно по ссылке
👉 https://nastengraph.ru/ 👈
Курс текстовый, можно читать даже с телефона и проходить в своем темпе. Максимально комфортно будет проходить 1-2 главы в неделю, чтобы успевать практиковаться. Уже создала чатик и буду рада вас там увидеть 🧡
ps по любым вопросам по курсу пишите на почту nastengraph@gmail.com
☝️У Настеньки много полезной информации о линейных графиках, очень кратко и по делу. Но готов поспорить с первым пунктом, что линейные графики подходят только для временных данных.
Читать полностью…🪐💞🐍 Космограф виджет для Python!
Предновогодний сюрприз для дата-сайентистов работащих с Python. Мы аносируем публичный бета релиз Cosmograph Jupyter Widget для визуализации больших графов и AI эмбеддингов! Виджет еще умеет не все, что умеет приложение и JavaScript библиотека, но он обязательно научится!
О том как работать с виджетом можно узнать в документации на нашем сайте. Или просто посмотрите эти Colab ноутбуки:
- Сosmograph Widget
- Mobius in Cosmograph Widget
- Clusters in Cosmograph
🛸 Не забывайте — это бета-релиз и в нем наверняка есть баги (я уже нашел). Не стесняйтесь, пишите в https://github.com/cosmograph-org/py_cosmograph/issues, мы поправим!
🎄 И, напоследок, поделитесь, пожалуйста, этой новостью с вашим дата-сайенс другом. Кто знает, может быть ему нечем заняться в праздники...
@dataviznews
One Week in Sound
Надя Андрианова сделала классный дата-арт One Week in Sound, использовав данные Яндекс.Музыки по истории прослушивания за одну неделю (в высоком разрешении файл в комментариях к посту у Нади). Потрясающая деталь работы -- легенда в виде визуализации (через суммарную длительность треков показаны жанровые пристрастия). А я очень люблю, всё что связано с визуализацией/дата-артом по музыке.
Музыка существует не для того, чтобы спасти мир, она существует для того, чтобы спасти твою жизнь (С) Тони Парсонс
В октябре 2024 года NASA отправило космический аппарат Europa Clipper к Европе — спутнику Юпитера с возможным океаном под ледяной корой.
На борту есть треугольная пластина, защищающая электронику от радиации Юпитера, на которой выгравировано визуальное представление слова «вода» на 103 языках мира.
Впомнил, что у меня тоже есть дата-арт в космосе 😎. Только вот Planent удивительным образом слились и даже ничего не написали про эту историю.
https://europa.nasa.gov/spacecraft/vault-plate (подсмотрено @DenisZdesign)
@dataviznews
Смотрите какая красота! Это мы делаем алгорим кластеризации для Космографа. Coming soon!
@dataviznews
Enrico Bertini провел мини-анализ статей про заголовки в визуализациях 📖
🔎 1. Заголовки привлекают внимание. Прям пример паттерна сканирования "слоеный пирог" – фиксация на заголовках. Про паттерны немного рассказывала тут.
🧠 2. Люди запоминают визуализации по заголовкам.
+1 причина, почему не стоит называть график просто график.
📝3. Основные идеи из графика тоже запоминаются по заголовкам.
Если заголовок содержит основную идею визуализации, то люди легко ее вспомнят, но если заголовок более общий – то и идея не запомнится.
⚠️ 4. Люди не особо замечают предвзятость в названиях.
Интересно, что даже если заголовок противоречит визуализации, люди это не замечают.
У меня прям неделя открытых лекций!
Буду рассказывать в зарубежном сообществе Data + Women Zurich о своих дата-арт проектах.
Расскажу про проект смертности от ДТП (слева), может быть упомяну проекты про Мезень и Браслет. Но скорее всего рассказывать буду про самый свежий проект:
Путешствия на ветру. Я про него публично еще особо не рассказывала, так что будет дивный опыт!
Кто дружит с английским, приходите послушать!
Онлайн
Сегодня в 19:00 МСК
Ссылка на мероприятие
❤️❤️❤️
Processing Foundation объявил о Data Storytelling стипендии: $10K, менторство, воркшопы, и другие возможности! Отличный шанс исследовать творческие способы визуализации данных.
Processing сделал кодинг доступным для художников и дизайнеров и именно благодаря ему началась моя карьера в области визуализации данных. Не пользовался им уже лет десять, но приятные воспоминания остались :)
https://processingfoundation.org/fellowships
@dataviznews
🤖 Как работают LLM
Интересно, как работают большие языковые модели (LLM)? Посмотрите эту потрясающую визуализацию от FT и её команды Visual Storytelling Team -- объясняет работу ИИ всего за 5 минут!
#ИИ #LLM #dataviz
Микро-инструмент от Гугла для генерации анимации простых бабл-, донат- и бар-чартов.
Можно сохранить формате GIF или в MP4, и даже добавить свой логотип. Надеюсь, кому-то из вас пригодится!
https://datagifmaker.withgoogle.com
P.S. Ума не приложу, зачем они подали это на Webby.
@dataviznews
IT вакансии и автоматизация парсинга зарплат
В конце осени я рассказывал про парсинг IT вакансий сервиса Getmatch и глобального сервиса Glassdoor. Интересно что дашборд по вакансиям Getmatch и зарплатным вилкам вызвал живой интерес, он до сих пор просматривается - уже более 11 000 просмотров. Его я обновлял раз в две недели - тогда казалось что это нормальный диапазон мониторинга вакансий. На самом деле, за 2 недели может очень много поменяться - закрываются и открываются новые вакансии на сайте достаточно шустро. Динамика по конкретным компаниям или направлениям должна отражать веяния рынка IT. Поэтому, хотелось посмотреть именно на тренды во времени, но для этого надо иметь ежедневные срезы.
Вручную ежедневно обновлять данные не комильфо - надо автоматизировать. Здесь случилась коллаба с разработчиком Никитой Ивановым. Думали как можно сделать. Мне казалось что достаточно запускать парсеры по условному крону и складывать данные в базу данных. Но Никита придумал и сделал полноценную систему с Airflow, облачным PostgreSQL, проверками, возможностью автоматического экспорта в Google Sheets алертингом в Телеграм. Получилось действительно круто!
Про то как и что делал, Никита описал у себя в канале. Го читать Никиту в его канале 'Joni in Web'.
В итоге, сейчас у нас есть система сбора данных открытых вакансий Getmatch. В 8 утра скрипты собирают все вакансии за полный вчерашний день и складывают в базу. Кроме этого, собираются навыки/инструменты по каждой вакансии и подтягивается актуальный курс валют с сайта Центробанка. Курс валют нужен для перевода в рубли валютных зарплат.
В дашборд по зарплатным вилкам добавились:
- Временные тренды по вакансиям
- Открытые и закрытые вакансии в конкретный день
- Таблица вакансий с лого компаний, где визуализированы зарплатные вилки. Можно из дашборда переходить на страницу вакансии
Сейчас можем считать время активности вакансий, видеть тренды в конкретных разрезах и ещё много интересного. В публичном дашборде несколько дней: 8 последних дней и несколько прошлых снепшотов с осени. Подключение к Постгресс. Для обновления публичного даша нужен экспорт в Google Sheets (ограничение Tableau Public) - это следующий этап.
❓ Для чего это всё?
Пока я не видел ни одного нормального публичного инструмента анализа зарплат в IT. Очень сложно ответить на вопрос: 'Сколько сейчас стоит разработчик?'. Просто потому что много факторов, влияющих на ЗП. Анализ ЗП - это либо статистика одной платформы (hh, например), либо опросы в каких-то сообществах.
Проблема опросов в том, что они нерелевантны в большинстве случаев. Большинство IT профи из моего круга общения никогда не проходили опросы - им это неинтересно. Я тоже никогда не проходил, даже слабо представляю кто и где это проводит.
❗️ Поэтому, мы собираем данные вакансий и делаем инструмент анализа.
⚡️ Что дальше?
У нас есть парсер, и настроен ETL процесс сбора данных в БД по другой известной платформе с IT вакансиями. Данные платформы подтягиваются в дашборд, и можно сравнивать вакансии разных платформ - там очень много интересного (даш пока непубличный). Есть проблемы унификации данных разных платформ - это то, c чем помогает ML. Про это и следующие этапы проекта обязательно расскажем и напишем.
Прекрасный визуальный гайд от Nathan Yau про то, как графики врут. В основном, из-за осей, а если двойные оси так вообще 🙈
Читать полностью…Фантастические сайты на Джаваскрипте
Видели когда-нибудь крутые сайты с плавными анимациями, красивыми эффектами и интерактивом? Те сайты, которые попадают на Эвввордс и выигрывают международные премии. Про которые думаешь: «офигеть, как они вообще такое сделали?»
Такие сайты не соберёшь на Тильде и даже не нарисуешь в Фигме. Их программируют на Джаваскрипте. И это делают не программисты, а дизайнеры-программисты, которые умеют и придумывать крутые эффекты, и сразу же их кодить.
Мы верим в то, что быть таким специалистом выгодно:
— умеешь делать то, что остальные не умеют; делаешь классные сайты другим на зависть;
— можешь комбинировать скиллы на стыке дизайна и технологий; становишься более уникальным и универсальным специалистом, получаешь рыночное преимущество;
— можешь работать в одиночку, не привлекая программиста, который будет реализовывать все задумки;
— легче встраиваешься в технические команды, потому что разговариваешь с разработчиками на одном языке.
И вообще, уметь кодить полезно, даже если не собираешься становиться программистом:
— начинаешь понимать, как примерно устроено внутри всё, чем пользуешься каждый день: сайты, веб-приложения и информационные системы;
— это помогает делать макеты, к которым у разработчиков нет вопросов (особенно это ценно для продуктовых дизайнеров);
— это хорошая инвестиция в будущее; зная Джаваскрипт, будет значительно легче освоить фронтенд-фреймворк или выучить другой язык;
— это весело и иногда похоже на магию.
В прошлом году мы решили, что этой магии можно научить дизайнеров, и провели живой поток курса «Джаваскрипт по-дизайнерски». А потом долго-долго готовили его к выпуску в записи.
И вот.
Фантастические сайты на Джаваскрипте
Курс, на котором мы учим основам JS и показываем реализацию самых распространённых интерактивных эффектов в вебе.
12 занятий, оформленных в виде телеграм-каналов. В каждом канале — видеолекция, домашка, квизы, референсы для вдохновения и другие дополнительные материалы.
Подробная информация, программа, FAQ, формат, тизер и отзывы — на обновлённом лендинге.
Купить доступ можно через телеграм-бота: @gendesign_bot.
📖 Вышел текстовый курс Настеньки по визуализации данных — значимое событие в мире русскоговорящего датавиза! Если вы давно хотели освоить теорию, но что-то мешало, это отличная возможность: https://nastengraph.ru.
А еще тем, кто хорошо владеет английским, я всегда рекомендую блог Datawrapper: https://blog.datawrapper.de. Когда меня о чём-то спрашивают, я, как правило, отсылаю именно туда, если там есть подходящая статья.
Невероятной красоты проект Refik Anadol Studio и Данилы Криворучко. Огромная дата-инсталляция на 220 кв. метров для турецкого банка Akbank.
Вот, что пишит Данил о проекте в своем канале:
«Из интересного там была часть с пред-обработкой данных, когда многомегабайтную таблицу с парой десятков столбцов и десятками тысяч строк, в которой были какие-то транзакционные данные из этого банка, с помощью UMAP ml-алгоритма сегментировали и ужали до 6 измерений (координаты и цвет). И вот это уже было отправной точкой для симов.»
Студия: Refik Anadol Studio
Дизайн / 3D: Danil Krivoruchko
https://myshli.com/project/akbank-x-refik-anadol
На прошлой неделе показывала кусочки курса, который будет в конце января. Вот, кстати, глава из него на потрогать и посмотреть ✨
Визуализация данных во времени – одна из самых частых задач. Линейные графики так точно попадают в топ самых популярных визов, но не только их можно использовать, чтобы показать динамику.
📍 Хочу добавить туда еще больше примеров. Если у вас есть классные примеры линейных и не только, присылайте на почту nastengraph@gmail.com, буду очоч рада и постараюсь включить их в курс!
⌛️Читать тут: https://nastengraph.ru/chapter4
ps на картинке кусок про "что делать с двойными осями"
pps я часто делаю очепатки и совсем их не вижу, простите за это 🙈
❤️🩹 Пост поддержки — Кристине Уласович из нашего маленького датавиз / дата журналистского сообщества нужна помощь.
Если у вас есть связи в системе здравоохранения Москвы — напишите ей @ave_kirsten
Совместный проект Кристины и Марии Хомутовой в прошлом году вошел в шортлист Information is Beautiful Awards, на церемонии награждения которой мы и познакомились.
Ниже привожу текст от Кристины:
«Дорогие все.
Так случилось, что в моей семье ужасное горе - мама заболела раком, IV стадия.
Не передать словами, насколько ужасный был месяц: 3 недели в реанимации, опасная для жизни операция, ТЭЛА.
Она сейчас в состоянии средней тяжести после всего пережитого — у нее пневмония, нарушены двигательные функции, кислородотерапия. Но есть положительная динамика по восстановлению.
В таком состоянии, как у нее сейчас, химию делать нельзя. А ей она нужна, потому что есть метастазы. Единственный наш шанс — это чтобы мама долечилась и прошла реабилитацию. Однако наша больница долечивать ее не очень хочет и настаивает на паллиативе, но остановиться на полпути, сдать ее в хоспис и опустить руки сердце мне не позволяет.
Я обычно стараюсь все вытянуть сама, но тут мне просто не хватает собственной мощи. Если вы знаете кого-то, кто мог бы помочь в этой ситуации - может быть, маму удастся перевести лечиться в другую больницу, в реабилитационный центр, где ей можно будет дать шанс восстановиться - или знаете, что можно ещё сделать, то напишите мне или просто поделитесь моей историей.
Скоро Новый год, и моей семье очень нужно чудо. Я уже потеряла папу в 2018 году, и я должна попытаться сделать все, чтобы не потерять еще и маму.
P. S. Если вы или ваши родители знакомы с моей мамой, то пока что ей не пишите, пожалуйста. Она не знает всю полноту диагноза, сейчас ей это не нужно — иначе страх застопорит прогресс.»
Сегодня ровно 2 года с момента публичного релиза Unovis — моей веб библиотеки для визуализации данных 🥳
Приятно наблюдать за тем, как проект растет — сейчас он собирает по 20 тысяч еженедельных загрузок на NPM, а на GitHub все больше и больше людей помогают писать код.
Так что если вы вдруг ищете фронт-енд библиотеку для визуализации, которая проста в использовании и выглядит не стыдно, то обратите на Уновиз внимание.
🎄 А еще сегодня мы выложили версию Unovis 1.5 с поддержкой SolidJS и множеством улучшений. Перечислять их здесь я не буду, если интересно — добро пожаловать на страницу релиза https://unovis.dev/releases/1.5
@dataviznews
Проект от автора самого UMAP! Карта публикаций на ArXiv.
Я несколько лет назад выкладывал похожую статичную визуализацию, но эта на порядок интереснее. Тут и интерактивный таймлайн, и поиск, сделано аккуратно, и даже можно в псевдо 3D 🙂
https://lmcinnes.github.io/datamapplot_examples/arXiv/
@dataviznews
Целый месяц новостей (а точнее словосочетаний встречающихся в новостях) визулизированный в виде графа в Космографе. Особенно классно оно выглядит вкупе с таймлайном.
Собрали ребята из стартапа AskNews. Поиграться с самим графом можно тут 🪐
@dataviznews
В этом году я сужу работы для Webby Awards (напомню, что мой проект Market Map в прошлом году вошел в топ 5 лучших работ в категории визуализации данных). И не могу не поделиться восхитительным скроллителлингом от National Geographics про Амазонку — Into The Amazon.
Больше всего мне, конечно же, понравилась часть с затопленным тропическим лесом отсканированным лидаром. Великолепная работа.
https://www.nationalgeographic.com/into-the-amazon/
@dataviznews