data_csv | Unsorted

Telegram-канал data_csv - data.csv

13755

Блог о журналистике данных и дата-сторителлинге Ведёт @BlackPineapple — аналитик в службе дата-журналистики Яндекса

Subscribe to a channel

data.csv

Пришло время выложить урок, который я вам давно обещал

Он о том, как просто и без программирования сделать подобные красивые анимированные графики — Bar Chart Race. Подробный видеоурок о том, как их делать, я как раз выложил пару дней назад в своём втором канале:

/channel/perfectgraphs/85

Читать полностью…

data.csv

Сегодня у меня на курсе «Эстетика в графиках» презентация дипломных работ. Ребята сделали много всего красивого, и в ближайшие недели я буду делиться некоторыми работами.

Вот работа Екатерины Леонтьевой, передаю микрофон ей:

Посещение музея Ван Гога в Амстердаме вдохновило меня на создание инфографики о его жизни и творчестве. Увидеть оригинальные произведения Ван Гога в музее, а также изучить его биографию и переписку, заставило меня задуматься о том, как можно визуально представить его удивительный творческий путь и личную историю.

В процессе создания инфографики я экспериментировала с различными видами графиков и визуализаций. Каждой визуализации предшествует цитата и картина Ван Гога, которая иллюстрирует данный аспект его жизни или творчества, а цветовая палитра для графика взята из соответствующего шедевра.

Мне было интересно исследовать его эволюцию как художника: от ранних реалистических работ до ярких и выразительных постимпрессионистских картин, а также как эта эволюция была связана с его жизнью в разных городах и странах. Младший брат Ван Гога Тео сыграл значительную роль в становлении Винсента как художника, поэтому их переписке посвящена одна из визуализаций.

Этот проект позволил мне глубже погрузиться в детали трагической судьбы и гениального творчества одного из моих любимых художников, и я надеюсь, что он поможет другим увидеть его искусство в новом свете через призму анализа данных и визуализаций.

Читать полностью…

data.csv

Вы уже могли заметить, что японцы очень любят инфографику и активно применяют её в быту. Сегодня тащу вам пару примеров с рынка ☺️

На первом фото — магазин специй. Куча непонятных названий, которые видишь в первый раз. Что делают владельцы? Сортируют их по остроте! И не надо каждому покупателю объяснять, чем один вид ичими отличается от другого.

На втором фото — духи. Я похожие графики видел в нескольких магазинах. Сортировать могут по разным показателям но тут такие: от свежих к сладким и от цветочным к расслабляющим.

Вот настоящая инфографика для бизнеса, а не это всё.

А вы часто что-то такое видите у нас в магазинах?

Читать полностью…

data.csv

Пока другого контента у меня для вас все равно нет, зацените инфографику в меню японского бара. Они визуализировали всё своё вино 😍

По оси X тут лёгкий, фруктовый, освежающий вкус слева и тяжёлый, вяжущий справа. По оси Y, как я понял, указана крепость вина. Крепкие — снизу.

Хотели бы такую карту в барах своего города?

Читать полностью…

data.csv

The Pudding визуализировали результаты панельного опроса американцев — на протяжении десятков лет их спрашивали о том, как складывалась их жизнь.

Исследование подтверждает: то, в каких условиях вы росли, во многом определяет ваше будущее — образование, уровень достатка, ментальное и физическое здоровье.

Меня очень впечатлила концовка, где приводятся высказывания американских президентов, которые оскорбляют бедных людей, «низшие» слои населения, которые говорят, что «быть бездомным — это выбор»

Авторы, напротив, утверждают, что это не вполне выбор и не только проблема этих людей, а проблема всего общества, в котором они находятся.

Ну и напоследок: посмотрите, какое тут визуальное хулиганство. Все графики состоят из человечков, которые перебегают в разные категории. Красиво очень.

https://pudding.cool/2024/03/teenagers/

Читать полностью…

data.csv

Одна из проблем, с которой вы можете столкнуться в желании поделать красивых графиков — это отсутствие качественных данных.

Я сам каждый раз раз бьюсь с этим, когда готовлю задания для студентов своего курса — прежде чем перейти непосредственно к визуализации, данные нужно спарсить, почистить, привести в нужную форму, соединить несколько датасетов. Пока дойдёшь до финала — демотивируешься.

Мои классные коллеги из «Если быть точным» эту часть работы делают сами и создают готовые датасеты, которые можно анализировать и визуализировать. Свою коллекцию они постоянно пополняют, в том числе наборами данных, которых нет в других источниках.

Например, в их коллекции есть численность населения по всем муниципальным образованиям и населённым пунктам с разбивкой по полу, дела и тексты судебных решений по статье 105 УК «Убийство» или численность больных онкологией в регионах России с 2007 года.

Найти для себя что-то интересное можно в их каталоге:
https://tochno.st/datasets

Читать полностью…

data.csv

Сильный приём в материале Washington Post о боевых действиях в Секторе Газа.

Авторы говорят: представьте, один человек помнит по имени в среднем 472 людей. Из них 7 человек погибли, 305 испытывают чрезвычайную нехватку еды.

Так масштаб катастрофы в регионе гораздо более понятен.

https://www.washingtonpost.com/world/interactive/2024/gaza-numbers-killed-displaced-scale/

Читать полностью…

data.csv

Большой материал, который подробно рассказывает о том, с какими проблемами сталкиваются люди, обучающие визуальные генеративные нейросети.

В одном из крупнейших датасетов, на котором такие модели обучают, например, обнаружили сцены детского насилия. Что ещё полбеды, ведь такие картинки просто отфильтровать.

Что гораздо хуже — в нём много изображений в пару к которым добавлены текстовые описания из служебного тега ALT на веб-страницах. Текст из этого тега показывается в том случае, если изображение не грузится, а для слабовидящих пользователей является единственной возможностью узнать о том, что вообще находится на изображении. Однако предприимчивые маркетологи добавляют в этот тег не реальное описание изображения, а ключевые слова, которые лучше всего повлияют на ранжирование сайта в поисковой выдаче. Таким образом модель получает датасет, в котором описан не реальный мир, а мир, который видят поисковые роботы.

Про другие проблемы наглядно — тут:
https://knowingmachines.org/models-all-the-way

Читать полностью…

data.csv

Издание Rest of The World пишет о том, как технологии распознавания лиц, используемые по всему миру и изначально введённые для поиска террористов и опасных преступников, становятся инструментами государств для борьбы с политическими активистами.

В материале собраны истории активистов из России, Индии и Ирана. А ещё — залипательные карты с протестной активностью в этих странах.

https://restofworld.org/2024/facial-recognition-government-protest-surveillance/

Читать полностью…

data.csv

Вижу, что много людей сюда добавилось после конференции «Мапакон», где Наталья Волгушева рассказывала про исследование, которое я помогал делать Картетике. Рад вас видеть!

По такому случаю решил сделать подборку постов с красивыми картами:
* Перемещение между районами США до и во время пандемии;
* Народы России в прекрасной плиточной карте из «цветов»;
* Как отличаются границы районов Нью-Йорка по мнению живущих там людей;
* Изменение климата в России;
* Трёхмерные плиточки про загрязнение воздуха и богатство в разных странах;
* Гольфстрим во всей красе, и почему он может стать более холодным вопреки глобальному потеплению;
* Карта-анамарфоза про популярные туристические направления у жителей России.

Для просмотра некоторых материалов может потребоваться подписка, режим инкогнито или расширение Bypass Paywalls

Читать полностью…

data.csv

Если вам интересна тема анализа геоданных, приходите в пятницу на конференцию Мапакон. Целый день спикеры будут рассказывать о подходах к работе с картами, о работе и о своих проектах.

Конференция будет онлайн, с утра и до вечера. Участие бесплатное, но по предварительной регистрации:
https://cartetika.ru/mapacon_participate

Программа конференции

P.S. Я тоже немного причастен к событию, делаю кое-что, что, надеюсь, оценит сообщество геоаналитиков 👀

Читать полностью…

data.csv

Подробное и обстоятельное исследование прошедших выборов выпустил аналитический центр Cedar. Авторы подробно рассмотрели различные методы выявления аномалий в данных и их ограничения — например, рассказали, в каких ситуациях может не работать метод Шпилькина.

К расчётам также приложили код на
гитхабе.
Исходные данные, правда, дают только по запросу на почту. Но я знаю, что для 2024 года их можно скачать, например, тут

Исследование:
https://cedarus.io/research/evolution-of-russian-elections

Читать полностью…

data.csv

Ещё одна красивая визуализация процессов, напрямую связанных с нашей жизнью. Сможете угадать, какие данные тут визуализированы?

Судя по тенденции, в одной из следующих «клеточек» облачко просто улетит, и сама клеточка останется пустой 🙈

Источник: https://twitter.com/k_sonin/status/1770446059527164230/photo/1

Читать полностью…

data.csv

В Т—Ж придумали новый забавный калькулятор — теперь вы можете посчитать стоимость ваших рабочих зумов.

Вводите количество участников, их среднюю зарплату, и смотрите, как уходят деньги. Красота!

https://journal.tinkoff.ru/nuzhen-sozvon/

Читать полностью…

data.csv

Независимые дата-журналисты уже делают первую аналитику результатов выборов по методу математика Сергея Шпилькина и приходят к ожидаемым результатам. Прошедшие «невыборы» стали рекордными по количеству фальсификаций: почти половина голосов за действующего президента могли быть ненастоящими.

Количество голосующих на выборах подчиняется нормальному распределению — основная часть избирателей проголосует на участках со средним значением явки. Например, если средняя явка составила 60%, то основная масса избирателей придёт на участки, где явка будет 50-70%. Участки, где явка будет 30% или 90% будут встречаться значительно реже.

Если распределение голосов не похоже на нормальное — это уже повод насторожиться. Если же при этом на участках с высокой явкой неестественным образом растёт число голосов «за партию власти», это явный признак вбросов.

Так и на этом графике: голоса за Слуцкого, Харитонова и Даванкова в сумме подчиняются нормальному распределению, а Путин неестественно растёт на участках с высокой явкой. Всё это мы уже не раз видели на выборах в России, а теперь встречаем фальсификации рекордных масштабов.

Читать полностью…

data.csv

Через пару часов начнётся первый полуфинал Евровидения.

Несмотря на то, что Россия уже несколько лет не участвует в конкурсе, в нашей стране у него по-прежнему остаются фанаты. Студент моего курса Виктор Ямбаршев в своём дипломном проекте решил изучить историю Евровидения.

Виктор много экспериментировал с Tableau, благодаря чему получилось найти интересные закономерности — например, понять, с какой регулярностью разные страны участвовали в конкурсе и какой разброс баллов был у тех, кто занимал разные места.

Читать полностью…

data.csv

Крутой спецпроект ТАСС о том, какими были агитационные плакаты СССР во время Великой Отечественной Войны. Инфографическая доминанта материала — «прямоугольники Эйлера» с пересечением цветов плакатов по темам. Очень любопытно также почитать о том, как делали эту картинку: определяли цвета плакатов и затем визуализировали при помощи плагина Generator для Figma.

https://tass.ru/spec/okna-tass-leningrad

Читать полностью…

data.csv

Продолжаем рубрику «инфографика из Японии»

В широко известной здесь сети магазинов 7-Eleven продают какие-то чудные булки и рекламируют их при помощи датавиз-буклета. На нём визуализировано, какую долю необходимых витаминов вы получите из такой булочки.

Особенно «понравился» приём, где разорвали столбик, да ещё и значение нигде не подписали. Гении 🙈

Читать полностью…

data.csv

Гуляю по Токио и, конечно, замечаю вокруг инфографику. Картинка где-то на районной доске

Гугл говорит, что карта озаглавлена как «Извлекаем уроки из прошлых крупномасштабных землетрясений и пожаров»

На карте показаны последствия крупномасштабного землетрясения 1923 году, надпись внизу гласит «во время землетрясений часто возникают пожары»

Легенду я плохо понимаю, но предполагаю, что красные точки — это очаги возгорания, а синие — места, где приходилось ликвидировать последствия пожаров.

Если в канале есть изучающие японский, приходите в комменты со своей интерпретацией 😅

Читать полностью…

data.csv

Простите, а меня читает кто-нибудь из Практикума?

Я правда пытался найти авторов этой статьи, но не смог.

Я понимаю, что слово «инфографика» для карточек товаров на маркетплейсах уже начало закрепляться в народе, и для SEO и простоты поиска полезно его в статье упоминать. Но тут же весь нарратив буквально построен на том, что это и правда инфографика )

А это не так. И мне кажется, что это оскорбляет людей, которые по-настоящему делают инфографику. Было бы здорово, если бы Практикум не поддерживал вредные ошибки, а как-то разъяснил, что никакого отношения к инфографике это не имеет — это просто карточки товаров для маркетплейсов.

В редких случаях там действительно может быть инфографика, но это исключение

Читать полностью…

data.csv

Bloomberg продолжает вполне успешно применять в визуализации тримапы Вороного — в этот раз для того, чтобы показать тенденцию применения гендерно-нейтрального слова chairperson вместо chairman.

https://www.bloomberg.com/graphics/2024-gender-neutral-board-titles-us-companies/

Вероятно, для просмотра потребуется подписка, режим инкогнито или расширение Bypass Paywalls

Читать полностью…

data.csv

Хотите узнать о новейших исследованиях и трендах в области ИИ?

Примите участие в конференции Data Fusion 2024 по искусственному интеллекту и аналитике данных в Москве 17 и 18 апреля.

Основные темы для обсуждения:

– Новейшие разработки в машинном обучении и аналитике данных;
– Актуальные тренды в технологическом мире и их влияние на индустрию;
– Вопросы кибербезопасности и этические дилеммы, связанные с ИИ;
– Примеры из практики и кейсы от ведущих компаний из разных сфер бизнеса;
– Ключевые исследования в области ИИ;
– ML+ наука: вопросы применения ИИ в медицине, физике, фарме;
– Развитие генеративных моделей и NLP;
– Примеры из практики и кейсы от ведущих компаний из разных сфер бизнеса.

Зарегистрируйтесь на конференцию и станьте частью ключевого события в мире искусственного интеллекта и аналитики данных!

Читать полностью…

data.csv

Т—Ж проанализировал 199 самых кассовых российских фильмов

Самым успешным проектом последних двух десятилетий стал «Чебурашка», обогнав «Холопа» по сборам почти на треть. «Первое лицо» популярного кино — Данила Козловский, главный режиссёр — Марюс Вайсберг.

Любопытно, что оценки зрителей на кассовый успех фильма особо не влияют — по крайней мере, по графику корреляция не видна. Зато качество российских хитов, судя по всему, растёт.

А подробнее читайте тут:
https://journal.tinkoff.ru/top-russian-movie-stat/

Читать полностью…

data.csv

На прошлой неделе в американском городе Балтимор произошла авария — контейнеровоз врезался в одну из опор моста Фрэнсиса Скотта Ки, мост обрушился и заблокировал один из крупных американских портов.

По этому поводу западные издания сделали много инфографики, а меня привлекла вот эта карта в Washington Post, где показано движение судов вдоль восточного побережья Штатов.

Потоки перемещений на карте выглядят всегда красиво, не находите?

https://www.washingtonpost.com/business/2024/03/27/baltimore-port-economy-disruption-bridge-collapse/

Читать полностью…

data.csv

Вадим Славгородский принес вам хорошие smart-подходы и фреймворки из крупных компаний и адаптировал под любые небольшие проекты, чтобы каждый маркетолог, дата-аналитик или проджект мог работать удобно.

Реклама, текст заказчика.
erid 2VtzqvincJh, Славгородский Вадим Александрович

Автор придерживается data driven подхода и системной работы, поэтому будет другом для тех, кто работает с продуктом, аналитикой, рекламой и дата-журналистикой.

1 канал вместо папки каналов с маркетинг-жвачкой. Публикации не частые, но калорийные.

Фреймворки и шаблоны для работы с небольшими проектами:
15 вопросов на планерку с маркетологом
Формула идеального коммерческого предложения
PMF – методология, которая сделает ваш продукт нужным
Почему нельзя покупать стратегии у подрядчиков
Исследование в ВУЗах: 7 видов образования, и какие 3 будут продаваться хорошо в 2024
Техника безопасности: как посчитать прогноз любой рекламы перед началом
Паспорт проекта – шаблон для удобной работы с подрядчиками

Вы могли его встретить на образовательных программах в ВШЭ, РУСАЛ, РОСТЕХ и VK.

Подписаться на "Славгородский!"

Читать полностью…

data.csv

Такой милейший санкей украшает стены нового блока офиса Яндекса на Садовнической 🥰

Коллегам, которые делали это — респект. Хочу жить в офисе, украшенном подобными работами 😅

Читать полностью…

data.csv

Страшные и впечатляющие карточки о домашнем насилии. Их выпускает проект «Считается», который ведёт статистику на эту тему в Казахстане. Есть ещё их видео, где картинки анимированы.

На самом же сайте цифры оформлены достаточно строго:
https://schitaetsya.kz/about

Здесь также стоит оговориться, что в проекте есть проблемы с виузализацией: например, на первой карточке долька пайчарта явно показывает больше, чем 51%, а на третьей карточке ось баров начинается не с 0, а с 5.

Читать полностью…

data.csv

Красивущий и очень необычный график The Ecomonist о том, как изменились электоральные предпочтения британцев.

Необычен он сразу двумя показателями:
🔴Формой. Этот график называется Scatter Ternary Plot и помогает понять, какой из трёх показателей у определённой точки в большей степени выражен. Например, можно сравнить, какой предмет на ЕГЭ лучше сдал 11 класс школы 1544: математику, русский или английский.
🔴Динамикой. Здесь не просто показаны статичные точки, а соединены два временных интервала. Так мы можем понять, что люди, голосовавшие за «иные партии», скорее всего будут больше голосовать за партию Labour, как и голосовавшие за консервативную партию. А вот избиратели партии Labour немножко подвинулись в сторону «иных»

Эффективно? Сомнительно.
Эффектно? Точно да! И мысль основная считывается.

https://www.economist.com/britain/2024/02/28/a-changing-british-electorate-is-propelling-labour-towards-victory

Читать полностью…

data.csv

Уже подъехало уточнение!

«Важные истории» пересчитали аномальные голоса с корректировкой: без результатов по Москве. В этом регионе результаты публиковались «в кучу». ЦИК объединил тех, кто голосовал на участках и электронно. Это искажало общую картину.

Поэтому более точная оценка по аномальных голосов за Путина по методу Сергея Шпилькина — почти 22 млн.

Но и у этого метода существуют ограничения. Реальная картина, скорее всего, куда более впечатляющая.

В канале опубликованы и другие интересные находки из данных. Например, как отразился «Полдень против Путина» на явке избирателей.

Читать полностью…

data.csv

Вместо тысячи слов скину скриншот из карты, которую делал в 2018 году для «Новой газеты»: можно было провести мышкой и открыть лицо кандидата, победившего в регионе (ну вы поняли, что там)

Карта уже «погибла» из-за переездов сайта, к сожалению — поэтому ссылки на интерактив не будет

Читать полностью…
Subscribe to a channel