За последние 3 года я отревьюила уже больше 3000 разных студенческих работ. И очень часто ошибки одинаковые и связаны с попыткой усложнить то, что можно сделать сильно проще. Собрала все простые советы, такой DataViz 101 в статье с примерами 🎓
1. Начните с базы и сделайте ее идеальной – научитесь работать с барчартами и линейными графиками, начните с простых, но понятных дэшбордов.
2. Не усложняйте. Меньше цвета, один шрифт, меньше шума на графиках.
3. Выучите подходящие типы графиков под каждую задачу.
4. Не забывается про отступы и пустые места.
5. Научитесь применять правило близости и схожести.
Подробные посты в BI Bites рассылке, лайк сабскрайб, буду правда очень рада💜
И наконец тоже довольно интересная версия от Артема Иволгина (2020-й год). Интересный ход, где размером показано число голосов. Я бы взял на вооружение, как раз способ показывать более и менее популярные фильмы.
/channel/gizhru/337
Обнаружил удивительно неинформативные графики, на которые ежедневно смотрят десятки тысяч людей, а возможно и больше. Это графики рейтинга фильмов определенного режиссера или актера на Кинопоиске. Это график, где подряд идут много оранжевых столбиков, а по оси X нет ничего конкретного, это просто столбцы по порядку. При этом наводя на отдельные столбики можно узнавать какой именно это фильм и в каком году выпущен. Что крайне недружественно с точки зрения пользовательского опыта.
Сначала я решил сформулировать, какие задачи я хочу этими графиками решать.
1. Насколько в целом крутые фильмы, которые снимал этот режиссер или в которых играл этот актёр.
2. Можно ли распознать этапы подъема или спадов у этого человека, в какие годы они были.
3. Можно ли распознать этапы активности (много фильмов) или спада (мало фильмов)
4. Увидеть ритм съемки (несколько лет активно снимает(ся), потом отдыхает, или снимает раз в 5 лет).
5. Какие именно фильмы самые крутые у этого режиссера или самые слабые из известных (для этого еще нужна метрика популярности/известности фильмов, в моем датасете ее исходно не было).
Плюс это разумеется должно работать корректно на мобилках и строиться автоматически. Возможность интерактивности я бы оставил, но все основные задачи график должен решать и в статике.
В итоге, поэкспериментировав с разными визами (пчелиный рой смотрелся неплохо!), я получил следующий результат, в котором все перечисленные задачи решены.
Некоторые нюансы:
— В процессе возникло достаточно много сложностей, в частности, потребовалось решение того, что в один год могло быть много фильмов и рейтинг у каких-то из них мог быть похожим. Сейчас решено прозрачностью кружочков, но можно еще покастомить.
— Цветовая шкала общая для всех фильмов. Она выстроена от 3 до 9, где 6 — середина между красным и синим. Таким образом, привыкнув смотреть эти графики можно будет с одного взгляда видеть, насколько крутые фильмы (или не очень) у этого киноперсонажа, а это и было основной задачей.
— То, что ещё помогает это решить — сохранение общей шкалы Y от 0 до 10. По общему расположению точек также можно будет считывать "крутость" фильмов
— Линия тренда решает проблему сглаживания данных и наглядно показывает как менялся уровень фильмов. Хотя над методологией ее расчета еще можно подумать.
— Над расположением лейблов и их оформление нужно еще подумать, сейчас они не оптимальны. В определенных случаях, если фильм известный, но места вокруг мало, его все равно стоит показывать, либо с небольшой выноской, либо с легкой обводкой или на полупрозрачной плашке. Самих фильмов я бы подписывал меньше (это сейчас стандартные настройки Tableau)
Это первый подход к снаряду, и разумеется, здесь большое пространство для улучшений, изменений и развития.
P. S. На графике сейчас продюссесркая ипостась Копполы, а не режиссерская.
/channel/ne_znal_ai/1929
👇🏻Сразу мысль, а что если эдакую вещь к столбикам попробовать применить 😈
Написал для Т—Ж ещё одну статью о том, как можно манипулировать восприятием при помощи графиков
На этот раз речь пойдёт про линейные графики и проблемы, которые с ними связаны
Очень понравилось, какой у нас получился материал
Почитайте и вы :)
https://journal.tinkoff.ru/stat-manipulation-line/
На прошлой неделе долго дебажила свой же отчет, потому что поленилась в первый раз нормально все сделать 🥲
Сгруппировала лучшие практики разработки в Tableau, чтобы на такое не натыкаться:
1. Называйте все поля понятно и читабельно. Используйте общепринятые сокращения.
- Не Sales (2), а Sales Last Year
- Если в калькуляции параметр, w param
- Стандартизируйте часто используемые калькуляции и параметры (MoM/YoY; Split b)
2. Разбивайте сложные калькуляции на несколько калькуляций. Не пытайтесь впихнуть все в одну, а внутри пользуйтесь отступами и переносом строки.
3. Группируйте поля в папки.
4. Нумеруйте поля и калькуляции, если их много и по логике они зависят друг от друга.
5. Добавляйте комментарии. Особенно к неочевидным техническим калькуляциям или с разными исключениями и логическими зависимостями.
6. В название листов добавляйте названия графиков и о чем он.
7. Цветовое кодирование. Присваивайте листам с графиками тот же цвет, что и табе с дэшбордом.
👉Детали тут
«Основы визуализации данных» Клауса Уилке
Наконец-то вышел русскоязычный перевод книги Клауса Уилке «Основы визуализации данных» — это настоящая кладезь знаний для всех, кто хочет овладеть искусством и наукой визуализации данных. Автор, профессор интегративной биологии, обладает уникальной способностью объяснять сложные концепции простым и доступным языком, что делает книгу полезной как для новичков, так и для опытных специалистов.
С самого начала Уилке подчеркивает важность правильного отображения данных. Он отмечает, что визуализация данных — это не просто способ сделать отчеты более красивыми, но и мощный инструмент для анализа и коммуникации, способный существенно повлиять на интерпретацию информации. Автор проводит читателя через все этапы создания визуализации, от выбора правильного типа диаграммы до настройки осей и использования цветовых схем.
Одним из главных достоинств книги является ее структурированность и систематичность. Каждая глава посвящена отдельному аспекту визуализации, начиная с базовых принципов и заканчивая более сложными техниками. Например, глава, посвященная цветовым схемам, предоставляет исчерпывающие рекомендации по выбору и использованию цветов, учитывая как эстетические, так и функциональные аспекты. Уилке подробно объясняет, как различные цветовые схемы могут влиять на восприятие данных и как избежать распространенных ошибок, таких как чрезмерное использование цветов или недостаточное внимание к людям с дальтонизмом.
Большое внимание уделяется также выбору правильных типов диаграмм для различных типов данных. Автор приводит множество примеров, показывая, какие визуализации наиболее эффективны для представления количественных, категориальных или временных данных. Практические советы и примеры помогают читателю лучше понять, как применять теоретические знания на практике.
Все графики в книге подготовлены с помощью R и ggplot2, но вы не найдете ни строчки кода в книге. Можно отдельно посмотреть код самой книги, так и отдельных графиков.
Похвалы заслуживает глава, посвященная распространённым ошибкам в визуализации данных. Уилке подробно разбирает типичные ошибки, такие как избыточное использование трёхмерных графиков или отсутствие контекста, и предлагает практические решения для их избегания. Это делает книгу не только учебным пособием, но и ценным справочником, к которому можно обращаться в процессе работы.
В целом, «Основы визуализации данных» Клауса Уилке — это обязательное книга для всех, кто работает с данными и хочет научиться представлять их максимально эффективно и понятно. Книга сочетает в себе глубокие теоретические знания и практические советы, что делает её незаменимым инструментом для анализа и визуализации данных. Она помогает не только создавать красивые графики, но и делать ваши данные понятными и убедительными, что особенно важно в эпоху информационного перегруза.
#книги #dataviz #R #ggplot2 #ВизуализацияДанных
Господи, последняя версия Табло при вылете предлагает восстановить проект.
Да это просто праздник какой-то 😃
Сколько часов работы было потеряно из-за этих вылетов — не сосчитать.
Тут правда важно отметить всё же, что в отличие от американских выборов президента, где победитель в графстве — это действительно тот кто набрал больше половины голосов (или близко к этому, так как альтернативные кандидаты кроме республиканцев и демократов набирают крохи), во Франции показаны выборы в Европарламент, где в списке было 7 партий (а во всём бюллетене около 30).
И да, технически цвет, в который окрашена коммуна — это та партия, которая получила большинство в этой коммуне, но на практике это может быть от 15-17% до 30-35% от проголосовавших избирателей, и это точно нужно иметь в виду, когда мы видим почти полностью закрашенную коричневым Францию.
Everybody lies — говорил Дональд Трамп доктор Хаус. Вот и с электоральными картами тоже так. Это некий язык, который нужно уметь понимать, для чего недостаточно просто разобраться в легенде, какой цвет за какую партию, а еще в логике самой визуализации, электоральной географии, специфике самих выборов.
☝️ На самом деле Карим Дуйеб просто повторил здесь то, что делал он же в 2019 году после того, как Трамп вывесил в Твиттере карту выборов с подписью Try to impeach this.
Подробности тут.
Выбор цветоинтервальных шкал для карт — это почти всегда очень тонкое дело. И очень важно понять, какой именно аспект реальности вы хотите отразить, да так, чтобы не слишком обмануть в остальных значимых.
👇🏻
/channel/novichkovnet/4572
Версия Tableau Public 2024.1.3 позволяет сохранять проекты локально! Наверное ни одной другой функции я не ждал так, как этой, а я пользуюсь Tableau c 2013 года.
Ура! 👏🏻🍾💣
Не самый удачный график от FT, конечно. Даже можно сказать классический пример визуальной манипуляции получился.
Мысль была понятной, отразить рост трудоспособного населения среди мигрантов в США, и снижение количества коренных жителей того же трудоспособного возраста.
На деле же я думаю 99% аудитории прочитает график так, что мигрантов и рожденных в США сколько-то лет было примерно одинаковое количество, а теперь мигранты стремительным рывком обогнали местных 🤷
#манипуляции
Мне написала Таня Цвирова, когда-то моя студентка, а позднее коллега, с которой мы вместе работали над курсом по визуализации данных для Яндекса.
Таня в 2021 году обращала внимание Кинопоиска на ту же проблему. Правда тогда график был еще хуже (с дискретной осью времени). И пришла к примерно к тому же решению — точечной диаграмме с полупрозрачными точками.
Как аналитику выгрузить, обработать и проанализировать данные за пару минут?
Сделать SQL-запрос к базе данных.
Научитесь писать такие запросы за 1,5 месяца — на курсе Яндекс Практикума. После учёбы вы будете пользоваться SQL уверенно: пройдёте от самых простых селектов до работы с оконными функциями.
На курсе вас ждут:
◾️ видеоуроки,
◾️ симулятор с реальными рабочими задачами,
◾️ вебинары с экспертами по SQL,
◾️ тренажёр с задачами для практики.
На курсе можно будет набить руку, потренироваться, задать вопросы наставнику. Материал идёт от простого к сложному, так что к концу учёбы студенты уже думают на языке SQL-группировок.
→ Записывайтесь и растите конкурентоспособность
Это часть работы Ивана Кесорецких, научным руководителем которой был ваш покорный слуга. Для своей магистерской Иван сделал буклет про гестационный сахарный диабет.
Заболевание развивается во время беременности и заканчивается с рождением ребенка. Ежегодно в мире регистрирую около 200 000 случаев гестационного диабета — около 5% всех беременностей.
Но треть женщин не проходят тестирование на гестационный диабет — в том числе и потому, что почти ничего не знают о заболевании и сопряженных рисках. Поэтому Иван вместе с консультантом-эндокринологом придумали такой информационный буклет.
Как использовать визуализацию данных для научно-популярного контента, мы с коллегами учим в магистратуре «Научная коммуникация» Университета ИТМО. А еще рассказываем как:
• продвигать научные организации
• писать научпоп-статьи
• придумывать и воплощать в жизнь просветительские проекты
• работать с медицинскими и IT-компаниями.
Сейчас в магистратуру ведут новый набор. Приходите 25 июля на онлайн-митап — здесь узнаете про саму программу, вступительные и о том, как ChatGPT помогает в подготовке научпоп-контента.
📈Как графики спасают жизни
На бывшего президента США Дональда Трампа совершено покушение во время предвыборного митинга в городе Батлер в Пенсильвании. Во время выступления Трамп повернулся, чтобы указать на график и описать, что было на экране, когда раздались выстрелы.
Если бы я не указал на этот график и не повернул голову, чтобы посмотреть на него, пуля попала бы мне прямо в голову
This is illegal migrants coming into our country. See the arrow on the bottom? That was my last week in office. That was the lowest number in history. // Это нелегальные мигранты, прибывающие в нашу страну. Видите стрелку внизу? Это была моя последняя неделя в должности. Это был самый низкий показатель в истории//
🏆 Друзья, а не хотите ли получить в подарок любую мою книгу? А хотите!
Тогда бегите на канал гражданки Марии Гришиной (@BISupplyBA) /channel/Design_PowerBi/459, сделайте ей какой-то там супер-пупер отчет в PBI с WOW-эффектом и получите в подарок любую из переведенных мной книг. Даже две! Конкурс продлится до 21 июля. Не подкачайте!))
Ну и продолжайте заходить в гости к моему боту @alexanderginko_books_bot и следить в онлайне за переводом очередной моей книги. Он без вас скучает... А скоро мой бот пополнится новыми возможностями!..
Виртуозно строите дашборды?
Научите студентов Яндекс Практикума
Яндекс Практикум — это онлайн-сервис, помогающий освоить актуальные цифровые профессии. Учебный контент здесь разрабатывают мидлы или сеньоры.
Сейчас, например, нужен автор уроков по визуализации данных для курса «Аналитик данных и специализации BI-аналитик». Конкретная тема — создание дашбордов с помощью Datalens.
Экспертам предлагают удалёнку, нагрузку от 10 часов в неделю, гибкую занятость. А главное, возможность развиваться вместе с Яндекс Практикумом нон-стоп.
Пожелания к кандидату >>
Сделал распределение. Хорошо видно, что по "холму" медиана за партию Ле Пен около 38-40%, но по-видимому за счёт более мелких коммун. Поэтому в итоге и получилось 31,4%.
Читать полностью…👆🏻Наконец получилось нормально вставить гифку из того поста. Кстати, сделано в Obersvable: karimdouieb/try-to-impeach-this-challenge-accepted" rel="nofollow">https://observablehq.com/@karimdouieb/try-to-impeach-this-challenge-accepted
(на большом экране очень эффектно)
📈Голосует не земля, а люди
Часто при визуализации данных о голосовании красят всю площадь «муниципалитета» в цвет победившей партии. Тут-то и возникает конфликт → площадь «муниципалитета» не имеет ничего общего с числом избирателей.
Французский журналист предложил такое решение: агрегируем данные в «столице» муниципаьного образования и делаем размер точки пропорционально числу избирателей. Вы великолепны!
📊Голосовать за канал
Вчера начался чемпионат Европы по футболу. В первом матче 🇩🇪Германия разгромила 🏴Шотландию — 5:1. Вы спросите, причем тут визуализация данных и принципы восприятия?
А вот причём. Полузащитник Германии Тони Кроос за матч отдал 102 передачи, и лишь одна была неточной. Об этом сейчас активно пишут в спортивных пабликах. Я увидел пару картинок на эту тему.
Какая из них более наглядная и лучше доносит идею? Если вам кажется, что первая — ставьте 👍, если вторая — ❤️
Понравилось описание хакатона, наверное прикольный)
Электро-🛴 можно выиграть (!)
/channel/BI_PIX_Chat/7694
В рабочем проекте обсуждали идею визуализации, в которой хотели показать пересечение разных сущностей.
Например, 1000 покупателей ходят в «Пятёрочку», 250 — в «Дикси», а из них 125 ходят и туда и туда.
Мой коллега Антон Мизинов сделал полезный инструмент, который помогает правильно такие пересечения визуализировать. Сидел с ним рядом и слышал, что там под капотом какая-то непростая математика 😁
Пощупать:
mizinov/venn-area-diagram" rel="nofollow">https://observablehq.com/@mizinov/venn-area-diagram
📈Зарплаты в киноиндустрии
Нам кажется, что в кино больше всего получают актеры, но на самом деле высокие зарплаты у тех, кто делает картинrу, свет, звук и музыку. «Кинопоиск» выпустил исследование о зарплатах в киноиндустрии. Это очень крутой пиар-ход, потому что всем интересны деньги.
С точки зрения визуализации все проходило под контролем моего уважаемого коллеги Александра Богачева, мне нравится его решение. Тонкость в том, что не все могут адекватно воспринять «ящик с усами». Но смысловой заголовок поймет даже ребенок.
Мои друзья говорят, что сейчас в отечественное кино пошло много инвестиций из-за санкций, так что ждем новых хитов с Александром Петровым.
Вот еще примеры визуализации зарплат в копирайтинге и в BI-аналитике.
📽Смотреть все исследование