🤖 Rtutor.ai для работы с вашими данными с помощью запросов на естественном языке
Steven Ge написал приложение RTutor, которое позволяет генерировать и тестировать код на языке R, просто "общаясь" с ним. Например, на основе набора данных mpg
можно задавать такие вопросы: "С помощью ggplot2 создай боксплот (boxplot) для зависимости hwy от класса. Цвет по классам. Добавь джиттер" (Use ggplot2 to create a boxplot of hwy vs. class. Color by class. Add jitter).
RTutor сгенерирует функциональный код для ответа на ваш вопрос, что упрощает проведение предварительного анализа и визуализации данных для тех, кто не имеет опыта работы с R. Тем же, кто имеет опыт работы с R, RTutor поможет сэкономить время, предоставляя код, который можно использовать в качестве отправной точки для своих проектов.
RTutor может быть запущен локально как пакет R. Он также генерирует код R в формате Markdown и html-отчеты.
#R #ggplot2 #AI #chatGPT
Sam Epley сделал инструмент для проверки контраста и восприятия цвета. Он опирается на The Web Content Accessibility Guidelines (WCAG) стандартам, чтобы текст и цвет легко читались и воспринимались.
Можно выбрать цвет фона, текста и тип начертания и он подскажет, какие стандарты вы нарушили, и предложит более оптимальные варианты.
Про сам стандарт и как с ним работать.
Есть, кстати, еще один популярный спор насчет инфографики. Джанк-чарты (или графики, сделанные специально, чтобы привлекать внимание, но искажающие значения) могут быть такими же эффективными в точности представления информации, и при этом сильно выигрывать по наглядности, вовлечению и запоминаемости. Противоположное мнение состоит в том, что джанк-чарты должны умереть, ведь они как минимум подают плохой пример.
Давайте сравним. График слева я нашел в интернете. А график справа сделал сам.
Какой лучше?
Если исходный, ставьте ❤️,
если переделанный — 🔥.
Классный получился эфир. Всем спасибо, кто пришел, прокачали компоненты, интерактивные прототипы и конечно же графики 😏
Спасибо Явно.Дизайн в лице Антона, Миши, Ники и Оли, что поучаствовали в Домашке и отдельное спасибо Саше Богачеву, что залетел в нашу движуху и дал полезные комментарии по графикам!
⚡️ Обязательно подписывайтесь на канал Явно.Дизайн и на канал Чартомойка про графики, их критику и переверстки, датавиз-сообщество, который ведет Саша.
И пока тепленькое, ловите полезные ссылки, которые упоминались на эфире и не только:
✦ На русском:
«Графики, которые убеждают всех» лучшая современная книга на русском языке про базовые знания по визуализации данных и графикам;
Постер от Саши, который помогает выбрать тип графика;
Постер по основным ошибкам в графиках от агентства DataYoga;
Сборник шпаргалок по способу выбора типа графика/визуализации от них же;
Подборка папок с ТГ-каналами по инфографике, визуализации данных и аналитике;
✦ На английском:
Заметки Лизы Шарлотты Мут про цвет в блоге инструмента для визуализации Datawrapper, которые скоро станут отдельной книгой. Новости про книгу тут;
Lisa Sharlotte Muth Songbook миро-доска выжимка с подсказками по улучшению графиков по мотивам статей Лизы.
Запись эфира будет чуть позже 😎
Info Design Songbook - Сделали с чудесной @nastengraph сборник do's / don'ts визуализации данных от экспертов
🗺 Борд в Miro
Давно была идея сделать сборник бестпрактик инфодизайна. Причем не своих, а от экспертов в авторитете.
Главная цель консолидировать всю суть без спекуляций в доступном для восприятии виде.
❤️ Серия статей от Lisa Charlotte Muth очевидно была первая в списке.
Этот автор отличается тем, что очень глубоко копает, круто и понятно объясняет. При этом ее рекомендации точны, они практически не вызывают желания их в чем-то оспорить (или есть такие примеры ?)
Борд можно включать в learning paths для data/bi аналитиков, в планы развития, в онбординг планы новичков, вo внутрикорпоративные курсы по визуализации данных.
Мне сложно придумать более наглядного способа показать как нужно и как не нужно дизайнить графики и при этом не заставлять читать книги - это делают единицы в итоге. А залипать в борд пока нравится большинству.
Есть уже идея, какого автора следующим добавить на борд.
Но мы примем и ваши предложения👇
Друг сегодня скинул тред в твиттере и спросил, считаю ли я этот график манипулятивным.
Короткий ответ — да, но не по той причине, о которой пишет автор твитов.
Длинный ответ:
1. Если мы используем в визуализации столбиковую диаграмму, то всегда должны строить её от нуля. Когда мы смотрим на столбики, то всегда сравниваем их длину. Тут кажется, что температура на первом столбике раз в пять меньше, чем температура на последнем столбике, что явно не так.
2. Вообще-то далеко не всегда нам надо сравнивать величины друг с другом, иногда нужно показать динамику или ранжирование. Сравнивать температуры между собой вообще немножко бесполезно, учитывая, что понятие нуля там неоднозначно.
Как можно было бы построить этот график иначе?
Лучший вариант — оставить просто точки или линии на значениях температур. В Data Viz Project это называется Dot Chart.
На худой конец можно использовать «леденцовый» график.
В этих случаях мы акцентируем внимание на положениях точек друг относительно друга, не сравнивая сами величины друг с другом.
Линейный график здесь использовать нельзя, потому что значения идут не в хронологическом порядке. Об этом — в следующем пункте.
3. Я не считаю ранжирование по значению температур манипуляцией. Здесь была задача показать рейтинг, это валидная задача.
Правда, в данном случае рейтинг очень сложно считать, потому что подписи лет перевёрнуты.
Лучше всего было бы располагать столбики друг под другом, а не слева направо.
Можно было бы попробовать ещё раскрасить подписи лет разными цветами — например, более близкие к современности красным, а более близкие к прошлому — синим. Тогда бы сразу стало понятно, что на первых местах в рейтинге — последние годы.
Какие ещё мнения? Пишите в комменты :)
Переверстка графиков — отличная инициатива. Я постараюсь быть на разборе работ!
/channel/cogload/102
Как строить прогнозы в нестабильное время?
И что делать, когда модели перестают работать, а сезонность больше не актуальна? На эти вопросы продуктовые аналитики Тинькофф и Яндекс Еды ответят на IT’s Tinkoff Product Analytics Meetup 30 августа.
Команды обсудят:
— как работала команда Тинькофф Путешествий в периоды резкого повышенного спроса;
— как под воздействием внешних обстоятельств и целей адаптировался алгоритм ценообразования в Яндекс Еде;
— из чего должны складываться прогнозы в нестабильное время.
После докладов будет нетворкинг и душевные разговоры о цифрах и не только.
📆 Митап пройдет 30 августа в Москве в офисе Тинькофф на «Водном». Не забудьте зарегистрироваться и позвать с собой коллег.
#направахрекламы
Политическое разнообразие и широкая представленность альтернативных политических сил по-русски. Со столбиками, логарифмической шкалой и без нуля.
На самом деле столбики не используют с лог-шкалой. Именно потому, что человек привык сравнивать длины столбиков для того, чтобы понимать какие значения больше или меньше других и насколько. Площадь столбика штука сугубо вещественная.
Мастерская, конечно, работа с цифрами и визуализацией.
А по зарплатам аналогичный график будет?
Симпатичный ход от WSJ, с подписями на оси, вынесенными ближе к графику, где они в некоторой мере начинают выполнять двойную функцию: и остаются подписями для сетки, и [почти] становятся подписями значений.
#датавизприемы
Набор на курс по научной коммуникации
Подобные визуализации и множество другого делаем со студентами на курсе «Визуализация данных в научной коммуникации» в ИТМО. Принципы хорошей визуализации в коммуникации,статьи для веб, презентации, онлайн-сервисы, базовая картография, суровый фидбек от меня :)
Кстати, сейчас идет прием документов на программу «Научная коммуникация», в которую и входит этот курс.
На программу можно попасть без экзаменов. До 24 июля можно прислать CV и мотивационное письмо на конкурс портфолио, а до 1 августа податься на вступительный экзамен.
На программе помимо моего курса идет научная журналистика, маркетинг, наукометрия и другие дисциплины — в общем, базовый набор для специалиста, который хочет популярно и грамотно говорить о науке с обществом.
Подробнее о программе: https://clck.ru/353zWA
#дружескаяреклама
Ну и график сравнения курсов валют от нуля, это в большинстве случаев бессмысленная история. Так как изменения обычно в узком диапазоне, и важны даже небольшие.
Читать полностью…К вопросу о манипуляциях с диапазонами шкал Y и X. Посмотрите свежий график от Коммерсанта. Складывается впечатление, что курс с апреля почти не меняется. Рост, конечно есть, но незначительный.
А второй график с Гугла.
Если более честным выглядит Коммерсант поставьте 😀, если Гугл — 🔥
Вообще, Лиза Шарлотта Мут из Датавраппер справедливо указывает, что WCAG не вполне применим к визуализации данных. И рассказывает о том, что Эндрю Сомерс разрабатывает собственный стандарт — APCA, который даёт более адекватные результаты по контрасту цветов, в применении к визуализации данных.
Кроме того, на различимость цветов влияет не только яркость фона и основного цвета, но и размер цветового элемента, характер фона (на темном фоне светлые оттенки более различимы, чем наоборот), качество экрана, конкретные оттенки, освещенность окружающей среды, отступ до краев фона и другие.
В качестве примера, я хочу показать инфографику, которая использовалась в рекламе Экономист про города, наиболее пригодные для жизни. Я проверил их через WCAG — и результаты получились катастрофические. 3 цвета из 5 имели недостаточный уровень контраста по WCAG — 1,02, 1,44, 1,87, а еще один — 2.22 — тоже ниже нормы по контрасту. (Норма — 3:1 и более для крупных элементов и 7:1 и более для мелких)
Эндрю Соммерс предлагает свой инструмент для стандарта APCA. Я проверил картинку от Экономист там... и результаты оказались теми же самыми :))
45% — это минимум для крупного текста (аналог 3:1 для WCAG). 60% — норма для среднего размера объектов. И для мелких объектов контраст должен быть не меньше 75%. Этот тест также прошел лишь один цвет. Добавим, что еще и точки очень маленькие.
(Вообще, я обратил внимание на эту картинку именно потому, что засомневался, что бледно-желтый проходит по читаемости, потому что на телефоне эти точки было не видно вовсе)
Сложно понять, чем руководствовались дизайнеры Экономист, возможно это просто картинка для промо, и она и не должна была быть 100% читаемой, но очевидно, что бледно-голубой и бледно-желтый на этом сером имеют катастрофически низкий контраст.
Пожалуйста, продумывая цвета для датавиз, учитывайте не только их функциональность с точки зрения выполнения датавиз-функций, эстетику, но также не забывайте про различимость их между собой и с фоном.
Артём Иволгин, один из лучших журналистов-инфограферов в нашей стране, выпустил новый проект — про то, как меняется популярность имен в России. Глубокая работа с множеством прекрасных визуализаций, которые могут стать референсами и для ваших проектов. Причем интересны не только вид визуализации, работа с цветом и подписями, но и работа с данными и сторителлинг-ракурсы этих визуализаций.
https://journal.tinkoff.ru/name-stat/
Планы на среду: прокачать SQL и расчет продуктовых метрик!
📣 20 сентября в 19:00 по Мск пройдет бесплатный live-интенсив по теме: “Расчет продуктовых метрик с помощью SQL”.
Мы проводили такой интенсив в прошлом месяце, но многие не успели на него записаться, а очень хотели — поэтому мы решили, почему бы не провести его еще раз 😍
А еще он очень понравился участникам, и мы собрали много положительного фидбека 💫
👉🏻 На live-интенсиве мы с вами подключимся к реальной облачной базе PostgreSQL и с помощью SQL рассчитаем основные продуктовые метрики онлайн-сервиса:
* Activation rate
* MAU
* ARPU и ARPPU
* другие метрики
На интенсиве вы узнаете:
◾️ Как используют SQL в реальной работе — вы сможете сохранить это в портфолио и показать на собеседовании: работодатель точно оценит 🤘🏻
◾️ Профессиональные фишки и лайфхаки SQL: мы копили их годами и хотим рассказать вам 😏
◾️ Как писать код на SQL, а также мы расскажем про продуктовые метрики — подробно объясним всё с нуля 😍
🔗 Регистрируйтесь по ссылке
Реклама. ООО АЙТИ РЕЗЮМЕ. Erid:LjN8KWcDm
Автосумма: одним движением суммы по всем столбцам/месяцам.
Сочетание клавиш Alt + = позволяет получить сумму быстро, не вводя руками функцию СУММ / SUM.
Если выделить ячейку под столбцом с числами и нажать Alt + =, то получим сумму по этому столбцу (одну функцию СУММ).
Уточняем: речь про "просто Alt", то есть левый Alt. Правый Alt заменяет сочетание Ctrl+Alt и в сочетании с плюсом-минусом будет менять масштаб листа.
А если - как в видео - выделить диапазон из нескольких столбцов и строк вместе с пустой строкой под ним и столбцом справа, то мы получим суммы по каждому столбцу и строке (и итоговую справа внизу).
Паспорт Сингапура дает возможность путешествовать в 193 страны без визы. А есть одна страна, которая очень символично лежит на графике почти посерединке и дает возможность путешествовать в 112 стран (что почти среднее значение). Эта же страна объединяет два континента.
А поисследовать можно тут.
ps beeswarm график делала через ladataviz, просто 5 минут и основа графика уже есть, прямо топ
Люди обычно не осознают как важно на графиках "ничего". Часто это "ничего" — именно то, ради чего график и делается.
Читать полностью…Научитесь считать и прогнозировать на онлайн-курсе «Финансовый аналитик». Узнать подробнее о курсе и получить скидку можно здесь: https://goo.su/aWZGIa
Вы сможете оценивать финансовое состояние компании, рассчитывать рабочий капитал и помогать бизнесу справиться с долгами. Узнаете, как составлять финмодель бизнеса и анализировать бюджет. Сможете разобраться с финансами своей компании, получить повышение или начать карьеру аналитика.
Вас ждут 3 месяца интенсивной работы и тесное взаимодействие с наставниками, которые помогут вам понять язык цифр и научиться анализировать.
Ну а чтобы помочь вам принять решение, мы предоставляем бесплатный доступ к первым трём модулям. Вы сможете понять, удобен ли для вас такой формат обучения.
Переходите на сайт, чтобы успеть забронировать курс на выгодных условиях!
Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880
Нарисовала варианты расположения легенд к графикам. Мои самые любимые:
- легенда как график
- легенда в тексте (подзаголовком или прям в заголовке, если категорий не очень много)
В табло еще немного неудобные легенды (они занимают одинаковое расстояние под каждый квадратик с текстом вне зависимости от его длины), есть отличный лайфхак от Ромы Бунина, как делать адаптивную легенду.
🤬 Cool-modern-dashboard подгорания пост
Давно хотел написать, тема лежит в запланированных уже года два, но тут недавно встретил статью, которую шарят в каналах по дизайну, и решил, что не стоит откладывать.
Проблема
Дизайнеры мало погружаются в тему визуализации данных и поэтому, когда им нужно сделать интерфейс с графиками, применяют те же правила, что используют и для дизайна сайтов. Это приводит к парадоксу: аналитики и BI-разработчики, которые ищут как улучшить внешний вид своих дашбордов ищут что-то формата «dashboard design» и попадают, например, на такую страничку (картинка выше). А там «красота»: скругления, плавные линии, бар-чарты не от нуля, 50 оттенков одного цвета, много плашечек и тенюшечек.
Аналитики смотрят на это и думают: ну раз дизайнеры так делают, то и мне стоит делать так же 🙈 В итоге мы имеем целую плеяду «красивых» дашбордов, которые несут мало ценности или ими неудобно пользоваться.
Статья-триггер
А вот и статья, которая триггернула меня написать пост: «Как нарисовать красивый график или диаграмму». Само слово «красивые» уже насторожило =) Подсвечу две основные ошибки:
Скругление углов и добавление градиентов
«Так как в современном дизайне повсеместно используются элементы со скруглённым углами, то же самое стоит использовать и для оформления инфографики.»
Вот поясняющая статья про скругления: почему так не стоит делать. Градиенты просто лишние, создают ощущение, что метрика как-то от чего-то зависит или меняется.
Подбор палитры в зависимости от цветов дизайна и бренда
«Для того чтобы лучше вписать график в окружающий дизайн или брендированную презентацию, можно использовать основной цвет этого дизайна. Даже если вы показываете рост продаж компании, можно покрасить график в красный если это рост продаж Кока Колы»
На мой взгляд такой подход может прям сильно испортить восприятие информации. Используйте корпоративные цвета в лого, в заголовке и т.п., но не стоит их бездумно переносить на график. Самое полное исследование и рекомендации по цветам.
В статье есть и хорошие советы, но примеры к ним тоже бывают сомнительные. В общем прочитайте сами и готов обсудить в комментариях.
К чему я это всё
Моя задачу не обидеть кого-то или сказать, что дизайнеры не умеет делать работу. Просто надо знать, что информационный дизайн и визуализация данных — это отдельные навыки. Проблема в том, что такие ошибки легко подхватываются и становятся трендом. Посмотрите как много ошибок можно найти на Tableau Public по запросу «modern dashboard design» или в статье «8 самых популярных дашбордов», и даже делаются специальные сервисы, чтобы получать шаблоны таких «красивых» дизайнов в Power BI и т.п.
Когда будет искать хорошие примеры, лучше смотрите на ребят, кто занимается именно датавизом, а не просто дизайном. И включайте голову и здравый смысл! 😜
Хороший дизайна визуализации данных от дизайнеров
— FX-pro
— Skybonds
— Секьюридж
Ну и напоследок: хороший канал «UX-notes» Антона Григорьева про дизайн, который слышит обратную связь и ссылка на рубрику «Переверстка».
#ссылка
Занятный пример манипуляции восприятием
На первый взгляд, всё понятно: уменьшилась доля людей в психбольницах — выросла доля людей в тюрьмах. То ли освобождённые психи стали совершать преступления. То ли стали сажать за то, за что раньше запирали в психушке. То ли мало запирают в психушках, и из-за этого выросла преступность. Но корреляция налицо! А может, и причинно-следственная связь! По крайней мере, так этот график подают некоторые авторы (например, Пол Грэм)
Однако, давайте внимательно посмотрим на шкалу времени. Что мы видим? Что сокращение доли людей в психбольницах началось ещё в середине 50-х. А с 1960 по 1970 оно было радикальным — почти втрое!
А что происходило в эти же годы, с 1960 по 1970, с долей населения в тюрьмах? Оно тоже сокращалось! И довольно заметно — с почти 200 до ~130 на 100к населения. И рост начался снова только с примерно 1973 года. И продолжался непрерывно ещё как минимум 28 лет
Получается, что более 10 лет оба эти показателя снижались одновременно. И ещё, что рост доли людей в тюрьмах начался сильно позже — через много лет после того, как радикально сократилась доля населения в психбольницах
Заметьте, в тексте ни слова о причинах этих явлений или связи между ними. Может, и связаны, нам это не известно, и пост не об этом. Пост о том, что при помощи данных можно манипулировать восприятием. Что можно показать связь там, где её и близко нет, просто правильно подобрав шкалы. И это — пример такой манипуляции
На первой картинке — диаграмма от The Economist, на второй — диаграмма из исследования, откуда были взяты данные
Мы с коллегами по цеху собрали папку проверенных, активных и интересных каналов, связанных с датавизом. Я конечно же на все подписана и все очень советую. Кому неудобно папкой, ниже добавила список ссылок.
Я была бы не я, если бы что-то не попыталась быстренько нарисовать :) Размер — число подписчиков, вертикальная линия — число опубликованных картинок, горизонтальная — число ссылок. Глядя на Рациональные и Настеньку понимаю, что мне ещё работать и работать :)
/channel/data_csv
/channel/rationalnumbers
/channel/chartomojka
/channel/revealthedata
/channel/data_publication
/channel/designing_numbers
/channel/nastengraph
/channel/novichkovnet
/channel/datavizcomics
/channel/visualize_it
/channel/dataviznews
К моему удивлению пример из предыдущего поста, который в пору включать в учебники, вызвал некоторое недопонимание, несогласие и реакцию в духе "оба плохие" или даже "коммерсант лучше". Что ж, давайте попробуем прояснить.
1. Разумеется любой выбор диапазона шкалы Y, длительности времени (шкала X) и пропорций графика несёт в себе субъективный компонент и акцентирует внимание на разных ответах. То есть для разных вопросов, будут разные настройки. И чисто теоретически можно придумать какой-то сценарий, при котором настройки у графики Коммерсанта идеальные для получения нужного ответа. Проблема именно в этом "чисто теоретически". Потому чтобы придумать этот сценарий нужно сильно постараться.
2. Как мы уже говорили в одном из недавних постов, линейные графики очень многослойные, и могут передавать много информации. Первый слой — общее впечатление о характере изменения показателя и выраженности этих изменений. Грубо говоря, показатель вырос/снизился? Это значительное изменение? Мы с Ромой Буниным всё это подробно как раз обсуждали в последнем стриме, и я приводил похожие примеры. Следующий слой — детали этих изменений, экстремумы, возможность посмотреть каким был показателем в каждый момент времени и так далее. Что даёт нам Коммерсант? Что за последние 4 месяца курс евро к рублю вырос, но не так значительно. В каком-то смысле даже есть ощущение, что он почти остается на месте. Субъективно это считывается, как "изменения незначительны".
3. На это работают и расширенный до 200 диапазон шкалы Y, который будет "уплощать" любые изменения. (А если сделать 400 или 1000, изменений и вовсе не будет, только вот какой в этом смысл?), и выбор сделать график только от апреля, лишая читателей контекста, который бы и помог сказать, "а много это или мало", "а как было раньше". Потому что летом 2022 года курс был менее 60. И более того — это единый тренд, который на большем промежутке времени лучше виден.
4. График от Гугла возможно тоже не оптимален. Чтобы точнее понимать контекст, его можно было сделать от нуля, хотя и сейчас это не ошибка (об этом чуть позже). Но важно понять, что график от Гугла — автоматический, в его создании не участвовало сознание человека и не пыталось сделать его более наглядным, понятным и соответствующим контексту. Потому что если бы пыталось, наверное захватило бы и начало 2022 года.
5. И юмор ситуации здесь в том, что автоматический график от Гугла передаёт субъективный (экспертный) компонент информации о курсе значительно лучше и точнее, чем ручной от Коммерсанта, который делает всё, чтобы критически снизить степень изменений курса с помощью манипуляций со шкалами.
6. По поводу того, что линейный график нужно строить только от нуля. Удивлен, что об этом снова и снова нужно говорить. Разумеется, можно не только от нуля, но об этом напишу подробнее отдельный пост.
🏋️ Как изящно визуализировать разницу между двумя показателями?
Традиционный excel-style – выбрать сгруппированную столбчатую диаграмму (grouped bar chart). Столбчатые диаграммы могут быть не всегда идеальным вариантом визуализации данных, особенно когда у вас есть значения, которые очень близки друг к другу, то становится очень сложно визуализировать разницу между столбцами.
Точечный график это одна из моих любимых альтернатив сгруппированной столбчатой диаграмме. Точечные графики предложил Уильям Кливленд (Cleveland W.), один из пионеров исследований в области визуализации данных. Точечный график использует точки, соответствующие значениям данных, иногда соединяемые линиями или стрелками.
Разновидность точечного графика – диаграмма гантелей (dumbbell chart) или иногда называемой диаграммой разрыва (gap chart), можно также встретить название "диаграмма ДНК" (в силу похожести на спираль ДНК). Диаграмма гантелей – точечная диаграмма, в которой две точки соединены линией, что означает изменение (размах, диапазон, разницу) между двумя точками данных для каждого измерения. Точки данных соответствуют одной оси, а группы – другой, которые не обязательно должны быть упорядочены определенным образом, хотя сортировка может значительно улучшить восприятие визуализации.
👉 Процесс извлечения данных из PDF и код на R для создания графика people_analytics/uHvMrH_lhSM">по ссылке.
#R #dumbbell_chart #dot_plot
Weekly Charts 📈