Большие новости — теперь на «Если быть точным» есть каталог датасетов! Поддержите нас, чтобы он пополнялся
Привет! Это команда «Если быть точным». Наверняка вы знаете, что данные в России исчезают. Сведения о доходах и расходах чиновников, информация о госзакупках подсанкционных компаний, миграционная статистика — с 24 февраля 2022 года более 20 наборов данных были скрыты полностью или частично. Последние месяцы мы занимались тем, что пытались их «спасти».
Так у нас на сайте появился каталог — раздел с открытыми данными, собранными в удобные машиночитаемые датасеты. В таком формате вы их больше нигде не найдете. Чтобы собрать эти данные, мы обработали сотни таблиц из pdf-файлов, нашли скрытые API в недрах сайтов ведомств и вернулись в прошлое с помощью Wayback Machine, чтобы вернуть удаленные показатели.
Для каждого набора мы подготовили описание — об источниках, полноте и качестве данных. Доступных датасетов пока восемь.
🔸 Атмосфера: степень загрязнения в городах России с 2007 года. Данные для 220 населенных пунктов, в которых Росгидромет проводит регулярные наблюдения.
🔸 Объекты-загрязнители. Данные обо всех объектах, которые производят выбросы в стране, и о вредных веществах, которые в них содержатся. Ранее Росприроднадзор их скрыл.
🔸 Социально-экономические показатели. Почти 500 показателей о регионах России за 20 лет — от социально-демографических данных и уровня жизни до доходов и внешней торговли.
🔸 Учреждения уголовно-исполнительной системы. Из чего состоят, кто в них работает и за какие преступления в них сидят.
🔸 Смертность и заболеваемость среди заключенных и осужденных. Почти всю эту информацию ФСИН засекретила.
🔸 Преступность в России. Данные с 2011 года о типах и количестве правонарушений. Собраны с Портала правовой статистики Генеральной прокуратуры, который перестал обновляться с начала этого года.
🔸 Волны жары. Длительные периоды жары летом 2023 года в 45 городах страны.
🔸 Онкология: численность больных и показатели диагностики. Обработанные данные из ежегодников Минздрава за последние 16 лет.
А еще мы запускаем отдельный чат для обсуждения и обмена знаниями об открытых данных. Если вы часто работаете со статистикой, любите обсуждать данные, у вас много вопросов или ответов — наше сообщество для вас.
Открытых данных становится все меньше, но многие еще доступны. Собрать их все в одиночку нам не под силу. Если вы хотите помочь — напишите в наш новый бот. Сохраним открытые данные вместе.
📈Лучший дашборд
или чек-лист, как как отказаться от разработки дашборда 😈
Я люблю дашборды, но, к сожалению, часто их делают зря. Собрал 5 вариантов, когда стоит попробовать другое решение. Итак, задаем себе и заказчику вопрос — для чего нам нужен дашборд? Если ответ из списка, то дашборд не делаем.
1. Следить за коротким проектом (2-4 недели)
Если проект короткий, то лучше используйте гугл-таблицы с ручным или автоматическим обновлением данных.
2. Повесить на стену смотреть всё ли в порядке
Или слышите вопрос «а ваш BI умеет real-time?». Вместо этого сделайте алерты и регулярную рассылку в мессенджеры.
3. Смотреть данные и менять настройки в другой системе
Если каждый раз при работе с дашбордом пользователь будет что-то менять в другой системе (например, CRM) или вы слышите вопрос «а ваша BI умеет writeback в базу?», то настройте нормально CRM или другой софт и встройте туда графики через embedings.
4. Показать на презентации совету директоров
Если это не регулярка, а разовое выступление, то просто сделайте презентацию.
5. Следить за целями подразделения
Если это OKR или цели компании/подраздления, где не только численные KPI, a много разных типов результатов (выручка, закрыт или нет проект, процент выполнения проекта, результаты опроса сотрудников и т.п.) из большого количества часто ручных источников, то используйте гугл-таблицы и усвловное форматирование.
Ну и конечно же ещё есть ответ «чтобы скачать данные в эксль», но про это даже не буду говорить =)
Бонусный вопрос
Спросите заказчика, что он будет делать, если завтра основная метрика на дашборде упадёт на 30%. Если он не знает ответ, то лучше вместо дашборда заняться процессами.
И помните: лучший дашборд — дашборд, который не пришлось делать!
Хорошая статья с описанием ошибок в научных визуализациях. Помимо широко описанных, есть и довольно специфичные именно для научных, рекомендую к прочтению.
https://habr.com/ru/companies/ruvds/articles/776672/
Оригинал на английском
Гугл навигатор поменял цвет свободной от пробок дороги с зелёного на синий. Это решение можно только приветствовать. Так как "светофорная" гамма при всей понятности и интуитивности имеет серьезный недостаток. Она может плохо читаться людьми с дальтонизмом, а их довольно существенный процент, особенно среди мужчин. В зависимости от нарушения цветовосприятия и его степени это может приводить к полной неразличимости оттенков красного и зелёного.
Сине-оранжево-красная гамма лишена этого недостатка, поэтому для подобных задач должна использоваться максимально широко.
Вот такой график опубликовало издание «Медвестник», чтобы рассказать, какая страшная в России ситуация с корью.
Вообще в нём прекрасно всё. Прямо кандидат на конкурс отвратительных графиков — только сравните числа в 2015 и 2016 году. Но дополнительно отмечу, что обрезать столбики здесь — это прямо как стрелять себе в ногу.
Произошло нечто экстраординарное, но дизайнер по какой-то причине постеснялся об этом рассказывать и решил масштабы проблемы «преуменьшить»
Курсы Яндекс Практикума для аналитиков данных помогут студентам начать свой путь в анализе или укрепить навыки для эффективной работы и карьерного роста.
На курсах по аналитике вы сможете:
— освоить SQL для анализа данных;
— работать с Data Science, проектировать витрины и хранилища;
— познакомиться с Python и с его помощью анализировать данные;
— подтянуть математику для работы в аналитике и DS;
— визуализировать данные, строить понятные графики, дашборды и Excel-таблицы;
— понять роли и задачи системного, продуктового и бизнес-аналитика, чтобы выбрать то, что близко.
Программы курсов составлены с учётом актуальных требований работодателей. Кроме ревьюеров и команд поддержки и сопровождения, вам будет помогать YandexGPT, которая объяснит непонятные термины, сожмёт материал для повторения и не даст забуксовать в сложных темах.
Начните бесплатную часть любого курса до 30 ноября и получите промокод со скидкой 20%. Пусть Чёрная Пятница станет поводом сделать карьерный рывок!
→ Выбрать курс
Редкое событие!
Работа Никиты Рокотяна получила на престижнейшей Information is Beautiful Awards серебро, а дата-арт Нади Андриановой бронзу! Это действительно крупный успех. Очень за вас рад, коллеги! 👏🏻👏🏻👏🏻
Посмотреть обсуждение наград и премию в целом можно в прошедшем стриме на канале у Никиты: /channel/dataviznews/563
Рома Бунин - единственный спикер, который выступает на Матемаркетинге четвёртый (!) раз подряд.
Секрет в том, что Рома каждый год рассказывает новую серию своего собственного импровизированного сериала.
Пробегитесь по предыдущим докладам, послушайте приглашение Ромы и анонс новой серии, а также регистрируйтесь на сайте, чтобы завтра тоже послушать очередную серию - лекция Ромы будет в публичном доступе, нужно лишь оформить себе free-доступ на странице matemarketing.ru/tickets (купить билет тоже здорово 🙂)
— Процессы для построения BI-системы
— Сериал про систему дашбордов: мафия, ресторан
— Как совмещать разные инструменты и строить команду
Очень красивая интерактивная карта Римской империи, сделанная в Tableau. Залипательно.
(Смотреть только с большого экрана)
Самые востребованные навыки на 2023–2027 годы
Всемирный экономический форум опубликовал рейтинг компетенций на ближайшие 5 лет — на первом месте оказались аналитические навыки. Именно их, по данным 803 компаний из разных сфер, нужно прокачивать сотрудникам для карьерного роста. Успех маркетинговой кампании, эффективность дизайна сайта, вероятность возврата кредита — во всех этих задачах пригодятся аналитические навыки.
Чтобы вырасти в карьере в 2–3 раза и увеличить доход, советую освоить аналитические навыки на программе «Профессия аналитика данных» от Changellenge >> Education.
Под руководством экспертов-практиков из Google, Авито, VK, Revolut и не только вы с нуля освоите все необходимые аналитикам навыки. Обучение на 75% построено на практике, поэтому вы не будете скучать на длинных лекциях, а закрепите навыки на 13+ бизнес-кейсах от компаний-партнеров. Также на онлайн-встречах у вас будет возможность пообщаться с экспертами и получить от них карьерный совет.
По итогам обучения каждый выпускник получит диплом о профпереподготовке установленного образца и сможет подтвердить свои компетенции перед работодателем, а также вернуть 13% стоимости курса через налоговый вычет.
Подать заявку на курс можно до 20 октября по ссылке. А по промокоду CHART10 подписчики канала получат скидку 10 000 рублей!
Реклама. https://changellenge-education.com/ ИНН 7716917009 erid=2VtzqwvEu6C
⚡️Yandex DataLens в open source!
Сегодня для DataLens большой день, теперь доступна open-source версия инструмента. Каждый может предложить улучшения на GitHub или доработать инструмент под себя и использовать на своих серверах. Это первый релиз и со временем работа c открытой версией будет проще и удобнее. Комьюнити очень круто выиграет от того, что это не просто open source, а коммерческий проект, который будет развиваться профессиональной командой.
Я наблюдал за проектом со стороны и был удивлён тем, что выйти в open source — это совсем не «мы просто сейчас возьмём репозиторий, в github переложим и всё». Было проделано много работы: с кодом, сборкой проекта, дизайном, юридическими нюансами (оказывается их очень много!) и работой с зависимостями.
🎉 Поздравляю всю команду проекта! 💪
🔗 Ссылки
— Сайт проекта
— GitHub
— Статья на Хабр
— Чат DataLens
P.S. А ещё классный новый логотип во всех версиях =)
#ссылка
Вообще, Лиза Шарлотта Мут из Датавраппер справедливо указывает, что WCAG не вполне применим к визуализации данных. И рассказывает о том, что Эндрю Сомерс разрабатывает собственный стандарт — APCA, который даёт более адекватные результаты по контрасту цветов, в применении к визуализации данных.
Кроме того, на различимость цветов влияет не только яркость фона и основного цвета, но и размер цветового элемента, характер фона (на темном фоне светлые оттенки более различимы, чем наоборот), качество экрана, конкретные оттенки, освещенность окружающей среды, отступ до краев фона и другие.
В качестве примера, я хочу показать инфографику, которая использовалась в рекламе Экономист про города, наиболее пригодные для жизни. Я проверил их через WCAG — и результаты получились катастрофические. 3 цвета из 5 имели недостаточный уровень контраста по WCAG — 1,02, 1,44, 1,87, а еще один — 2.22 — тоже ниже нормы по контрасту. (Норма — 3:1 и более для крупных элементов и 7:1 и более для мелких)
Эндрю Соммерс предлагает свой инструмент для стандарта APCA. Я проверил картинку от Экономист там... и результаты оказались теми же самыми :))
45% — это минимум для крупного текста (аналог 3:1 для WCAG). 60% — норма для среднего размера объектов. И для мелких объектов контраст должен быть не меньше 75%. Этот тест также прошел лишь один цвет. Добавим, что еще и точки очень маленькие.
(Вообще, я обратил внимание на эту картинку именно потому, что засомневался, что бледно-желтый проходит по читаемости, потому что на телефоне эти точки было не видно вовсе)
Сложно понять, чем руководствовались дизайнеры Экономист, возможно это просто картинка для промо, и она и не должна была быть 100% читаемой, но очевидно, что бледно-голубой и бледно-желтый на этом сером имеют катастрофически низкий контраст.
Пожалуйста, продумывая цвета для датавиз, учитывайте не только их функциональность с точки зрения выполнения датавиз-функций, эстетику, но также не забывайте про различимость их между собой и с фоном.
Артём Иволгин, один из лучших журналистов-инфограферов в нашей стране, выпустил новый проект — про то, как меняется популярность имен в России. Глубокая работа с множеством прекрасных визуализаций, которые могут стать референсами и для ваших проектов. Причем интересны не только вид визуализации, работа с цветом и подписями, но и работа с данными и сторителлинг-ракурсы этих визуализаций.
https://journal.tinkoff.ru/name-stat/
Планы на среду: прокачать SQL и расчет продуктовых метрик!
📣 20 сентября в 19:00 по Мск пройдет бесплатный live-интенсив по теме: “Расчет продуктовых метрик с помощью SQL”.
Мы проводили такой интенсив в прошлом месяце, но многие не успели на него записаться, а очень хотели — поэтому мы решили, почему бы не провести его еще раз 😍
А еще он очень понравился участникам, и мы собрали много положительного фидбека 💫
👉🏻 На live-интенсиве мы с вами подключимся к реальной облачной базе PostgreSQL и с помощью SQL рассчитаем основные продуктовые метрики онлайн-сервиса:
* Activation rate
* MAU
* ARPU и ARPPU
* другие метрики
На интенсиве вы узнаете:
◾️ Как используют SQL в реальной работе — вы сможете сохранить это в портфолио и показать на собеседовании: работодатель точно оценит 🤘🏻
◾️ Профессиональные фишки и лайфхаки SQL: мы копили их годами и хотим рассказать вам 😏
◾️ Как писать код на SQL, а также мы расскажем про продуктовые метрики — подробно объясним всё с нуля 😍
🔗 Регистрируйтесь по ссылке
Реклама. ООО АЙТИ РЕЗЮМЕ. Erid:LjN8KWcDm
📈Ого! До конференции осталось всего 5 дней. Уже в субботу, 9 декабря состоится первая конференция по дата-сторитиллингу. У нас будут доклады ведущих специалистов, общение и море красивых и визуализаций!
Мы уже анонсировали программу, она лежит у нас на сайте. https://dorozhnij.com/conference
A теперь мы анонсируем финал нашей конференции — дискуссию с участием Александра Богачёва, автора книги «Графики, которые убеждают всех»; Алексея Смагина, дата-журналиста из Яндекса; Наташи Киселевой, автора тг-каналов Data-comics и Дата-арт.
Обсудим, можно ли нарушать догмы Тафти, обливаться визуальным мусором и создавать виральных дата-арт чудищ.
Увидимся уже совсем скоро, а вот ссылка на регистрацию для ваших коллег, близких и друзей. https://dorozhnij.com/conference
Аналитикам данных и специалистам по DS без математики никуда — она нужна на собеседованиях и в рабочих задачах.
Чтобы наладить отношения с тервером, матаном и линалом, приходите на курс Яндекс Практикума.
— учебник для людей: не фундаментальный, но и не научпоп;
— интерактивные задания;
— практика на бизнес-кейсах;
— преподаватели в чате, которые объяснят непонятное;
— примеры задач из собеседований.
→ Пройти бесплатный урок
📈Программа конференции «Дата-сторителлинг»
Я задумывал эту конференцию как «домашнюю», для самого близкого круга друзей и коллег. Но прямо сейчас я вижу сотни регистраций и невероятный интерес к ней, это очень приятно.
Мы сверстали программу, это большая работа!
Уже 9 декабря мы будем говорить о том, как понимать окружающий мир, свой бизнес и самого себя с помощью таблиц, графиков и диаграмм.
Поделитесь с коллегами и близкими, если еще не.
Встречаемся 9 декабря. Бесплатно, онлайн. Регистрируйтесь: https://dorozhnij.com/conference
А вот и сама программа (время мск):
11:10 - 11:30
Что статистика знает о россиянах
Невероятный Сергей Антонов, шеф-редактор редакции статистики в Тинькофф-Журнале расскажет о том, как с помощью данных понять, насколько вы нормальный
11:40 - 12:00
Как не дать картам себя обмануть
Легендарный Александр Зуев, автор тг-канала «Картографическая гостиная», расскажет о том, как нарисовать карту так, чтобы не ввести зрителя в заблуждение
12:10 - 12:30
Как поймать инсайт в сети
Несравненная Настя Кузнецова, автор тг-канала «настенька и графики» расскажет понятным языком про сетевой анализ и графы. Кажется, до этого никто не делал ничего подобного
12:40 - 13:00
Кровь, цветы и женщины — почему визуальные образы не обязательно делают инфографику «мусорной»
Талантливейший Леша Смагин, автор тг-канала data.csv расскажет о том, как отрицать Тафти и создавать запоминающиеся визуализации
13:10 - 13:30
Как алгоритмы решают, какую музыку мы будем слушать
Самый крутой специалист по бигдате в России Артур Хачуян раскроет главный секрет популярности Тэйлор Свифт!
13:40 - 14:20
Дискуссия (участники уточняются)
14:20 -14:30
Закрытие конференции
📈Регистрируйтесь: https://dorozhnij.com/conference
Тут в комментариях к кейсу с корью спрашивали, что делать, если значения настолько маленькие, что их вообще не видно.
Вот один из вариантов, который мы когда-то делали в Т—Ж: можно отдельно зазумить область, которую нужно рассмотреть более детально. Но и оригинальный масштаб тоже сохранить — чтобы отчётливо была видна драматичная разница
Курсы Яндекс Практикума для аналитиков данных помогут студентам начать свой путь в анализе или укрепить навыки для эффективной работы и карьерного роста.
На курсах по аналитике вы сможете:
— освоить SQL для анализа данных;
— работать с Data Science, проектировать витрины и хранилища;
— познакомиться с Python и с его помощью анализировать данные;
— подтянуть математику для работы в аналитике и DS;
— визуализировать данные, строить понятные графики, дашборды и Excel-таблицы;
— понять роли и задачи системного, продуктового и бизнес-аналитика, чтобы выбрать то, что близко.
Программы курсов составлены с учётом актуальных требований работодателей. Кроме ревьюеров и команд поддержки и сопровождения, вам будет помогать YandexGPT, которая объяснит непонятные термины, сожмёт материал для повторения и не даст забуксовать в сложных темах.
Начните бесплатную часть любого курса до 30 ноября и получите промокод со скидкой 20%. Пусть Чёрная Пятница станет поводом сделать карьерный рывок!
→ Выбрать курс
Инструмент для визуализации данных RawGraphs анонсировал на внешнюю аудиторию новую функцию — возможность создавать и использовать «кастомные виды графиков».
Это значит, что теперь любой член комьюнити может написать шаблон для отображения нового вида визуализации, а любой другой пользователь — просто построить по этому шаблону свой график.
Ну и пару слов о RawGraphs — если вы о нём не слышали. Это сервис, который позволяет делать «основу» для вашей инфографики, которую, как правило, потом надо дорабатывать в графическом редакторе. Там нет настройки подписей, заголовков и прочих мелочей, зато есть много видов графиков, которые сложно где-то ещё построить без кода. А теперь, видимо, будет ещё больше ☺️
Карты примерно об одном и том же, но отличный пример как не надо и как надо подбирать цвета для подобных порядковых шкал.
Очевидно, что второй вариант с полярной шкалой и оттенками в зависимости от степени выраженности отношения — ровно то, как и нужно делать.
Ещё один удачный пример физикализации данных *. Ранее постил распределение учителей по возрасту.
* Физикализация данных – демонстрация их с помощью объектов реального мира
#физикализация_данных #примеры_визуализаций #разное
Удивительно, но сама концепция гистограммы — визуализации распределения, плохо доходит до студентов, которые только начинают осваивать визуализацию данных.
Равномерные бины (интервалы), в которые попадает количество значений. Звучит достаточно замороченно.
Между тем — это один из типов визуализации, с которым мы сталкиваемся регулярно во все возможных сервисах выбора билетов, бронирований и т. п. Причем зачастую это визуализация совмещена с фильтром (или скорее фильтр с визуализацией), что можно только приветствовать. Это делает гистограмму еще более понятной и "вещественной".
Общество визуализации данных (Data visualization society) опубликовало результаты глобального опроса о состоянии дел в индустрии. Результаты возможно кого-то удивят.
☀️ Наиболее популярный инструмент среди опрошенных - Эксель (63%), далее Табло (44%) и Пауэрпойнт (41%). Просто зафиксировать. Один из наиболее популярных инструментов, где постоянно работают датавизеры - Пауэрпойнт. Как говорится - теперь живите с этим.
☀️ Средняя почасовая оплата для датавизера - 60-70 долларов в час. Сравнили со своей? ;)
☀️ 81% заявили, что предпочитают нарабатывать навыки датавиз прямо во время работы над очередным проектом
☀️ Главная проблема в общении с заказчиками - отсутствие навыков дата-грамотности у них. И - непонимание ценности датавиз вообще. Еще раз - непонимание ценности датавиза. Живите с этим номер два.
Полный отчет только для участников коммьюнити, которые делают взносы.
Надо сделать важную ремарку, что в опросе участвовали совершенно разнородные группы датавизеров - дизайнеры, дата-журналисты, разработчики, аналитики, ученые, менеджеры.
Просто симпатичный график о смертях от ДТП в Осло.
Нравится как решен показ неполноты данных с 1975 по 2000 год. Линия времени непрерывная, и данные показаны только там, где они были.
(И да, в Осло, где живет 600 с лишним тысяч человек за год от ДТП погиб один водитель, 0 пешеходов, 0 велосипедистов)
#датавизприемы
🤖 Rtutor.ai для работы с вашими данными с помощью запросов на естественном языке
Steven Ge написал приложение RTutor, которое позволяет генерировать и тестировать код на языке R, просто "общаясь" с ним. Например, на основе набора данных mpg
можно задавать такие вопросы: "С помощью ggplot2 создай боксплот (boxplot) для зависимости hwy от класса. Цвет по классам. Добавь джиттер" (Use ggplot2 to create a boxplot of hwy vs. class. Color by class. Add jitter).
RTutor сгенерирует функциональный код для ответа на ваш вопрос, что упрощает проведение предварительного анализа и визуализации данных для тех, кто не имеет опыта работы с R. Тем же, кто имеет опыт работы с R, RTutor поможет сэкономить время, предоставляя код, который можно использовать в качестве отправной точки для своих проектов.
RTutor может быть запущен локально как пакет R. Он также генерирует код R в формате Markdown и html-отчеты.
#R #ggplot2 #AI #chatGPT
Sam Epley сделал инструмент для проверки контраста и восприятия цвета. Он опирается на The Web Content Accessibility Guidelines (WCAG) стандартам, чтобы текст и цвет легко читались и воспринимались.
Можно выбрать цвет фона, текста и тип начертания и он подскажет, какие стандарты вы нарушили, и предложит более оптимальные варианты.
Про сам стандарт и как с ним работать.
Есть, кстати, еще один популярный спор насчет инфографики. Джанк-чарты (или графики, сделанные специально, чтобы привлекать внимание, но искажающие значения) могут быть такими же эффективными в точности представления информации, и при этом сильно выигрывать по наглядности, вовлечению и запоминаемости. Противоположное мнение состоит в том, что джанк-чарты должны умереть, ведь они как минимум подают плохой пример.
Давайте сравним. График слева я нашел в интернете. А график справа сделал сам.
Какой лучше?
Если исходный, ставьте ❤️,
если переделанный — 🔥.
Классный получился эфир. Всем спасибо, кто пришел, прокачали компоненты, интерактивные прототипы и конечно же графики 😏
Спасибо Явно.Дизайн в лице Антона, Миши, Ники и Оли, что поучаствовали в Домашке и отдельное спасибо Саше Богачеву, что залетел в нашу движуху и дал полезные комментарии по графикам!
⚡️ Обязательно подписывайтесь на канал Явно.Дизайн и на канал Чартомойка про графики, их критику и переверстки, датавиз-сообщество, который ведет Саша.
И пока тепленькое, ловите полезные ссылки, которые упоминались на эфире и не только:
✦ На русском:
«Графики, которые убеждают всех» лучшая современная книга на русском языке про базовые знания по визуализации данных и графикам;
Постер от Саши, который помогает выбрать тип графика;
Постер по основным ошибкам в графиках от агентства DataYoga;
Сборник шпаргалок по способу выбора типа графика/визуализации от них же;
Подборка папок с ТГ-каналами по инфографике, визуализации данных и аналитике;
✦ На английском:
Заметки Лизы Шарлотты Мут про цвет в блоге инструмента для визуализации Datawrapper, которые скоро станут отдельной книгой. Новости про книгу тут;
Lisa Sharlotte Muth Songbook миро-доска выжимка с подсказками по улучшению графиков по мотивам статей Лизы.
Запись эфира будет чуть позже 😎