13755
Блог о журналистике данных и дата-сторителлинге Ведёт @BlackPineapple — аналитик в службе дата-журналистики Яндекса
«Если быть точным» рассказывают, что стоит за данными о политических убежищах россиянам в странах ЕС и Америке.
Оказывается, что в Америке в прошлом году одобрили 88% таких прошений — это один из самых высоких процентов среди всех стран. А вот в Европе россиянам одобряют убежище сильно реже, чем в среднем.
Ещё в статье есть интересная история про пик таких заявлений в 2013 году от чеченцев. Оказывается, кто-то пустил слух, что что Германия планирует предоставлять беженцам с Северного Кавказа выплату в 4 тысячи евро и земельный участок.
Читать:
https://tochno.st/materials/v-2022-godu-rekordnoe-kolichestvo-rossiyan-zaprosili-ubezhishche-v-ssha-i-nekotorykh-stranakh-evropy-no-veroyatnost-polozhitelnogo-resheniya-menshe-50-a-zhdat-ego-mozhno-godami
По следам исследования «Важных историй» и сегодняшнего от «Медузы» и «Медиазоны» сделали разбор.
Авторы используют одни и те же данные Росстата, но получают разные оценки военных потерь России в 2022 году.
Почему так получается и какая оценка точнее?
Откроется без VPN: https://storage.googleapis.com/istories/stories/2023/07/10/zhurnalisti-i-uchenie-otsenivayut-rossiiskie-poteri-na-voine-ot-18-do-25-tisyach-chelovek-v-2022-godu-kakaya-otsenka-tochnee/index.html
ТАСС рассказывает, как за полтора десятка лет изменилось отношение к гендерным ролям в паре. Ещё в 2008 году 34% семей отвечали, что зарабатывать деньги должен муж, а сейчас таких семей — 18%.
Поменялось отношение к тому, кто должен заниматься домашним хозяйством, кто должен воспитывать детей, а кто вообще — глава семьи.
https://tass.ru/obschestvo/18202587
«Важные истории» сделали скроллителинг, в котором шаг за шагом рассказывают, где в недавно опубликованных предварительных данных Росстата о смертности «спрятано» число погибших на войне за 2022 год.
Получилось что-то вроде «расследования данных», потому что, конечно же, никакой отдельной графы в духе «погибшие на войне» там нет. Но используя статистические методы все же можно сделать оценку военных потерь на данных Росстата, а заодно сравнить ее с оценкой журналистов и волонтеров «Би-би-си» и «Медиазоны», которые ведут пофамильный список погибших на войне.
Откроется без VPN: https://storage.googleapis.com/istories/stories/2023/07/06/rosstat-poteri/index.html
И снова про песню. Выйдет она 29 июня, и чтобы музыкальные площадки заметили нас в день релиза, мы прямо сейчас ведём «пресейв»-кампанию.
Пресейв — это сигнал «буду слушать» для музыкальной платформы. В день релиза песня появится в вашей медиатеке и плейлисте с премьерами. Это бесплатно и даже не зависит от подписки.
Если вам близка эта тема; если вы скучаете по дому или по друзьям, которые уехали из страны, помогите нам и сделайте пресейв:
/channel/donotfox_bot
В знак благодарности мы готовы отправить очень символичные открытки, которые будут напоминать о том, что любая тёмная полоса однажды кончится.
Всех обнимаю 💛
Недавно исполнилась моя старая мечта — для проекта Sellesta.ai я «пощупал» данные о ценах в мексиканский аналог «Чёрной пятницы», который называется Hot Sale.
Времени на такой объём данных (15 миллионов цен) было у нас экстремально мало, поэтому получилось проверить только самые базовые гипотезы, не закапываясь в подробности. Но и тут вышло интересно.
1. Ухватить скидку на таких распродажах (по крайней мере, на Hot Sale) — вполне реально. Почти половина популярного ассортимента товаров в скидочную неделю стоила дешевле, чем в предшествующий месяц.
2. Однако здесь надо обратить внимание, что большая часть товаров дешевеет незначительно, в пределах пяти процентов. А чаще всего делают скидки на «виртуальные» товары — музыку, книги, видео.
3. С подешевевшими товарами есть также две загвоздки. Почти половина из тех, которые стоили дешевле в Hot Sale по сравнению с предшествующим месяцем, начали дешеветь ещё до Hot Sale. Вероятно, это и так не самые ходовые товары, на которые цена снижалась естественным образом.
А ещё на треть подешевевших за неделю до Hot Sale повышали цены. Мы не можем точно увидеть причину, но полагаем, это для того, чтобы скидка казалась больше, чем есть на самом деле.
Ну и очень мне нравятся графики, которые у нас с Надей Андриановой получилось сделать 🥰
Публикаций в мексиканских СМИ вышло много, например, такая:
https://tynmagazine.com/artificial-intelligence-hot-sale-revelo-crecimiento-del-e-commerce-gracias-a-ia/ (осторожно, испанский!)
В датавизе есть правила, от которых у новичков может вскружиться голова.
Например, у барчартов ни при каких обстоятельствах нельзя обрезать ноль. А у линейных графиков — можно и чаще всего даже нужно. А ещё есть коварный Lollipop Chart, который вроде бы очень похож на столбики, но и его можно строить не от нуля.
Всё дело в том, на какой вопрос отвечает график, и каким параметром визуализация кодирует числовые значения. В случае со столбиками — это длина. В случае с линейным и «леденцовым» графиком — координата.
Столбики предлагают нам сравнить величины целиком (на сколько одно число больше другого), линейный график отвечает на вопрос — стало больше или стало меньше — не уточняя, во сколько раз.
С другой стороны, даже обрезать ось в «леденцах» — это всё ещё сомнительный приём, и не стоит им злоупотреблять всякий раз, когда хочется выдать маленькую разницу за большую. Неплохой пример — здесь: по контексту и соотношению величин сразу очевидно, что на графике показан рейтинг, а не сравнение.
Вот и в примере, который прикреплён к этому сообщению, ничего страшного нет. Людей на графике обрезали, но очевидно, что никто не пытается сказать, что женщины в два раза ниже мужчин — потому что по силуэтам понятно, что люди изображены не в полный рост.
Источник: ролик Варламова про гендерное неравенство.
А в комментарии скину отвратительный график про рост 😈
Обнаружил интересную рассылку SAMIZDATA — там будут публиковать дата-материалы о Восточной Европе и Центральной Азии.
В первом письме рассказывают о том, какая доля населения разных стран считает себя русскими. Из интересного — в каждом шестом регионе России русских — не большинство, зато есть отдельные районы Казахстана и стран Балтии, где живут почти только русские.
Ещё сквозь призму этой работы можно оценить качество данных в разных странах. Например, в России и Грузии доступны данные по регионам, в Казахстане, Украине и странах Балтии — по районам, а в Таджикситане, Узбекистане и Туркментистане одно число на всю страну.
https://blog.samizdata.co/p/the-myth-of-the-russian-world
7x7 рассказывает историю реестра экстремистских материалов, который задумывался для борьбы с радикальными течениями, но в итоге превратился в инструмент для преследования политических активистов и случайных людей
Внутри — комментарии пострадавших и много-много статистики, основанной на анализе текстов судебных решений.
Читать: https://lr.semnasem.org/find-extremism/ (VPN)
В тему поездок хотел поделиться фотографией, которую недавно высветил айфон.
Это 2021 год, наш небольшой оргкомитет Уральского хакатона по дата-журналистике. Мы в Екатеринбурге фотографируемся у стрит-арта, посвящённого иностранным агентам.
Два человека с этого фото вынуждены были эмигрировать, Медузу объявили нежелательной организацией, а российский Дождь просто закрыли.
Время 💔
Кстати, есть кто из Екб? Арта тоже, наверное, больше уже нет?
ТАСС экспериментирует с «Лицами Чернова», чтобы визуализировать данные о том, сколько россиян ведут здоровый образ жизни в разных федеральных округах.
Википедия сообщает, что «лица Чернова являются одним из самых эффективных способов визуализации многомерных данных», но у меня этот пример вызывает в лучшем случае улыбку — слишком уж сложно здесь извлечь какую-либо информацию.
На сайте Википедии, кстати, представлен более хороший пример — кажется, что там проще уловить какие-то отличия, потому что лица сильнее отличаются друг от друга.
В комментарии закину материал, в котором лица Чернова, на мой вкус, сработали неплохо. А вы проголосуйте, как вам визуализация ТАСС — нравится (🥰), не нравится (🗿)?
Залипательный скроллителлинг у Washington Post в материале про цены на жильё. Каждой точкой обозначен один из округов США, анимация показывает, как цены (в процентах) менялись за каждый месяц. Чем-то похоже на пузырики, которые всплывают в газировке 🫧
Помимо красоты, у этой анимации большой функционал: в статике было бы крайне сложно показать нюансы ценообразования в зависимости от времени. Получилась бы либо «лапша» из линейных графиков, либо пришлось бы сильно жертвовать детализацией.
P.S. Скроллителлинг — это механика, при которой часть сайта меняется вместе с прокруткой страницы. Вы скроллите, на экране появляются новые надписи, график перестраивается.
https://www.washingtonpost.com/business/interactive/2023/housing-market-price-trends/
Вероятно, для просмотра потребуется подписка, режим инкогнито или расширение Bypass Paywalls
Так сложилось, что в этом канале я в основном рассказываю про новинки в сфере дата-журналистики. Однако много восхитительных проектов остаются «за кадром» или даже в архивах канала. И люди, которые только начинают интересоваться нашей сферой, не имеют возможностей о них узнать.
Я предлагаю вам небольшой интерактив! Поделитесь в комментариях своими любимыми работами в сфере визуализации данных и дата-журналистики. Давайте вместе пополним свою копилку классных работ. Я начну:
1. Bussed out / The Guardian / Shirley Wu
Впечатляющий симбиоз классической журналисткой работы и дата-исследования. Материал рассказывает о национальной программе США, в рамках которой бездомные получают «билет в один конец», чтобы изменить своё место жительства. Некоторые из них воссоединяются с родственниками, некоторые получают возможность переехать в штат мечты и закрепляются за местной церковью, некоторые — ищут поддержку у друзей.
Эта работа мне нравится свой эстетикой — тут очень красивые анимации, элегантные графики и классные фото-видео вставки. За датавиз-часть отвечала Shirley Wu — про неё я шутил, что хочу быть как она, «когда я вырасту». У Shirley в портфолио действительно много красоты, советую заглянуть ещё туда.
2. Women’s Pockets Are Inferior / The Pudding
Простая в своей идее работа рассказывает о том, что карманы в женских джинсах кошмарно малы. Для своего исследования The Pudding использовали малый набор данных — вручную измерили карманы в 80 парах джинс 20 популярных брендов (мужские, женские, скинни и прямые для каждого бренда). Оказалось, что женские карманы почти в два раза короче и даже немного уже, чем мужские.
Главная прелесть работы — в подаче. Во-первых, иллюстратор не стал делать простые столбики, а в действительности нарисовал, как выглядят карманы. А во-вторых, здесь подкупает интерактивная часть, где можно положить в карманы разные предметы — от айфона до руки — и наглядно увидеть, как они там «сидят».
Ну всё, теперь жду ваши любимые проекты 🙂
партнёрский пост
30 мая в Москва пройдёт конференция по продуктовой аналитике Aha!’23.
Это практическая конференция по продвинутой продуктовой аналитике и marketplace effiency. Среди спикеров — представители крупных компаний: Avito, Яндекс, Тинькофф, Мегафон, МТС, OZON и др. Целевая аудитория — продуктовые аналитики и менеджеры, директора по маркетингу, ML-специалисты.
Ключевые темы конференции: продуктовые эксперименты, a/b-тестирование, модели монетизации, surge pricing, supply & demand balance, ranking and personalization, network effects, экономика и оптимизация.
Ознакомиться с подробной программой и купить билет можно по ссылке. Применяйте промокод datacsv для скидки в 10% на билет.
Сразу две новости от «Новой газеты Европа»:
1) Во-первых, редакция приглашает всех желающих на бесплатную летнюю школу по журналистике — где, в том числе, можно будет научиться журналистике данных. Для участия нужно «уверенно» понимать английский и предложить тему своего проекта. Подробности тут: https://novayagazeta.eu/summerschool
2) Во-вторых, дата-отдел ищет себе нового коллегу. Если вы уже имеете опыт работы с данными, читайте подробности: https://www.instagram.com/p/CsWffjdNnwa/
Коллеги делают классные проекты, поэтому не упускайте свои шансы 🌿
реклама, текст заказчика
Боитесь переходить в аналитику, потому что нет технического бэкграунда?
Отсутствие бэкграунда — не приговор👾
Хотите убедиться в этом лично? Тогда 19 июля в 19:00 Мск приходите на вебинар «Переход в аналитику данных», где выпускники программы «Профессия аналитика данных» школы аналитики Changellenge >> Education поделятся опытом становления в профессии.
Что вы узнаете:
🔸 как перейти в аналитику совсем с нуля, без опыта в IT, аналитике и программировании
🔸 как совмещать обучение аналитике, работу и личную жизнь
🔸 как проходит учеба и какое расписание на курсе
🔸 будет ли интересно учиться тем, у кого уже есть опыт в IT
Также спикеры расскажут вам реальные истории про трудоустройство и кардинальной смене профессии.
Спикеры вебинара — наши выпускники:
🎓 Никита Можаев, аналитик в Кадровом центре департамента здравоохранения Москвы, выпускник 2022
🎓 Ренат Юнисов, аналитик отдела кредитных рисков в Тинькофф, выпускник 2023
Не пропустите — регистрируйтесь по ссылке ⬇️
https://u.to/LyjNHw
Восхищаюсь работой, которая сегодня вышла на Медиазоне. Коллеги сделали ещё одну оценку числа погибших на войне.
Уже классическая для Медиазоны схема — авторы попытались добыть несуществующую статистику путём анализа альтернативных источников данных. В основе анализа — реестр наследственных дел, в котором есть информация о части погибших. Зная примерное соотношение дел, которые заводятся в нём для умерших разных возрастов, можно получить примерное число смертей.
Почитать можно тут:
https://zona.media/article/2023/07/10/stats (VPN)
Washington Post сделали инфографику об одном из самых вредных видов спорта — соревнованиях по поеданию сосисок в тесте. Оказывается, за 40 лет чемпионы сильно эволюционировали: если в 80-х победители съедали примерно по 10 хот-догов за 12 минут, то чемпион 2021 года съел за 10 минут 76 хот-догов.
Только не повторяйте это дома:
https://www.washingtonpost.com/sports/2023/07/01/hot-dog-eating-contest-competitive-eater/
Давно хотел рассказать вам о дорогом своему сердцу хобби
〰 С конца прошлого года мы вместе с певицей Крис Аивер готовили совместную песню, посвящённую эмиграции. Релиз этой песни назначен на 29 июня. Песня называется «За воздушным змеем», она раскрывает переживания друзей, находящихся по разные стороны границы. Смысл её — в надежде на объединение и мирное беззаботное лето, которое когда-нибудь должно наступить.
Грустно и иронично, но ещё пару дней назад казалось, что релиз песни придётся как раз на очередную волну эмиграции.
📊 Чтобы рассказать о релизе на канале, мы вместе с дизайнером Надей Андриановой придумали дата-арт. Я выгрузил с Авито все активные объявления, содержащие фразу «в связи с переездом в другую страну», разметил их по категориям, а Надя их виузализировала. Так мы получили примерный список вещей, которые пытаются продать или отдать эмигранты.
На каждой карточке показаны примеры объявлений из разных категорий. Этот «портрет» потерь и «оставленной жизни», конечно, не полон и точен. Однако и он даёт некоторое представление о том, чем приходится жертвовать людям. Дома и бизнесы, детские кресла и письменный стол «Успех», любимые животные — от крысы до лошади.
А как послушать песню об этом, напишу в следующем посте →
Готовы узнать все о сводных таблицах?
реклама, текст заказчика
Мы, Академия Excel, разыгрываем четыре крутых книги о сводных таблицах от Билла Джелена (Mr. Excel)!
Эта книга — шедевр, который покрывает все аспекты использования сводных таблиц и включает в себя новейшие функции из Microsoft 365 и Power Query.
Принять участие в розыгрыше можно 👉 вот тут.
На бесплатном вебинаре, сегодня в 20:00 МСК, подведем итоги розыгрыша, а также вас ждет еще много интересного:
📌 расскажем в чем отличие и особенности источников для сводных таблиц;
📌 покажем, какие крутые отчеты можно строить на основе сводных;
📌 расскажем про наш новый курс по Power BI с Марией Гришиной, который мы запустим совсем скоро;
📌 сделаем выгодное предложение на курс по Дашбордам, где обучаем строить крутые отчеты прямо в Excel;
📌 и многое другое.
Участники получат полезные советы, трюки и лучшие практики использования сводных таблиц, которые помогут им сэкономить время, улучшить качество своей работы и достичь более точных результатов.
Ждем Вас на вебинаре в 20:00, будет интересно, столько пользы Вам еще не причиняли 🚀
Тут произошёл большой казус. Многие издания, включая РБК и даже сам сайт ФНС написали, что в 2022 году российские компании заработали 1,3 квадриллиона рублей. Один квадриллион — это 1000 триллионов, число с 15 нулями.
Эксперты это радостно подтвердили, рассказав множество версий, откуда в России появилось так много денег, да ещё и на фоне кризиса. Однако никто почему-то не предположил, что озвученное число — это просто ошибка в данных.
А вот Институт проблем правоприменения пишет, что таким расчётам просто нельзя верить. Судя по всему, журналисты просто сложили общую выручку по всем компаниям, не вникая в детали.
Однако, если изучить исходные данные, можно обнаружить, что в 2022 году больше всего денег сделала некая компания ООО «ЮССА», сделав 214 триллионов рублей и обогнав Лукойл (выручка 2.9 трлн руб.) и Магнит (2 трлн руб.). ИПП предполагает, что подобное значение — бугхалтерская ошибка. Вероятно — не единственная.
О чём это говорит?
Если у вас есть исходные данные — обязательно изучите распределение и отсутствующие значения. Возможно, перед суммированием и подсчётом средних часть данных придётся исключить или исправить.
А ещё эта история учит нас тому, что можно найти экспертов под самое безумное утверждение, подтвердив любую ошибку в данных 🙈
За подробной аргументацией отправлю вас в канал ИПП — там интересно.
Интересная работа Sheldon.studio для международного фестиваля Архитектуры, где (внезапно) рассматривают основные показатели стран — население, смертность, болезни, выбросы СO2...
В работе есть два режима — можно читать её как бесконечный дашборд, выбирая необходимый временной период или страну, а можно перейти в режим «историй», и увидеть основные выводы из такой статистики — например, узнать, что половина населения мира живёт в 7 странах, или что с 1975 года количество людей с ожирением увеличилось втрое.
Формат кажется немного спорным. Хотя, скорее всего, это работа для интерактивного экрана на выставке, куда любой может подойти, потыкать и узнать пару интересных фактов о мире. Но дизайн лично мне очень нравится. В режиме бездействия там вообще включается тёмная тема, и получается максимально эстетично 🥰
https://dataroom.seed360.org/
Круговорот людей в инфографике Моны Чалаби про наём и увольнения кассиров в США.
Сама Мона пишет, что подобная «текучка» вообще характерна для всех низкооплачиваемых работ. И сокрушается, что разницы между нижним и верхним потоком почти не видно, хотя нижний поток больше.
Но, судя по цифрам, там 600 000 против 570 000. Это всё-таки небольшая разница, чтобы можно было увидеть её без больших усилий.
Источник
Впервые с республиканским языком я столкнулся в 2017 году, когда ездил с другом в Казань. Во второй раз — год назад, когда впервые прилетел в Сыктывкар. Тогда мне показалось удивительным, что улицы в городах подписаны дважды, а где-то «между строк» существует ещё и второй язык, помимо русского, который как будто не использует никто вокруг.
Оказалось, русский язык вытеснил на второй план не только языки регионов нашей страны, но и языки других стран. Может показаться парадоксальным, но не все кореные жители Душанбе в совершенстве владеют таджикским.
Вместе с автором CABAR.asia Наврузом Каримовым мы исследовали, как таджикский используют в интернете, и пришли к ещё более неутешительным результатам — таджикистанцы почти по любым темам обращаются в Google на русском языке. Редкие исключения — почти всегда слова, описывающие местный быт и кухню (шурпа, лепёшка, мечеть, Шайтан).
Узнать причины этого явления и подробно рассмотреть графики можно тут:
https://cabar.asia/ru/yazykovye-predpochteniya-v-tadzhikistane-chto-govoryat-dannye-poiskovyh-zaprosov
P.S. Это первое исследование, которое вышло у меня в рамках менторской поддержки журналистов в Таджикситане. В этом месяце будут и другие материалы — поделюсь с вами, с какими сложностями мы там столкнулись 🙂
Научиться работать в Excel за 3 часа
реклама, текст заказчика
В Excel более 500 функций и десятка инструментов. При этом 90% пользователей достаточно знать 10 основных формул и 3 инструмента.
6 и 8 июня проводим вебинары в формате Excel для новичков.
Если вы только начинаете работать с Excel — заложите правильный фундамент. Если вы уже не новичок, но учились «методом научного тыкинга» — закроете пробелы и выловите «фишки».
В курс мы включили только самые важные знания — то, что вы реально будете использовать в работе каждый день.
Сразу после регистрации:
— откроем доступ к материалам;
— добавим в чат с учениками;
— начнем отвечать на любые вопросы по Excel;
Записи вебинаров выкладываем в тот же день, а домашние задания проверяем в течение в 24 часов
До встречи на курсе!
А чего почти все смотрят, а проектами не делятся? 👀💔
спишу всё на сообщение в разграр рабочего дня
но вообще-то ещё не поздно ☝️
Яндекс выпустил исследование о российских улицах, в названии которых людям слышатся животные.
Большинство улиц по мнению людей связаны с птицами, кошек в топонимах больше, чем собак, а муха подчистую побеждает слона:
https://yandex.ru/company/researches/2023/animal-streets
Т—Ж сделали занятный материал про знакомства на данных сервиса «Мамба». Меня особенно зацепил бамп-чарт, который рассказывает, как меняются цели пользователей в зависимости от возраста.
У женщин тут целая драма — молодые хотят поскорее найти себе жениха, а уже после 40 на первое место в рейтинге целей выходят просто отношения.
График классный, но немного поворчу — здесь опять не подумали о читателях, которые такую визуализацию видят впервые.
Если вы тоже будете делать бамп-чарты, не забудьте объяснить, как такой график читать. В комментариях к этому посту закидывал несколько идей.
https://journal.tinkoff.ru/dating-apps-stat/
NYT рассказывает, что Китай занял прочное лидерство в сфере литий-ионных аккумуляторов, и практически любой стране приходится с ним сотрудничать.
Почему это важно? Ответ из первого абзаца материала:
«это одно из определяющих соревнований нашего времени: страны, которые могут производить аккумуляторы для электромобилей (а они именно литий-ионные, прим. автора канала), будут десятилетиями пользоваться экономическими и геополитическими преимуществами»
Но вообще я хочу обратить ваше внимание на графики. Здесь можно было визуализировать абсолютно всё столбиками, что сделало бы и без того тяжёлый материал сугубо экспертным.
А так — яркие и понятные картинки всё-таки оставляют шанс 🙂
https://www.nytimes.com/interactive/2023/05/16/business/china-ev-battery.html?referringSource=articleShare
Вероятно, для просмотра потребуется подписка, режим инкогнито или расширение Bypass Paywalls