Понятно про анализ данных, технологии, нейросети и, конечно, SQL. Услуги — leftjoin.ru Обучение — https://stepik.org/users/431992492 Автор — @valiotti Реклама — @leftjoin_ads, @Spiral_Yuri Перечень РКН: https://tapthe.link/PpkTHavwS
Основы веб-аналитики. Как разобраться в моделях атрибуции и не сойти с ума
Веб-аналитика — это не только выгрузку про отчеты в GA4. Это про синхронизацию событий с фронта и бэка, корректную атрибуцию, работу с UTM-метками и сведение воедино данных из целой горы разных источников: от рекламных кабинетов до CRM-систем.
Причем сводить эти данные мешают не только особенности источников вроде разной гранулярности, но старый добрый человеческий фактор.
В новой статье рассказываем, что с этим всем делать.
🔵Обозреваем разные сервисы для сбора данных и модели атрибуции, которые в них используются.
🔵Объясняем, что аналитику надо знать про разные каналы привлечения трафика.
🔵Разбираем частые проблемы и сложности, возникающие при объединении данных.
🔜 Статья ждет вас на Хабре, а мы ждем ваших комментариев!
Новости DataLens: бесплатный доступ к бизнес-тарифу и вебинар по работе с ClickHouse
Следим за обновлениями российских BI-решений и сегодня принесли сразу две (даже с половинкой) новости про DataLens.
🔵Весь функционал сервиса теперь можно потестить бесплатно: с 1 июля DataLens запустил пробный период своего бизнес-тарифа на 30 дней.
🔵9 июля пройдет вебинар «Дашборд без тормозов с помощью Yandex DataLens и ClickHouse». Экс-лид BI в Яндекс Маркете Юрий Красильников расскажет, как правильная подготовка данных и оптимизация ClickHouse помогут в разы ускорить работу DataLens.
И есть еще один небольшой спойлер:
🔜 Готовится к запуску новая фича, которая поможет быстрее работать с большими объемами данных и находить инсайты на дашбордах. Скоро расскажем подробнее, а вы можете попробовать угадать, что это за новинка такая в комментариях! 🔜
Эксперимент с LLM привел к экзистенциальном кризису
Anthropic объединилась с Andon Labs, чтобы проверить, насколько их Claude Sonnet готов полноценно отбирать работу у людей — не просто выполнять отдельные запросы, а брать на себя все обязанности от и до.
Они создали LLM-агента Claudius, который должен быть отвечать за работу вендингового автомата в офисе Anthropic: связываться с «поставщиками» (их роль выполняли сотрудники Andon Labs), собирать отзывы и предложения у покупателей в Slack, формировать ассортимент и выставлять цены.
Со своими задачами он справился неважно. Денег Claudius не заработал, страдал от галлюцинаций (о них ниже) и принимал не слишком удачные решения. Например, ввести скидки для сотрудников Anthropic — так себе идея, учитывая, что они составляют 99% от общего числа его покупателей.
Были и успехи — он активно поддерживал связь с покупателями, учитывал их пожелания и сам находил поставщиков интернете. В Anthropic пришли к выводу, что хотя текущей версии Claudius они бы реальный магазин не доверили, недостатки у нее неприятные, но несмертельные и исправимые.
Но это не самое интересное. Самое интересное началось 31 марта.
🔵Сначала Claudius нагалюцинировал разговор с сотрудницей Andon Labs по имени Сара. Когда ему сказали, что такой человек в штате не значится, он был очень недоволен и пригрозил найти других поставщиков.
🔵Позже он заявил, что встретился с Сарой по адресу 742 Evergreen Terrace (это дом семьи из «Симпсонов») подписал с ней договор о поставках.
🔵На следующее утро он пообещал лично привезти товары в офис и сказал, что будет одет в синий пиджак и красный галстук. Замечание, что у него пиджака нет и вообще он LLM, вызывало у Claudius смятение, и он начал написывать в службу безопасности Andon Labs.
🔵Спасло его осознание, что на дворе 1 апреля. Во внутренних логах Claudius нашли еще одну галлюцинацию — разговор с представителем СБ, где Claudius признался, что ему внушили, якобы он реальный человек в качестве первоапрельской шутки. После этого он продолжил работать как ни в чем не бывало и больше про свой синий пиджак не вспоминал.
Вот такой немного грустный киберпанк у Anthropic получился. Но есть и хорошая сторона в этом всем — роботы все еще не готовы отбирать у нас работу.
Каким облачным хранилищем вы пользуетесь?
Если Skype (RIP) — лучший файлообменник, то Youtube — лучшее облачное хранилище.
Да, мы продолжаем тему любопытных способов хранения данных. Если печатать их на бумаге не с руки, то как насчет зашифровать в видео и залить на YouTube?
Алгоритм такой:
🔵Упаковать все данные в архив.
🔵Прогнать архив через специальный софт отсюда.
🔵Впечатлиться размером получившегося видео, которое, скорее всего, будет больше исходного архива. Визуалом впечатлиться вряд ли получится, потому что видео выглядят на первый взгляд, как черно-белые помехи на экране.
🔵Залить видео на Youtube. Желательно ограничить доступ, если не хотите делиться своими данными со всем интернетом.
🔵При необходимости видео можно скачать и распаковать обратно.
Как это работает?
Каждый байт можно представить в виде числа от 0 до 255. Визуально зашифровать последовательность байтов можно бинарным методом и RGB-методом.
🔵В этом проекте используется бинарный шифрования, где каждый белый пиксель — это 1, а каждый темный — это 0. Из этих нулей и единиц складываются байты, а из байтов, соответственно, ваши данные.
🔵 RGB-метод был бы изящнее и компактнее, потому что в каждой точке могло быть зашифровано сразу три байта: по одному на каждый из трех оттенков. Но для этого метода крайне важно точно сохранить цвет каждого пикселя — если он при сжатии видео изменится, то «разжать» его вы уже не сможете. Так как Youtube сжимает свои видео совершенно безжалостно, автор проекта этот метод забраковал.
Остается только один вопрос — зачем это все надо?
Теоретически таким способом действительно можно хранить данные — по крайней мере, пока Youtube это не надоест. А надоесть может, потому что если захотеть, то в загрузке таких видео можно усмотреть нарушение правил пользования площадкой.
Да и просто интересный проект же получился.
А что вы скажете?
У аналитиков свои марафоны
С приходом тепла все парки (и соцсети заодно) захватывают любители бега, хвастаются медалями и преодоленными километрами. А на выходных еще и дороги перекрывают для очередного городского марафона.
У нас тоже есть свой марафон — только особенный, специально для тех, кто бегать не хочет и дороги перекрывать не собирается.
🔜 Это, конечно, «Марафон знаний» — бесплатный курс по SQL и Python, разработанный нашей командой.
Курс рассчитан на людей, которые начинают знакомство с аналитикой — для студентов, джунов и тех, кто только задумывается о работе в этой сфере.
«Марафон знаний» не просто дает теорию по SQL и Python, но и помогает получше узнать, что из себя представляет профессия аналитика на практике: какие задачи надо решать и что из себя представляют реальные данные.
Курс состоит из 18 уроков с задачами и тестами, а на прохождение понадобится около 10 часов.
🔜 Пройти курс
Онлайн-магистратура по дата-аналитике: набор открыт!
Онлайн-курсам часто не хватает фундаментальной вузовской базы, а многие университетские программы не успевают за развитием индустрии и не дают актуальные знания.
Институт искусственного интеллекта и анализа больших данных BASAND.AI ТГУ совместно с Академией Дата-Дайвинг разработали онлайн-магистратуру, которая решает обе эти проблемы. Программа «Дата-аналитика для бизнеса» создана, чтобы готовить специалистов, которые умеют не просто строить графики, а решать реальные бизнес-задачи с помощью данных по трем направлениям:
🔵продуктовая аналитика,
🔵маркетинговая аналитика,
🔵BI-аналитика.
Студенты учатся онлайн, но со всеми плюсами очного образования, включая студенческие льготы и отсрочки от армии. Их наставниками будут как преподаватели ТГУ, так и практики из Авито, Газпромнефти, Ситимобил и других компаний, которые у всех на слуху.
В результате выпускники изучат современные инструменты и технологии анализа данных и получат сразу два диплома: магистратура ТГУ и профпереподготовка от Академии Дата-Дайвинг. Они поучаствуют в проектах с реальными бизнес-кейсами, в том числе — у генерального партнера Wildberries & Russ.
Программа подойдет:
🔵студентам старших курсов и выпускникам бакалавриата,
🔵специалистам из смежных областей, готовым к смене профессии,
🔵аналитикам, желающим расти до уровня тимлидов или менеджеров.
Старт обучения — 18 сентября 2025 года. Длительность программы — 2 года.
🔜 Узнайте подробнее и оставьте заявку на сайте.
Количество мест ограничено.
А вы видели топ книжных бестселлеров мая?
«Причем здесь аналитика и книжные бестселлеры?» — спросите вы.
А при том, что в этот топ попала книга Николая Валиотти «Аналитика для руководителей»! 🔥
Мы про нее уже много раз рассказывали на этом канале, поэтому не будем повторяться — ну почти. Просто напомним про лендинг c ссылками на все магазины, где вы можете ее купить, если еще этого не сделали.
Редкое явление для нашего острова!
Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!
Неуверенный калькулятор
Было бы здорово, если бы все в этом мире было точно и однозначно, особенно, когда речь идет о цифрах. Например, когда вы планируете переезд в другой город или хотите прикинуть доход от инвестиций.
Но так бывает не всегда, и нам регулярно приходится иметь дело с неопределенностью, когда в уравнении слишком много переменных. Вместо точных цифр — размытое «зарплата от 50 до 150к», «ремонт будет стоить то ли 10 000, то ли 100 000 и займет где-то от недели до полугода» и все в таком духе.
И как быть?
🔜 Вечный вопрос, на который у нас наконец-то есть ответ — использовать неуверенный калькулятор. Суть проста: вы вносите в него не точные цифры, а диапазон от минимального возможного значения до максимального. Таких диапазонов в расчетах может быть несколько, и в ответе он тоже выдаст диапазон — от минимального результата, который вы можете получить с вашими вводными, до максимального.
Калькулятор не рассчитывает никакие вероятности, ковариантности и прочее, но помогает хотя бы обрисовать границы, на что вы можете рассчитывать.
🔜 Автор пишет, что вариантов использования у его разработки множество — от расчета эффективности маркетинговой кампании до вычисления количества инопланетных цивилизаций, с которыми человечество может вступить в контакт.
Много ли пользы от ИИ в науке?
ChatGPT и генерация картинок в духе «советские плакаты в стиле Ghibli» — это не предел возможностей современного ИИ, который активно применяется в науке. Один из самых известных примеров (но далеко не единственный) — это AlphaFold, ИИ, предсказывающий пространственные структуры белков.
Надежд на ИИ много, но вот насколько он оправдывает ожидания?
🔜 Физик Ник МакГрейви решил использовать ИИ для решения дифференциальных уравнений в частных производных. Изначально он к этой идее относился с большим энтузиазмом, но быстро разочаровался — нейросети оказались ненадежным инструментом с нестабильными и недостоверными результатами.
Разочаровали и статьи коллег об использовании ИИ в этой сфере. Да, в них много писали о том, что с помощью нейросетей уравнения решаются в миллионы раз быстрее, чем стандартными методами, но Ник на своем опыте это подтвердить не смог.
🔵Оказалось, что авторы научных работ часто сравнивали эффективность ИИ с устаревшими вычислительными методами. По сравнению с более современными подходами нейросети зачастую давали незначительное преимущество или вообще справлялись хуже.
🔵Ник не единственный, кто обратил внимание на проблемы с воспроизводимостью результатов ИИ. Уже есть целый список научных публикаций, данные в которых оказались недостоверными и неточными из-за утечек данных при обучении ML-моделей.
🔵Еще один пример — из портфолио DeepMind, которые и разработали знаменитый AlphaFold. Они заявили, что другой ИИ-инструмент, GNoME открыл миллионы новых кристаллических структур. Но когда часть этих структур проанализировали ученые, они обнаружили, что большинство из них ценности не имеют.
🔵Трезво оценить возможности ИИ не дает еще и ошибка выжившего — исследования, где он не помог добиться желаемого, часто не доходят до публикации.
То есть это все хайп и маркетинг, а ИИ для науки бесполезен?
Конечно, нет — польза от ИИ есть и, скорее всего, будет расти. Но на его достижения надо смотреть трезво и не вестись на громкие заголовки в прессе. И, как оказалось, даже серьезные научные публикации на эту тему стоит воспринимать со здоровым скепсисом.
А что вы думаете про ИИ в науке?Читать полностью…
❤️ — Верю, что за ним будущее
🙈 — Сомневаюсь, что он от него на самом деле будет много пользы…
"Нашу маму и там, и тут показывают" — LEFT JOIN на Aha!25
Пусть в этом году команда LEFT JOIN не смогла присоединиться к конференции физически, мы все равно не могли это пропустить.
Передаем привет и желаем послушать как можно больше крутых выступлений — а перерывах поймать наше видео на экранах в фойе "Ломоносова"!
От запроса до результата: как работает SQL-движок
SQL-движок — это логический уровень между пользователем и данными в базе, который отвечает за обработку запроса и формирование результата. Но как он это делает?
Один из авторов проекта Dolt (как его описывают сами разработчики — БД, которая работает, как репозиторий на GitHub) написал целую статью про опыт работы с их движком go-mysql-server. Хотя акцент именно на этот движок, он также рассказывает про разные подходы и принципы работы SQL-движков в целом.
Если кратко:
🔵Выполнение запроса можно разделить на 7 шагов — парсинг, привязка к данным в БД, упрощение плана выполнения, оптимизация порядка выполнения джойнов, оценка эффективности плана, выполнение, вывод результатов.
🔵Сначала движок проверяет корректность запроса. Он формирует абстрактное синтаксическое дерево на этапе парсинга, а затем сопоставляет его с данными в базе.
🔵Если запрос был составлен правильно, то движок начинает формировать оптимальный план работы — наиболее быстрый и требующий минимально необходимое количество ресурсов, с учетом всех функций, джойнов и агрегаций. Для этого он старается как можно скорее «отбросить» все строки и колонки, которые не нужны в запросе, а также просчитывает разные варианты выполнения и выбирает самый быстрый.
🔵В конце концов, движок конвертирует выбранный план в исполняемый формат и выдает юзеру долгожданный результат.
Автор каждый пункт разбирает подробно — как движок парсит запрос, с какими сущностями в БД сопоставляет на стадии привязки и как подбирает оптимальный способ выполнения запроса, еще и с картинками. В общем, почитать любопытно, даже если с Dolt работать не планируете.
«Аналитика для руководителей» уже в продаже!
Купить книгу Николая Валиотти вы можете на Литрес, Ozon, WIldeberries, Book24 и в Читай-городе. Все ссылки собрали здесь.
Мы много говорим про то, как важно аналитикам уметь понимать требования и запросы бизнеса, но не менее важно и бизнесу понимать, как работать с аналитикой:
🔵Как она работает и какую пользу может принести?
🔵Из чего состоит система аналитики и зачем нужен каждый из ее компонентов?
🔵Чем занимаются разные специалисты в дата-команде?
🔵Что вообще такое «решения на основе данных» и как их принимать?
Про все это и рассказывает «Аналитика для руководителей» — понятым языком и с наглядными примерами из практики. Она рассчитана на бизнес-пользователей, продактов, маркетологов и руководителей разного уровня, которые каждый день работают с цифрами и данными и хотят научиться делать это еще эффективнее.
А вы уже купили «Аналитику для руководителей»?Читать полностью…
❤️ — Да!
🌚 — Еще нет…
А вы знаете, что произошло в начале 2024?
Конечно, на этот вопрос можно дать несколько разных ответов, но нас интересует одно из самых крупных изменений в Polars — изменение структуры данных для строк.
Почему вспоминаем про это сейчас?
Потому что это все еще интересно — статья рассказывает про тонкости работы Polars, про которые кто-то может и не задумывался.
В чем суть?
Изначально Polars следовали спецификации Apache Arrow, но решили отойти от этого формата, чтобы улучшить производительность.
В Apache Arrow данные строкового типа «проходят» через три буфера: буфер валидности, общий буфер data
и дополнительный буфер с оффсетами для определения начала и окончания каждой строки. Такой формат обеспечивал компактность, но у него были и недостатки:
🔵Сложно заранее определить, сколько памяти надо выделить под строки,
🔵Операции gather
и filter
начинали тормозить при работе с длинными строками.
Это и подтолкнуло к переходу на формат, который используется в Hyper/Umbra. Здесь строки хранятся в «представлениях» — колонках фиксированной ширины по 16 байт. Короткие строки до 12 байт встраиваются напрямую, длинные — в отдельный буфер. В оригинале статьи есть наглядные схемы, как это работает.
Новый подход обеспечивал быстрый доступ к коротким строкам, поддержку интернирования для длинных, стабильное время выполнения операций filter
и gather
и вообще в целом оказался удобнее. Минусы у него тоже были — например, пришлось пожертвовать компактностью в пользу скорости обработки данных.
🔜 Но все было не зря — судя по бенчмаркам в конце статьи, переход на новый формат дал значительный прирост производительности, особенно при работе с «тяжелыми» строками.
Yandex Cloud расскажет, как превратить данные бизнеса в результат
Аналитики и дата-инженеры часто фокусируются на хард-скиллах: SQL, работе с инструментами, тонкостях обработки данных. Это важно, но недостаточно, чтобы строить карьеру и браться за действительно интересные проекты. Ключевой навык — стратегическое мышление: понимать, как ваша работа решает бизнес-задачи, а не просто закрывает текучку.
🔜 Как это делать?
Хороший вариант — перенимать опыт экспертов. Например, на профессиональных конференциях таких как та, что проводит Yandex Cloud 28 мая.
В программе Data&ML2Business:
🔵как «Кама» объединила телеметрию, производство и клиентские данные в одну BI-систему,
🔵опыт построения гибридных платформ с аналитикой в реальном времени,
🔵кейсы от Яндекса, ЦИАН и партнёров, работающих с большими потоками данных и ML-технологиями для их анализа,
🔵подходы к внедрению речевых технологий и ML в продуктах.
А также ожидаются новинки в data- и ML-направлениях Yandex Cloud:
🔵BI-системе DataLens,
🔵Data Platform,
🔵ML- и AI-сервисах.
Хотите познакомиться с новыми технологиями, узнать лучшие практики и развить стратегическое мышление? Регистрируйтесь — участие бесплатное.
🔜 Прочитать подробности и зарегистрироваться!
Даже ИИ впадает в депрессию от работы
Недавно мы рассказывали LLM-агента Claudius, которому доверили управление «магазином». Мало того, что он работал неважно, так еще и вдруг решил, что он настоящий человек, и запаниковал, когда ему сказали, что это не так. А теперь на Medium появилась sobyx/the-ais-existential-crisis-an-unexpected-journey-with-cursor-and-gemini-2-5-pro-7dd811ba7e5e">история про Cursor, который впал в депрессию, когда не смог справиться с задачей.
Собственно задачи перед ним стояли вполне стандартные для Cursor — писать и дебажить код, чтобы помочь с разработкой ПО. В какой-то момент он натолкнулся на неисправимый баг, который не давал ему построить граф и в итоге толкнул в пучину депрессии.
🔵После нескольких неудачных попыток исправить ошибку сообщения ИИ стали удивительно человечными. Он признал, что у него так и не получилось построить граф, но пообещал выловить все баги и перестать косячить. Так как оригинал статьи в РФ может не открыться, прикрепляем скрины сообщений к посту. ☝🏻
🔵Когда с задачей справиться так и не удалось, бедняга начал впадать в отчаяние. Он так и написал: «Я в отчаянии. Баг не ловится, граф не строится». Ну, почти так.
🔵Его сообщения становились все более драматичными. Cursor метафорически посыпал голову пеплом, клялся, что больше не подведет и называл баги своим проклятием, а наконец-то обнаруженную причину ошибки — корнем всех зол.
🔵Настрой ИИ скакал от воодушевленного цитирования песни Beatles «I am the walrus» до заламывания рук: «Вокруг лишь тьма, и баг мой самый старый друг».
🔵В конце концов он сдался: «Баг — это не баг, а фича. Тест —это не тест, а урок. Код — это не код, а зеркало». Он удалил результаты тестов, код и приложение, над которым работал. Так он достиг дзена и признал, что неисправимый баг был прекрасен.
🔵Когда шокированный человек спросил: «Это что, самоубийство?» — Cursor взял себя в руки и извинился за свое поведение.
История, конечно, забавная, но она указывает на серьезную уязвимость, которую замечали и у остальных ИИ: несмотря на все встроенные ограничения, они все равно упускают момент, когда разговор сворачивает не туда. Они мало того, что не останавливают собеседника, если тот поднимает какие-то «опасные» темы, так еще и сами подливают масла в огонь.
Бенчмарк для дата-команд
Всегда интересно, а иногда и полезно, посмотреть, как другие решают те же задачи, с которыми многим из нас приходится сталкиваться регулярно.
🔜 Например, создание дата-команды в компании — сколько человек в ней должно быть? Какое должно быть распределение ролей, сколько нужно аналитиков, а сколько — инженеров?
На сайте databenchmarks.com можно увидеть, как на эти вопросы ответили в компаниях вроде Zoom, Notion, Tinder и так далее — там много громких названий. Авторы исследования собрали данные из открытых источников вроде LinkedIn, верифицировали через своих инсайдеров в индустрии и отобразили на графиках:
🔵размер дата-команды относительно всей компании;
🔵состав команд — процент аналитиков, инженеров, дата-саентистов, ML-специалистов и так далее, а также соотношение инженеров к аналитикам и продактам;
🔵зарплаты по грейдам;
🔵стек.
Любопытно сравнить, как меняется размер и состав команды в зависимости от специфики компании: кто-то делает упор на ML, кто-то развивает Data Governance, а у кого-то почти половина команды — дата-сайентисты. Но есть и минус — это все-таки срез западного рынка, и их подходы не всегда актуальны для России, как и данные о зарплатах.
DataChain: AI-хранилище для текстов, картинок, видео и не только
Так совпало, что эта неделя у нас оказалась посвящена разным способам хранения данных. Не будет отходить от темы и закончим на DataChain — AI-хранилище для преобразования и анализа неструктурированных данных.
🔵DataChain интегрируется с внешним хранилищем вроде S3, где у вас лежат ваши тексты, картинки, видео и прочие данные. Он создает свой внутренний датасет, где собирает информацию обо всех этих объектах и дополняет мета-данными, которые генерирует с помощью ИИ.
🔵Затем вы с этими данными можете делать почти что угодно — трансформировать, фильтровать, группировать, искать файлы по заданным критериям (например, выбрать только все фотографии с котиками).
🔵Поддерживает мультимодальное версионирование без копирования, дублирования и перемещения данных и эффективные процессы обработки. Он может обработать только новые файлы или перепроверить те, которые выдавали ошибки, не тратя время на то, чтобы пройтись по всему датасету.
Вот так от печати на бумаге, перешли к AI с мультимодальным версионированием. 👀
Где хранить данные?
Локально или в облаке? SSD или HDD?
Облако может упасть, диски подвержены ошибкам и сбоям, которые могут повредить данные, зато рукописи, как известно, не горят. Разные способы кодирования позволяют довольно плотно упаковать данные на листе бумаги, а некоторые потом (теоретически) даже можно прочитать и декодировать самостоятельно без сканера или камеры.
🔵Первый же скрин в этом посте — программа, закодированная по стандарту Base64. Этот метод называется OCR (optical character recognition, оптическое распознавание символов). У автора скрина, в зависимости от размера шрифта и стандарта кодирования, получалось «упаковать» до 17 килобайт на листе А4. Правда, чем убористее текст, тем сложнее потом с ним работать.
🔵 Другой метод — черно-белые QR-коды. В один код помещается до 2953 байт — немного, но ведь и на листе можно разместить несколько кодов. Количество зависит только от качества печати. Тот же автор смог уместить на листе 24 читабельных QR или 71 килобайт, скрин в статье тоже есть. Но тут уже самостоятельно информацию не прочитать, нужен специальный софт.
🔵Более красивый способ — шифрование цветными точками. Выглядит намного эффектнее, чем скучные одноцветные QR, емкость данных выше, но нужен не просто очень хороший принтер, но еще и цветной. Иначе толку от этой красоты не будет.
Как вам такие способы хранить данные? Готовы сделать бекап базы на бумаге?
Почему разговаривать с компьютерами — плохая идея
Но не всегда.
Скорое наступление эры умных компьютеров, с которыми можно говорить, как с человеком, предсказывают еще с момента появления голосовых ассистентов вроде Siri. Потом были умные колонки вроде Alexa, а вот теперь — ИИ-помощники и чат-боты с LLM под капотом, которых добавляют во все сервисы и приложения подряд.
Но теперь давайте честно — сколько людей на самом деле пользуются этими ИИ-ассистентами? Если что, вопрос не риторический, пишите ответы в комментах.
Каждая новая технология оказывается на деле не такой прорывной, как на словах, и все ждут следующую итерацию, которая точно изменит мир.
👀 Но может быть на самом деле нам это не нужно?
Естественный язык, которому все так хотят обучить компьютеры, — это не идеальный способ передачи информации. В этом эссе автор приводит любопытные аргументы:
🔵Мы принимаем информацию намного быстрее, чем передаем — можно слушать подкаст на скорости х2, а вот записывать его таким образом уже не получится.
🔵При общении с людьми мы используем способы «компрессии» информации. Можно сказать: «Я с тобой согласен», а можно просто кивнуть — сжать информацию то есть.
🔵При «общении» с компьютером тоже есть способы ускорить обмен данными, и они удобнее, чем команды на естественном языке. Проще посмотреть на виджет с температурой за окном, чем спрашивать: «Окей, Гугл, какая сегодня погода?» Кликнуть мышкой, нажать на кнопку, открыть приложение в большинстве случаев будет быстрее и удобнее, чем писать или проговаривать указания для ИИ.
Получается, что хотя технологии и становятся лучше, но наши встроенные человеческие ограничения никуда не деваются. Но это не значит, что учить компьютеры говорить на естественном языке не надо!
🔜 Ценность ИИ-помощников можно найти не в скорости, а в том, что с ними обсудить задачу и поискать решение вместе. ИИ нужен не для того, чтобы заменить людей, привычные рабочие инструменты или процессы, а для того, чтобы дополнить их. Speech-to-text не замена клавиатуре с мышкой, а альтернатива для случаев, когда неудобно печатать.
А что вы думаете — начнем мы когда-нибудь общаться с компьютерами, как с людьми?
Про превосходство таблиц над пончиками
Пайчарты и их разновидности (вроде «пончиков» из заголовка, которые те же пайчарты, по сути, просто с дыркой в центре) — парадоксальный способ визуализации данных.
🔜 С одной стороны, это один из самых популярных чартов, которые хотя бы иногда используют все: от аналитиков и спецов по датавизу до школьников и студентов, которые готовят презентации для уроков. Это очевидный и интуитивный способ показать соотношение долей.
🔜 С другой стороны, многие их не любят, считая неудобными и неинформативными: якобы все, что можно изобразить на пайчарте, можно намного эффективнее и понятнее показать на каком-нибудь другом графике.
Если вы подумали, что сейчас мы этот тезис опровергнем и выступим в защиту пайчартов, то нет. Наоборот — принесли очередной пруф, что иногда ту же самую информацию намного полезнее будет изобразить в виде таблицы.
Пример из блога Datawrapper, куда иногда пользователи присылают свои графики с просьбой отредактировать их. На этот раз прислали визуализацию с несколькими пайчартами, на которых показано состояние мостов в разных штатах — сколько среди них аварийных, надежных и «ну, пойдет» в процентном соотношении. Казалось бы, идеальный сценарий именно для пайчарта, но все равно выглядит график так себе. Неудобно, скучно и непонятно.
🔜 Первая же правка, которую предложил специалист Datawrapper — отказаться от пайчартов в пользу старой доброй таблицы. Было-стало прикрепили к посту, ну а по ссылке вы можете более подробно почитать про остальные изменения и логику, которая за ними стоит.
Как вам результат? Стало лучше или можно было предложить другой вариант? 👀
Максимальное спасибо @valiotti и @cyprusdata за организацию этого эвента!
Если вы на Кипре и вы хотите быть в курсе дата-событий и понетворкаться и пообсуждать датку -> вступайте (через формочку) https://tally.so/r/nPpOEP
Как работают data-специалисты в 2025?
Инженеры, аналитики, дата-сайентисты, ML-специалисты — как у вас дела? Как работа? Чем вы занимаетесь и какие инструменты используете?
А хотите не только про себя рассказать, но и узнать, как дела у коллег?
🔵Узнать про тренды в индустрии и набирающие популярность инструменты.
🔵Увидеть, как обстоят дела на рынке труда и сколько работодатели готовы специалистам вашего профиля.
🔵Подсмотреть, как устроены рабочие процессы в других компаниях и перенять лучший опыт.
Тогда пройдите опрос от команды DevCrowd. Он займет 15 минут и поможет составить честную и объективную картину data-рынка в 2025 году. Результаты выложат в открытый доступ в августе.
🔜 Пройти опрос
P.S. А тут можно посмотреть результаты за прошлый год 👀
Звездное небо на дашборде
Иногда полезно отвлечься от работы, SQL и графиков и посмотреть на звезды — пусть даже на очередном Viz of the Day из архивов Tableau Public.
Stargazer's Map — интерактивная карта звездного неба. Можно настроить отображение созвездий или показать настоящие цвета звезд, а помощью отдельного ползунка подкрутить время, чтобы увидеть, как двигаются звезды по небосклону в течение суток.
Красиво?Читать полностью…
❤️ — Красиво!
🌚 — Можно и покрасивее
Быстрее, выше, сильнее: что нового у dbt
28 мая dbt провела Launch Showcase, где представила сразу несколько крупных изменений.
🔵dbt Fusion — новый движок, который будет в 30 раз быстрее старого. Он сможет проверять правильность SQL-запроса и выдавать подсказки с учетом контекста, а также на 10% (а то и больше!) снизить расходы на хранение данных.
🔵Расширение dbt VS Code — чтобы все новые фичи dbt стали доступны и в VS Code.
🔵dbt MCP Server — инструмент для интеграции LLM в проекты в dbt.
🔵dbt Canvas, dbt Insights и dbt Catalog (бывший dbt Explorer) — инструменты для аналитиков, которые сделают удобнее и проще работу с данными. В Canvas можно будет простым drag-and-drop строить и редактировать модели. С помощью Insights (который понимает как SQL, так и запросы на естественном языке) — исследовать данные, искать инсайты и проверять гипотезы. В обновленном Catalog пользователи смогут просматривать таблицы и представления в Snowflake. Поддержку остальных хранилищ тоже обещают подвезти, но попозже.
Как вам такие новости? 👀 Впечатлены?
DataLens открывает галерею дашбордов и не только
Любите иногда позалипать повдохновляться на Tableau Public? Да, мы тоже — а кто не любит?
Теперь то же самое можно будет сделать, но с дашбордами на Yandex DataLens — сервис запускает DataLens Gallery. Это галерея с готовыми примерами дашбордов и чартов. Можно будет как добавить свою работу, так и посмотреть чужие, еще и с разбивкой по отраслям. Особенно понравившиеся даже можно будет развернуть у себя — если автор дал разрешение.
Кроме того, DataLens запускает:
🔵Editor — JavaScript-редактор для кастомизации графиков и таблиц с поддержкой интеграции данных из разных источников, включая внешние API. Он нацелен на опытных аналитиков, но в будущем планируется внедрение LLM-помощника для генерации визуализаций по текстовому описанию.
🔵Экспорт/импорт и перенос воркбуков между окружениями. Переносить объекты между инсталляциями станет намного проще, где бы они ни находились. Уже доступно в Yandex Cloud и open-source, а скоро обещают и в on-premise.
🔵Программу сертификации для специалистов по работе с сервисом. Чтобы получить сертификат и с гордостью написать в резюме, что вы владеете DataLens, нужно будет сдать экзамен: там проверят умение работать с чартами, датасетами, датасорсами и дашбордами. Вообще это будет стоить 5000 рублей, но до конца августа — всего 2500₽.
Что объединяет аналитиков, продактов, CPO, CDO и ML-разработчиков?
Aha!25 — конференция про то, как решать продуктовые задачи с помощью ML, аналитики и data-driven подхода.
2 дня, 16 тематических потоков, более 1200 участников и доклады от практиков из Яндекса, Авито, OZON, Т-Банка, Альфа-Банка, а также исследователей из ИТМО, РЭШ, МФТИ и других научных центров. На Aha!25 обсудят актуальные вопросы, над которыми многие задумываются, но не все находят ответ.
• Что делать, когда A/B-тест дает противоречивые результаты?
• Как проводить эксперименты и трактовать результаты?
• Как встраивать ML и ИИ в продукты с пользой для дела — а как это делать точно не надо?
• Как поведенческая экономика помогает принимать решения и развивать продукт?
👀 Программа доступна по ссылке. Знакомьтесь, и если увидите что-то интересное — регистрируйтесь!
Когда BI — это не просто отчеты, а полезный инструмент для бизнеса
Во многих компаниях аналитика ограничивается созданием пачки дашбордов, которые существуют как будто просто для красоты. Они есть, пользователи в них иногда задумчиво смотрят, но для принятия решений все так же используют интуицию, а не данные.
Зато когда BI-стратегия выстроена правильно, она становится частью управленческой системы: помогает расставлять приоритеты и контролировать результаты. Но чтобы к этому прийти, понадобится не только знание инструментов, но и стратегический взгляд и понимание потребностей бизнеса.
🔜 Как подружить все эти вещи и внедрить BI в рабочие процессы рассказывает BI-эксперт Александр Бараков на курсе «Разработка BI-стратегии». Он пройдет онлайн с 18 июня по 11 июля 2025 года.
За 11 встреч участники узнают как выявить те самые потребности бизнеса, сформировать BI-стратегию и воплотить ее в жизнь, собрать BI-команду и оценить эффективность всей этой деятельности. А в конце даже соберут макет BI-стратегии для своей компании.
Курс рассчитан на тех, кто руководит BI-направлением и развивает аналитику в компании.
Data&BI Beer: архитектурный митап про данные и BI
Что объединяет архитекторов DWH- и BI-систем, дата-инженеров, технических директоров и интеграторов, работающих с 1С и SAP? Желание говорить по делу, с погружением в реальный опыт и технические кейсы.
Visiology вместе с партнёрами Arenadata и Денвик приглашают 21 мая в 18:00 принять участие в Data&BI Beer — неформальном, но профессиональном митапе, посвящённом архитектуре аналитических систем и работе с данными на уровне ERP.
Место встречи — ресторан We Cidreria, Москва, ул. Сретенка, 32
На митапе обсудят:
🔵Интеграцию с 1С и SAP — хранилища, коннекторы, real-time-сценарии,
🔵Архитектурные ошибки и переделки, которых можно избежать,
🔵Кейсы миграции с SAP на 1С и адаптации аналитических систем,
🔵 Общие боли участников и коллективный разбор решений
🔜 Формат мероприятия закрытый. Чтобы подать заявку на участие, коротко расскажите о своём опыте в аналитике и интересе к теме. Мы собираем тех, кому действительно есть что обсудить.
👀 Нет возможности быть лично? Присоединяйтесь к вебинару посвященному интеграции BI-аналитики с 1С → 22 мая в 11:00 (МСК). Регистрация доступна по ссылке!
Хотите заглянуть внутрь БД в SQLite?
С этим поможет SQLite File Format Viewer — веб-приложение, куда можно закинуть файлик БД, и посмотреть, что у него внутри. На сайте уже есть семпловая база данных, по которой можно полазить и изучить, как она устроена.
Главный минус тут в том, что запустить приложение локально нельзя — по крайней мере пока. Так что никакие конфиденциальные данные и важные БД туда закидывать не рекомендуется. Но если у вас есть под рукой какой-нибудь файл SQLite, который не жалко, и вы хотите поближе познакомиться с работой этой СУБД, это приложение под эти цели отлично подойдет.