datarascals | Unsorted

Telegram-канал datarascals - Дата канальи — про «специалистов» в данных / ML / AI

4471

Перлы из жизни аналитиков и ds — от безобидных заблуждений до откровенного надувательства. Посвящается AI-евангелистам (любителям интеграций формул в экселе и LLM). Для связи @NikitaZelinskiy

Subscribe to a channel

Дата канальи — про «специалистов» в данных / ML / AI

Точка синхронизации технологий и тех, кто их использует

T-Sync Conf — офлайн-конференция от Группы «Т-Технологии» для опытных инженеров. 7 февраля в Москве на площадке TAU соберутся платформенные, security и дата-инженеры, аналитики, DevOps, SRE, CI/CD, AI-, ML-, R&D- и DX -специалисты.

Это новый формат инженерного диалога:
— Контуры — тематические зоны, каждая из которых раскрывает отдельный слой инженерной реальности: AI, Data, R&D, Security, Platform и другие направления.
— Вместо классических докладов — круглые столы, стенды, хакатон, воркшопы и мастер-классы.
— Инженерные решения изнутри — возможность посмотреть, как устроены технологии в Т-Банке и других компаниях, и пообщаться напрямую с теми, кто их создает.

А еще много практики, интересных знакомств и живых систем.

Успейте подать заявку

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Всем в Новом Году такой же способности адаптироваться под меняющийся мир 😁

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Вместо красивой инфографики tgstat и всяческого подведения итогов и спойлеров.

Просто поздравляю подписчиков с Наступающим! 🎄❄️ 🎆✨🥂

Пусть у вас в Новом Году будет поменьше кейсов для этого канала и побольше крутых результатов!
Желаю вам чтобы всегда было достаточно времени для собственных проектов и своего же образования. 🤓

А с последним поможет специализация по ML, в которой мы с ребятами делаем максимально полный набор релевантных курсов

Всех крепко обнимаю, спасибо что были со мной! Встретимся уже в Новом Году!

🥂✨🎆 ❄️🎄 С НОВЫМ ГОДОМ!

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

#корпжиза

Клиент всегда прав

В тему предыдущего поста про HR.

На картинке два воблера — куплены в один день, использовались почти одинаково.
На какой рыба клюет?
Ответ очевиден — на тот, на котором живого места нет от укусов хищников.

Когда ищут подрядчика, смотрят в первую очередь на цену и опыт выполнения аналогичных проектов, это нетрудно проверить даже по открытым данным — выигранные тендеры, финансовая отчетность, арбитражи позволяют в целом составить картину и о масштабе организации и о качестве работы (если много судов — значит у контрагентов претензии). А если встреча с подрядчиком проходит в директорском кабинете из красного дерева с мраморным столом и золотой пепельницей, то это сыграет в минус. Ведь, по мнению Баффета, показная роскошь менеджмента прямо указывают на то что компания плохо управляетcя:

“At Berkshire, we do not believe in expensive headquarters or executive luxuries. Such costs do not enhance business performance and are paid for by shareholders.” Баффет, Berkshire Hathaway Shareholder Letter, 1985


В найме же все совершенно иначе.

Первый этап зачастую — это HR, перед которой состоит задача фильтрации огромного пула потенциально возможных кандидатов, но которая не может (открытых данных не так много — разве что внешние по отношению к компании ачивки) и не хочет (по каждому кандидату не порасследуешь) проверить их результаты. И внешние ачивки тоже не панацея — они же, как правило, получены в составе команд, нужно еще как-то вычленить вклад именно кандидата.

На что же она ориентируется? У технаря можно хотя бы быстро сделать скрининг знаний (взяв вопросы у инженеров).

А что с наймом руководителей?
«чтоб симпатичненький»
«чтоб производил впечатление успешного»
«чтоб адекватненький»
«чтоб можно было показывать правлению»
«чтоб стрессоустойчивый и не терялся когда слышит чушь»
«чтобы родился в асцендентной деве»
«чтобы лапуся нормис»

Плохо ли это? Ни в коем случае!
Это супер-нормально, вообще «клиент всегда прав» — очень глубокая и верная фраза. Если у компании спрос на тех кто знает как отвечать на вопрос «кого выбросишь — руководителя или всю команду?» — значит ей именно такие и нужны, мб она к сокращениям готовится, или сомневается в текущем руководителе и кандидат должен быть готов его оперативно заменить.

Так что любой контакт с процессом найма — это очень честный сигнал кто именно в компании требуется.

В компании 16 этапов собеседований? — отлично, это не повод ныть, а сигнал что в компании нужны люди, готовые, например, к постоянным переработкам без видимых причин. Или что ваша работа в любой момент может быть помножена на нуль -- и это (нулевую ценность собственнх усилий) надо воспринимать как должное.

Компания оценивает кандидата прежде всего по внешнему виду и болтологии? — супер, значит на этой позиции придется делать много презентаций и демо на разные аудитории и надо уметь всем нравиться — от этого зависит успех компании.

В тексте вакансии одно, на собеседовании другое, в KPI третье? — прекрасно, это сигнал что реальных стейкхолдеров будет несколько, интересы у них разнонаправленные, и нужно уметь в этом жить.

Было бы грустно «проскочить» на место, которое не соответствует вашим ценностям, а потом мучаться от развивающихся неврозов.

PS А если вы покусанный воблер -- вас обязательно воьмут те, кому позарез нужен будет результат

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Подсмотрел у Саши прикольную штуку, которая выдает саммари каналов за год.

Авторы: @neural_prosecco, @snimshchikov, @neuraldeep

Дисклеймер: все подобные инструменты дико смещены в сторону потешить эго авторов, поэтому про любой канал будет только позитив

Что LLM думает о канале:
1. Шаг 1: Просмотрено множество постов с кейсами, техническими разобранными, скепсисом по hype AI и реальным продовый опытом ML.
2. Шаг 2: Тональность канала живой, разговорный, с мемами, ироничный, без пафоса и корпоративной шаблонности.
3. Шаг 3: Ключевые инсайты — разбор рабочих кейсов ML, правда про внедрение и прод, обсуждение процессов DS и ML в компаниях.
4. Шаг 4: Часто поднимаются темы валидации моделей и их реальной эффективности в бизнесе.
5. Шаг 5: Много рассказов про собеседования, обучение, экзамены с комбинацией задач и LLM.
6. Шаг 6: Тексты про корпоративную культуру с обозначением бюрократии и менеджерских игр.
7. Шаг 7: Отдельно много внимания рекоммендационным системам и современным ML практикам в индустрии.
8. Шаг 8: Ценность канала в честности, прямоте и практичности, без красивых сказок, порой с сарказмом.

Короче, welcome!

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

#ML
Подборка полезного про DS/ML в канале (не кейсами же едиными) — длиннопост по результатам опроса в честь годовщины

1. Про антифрод
2. Критика соц-дем фич и как надо
3. Опасность фичей-счетчиков с рейсом
4. Стат свойства PSI и как сравнивать распределения
5. Критика квартальных и децильных фич
6. ID как фича — плохая идея?
7. Чуть-чуть про adversarial examples
8. Как облажаться с инференсом модели
9. Не все ошибки это плохо
10. Почему Knowledge Graphs оказались тупиковой веткой в Reading Comprehension
11. Как внедрить модель на голом SQL
12. Как объегорить манагера с метриками в задачах регрессии
13. Трансформерные и foundation модели для временных рядов
14. Успех внедрения модели часто зависит от канала доступа к клиентам
15. Опасность библиотек для RecSys — все считают даже базовые метрики по-разному (можете посадить любого собеседующего в лужу)
16. Про пакетные менеджеры в python
17. Старый (2020) но топовые туториал с KDD по связи офлайн- и онлайн-метрик в рекомах
18. Ускорение расчета фич
19. Сначала метрика, потом под нее выбирается лосс — не наоборот
20. Чуть-чуть про WARP-лосс
21. Row_number() vs rank() бывает важно
22. Мультиагентные системы 90х годов XX века
23. Обзор по темпоральным графовым сетям
24. Кейс когда понадобилась модельная архитектура
25. Обзор по алайменту LLM за июль 2024
26. Простой квик вин в кредитном скоринге
27. Кейс про генерацию фич для комплаенс — из названий компаний
28. Калибровка Venn-ABERS
29. Бустрап и ЦПТ в инженерной сейсмометрии с фото с автором
30. Про то что мы не должны забывать что работаем с вычислительными машинами
31. Кейс про графовый attention от корифеев, в котором нашли ошибку, но и сами налажали, как выяснилось уже в комментариях после репоста в дружественные каналы
32. --
33. О пользе дата-аналитиков
34. Про формы нормализации данных
35. Снова про антифрод и как его делать
36. Зачем в LaL псевдолейбеллинг
37. Одна из самых важных моделей почти везде
38. Про расследование для поиска таргета
39. Про landing.ai
40. Чуть-чуть про XAI (explainable AI)
41. Про foundation model для табличных (!) данных
42. МТС-ные курсы про RecSys и. Новый релиз RecTools
43. Интерпретабельность графовых трансформеров
44. В каких редчайших рейсах кластеризация имеет смысл
45. Micrograd
46. Снова про названия компаний
47. Про ФЛК
48. Про связь Binary cross-entropy и NDCG
49. Обзор за март 2025 по нейронкам в RecSys
50. Связь logloss и ROCAUC
51. Как остаться без штанов генеря бенчмарк для своего RAGа
52. Трансформер на golang
53. Как не надо визуализировать данные
54. Как надо визуализировать данные
55. Про актуальность опровержения SMOTE
56. Как ранжируются платные объявления в Авито
57. Схема обучения SASRec
58. Про A/B
59. Трансформер в рекомендациях
60. Как в десять раз сэкономить на API LLM
61. Наш курс по ИИ-агентам
62. Как не надо в антифрод
63. Как появился мой канал
64. Наглядная статистика
65. Логарифмирование таргета помогает или вредит ?
66. Как KPI на внедрение LLM заставляют наводить порядок в данных
67. Наш курс по базе ML
68. Как не надо в прогноз спроса
69. Кейс про особенности инференса на Канадщине
70. eSASRec — наша статья на RecSys2025
71. LLM вдвое эмпатичнее врачей
72. Рекомендации музыки в Звуке
73. Нанобанана
74. Чуть-чуть про RL
75. Подборка по агентам
76. Скачать видео с YouTube без смс и регистрации
77. Воркшоп про дизайн рекомендательных интерфейсов
78. Можно ли по эмбеддингу восстановить текст ?
79. Видео с RecSys 2025
80. Кейс-менеджмент в кейс телефонных мошенников
81. Про матчинг ФЛ
82. Про схемы валидации моделей и связанные с ней мифы
83. Про гороскопы в моделях
84. Про деградацию моделей

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

#корпжиза

Приятно когда манагеры тоже оставляют вклад в науку, вводя новые термины

Нейросетевой недотрах -- надо же было придумать 🙀

Искренне уверен что рынок подчиняется законам спроса и предложения.

Есть спрос на коммерческий опыт с нейронками — люди будут их делать на работе в абсолютно любой ситуации.

Будет спрос на эффективное решение прикладных кейсов — будут стараться находить изящные и эффективные решения.

Если сделать шаг назад, то стратегий развития в корпорации у DS не так много:

1. Стараться приносить максимальную пользу компании именно в рамках продукта/ бизнес-задачи
2. Работать процентов на 70%, а 30% инвестировать в свое развитие, постоянно щупая рынок на предмет востребованных навыков, пробовать применять эти навыки в текущей работе — и максимизировать их применения, независимо от задачи и целей компании

Риски первого подхода очевидны:
— вокруг DS несколько каналий, начиная с PO, которые бизнес-результат припишут исключительно себе и везде об этом раструбят
— при любом реорге / трансформации менеджмент будет сильно трясти и думать они будут прежде всего о сохранении своей работы а не о судьбе рядового DS
— если не развиваться и не получаешь опыт коммерческой работы со свежими технологиями — твоя ценность на рынке падает и ты попадаешь в ловушку-зависимость даже не от конкретной компании — а от конкретных персоналий в лице своих менеджеров

Более того, в крупнейших корпорациях процесс роста грейда DS/MLE часто устроен как результат на продукте + техническое собеседование / или несколько.

И вишенкой на торте — иногда топы просыпаются и требуют с каналий показать «инновационность» используемых методов, и здесь канальи с удовольствием прикрываются экспериментами тех самых «DS с нейросетевым недотрахом».

Худшее что можно сделать это поверить канальям в том что «сетки ничего не добавляют, надо пользоваться простыми и надежными методами, бизнес-эффективность превыше всего». Ну уж нет — развивайтесь, пробуйте новое не только на курсах и в пет-проектах, следите какие навыки и технологии востребованы рынком. Опыт внедрения в прод этих новых технологий растит вашу ценность на рынке. Точка.

Угрызения совести? Смотрите на это так: компания платит фикс за продукт (вас) которые постоянно растит компетенции — разве ей плохо?

А уж за эффективность пусть манагеры отвечают — им за это и платят.

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

482 страницы с кодом и через год это почти полностью устареет (а часть уже). Не припомню такого хайпа как про агентов

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

#кейсы
Рекомендации курильщика
Один развлекательный сервис с UGC-контентом попросил помощи с рекомендациями. Потому как сколько «траффика» не наливалось (а реклама денег стоит) — пользователи на сервисе не задерживались, и у руководства сервиса была гипотеза что рекомендации спасут положение.

К тому моменту in-house команда уже пилила рекомендации для длинных видео — «лонгов», а новая команда подключилась делать модельку для коротких видео, и заодно «присмотреть» за модельной на длинных -- и коллегам помочь.

И вот месяц идет A/B — на коротких видео на новых пользователях: timespent прокрасился больше чем x2, недельный retention +10%, среднее число просмотренного видео на нового пользователя +40% и.т.д 🔥🔥🔥
Пора праздновать?
Но на длинных видео — ничего. Вот совсем ничего по итогам A/B.

Что могло пойти не так?
Есть гипотезы?

PO сервиса за год+ не смог убедить дизайнера разместить рекомендации длинных не в подвале до которого мотать и мотать, а хотя бы как в youtube — или просто в верхней части экрана.
То есть пользователь просто не долистывал до полки с рекомендациями!
На что надеялся PO — загадка 😳

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Опередил ) история в духе каналий про процесс внедрения Copilot

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

#корпжиза

Шел по описанию резидентуры в Open AI и зацепило «We’re open to a wide range of backgrounds from self-taught engineers…»

Видел множество персон кто «я вот сам всему научился». Потом выясняется что базу заложили в физмат лицее, потом была кафедра в вузе где преподавали с матфака или другого вуза, потом была сильная команда на работе и тд

Наверняка есть и исключения, но чаще я наблюдаю другую картину — вокруг тысяча возможностей для обучения, которая никак не используется.

Лет 10 назад когда нас набрали в ЦАД ДИТ / ДЗМ нашим кураторам стало понятно что кроме того чтобы просто задавать вектор надо бы толпу 30 чел молодежи научить как вообще DS-проекты структурируются, какие задачи ставятся и как решаются, как это продается клиентам — ну короче то, сейчас частично входит в ML System Deisgn, частично в проектный менеджменти и всякое такое.

И вот выписали нам классного эксперта с огромным опытом из одной (на тот момент топ-1 в аналитике в мире) западной компании, который дважды в неделю по вечерам приезжал в офис, отвечал на наши вопросы по текущим проектам, рассказывал истории как успешных проектов, так и фейлов. Пользуясь моментом — спасибо, Саша , я многим тебе обязан.

Первую неделю из 30 чел пришло примерно 12
Вторую неделю человек 7
А с четвертой ходило 2-3.

Догадайтесь кто из них спустя время руководил коллективами в 100+ человек.

И так достаточно часто — как правило, больше половины студентов на курсах, которые я веду — руководители, причем скорее среднего звена.

И я сейчас не рекламирую наш очередной курс (рано 😄), но я куда как больше верю в правильный выбор наставников (как Саша для меня в свое время) чем в освоение бокса по самоучителю 😄.

Что не отменяет необходимость курсов — наставник сможет помочь сформировать вектор / стержень и разобрать конкретно ваши кейсы, но ни у одного наставника конечно нет столько деталей и кругозора чтобы охватить всю нашу область в глубину.

Но технику всегда можно добрать, а сформировать целостное видение и иметь поддержку — бесценно.
Так что, про self-taught engineers я бы не обольщался.

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

AI DevTools Hack — хакатон для тех, кто строит инфраструктуру и разрабатывает инструменты

Если вам близки задачи автоматизации, инфраструктуры, анализа состояний систем и интеграции API — этот хакатон вам точно понравится. Победители получат возможность разделить денежный приз в 1 500 000 рублей

Присоединяйтесь к AI DevTools Hack — онлайн-соревнованию для разработчиков, инженеров и data scientist’ов. Хакатон организует провайдер облачных сервисов и AI-технологий Cloud.ru, который делает доступ к облакам и AI простым и удобным.

Два трека на выбор:
— MCP for Business AI Transformation: разработка сервера, интегрирующего публичные API в MCP- инфраструктуру.
— TestOps Copilot: создание AI-ассистента, который будет автоматизировать рутинные процессы.

Почему стоит участвовать:
— Призовой фонд — 1 500 000 ₽;
— Возможность получить обратную связь от экспертов Cloud.ru;
— Настоящий инженерный вызов, а не просто ML-задача.

Создайте AI-проект и представьте решение в финале. Успейте зарегистрироваться до 5 декабря: https://clck.ru/3QeXW9

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

«Алиса» умерла по всей России. «Умные» колонки массово перестали распознавать команды. На все просьбы ассистент либо молчит, либо отвечает фразой: «У меня что-то сломалось внутри». @bankrollo

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

#ML

Раз в год Сбер проводит свою самую теплую и душевную конференцию, куда спикерами приглашает авторов статей, попавших на A* / RecSys конференции.

В этом году наш самый главный и самый первый автор Даша Тихонович смогла наконец презентовать статью c RecSys и более того — рассказать то, что в публикацию не влезло.

Очень рекомендую ее канал по рекомендашкам — она сейчас на переднем крае )

А с теми с кем не успел поболтать сегодня — буду рад увидеться завтра в том же месте на митапе по OpenSource и Агентам

PS и душевный канал душевного организатора Леши Васильева

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

со стартапами бывает и так)

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

https://www.kommersant.ru/doc/8317535

«Вымпелкома». На бесплатном тарифе доступны инструменты в GPT-5 Nano, Mini (1–5 токенов) и DeepSeek (3 токена)


1-5 токенов и 3 токена это прям сила 😆😅😂

Предложение для конечных пользователей выглядит экономически невыгодным: 300 руб. за 1,5 тыс. токенов — это в 100–200 раз дороже прямой покупки доступа к API тех же моделей

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Перезапуск специализации по ML: как было на Курсере, только с современной программой

С 2016 по 2022 год более 200 тысяч человек прошло через нашу с коллегами специализацию "Машинное обучение и анализ данных" на Coursera, выпущенную под брендом МФТИ и Яндекса. Курсы специализации практически стандартом в изучении Machine Learning на целых шесть лет, а стоило все это удовольствие всего 4999 рублей в месяц. Но с тех пор набор тем, которые нужно знать начинающему Data Scientist'у или ML-инженеру, существенно изменился. Поэтому мы с командой MLinside переосмыслили специализацию и выпускаем ее новую версию, причем по той же цене, что была четыре года назад.

Список курсов мы подбирали очень внимательно, со всей заботой о том, чтобы изучивший все видеолекции и выполнивший все задания слушатель смог построить карьеру в сфере AI. Начинаем с пререквизитов и классического машинного обучения, далее знакомимся с глубоким обучением и особенно горячей сейчас темой AI-агентов. После переходим уже к суровым будням коммерческого применения AI: A/B тестам, MLOps и ML System Design. А чтобы курсы не устаревали от того, как быстро развивается в наши дни AI, уже вышедшие курсы мы будем продолжать обновлять, а главное - дополнять. Ближайшая аналогия здесь - основной сюжет и побочные квесты в компьютерных играх. Курсы мы выпускаем с тем набором материалов, которые составляют "основной сюжет", но с течением времени будет появляться все больше опциональных лекций и заданий ("побочных квестов").

Наша миссия - дать широкому кругу людей, интересующихся AI, доступ к курсам топового уровня. Материал курсов специализации довольно непростой: в основу всех курсов, кроме вводного, положены материалы занятий в сильнейших российских ВУЗах - МФТИ, МГУ, ВШЭ, ИТМО. Здесь не будет обещаний, что "каждый может стать data scientist". Но тот, кто справится с материалом, сможет.

На специализацию УЖЕ можно оформить подписку: https://mlinside.ru/specializaciya

На текущий момент готовы подготовительный модуль (математика и python) и classic ML, до конца января планируем выпустить DL (значительная часть материала уже готова), до конца февраля - AI агентов. Оставшиеся курсы тоже будут выходить с похожей периодичностью.

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

И снова про недвижку -- выше я рассказывал о том как устроена модель прогноза CashFlow в проектах жилой недвижимости.

Такая мудреная схема рождается не сразу из головы, а после нескольких итераций и обсуждений с экспертами, быстрый пилот не провести (но валидность модели все равно, конечно, проверялась на A/B — просто он шел больше года).

Одним из топовых экспертов, с которым мы валидировали наши промежуточные результаты, данные и файндинги был Дима Волков — мы приходили к нему за экспертизой, и получали ее ведрами, и в отличие от остальных экспертов — его прогнозы по недвижке сбывались.

Что такой человек забыл в корпорации??

В итоге Дима-таки ушел и сделал свое предприятие — помогает находить жилую недвижимость под вложения и выбивать у застройщиков максимальные скидки.

Уверен, что кому-то из подписчиков будет полезно

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

#корпжиза

Пригласили как-то на собес в компанию, которую последние пару лет бросает — перетряска топов, плохо с финансами, нет стратегии, огромная текучка.
Думаю — схожу, интересно что спросят, наверняка очередную вариацию про два стула — тк ожидаемо HR компании соответствуют корпкультуре

Не прогадал 😁

Вот вам предновогодняя загадка от HR:

Вы в лодке, лодка тонет, надо выбрать кого выбросить — руководителя или всю команду?
Выбор только из этих двух вариантов, никакие обходнячки не принимались

Зная что контора как на вулкане, говорю — монетку брошу, вообще пофиг — у вас реорг на реорге — то топа снимут, то команду распустят.

Cудя по недовольному лицу HR, не угадал 😃

PS А какой ответ правильный? 😶

Свою версию напишу следующим постом -- "клиент всегда прав"

А заодно, почему считаю такие вопросы на собеседованиях вполне уместными и даже полезными, для кандидата особенно

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

#ML #прод #итогигода

Вот и конец года.
То самое время, когда внезапно выясняется, что половина того, о чём мы весь год говорили в ML,
— либо не взлетело
— либо взлетело, но вообще не там, где ожидали
— либо «формально внедрили», но лучше бы не трогали.

Шума, как обычно, было много.
Презентаций — ещё больше.
А вот реальных сдвигов, которые действительно поменяли правила игры, — сильно меньше.

Поэтому раз в год полезно сделать простое упражнение:
не «подвести итоги», а честно разобрать —
что сработало,
что не сработало,
и где мы сами себя обманывали.

24 декабря будет один такой разговор в телеге.
Без success story, без «мы все молодцы» и без попыток что-нибудь продать.

Формат простой:
каждый берёт один момент года — технологию, решение, внедрение, фейл или выбор —
и раскладывает его по-честному:
что хотели, что сделали, что получили и где потом аукнулось.

Люди там из тех, кто весь год не рассуждал про ML с безопасной дистанции,
а жил в проде —
с дедлайнами, нагрузкой, бизнесом и неизбежными компромиссами.

Площадка — South HUB.
Они время от времени собирают такие разговоры без карго-культа и презентаций про светлое будущее,
так что формат уже понятен.

Из участников, членов ПК Snow BASE:
— Толмачёв (ex-Ozon) — про ML как измеримый бизнес-эффект, а не шаманство
— Венжега (Avito) — про поиск и рекомендации без магических допущений
— Пархоменко (Яндекс.Лавка) — про масштабирование ML в условиях реального мира
— Кузнецов (Positive Technologies) — про прод, который должен переживать неприятные сценарии

Если хочется закрыть год без самообмана и иллюзий — имеет смысл заглянуть.
В остальном, как обычно, каждый решит сам.

24 декабря, 13:00–14:00 (МСК), Telegram South HUB.

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Местная щука — барракуда, в ответ на комментарии)

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Плачу от зависти.

Люди просто пишут понятную каждому документацию

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Причем рецепт успеха был до смешного прост -- сделать скрины макета интерфейса, запихнуть в любую мультимодальную llm и написать промпт в духе "оцени интерфейс, найти UX-косяки и предложи как сделать чтоб нормально было».

Не верите?
Ну вот ребята так сделали и доложили на воркшопе RecSys'25 в Праге

— Взяли 10 популярных сервисов с рекомендациями (типа стриминга, маркетплейсов и соцсетей).
— Сделали скриншоты интерфейсов в двух состояниях:
когда пользователь задаёт предпочтения и когда ему уже что-то рекомендуют.
— Составили чек-лист “хорошего рекомендательного интерфейса”: понятно ли, красиво ли, можно ли влиять на рекомендации и объясняют ли они вообще, за что вам это показывают.
— Скормили все эти скриншоты мультимодальной LLM (Google Gemini) ровно с тем промптом что выше

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

https://www.theburningplatform.com/2025/12/12/the-truth-about-ai/

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

#кейсы #корпжиза

История о том как один топ все управление DS [censored]

Однажды в N-ском банке M-ского уездного города разразился скандал: топ одной связанной с банком компании, который тем не менее получал зп на карточку этого банка, получил в приложении этого банка оффер по кредитной карте. Все бы ничего, но с лимитом аж в 10 тысяч рублей. Такого оскорбления он стерпеть не смог и DS по цепочке были пропесочены на тему какие же у них модели плохие и руки растут … и дальше сами можете представить.

Естественно, в процессе разбора стало понятно что сработало «мудрое» бизнес-правило, которое поставили портфельщики на лимит по тем о ком мало данных.

Как так получилось что данных о человеке, получающем зп в банке, мало?

Он не пользовался этой картой! И еще и с пустой кредитной историей…

Борьба с ветряными мельницами не всегда конек DS и было решено для всех возможных топов всех связанных организаций (несколько сотен человек) просто поставить максимальный лимит, доступный по продукту.

Довольные DS пришли отчитываться на встречу с тем оскорбленным топом что все починили, естественно, готовые к немедленной проверке.

Собственно, встреча ровно так и началась.

Только топ оказался опытным 😂, и со словами, «знаю я вас небось по мне все захардкодили» с видом победителя из широких штанин достал
другой телефон с другой симкой!
Еще и оформленной ровно накануне встречи
Зато приложение банка заботливо поставлено )


Внезапно, на этом телефоне в приложении банка не оказалось оффера на кредитку, да и большая часть операций была ограничена — что вызвало баттхерт топа.

Пришлось уже сдаться и рассказать зачем моделям данные и как вообще открываются счета новым клиентам, ссылочка для самых дотошных

PS: Неужели ни у кого не было похожей истории?

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Отпуск начался неплохо 🐟🐠 Ваху, от 11 до 23 кг на спиннинг, вкуснее рыбы на свете нет

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

#оффтоп

Вчера был в панели OpenSource в Сбере, дискуссия с залом получилась максимально живой, настолько, что очень быстро все спикеры и ведущий узнали что они (мы) это ИТ-деды и не понимаем проблем молодых ИТшников — сложно получить работу, много собеседований, не ясно как ориентироваться когда технологии (генерация кода) так быстро все вокруг меняют — во что инвестировать время и силы.

Кек

Мне сегодня стукнуло всего лишь 37 и я еще не решил кем я стану когда вырасту.

А про то что «ит-деды» отстали и чего-то не понимают, предлагаю послушать и найти хоть какие-то отличия (треки с разницей как раз около моего возраста)

2014 без vpn вот

1978 без vpn вот

PS А трек про др вот

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

#кейсы

Про instant карму

На днях надо было сравнить API разных LLM

ChatGPT — включил vpn, залогинился через гугл, закинул денег, получил токен, работает
DeepSeek — залогинился через гугл, закинул денег, получил токен, работает
Grok — включил vpn, залогинился через гугл, закинул денег, получил токен, работает
Groq (инференс провайдер, разные модели) — получил пробный токен, работает
GigaChat — 2 минуты бродил по документации, залогинился через sms, получил пробный токен (и еще 2 каких-то), работает (но не без приколов -- с переполучением токена каждые полчаса)
Qwen — залогинился через гугл, подтвердил телефон, ввел карту, бродил минут 15 — получил бесплатный млн токенов и api-ключ

YandexGPT — 2 часа читал документацию пытаясь понять как просто получить токен не заводя себе клауд. Оставил заявку.
На сл день (вчера) мне выслали ту же ссылку на документацию на почту и позвонили — попросил перезвонить через полчаса.
Через 2 часа звоню сам тому корп продажнику (КП) кто мне писал, происходит примерно такой диалог:

— Добрый день, Максим, подскажите пожалуйста как купить у вас API не покупая клауд?
— КП: читайте документацию, там все написано (без привета без ответа)
— Я бы хотел избежать покупки клауда, мне только токен от API и все
— КП: Вы не понимаете что Яндекс Cloud это платформа?
— А что такое платформа?
— КП: вы что не знаете? Платформа это клауд
— А клауд что такое? Я думал это облако — когда есть железо, которое можно арендовать и накатывать разные конфигурации и платить за использование
— КП: нет, клауд это сервис. Вам надо купить клауд, потом купить AI студию, потом API — читайте документацию, там все написано
— Мы всей командой читали весь вечер — там в контракте требуется Cloud_ID и много всяких штук, плюс не ясно как у вас устроен function calling — например, как вызвать search или web_search?
— КП: в документации все есть, я не буду вам разжевывать — дайте ее почитать тому кто у вас поумнее, разработчику например. Вам не API нужно, это для приложений, вам Алиса нужна.

Алиса:

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

#кейсы #ML

Встреча с канальей-манагером (далее просто КМ) в дикой природе.

Одна небольшая организация попросила провести ревью их ML-моделей.
Промотивировали, дали доступы к документации и репозиториям.
Но без контекста все равно сложно, нужна встреча.
Итак, встреча по одной из моделей, DS в отпуске, зато пришла каналья (КМ).

Модель для продаж одной услуги в четырех различных объемах.

— КМ: Она у нас в проде!
— Как строили? Почему ноутбук в названии имеет 2023?
— КМ: Ну так в 2025 мало данных, мы взяли 2023.
— Вы думаете что поведение пользователей не изменилось?
— КМ: Ну так моделька получилась хорошая!
— а вы ее валидировали на 2025?
— КМ: не, мы сразу решили в прод
— давайте посмотрим — валидация все же была, метрики в тесте на 2025 на порядок меньше чем на тесте в 2023
— КМ: зато результаты пилота отличные! Вот презентация
Смотрим презентацию с результатами пилота
— КМ: даааа, не лучше рандома
— КМ: но ведь и не хуже!!!

PS: пост опубликован с разрешения компании

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

#корпжиза

В Коммерсанте вышла статья про наш рынок AI/BigData, но фактологию в моем комментарии редакторы обрезали, а там я приводил такой пример с посевными инвестициями:

март 2025: еще один британский стартап ИИ-найма поднял $5М (а до этого $3M)

16 октября 2025 года: аналогичный британский стартап про ИИ-найм поднимает $20М долларов

02 октября 2025 года российский фонд инвестирует в российский же стартап по ИИ-найму аж 5 млн рублей 🤣🤣🤣

Инвестиции в 5 млн рублей и 1.6 млрд рублей в аналогичные продукты -- это все же разница в 300+ раз, да еще и отвественность если взять эти 5 млн рублей, гораздо серьезнее чем за те 1.6 млрд.

Но на рынке зарабатывают разумные оптимисты, так что нам остается только надеяться и ждать пока отечественный венчурный капитал повзрослеет и станет цивилизованным, вижу движения в позттивном направлении, не быстрые, но они есть.

Читать полностью…
Subscribe to a channel