datarascals | Unsorted

Telegram-канал datarascals - Дата канальи — про «специалистов» в данных / ML / AI

2366

Перлы из жизни аналитиков и ds — от безобидных заблуждений до откровенного надувательства. Посвящается AI-евангелистам (любителям интеграций формул в экселе и LLM). Для связи @NikitaZelinskiy

Subscribe to a channel

Дата канальи — про «специалистов» в данных / ML / AI

Утром пятницы все мысли только про работу 🙈

К нам в BigData МТС в команду Dynamic Pricing ищем крепкого DS-мидла

Classic ML / Статистика / Оптимизация
Spark / SQL — будет плюсом

Что делать: модели ценообразования, много бандитов, много Causal Inference и A/B, развивать внутреннюю библиотеку

Ниже формальное описание вакансии и контакты Тани (рекрутера)

Так на сайте

А так постом в тг:

Мы ищем Middle Data Scientist в команду Dynamic pricing
🥚Компания: МТС (Big Data)
📍Локация: Россия
🕞 График: 1 день в неделю в офисе

Команда Dynamic pricing занимается созданием комплексного решения, которое позволяет гибко управлять ценами товаров/услуг/подписок в зависимости от профиля клиента/характеристик товара для достижения различных бизнес-целей. В рамках продукта предстоит не только строить точные ценовые модели, но и встраивать их в операционные процессы компании.

Что мы ищем в кандидате:
• Глубокое понимание статистических подходов и методов (регрессия, свойства распределений, оценка максимального правдоподобия, проверка гипотез и их правильное использование), опыт их применения
• Коммерческий опыт применения классических алгоритмов машинного обучения, их калибровки, понимание преимуществ, недостатков и ограничений
• Хороший уровень SQL (не критично -- если по остальным параметрам ок, то SQL вы за пару вечеров освоите)
• Опыт проведения A/B тестов

Что нужно делать:
• Исследовать наборы сырых данных для поиска нужных фичей
• Строить модели персонализации параметров предложения (look-alike, multiclass) для абонентов b2c на всех этапах их жизненного цикла: привлечение, адаптация развитие, работа с оттоком
• Строить классические модели спроса и response-модели
• Оценивать эластичность спроса и подбирать оптимальную цену для достижения различных бизнес целей компании
• Выполнять сегментацию пользователей и товаров для различных задач
• Поддерживать текущие решения на продукте, сопровождать постановки на регламент процессов в airflow и A/B-тесты моделей

Что предлагаем:
• ДМС, куда включены: стоматология, страхование жизни и страховка при поездках за рубеж
• Корпоративный психолог и карьерный коуч
• Бесплатная сотовая связь, выгодные тарифы для ваших близких, промокод на онлайн-кинотеатр KION и бесплатная подписка на МТС Premium
• Программа «Invite IT» (реферальная программа поощрения за рекомендацию ИТ-специалиста) и многое другое

Кому интересно -- пишите Тане @TatianaEllington

По собеседованиям:

1) блиц-опрос из 10 коротких простых вопросов на звонке сТаней
2) Собеседование по стастистике и Classic ML
3) Раунд про python / sql
4) Раунд с продактом и HR -- рабочие кейсы

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

В России выпустили первую коллекцию РУССКОЙ одежды для офисных трудяг. Бренд commotion заморочился и импортозаместил все самые популярные должности, например:

• Копирайтер — писарь
• Тимлид — старейшина
• Сисадмин — домовой
• Аналитик — ведун
• Эйчар — сваха.

Футболки с принтами уже в продаже, цена — 2500 рублей.

рубахи что надо, эх, любо ❤️

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

было.....

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Переслали мне корпоративную методичку по управлению продуктовым портфелем

Итак, если бы пожарную команду создавали по этой методичке:

1. Ideation (оценка идеи)
Варианты:
За месяц не произошло ни одного пожара, потенциальных клиентов нет — закрываем продукт (KILL)
или
Один пожар был, но с погорельцев особо ничего взять — MERGE с водовозами, водовозы — жизнеспособный продукт с устойчивой клиентской базой и выраженной сезонностью.
Но перед тушением пожара необходимо будет производить расчет эффекта от тушения и сравнение с прямыми продажами воды клиентам
Или
Было несколько пожаров — когда пришли опрашивать клиентов получили люлей как поджигатели, глаз подбит 🤕, но зерно есть — PIVOT. Будем дистанционно (чтобы снова не получить) продавать палатки жертвам пожаров

2. Concept Validation — подтвердить жизнеспособность концепции
Продуктовый комитет затребовал дорожную карту по тушению пожаров на следующий год
Необходимо рассчитать точное время и место пожаров, затраты на тушение, экономический эффект
Ок, провернули фокус из финала The Incredible Burt Wonderstone и прошли дальше

3. Prototype Development
Сделали пожарную машину на деньги, выделенные на этапе 2.
Машиной сложно назвать — поэтому скорее получилась пожарная тачка.
Комитет отправил нас на Technical Pivot, без доп финансирования конечно же
На остатки финансирования получилось сделать лейку-поливалку

А дальше пришла летняя жара , и пол-города сгорело вместе с продуктовым комитетом 😂😂😂

PS: для тех кто не в курсе — частная пожарная охрана есть и вполне благополучно работает (например) и в нашей стране и в других

PPS: у любого инструмента есть своя область применения, даже у продуктовых методичек, и вот уж методички неплохо бы начинать с описания к чему их следует применять

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Один мой израильский друг решил воспользоваться colab'овским autocompletion и вот что из этого вышло (на картинке) 🤮

Более того, такое название модели -- HitlerGPT -- не случаное совпадение, согласно readme она дообучена (peft) на текстах Гитлера -- да и примеры там антисемитские.

К счастью, популярной ее не назовешь, но как же она оказалась в колабе? Есть идеи?

Google открещивается:


AI Overview
Google Colab's autocompletion feature is powered by Codey, a family of code models built on the PaLM 2 architecture. These models are fine-tuned on a large dataset of high-quality, permissively licensed code from various sources, enabling them to provide intelligent and context-aware code suggestions.

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Сегодня попал в Сити на один форум и вынужден был слушать в панели экспертования манагеров-каналий про рекомы, чуть руку не сломал борцовским приемом «фейспалм» 🤦‍♂️.

Все эти «на самом дела» и прочие «здравые смыслы», и «я 5 лет в отрасли и знаю что нужно пользователю» 🤦‍♂️.
Ни намека на метрики и A/B, зато вопросы. В духе: А как сделать так чтобы рекомендации были социально справедливыми? Знаете ответ? «А давайте снимать только хороший, патриотический контент».
Прям в стиле песни Захар Борисовича

Для таких вот у меня есть коробок вполне публичных примеров (а после беседы с пиар-службой кейсы теперь приходится фильтровать — заметили как их стало меньше в канале? — правда, большая часть просто ушла в отложку в 2026й)

Итак, канальи думали что SJM чем короче тем лучше, и вообще одной красной кнопки «купить» достаточно.
Ха раз
Ха второй раз

Добавление доп шагов к форме регистрации или к процессу покупки — увеличивает конверсии а не уменьшает! В их конкретных кейсах!

Другие канальи решили что если показывать что продукт популярен в соцсетях (social proof) то конверсия будет больше, но увы

А здесь вообще в одной статье собраны противоположные результаты : в одном продукте перфомят длинные тексты, в другом короткие. В одном продают простые заголовки, в другом сложные.

Пользователи охотнее делятся шортсами или длинными?
Надо проверять именно в вашем сервисе, а мб вообще в конкретной категории.
Смотрите с опаской на тех кто «знает как думает пользователь».

PS и самое вкусное, для тех кто не читал Ходжу Насреддина

На платформе Unbounce провели A/B-тест: Get MY free 30-day trial против Get YOUR 30-day trial

Результат, ожидаемо, на картинке к посту

Однажды Насреддин увидел толпу возле пруда, что рядом с мечетью. Подойдя поближе, он увидел, что в пруду тонет мулла. Люди кричали ему: "Дайте руку, почтеннейший, дайте руку! ", но тот только булькал и руки не протягивал. Тогда Насреддин подбежал и закричал: "Нате руку, почтеннейший, нате! " -- и мулла схватился. Когда люди спросили Ходжу, как ему удалось спасти муллу, он ответил:
-- Глупцы! Разве можно говорить мулле "Дайте"! Он понимает только "Нате"!

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Выступали сегодня с коллегой из MTS AI перед студентами ШАД МТС.
Коллега — Senior CV-инженер. Когда его студенты спросили — пошел бы он сегодня в CV будь он на их месте, он уверенно ответил — «нет, я бы в LLM, вон visual transformer такой же трансформер как в LLM».

Здесь меня накрыли флэшбеки — я хорошо помню как в 16-20х годах как раз CV был модной темой, особенно 3D. На ICCV’19 в Сеуле был почти десяток российских CV-стартапов, в основном из Нижнего (списываю на близость интеловского RnD-центра).
Банки рисовали роадмепы по добавлению CV (в тч OCR) во все процессы — и фото заемщика в кредитный скоринг, и при входе в отделение распознавать эмоции и подсовывать «правильного менеджера» и делать скриншот сайта клиента чтобы определять «психологическую направленность» бизнеса — да мало ли фантазий у менеджеров?

В 2016 на волне успехов в CV выходили статьи что вот-вот и сингулярность наступит (Fortune как-никак, не совсем мурзилка).
Прошло 9 лет, и вот почти то же самое от BBC (вчера вышла статья)
Видимо, мы где-то около пика цикла Гартнера и надо смотреть уже на что-то новое, с llm и агентами более-менее ясно с применением и ограничениями (разве что инференс еще на пару порядков не удешевится).

Есть идеи что может быть новым прорывом? Именно в технологиях?

Сам не вижу, разве что развитие reasoning + computer use чтобы заменить офисных двуногих -- но это не тех прорыв очевидно

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Тренировки по ML

2️⃣3️⃣ мая состоится следующая встреча тренировок по машинному обучению ↩️

В рамках этого занятия обсудим соревнования по рекомендательным системам:
⚪️разберем разновидности задач (классическая рекомендательная система, ранжирование и более экзотические постановки)
⚪️сделаем обзор соревнований и их решений за последние несколько лет
⚪️посмотрим на основные подходы к решениям на примере некоторых соревнований, в которых участвовал приглашенный эксперт

📢 Спикер: Михаил Каменщиков, руководитель команды рекомендаций в Авито, Kaggle Master, призер конкурсов по рекомендательным системам, преподаватель ML System Design в Академии Аналитиков Авито

📆 Когда: 23 мая с 18:10
🗺️ Где: Покровский бульвар, 11, ауд. S224

Подробнее про челленджи 🐭

Студентам других вузов необходимо заполнить форму для заказа пропуска не позднее чем за 24 часа до дня проведения тренировок, по организационным вопросам вы можете обращаться к Александре ▶️

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

И Саша классный и доклад его классный )

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Вот искренне не понимаю, что движет Senior HR Manager выкладывать в проф сети такие фото 🤷 Мб я действительно не понимаю как это работает 🤔

Upd: в комментах выяснили что начальство заставляет ставить такие аватары чтобы повысить отклики кандидатов, более того, парням-рекрутерам ставят аватары девушек для той же цели 😱

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Обещанное имхо про то, что же дифференцирует мидлов / синьоров / лидов и далее до CEO.

По традиции с кейса, но раз уж отпуск вчера закончился — вот вам отпускная история.

Однажды в отпуске (не в этот раз, но в этом же месте) соблазнились мы с семьей экскурсией - поплавать с огромными морскими дьяволами (они же манты, но не те что в хинкальной). Взяли катер, капитана, капитан свою подружку, и поплыли.
Манты они не то чтобы деревья — они не растут в одном месте, они плавают по океану, так что мы доверились капитану, не вникая в географию, и минут 40 плыли от нашего острова, как потом выяснилось, примерно сюда.

Не обнаружив на мелководье дьяволов, пошли в сторону открытого моря, заметили мантов, здесь кэп с подругой и мной высадились в новом месте и поплыли догонять. Предусмотрительно (хе-хе) не взяв ласты и трубку (хорошо хоть очки были), я сильно отстал. Погода начала портиться, и кэп недолго думая свернул удочки, залез с подругой на катер и испарился в одном из равнозначных (посреди моря-то) направлений. Единственная оказия — я-то так и остался в воде 😂🙈. Пошел дождик, ветер поднимает полуметровые волны (а мб и больше — кто их измерял), они накрывают с головой, дальше пары метров вокруг не видно ничего кроме воды, а я стремительно понимаю что не зря возраст Христа считают опасным.

Как вы знаете, фамилия моя не Фелпс, да даже если бы и так — плыть-то в какую сторону? Да и плыть против волн такое — только устанешь быстрее и все, а здесь и на плаву держаться уже не просто.

Через какое-то время тучи сдуло, дождик прошел, море стало поспокойнее, начало проглядывать солнце.
А еще оказалось что туристы с соседнего острова Расду тоже соблазнились плаваньем с мантами и их катер остановился достаточно близко чтобы я к нему доплыл пока они выгружались (человек 10) и ныряли. Характерна реакция их капитана — он нисколько не удивился моему появлению (видимо, белые для них на одно лицо).

Мораль история простая — какие бы у тебя не были харды, и в жизни и в корпорации ты зависишь от других людей, причем жизненно зависишь, и не всегда это очевидно. И, как минимум, чтобы харды применить — надо знать куда плыть.

И дифференциатором грейдов выступают в первую очередь твои социальные навыки и социальный капитал — ни разу не видел чтобы CEO нанимали по объявлению (разве что зиц-председателя Фунта).

Нередко вижу ситуацию когда лидом в компании работает не крутой DS, а тот кто там работает давно.На первый взгляд кажется что это не очень меритократично. Однако, если речь о запуске новой инициативы и выделения ресурсов под нее — у кого будет кредит доверия? Разве у варяга? Разве что у варяга с репутацией и нетворком — и то не факт что оставят без присмотра кого-то «своего», пусть это и не будет формализовано.

Это не значит что не надо растить свою компетенцию — но стоит рассматривать свою экспертность и ее развитие в тч как инструмент социальный. Нужно осваивать навыки речи -- письменной, устной, невербальной. Уметь делать так, чтобы тебя понимали и не понимали когда ты этого хочешь. Но это все -- все еще имхо 😄

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Все руки не доберутся до поста , все силы на рыбалку уходят

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

вдогонку к прошлому посту -- как я вижу деление на грейды (на примере модели оттока):

Junior — строит модель оттока и замеряет roc_auc

Middle — убеждается что отток по месяцам стабилен, замеряет lift, калибрует на вероятности

SeniorDon’t Predict the Churn , prevent it! — строит модель, которая предлагает какую-то опцию (скидку например) только тем, кто а) хочет уйти б) на опцию среагирует и в) финансовый итог такой операции будет положительным — а-ля аплифт моделирование

Team leader — отправляет аналитика и DS разбирать обратную связь по продукту, находит причины оттока, на пальцах прикидывает сколько денег можно сэкономить если эти причины устранить — идет бодаться с продактом чтобы это сделать

CDS — все массовые задачи платформизировал, а по остальным погружен во все 4 уровня (заодно и ревью устроить может)

а следующим попробую погадать что рынку могут предложить CDSы

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Когда думаешь что видел самые извращенные графики и самые вырвиглазные EDA, судьба преподносит шедевры.

После них графики с тремя осями -- образец четкости и понятности в донесении мыслей 😅😂

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Вчера на конференции Data Fusion мне задали вопрос из зала — почему так трудно попасть на стажировку в российские бигтех-компании?
И почему вакансий джунов в открытом доступе почти нет? 😡

Ответ не самый очевидный — потому что компании активно участвуют в образовании 🤓.
(Более того, наши законотворцы обсуждают новую инициативу — обязать все крупные ИТ-компании отправлять экспертов преподавать в ВУЗы под угрозой лишения ИТ-аккредитации)

Если речь про нашу компанию (а мы сейчас называемся MWS)

Все ключевые активы в области информационных технологий: МТС Digital, МТС Cloud, Big Data МТС, MTS AI, Visionlabs – объединены в единую технологическую компанию МТС Web Services (MWS)
то мы:
⁃ проводим ML-тренировки на ФКН ВШЭ
⁃ запустили ИИ-магистратуру на ФКН ВШЭ
⁃ вместе со Сбером и Яндексом вкладываемся в ВШПИ МФТИ, за нами MLный трек
⁃ третий год ведем ШАД MWS

И это только те проекты, где я деятельно участвовал (где-то запускал, где-то подхватывал -- здесь спасибо Вите Кантору и нашему Центру Образования -- прежде всего Кате Карцевой и Алине Веденской что втянули и максимально поддерживают меня).

Так откуда же нам брать стажеров как не с олимпиад и образовательных программ, в которых мы участвуем и уверены? А когда они подрастают до джунов -- при возможности их же и берем в штат.

Но даже такой хвастливый пост как этот может нести в себе пользу — присмотритесь к Школе Аналитиков Данных MWS. Если все-таки есть желание перекатиться в ML, например, из другой профессии, и иметь все шансы на стажировку в MWS уже к восьмому месяцу обучения.

Следующий набор осенью (обычно конец октября — начало ноября), учиться год — 2 занятия в неделю по три часа после работы, преподают наши ребята, делали с душой )

PS

Сама конференция оказалось с загадкой 😵‍💫
-- Прихожу в первый день на сессию с Ким и Набиуллиной — яблоку негде упасть, люди в проходах стоят. Думаю — ок, бизнесовая конфа.
-- Прихожу на сл день на сессию по RAG — снова все забито 😂

Первый раз вижу такое чтобы организаторы смогли сделать интересную конференцию и для технарей и для бизнесов, очень круто вышло 🏆🏆🏆

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Кого только не встретишь в Московской области 🐻

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

HR = сваха 😂

А вот за DS обидно что не попали,
Поэтому вот варианты от DeepSeek:

Вот варианты от дипсика:

Если перевести профессию "data scientist" на славянский манер, можно использовать такие варианты:

1. Данномудр – от *"данные"* + *"мудрость"* (аналог «волхва» или «знатока данных»).
2. Числобер – от *"число"* + *"собирать"* (как «зверобой» или «грибник», но для чисел).
3. Знамений – от *"знание"* + *"предзнаменование"* (тот, кто извлекает смысл из данных).
4. Счётознатец – от *"счёт"* + *"знание"* (аналог «книжника» или «летописца» цифровой эпохи).
5. Рядолог – от *"ряды данных"* + *"-лог"* (как «геолог», но для анализа последовательностей).
6. Ведоум – от *"ведать"* (знать) + *"ум"* (разум), в духе древнеславянских имён.
7. Графич – укороченное от *"графика данных"*, звучит как старославянское ремесло.
8. Мудродатчик – игра слов: *"мудрость"* + *"дата"*, с налётом волшебства.

Ну

хоть не скоромох 🤡

Числобер, любящий 4, это квадробер?
Предлагайте свои варианты как обозвать DS по-старославянски, велком

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

В эпоху платных API и даже чатов, когда монстры ИИ прайсят нас за потребленные токены, вопрос «какому языку учить детей» должен решаться как-то более современно.

Например, в каком из них на одну и ту же фразу уходит меньше токенов (экономика должна быть экономной!)

from itertools import product
from transformers import BertTokenizerFast
from tabulate import tabulate

bert_tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')
china_tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese')
tok_names = {'bert': bert_tokenizer, 'china': china_tokenizer}

texts = [
'Обычно при использовании API вас прайсят за число токенов',
'Usually when using the API you are charged per number of tokens',
'通常使用 API 時,您需要按令牌數量付費'
]

results = []
for text, tokenizer_name in product(texts, tok_names):
tokenizer = tok_names[tokenizer_name]
encoded = tokenizer.encode_plus(
text,
truncation=True,
max_length=128,
return_tensors="pt"
)
num_tokens = encoded['input_ids'].shape[1]

results.append([
text
, tokenizer_name
, num_tokens
])

headers = ["Текст", "Токенизатор", "Число токенов"]
print(tabulate(results, headers=headers, tablefmt="grid", numalign="center"))

PS: Йошихиро Такаяма -- японец-таки
PPS: Китайский все же немного сломал табулятор, но английский пока выигрывает
PPPS: идеей вдохновился на м
л-тренировке у Саши Киреева, приходите в сл субботу на финальную в этом учебном году!

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Вчерашняя конференция была прям хорошая, орги обещают выложить записи -- буду ждать.

А пока делюсь слайдами с рассказа о трансформерах в рекомах, пробовал нарисовать так чтобы было максимально понятно человеку, хоть немного знакомому с DS, надесь получилось (ставьте клоуна если ничего не понятно, лойс если понятно) 😅

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Буду рад вас всех видеть в эту пятницу на MTS True Tech Day!
Целый день проведу на треке AI&ML — начну с рассказа про трансформерные архитектуры в рекомендациях от царя гороха до сегодня, не забыв прорекламировать RecTools 🤖

Потом обязательно послушаю Саню где искренне надеюсь узнать как и чем правильно дополнить LLM as a (Dredd) Judge в оценке RAGа 🤓

А затем уже несекретный спикер — но не буду здесь спойлерить 🤫).

Точно послушаю про LLM от Дани (святой человек 😇 без тг-канала) и Вали,
а ближе к концу возьму интервью у лидера LAMA — 4х грандмастера Kaggle Саши Рыжкова 👑 о том как нас всех заменит AutoML — но если есть еще идеи вопросов — велкам в каменты, обещаю один вопрос из коментов точно задать Саше на сцене.

Регистрация еще открыта -- увидимся в пятницу 🤗

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Если отвлечь синьора и дизайнера, то, кажется, можно даже понятно нарисовать как SASRec учится. Интересно, получится ли с моделями поновее и побольше -- HSTU и FUXI-alpha 🤔

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Напоминаю , что вечером тренировка — будем рады видеть всех )

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Презентация моего доклада на IML

Видео доклада выйдет через несколько месяцев, а пока могу поделиться слайдами (уже несколько человек спрашивало).

Можете задавать вопросы прямо сюда!

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Когда все пишут про агентов, огромные контексты, копайлоты и прочие чудеса мысли и технологии, кто-то упорно доказывает что SMOTE и другие нехорошие семплинги таргетов -- это плохо (2025й год на дворе так-то) .

И ладно бы, но глаз зацепил RUSBoostClassifier. Вот уж неожиданно, но, вроде, просто совпадение.

Хотя в NgBoost название двойное -- и natural gradients и Эндрю Ын (Ng) в авторах.

А на картинке -- как себе представил RUSBoostClassifier Кандинский 3.1 от Сбера (не буду советовать SMOTE, но и для диффузионок есть подходы в части баланса классов)

PPS. ложная тревога -- в авторах метода русских не видно: https://ieeexplore.ieee.org/document/4717268

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

А что же харды? Только чтобы надувать щеки и блистать «экспертностью»?

Искренне убежден, что нормально заботать харды можно исключительно по фану — иначе заснешь на 12й странице / на второй домашке курса etc.

У Виктора вышел классный пост с тремя разными доказательствами почему L1-регуляризация таки зануляет веса признаков, и одно из них через теорему Куна-Такера (судя по частоте упоминаний, она у Вити одна из любимых).

Не помню чтобы нам на отделении геофизики рассказывали теорему Куна-Такера, зато был алгоритм Кули-Тьюки — причем существенно так был, ведь громадное число курсов было сфокусировано на преобразовании Фурье (уверен что курс ТФКП был только из-за него, а алгоритмы и годовой курс вычмата -- только из-за БПФ) и связанных вещах (или извращениях вроде кепстров и гомоморфных фильтраций).

Так вот, этот Тьюки написал совершенно замечательный учебник Exploratory Data Analysis — это и практическое руководство как выкрутится когда в статьи принимают только монохромные картинки (1977 год, на секундочку — никаких тебе d3.js и plotly) так, чтобы они были читаемыми (после всех игр со значками, точками, шрифтами и отступами), и сборник задач на интерпретацию и / или визуализацию вполне реальных экспериментов из статей 50-60-х, так и куча вполне практических приемов (большинство которых безнадежно устарели) с которыми вы вряд ли встретитесь — например, как округлять осьмушки в десятичные шкалы, как печатать если бумага не того размера и имеет сероватый оттенок — все это вперемешку с шутейками в стиле шоу Фрая и Лори.

Так что если у вас впереди пара долгих перелетов и вы любите анализ и визуализацию данных — искренне советую, максимум удовольствия.
Такое вот отпускное чтиво

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

нормально у них там электричество отключили -- аж дедлайн на 4 дня продлили (был 12го)

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Еще в копилку тревожности синьоров и манагеров -- Revenge of the junior developer

Классческий естественный отбор -- выживает самый адаптивный

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

«LLM уравняли всех — и джунов и тимлидов» — сказал один мой приятель.

Если верить цитатам в интернете, то еще «God made men, but Samuel Colt made them equal»

Сначала вообще про «уравнивание», а потом и до LLM дойдем.

Многие слышали про проект «осознанная меркантильность», про советы про накрутку опыта, про работу одновременно на 2-3 работах и прочее.

Многие менеджеры аргументируют в духе «а если все так начнут делать кто работать будет?».

Так вот, мне, как менеджеру, ребята с 2-3 работами более чем нравятся:

◦ Насмотренность и число технологий, с которыми они знакомы, у них всяко выше чем у сотрудника с 10+ лет на одном месте
◦ Знаний и навыков тоже — они постоянно проходят — ловят тренд на актуальные запросы рынка, оперативно учат то, чего не хватает
◦ Коммуникативно они тоже как правило сильные
◦ Работать с ними можно как с подрядчиком — на вход описанная задача, на выход — результат
◦ Расставаться в случае косяков с таким сотрудников не жалко и не сложно (у него еще 2 работы есть)

А теперь вернемся в начало — что рынку могут предложить тим. лиды, которые по 5 лет делают одно и то же? Блевотное «ставил задачи и контролировал их выполнение» из резюмех? Лояльность компании ?
Знание, какой цвет в презентации у шефа любимый (и то, если кукбуки позволяют)?

Если вы тимлид — остановитесь и задумайтесь, какие востребованные рынком навыки и знания (а не карьерный трек и опыт в годах) вас сейчас дифференцируют от мидла или синьора?
Умение декомпозировать задачи и планировать проект? Но каждый кто хоть раз сам ездил в отпуск и успешно из него вернулся — готовый руководитель проекта (точно так же оценивал риски, планировал бюджет, справлялся с нежданчиками, находил trade-off со стейкхолдерами)

Будет здорово, если поделитесь в комментариях (а если пост хотя бы 50 лайков наберет — напишу свою версию про себя).

Если вы из бизнеса — чего, кроме навыков, вы хотите от соискателя? Почему не подойдет соискатель без опыта, но с навыками и знаниями?

Так что мб и не LLM всех уравнял, а рынок, которые очень быстро развивается и меняет фокусы? Хотя с момента появления статьи про внимание 8 лет почти прошло — кто мешал заботать?

В штатах малый бизнес массово переключается на API к LLM и не нанимает экспертов со степенью чтобы полгода разрабатывать модель для узкой задачи.
Прототипы тоже собираются за вечер.

Есть и обратная сторона — шапкозакидательные поверхностные ребята, которые впаривают бизнесу работающие прототипы, а те потом топают ножкой со словами «да чего тут делать» и не понимают чем пром. решение отличается от прототипа.

Небольшой лайфхак, спросите ребят, которые лихо прикручивают прототип на базе API какой-н LLM:

◦ Насколько guardrails уменьшит latency? Хотя бы на 20% будет?
◦ На сколько % SFT снижает галлюцинации по сравнению с QLORA?
◦ В чем преимущества Groundedness над Faithfullness?

Все они, конечно же, провокационные и подталкивающие к ошибке, но срезать верхогляда — бесценно.

PS. Буду рад узнать вашу версию кого стоит нанять — джуна или тимлида (предполагается одинаковый функционал) при равенстве навыков, релевантных бизнесу в моменте (LLM например).

я в отпуске, пообщаться в комментах — велком!

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Сегодня рассказывал студентам что feature engineering еще актуален -- в том числе, для моделей в высоконагруженных сервисах, например, DSP-платформах в рекламе. Потому как расчет фичей можно реализовать на Go и останется только применить бинарник модели к уже насчитанным фичам.

И тут я говорю фразу -- ну нет же на Go реализации сложных сеток (хотя пару лет назад я вынашивал мысль сделать сделать такую ML-библиотеку). С этими словами я полез гуглить и оказалось что я слоупок -- уже 2 месяца как в гите есть реализация трансформеров на Golang.

Невероятно как быстро устаревают знания об области в которой годами работаешь 😱

Читать полностью…

Дата канальи — про «специалистов» в данных / ML / AI

Только сейчас понял что у меня их две 🤷‍♂️

Читать полностью…
Subscribe to a channel