Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap РКН: 5140322136
⏺ ABBYY за час уволила почти всех российских разработчиков
Сегодня в Telegram-каналах, соцсети X и некоторых медиа распространилась информация о том, что компания ABBYY AI буквально за час уволила всех граждан России.
Как рассказали Forbes несколько сотрудников компании, принимавших участие в созвонах, на которых им было объявлено об увольнениях (по разным оценкам, от 200 до 300 человек) ситуация развивалась следующим образом.
В воскресенье 29 сентября в 22:30 почти всем сотрудникам пришло письмо про созвон с топ-менеджментом; разным локациям — разное время: Кипр в 15:00, Сербия в 15:30, Венгрия в 16:00. В письме не был виден список участников, но его видно в чате созвона в Teams.
В списке венгерского созвона были только русские сотрудники, эйчары и два C-level сотрудника — руководитель, ответственный за развитие продуктов и технологий (Chief Product & Technology Officer) Патрик Джин (Пи-Джей) и СЕО компании Ульф Перссон. На Кипре и в Сербии ситуация аналогичная. Чат и микрофоны у собрания отключены.
«Понедельник, 10 утра. Ребята из саппорта пишут: им сказали, что все они уволены, и доступы забрали немедленно, — рассказывает один из сотрудников. — Первая половина понедельника: часть ключевых сотрудников говорит, что с ними проводили Skip level-созвоны, на которых были они и руководители второго-третьего уровня без непосредственных, где им сообщали, что они уволены, «это было трудное решение» и т.д. 15:00: «киприотам» рассказывают, что их позиции сократили, офис закрывают. 15:30: «сербам» говорят то же самое про позиции, но не про офис. 16:00: то же самое с «венграми» (позиции, но не офис)».
По данным сотрудников, с которыми поговорил Forbes, вчера сокращены минимум 200 или, по другой оценке, около 300 человек из 500.
Одному из собеседников Forbes на почту пришло «мизерное соглашение» об оплате одного месяца при увольнении и предложение подписать бумагу об отсутствии претензий к компании: «Кому-то пришло за два месяца, кому-то — за несколько недель.
Пока уволенные сотрудники теряются в догадках, почему с ними так поступили. «Объяснений много, все они спекулятивные. Самое простое и, как мне кажется, самое вероятное — режут косты, — говорит один из собеседников Forbes. По мнению бывших сотрудников, компанию готовят к банкротству.
Forbes поговорил с несколькими сотрудниками компании, восстановил хронологию событий и узнал, с чем связано такое решение. Читайте на сайте
📸: Олега Яковлева / RBC / TASS
Интервью с junior DS-специалистом МТС и преподавателем школы MLinside Дмитрием Лялиным уже на канале📱
Вы узнаете:
▪️Как подготовиться к собеседованию и найти первую работу в Data Science,
▪️Как справиться с трудностями на старте карьеры,
▪️С какими задачами сталкивается junior DS-специалист,
▪️На какие зарплаты стоит надеяться начинающему дата саентисту,
▪️Какие скиллы необходимы на позиции junior и многое другое.
Приятного просмотра⬇️
https://youtu.be/Gcons0F-iyY?si=SmwIIFWKr7Dshb8y
Когда делал рекомендации, мем особенно смешной :) Еще забавно, когда в тех сервисах, где паттерн потребления 99% клиентов именно в поиске + сортировке по цене, ожидают сразу какой-то супер-турбо-буст к метрикам от внедрения рекомендаций.
Читать полностью…Заканчивается набор участников на курс «База ML»❗️
🗣️На связи Виктор Кантор, и я рад сообщить, что сегодня стартует первый поток курса «База ML». Я безумно доволен тем, что спустя долгое время регулярной подготовки, сбора материалов и записи лекций мы наконец-то начинаем нашу образовательную деятельность! Для наших читателей мы подготовили карточки, в которых описали ваш путь на курсе👆
Осталось 3 последних места на первый поток⬇️
http://mlinside.ru
❌Запись закроется сегодня в 23:59 по мск!
💸Со способами оплаты вы можете ознакомиться на нашем сайте. Доступна рассрочка на 3-6-12-18 месяцев.
☝️Также хочу напомнить, что у вас будет возможность вернуть средства в течение первых двух недель, если по какой-то причине вам не подошел курс.
До встречи на лекциях!📚
♠️Астропрогнозы и расклады таро стали обязательны на собеседованиях в IT-компаниях и банках
Я думала, что видела многое в бизнес- и корпоративном мире, но тут наткнулась на пост в социальных сетя одного из видных HR-щиков России Алены Владимирской. Она рассказывает, что подбирала CFO для одного известного необанка, и на последнем этапе собеседований столкнулась с запросом работодателя: соискатель должен пройти консультацию у таролога — иначе оффера не видать.
Алена смешно пишет, что в конечном итоге «Таро-специалист» указал на полную совместимость, и тем же вечером оффер пришел, однако отказ последовал уже от кандидата: специалист не хотел работать в банке, где на высокую позицию требовалось согласование высших сил.
Что сказать? Я и сама — с ужасом! — обращаю внимание на то, как эзотерика начала проникать в бизнес и корпоративный мир. Кроме здравого смысла я бы рекомендовала сместить фокус внимание на вопросы образования, обучения персонала, нежели на совместимость звезд и расклады карт Таро. Особенно на фоне обострившегося кадрового голода подобный отбор соискателей по принципу гороскопов или асцендентов (пришлось погуглить, как пишется этот термин!)
вообще будет сходить на нет, потому что и отбирать будет не из кого!
Расстановки, руны, расклады камней — все это бессмысленно и беспощадно. Не верю! Лучше смотреть на профессиональные качества конкретного человека, чем на какие-то эзотерические знаки вселенной и космоса.
А вы что думаете? Сталкивались с подобным?
И вот вы такой шарите за А/В тесты все, что написано в постах выше, приходите в компанию внедрять ML, а там так. Ваши действия?
Читать полностью…Статзначимость в А/В тестах (часть 2/3)
Продолжаю отбирать хлеб у лектора по метрикам и A/B тестам в нашем курсе «База ML» 🙂 (хотя если хотите разобраться подробнее - приходите к нам)
Как проверяют гипотезы с помощью статистики
Рассмотрим простой пример: мы с другом 10 раз сыграли в шахматы, и он 10 раз победил, какова вероятность такого исхода, если мы с ним играем одинаково хорошо?
Если мы одинаково хороши, шанс выиграть у каждого 0.5, значит мой шанс проиграть все 10 игр был 0.5 в степени 10, т.е. около 0.001. Выглядит как не очень вероятное событие, придется признать, что друг все-таки играет лучше. Ровно так же мы будем делать и при проверке того, что между группами А и В в А/В тесте есть статзначимые различия.
Как работает проверка статзначимости в А/В
Работает это так: предположим, что у нас есть какое-то нововведение (новое оформление, новый интерфейс, новый алгоритм рекомендаций), и мы проводим А/В тест. А вот эффекта от нововведения нет и различия между группами на самом деле нет. Это в статистике называется «нулевой гипотезой» — тем, что мы в А/В тесте в идеале хотим отвергнуть.
Предположив, что нулевая гипотеза выполняется (статистически различия между группами нет), мы можем оценить, с какой вероятностью p можно увидеть разность показателей в группах больше, чем Y (тысяч долларов выручки, например). Как это сделать? Например, взять наши данные, много раз случайно разбить их на две группы и посмотреть, в каком проценте случаев различие между группами окажется больше Y. За счет случайности разбиений, даже если эффект в вашем разбиении на группы А и В был, в новых группах его не будет (т.к. пользователи случайно перемешаются), и можно считать это хорошей оценкой вероятности p.
Если вероятность p оказалась очень маленькой, значит разница в группах все-таки существенная.
И что, всегда делать несколько тысяч случайных разбиений?
Приведенный выше пример с моделированием А/А тестов — это лишь один из используемых на практике стат.критериев — перестановочный тест (с некоторыми оговорками, но не будем сейчас вдаваться в детали). По многим показателям этот стат.критерий не самый удобный, но зато очень просто иллюстрирует концепцию проверки гипотез.
В жизни же во многих случаях можно обойтись без численного моделирования и применить какие-то параметрические стат.тесты (те, в которых распределение величины Y, если нулевая гипотеза верна, выписывается явно формулой). Например, если мы считаем, что наша величина Y имеет нормальное распределение, то можно без численных экспериментов обойтись формулами для нормального распределения. На самом деле, не совсем, надо хотя бы проверить, что распределение правда нормальное, но на этом тоже не будем останавливаться.
Главное — получить распределение Y, при условии нулевой гипотезы. Численно, либо по формуле в рамках каких-то предположений. В нашем примере с шахматами тоже использовался параметрический тест — биномиальный.
Как понять, что вероятность p «мала» и что такое p-value?
Величина p в статистике называется p-value. Перед проведением любого А/В теста фиксируют уровень значимости, например 5%, и отвергают нулевую гипотезу только если p-value оказывается меньше уровня значимости. Т.е. мы допускаем вероятность 5% сказать, что эффект есть, когда его на самом деле нет. А/В тесты, к сожалению, вещь вероятностная, поэтому «точного» ответа на вопрос «есть ли эффект» не дают, только могут подтвердить его на каком-то уровне значимости. Само p-value в русской литературе называют достигаемым уровнем значимости (не путать с уровнем значимости выше — он был порогом, с которым сравниваем p-value).
#математика
🌏Gen AI для генерации миров
🎮 Когда у меня в компании все обсуждали мета-вселенные и с экспертным видом размышляли, как оно будет, мне хотелось встать и закричать: «Все, кто не играл в Roblox, выйдите из чата» :)
👶 Для тех, у кого нет детей, детей друзей и детей родственников, и кто в танке: Roblox эта такая игра с играми. Ну уж про Minecraft, где весь мир кубический, и вы кубический (по-простому - квадратный))), вы уж точно все слышали. Так вот в Roblox вы такими же несложно выглядящими персонажами можете играть в кучу разных игр, а креаторы могут их создавать на движке роблокса.
🎉 Буквально в эту пятницу Roblox объявили о разработке Gen AI модельки, которая будет создавать игровой мир по текстовым промтам. В самой статье приводится замечательный пример: представьте, что баттл-рояль на 100 игроков сможет реализовать команда из 2-3 разработчиков.
Сама идея разработки игр с помощью Gen AI во всех своих проявлениях конечно не нова, да и концепция «игра по промту» тоже. Привязка к платформе Roblox несколько сужает многообразие вариантов, но зато становится проще натренировать что-то удобоваримое => юзабельный инструмент скорее всего случится быстрее чем для геймдева в целом.
Запись на курс «База ML» официально открыта!
🥳 На прошлой неделе мы с командой провели онлайн-вебинар школы MLinside и открыли запись на наш первый курс «База ML».
❤️ Признаюсь, я очень долго этого ждал, долго решался на запуск своей школы (несмотря на 15 лет преподавания ML в ВУЗах и компаниях и успех наших курсов на Coursera), долго готовил все необходимое, и наконец очень рад, что наш курс стартует.
☝️Цель курса - дать слушателям навыки, нужные для перехода в сферу машинного обучения. Для новичков это будет возможностью подготовиться к поиску работы и прохождению собеседований, а для специалистов в смежных областях - расширением экспертизы и возможностью дороже продать свои услуги на рынке труда. Подробнее о курсе можете узнать, прочитав прикрепленные к посту карточки.
💸Способы оплаты: карты РФ банков, иностранные карты, оплата от вашей организации.
Также доступна рассрочка на 3-6-12-18 месяцев.
Старт курса: 18 сентября
❗️На первый поток мы возьмем только 50 человек (осталось менее 15 мест).
Забронировать место на потоке можно здесь⬇️
http://mlinside.ru
Вот мы и начинаем наш первый вебинар в рамках школы MLinside!
Кстати, сегодня на вебинаре мы откроем запись на первый курс, а значит, что деятельности MLinside официально дан старт🚀
Для тех, кто не успел зарегистрироваться на мероприятие, оставляю ссылку👇
[ Присоединиться к вебинару ]
Мы начинаем!
Забудьте про Notion: нашёл для вас open source альтернативу — AFFiNE.
Это ультимативная смесь Notion и Miro — тут собрали лучшее от обеих платформ. Базу знаний с досками можно развернуть локально (плюс к безопасности), а можно юзать на сайте — туда уже завезли мощные ИИ-фичечки.
🏁Первое мероприятие в рамках школы MLinside – онлайн-вебинар для тех, кто хочет погрузиться в Machine Learning!
Совсем недавно мы с командой анонсировали первый курс «Базовый ML» в рамках моей ML-школы и рассказали о том, кого мы ждем на потоке.
Я знаю, что большая часть моей аудитории – инженеры, программисты, аналитики, разработчики и даже проджект/продакт-менеджеры, которые хотят погрузиться в ML, чтобы применять эти знания в работе и повышать свою эффективность (многочисленные кастдевы и опросы не дадут соврать🙂). А также много тех, кто видит большие перспективы в машинном обучении, и кто хочет вкатиться в профессию ML-специалиста будучи новичком.
📌Специально для вас мы с командой организовали онлайн-вебинар, на котором поговорим о направлении ML, ваших перспективах развития в этой сфере, а также расскажем о том, какие навыки необходимы для старта погружения в ML.
Подробной информацией о вебинаре мы уже начали делиться в новой публикации канала MLinside.
Подписывайтесь, чтобы ничего не пропустить☝️
Ну а мы с командой будем ждать всех, кто готов погружаться в машинное обучение и расти в этом направлении!🤝
Как я запускал и проводил курс DMIA. Часть вторая
⏭️ Продолжаю историю о том, как мы с командой единомышленников 9 лет обучали людей Data Science бесплатно :)
Постепенно вокруг меня появлялись другие участники.
🥇 В какой-то момент мы скооперировались с Сашей Гущиным, который был очень хорошим кагглером и доходил до топ-5 в мировом рейтинге на Kaggle. Так у нас появилось соревновательное направление.
🤿 С разными другими ребятами мы сделали направление deep learning. Это изначально Арсений Ашуха, который сейчас вовсю занимается наукой, а позже - Никита Селезнев из Яндекса и Таня Савельева, которая впоследствие стала серийным CEO как раз в теме ИИ.
⤴️ Знаковым стал момент, когда к нам присоединилась Эмели Драль и помогла вывести Data Mining in Action на новый уровень. В моём исполнении это всё-таки была немного местечковая, физтеховская тема. Мы познакомились с Эмели, работая вместе в Yandex Data Factory и записывая специализацию на Coursera, стали хорошими друзьями, и сделали намного больше крутых курсов, чем это получилось бы порознь.
🚌 Одним из важных факторов был перевоз курса из Долгопрудного. Это отчасти было задрайвлено тем, что в Долгопрудном было непросто находить аудиторию. В какой-то момент нас выручил ФизТех Парк. Он был недалеко от МФТИ, и там могло разместиться около 500 человек. Но потом стало понятно, что на курс ездят люди со всей Москвы (даже из МГУ доезжали) и как-то не очень правильно концентрировать всё на Физтехе — было бы здорово переместиться куда-то в Москву, чтобы всем было удобнее ездить.
🌍 Эмели, как выпускница РУДН, сразу нашла способы договориться с родным ВУЗом, мы переехали и пару лет пробыли там. К этому моменту у нас сформировались основное направление курса, трек «Индустриальный анализ данных», трек «Спортивный анализ данных» про соревнования по машинному обучению и трек «Глубокое обучение». И в таком качестве мы могли бы достаточно долго существовать, но позже мы познакомились с МИСИСом и переехали к ним.
🤝 Мы начали пытаться как-то дружить с компаниями, то есть договариваться, что они на какую-то небольшую сумму профинансируют курс. Идея была в том, что как минимум эти компании будут представлены, смогут прочитать гостевую лекцию, а как максимум — кого-то наймут на собеседованиях в конце курса.
За год через нас проходила где-то тысяча человек. Не всегда до конца, к концу курса было кратно меньше слушателей, все же у нас давались довольно содержательные знания. Но смысл для нас был в процессе, и в том, что из этого процесса пусть, условно, 25–30% студентов, но выходят, что-то узнав и как-то культурно обогатившись.
🔚 Эта история была бесплатная для студентов, просуществовала она 9 лет, но, к сожалению, уже к концу я не смог нормально её сочетать со своей работой в топ-менеджменте. Основной вывод, который я из этого всего сделал: даже на энтузиазме, при большом желании можно держать большой курс в течение аж 9 лет и привлекать людей. Ну а если под это ещё положить нормальную экономическую модель, будет совсем идеально.
Про экономическую сторону вопроса я немного расскажу в третьей, заключительной части.
Дата-стратегия в крупной группе компаний - Секция Data Strategy - Data Fest 2024
Обсуждение доклада Виктора Кантора, ex-CDO MTS, founder MLinside
В этом году на Data Fest мы с Димой провели экспериментальную секцию - Data Strategy. Тем самым расширили охват тем, обсуждаемых на фесте, добавив к data science проблематике историю с построением и развитием команд данных.
Опыт считаем успешным - запрос стратегического взгляда на дата-офисы оказался большим. Секция собрала аншлаг участников и после каждого доклада были интереснейшие обсуждения, которые потом продолжились на афтепати. Поэтому предлагаем дообсуждать недообсужденное с каждым из наших прекрасных CDO - авторов докладов.
Первым на секции выступил Виктор Кантор, у которого есть замечательный тг-канал Kantor.AI, а также школа по ML - MLinside. Витя в своем докладе задал провокационный вопрос: а нужна ли вообще стратегия по данным компании? И далее, с помощью интересных кейсов и примеров раскрыл пользу наличия стратегии, а также наиболее важные аспекты, которые там должны быть продуманы.
Презентацию доклада можно найти здесь, видеозапись - тут.
Витя готов ответить в треде на ваши вопросы по теме доклада.
Есть ли в вашей команде/компании дата-стратегия? Насколько, на ваш взгляд, она полезна?
***
Полные материалы секций Reliable ML на Data Fest 2024 можно посмотреть на сайте ODS.ai:
- Career от 25.05
- Data Strategy от 25.05
- Reliable ML от 02.06
Ваш @Reliable ML
#tech #business #datafest2024 #career
#ML_in_business
🏷️ Ценообразование: часть 2. Как мы делали dynamic pricing в Яндекс.Такси
🗓️ Во-первых, вспомним про контекст 2017 года, когда в такси появлялся ML в ценообразовании. Был ряд крупных игроков, среди которых Gett, Uber и Яндекс.Такси, которые довольно активно конкурировали. Особенно последние два. Каждый игрок на рынке имел свою тарификацию за километр и за минуту (которые постепенно у всех примерно сошлись), итоговая цена - это стоимость времени плюс стоимость расстояния.
🤔 Можно ли здесь накинуть 20% сверх вашей ценовой политики «просто так» и «потому что купят»? Скорее нет, потому что не купят. Откроют соседнее приложение и закажут там дешевле. А вот когда действительно есть простор для конкуренции, так это когда водители в районе кончились. Если вы можете увезти клиента, а конкурент нет - клиент достанется вам.
💡 Отсюда возникает идея: динамическое ценообразование должно делать так, чтобы водителей всегда хватало, т.е. срезать часть спроса. Здесь есть серьезный плюс и для клиента: если такой прайсинг работает, то клиент всегда сможет уехать на такси, пусть иногда и за дорого.
Таким образом, если водителей много, оставляем обычные цены, а вот если водителей становится меньше, чем спрос на поездки, умножаем базовую цену на повышающий коэффициент. Коэффициент должен выводить систему в состояние баланса: в пик спроса количество освобождающихся рядом водителей должно быть примерно равно количеству заказов, которые сделают в ближайшее время.
⚖️ Уравнение, которое описывает это состояние динамического равновесия (мы называли его «уравнение баланса»), можно записывать по-разному, дорабатывать и модифицировать. Этим занималась команда эффективности платформы под руководством Саши Аникина (ныне СЕО Яндекс.Go).
Моя же команда делала прогнозные ML-модели, которые были нужны для уравнения. Например, про водителей мы еще понимаем, кто и когда закончит поездку в заданном районе. А вот про пассажиров действительно нужно прогнозировать, с какой вероятностью пин превратиться в заказ (в зависимости от цены). Дальше суммируем вероятности в заданном районе, чтобы получить матожидание заказов, и подбираем такую цену, чтобы нам хватило притока водителей в район эти заказы вывезти.
Уравнение баланса можно усложнять и усложнять. Например, можно учесть, что как только водители видят сурдж на карте, они начинают специально переезжать в район подороже. Или можно добавлять вероятность того, что водитель все равно не возьмет заказ. Или вероятность отмены.
☝️Но идейно простой модели уже достаточно, чтобы решать основную задачу - всегда давать пассажиру уехать. Это когда у вас есть такси по цене х2 вы огорчаетесь. А вот я вас уверяю, если все уехали по х1, а вы просто не уедете - это куда обиднее :) Недавно попадал в такую ситуацию в другой стране, совсем не понравилось.
Задавайте в комментариях вопросы про модели ценообразования, в следующем посте я отвечу на популярные мифы и то, что еще поместится в пост :)
P.S.: скорее всего, сейчас алгоритмы уже совсем поменялись, все-таки прошло много времени и рынок теперь другой, но несколько лет с 2017 все работало как-то так
Кому нужны джуны
Записывал видео для YouTube, где ищу и комментирую джуновские вакансии на hh.ru. В поиске нашлось 19 вакансий, половина или 2/3 из которых не на джуна. В комментариях ожидаемо пошел смех в духе «ахаха, онлайн-школы выпускают тысячи джунов, а на hh 19 вакансий». Оказалось, что люди не понимают одну важную вещь: джуны вообще НИКОМУ не нужны
Джун нужен только тем, у кого нет денег на миддла, либо у кого не получается быстро нанять миддла с рынка. С крупными компаниями чаще всего происходит второе.
Кто не согласен - попробуйте меня переубедить в комментах :)
Один из принципов, которые мы положили в основу обучения в нашей школе ML, - привлечение к преподаванию специалистов всех уровней. Помимо трех CDO, у нас есть и ребята, которые начали работать DS'ами совсем недавно: еще год назад они сталкивались с теми же проблемами, что и слушатели, поэтому очень хорошо понимают, чем помочь и что посоветовать. Посмотрите интервью с Димой - вышло очень лампово :)
Читать полностью…А как отдыхать?
🏖️ Как я отдыхаю? Не могу сказать, что являюсь каким-то замечательным примером того, как нужно отдыхать. Я часто иду по пути наименьшего сопротивления и выбираю вариант с максимумом дофамина за минимум времени. То есть залипнуть в ютубчик, в Shorts, в компьютерную игрушку какую-нибудь. Но я заметил следующую вещь.
👀 С одной стороны, хочется отдыхать быстро и дёшево, то есть не перестраивать радикально своё расписание и не тратить кучу времени на подготовку. С другой стороны, хочется отдыхать так, чтобы потом не чувствовать себя ещё более уставшим. И именно эти дешёвые способы отдохнуть оставляют после себя ощущение какой-то неудовлетворённости.
🏊 Так я начал вводить в свою жизнь спорт, в самом простом виде. Я с детства боялся воды и почти не умел плавать. И подумал, что это отлично — справиться со страхом. Оказалось, что плавать мне очень понравилось. И вот теперь я хожу на тренировки в бассейн дважды в неделю.
🏋️ Дальше увлечение спортом неминуемо потянуло за собой зал, я начал туда ходить, и в какой-то момент обнаружил, что на самом деле это занимает не так много времени. В компьютерную игру можно залипнуть на много часов, а в зал можно сходить буквально на час (если сильно не тупить и быстро собраться). А перезагружает это довольно хорошо.
📖 Затем я немного переосмыслил получение информации как вид отдыха. Понятно, что посмотреть YouTube или сериалы — это стандартный набор в 21-м веке. Но большое удовольствие получаешь и когда просто садишься и читаешь книгу. Особенно художественную: это возможность провалиться в какую-то другую реальность. Сначала это было сложно: я не очень быстро читаю, и мне было непросто снова привыкнуть к чтению в «нормальных объёмах» — больше рабочего отчёта или небольшой статьи.
🧑💻 Я начал с простого развлекательного чтива и удобной «читалки» для облегчения погружения. Читал я старую добрую научную фантастику — «Неукротимую планету» Гарри Гаррисона. Друг посоветовал мне приложение для ноутбука, которое автоматически пролистывает страницы с текстом на экране с нужной скоростью. То есть ты просто «залипаешь» в текст (совсем как в Shorts’ы) и не отрываешься, а потом внезапно выясняешь, что книга прочитана. Так я снова начал получать удовольствие от чтения, а дальше уже стало комфортным читать книги в любом виде. Особенно люблю читать на Amazon Kindle, потому что это очень приятный девайс для глаз.
📵 Ещё одно важное условие для отдыха — выкинуть подальше мобильный телефон. Я прямо физически чувствую раздражение и напряжение, когда залипаю в нём. Постоянное вовлечение во все рабочие чаты и процессы изматывает.
🚶Суперважное правило — нельзя не гулять. Вот именно в такой формулировке. Просто находиться на воздухе, перемещаться на своих двух ногах — это невероятное удовольствие, это замечательнейший отдых. И совсем не такой скучный и долгий, как можно подумать. Честное слово, лучше погулять полтора часа, чем пять часов залипать в какую-то игрушку.
🕹️ Но даже к геймингу я серьёзно пересмотрел свой подход. Я довольно долго играл в разного рода онлайн-игры, где ты соревнуешься с живыми людьми. Но недавно я выяснил, что удовольствие от прохождения атмосферной однопользовательской игры намного больше, чем от быстрых каток в онлайн-играх. Это своего рода интерактивное кино.
🤯 Я заметил, что у меня из-за интенсивной работы в какой-то момент пропала возможность не только книжки читать, но и вот в такие однопользовательские компьютерные игры залипнуть, потому что я просто не могу так долго быть вне рабочего контекста.
Сегодня мы каждый день куда-то бежим. Общее, что есть в моих экспериментах с отдыхом - это замедлиться и проявить немного внимания к себе, попробовать отключиться от повседневной тревоги, погрузиться в отдых, каким бы он ни был, полноценно. Пьете пиво с друзьями - уберите телефон и вовлекитесь уже в разговор, читаете книгу - не думайте о рабочих дедлайнах. Уже станет чуточку лучше :)
#личное
Еще не поздно присоединиться :)
Первая группа получит больше всего внимания от преподавателей и максимальную кастомизацию курса. Все ваши запросы рассказать что-нибудь еще раз, добавить какое-нибудь задание или новую тему будут обработаны, домашки будут отсматриваться проверяющими, и по домашкам конечно же будет фидбек. Так что если хотите приобщиться к машинному обучению - самый подходящий момент 💯
А по-моему отличные новости. Гораздо неприятнее будет узнать, что начальство или эйчар в компании очень своеобразны, уже устроившись на работу. Путь эта практика распространяется как можно скорее 🫶🏼 Будет всё сразу понятно :)
Читать полностью…Статзначимость в А/В тестах: дополнительные вопросы (часть 3/3)
Я слышал, что p-value — это не вероятность нулевой гипотезы, что это значит?
Все верно, это известная бородатая ошибка при интерпретации p-value. P-value — это не вероятность нулевой гипотезы, а вероятность увидеть в тесте такой же «эффект» или больше, при условии справедливости нулевой гипотезы (т.е. когда эффекта на самом деле нет). От этого можно перейти к вероятности нулевой гипотезы, при условии наблюдаемого эффекта по теореме Байеса, если вдруг вы будете знать все нужные для формулы вероятности, но нужды в этом нет.
А еще я слышал, что нулевую гипотезу нельзя принять, о чем это?
В А/В тесте мы хотим отвергнуть нулевую гипотезу, посмотрев на фактические данные. Но можем не отвергнуть. Подтвердить нулевую гипотезу не можем: если нам не хватает свидетельств против чего-то, это еще не значит, что это что-то верно 🙂
Бытовая иллюстрация:
Старушка на лавочке у подъезда выбирает, как поприветствовать Васю. В качестве нулевой гипотезы она принимает утверждение, что Вася обычный парень. А в качестве альтернативы — что Вася наркоман. Чтобы выбрать доброжелательное или агрессивное приветствие, она оценивает, насколько Вася плохо выглядит сегодня. Если «еще терпимо», то заключает, что свидетельств против нулевой гипотезы не хватает и нужно приветствовать доброжелательно. В этом случае она, однако, не может быть уверена, что Вася не наркоман, т.е. принять нулевую гипотезу. Но как вдумчивая и образованная пожилая женщина, не спешит с выводами и собирает данные.
Везде выше постоянно говорилось о каком-то статистическом различии между результатами в группах А/В, которое либо есть, либо нет. А что это значит?
Вот здесь мы вступаем на территорию более сложных формулировок. Если объяснять это не на бытовом уровне, то вы сами выбираете смысл «статистического различия» при формулировке нулевой гипотезы и альтернативы. Например, если мы сравниваем средние чеки в группах А и В, то под «статистически неразличимыми» результатами мы можем иметь ввиду одинаковое матожидание среднего чека в группе А и в группе В. Это будет нулевой гипотезой. Альтернативой — различные матожидания. Есть критерии, которые в качестве нулевой гипотезы рассматривают совпадение медиан распределений или просто совпадение распределений.
А еще слышал что-то про множественную проверку гипотез? Это о чем?
Это о том, что если вы проверяете одновременно несколько гипотез на уровне значимости, скажем, 5% каждая (например, оцениваете эффект сразу и на средний чек, и на конверсию в покупку, и на конверсию в переход на страницу товара), то шанс ложного срабатывания теста хотя бы для одной гипотезы будет уже не 5%, а существенно больше. Есть разные способы учитывать этот эффект.
А всех, кто хочет погрузиться глубже (например, узнать, как быть, если наблюдения в А/В тесте зависимые, и причем здесь бакетное сэмплирование), а также познакомиться и с AB тестами, и с методами машинного обучения - приглашаю на наш курс «База ML»
#математика
Статзначимость в А/В тестах или немного о том, зачем нужна статистика (часть 1/3)
Сейчас я заканчиваю готовить математическую часть нашего курса «База ML» (в частности, модуль по теорверу) и очень плотно работаю с вопросом «а зачем оно надо?». Топ-1 ответом на вопрос, зачем нужны теорвер и статистика в ML (да и не только в нем) по-прежнему остается проверка статистической значимости. В современном мире мы чаще встречаемся с ней в контексте A/B тестов, когда части клиентов показывают одно, части другое, и из этого эксперимента пытаются сделать выводы. В этих постах вас ждет рассказ в трех частях: 1) введение, 2) непосредственно по теме и 3) некоторые интересные моменты, которые тоже полезно обсудить. Кто знает ответы на вопросы, выделенные жирным в этом посте, могут просто пролистать его и переходить сразу ко второму.
Зачем вообще нужны А/В тесты?
Потребность в А/В тестах возникает тогда, когда мы хотим что-то улучшить. Например, взамен какого-то существующего алгоритма персональных рекомендаций товаров или старого интерфейса мобильного приложения внедрить новую версию. А/В тесты как метод отвечают на вопрос: «Как понять, что это правда будет улучшать важные для нас показатели?»
Посмотреть «стало ли продаж больше» и удовлетвориться такой оценкой нововведения — это очень топорный подход, который сработает только когда бизнес-показатели не зависят от времени и нововведение лишь одно. Обычно это не так. Бизнес растет или угасает, бывает «сезон» и «не сезон». Бывает очень много изменений за месяц, и понять, какое именно из них вызвало эффект, невозможно. Однако многие вещи в коммерческих компаниях (даже самых технологичных) и в 2024 году делаются без А/В тестирования. А еще больше — без оценки статзначимости. К А/В тестам не нужно относиться теологически, но стоит понимать силу и возможности инструмента.
Что такое статистическая значимость и A/A тесты?
Допустим, нет пока никакого нововведения, которое вы будете оценивать в А/В тесте, есть пользователи вашего сайта или приложения, и вы просто делите их на две группы и смотрите на результат в каждой (например, на конверсию посещений в покупки на сайте). Такой тест называется А/А тестом, и, наверное, вас не удивит, что даже при хорошем разбиении на группы результаты в них будут немного отличаться.
Статистическая значимость эффекта в А/В тесте, грубо говоря, означает, что различие между группами заметно больше, чем было бы в А/А тесте, т.е. «есть реальный эффект», а не случайные отклонения. Что это значит для бизнеса? То, что хотя бы при сохранении тех же условий, что и во время проведения А/В теста, эффект от нововведения с большой вероятностью будет какое-то время сохраняться (важное уточнение: эффект может затухать со временем, никто не отменял «эффект новизны»).
#математика
Как я чуть не продолбал свою фамилию
Пару месяцев назад у меня случилась крайне неприятная вещь: я увидел в почте, что у меня закончилось время регистрации домена kantor.ai, буквально на пару дней позже истечения всех сроков 😱
Оказалось, что его уже зарегистрировал кто-то во Владивостоке 🤯
Не то чтобы я активно пользовался доменом, но я успел к нему привязаться, плюс некоторые дальнейшие планы прям совсем не стыковались с его потерей.
Что же делать?
Мои коллеги по MLinside попробовали выручить меня и связаться с новым владельцем домена, а я приготовился отвалить кругленькую сумму за перекупку домена. Но человек нам так и не ответил.
В глубине души я продолжал надеяться, что домен просто станет доступен для регистрации. И вот сегодня чудо свершилось, а я на радостях продлил домен на 10 лет вперед 😂
Вот теперь думаю, уж не маркетинговая ли это уловка была, чтобы продлевали на по-дольше 🤔
Какие профессии заменит AI в ближайшие 5 лет?🤖
В последнем видео на нашем youtube-канале я рассказал, как на самом деле работают нейросети, и пообещал поделиться своим мнением по поводу того, какие профессии находятся на грани исчезновения или вовсе исчезнуть в ближайшие 5 лет.
Про кассиров, курьеров и водителей я рассказывать не буду. Думаю, об этом итак все знают, так как тенденция замены физических работников уже наблюдается. Итак, вот мой топ профессий, находящихся под угрозой замены искусственным интеллектом👇
1️⃣ Банковские работники. Алгоритмы машинного обучения уже хорошо справляются с анализом и составлением финансовой отчетности. Но пока это касается однотипных задач. В случае нестандартной ситуации понадобится человеческий взгляд и использование накопленного опыта. В зону риска попадают и кредитные эксперты, так как ИИ уже способен посчитать финансовые возможности заемщика, вероятность задержки платежа по кредиту и так далее.
2️⃣ Программист. ChatGPT уже имеет возможность самостоятельно писать и модифицировать код на различных языках программирования. Например, корпорация Microsoft относительно недавно заявляла о сокращении штата сотрудников и инвестировании 10 млрд бюджета в OpenAI. И ожидается, что в ближайшем будущем потребность в начинающих специалистах в программировании будет снижаться.
3️⃣ Учитель. Сейчас искусственный интеллект способен объяснить непростые вещи словами любого уровня сложности. Огромным плюсом является непоколебимость эмоционального состояния. Вы можете хоть 100 раз просить объяснить один и тот же вопрос, и чат-бот будет готов отвечать вам, не выходя из себя. Хочешь, чтобы тебе объяснили высшую математику простыми словами? Или хочешь вспомнить все правила русского языка? А может, хочешь выучить иностранный язык? ChatGPT вам в помощь:) Отсюда, кстати, вытекает следующая профессия
4️⃣ Переводчик. Сейчас совершенствование систем синхронного перевода идет ускоренными темпами. Это сильно скажется на рынке занятости по всему миру. Опытный переводчик, который годами учил иностранные языки и совершенствовал свой уровень, уже будет не так востребован.
5️⃣ Медработник. Сейчас искусственный интеллект не ставит итоговых диагнозов и не дает советы по поводу здоровья, чтобы не брать на себя ответственность. Но скорее всего в будущем ИИ будет, опираясь на состояние пациента, его жалобы и анализы, все чаще помогать врачам ставить диагнозы, и возможно даже в какой-то момент серьезные решения начнут приниматься без участия врача. Рутинные задачи, которым уже можно обучить ИИ: заполнение и обработка рецептов, предоставление информации пациентам о правильном применении медикаментов, побочных эффектах, взаимодействии с другими препаратами, рекомендации альтернативных лекарств, проверка сроков годности лекарств, диагностирование ряда болезней по симптомам и уже сделанным анализам.
☝️Подводя итоги, AI в будущем способен автоматизировать выполнение рутинных задач, не требующих критического и стратегического мышления. Однако это вряд ли будет прям полноценной заменой, просто изменятся требования к специалисту: если раньше нужно было все делать самому, то теперь нужно будет уметь комбинировать работу с ролью оператора AI-решений.
Как компании экономят миллиарды с помощью ML-специалистов?
🔔Именно такие кейсы, показывающие востребованность и интересность задач в ML, я разберу на вебинаре уже в эту среду (завтра!). Зарегистрироваться на вебинар можно по ссылке ниже⬇️
[ Зарегистрироваться ]
❗️Важно: доступ к регистрации на вебинар закроется 28.08 в 19:00 по Мск, поэтому не откладывайте!
На мероприятии мы:
▪️обсудим, что вы сможете делать с помощью ML, и какие реальные кейсы его применения нас окружают,
▪️поговорим о том, как найти работу начинающему ML-специалисту,
▪️разберемся, с чего начать изучение ML, и какие навыки для этого нужны.
Встречаемся 28.08 в 20:00 по мск⏰
Вебинар – отличная возможность начать погружение в ML уже сейчас👍
Тем, кто уже начал думать, чем заменить в работе Notion и Miro
Читать полностью…#образование
Как я проводил курс DMIA:
часть третья, заключительная
💸 Если вы думаете, что, раз у нас были спонсоры, мы купались в деньгах, это абсолютно не так. То есть было обычной историей, что мы с Эмели скидывались сами, ещё сколько-то добавляли спонсоры (соотношение было условно 0,5х + 0,5х от нас и 0,15-0,45х от спонсоров). Мы фактически обучали за свой счёт других людей, а не зарабатывали на этом. Этим в частности объясняются переезды курса. Когда место, где нас принимали с нашей аудиторией, понимало, что мы ПРАВДА делаем это бесплатно и нам НЕЧЕМ с ними поделиться, энтузиазм от того, чтобы захостить курс на 500 человек в семестр внезапно резко падал 😂 Самыми доброжелательными оказались коллеги из МИСИСа - ничего, кроме пресс-релизов про то, что мы учим именно у них, у нас не просили. Но мы в любом случае очень благодарны всем, кто принимал наш курс в своих стенах.
📌 Со многими из ребят, которые у нас учились, мы впоследствии работали вместе. Кстати говоря, попал я в качестве Chief Data Scientist в Big Data МТС в своё время тоже благодаря своей образовательной деятельности. Люди, которые работали в МТС, назвали моё имя руководству в числе наиболее известных деятелей нашей сферы. Всё потому, что многие из них либо учились у нас, либо просто знали о существовании таких курсов. Поэтому, по большому счёту, хоть это и было благотворительностью, я думаю, что своими карьерными успехами я обязан этой деятельности и она себя оправдала.
📌 Но в будущем, учитывая полученный опыт, я бы предпочёл всё-таки запускать это как коммерческую историю, которая может сама себя поддерживать и не умрёт от того, что в какой-то момент просто не нашлось спонсоров или закончилось время у основателей. Либо с каким-то большим стратегическим партнером надолго и серьезным бюджетом. Кто знает, может какой-то большой корпорации это будет интересно, и однажды DMIA реинкарнирует в виде академии со своим зданием, крутыми преподавателями и нашими любимыми направлениями :)
Что думаете про приватные каналы в тг? Что там может быть, чтобы был смысл подписываться? Ну кроме типичного онлифанс контента) (и то есть вопросы)
Вижу сейчас прямо какой-то бум популярности после свежего апдейта телеграмма, но остается вопрос, за чем именно туда идут подписчики.
☺️ Выложили мой доклад на датафесте в офисе VK (секция Data Strategy). Никаких покровов не срываю, доношу очень простые мысли: зачем дата стратегия нужна, когда это бесполезная фигня, а когда хорошая тема. В комментариях можно задавать вопросы по докладу или просто так по теме.
❤️ Также рекомендую подписаться на канал Иры Голощаповой Reliable ML. Ира прекрасна тем, что всегда поднимает хорошие важные вопросы применения ML, не гонясь за сезонным хайпом. А такого в наше время, когда каждый суслик, потыкавший ChatGPT, уже сразу AI эксперт, всегда не хватает :)
#ML_in_business
🏷️ Ценообразование: часть 1. Цены в такси
🧐 Рассказ про ML в ценообразовании надо бы начинать с базовых объяснений про спрос, предложение, равновесную цену и философского вопроса, насколько этично выставлять цену любой, ведь сформированный ей спрос сам вознаградит или накажет бизнес. Невидимая рука рынка и все такое.
🚕 Но кто ж дочитает такой пост до конца, если не дать хорошую затравку. И вот вам затравка. Яндекс.Такси заказывали? Повышающий коэффициент ловили? Скажите мне спасибо :) Моя работа Chief DS’ом в Такси как раз приходится на время бурного развития там surge pricing, оно же - динамическое ценообразование. Мое подразделение не было единственным участником проекта, но об этом расскажу позже, а сейчас к делу.
📍 Допустим, вы хотите вызвать такси, открываете приложение и ставите точку на карте. Мы её называем «пин» от английского “pin” - булавка или «точка А» по аналогии со школьными задачками по математике. Строго говоря, «пин» обычно говорят до заказа, но все это все равно жаргонизмы. В этот момент происходит много всего интересного, что делала моя команда MLщиков:
- вам предлагают переставить пин в удобное для вас и водителя место,
- вы видите подсказки места назначения («точки Б»), чтобы не вбивать руками,
- вам сообщают, что если пройти 30 метров, поездка выйдет дешевле,
- вам показывают ETA - estimated time of arrival водителя, хотя водитель вам еще даже не назначен (тут тоже магия ML).
🫰Но самое главное - вам показывают цену (кстати фиксированную, а не по счетчику - тоже благодаря ML).
Так как же эту цену посчитать? Чтобы ответить на этот вопрос, нужно быть ценой, думать как цена, понять, зачем цены нужны. Раздавая свой товар бесплатно, вы разоритесь. Продавая за 100500 миллионов штука, никому не продадите. Значит, имея ограниченное количество товара, вы должны продать его подороже. Идея dynamic pricing в том, чтобы не пытаться угадать идеальную цену «навсегда», а чем меньше у вас товара осталось, тем дороже его продавать.
В такси тоже есть свой «товар» - это поездки. Чтобы нужная вам поездка произошла, нужно, чтобы нашелся готовый ее исполнить водитель с машиной.
⏱️ Теперь я предлагаю взять небольшую паузу: напишите в комментах, как бы вы сами реализовали dynamic pricing в такси, с учетом сказанных выше вводных, а дальше я расскажу вам, как в свое время это сделали мы с коллегами :)