Юрий Кашницкий (Yorko, тут @yurycorn) – про машинное обучение, науку, галеры, матан, фэйлы и прочие интересности. Рекламы нет. https://www.linkedin.com/in/kashnitskiy
Татьяна Габрусева (которые олды помнят как Tati), tech lead в LinkedIn, хорошо описала ML design собес, в том числе типичные ошибки.
Пожалуй, добавлю, что это куда менее четко прописанный тип собеса по сравнению с литкодом или system design. Могут как и суперпонятный кейс спросить, без подвохов (классификация описаний товаров), так и вдруг полезть глубоко в детали, возможно даже своих реальных проектов. Так что надо искать, что спрашивают в конкретной компании (glassdoor, blind, знакомые) и желательно моки проходить.
Любимую ссылку по теме тоже добавлю – там примерно тот же план, о котором Таня пишет, плюс примеры типичных задач и планов ответа (e.g. предсказание кликов по рекламе или поиск по картинкам).
Официально выпустили Gemini 2.0 Flash
По бенчмаркам бьёт 1.5 Pro 002, которую выпускали в сентябре, а стоит на порядок дешевле. Как обычно, 2М контекст и супер быстрый инференс на маленьком контексте.
Как не забывать? Попреподавай!
#tips #interviews
Всегда завидовал людям, которые помнят всё. У меня мозг, видимо, эффективнее, но по-другому: за ненадобностью стирает просто все ненужное. Сейчас уже в культурной компании стыдно сказать, что физику изучал. Читал лет 7 назад «Красное и черное» - даже имя героя не вспомню. А уж история… ой не говори. Были потрясающие преподы по истории и в школе, и на физтехе; а кто правил Россией в 1785 году, условно - может меня в тупик поставить. Но я придумал, как с этим бороться и хоть что-то запоминать. Преподавание.
Одной из первых оплачиваемых работ у многих физтехов было репетиторство. Если мои приятели брали 6-классников и по 6 раз подряд объясняли им, как раскрывать (a+b)*(c+d), то я подкинул себе челленджа и брал студентов буквально на год младше. Или даже на семестр. То есть вчера прошел ряды Фурье - завтра преподаешь. Неплохо тонизирует. Но кажется, так у меня хотя бы вышмат засел глубоко в прошивку. При желании вспомню и поверхностные интегралы, и ряды Фурье, и при необходимости кучерявый предел посчитаю по Лопиталю (вот только необходимости пока не возникало).
И то же самое с mlcourse.ai. К собесам на «ML в ширину» мне почти не надо готовиться. Такие вещи как вывод логлосса из принципа максимума правдоподобия, где там в градиентном бустинге градиенты или что есть выпуклая функция - все это засело довольно основательно. Если не помогает в работе, так хоть помогает эти работы находить.
Так что если есть свободная глюкоза в мозгу и желание совместить приятное с полезным - попробуйте попреподавать.
В эту пятницу стартуем мини-группу по поиску работы и поведенческим собеседованиям. Анонсировал тут. Еще можно подключиться – короткая форма. Заодно расскажу чуть подробнее о программе:
День 1. (22 ноября)
Часть 1. Поведенческие собеседования. Почему их недооценивают, как готовиться, почему на подготовку стоит заложить пару десятков часов. Примеры моих ответов от плохих к хорошим. Как я подтягивал эту часть к собесам, что хотели услышать, в том числе на стаффа в бигтех (пост).
Часть 2. Резюме, рефералы, переговоры и прочие аспекты поиска работы. Как сделать резюме продающим, на что смотрят рекрутеры при отборе. Как искать рефералы. Как реагировать на отказы (пост). Рекомендации по переговорам на финальной стадии.
Домашнее задание на описание своих историй (story bank) для подготовки кповеденеческим собеседованиям.
День 2. (29 ноября)
Часть 3. Каверзные вопросы на собеседованиях. Почему надо готовиться даже к таким вопросам как «Расскажите о себе» и «Почему вы выбрали эту компанию?». Что на самом деле от вас хотят услышать, когда спрашивают про фэйлы, конфликты и слабые стороны. Примеры плохих и хороших ответов.
Часть 4. Советы по прохождению собеседований. Tips & tricks. Как готовиться к разным форматам технических собеседований (полезные ресурсы). Почему этого недостаточно и на что еще обратить внимание. Поделюсь своими секретами по подготовке и прохождению интервью (такими как "говорить медленее")
На протяжении двух недель будем общаться в приватном чате, где можно делиться опытом и получить ответы на свои вопросы.
Жду вас на занятиях и в чате! Для тех, кто успеет, есть последние 5 мест на индивидуальную сессию со мной. Она включает мини-мок поведенческого собеседования, обратную связь по 3 историям из заготовленного вами списка историй (story bank) и ответы на ваши вопросы.
Записаться можно тут.
#meme #diy
Уровень креативности в этот пятничный вечер – сделать "LinkedЫн"
Пятидневный интенсив по GenAI от Google & Kaggle
#links_with_intro #genai #courses
https://rsvp.withgoogle.com/events/google-generative-ai-intensive
Это пятидневный онлайн-курс пройдет на следующей неделе с 11 по 15 ноября. Авторы - исследователи и инженеры Google ML (пока меня там нет), площадка - Kaggle. Формат - live-стримы и практические задания. Обсуждения в дискорде.
Темы курса:
* День 1: Foundation Models & prompt engineering
* День 2: эмбеддинги и векторные БД
* День 3: GenAI-агенты
* День 4: LLM, заточенные под домены
* День 5: MLOps для GenAI
Что по времени, пока не увидел, но скорее всего будет по PST, то есть поздно.
Ах да, все бесплатно. Нужны только аккаунты Kaggle и AI Studio.
Характер моей работы в гугле. Часть 2
#career #google
Часть первая была тут.
О команде
Нас 25 человек, разбросаны по всей Европе: по 5 в Лондоне, 4 в Париже, по 1-2 чел. в Амстере, Стокгольме, Мадриде, Копенгагене и т.д. Идея – быть ближе к клиентам, есть у нас и Языки, но в основном вся работа, конечно, на английском. Сейчас я в проекте с испанцами, и ради меня одного все переходят на английский (знакомое мигрантам чувство). Кстати, испанка со мной в проекте – топ! Она уже 10 лет в Гугле, работала раньше в СФ, так что привыкла к немного другому ритму работы. Кодит прямо на митингах (так что для нее митинги – это подкасты по сути), но я так даже не буду пытаться. Вторая коллега, с которой много работаю – голландка, бодрая, энергичная, отлично шарит в облачном бизнесе и продажах. Как у многих голландцев, английский у нее почти как родной. Это к слову, что если испытываете синдром самозванца – это нормально.
Бэкграунд в команде разнообразный: примерно половина – гуглеры, половина – пришедшие извне, как я. Кого-то переманили из Microsoft, BCG, Databricks, кого-то просто на рынке нашли. Как мне сказал эйчар, не было ресурсов собеседовать прям очень многих (до собесов пускали буквально несколько кандидатов на позицию), поэтому эйчары проводили жесткий отсев, детально изучая очень многие резюме. Думаю, мне помогли и лычки пхд и кэггл, и всякие метрики типа звезд на гитхабе, но прежде всего, конечно, релевантная предыдущая роль. Из интересного: перед “casual talk” с Director of AI, та почитала мой пост в блоге “To Ph.D. or not to Ph.D”, и ей очень зашло (это про то, что никогда не знаешь, какая именно твоя активность “выстрелит"). Кстати, Ph.D.-степени примерно у половины членов команды, в том числе у моего менеджера и скипа. Не думаю, что навыки пхд как-то помогают в работе, просто к тому, что лычка помогает при отборе. Ну и уважают, конечно, навык дотаскивания этого чемодана без ручки до цели, a.k.a. getting things done.
О моей роли
Стафф в бигтехе – это не менеджерская, а IC-роль, так что я работаю руками (хоть мама, конечно, считает это понижением в сравнении с Эльсивром, где я был синьор менеджером 😂). Ожидается, конечно, что стафф будет делать много всего поверх работы в проектах, например, комьюнити тащить или круто контрибьютить в OS. Но я пока ушел почти all-in в техническую часть, тут есть в чем нагонять. Из “легких побед” - сделал сайт команды, периодически пингую коллег и описываю наши проекты на сайте. Мне всегда интересно было, что люди пилят рядом с тобой, как бы почерпнуть опыт, крутые наработки, узнать про разложенные грабли. Получается двойная выгода: и для нашей команды, и другим гуглерам рассказать, кто мы вообще такие. Рекомендую, в-общем.
О продажах
Мне бегать продавать ничего не нужно. Хоть формально мы и числимся техническим pre-sales, то есть с помощью технически крутого MVP “продать” клиенту контракт. Но есть AI sales specialists и Field Sales Representatives, вот они продают. Они свое дело знают, даже курсы по GenAI проходят, так что совсем булщит обычно не прилетает. До нас проекты доходят, в идеале, когда продажники и customer engineers уже смекнули, что как, какие технологии нужны, сколько ожидается дохода. И мы врываемся уже чисто прототип пилить. В реальности, конечно, пока это так не работает (пока команда молодая и про нас особо не знают), и мы в том числе участвуем на этапах Discovery & Design – в генерации и приоретизации идей. Это уже очень похоже на классический консалтинг.
Мои родители познакомились в клубе поэзии (а не клубе), и в гостях у нас часто были довольно творческие пресонажи. От одного я услышал такую аллитерацию Мандельштама: "Слышен свист и вой локомобиля – дверь лингвисты войлоком обили". Не то чтобы я 9-летний много понял, понял только, что можно поёрничать над старшим братом, который учился в МГУ на лингвиста (кстати, на кафедре ОТиПЛ, которую заканчивала Кали Новская). Мы вряд ли узнаем, какой изначальный смысл закладывал Мандельштам, и он точно ничего не знал про горький урок Ричарда Саттона (пост) и машинный перевод. Но фраза неплохо описывает то, что происходило с масштабным лингвистическим проектом ABBYY Compreno - попыткой ручного описания смысловой структуры языка и создания абстрактного "языка смыслов". Кажется, люди с этим не справились, а вот искуственные нейроны – на ура. Если утрировать, конечно, то смысл поста экс-сотрудника ABBYY Даниила Скоринкина – "go brrr данные рулят", но все же если почитать полностью, вряд ли пожалеете. Там про физтех и ABBYY, фундаментальный научный подход к языку и победу статистического подхода, а также адаптацию ABBYY к новым реалиям и 2022 год.
upd. оказывается, я упустил у Кали ее мысли про этот пост Даниила. Вот они, лингвистика будет жить!
Как меня находили работы
#career #coolstorybob
Длиннопост, как в старые-добрые. Прошел я через эту хурмомятню с собесами #interviews и понял, что всего второй раз в жизни устроился туда, куда прямо стремился. Первый - аспирантура и позиция в ВШЭ. А хронологически оно так было:
Радио-технический институт, кафедра МФТИ (типа стартап)
Туда меня устроил научник, отбора толком не было. Мне было 19 и я удивляюсь, каким дитем еще был. Подписал договор на жалкие 8к руб/мес, и мне тут же сказали, что на самом деле денег нет. И я такой: окей. Антуражное место: деды в свитерах, штукатурка осыпается, где-то стопки стучат о стол - типичное НИИ. Там в лабе наушника я поковырял системы VR и, когда дали выбрать между Python и 3dsmax - выбрал первое, не прогадал. И хоть пойти ну стажировку в тот же Яндекс было бы в пять раз полезнее, в итоге не жалею, главное, я понял, что могу писать код и даже что-то зарабатывать. Получил я тогда 50к за 7 месяцев работы (а скорее, учебы) - от босса налом, в метро. Был счастлив.
Рдтех, системный интегратор
Устроился все так же через научника. Знаю, что могу хейт словить за такое признание, но так и было. Впрочем, собесов как таковых не было, а разговор с эйчаром я бы и так прошел. Работа - выстраивать всякие логические/бизнес-слои данных и клепать поверх них BI-отчеты. Не так плохо, как звучит, где-то думать приходилось. Были веселые командировки в на Урал зимой, где работал с 9 до 20 без выходных, по сути не видя солнца (я тогда взбунтовал, в воскресенье пошел со шпаной в хоккей играть). Еще в отеле вечером звонили с ресепшн: «отдохнуть не желаете?». Взял я, экстраполировал свое развитие в бизнес-аналитике лет так на 40 вперед и понял, что надо что-то менять. Вот он первый осознанный выбор - я пошел в аспирантуру. Не жалею, про плюсы-минусы писал тут.
ВШЭ, кафедра + аспирантура
Во время аспирантуры было много всего интересного (например, млкурс и корпоративное преподавание без опыта), но захотелось на нормальную работу. Хотел в тот момент, конечно, в Яндекс, но позвонили из мэйла (ловко эйчары скряпают номера голодных апсирантов). Шел по улице в минус 20, телефон где-то под шестью одежками - хотел заигнорить входящий. А это эйчар мэйла, собесы осилил.
KPN, телеком в Нидерландах
Пост разрастается, надо бы отдельно описать поиск работы в NL. Но суть в том, что ни в какой KPN я не собирался, откликнулся до кучи - и вдруг позвали. Одна из сотрудниц знала про мэйл и физтех. Мы были в Амстере туристами, в день отлета позвали на первый собес, остальные проходил по телефону, тогда это еще казалось диковатым. Имейл с оффером тогда был, конечно мощнейшей волной эндорфина. И по человеческим качествам это была лучшая команда: смех-штуки-праздничное настроение. Уже ощущается как прошлая жизнь.
Elsevier
И снова я сам осознанно туда не хотел. Будущий босс меня приметил по активности в Amsterdam Data Science, сам написал. Я был миддлом, звали на синьора, задачи огонь по описанию (так и вышло). И только компания меня смущала. Но пошел, в итоге тоже не пожалел. Research Integrity - второй в жизни проект, которым реально горжусь - после млкурса. Тут много писал #research_integrity
Гугл
И вот всего второй раз в жизни, когда работу выбрал осознанно. Рассказывать пока рано, гребу вовсю. Гуглеры, конечно, легко развивают в тебе синдром самозванца.
Морали нет (больше истории хотел рассказать), просто удивительно, как карьера порой сруливает куда-то, куда ты и не планировал. То есть это вроде основное русло приложения ментальных усилий, времени, здоровья - а все равно велИк фактор рандома.
Вот думал, как называется моя лень и нежелание бросаться исполнять каждую первую хотелку менеджера... Правило Трёх Гвоздей – так и запишем.
Читать полностью…Мини-курс по поиску работы для ex-ABBYY
#career #interviews
Сложно подобрать печатные выражения для действий ABBYY. Добра всем, кого затронуло! Я тут недавно вещал, что в январе думаю запустить мини-группу для подготовки к поведенческим собесам. Значит, начну чуть раньше.
В мини-курс из 2 занятий я упакую материалы 4 занятий, по которым занимаюсь индивидуально (про успехи 1-ой когорты можно почитать в посте «Она в Мистрале, а ты - нет»). Программа:
1-ое занятие - поведенческие собеседования;
2-ое занятие - советы по подготовке к собесам (в том числе техническим), tips&tricks, каверзные вопросы.
Даты: 11 и 18 октября 16:30-17:30 CET.
Пишите мне в личку, опишите свою ситуацию, приложите резюме, а также почту и ссылку на LinkedIn (если нет в резюме). Можно распространить в чатах ABBYY.
Бесплатно. Предложение действует только для тех, кого недавно лэйоффнул ABBYY.
По малочисленным просьбам и лайкам – запись стрима!
Читать полностью…Стрим через 2 часа, 17:30-18:30 CET (18:30-19:30 мск).
С самыми упорными, возможно, задержимся еще на полчаса, вопросов интересных поступило немало.
Streamyard
В начале разогрева ради – хиханьки, если не опоздаете, узнаете, кто гонял мяч со Смоловым, кто ест холодную еду, а кто сегодня спал днём.
Стрим про карьеру, собеседования и бигтех
#career #interviews
Choose your fighter. Собрал вам тут бигтех-банду для стрима:
- Татьяна Шаврина (LI) – Research Scientist Manager в лондонской Мете в команде LLama-4, авторка канала @rybolos_channel (пост-приветствие). Недавно устроилась, может рассказать про собесы и что именно спрашивают на менеджера;
- Артем Санакоев (LI) – Staff Research Scientist в цюрихской Мете, GenAI, автор канала @ai_newz (пост-приветствие). Собеседует на синьорные позиции в Мету;
- Сергей Иванов (LI) – Senior Applied Scientist в парижском Amazon, соавтор канала @graphML. Провел 100+ собесов в Амазон, может рассказать про хардкорные поведенческие вопросы;
- Борис Цейтлин (LI) – Staff MLE в берлинском eBay, автор канала @boris_again (пост-приветствие). Недавно отмучился с собесами;
- Юрий Кашницкий (LI) – Staff GenAI Solutions Architect в амстердамском Google Cloud, автор канала @new_yorko_times (пост-приветствие). Читатели этого канала знают про этот долгий заход по собесам (пост). Он же (то есть я) будет скоморошить, вести встречу.
Вопросы можно задавать заранее тут в треде, либо во время стрима. Можно адресовать конкретно кому-то из спикеров, например, «Вопрос Борису: доколе?»
Время: 20 сентября, 17:30-18:30 CET. Streamyard – ссылка для просмотра (там же по ссылке можно добавить в календарь).
Записи не будет, все вживую. Мест – максимум 1000 😀
Осознанно НЕ добиваться
#career #tips
Не секрет, что нашей культуре близко достигаторство. Вокруг полно дочерей папиных друзей, дети после школы идут на непустое множество секций и курсов, порой упуская нормальное детство. Круто иметь две работы и подработку впридачу и хвастаться тем, что спишь по 4 часа. В моем случае это только отчасти сарказм, поскольку в 2017, когда пришел в мэйл, начал тащить млкурс, преподавал в корпорациях, еще часть мозга отнимал диссер. А впридачу был хоккей на льду (вот по нему скучаю). Возвращался домой в первом часу, чтоб перекинуться парой слов с девушкой и в 2-3 упасть поспать.
При всем этом я замечал, что порой здоровое достигаторство (а-ля карьерный рост) путают просто с упрямством. И бывает важно НЕ делать что-то любой ценой. То есть подумать про альтернативную стоимость (opportunity cost). Может, нет смысла достигать X любой ценой? Это верно как про работу, так и на личном уровне. Приведу 3 примера из моего саморазвития:
1) C++. Я вообще в целом не инженер, за 3-4 часа упорной разработки или тем более дебаггинга мой мозг тухнет так, что дальше уже ничего невозможно делать. Программирование в школе я как-то упустил, на 1 курсе физтеха с трудом нагонял Си. Когда на 3-м курсе познакомился с питоном, это было настоящей отдушиной. Оказывается, можно что-то простое сделать за час, а не целый день выжигания глюкозы в процессе борьбы с непонятными ошибками. И дальше я принял осознанное решение: я не буду инвестировать 1к+ часов в изучение плюсов. Попросту не буду счастлив. И даже если бы мне этот навык открыл новые перспективы, альтернативная стоимость изучения плюсов слишком высока.
2) Kaggle grandmaster Достижение титула kaggle master заняло у меня тонну времени. И хоть я много попутно изучил и в целом не жалею, но все же далеко не каждый час на кэггле того стоил (долбанный стекинг!). И так я принял решение, что не буду добиваться лычки Kaggle grandmaster. Незачем. Процесс мне не так уж и нравится. Выхлоп от лычки грандмастера в большинстве мест не выше чем от мастера (а скорее HR воооще путает с discussions grandmaster). Этих грандмастеров всего пара сотен в мире (upd: 346), и я не один из них, это нормально (кстати, есть ли там хоть одна женщина? ну да ладно).
3) ШАД. Что лукавить, пока я был студентом-аспирантом, меня всегда манили Яндекс и ШАД. Мой максимализм просто должен был привести меня в ШАД. Я даже нашел препода и начал готовиться. Но как копнул вглубь, узнал каково это учиться в ШАДе («он как газ - занимает все выделенное на него пространство»), понял, что поезд ушел - я уже на тот момент и поработал пару лет, и диссер начал делать. Да и в целом можно прекрасно карьерно расти и без ШАДа (к слову, когда новички хотят влиться в DS через ШАД – на мой взгляд, в 99% случаев это ошибка).
Мораль проста и душна: приоретизация - один из важнейших навыков. И порой надо осознанно не делать что-то.
Мой 2024
#life
Ладно, ладно… и я туда же. Отмечу главное за прошедший год.
Конечно, сразу выделяется окончание марафона собесов и устройство в Google (если вы как-то за каналом следили, вряд ли упустили, пост про 48 собесов). По тегу #google уже кое-что рассказал про характер новой работы и первые проекты.
Профессионально, год был потрясающий. Прогресс в GenAI бешеный (в том числе гугл тащит). И быть на острие этого всего, брать последние наработки и нести внедрять (да еще и как прототипы, без прода 😀) - это топ!
Также передал в чужие руки проект, которым больше всего горжусь и к которому, надеюсь, еще как-нибудь вернусь - про антифрод в науке (про проекты в Эльсивире). Жаль, конечно, не добили статью по теме (хоть и презентовал в Афинах) и не посторудничал толком с братом, которому тема тоже очень интересна.
Очень много менторил. Новичкам везет, и первый «выпуск» из десяти менти был особенно успешным (пост «Она в Мистрале, а ты нет»). По другим группам еще не собирал стату.
Закрыл гештальт времен аспирантуры - опубликовался в q1 журнале (пост). Жизнь мою, конечно, это радикально не поменяло, но проект был крутой и особенно приятно его дотащить до статьи.
Путешествие года - это, конечно, ЮАР (пост). Сложно не быть банальным и не петь дифирамбы Кейптауну. Помимо ЮАР было также куча коротких поездок по Европе - Мюнхен, Альпы, Стокгольм, Рим, Милан, Сицилия на 10 лет с женой, Париж пару раз. Посетил 5 или 6 офисов гугла.
Из маленьких радостей жизни - наконец обустроил террасу, начал пользоваться грилем и несколько раз уже с друзьями жарил мясо и загонялся на всякие околофилософские темы. Иногда даже кажется, что мучения с террасой того стоили.
В спорте каких-то суперуспехов нет да и на Килиманджаро я не лазил, зато появилась стабильность, более-менее регулярный зал и бег. Так что с весны есть планы подбираться к своим былым результатам, которые сейчас кажутся немыслимыми.
Подались на гражданство Нидерландов. Где-то летом могут уже и паспорт дать.
Ну и наконец, дочь уже отметила 5 лет. Плавает, играет в футбол, трепется на нидерландском, хохочет. Во многом она - причина того, что я где-то «недосидел с пацанами» или что-то не сделал. Но это нормально.
С наступающим, друзья! 🎄 Пусть Новый год принесет хорошие новости - все те, что мы ждем, и неожиданные.
Gemini Flash 2.0 готова порвать бенчмарки типа https://artificialanalysis.ai/, соотношение цена/качество/скорость впечатляет. А у @epsiloncorrect можно почитать про работу над топовыми LLM из первых рук
Читать полностью…Первые проекты в Google Cloud
#projects #google
После медового месяца в виде летнего онбординга вдруг пришлось и поработать. Оба моих первых проекта так или иначе были связаны с чатботами 👨🦳
У Гугла есть огромная софтина Dialogflow (сейчас называется Conversational Agents, история нэйминга примерно как с Hangouts/Allo/Duo/etc). Dialogflow поддерживает кучу разных сценариев обращений в поддержку и автоматизирует их с помощью if/else, и традиционного ML, а с недавних пор досыпают и GenAI, конечно. Благо, в сам Dialogflow мне не пришлось лезть, но уже второй раз строю LLM-решения вокруг него, и это весьма увлекательно.
С большим оранжевым нидерландским банком мы делали challenger LLM, чтоб проверять, что там чатбот наотвечал и отлавливать галлюцинации и всякие неточности. Концепция «harmful incorrect” ответов сильно шире простых галлюцинаций, она определялась деревом примерно из 10 вопросов типа «нужны ли нам тут персональные данные, чтоб ответить на вопрос?», «в контексте достаточно информации, чтоб ответить?», «содержит ли ответ транзакционную информацию?» и т.д. И вот наша LLM отвечала на эти вопросы, плюс интересной подзадачей было сгенерировать реалистичные синтетические данные, поскольку реальных кейсов плохих ответов бота было очень мало. Кстати, ответы LLM на десяток вопросов визуализируются путем в дереве, и тут мне литкод пригодился (пост).
В проекте с испанским агрегатором полетов eDreams мы строили LLM-решение, чтоб понять интент человека и отправить его дальше в нужный сценарий Dialogflow или к кожаному помощнику. Типичный проект с LLM: мольба, чтоб оно тебя поняло, попытки обуздать зверя. Было и веселое: Prompt Optimizer докинул почти 10 пунктов, поисследовали LangGraph. И в целом испанцы очень бодрые ребята. Защищали проект вживую, в четверг встал бодрячком в 4 утра, вернулся в тот же вечер в 11. Барселоны особо не видел, но зато нас хвалил их CTO, наш же Director AI, прототип мы сразу передали в руки другой гугловской команде для деплоя. Испанки при встрече целуются два раза… в-общем, все очень позитивно прошло.
Вчера начал новый месячный забег, для разнообразия не чатботы, а поиск. В отличие от первых двух, тут я лид, так что вплоть до католического Рождества будет бодро.
Материалы интенсива по GenAI от Google & Kaggle
#genai #courses #google
Про курс писал чуть выше, вот и материалы подъехали.
День 1: Foundation Models & prompt engineering
“Foundational Large Language Models & Text Generation” whitepaper + “Prompt Engineering” whitepaper.
Code lab "Prompting"
День 2: эмбеддинги и векторные БД
“Embeddings and Vector Stores/Databases” whitepaper.
Code labs:
- RAG Q&A со своими документами
- Эмбединги и их схожесть
- Эмбединги с Keras (спасибо за все, Франсуа, но не)
День 3: GenAI-агенты
“Generative AI Agents” whitepaper
Code labs:
- Беседа с базой данных и function calling с Gemini API
- Агенты и LangGraph (я прошел только эту 😀)
День 4: LLM, заточенные под домены
“Solving Domain-Specific Problems Using LLMs” whitepaper
Code labs:
- Grounding c Google Search (вот это клиентам очень хорошо заходит)
- Тюнинг Gemini на своей задаче (а вот это на практике имхо редко нужно)
День 5: MLOps для GenAI
“MLOps for Generative AI” whitepaper
Вместо лабы – starter pack для GenAI проектов на GCP (это мои коллеги пилили)
Статьи показались очень длинными, я не читал, но слышал хорошие отзывы.
Практика вся с Gemini. Можно, конечно, устроить срачик по теме и хорошо провести время. На момент, пока я это пишу, экспериментальная версия Gemini - в топе LMSYS, а по соотношению цена/качество/скорость Gemini Flash с большим отрывом номер 1 (Artificial Analysis - годный независимый бенчмарк).
Кстати, бэйджик на Kaggle дают за "прохождение" (Copy & Edit пойдет) всех Kaggle-ноутбуков курса до 18 ноября. Этим советом я сейчас резко увеличил число GenAI экспертов.
Мини-группы по поиску работы и поведенческим собесам
Для тех, кто тут случайно: я Staff GenAI solutions architect в Google Cloud, помог десяткам людей с поиском работы, в том числе с бигтехом (пост «Она в мистрале, а ты - нет»). Недавно я провел стрим про бигтех и собесы и там объявил запуск мини-групп. Теперь к деталям.
Вас ждут две пятницы лекций и живое общение между ними.
- День 1. Поведенческие собеседования (40 мин). Резюме, рефералы, переговоры и прочие аспекты поиска работы (40 мин).
- День 2. Каверзные вопросы на собеседованиях (40 мин). Tips & tricks прохождения (40 мин).
- Домашнее задание после первого дня и его обсуждение в чате группы
Занятия платные, это обеспечит как комфортный размер группы так и уровень мотивации участников.
Для кого эти занятия
Для всех ищущих работу в IT. Особенно полезно будет тем, кто хочет улучшить навык презентации своего опыта и описать истории на основе своих проектов (тот самый story bank для подготовки к поведенческим собеседованиям). Для этого нужно наличие опыта проектов.
Почему вам могу помочь именно я?
У меня большой преподавательский и менторский опыт, к тому же сам недавно проходил всю кутерьму с поиском работы, в том числе фэйлил. О плотности моего материала можно судить по посту «В 48 собесах от оффера в Гугл» - прочитайте и решите.
Даты и время
22 и 29 ноября, 17:00 - 18:30 CET (2 части по 40 минут, 10 минут на вопросы).
Дополнительно
Мой фидбек по трём вашим поведенческим историям + мок-собеседование.
Кто заинтересовался – заполните плз короткую форму.
Характер моей работы в гугле. Часть 2 (продолжение)
#career #google
О менеджерах
Наши непосредственные менеджеры очень активно участвуют в работе “в поле”. Учитывая, что на менеджера в нашей команде в среднем 8-9 человек подчиненных, да еще и 4-5 проектов в активной фазе, получается дохрена митингов. А еще командировки и дети у большинства. Пока у меня не сложился пазл, когда вообще менеджеры работают, ну кроме как вечером.
Лидеры уровня моего скипа (Director of AI, L8) разруливают политоту, блокеры и прочие неприятности, но также много катаются по миру и майнят больших и малых клиентов.
Начиная с VP уровня, я слабо представляю, как выглядит типичный день менеджера (а вот на прошлой работе я репортил VP DS, но випи випи рознь). Ну и хоть гугл и называют самым большим стартапом в мире, в облаке это не совсем так - с VP-левелом я пока не общался и вряд ли буду в ближайшее время.
О бизнес-модели
Как я писал раньше, мы белые воротнички, продакшн-код не пишем. Но мы передаем прототип в максимально готовом для деплоя виде, вместе с рекомендациями по деплою. Дальше три варианта, кто деплоит:
– сам клиент, если достаточно технически подкован;
– либо гугловская команда PSO (Professional Services Organization), ее уже оплачивает клиент, и это дико дорого и работает только с самыми богатыми клиентами;
– либо партнеры. Google Cloud поддерживет связи примерно с 2к партнеров по вему миру, и это не только Deloitte и Accenture, но и куча мало известных консалтеров, обладающими специализированными знаниями и умениями. Гуглеры приводят партнеров, обучают их, сертифицируют, консультируют, а партнеры уже деплоят решения. Посколку партнеры используют gcloud и пригоняют трафик, получается win-win. Собственно, основной доход Google Cloud как раз от проектов с участием партнеров.
Дела у Google Cloud идут хорошо - рост очень шустрый. За 7 лет доля выручки gcloud в Alphabet выросла с 3.7% до ~12%. В целом Azure и gcloud постепенно отъедают долю AWS (возможно, за счет GenAI: у майков OpenAI, у Гугла - gemini, у Амазона – huggingface; но это спекуляция). За q3 этого года gcloud вообще отчитался о росте в 35% year-over-year (20% у Azure, 19% у AWS; – обзор-сравнение).
Ну вроде надо бы такой обзорчик снабдить и минусами, но пока их не вижу (кроме вездесущего corporate talk а-ля "we champion robust data governance"). И погляжу, как о них будет уместно рассказывать или хотя бы намекать 😅
потрясающий текст про закат компании ABBYY как наименьшее из последствий краха всей компьютерной лингвистики под натиском статистических моделей языка. Пластмассовый мир chatGPT победил все попытки построить детерминированные онтологии, а способ решения любой проблемы "завалить вычислительными мощностями", оказался более надежным и масштабируемым, чем любая попытка разобраться что же происходит внутри системы (и язык здесь только один из примеров)
по ссылке обзор развития компьютерной лингвистики от ранних моделей до трансформеров, которые появились как способ улучшить качество гугл-переводчика, расцвет ABBYY как одной из самых успешных российских ИТ-компаний, почти академическая культура физтехов внутри, «горький урок» больших данных и сгоревшие сотни миллионов долларов на амбициозную попытку построить дерево онтологий всех языков сразу (ABBYY compreno).
про мегапроект ABBYY compreno я когда-то очень давно случайно увидел статью и будучи студентом физиком, конечно, был очарован масштабом. это же такая мечта технаря в вакууме: давайте мы все тексты сведем к логическим инвариантам, соединим их стрелочками и построим граф всего языка. то есть к сущностям типа собака / стол / книга, которые не теряют своей сути при переезде между странами. тогда для перевода между языками можно будет делать преобразование в этот мета-язык и из него в еще один шаг переводить тексты в любой другой. впечатлился, посмотрел на страшные диаграммы простых предложений (скину их в комменты, зацените) и забыл об этом на долгие годы. но конечно и представить не мог, сколько копий было поломано и сколько ресурсов потрачено (получается, что впустую).
а самое забавное, что современные большие языковые модели примерно так и работают — все тексты переводят в свой мета-язык и обратно, только этот язык
1) математический (операции над текстом превращаются в операции над векторами в многомерных пространствах, писал об этом)
2) не интерпретируемый, то есть не сводимый к человеческим интуициями
рекомендую вспоминать об этом каждый раз, когда вы слышите тезис "оно не мыслит как человек, следовательно оно глупое". про подсчет букв в предложениях, математические навыки ЛЛМ или заковыристые логические задачки. самолеты тоже не летают как птицы, и ничего.
очень рекомендую прочитать целиком: https://sysblok.ru/blog/gorkij-urok-abbyy-kak-lingvisty-proigrali-poslednjuju-bitvu-za-nlp/
Характер моей работы в гугле
#career #google
Ладно, наверное можно уже аккуратно рассказать. Я работаю не в том самом гугле, где можно сидеть на пенсии, неспешно ковыряя монорепу, а в Cloud. Если традиционный Гугл критикуют за Процессы и гиперопеку своих гуглеров, то в облаке прям customer first и довольно живо. Много народу из большой тройки, также из Амазона и Майкрософта немало людей перетянули. Пока по интенсивности прошлые работы кажутся счастливым детством 😅 но все же клиенты европейские, так что в 6 вечера уже без митингов. По загрузке бодро, но в пределах 40 ч/нед. Хотя последнюю неделю часто и по вечерам сидел.
Наша команда зовется field solution architects, и это очень похоже на более известную роль customer engineers, но с той разницей, что мы работаем бок о бок с клиентами в течение 4-6 недель - в режиме co-build, с их кодом и данными. Что здорово (для меня) - никакого production кода, чисто GenAI MVP. Тематики разные, но из часто повторяющегося и приносящего деньги - всевозможные RAG, call center support AI (чат-боты) и поиск. Гугл довольно убедительно продает «гугловский поиск на ваших данных», а поскольку для RAG главное R-retrieve, т.е. поиск, неплохо продается и RAG.
Примечательно, что оплачивают нас не клиенты, а сам гугл; так что можете представить, спрос огромный. Для клиентов мы все же не бесплатны, ожидается, что они проинвестирует свои ресурсы в прототип - людей, компьют и прочее.
По сути работы стало больше инжиниринга или скорее system design - собирать из кусков лего кастомизируемые решения. Мне, привыкшему быдлокодить в жупитере, есть что подучить. Зато это вот прям брать последние наработки того же DeepMind и тут же нести внедрять «в поле». Вчера вышел условный автоматический prompt optimizer - завтра несешь проверять в проекте.
Исследовательской я бы работу не назвал, из креатива чаще задачи в стиле проверки качества решения. Скорее это на стыке бизнеса и исследований, в конечном счете работа с людьми, и продавать, в широком смысле, тоже надо учиться. В KPI у нас не только «число прототипов в год», но и доход от них в проде. Это заставляет думать головой и не просто продавать пирожки, пока расхватывают, но и задумываться над ROI (а как весело было без этого).
По духу работа похожа на кэггл - в течение 4-6 недель надо прям выложиться, потом может быть затишье перед новым проектом.
Наверно реально в деталях я могу рассказывать только про публичные проекты, так что надеюсь, скоро таких немало появится. Если есть вопросы - попробую ответить. Хоть может и не сегодня, в день рождения 😀
#карьера
Правило трех гвоздей
Опытные сотрудники больших организаций (и особенно опытные руководители, у которых есть свое высшее руководство) хорошо знают классическую технику тайм-мендежмента, доставшуюся нам еще от наших дедов. Называется она "правило трех гвоздей".
Восходит она к байке про особенно успешного председателя колхоза, которого однажды спросили, как ему много лет удается справляться со своей работой. В ответ председатель указал на стену и торчащие в ней три гвоздя. Когда распоряжение приходило первый раз, он вешал его на первый гвоздь, когда приходило напоминание - перевешивал на второй, второе напоминание - на третий, и только распоряжения с третьего гвоздя он начинал исполнять. По словам председателя колхоза, большинство заданий руководства не доходило даже до второго гвоздя.
В наше время активных лидеров, трансформирующих большие организации и наводящих суету своей бьющей ключем энергией, адептов правила трех гвоздей не жалуют. И тяжело раскачиваются, и медленно как-то, да и что это вообще значит, что не побежали сразу исполнять, когда было дано задание. Часто такие сотрудники ассоциируются как раз с тем самым "болотцем", кому бы только чаи гонять и на перекуры ходить. Но суть лежит немножко глубже, достаточно посмотреть на все глазами сотрудника. Если вы просите человека что-то сделать, но потом никогда не спрашиваете результат, или спрашиваете через полгода, человек, потративший на это силы, не получает внимания к результатам своего труда. Это обесценивает его работу, появляется чувство "работы в стол". А в стол работать никто не любит, прям совсем никто. Три гвоздя - это естественная защитная реакция.
Вывод очень простой: если не нравятся сотрудники, работающие по правилу трех гвоздей, то придерживайтесь правила "поставил задачу - будь готов принять сделанную работу".
Бэкап-профессии
#career #coolstorybob
Меня впечатляют истории, как люди развивают не одну, а целых две профессии и могут почти безболезненно спрыгнуть с карьерной лестницы и начать карабкаться по другой. А иногда ты просто падаешь с этой лестницы и вопрос, что делать дальше. Сейчас на слуху истории белоэмигрантов-таксистов в Париже (мини-сериал Редакции, кстати, шикарен). Но даже при моей жизни имммигранты-профессора в Израиле вполне могли подметать улицы или крутить баранку.
Я пока видел всего пару историй, когда из CS прыгали в другие профессии. Если не считать Крижевского, про которого в Genius Makers (пост) говорили, что он ушел в закат и больше не занимается ML.
У меня был коллега Хайо, ML-инженер. Типичный прямой голландец, мог дать фидбек “this sucks”, не любил менеджеров, жарил невероятное барбекю и ходил в зал. Но не просто ходил в зал, а получил лицензию кросс-фит тренера. Так что ковыряния в конфигах он чередовал с жимом и бёрпи. Хайо уверенно говорил, что через 10-12 лет он точно не будет писать код, а откроет свой кросс-фит клуб.
Во время масштабных ковидных лэйоффов, когда в US работы лишились тысячи гуглеров, парижский офис всего-то аккуратно попросил 18 коллег уйти. Можно было легко отказаться, но Камю, одна из топ-менеджеров в AI/ML, согласилась, взяв бонус в виде годовой оплаты. Камю ценила качественный виски, в гугле она даже устраивала официальные тимбилдинги с распитием виски (за счет компании, само собой). И так Камю решила открыть бар. Camus Camus - недалеко от офисов Гугла и кучи стартапов. Камю сама мешает коктейли и любит потрещать с гуглерами. Я тоже с ней перебросился парой фраз, узнал, что Камю все же думает о возврате в tech.
Что до меня, у меня бэкап-профессии нет и вряд ли будет (репетиторство/менторство не в счет). Мы живем в потрясающее время, так что all-in AI. Но все равно подобные истории примечательны.
Запись большого стрима про карьеру и собесы в БигТех
Так как все спрашивали про запись недавнего стрима с коллегами из FAANG, мы все-таки ее выложили:)
Вот таймкоды, на интересные моменты:
2:00 - Интро
10:27 - Интро со мной, про мои походы в горы
11:49 - Чем я занимаюсь по работе
12:30 - Emu Flash - риалтайм генерация картинок в meta-ai, и как наша демка дошла до Цукерберга
20:40 - Кто спал днем, а кто всю ночь работал
21:45 - Как выглядят собесы на ресерч менеджера в Мету
33:20 - Про Behavioral интервью
45:22 - Какие собесы на research позиции?
48:27 - Коротко про AI Research Design интервью
49:17 - Почему нужно PhD на ресерч роли, какие скилы применяются в работе
51:05 - Будут ли умирать роли в Applied Research с приходом LLM? (нет)
55:54 - Про менторство, как это помогает расти, как найти ментора.
1:11:13 - Какая мотивация работать в БигТехе.
1:49:24 - Заключение. Финальные советы по прохождению собесов и по карьере в целом.
Как и обещал на стриме ( 1:02:25 ), я анонсировал закрытое комьюнити по подготовке к собеседованиям на AI/ML роли в FAANG и не-FAANG. Подробности и как записаться – в посте.
@ai_newz
Ссылки после стрима
#career #interviews
Что, вроде неплохо зашло? Если что-то еще упустили - пишите в коменты. Может, еще соберемся. Можно для diversity и стартаперов позвать (Бориса без пхд уже звали).
Во флудливом чатике streamyard было и что-то полезное. Кроме кеков, из-за которых ведущем было сложно держать щи ровно.
- Лучший источник для ml system design, на мой взгляд. Дается структура и много типичных примеров. Еще был совет читать блоги компаний, особенно перед собесом с одной из компаний, ведущих неплохие блоги
- методичка Бориса о собесах
- SWE interviews at Meta
- тут расписывал про ресурсы, которые мне помогли в долгом забеге по собесам
- Хороший ютуб канал для бихейва - alifeengineered?si=xzexq2vYf2ECGzpu">A life engineered
- мне очень помогли два канала экс-рекрутеров гугла: jeffhsipepi">Jeff Sipe и CoachErika">Erika Gemzer. Все про бихейв + у Джеффа есть плэйлист про переговоры
- Книга System Design Interview от Alex Xu - это классика. У него же недавно появилась про ML system design. Не читал, но если она хоть чуть-чуть похожа на System design, то это 🔥
- настольная книга карьеристов: Rise. (do better, look better, connect better). Много про менторство, личный бренд (в правильном смысле слова) и нетворкинг
- еще Таня развернула мысль про поведенческие собесы в этом посте.
Насчет записи стрима: файлик есть, а времени и желания монтировать - нет. Ставьте звёздочки, если нужна запись - подумаем 😀
Спасибо @kSasha за подбор ссылок
#shitpost
Продолжаю экскурсию по офисам Гугла. В Стокгольме довольно комфортные комнаты для сна. Самое большое скопление людей - вокруг стола для пинг-понга, и средний уровень играющих меня впечатлил. Коллега говорит, в 4 в офисе уже пусто.
Как-то промо весной отменили и рефрешеры не всем дают…
Genius Makers
#books #coolstorybob
Дослушал “Genius Makers: The Mavericks who brought AI to Google, Facebook, and the world”. Как вы поняли, всячески рекомендую. В ней помимо истории про успехи и неудачи нейросетей, довольно много жизнеописаний Марвина Мински, Хинтона, Лекуна и прочих героев. Самую впечатляющую байку про Гудфеллоу я уже описал, но в книге будет еще как минимум 10 эпизодов, которые захватят ваше внимание. Вот некоторые из них:
- Как появилась LSTM, Хинтон троллил Шмидхубера расшифровкой Looks Stupid To Me. Но спустя несколько лет пришлось признать, что что-то в этом есть;
- Когда еще никто не верил в нейронки, до Image-Net момента, студенты Хинтона побили все соты в Майкрософте. Но там в руководстве было слишком много скептиков-символистов, размахивающих устаревшей статьей Марвина Мински, что перцептрон Розенблатта не решает XOR-проблему. В итоге нейронки по-настоящему раскатились в Гугле и Фэйсбуке, а не Майкрософте;
- Румельхарт, всю жизнь посвятивший идее нейронных сетей, боровшийся за них во все эпизоды массового разочарования- не дожил несколько месяцев до ImageNet-момента;
- Эндрю Ын общался с Ларри Пэйджем и главой поиска в Гугле, пытался убедить, что нейронки - будущее. Экспериментировать с поиском не позволили, но Пэйдж с Брином одобрили открытие лаборатории Google Brain. Ын ее возглавил, но довольно быстро ушел делать Курсеру, а себе на смену посоветовал Хинтона. Хинтон согласился, и первое время формально был в Гугле интерном;
- На одной из конференций Джеф Дин представлял масштабированную гугловскую систему для обучения нейронок. Гудфеллоу, еще студент, встал и потроллил Дина за то, что все на CPU, а не GPU. Иан просто не знал, кто такой Дин;
- Из-за проблем со спиной Хинтон не садился ни разу за 15 лет. “It’s a long-standing problem», говорил он;
- Когда в OpenAI встречали напитками Иана Гудфеллоу, Илья Суцкевер поднял тост за AGI через 3 года. Иан покраснел от кринжа и стал мяться, в какой момент бы сказать, что он отказывается от оффера.
Как всегда, маловато времени уделили Шмидхуберу и советским ученым. Да и повествование обрывается на сюжетах из 21-го года, до LLM-революции. Но все равно в книге найдете еще кучу интересных сюжетов.
Как пьяный Гудфеллоу закодил ганы
#ml #coolstorybob
Мем выше - только отчасти мем.
Осенью 2013-го Иан заканчивал PhD, встречался с новой девушкой и жестко прокрастинировал с книгой Deep Learning. Его коллега по лабе получил оффер от DeepMind, и ребята собрались в барчике отметить такое дело. Беседа полилась, как пиво, в том числе начали обсуждать генерацию фотореалистичных изображений (на тот момент - чисто теория). Пара ребят предложили идею: собрать кучу статистик сгенерированных изображений и сравнить со статистиками реальных. Иан им объяснил, что таких статистик понадобится примерно миллиард, а потом кликнуло: нужен классификатор. Хмель начал бить в голову, и Иан вкратце описал товарищам идею GANs. Те отнеслись скептически: «камон, мы тут одну нейросетку не можем обучить, а ты предлагаешь сразу две».
Часа в 2 ночи Иан вернулся домой, девушка уже спала, проснулась только чтоб поздороваться и снова забыться. Иан открыл ноутбук, и начал, освещая спящую девушку экраном и бубня под нос «friends are wrong», кодить GANs. Заработало с первого прогона.
После этого были NIPS, гугл, и Лекун, назвавший идею GANs - лучшей за 20 лет. Хинтон, помедлив и отсчитав годы от рождения backprop, согласился. Остальное вы наверняка помните.
Вольный пересказ «Genius makers», главы 13.