new_yorko_times | Unsorted

Telegram-канал new_yorko_times - New Yorko Times

9749

Юрий Кашницкий (Yorko, тут @yurycorn) – про машинное обучение, науку, галеры, матан, фэйлы и прочие интересности. Рекламы нет. https://www.linkedin.com/in/kashnitskiy

Subscribe to a channel

New Yorko Times

Другие приколы из жизни Юры, о которых он сам же рассказывает:

• Он хотел избавиться от «стигмы» лидера mlcourse.ai, но теперь «тысячи часов, потраченные на бесплатный курс», привели его к тому, что он «как тот дед, читающий свои учебники», пролистывает материалы млкурса перед собесами.
• Ему отказали в кредите на iPhone в Нидерландах, хотя кредитную модель пилили его же коллеги.
• Он «короче, трус такой», что не делает стартапы – видимо, предпочитает «вялый продуманный, поступательный трек движения вверх в корпорациях».
• Он «не хардкорный инженер» и «не будет инвестировать 1к+ часов в изучение плюсов», потому что «попросту не будет счастлив».
• И, конечно, он проходит обязательные корпоративные тренинги при помощи Gemini.
• Его «собственные мемасы» – это «хиханьки», а его LinkedIn аккаунт – «LinkedЫн».
Вот такой вот у нас Юра Кашницкий – человек, который умеет посмеяться над собой (и над другими, чего уж там). Настоящий «играющий тренер», который, кажется, фэйлит больше, чем вы добиваетесь успеха, но все равно «двигается дальше»!

Удачных фэйлов и вам, друзья, да таких, чтоб с градиентами!

Читать полностью…

New Yorko Times

Еще оды NotebookLM
#llm #google

Я тут продаю дом в Гааге 🥹 и заполняю опросник страниц на 15 (надеюсь, ваше воскресенье проходит веселее). Какие у меня страховки, есть ли трещины в стенах, марка бойлера, что из вещей остается и т.д. Хуже занятия придумать не могу, я туповат, мой мозг не держит в себе все эти подробности. Вспомнить, что из вещей застраховано – даже сложнее, чем куда и когда племянники в отпуск едут.

Что ж, я закинул ровно 42 файла в NotebookLM (как на английском, так и на нидерландском), вытащил все ~200 вопросов, в промпте попросил разве что не сочинять ничего и строго делать grounding с приложенными документами – минуты 3 NotebookLM подумал и готово.

Дальше я, конечно, все равно по всем вопросам-ответам прошелся. Но меня удивило, что Gemini ни разу (!) не сгаллюцинировал. На большинство сложных вопросов так и отвечал, что в приложенных 42 доках нет ответа. Если и были помарки, то по мелочи, и то они фиксились удалением менее релевантных файлов из контекста.

Не представляю, как бы еще я отвечал на все это, вручную. То есть надо распарсить вопрос, понять, в каком файле искать ответ (а он может быть и на нидерландском), найти его и убедиться, что ответ верный.

Пример вопроса и ответа на картинке.

Is the entire apartment fitted with insulated glazing?

NotebookLM нашел тот же вопрос в предыдущем похожем опроснике, а также сослался на нужные места в еще трех файлах – energy label (документ показывает, насколько энергоэффективен дом), техническом отчете и отчете о стоимости жилья. Само собой, по клику можно провалиться в нужный док и убедиться, что модель не врет.

Часа 3-4 мне тут NotebookLM точно сэкономил. Можно даже успеть мясо похрылить. Чего и вам желаю.

Читать полностью…

New Yorko Times

#shitpost

Когда приехал провести хахатон, есть день отгула на тапасы, но город так просто тебя не отпустит

Читать полностью…

New Yorko Times

Ну ладно, про подкасты тоже можно сказать. Можно взять, выкачать все посты из тг-канала (в Telegram Desktop свежей версии это канал –> три точки –> Export chat history), простеньким скриптом достать только даты и текст (не буду кидать скрипт; LLM такое уже давно щелкают), загрузить в NotebookLM и сказать "напиши пост про NotebookLM в стиле этого канала" "Расскажи увлекательно про жизнь и работу этого человека". Прогнал так на себе и еще паре героев – шикарно, почти без галлюцинаций. Подкаст прям на русском генерирует (в настройках надо Output language указать). Более того, можно встрять гостем и прямо общаться с подкастерами о себе любимом. Новые пилюли от одиночества на старости.

Денис Sexy IT, кстати, среди потока щитпостинга полезный пост писал, как на контенте телеграм-канала к собесам готовился.

Читать полностью…

New Yorko Times

Хорошо, когда работа пересекается с хобби.

Когда речь об анализе длинных видео (фильмы, новостные эпизоды, футбол, формула1) – все куда сложнее, чем в примере выше.

По сути пока мало что скажу – аутирую в репе с ядренным асинк бэком и двольно навороченным фронтом, вайб-кодить только отчасти получается. PhD-юк во мне чутка в шоке. Но вообще сценарий довольно типичный в моей работе. Да, я не знаю ничего про SotA в рил-тайм анализе спорта, но вот есть клиент, давай ко вторнику что-то покажем.

Ну если по сути, основная идея – разделяй и властвуй. Разбивать видео на куски, натравлять gemini на куски + массивная асинк-параллелизация. Надеюсь, дойдет до прода и можно будет подробнее рассказать.

Читать полностью…

New Yorko Times

От одного из менти услышал, что он, вдохновившись моим опытом, тоже на время собесов макисмально делегировал, всю работу раскидал по федотам, чтоб ничто не отвлекало от разворачивания деревьев и описания историй про валуе.

Absolutely thrilled to have played a part in their growth and development. It's moments like these that absolutely reaffirm my passion for mentorship.

Читать полностью…

New Yorko Times

Пока еду в поезде на Амстер и читаю ваши коменты, рядом студент китаец вайб-кодит домашку из универа Ляйдена, в которой надо реализовать логрег руками, а потом в склерне запустить.

Первая мысль: а, лошара, базу знать надо! И вообще кто не писал с Карпатым grouped batch norm на чистом numpy, тот пороху не нюхал.

Вторая мысль: я не знаю, как эффективно считать синус, как работают мейнфреймы. Да и даже все эти техники обучения LLM - только поверхностно. Ниче, работать получается.

Третья мысль: что бы там ни было, новое поколение адаптируется (тут могла быть цитата древнего грека про убогую «молодежь»). И это ему я проиграю конкуренцию на рынке разрабов через 10 лет.

Читать полностью…

New Yorko Times

Почему именно у LLM для кодинга такой прогресс
#llm

Ну я туда же, повайбкодил с Gemini 2.5 Pro, охренел чутка, действительно с одного промпта можно накидать репу с фронтом, беком, все как надо. Но, конечно, в большой проект с кучей легаси это пока плохо переносится. Скорее мешает.

Тем не менее, настолько стремительный прогесс навел меня на кучу мыслей, от философских до чисто шкурных, про свою карьеру (наверное многие испытывали похожее).

Откуда весь хайп, почему все говорят про вайб-кодинг, агентов и рисуют экспоненту.

Вкратце объясню (в том числе самому себе), почему именно с кодом ожидают дальнейшего дикого прогресса. Сравним LLM для текста и для кода:

- язык кода сильно проще, нет двусмысленностей, синонимов и прочей лингвистики, словарь довольно ограниченный
- автоматическая оценка в случае с кодом проще, можно быстро проверить, компилится ли оно, синтаксис проверить, а в более сложной версии – и прогнать код (а.к.a verifiable evaluation). Потенциальный масштаб такого авто-эвала просто невероятен. В случае текстов все сложнее, хорошо ли эссе написано или нет, фактически верная инфа приведена или нет, субъективно ли написано или объективно – либо human feedback нужен, либо менее точный LLM as a judge. Конечно, RLHF совершил очередную мини-революцию, но все же отзыв от людей – это куда более скромный сигнал, чем от компилятора.
- real-time обратная связь от IDE. Клацнул ли вайб-кодер на Tab или нет – представьте, сколько это сигнала для улучшения. Кажется, тут куда больше бит можно собрать, чем от формочек с пальцами вверх/вниз в web UI ллмок. Хотя я тут не спец, может, в коменты залетят ребята, обучающие sota-агентов для кодинга, и уточнят.

И это все пока в контексте базовой задачи next token prediction. В случае c кодом можно куда больше задач придумать – представьте претрейн в виде миллиарда маленьких агентов, где каждый решает свою задачу, примерно в формате AlphaZero self-play. Задачи могут быть как в литкод-стиле (для начала), так и ближе к жизни – пойти заполнить веб-форму для налоговой декларации или заказать пиццу – вполне себе verifiable evaluation, удалось это или нет.

В частности из-за этого сейчас такой хайп с агентами, многие верят (и не безоснавательно), что к концу года Computer Use агенты выйдут почти на человеческий уровень. Тут можно развернуть мысль и в сторону автоматизации рисеча и самоулучшения LLM, с которым приходим к экспоненте. Но тут свалимся в срачики и спекуляции.

А возвращаясь к вайб-кодингу – да, это пока больше для проектов с нуля, под пивко накидать сервис, возможно, на новом языке программирования. В больших проектах или сложных задачах я пока не вижу профита. Но по указанным выше причинам я действительно верю, что через несколько лет виртуальные кодеры уже будут существовать и будут полезны. Ну а пока да, будем кекать с быдло-вайбкода в проде и твиттер-тредов про эпические факапы и утечки. Но это временно, раздай людям бензопилы – щепки полетят.

Что все это значит для меня лично:
- я понял, что не хочу превращаться в луддита, игнорируя новые технологии ("вайб-код – для обезьян," "это все для фронта, их пора заменить, а вот C++...", "да не, кроме нас 15 человек никто не знает, как дизайнить 1нм чипы" и т.д.). Держим руку на пульсе
- я уже немного поработал менеджером в прошлой компании, в гугле пока IC и менеджерский путь пугает (back2back митинги и только вечерами время на фокус – классика). Но если посмотреть на 15-20 лет вперед, я вижу для себя только менеджерский путь. Кодить, соревноваться с молодежью, которая выросла на LLM-стеке (а может, и с агентами уже соревноваться) – все это тупиковый путь. А вот как менеджерить огромную команду из людей и агентов (пусть даже, для простоты, скажем, что агенты на уровне людей, не ASI) – это нехилая менеджерская задача. Как описывать задания агентам (может не так, как людям) – тоже хороший вопрос. И таких менеджерских головоломок будет все больше.

Читать полностью…

New Yorko Times

О прапоре и бинарном поиске
#coolstorybob

Дело было во время военных сборов, которые для меня были очень похожи на волонтерский лагерь в Германии, тк я записался в косильщики травы. Живешь, ешь, косишь траву, тупо шутишь. Выдали нам удлинитель метров на 100 и он, конечно же, не работал. Нашелся электрический тестер, который мог сказать, течет ли ток между двумя точками. Так что дебаггинг выглядел так: втыкаешь два гвоздя в кабель, проверяешь тестером, течет ли ток. Если нет - кабель поврежден где-то между гвоздями.

Ну а поскольку физтехов вокруг было много, фразы «бинарный поиск» и «логарифм» звучали уже через 3 минуты после получения задания.

Я не стал втирать прапору про Лог Эн, просто сказал, что быстрое решение есть. Кабель был вскоре отдебажен. Вот так мне на душу легло бремя позитивного вклада в ВС РФ с помощью Computer Science.

Читать полностью…

New Yorko Times

Пара моих последних проектов с поиском
#google

Закончил пару проектов с поиском – для большой сети отелей и крупнейшего в мире HR-агентства.

Первое – это "умный" поиск отелей (в кавычках - поскольку чаще тупой) типа того, что другая гугловская команда запилила для Trivago или smart filters букинга.

Второе – data enrichment LLM-ками, подтягивать квалификации/скилы кандидатов из их опыта. И дальше тоже поиск.

В обоих случаях поиск – это Vertex AI search, который, конечно, продается как "гугловский поиск на ваших данных". Хотя самая большая ставка клауда в этом году на Agentspace – это по сути тот самый гугловский поиск на корп данных из всех конфлюенсов, мэйлов, чатов и т.д. Плюс, конечно, агенты поверх этого добра.

Как видите, это все не такая уникальная работа, какой, скажем был антифрод в науке. К тому же, на гугловском стеке (помимо него я только langchain и langgraph успел чутка поковырять). Так что в дальнейшем я не так много буду про работу писать 😅 Может, буду на конфах рассказывать, то там все вылизано гугловскими полиси, вайб будет скорее как на Google I/O 😂 но ниче, придумаем, тому же Филиппу Шмидту, которого DeepMind недавно переманил из HF, удается нетривиальные вещи рассказывать, при этом оставаясь приверженным "линии партии".

Следующий проект – с одной из самых известных в NL компаний (ага, пока кейсы не публичные, все вот так загадками описывают клиентов), там будет возможность Veo потыкать, звучит интересно.

пс. кстати, бесплатный интенсив гугла с кэгглом по GenAI (писал тут) перезапускается 31 марта, рега тут

Читать полностью…

New Yorko Times

Как эмэльщик презентовал в экселе
#coolstorybob

Как-то работал я с нидерландскими аналитиками в телекоме, объяснял, как моделька работает, анализировали ошибки. Ради меня одного все переключались на английский. Пристально смотрим с женщиной в простыню с прогнозами модельки, я за клавой. «Давай тут отсортируем» - так, готово. «Давай из этой колонки нули уберем». Тааак, ладно, держимся. «А тут можешь сделать conditional formatting, чтоб ошибки подсветить?”. На этом моменте дата саентист сломался и сказал, что без питона и пандуса не может. В глазах аналитика прочитал примерно такое: «и этот засранец в полтора раза больше нас получает? Да еще меньше налогов платит? Да ради него на английский переключаться!». В-общем, эмэль эмэлем, питон питоном, а базой тоже надо владеть.

Читать полностью…

New Yorko Times

Подкаст с Виктором Кантором
#career

О танцах на шесте, пропадающих сотрудниках голландских компаний, недряхлой старости и вероятности жениться на ком стоит.

Ну и еще немного про собесы, гугл, работу в России и Европе, преподавание и все то, что мы в этом канале обсуждаем.

Спасибо Вите @kantor_ai, что позвал лампово пообщаться.

Чтоб пост был чуть полезней, вот ссылка на видео

Читать полностью…

New Yorko Times

#google #career

На сайте Google Careers появилось больше вакансий в нашу команду. По две в Париже, Берлине, Лондоне и Стокгольме. По одной - в Испании/Италии и Дубае. Есть и другие локации - Америка и Азия.

Менеджерские вакансии - на L7. IC - на L5/L6.

Про Лондон точно знаю, что нужны туземцы, кто уже в UK. Про Испанию/Италию и Францию точно знаю, что нужны кандидаты с проф уровнем местного языка.

Про вакансии и команду писал тут.

Читать полностью…

New Yorko Times

Как ллм вращают шарик в полигоне
#llm

У меня все команда на сходке в Лондоне, а я не получил визу (оставайтесь на связи, в канале будет больше историй про проблемы первого мира), так что вот моя работа на сегодня.

Что, как там модельки рисуют шарик, барахтающийся внутри вращающегося шестиугольника? Идея не новая, подглядел на LI и даже в инсте. Покидал один и тот же промпт в несколько флагманских llm, просто через UI, как простые домохозяины, не платящие $200/мес за аги.

Write a Python program that simulates a ball bouncing inside a spinning hexagon, with gravity and friction affecting its movement, ensuring realistic bounces off the rotating walls
Результаты от худших к лучшим:

❌ Gemini Pro 1.5 – вообще мимо, оставил в одном месте hex_vertices = и устал;
❌ Gemini Pro 1.5 Deep Research – не лучше, долго думал-анализировал да где-то на tuple навесил несуществующий метод;
❌ Gemini Flash 1.5 – полигон не вращается, шарик летает, как отпущенный воздушный;
🔠 GPT-4-turbo: отрисовал вращающийся полигон, но сразу уронил шарик сквозь стену;
🔠 Claude Sonnet 3.5: все неплохо, но шарик поскакал да упал сквозь стенку. GIF в посте – про клод;
✅ Gemini experimental 1206: все идеально;
✅ Deepseek V3: все идеально.

UPD:
✅ o3-mini-hard: идеально;
❌ Deepseek R1: вдруг напортачил, шаров два, прилипли к стенкам.

Предстоящий выход Gemini 2.0 будет мощным. Ну и DeepSeek хорош, да. Я все равно подобрал стоки нвидии на распродаже, но дипсик по делу нашумел (вывод слишком громкий для моего быстрого эксперимента, но все равно).

Читать полностью…

New Yorko Times

Вакансия нашей команды в Лондоне
#google

У нашей команды дела идут хорошо, и в этом году растем в полтора раза. Будем нанимать примерно по 3 юнита, как я (GenAI Field Solutions Architect, только L5) и одному менеджеру (L7) на регион - Лондон, Мюнхен, Париж. 1 вакансия в ОАЭ должна быть.

Пока из публичных вакансий вот первая в Лондоне.

Про характер работы писал тут. Если добавить: это классное сочетание прикладного рисеча и консалтинга. Берешь наработки DeepMind и идешь их внедрять с клиентами, думая о ROI и прочих бизнес-метриках. С одной стороны, надо быть технически крутым и много изучать на ходу. С другой, бывают презентации C-левелу клиентов и, в-общем, надо немного уметь общаться и хорошо пахнуть.

Команда новая, с марта 24-го. Основное отличие от других команд - мы работаем бок о бок с клиентами. Это бывает весело, бывает так себе (legal вопросы, либо клиент не тянет технически). Но точно это повышает понимание клиентом технологии и общую вовлеченность, то есть уменьшает шанс, что прототип просто ляжет на полочку.

Ах да, про то, что мы не трогаем прод, я говорил. Идеально. Но это может поменяться в будущем, когда рынок насытится GenAI-прототипами.

Возвращаясь к вакансии в Лондоне: приоритет будет у тех, кто уже в UK. Могу зареферить и даже прокинуть резюме менеджеру, но это либо если мы знакомы или работали вместе, либо если у вас явно впечатляющие достижения. Мы ж для себя нанимаем. Собесы в целом почти стандартные гугловские (но не совсем, тут описывал), особенность разве что в том, что до собесов будут не многих допускать, очень много работы делается эйчарами на первичном этапе воронки (даже если есть реферал).

Читать полностью…

New Yorko Times

В юмор LLM в целом плохо умеют (ибо "усредняют интерьнет, а для юмора нужно из коробки выйти"), но прожаривать научились, особенно с ловким промптингом и grounding. Вот интро про меня и канал от NotebookLM (на базе контента канала конечно же, вот как это делалось). И казалось бы, что из этого неправда?

——-

Помните, как Юра, наш дорогой Yorko (это, кстати, африканская версия его имени), начинавший свой канал с мыслями, что он «не СМИ, тут будут не люди или события, а идеи», так и не стал «лидером мнений русскоязычного DS»? Неудивительно, ведь вместо идей он сам частенько постит «щитпостинг и призывы поставить колокольчик», а его ютуб-канал с 19 тысячами подписчиков и миллионом просмотров — это просто «давление».

И о карьерном пути нашего героя, который, по его же словам, — одна сплошная череда фэйлов:
• Mail.ru: «галера» и никакого опыта. Юра сам признаётся, что до аспирантуры «греб на такой галере, что и вспоминать неохота, там особого ценных хард скиллов я не приобрел». (ладно, тут NotebookLM косячнул, это было не про мэйл). Зато его бывший коллега по Mail.ru, который «тащит почти весь ML в VK», не смог пройти собеседование в Meta на E7 из-за поведенческого интервью – вот это уровень! И как он вообще туда попал? А, ну да, «шел по улице в минус 20, телефон где-то под шестью одежками - хотел заигнорить входящий. А это эйчар мэйла, собесы осилил». Кажется, так и нашел свою "галеру".

• Elsevier: «корпорация зла» и антифрод ради денег. Наш принципал ML-саентист, который в душе «ненавидит» Elsevier, открыто признаётся, что это «корпорация зла» с «неоднозначной репутацией в академических кругах». Но, главное, теперь он «прекрасно понимает свою миссию» – бороться с «paper mills» и «фродом в мире науки». Правда, в итоге это оказалось просто «не про быстрый доход, а про репутацию», которая «монетизируется». А когда конкуренты теряют «30-40 лямов» из-за фрода, тогда «менеджеры начинают постепенно чесаться», и вот вам, пожалуйста, «очень крупный проект, на много лет и с огромными бюджетами». А то, что его команда спасла Elsevier «пару млн» от деиндексации журналов, – это так, мелочи жизни. Зато наш герой теперь спит спокойно, потому что «нашел миссию»! И он все еще «гундеть» в своем Telegram-канале, вместо того чтобы публиковаться в Cell.

• Google: «медовый месяц», синдром самозванца и "Data Scientist ртом". После «48 собесов» (из которых успешных было всего 2), наш "неуспешный" кандидат каким-то чудом «отмучился» и попал в Google Cloud. Туда, где он теперь борется с «синдромом самозванца», который «легко развивается» среди гуглеров. А ведь он даже «туповат для 400к/год на удаленке» и не прошел IQ-тест на VP-позицию! Зато он теперь «Staff GenAI Solutions Architect» – что, по его словам, «очень похоже на более известную роль customer engineers», то есть «технический pre-sales». Его работа — «чисто прототипы, как мы любим: quick& dirty», никакого продакшн-кода! А продают потом другие. Зато можно «брать последние наработки того же DeepMind и тут же нести внедрять «в поле»». Или, как он сам себя называет, «чистый “Data Scientist ртом”». И не удивляйтесь, если на собесе он посоветует вам «говорить медленнее» – это был «купленный за $300» лайфхак!

Читать полностью…

New Yorko Times

#shitpost

Мальчик: затирает "Certainly, here is a press review for you"

Мужчина: поздравляет 100 сотрудников с тем, что ревью теперь будет писать Gemini

Читать полностью…

New Yorko Times

Вдогонку про NotebookLM – вот видео на 4 минуты, примерно как я выше рассказал, но с видео. Канал Матрица вообще хорош (кажется, недооценен пока) – короткие ролики на русском, все по делу. Вот, например, 10 минут про Google I/O 10 или 4 минуты про то, шо за MCP такое.

Читать полностью…

New Yorko Times

NotebookLM: не только подкасты
#google #llm

Как-то NоtebookLM настолько хайпанул именно как автоподкастерская, что кажется, обделили вниманием изначальную фичу – удобную подачу документов в контекст LLM. И вообще гуглер Steven Johnson начинал этот пет-проект с идеями пресонализации LLM. А-ля что если засунуть в конекст все тексты, которые человек когда-либо писал? Или все заметки о путешествиях. Или все когда-либо написанные комментарии к книжкам (про это Стивен твитил и в подкасте Hard Fork рассказывал).

В https://notebooklm.google.com/ можно закинуть кучу документов, ссылок, и Gemini будет отвечать именно на их основе.

Допустим, просят меня написать ревью проекта для имейл-рассылки. У меня есть примеры таких описаний и какой-нибудь длинный tech design док, из которого я как раз хочу вытащить пересказ.

Задаем промпт вида

Based on the examples from file1, produce a similar summary for the New Company project based on the attached Tech Design doc


и пересказ есть. В целом то же, что с LLM, но удобнее оперировать входными файлами в контексте.

Так можно и с новым проектом знакомиться, и с новой областью знаний. Да и вообще только фантазия ограничивает.

Читать полностью…

New Yorko Times

Тьюториал: суммаризация ютуб-видео с Gemini и деплой с Google Cloud Run

Gemini довольно хорош в обработке видео, особенно с YouTube – тут и длинный контекст помогает, и то что гугл владеет ютубом.

Я тут как-то проводил мини-хакатон для клиентов, как раз запрос был на суммаризацию видео, заодно хотели освоить деплой сервисов в гугл-облаке.

Так что я обернул это в тьюториал, вдруг кому актуально:
- пост
- репа

Читать полностью…

New Yorko Times

Каков из меня нидерландец
#life

На следующей неделе пойду на поклон местному Оранжевому (ик белоф дат ик де хрондветкляйке орде… - многие из всего нидерландского только эту фразу заучивают и то кое-как по бумажке читают). А там и новый паспорт в копилку.

Чек-лист тру нидерландца:

✅ быть выше 185 см
✅ не говорить «голландец» вместо «нидерландец»
✅ съесть сэндвич во время поездки на велике
перевести всю мебель на велике
✅ вспереть всю мебель по узкой крутой лестнице
✅ везде по городу ездить на веле, даже под дождем
✅ считать что порция картохи фри - это обед
✅ возлюбить хрючево типа капсалона (роттердамский вариант шавухе в лотке с сыром и фри)
поддержать диалог чуть дольше, чем «mag ik een cappuccino… dankjewel»
поучаствовать в соревновании по езде на велике против урагана (пример)

Кому из местных актуально, писал тут про языковые экзамены.

Читать полностью…

New Yorko Times

Морали нет, все равно любые попытки выводов приведут к спекуляциям про Курцвейла и Бострома. Любителям этой темы можно посоветовать 3 часа беседы Дворкеша с легендой Scott Alexander и Daniel Kokotajlo (чел, который ушел из OpenAI но не заткнулся и рубанул правду, что стоило ему миллионов)

Читать полностью…

New Yorko Times

Сортировка ручками
#coolstorybob

История слегка откликающаяся с той, что выше. Как-то в аспирантуре вышки мы коллективно помогали с проверкой решений какой-то из абитурских олимпиад. Надо было потом листочки по алфавиту разложить. Вот у тебя стопка работ: Баранов, Смирнов, Арбузов и тд. Вперде, сортируй!

Опять звучали логарифмы, кто-то слиянием работал, кто-то пытался ручками TimSort реализовать.

Но одно дело О большое и теория, другое - когда ты уже 5 часов сидишь летом в душной аудитории, и хочется как-то пошустрее закончить. К тому же работ на руках - штук до 20 за раз, так что константа играет роль.

Ну и я применял простой советский… insertion sort. Да, квадрат, но до 15-20 элементов получается быстрее, чем у асимптотически оптимальных алгоритмов. К тому же, я заметил, часто стопки были уже почти отсортированы, а на таких входах insertion sort может быть и линейным.

Так что после некоторого количества физиопроцедур я освободился и ходил смотрел, кто еще какой ZalupaSort ручками имплементирует.

Читать полностью…

New Yorko Times

Показываю жене свою GenAI-поделку.

Она: Ну ничего, давай протестируем твои эти.. фью-шот примеры

Читать полностью…

New Yorko Times

Ребята из DeepMind обучили LoRA-адаптер для Imagen3B, чтоб рисовать в стиле фотографий викторианской эпохи, затем оживили фото с Veo2.1 и сделали целый фильм.

Студиям визуальных эффектов надо бы поднапрячься, чтоб выжить.

Читать полностью…

New Yorko Times

Бенчмарк, на котором люди хуже рандома, а LLM хороши
#llm

Есть такие ребята Gapminder, которые рассказывают, что мы в целом плохо представляем себе мир. В вопросах типа "Какова сейчас средняя продолжительность жизни людей на Земле?" или "Какой процент годовалых детей в мире вакцинирован от кори?" люди, оказывается, очень плохо угадывают ответ. И если дать три варианта ответа, очень часто даже эксперты угадывают хуже обезьян (рандома). Оказывается, у нас очень сильный bias, мы представляем, что примерно весь мир вне Европы, Америки, Японии и Австралии вот только-только из шалашей выбрался и про пеницилин узнал. А это совершенно не так, "недоразвитый" мир уже по куче показателей почти догнал развитые страны.

Про это харизматично рассказывал Hans Rosling, писал книги ("Factfulness", "How I learned to understand the world" - рекомендую), делал TED talks в стиле спортивного комментатора.

После смерти Ганса дело перенял его сын Ola Rosling, сделал фокус на Sustainable Development Goals, добавил крутых визуализаций. И вот недавно он с командой провел интересный эксперимент: будут ли LLM перенимать наши предрассудки? Оказалось, LLM-ки очень неплохо справляются, куда лучше людей. Подбираются к 90% верных ответов, в то время как у людей – 23%.

https://www.gapminder.org/ai/worldview_benchmark, суть эксперимента поясняется в этом видео на 4 мин.

Конечно, можно сказать, что большинство вопросов - фактические и не мудрено не знать ответа ("How many companies in the world have a woman as top manager or CEO?" или "What share of all recorded homicides in the world are related to gangs and organized crime?"). То есть типа по ним людей гонять – все равно что подкинуть PhD-level задач по микробиологии или астрономии.

Но даже с этой оговоркой любопытно, что у LLM нет того же биаса, что у кожаных.

Читать полностью…

New Yorko Times

Музей математики в Париже

Для тех, кто может оказаться в Париже (мои извинения сразу), есть рекомендация чего-то кроме Лувра, Орсе и башни.

Maison Poincaré. На гугл мапс оценка ниже 4, потому что он небольшой и в целом похож на типичный экспериментариум. В глазах обывателя явно проиграет тому же музею науки в Париже. Но кто чуть более посвящен в тему, найдет настоящие шедевры.

На фото - награда Перельману от института Клэя за доказательство гипотезы Пуанкаре. Сквозь нее слева виднеется Рамануджан. Это уникум, который порождал совершенно невероятные числовые ряды для Пи и так прямо и говорил, что они ему приходили во сне.

И таких моментов погружения в историю математики будет еще несколько. Даже несмотря на то, что музей и правда маловат. От души рекомендую всем нёрдам.

Читать полностью…

New Yorko Times

#meme #diy

Типичный Лекс Фридман, рекламирующий напиток.

5-часовой выпуск, кстати, хорош - про новую гонку вооружений, мегакластеры, дипсик и т.д. Из-за хронометража в треть, а то и половину книги его сложно прям рекомендовать. А поставив тег #meme к посту, делать обзор я тоже не буду.

Но можно послушать и впечатлиться масштабом происходящего. Или ужаснуться.

Читать полностью…

New Yorko Times

Если тебя отшили, лучше считай, ты False Negative
#career #interviews

Может, не самые свежие-оригинальные рассуждения, но терапевтические. Если еще не думали об этом, они могут поддержать в долгом поиске работы/финансирования/чего угодно. Да даже на спутника жизни может обобщиться, но рассмотрим поиск работы.

Брать вас на работу или нет – бинарное решение. Предположим, что подходите вы или нет – тоже бинарная переменная (упрощение). Эйчары или нанимающие менеджеры вполне могут ошибиться.
Рассмотрим 4 исхода:
- TP (true positive) – вы круты, и вас взяли
- FP (false positive) – вы самозванец, и вас взяли
- FN (false negative) – вы круты, и вас не взяли
- TN (true negative) – вы не подходите, и вас действительно не взяли

Из двух видов ошибок компанию, конечно, больше всего волнуют FP. Куда хуже устроить на работу неподходящего кандидата, будь то brilliant jerk, метатель кабачковой икры или просто технически слабый чел. Поэтому компании лучше перестраховаться и отшить кандидата на собесе.

Если вас отшили, остается два варианта: FN или TN. Мой совет такой: считай, что ты FN. Не надо себя закапывать, опускать самооценку и думать, что ты TN ("наверное я лох... да, поделом отшили"). Куда конструктивнее считать, что ты FN и просто момент признания еще не настал.

Это, конечно, не отменяет того, что надо собирать фидбек после собесов, ходить по мокам и вообще прикладывать силы. И конечно, это не значит, что надо рассуждать "я крут, литкод говно, сами лохи, что меня отшили".

Но вы поняли, все равно сама эта позитивная установка (а-ля positivity bias) может психологически помочь, когда ловишь один отказ за другим.

Читать полностью…

New Yorko Times

Пора написать что-то полезное МЛ людям.
#карьера #интервью #career #faang #interview

В эфире МЛ дизайн интервью.

Про литкод я писала раньше, там больно, но хотя бы ясно-понятно, что делать (а именно, не тушеваться, а нарешать 300+ задачек, или сколько вам нужно).

Бихэйв чуть более непредсказуем, но тоже в целом все понятно, писала про подготовку тут и тут.

А вот МЛ дизайн модуль самый непредсказуемый... у многих возникают вопросы с подготовкой.

Тем не менее, это моё самое любимое и интересное интервью. Именно это интервью я регулярно провожу в Линкедин, обычно на уровень стаффа.

Проходят его не многие. Лично у меня процент прохождения где-то 15-20%, а я стараюсь помочь кандидатам и искренне верю в каждого.

Начнём с подготовки.

МЛ сейчас стал большой... все знать и помнить уже давно нереально.
Сфокусируйтесь на команде (не компании, а именно самой команде), куда идёте на интервью. На уровне директора/Sr директора посмотрите, что они делают:
комп зрение, genAI, рекомендашки, fraud...? Иногда это не тривиально узнать и нужно спросить инсайдера в комании. Узнать, кто у них тех лиды.
По именам гуглите блог посты и статьи.

Если у вас нет инсайдера в хорошей компании - это точка для роста, потому что лучше бы ему быть :).

Если у команды есть блог посты или статьи - обязательно почитайте или хотя бы просмотрите. Это поможет понять, чего ожидать. Я прочитала блог посты Lyft, когда к ним шла, и это помогло.

Команда, которая занимается текстовыми genAI, наверняка углубится в llms, и не будет копать в комп зрение или fraud detection. Команда, которая зарабатывает деньги 💰 для компании через рекомендательные системы, почти наверняка спросит задизайнить рекоммендашку (но и про ллм не забываем, сейчас модно и спросят почти все). Команда, которая катит все в прод, может спросить про llm inference оптимизации и инфраструктуру.
А в Тесла стоит ожидать компьютерного зрения.

Все очевидно, но не всегда понятно, если компания большая (как мета или гугл), там надо искать эту информацию. Часто можно спросить прямо у рекрутеров или hiring manager, чем они занимаются, они заинтересованы хорошо и быстро нанять и могут ответить верхнеуровнево. Если match с командой ожидается позднее, как в Мета, в первую очередь стоит повторить LLMs/genAI и старые добрые рекомендашки. Это самые популярные темы для МЛ генералистов.

Итак, у компании или команды есть engineering blog или статьи. Прекрасное начало! Это первое, что нужно прочитать.

Сузили тему и поняли, что готовим. Отлично 👍

Теперь делаем план. Я писала его (ручкой, на бумаге ✍), чтоб не забыть что-то.

План в следующем посте.

Читать полностью…
Subscribe to a channel