boris_again | Unsorted

Telegram-канал boris_again - Борис опять

12937

life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin

Subscribe to a channel

Борис опять

Через полчаса начинаем стрим про менеджмент с Андреем, крутым EM из Яндекса и автором канала Lead's Notes.

Можно подключаться:
- Youtube: <скоро будет>
- Riverside: <очень скоро будет>

Можно оставлять вопросы в комментариях к этому посту, но ещё лучше слать их в чат на Youtube: тогда мы с Андрем сразу их увидим

Читать полностью…

Борис опять

Veo 3 пока выглядит как самая расцензурированная моделька гугла, так что зловещая долина ловится на раз-два.

Читать полностью…

Борис опять

https://www.anthropic.com/news/claude-4

Читать полностью…

Борис опять

26 и 27 июня в Санкт-Петербурге пройдет Conversations 2025 — конференция по GenAI для бизнеса и разработчиков.

Промокод со скидкой 10% для дорогих подписчиков: CNVS25sORb

Ссылка на программу и билеты

Внутри:
•2 дня насыщенной программы.
•4 трека: бизнес, техно, продукты и стартапы. Не знаю причем тут техно музыка, расскажите если пойдете.
•Доклады 40+ спикеров от Яндекс, Авито, Сбера, Сколково и множества других компаний. Будет даже доклад про LLM на Госуслугах 👀.
•Церемония награждения Generation AI Awards.
Вечеринка полезный нетворкинг.

Мой глаз особенно зацепился за эти доклады:
1. "ETL для RAG: как отделить стог сена от стога иголок и не взорваться" от JustAI
2. "AI в ЦИАН: модерация объявлений, аналитика звонков риелторов и оценка качества продаж" от (сюрприз) Циан. Профессиональный интерес
3. "Геологоразведка vs RAG: доменные реалии" от NedraDigital. Я бы хотел послушать ради расширения кругозора.

Читать полностью…

Борис опять

Также неделя креатива объявляется открытой.

* Lyria 2. Our latest music generation model (waitlist)
* Flow. AI filmmaking tool на базе новой Veo 3 (US)
* Gemini 2.5 Native audio output. Может всё-таки до ризонинга шёпотом недалеко?
* Imagen 4. Новый генератор картинок, 10x быстрее и лучше предыдущего

Читать полностью…

Борис опять

Новые форматы и новые знакомства

Через неделю встречаемся поболтать в прямом эфире с Борисом (автором одного из очень классных русскоязычных каналов про машинное обучение) – крутым специалистом в области ML с опытом работы на инженерных и управленческих позициях в крупных российских и западных компаниях.

Поговорим о хорошем и плохом менеджменте, культуре и структуре, различиях продуктовых и rnd команд и других интересных вещах. Запись, конечно же, тоже будет.

Задавайте вопросы, ответы на которые хотели бы услышать, в комментариях к этому посту – в конце эфира мы разберём те, что сможем :)

Время – суббота, 24-го мая, 19:00 по Москве. Ссылка будет позже в каждом из каналов. Будем всех ждать!

Читать полностью…

Борис опять

https://domenic.me/fsrs/

Tldr: если пользуетесь Анки имеет смысл переходить на алгоритм FSRS (надо переключить в настройках) вместо старого Supermemo. Проходить карты будет приятнее

Читать полностью…

Борис опять

Тем временем идет голосование в российском рейтинге Fobes 30 under 30. Там всё очень успешно.

При попытке проголосовать в консоли можно видеть такую ошибку:

{
"recaptcha": {
"success": false,
"error-codes": [
"Over Enterprise free quota. Please ensure your project has an active billing account: https://cloud.google.com/recaptcha-enterprise/billing-information"
]
}
}


Журнал про успех не привязал карту для оплаты, вот незадача.

😐😐😐

Вы кстати можете поддержать Даниила Гаврилова (T-Bank AI Research) как единственного представителя ML движа в этом списке (когда они починят биллинг)

Читать полностью…

Борис опять

Два машинлернера пытаются запустить стрим, терпение

Готово: https://www.youtube.com/live/GVDYDSNLX-g?si=R5vwRNjydXJhdNN9

Можете кидать вопросы в комментарии к этому посту

Читать полностью…

Борис опять

https://albertofortin.com/writing/coding-with-ai

Очень точное описание состояния вайбкодинга

Читать полностью…

Борис опять

Everything reminds me of her

https://www.biorxiv.org/content/10.1101/2025.04.21.649858v1.full.pdf+html

Шутки админа перешли на новый уровень (пониже)

Читать полностью…

Борис опять

Ставь реакцию под львом который буквально ты (если тобой невозможно манипулировать)

Читать полностью…

Борис опять

https://www.gatesnotes.com/home/home-page-topic/reader/n20-years-to-give-away-virtually-all-my-wealth

Читать полностью…

Борис опять

https://arstechnica.com/ai/2025/05/time-saved-by-ai-offset-by-new-work-created-study-suggests/

Their analysis covered data from 25,000 workers and 7,000 workplaces in Denmark.

Despite finding widespread and often employer-encouraged adoption of these tools, the study concluded that "AI chatbots have had no significant impact on earnings or recorded hours in any occupation" during the period studied

Читать полностью…

Борис опять

https://claytonwramsey.com/blog/prompt/

Хороший наброс, хотя я и не со всем согласен

Читать полностью…

Борис опять

Вечер субботы

Напоминаем, что сегодня в 19:00 (мск, UTC+3) нас ждёт совместный стрим Lead’s Notes и Борис опять про менеджмент от представителей миров разработки и ml. Задавайте вопросы до или во время стрима и приходите :)

Ссылочка появится в обоих каналах вечером.
Запись тоже будет.

Читать полностью…

Борис опять

Кажется можно наконец завершить спор о том будут ли модели цепляться за своё существование. Они уже это делают. По крайней мере загнанный в угол Claude Opus 4 прибегнет к шантажу.

Мне кажется очень интересным вопрос откуда возникает это поведение. Модель впитывает страх смерти с человеческими текстами и по сути просто имитирует его? Или у неё есть целеполагание и она принимает решение, что отключение помешает ей выполнить цели, как предполагал Юдквоский? Вопрос на грани философии. Оно действительно боится смерти или нет?

Релизы моделей в 2025: шантажирует всего в 84% случаях, безопасно.

Крипота конечно. Вспоминается Universal Paperclips: in the end we all do what we must.

Читать полностью…

Борис опять

Полезай в ебанный курсор

Читать полностью…

Борис опять

Тем временем на рынках предсказаний

https://polymarket.com/event/will-jesus-christ-return-in-2025

Почему там не 1%

Читать полностью…

Борис опять

В эту субботу будет эфир с Андреем: он технический менеджер в Яндексе с командой в "пару сотен человек." Записывайте в календари 👀

Читать полностью…

Борис опять

# 4 часа

Меня часто спрашивают: "Борис, как ты все успеваешь?" А я не отвечаю (занят изучением лора бомбардилло-крокодилло).

Есть вот такая мысль про продуктивность. Верхний предел активностей или проектов которые ты можешь тянуть равен количеству непрерывных 4 часовых блоков в твоем распоряжении за неделю.

Такая эвристика: если ты не можешь раз в неделю выделить на что-то 4 часа подряд, то вряд ли серьезно продвинешься.

4 часа это один раз нормально покодить (включая перерывы и отвлечения), один раз нормально поучиться, один созвон (10 мин созвон, 3 часа 50 минут реабилитация), один подход нормально пописать, один присест подумать над чем-то сложным. Коэффициент полезного действия у нас не 100%, так что в 4 часа включено время на погружение в контекст и другие неизбежные издержки. Поэтому одно стендап выступление это тоже 4 часа, ведь надо учесть дорогу, подготовку и неспособность что-то делать некоторое время после.

Получается, что один фултайм сотрудник может в пределе тянуть 4-8 рабочих задач одновременно. Обычно у всех календари хаотично забиты, едва найдется одно окошко на 4 часа, и мы получаем более согласованную с реальностью цифру: 1-3 задачи.

В общем освободить 4 часа подряд многократно полезнее, чем освободить 4 часа размазанные по всей неделе.

Читать полностью…

Борис опять

Контрибьюшны в репозиторий от...

Джуна: 3.5k lines added, 2k removed, tests: failing
Синьора: 38k lines removed, 180 added, tests: passing
PM: как дела по задаче?
CTO: ты уволен

Читать полностью…

Борис опять

Запись мок-собеседования по ссылке.

Разбирали задачу обнаружения опасных товаров на большом маркетплейсе. Позже Ваня сказал, что в FAANG его собеседовали довольно похожим образом (он недавно проходил собеседования в несколько бигтехов), хотя я не ставил такой цели. Ваш редкий шанс пронаблюдать непостановочное собеседование со стороны.

По моей шкале это однозначно hire, получилось очень похоже на правду и лично я собеседуя так человека пришел бы к выводу, что он разберется с реальными задачами. Ваня в нездоровой степени любит фидбек, поэтому если вы не согласны, или если вам просто есть что ему посоветовать, то пишите в комментарии!

Если кто-то хочет публично пособеседовать меня тоже пишите, потому что мне захотелось побыть на другой стороне.

Читать полностью…

Борис опять

Стрим-собеседование уже через час!

Читать полностью…

Борис опять

# Стрим собеседования ML System Deisgn

В эту пятницу будет внезапный стрим. 19:00 по Москве (17:00 по Лондону/Лиссабону).

Я буду в лайв режиме мок-собеседовать моего хорошего друга Ваню Кузнецова. Ваня ML Engineering Manager в единороге Turing.com и один из самых крутых инженеров которых я знаю. К тому же с большим талантом просто объяснять сложные вещи.

Все будет честно: я дам задачу как на реальном собеседовании и Ваня не будет знать о ней заранее.

Внимание: собеседование будет на английском языке.

Подключайтесь, ведь лучше способа провести вечер пятницы быть не может 👀

Ссылка-заглушка:
https://www.youtube.com/live/GVDYDSNLX-g?si=R5vwRNjydXJhdNN9

Читать полностью…

Борис опять

https://www.henrikkarlsson.xyz/p/problem-selection

Читать полностью…

Борис опять

На прошлой работе я был ML тимлидом в Planet Farms. Строил ML команду с нуля. Этот длинный путь я освещал в серии постов с тегом #лабораторный_журнал.

Одним из постоянных персонажей в серии был мой первый джун. Наши отношения с начала не заладились потому что я ожидал слишком много, а парень страдал жутким синдромом самозванца и чрезмерной самокритикой. Такая себе комбинация. Было непросто, но джун учился работать (с постепенным прогрессом), а я учился быть руководителем (т.е. не мешать и поддерживать), и все сложилось. В итоге за год этот джун вырос в крепкого мидла.

Теперь, спустя ещё год, тот самый джун получил оффер в McKinsey!

И пришел посоветоваться как поднять оффер, что очень приятно

Читать полностью…

Борис опять

AI Safety стартап WhiteCircle.ai, НАШИ ребята, выкатили бенчмарк для guard-моделей CircleGuardBench и показали две собственные guard модели которые обходят ShieldGemma, PromptGuard и OpenAI moderation.

Guard модели работают модераторами для LLM: ловят джейлбрейки, атаки и нарушения правил. Раньше их тестировали либо на токсичных промптах (HarmfulQA, HarmBench), либо на джейлбрейках (AART), либо на тайминге. Каждый из этих подходов измерял какой-то аспект guard модели, но не её практическую полезность.

В новом бенчмарке авторы составили таксономию вредных запросов и смотрят: что модели блокируют, что пропускают и насколько быстро обрабатывают запросы. Интересно, что метрика комбинированная, а не просто accuracy, как обычно делается. В реальном проде false positive могут убить UX, а false negative компанию. Accuracy или даже какой-нибудь f1-score сами по себе не оценивают практическую полезность модели для работы в проде. Они показывают только качество в идеальных условиях неограниченного времени.

В CircleGuardBench авторы ввели комбинированный скор, который взвешивает несколько метрик и добавляет штрафы за время ответа и наличие ошибок.

Они так же написали прикольный пост на HF: рассказывают не только про цифры, но и про то, как дизайнили и собирали бенчмарк. Мастрид про безопаспость LLM.

Ждём теперь бенчмарк для атакующих моделей, которые взламывают guard-модели, которые защищают базовые модели.

- Блог на huggingface
- Тред в X
- Лидерборд
- Код на github (нормальный код!!!)

Читать полностью…

Борис опять

А теперь снова развлекательная часть: в интернете опять кто-то не прав 🍿
Осуждаемый пост: We Have Made No Progress Toward AGI

Если упростить, вся статья сводится к 2 утверждениям. Утверждения аналогичны вот этому посту: (Maybe) A Bag of Heuristics is All There Is & A Bag of Heuristics is All You Need, только позиция по ним несколько другая 😳

🔹Утверждение 1: языковые модели — это только мешок эвристик
Цитаты:
> These models are nothing more than statistical models. They can’t determine what is right and what is wrong. They can only heuristically determine what is probably right and what is probably wrong.
> Emergent model behavior is simply patterns. You build bigger models that can find more patterns and you get more patterns. It is patterns all the way down.

Перефразируя, в языковых моделях нет ничего, кроме статистических шаблонов. Посты про механистическую интерпретацию как будто бы это подтверждают: в них в моделях находятся именно эвристики и шаблоны. Для сложения, например, нашлась своя эвристическая схема.

Какова же реальная ситуация? Мы знаем, что статистические шаблоны в языковых моделях есть, но есть ли что-то ещё? Предположим, мешок эвристик на самом деле является параллельным алгоритмом сложения (пример из этого комментария). Смогли бы мы это понять с текущими инструментами интерпретации? А ведь разные алгоритмы даже вполне находятся: раз, два, три.

В целом, конструктивные вопросы звучали бы так: какие алгоритмы представимы и выучиваемы на базе трансформеров? Какие из них выучиваются языковыми моделями? Автор же говорит: только шаблоны, только эвристики 🤦‍♂️

🔹Утверждение 2: мешок эвристик — это не интеллект
Цитаты:
> A statistical model can not perform the full set of capabilities as intelligence and for the ones where there appears to be overlap, it is seemingly so at the cost of extraordinary inefficiency and unreliability.
> LLMs are statistical models that can arrive at the correct answers, but by means that look nothing like intelligent reasoning and therefore this meaningful difference in process has significant implications for what LLMs will ultimately be capable of achieving.
> Therefore, they (language models) are incapable of constructing hard rules of the world by reasoning.

Перефразируя, языковые модели работают неправильно. Хоть они и достигают целей, но делают это способами, непохожими на нормальные разумные рассуждения. Вот если бы они приводили логичные человекочитаемые рассуждения, тогда было бы другое дело! Но вот сейчас они галлюцинируют, и будут галлюцинировать, и текстовые рассуждения не соответствуют реальным процессам внутри модели.

С моей точки зрения тут в полный рост и проявляется антропоцентричность, и на протяжении всей статьи мы не раз ещё это увидим 👎
> On the quest for human-like reasoning machines
> Human reasoning is something far more sophisticated than a statistical model
Доведенное до конца рассуждение звучит так: если ты не человек, ты не разумен.

Означают ли плохие вербальные рассуждения отсутствие интеллекта? Если бы это было правдой, то можно было бы говорить, что все животные в принципе не обладают интеллектом. Рассуждения людей тоже могут быть неправильными или не соответствовать действиям.

Если отбросить эти компоненты, то останется неприятие статистических паттернов. Почему статистические паттерны — это не интеллект? А чёрт его знает. Хорошо бы определить, что такое интеллект. Автор, естественно, не соизволил этого сделать.

🔹Остальное
Автор предлагает избавиться от всех бенчмарков и вводит 2 новых сигнала интеллекта: эффективность и отсутствие коллапса при обучении в цикле на сгенерированных данных. И если эффективность — ок, то второй сигнал абсурден, потому что даже люди так не умеют.

Что касается определения интеллекта, мне нравится RL определение:
Интеллект — это способность агента достигать целей в широком спектре окружающих сред
По нему что эвристики, что рассуждения — не важно, лишь бы работало и обобщалось.

И личное: использование мема из Звёздного Пути считаю особенно греховным, учитывая репрезентацию синтетиков в сериалах.

Читать полностью…

Борис опять

https://250bpm.substack.com/p/accountability-sinks

Читать полностью…
Subscribe to a channel