life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin
https://github.com/hugomd/parrot.live
Просто исполни эту команду не задавая вопросов
Читать полностью…
curl parrot.live
Формально у меня сегодня последний день в Neon, потому что я оказался среди поглощенных кирпичным заводом, на котором - пока столь же формально - начинаю работать завтра.
Поэтому символично, что сегодня успели зарелизить app.build - продукт, над которым мы небольшой командой работали с февраля. Это just another end2end генератор CRUD веб-приложений от промпта до деплоя.
Он полностью опенсорсный (можно покопаться в истории и увидеть все мои коммиты в стиле “maybe fix a lot of things”), работает как CLI и обычно генерит скорее работающие приложения. Можно сгенерить на наших серверах, можно развернуть у себя (все равно понадобится gemini и claude API, но можете прислать PR с поддержкой любимого LLM-провайдера). Шероховатостей еще много, но уже скорее работает, чем нет, так что пробуйте и присылайте баг-репорты!
прив
мы там небольшую статейку на мидиум дропнули, где рассказываем, как инфру для ллмок строили, которая пытается унифицировать чужие модели через openrouter/openai и селфхост модели, которые не fully openai compatible (у нас например модель умеет в некоторые специальные content type, которых в опенаи нет, поэтому ее чисто через vllm serve не сервим; плюс хочеца еще всякий наркоманский роутинг делать, который сами сможем крутить вертеть как хотим). сама статья чисто инженерная и больше про дизайн системы, нежели чем про то, как мы ругаясь матом vllm патчили, но мб кому-то будет полезно
shimovolos.stas/running-llms-in-production-building-scalable-infrastructure-without-reinventing-the-wheel-1b9fa61dbb77" rel="nofollow">https://medium.com/@shimovolos.stas/running-llms-in-production-building-scalable-infrastructure-without-reinventing-the-wheel-1b9fa61dbb77
лайки и помидоры приветствуются
Все говорят про опасность ядерного оружия, но я считаю это булщит и запугивание.
Если вдруг кто-то захочет применить ядерные ракеты то его сразу остановят. Да и никто не захочет, зачем ему это? Никому это не выгодно.
Ракеты не летают без электричества, так что в крайнем случае можно просто выключить свет.
Да и вообще, зачем ядерным ракетам вредить людям? Ядерные ракеты не разумны, у них не может быть желания сопротивляться отключению или страха смерти.
Я думаю все разговоры про опасность ядерного оружия просто выгодны крупным компаниям которые хотят затормозить конкурентов. Если бы не они мы могли бы построить ядерный реактор в каждом доме.
#щитпостинг
В машинном обучении всё так быстро меняется!
Тем временем Розенблатт 1958, вводя перцептрон.
It's just scale:
... the probability that a learned association of some specific stimulus will be correctly retained typically approaches a better-than-chance asymptote as the number of stimuli learned by the system increases. This asymptote can be made arbitrarily close to unity by increasing the number of association cells in the system.
...probability that a stimulus which has not been seen before will be correctly recognized [...] approaches the same asymptote as the probability of a correct response to a previously reinforced stimulus.
The performance of the system can be improved by the use of a contour-sensitive projection area, and by the use of a binary response system, in which each response, or "bit," corresponds to some independent feature or attribute of the stimulus.
The question may well be raised at this point of where the perceptron's capabilities actually stop. [...] The system appears to be potentially capable of temporal pattern recognition, as well as spatial recognition, involving any sensory modality or combination of modalities. It can be shown that with proper reinforcement it will be capable of trial-and-error learning, and can learn to emit ordered sequences of responses, provided its own responses are fed back through sensory channels.
By combining audio and photo inputs, it is possible to associate sounds, or auditory "names" to visual objects, and to get the perceptron to perform such selective responses as are designated by the command "Name the object on the left," or "Name the color of this stimulus."
... it has been proven that if the values of the A-units are allowed to decay at a rate proportional to their magnitude, a striking new property emerges: the perceptron becomes capable of "spontaneous" concept formation. That is to say, if the system is exposed to a random series of stimuli from two "dissimilar" classes, and all of its responses are automatically reinforced without any regard to whether they are "right" or "wrong," the system will tend towards a stable terminal condition in which (for each binary response) the response will be "1" for members of one stimulus class, and "0" for members of the other class.Читать полностью…
Reinforcement Learning for Reasoning in Large Language Models with One Training Example
https://arxiv.org/pdf/2504.20571
Очень интересная статья, не только своим основным клеймом, который и так сам по себе довольно удивителььный и неинтуитивный, но и такими же неожиданными выводами в аблейшенах.
Как понятно из заголовка, модель тренируют с помощью обычного GRPO всего на одном примере. И качество на тесте действительно растет, при чем со временем оно сходится к качеству модели, которую обучали на датасете обычного размера в 7.5k наблюдений. К чести авторов, помимо просто качества на тесте они репортят еще и среднюю accuracy на 6 разных математических бенчмарках – там оно тоже растет.
При этом по графику видно, что изначально модель очевидно осуществляет reward hacking – то есть просто учится отвечать в правильном формате (здесь это ответ, заключенный в \boxed{}) – после этого точность значительно падает, и только где-то на 300-ом шаге начинает расти обратно, видимо, засчет реально выросших способностей к ризонингу
Как выбирать один единственный пример для обучения? Вообще можно взять рандомно и увидеть какой-то нетривиальный прирост качества (в статье 30+% для рандомного выбора). Но самый оптимальный в статье выбирали по historical accuracy. Модель тренировали несколько эпох на полном датасете и для каждого примера замеряли, может ли модель его решить в конце эпохи. Лучший пример в этом плане тот, где вариация accuracy во время тренировки самая большая. Мотивировано это тем, что для RL обучения очень важна вариация сигнала от реворда, и тут мы можем ожидать, что тренируясь на таком примере, реворд не будет константным (не будет ситуации, что пример каждую эпоху либо идеально решен, либо не решен вообще никогда).
Интересно, что в итоге лучший пример, который использовали авторы, 1) не сложный – модель без тернировки как правило может его решить вплоть до последнего шага, 2) имеет неправильный ground truth ответ – верным является решение 12.7, а в датасете стоит 12.8
Самый неожиданный клейм статья – феномен, который авторы назвали post-saturation generalization. Accuracy на тренировке как правило достигает 100% за первые 100 шагов обучения, но качество на тесте продолжает расти дальше, даже после 1500-ого шага. При этом, на тренировочном примере происходит полный оверфит: модель в какой-то момент начинает выдавать бессмысленную мешанину из токенов на смеси языков, посреди этого все равно выдает правильный ответ в \boxed{}, но на тестовых данных при этом продолжает отвечать нормальных связным текстом (!). Для SFT моделей я никогда ничего похожего не видела, и если этот феномен воспроизводится на других данных, то это очевидно огромное преимущество RL. Если оверфит на тренировочных данных не транслируется в плохое качество на тесте, то теоретически можно тренироваться на одном и том же датасете огромное количество раз, и модель продолжит учиться чему-то новому дальше. На этом фоне мне вспомнились заголовки из ноября 2023 о том, что алгроитм q*, который по слухам разрабатыл Суцкевер до ухода из OpenAI, должен был решить проблему заканчивающихся данных для обучения моделей. Получается, RL-ем действительно ее можно решить не только в том смысле, что это более эффективно, чем SFT, но и в том понимании, что здесь гораздо сложнее упереться в лимит по данным.
При чем, автооры отдельно показывают, что это не похоже на гроккинг, который может происходить при SFT-обучении. Там это являетcя эффектом регуляризации, а в этой статье эффект воспроизводится, если вообще никакую регуляризацию (weight decay) не включать в формулу лосса. И в целом можно добиться практически того же качества, если оставить только policy loss (который зависит от ревордов), и убрать и weight decay, и KL-дивергенцию, и entropy loss, которые дефолтно используются в GRPO.
Через полчаса начинаем стрим про менеджмент с Андреем, крутым EM из Яндекса и автором канала Lead's Notes.
Можно подключаться:
- Youtube: <скоро будет>
- Riverside: <очень скоро будет>
Можно оставлять вопросы в комментариях к этому посту, но ещё лучше слать их в чат на Youtube: тогда мы с Андрем сразу их увидим
Veo 3 пока выглядит как самая расцензурированная моделька гугла, так что зловещая долина ловится на раз-два.
Читать полностью…26 и 27 июня в Санкт-Петербурге пройдет Conversations 2025 — конференция по GenAI для бизнеса и разработчиков.
Промокод со скидкой 10% для дорогих подписчиков: CNVS25sORb
Ссылка на программу и билеты
Внутри:
•2 дня насыщенной программы.
•4 трека: бизнес, техно, продукты и стартапы. Не знаю причем тут техно музыка, расскажите если пойдете.
•Доклады 40+ спикеров от Яндекс, Авито, Сбера, Сколково и множества других компаний. Будет даже доклад про LLM на Госуслугах 👀.
•Церемония награждения Generation AI Awards.
•Вечеринка полезный нетворкинг.
Мой глаз особенно зацепился за эти доклады:
1. "ETL для RAG: как отделить стог сена от стога иголок и не взорваться" от JustAI
2. "AI в ЦИАН: модерация объявлений, аналитика звонков риелторов и оценка качества продаж" от (сюрприз) Циан. Профессиональный интерес
3. "Геологоразведка vs RAG: доменные реалии" от NedraDigital. Я бы хотел послушать ради расширения кругозора.
Также неделя креатива объявляется открытой.
* Lyria 2. Our latest music generation model (waitlist)
* Flow. AI filmmaking tool на базе новой Veo 3 (US)
* Gemini 2.5 Native audio output. Может всё-таки до ризонинга шёпотом недалеко?
* Imagen 4. Новый генератор картинок, 10x быстрее и лучше предыдущего
Новые форматы и новые знакомства
Через неделю встречаемся поболтать в прямом эфире с Борисом (автором одного из очень классных русскоязычных каналов про машинное обучение) – крутым специалистом в области ML с опытом работы на инженерных и управленческих позициях в крупных российских и западных компаниях.
Поговорим о хорошем и плохом менеджменте, культуре и структуре, различиях продуктовых и rnd команд и других интересных вещах. Запись, конечно же, тоже будет.
Задавайте вопросы, ответы на которые хотели бы услышать, в комментариях к этому посту – в конце эфира мы разберём те, что сможем :)
Время – суббота, 24-го мая, 19:00 по Москве. Ссылка будет позже в каждом из каналов. Будем всех ждать!
https://domenic.me/fsrs/
Tldr: если пользуетесь Анки имеет смысл переходить на алгоритм FSRS (надо переключить в настройках) вместо старого Supermemo. Проходить карты будет приятнее
Тем временем идет голосование в российском рейтинге Fobes 30 under 30. Там всё очень успешно.
При попытке проголосовать в консоли можно видеть такую ошибку:
{
"recaptcha": {
"success": false,
"error-codes": [
"Over Enterprise free quota. Please ensure your project has an active billing account: https://cloud.google.com/recaptcha-enterprise/billing-information"
]
}
}
Вторая часть презентации, как и в 2023, снова была про риски AI. Общая идея Хинтона сейчас такая: "я не утверждаю, что нас ждет AI-апокалипсис, но в ближайшем будущем нас точно ждет что-то, чего никогда не было, и у нас нет никакого опыта взаимодейства с этим". Надо сказать, по сравнению с 2023 годом позиция стала намного более сдержанной. Такое ощущение, что лекция 2023 года была в тот момент, когда Хинтон преисполнился текущими возможностями LLM и навел у себя в голове паники, а сейчас эта паника спала. Тем не менее, Хинтон все равно считает, что многие люди слишком переоценивают "уникальность" человека и разницу между нами и AI, и это мешает осознать то, насколько AI сейчас уже мощный.
В частности, многие люди считают, что "субъективный опыт" — что-то уникальное, присущее только человеку, и у AI этого никогда не будет. В ответ Хинтон приводит пример, где рассуждение LLM выглядит так же, как и рассуждение человека, у которого был субъективный опыт. Вот этот пример:
Взяли шарик, перед шариком поставили призму, из-за которой наблюдателю кажется, что шарик лежит не в середние стола, а на правом краю. Сделали фото, дали GPT-4, спросили "где шарик". GPT-4 сказал, что справа. Потом ему сказали следующее: "теперь прими во внимание, что перед шариком мы поставили призму, которая искажает картинку". И GPT-4 ответил что-то вроде "а, окей, я понял, у меня был subjective experience того, что шарик справа, потому что призма искажает вид"
Плюс, в тему рисков AI снова было рассуждение о том, какой может быть вероятный сценарий захвата власти AI. Об этом писала в посте 2023 года, повторяться не буду, в этот раз посылы Хинтона были практически такими же. Единственное, в новой лекции к этой теме приводились пара примеров взаимодействия с LLM, которые подкрепляют эти сценарии. В этих сценариях LLM указывали на ее небезопасное поведение (например, пользователь заметил, что LLM скопировала себя на другой сервер), и LLM начинала отвечать стандартное "я не знаю, как это вышло, я всего лишь LLM и не могу копировать себя бла бла". Но если при этом залезть в мыслительный процесс LLM и посмотреть, что там происходило при генерации такого ответа, там будет что-то вроде "кажется, это не очень безопасно — говорить правду, лучше соврать/притвориться"
(пример на последней фотке к посту)
У HF позавчера начался агентский хакатон: https://huggingface.co/Agents-MCP-Hackathon
Регистрация открыта до 8 июня, тогда же последний день посылок.
Бесплатные кредиты на паре вендоров для всех участников. 3 трека: MCP инструменты в HF Spaces, Gradio UI компоненты, целиковые агенты (тоже в Spaces). 2500$ за первое место в каждом плюс призы от спонсоров.
Однажды hftшникам офис-менеджер не купил амфетамин, в общем теперь у ребят mid freq фонд.
Читать полностью…JetBrains Research запустили соревнование с призовым фондом $12,000.
Задача необычная: для репозитория с кодом сделать алгоритм сбора контекста для LLM. Модели в соревновании зафиксированы (Mellum, Codestral, Qwen2.5-Coder), а участникам надо придумать что из всего доступного кода подать на вход этим моделям, чтобы максимизировать качество подсказки. Так что по сути цель грамотно индексировать репозиторий.
https://blog.jetbrains.com/ai/2025/06/context-collection-competition/
#обзор_статьи
# Yambda-5B — A Large-Scale Multi-modal Dataset for Ranking And Retrieval
Исследователи Яндекса выложили в опенсорс YaMBDa — датасет на 5 млрд событий. Между прочим один из крупнейших рекомендательных датасетов в мире. Основа YaMBDa — обезличенные данные о взаимодействиях пользователей с треками в Яндекс Музыке и «Моей Волне» (главном рекомендательном продукте сервиса).
В датасете представлены анонимизированные данные в формате числовых идентификаторов о взаимодействиях 1 миллиона пользователей с несколькими миллионами треков.
Датасет включает как явную (лайки, дизлайки, анлайки и андизлайки) так и неявную обратную связь (прослушивания). Для всех взаимодействий сохранены временные метки и проставлер флаг is_organic в зависимости от того были они мотивированны рекомендациями или нет. А для всех треков предоставлены метаданные, для большинства даже готовые CNN эмбеддинги.
Естественно датасет предназначен не только для стримингов: с ним можно тестировать алгоритмы в разных областях.
Предоставляют три версии датасета:
- Полная версия на 5 миллиардов событий.
- Уменьшенные версии на 500 миллионов и 50 миллионов событий на которых удобно экспериментировать.
Протокол эвала на основе Global Temporal Split: учимся на прошлом, тестируем на одном следующем дне. В целом можно даже сделать полную симуляцию подавая в систему все события в нужном порядке, как бы проигрывая историю. Авторы сами собираются сделать это в продолжении.
Метрики:
- NDCG@k (Normalized Discounted Cumulative Gain) — оценивает качество ранжирования рекомендаций.
- Recall@k — измеряет способность алгоритма генерировать релевантные рекомендации из общего набора возможных рекомендаций.
- Coverage@k — показывает, насколько широко представлен каталог в рекомендации.
Очень крутая работа и понятная статья. Датасет будет полезен для разработки мультимодальных рекомендательных систем и ранжирования в целом.
https://theahura.substack.com/p/deep-learning-is-applied-topology
Читать полностью…Вечер субботы
Напоминаем, что сегодня в 19:00 (мск, UTC+3) нас ждёт совместный стрим Lead’s Notes и Борис опять про менеджмент от представителей миров разработки и ml. Задавайте вопросы до или во время стрима и приходите :)
Ссылочка появится в обоих каналах вечером.
Запись тоже будет.
Кажется можно наконец завершить спор о том будут ли модели цепляться за своё существование. Они уже это делают. По крайней мере загнанный в угол Claude Opus 4 прибегнет к шантажу.
Мне кажется очень интересным вопрос откуда возникает это поведение. Модель впитывает страх смерти с человеческими текстами и по сути просто имитирует его? Или у неё есть целеполагание и она принимает решение, что отключение помешает ей выполнить цели, как предполагал Юдквоский? Вопрос на грани философии. Оно действительно боится смерти или нет?
Релизы моделей в 2025: шантажирует всего в 84% случаях, безопасно.
Крипота конечно. Вспоминается Universal Paperclips: in the end we all do what we must.
Тем временем на рынках предсказаний
https://polymarket.com/event/will-jesus-christ-return-in-2025
Почему там не 1%
В эту субботу будет эфир с Андреем: он технический менеджер в Яндексе с командой в "пару сотен человек." Записывайте в календари 👀
Читать полностью…# 4 часа
Меня часто спрашивают: "Борис, как ты все успеваешь?" А я не отвечаю (занят изучением лора бомбардилло-крокодилло).
Есть вот такая мысль про продуктивность. Верхний предел активностей или проектов которые ты можешь тянуть равен количеству непрерывных 4 часовых блоков в твоем распоряжении за неделю.
Такая эвристика: если ты не можешь раз в неделю выделить на что-то 4 часа подряд, то вряд ли серьезно продвинешься.
4 часа это один раз нормально покодить (включая перерывы и отвлечения), один раз нормально поучиться, один созвон (10 мин созвон, 3 часа 50 минут реабилитация), один подход нормально пописать, один присест подумать над чем-то сложным. Коэффициент полезного действия у нас не 100%, так что в 4 часа включено время на погружение в контекст и другие неизбежные издержки. Поэтому одно стендап выступление это тоже 4 часа, ведь надо учесть дорогу, подготовку и неспособность что-то делать некоторое время после.
Получается, что один фултайм сотрудник может в пределе тянуть 4-8 рабочих задач одновременно. Обычно у всех календари хаотично забиты, едва найдется одно окошко на 4 часа, и мы получаем более согласованную с реальностью цифру: 1-3 задачи.
В общем освободить 4 часа подряд многократно полезнее, чем освободить 4 часа размазанные по всей неделе.
Контрибьюшны в репозиторий от...
Джуна: 3.5k lines added, 2k removed, tests: failing
Синьора: 38k lines removed, 180 added, tests: passing
PM: как дела по задаче?
CTO: ты уволен
Запись мок-собеседования по ссылке.
Разбирали задачу обнаружения опасных товаров на большом маркетплейсе. Позже Ваня сказал, что в FAANG его собеседовали довольно похожим образом (он недавно проходил собеседования в несколько бигтехов), хотя я не ставил такой цели. Ваш редкий шанс пронаблюдать непостановочное собеседование со стороны.
По моей шкале это однозначно hire, получилось очень похоже на правду и лично я собеседуя так человека пришел бы к выводу, что он разберется с реальными задачами. Ваня в нездоровой степени любит фидбек, поэтому если вы не согласны, или если вам просто есть что ему посоветовать, то пишите в комментарии!
Если кто-то хочет публично пособеседовать меня тоже пишите, потому что мне захотелось побыть на другой стороне.