life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin
https://www.astralcodexten.com/p/the-claude-bliss-attractor
В очередной раз поражаюсь, что у блогера/психиатра тейки про AI интереснее, чем у специалистов в AI.
Прочитал новость "Платформа A/B тестирования X5 получила верификацию научного сообщества"
Меня заинтересовало, потому что речь про А/В тестирование на физических магазинах. Однажды меня звали заниматься такой задачей, и я знаю людей, которые работали над этой A/B платформой в X5. Очень необычная и сложная проблема.
Начнем с базы. Х5 – это крупнейший ритейлер, который управляет торговыми сетями «Пятёрочка», «Перекрёсток» и «Чижик». Компания представила собственную методологию проведения А/В тестов для верификации научным сообществом. Её корректность подтвердили специалисты лаборатории стохастических алгоритмов и анализа многомерных данных ФКН ВШЭ.
Методология A/B тестирования, разработанная Х5, позволяет оценить влияние различных изменений (внедрение технологий, изменение бизнес-процессов, акции, ротация поставщиков и т. д.) на эффективность работы магазинов. Сервис анализа позволяет оценивать эффекты от инициатив на ряде финансовых метрик, таких как РТО, средний чек, фронт-маржа, списания и так далее. На текущий момент через платформу проведено более 500 экспериментов.
Платформа A/B тестирования Х5 предоставляет два сервиса: дизайн эксперимента и оценка эксперимента. Первый позволяет разбить магазины на две группы – где изменения есть и где изменений нет, и спланировать эксперимент для достижения статзначммых результатов. Второй сервис позволяет анализировать результаты.
Система включает в себя наборы ограничений при планировании эксперимента, позволяющие сегментировать выборку. Стандартный набор ограничений – это география и категории товаров. Расширенный набор позволяет исключать конкретные магазины из расчётов и проводить другие нетипичные корректировки через взаимодействие с аналитиком.
В целом интересно, что специалисты провалидировали не только саму методологию, но и как реализованы эксперименты в Х5. Часть подробностей компания давала в статье в 2023: https://habr.com/ru/companies/X5Tech/articles/768008/
Ребята из DevCrowd второй год подряд проводят исследование специалистов DS/ML/AI и приглашают вас поучаствовать в их опросе.
Это исследование нашего с вами рынка. Опрос про профессии, обязанности, ценность разных навыков, подходы к работе и конечно зарплаты. Все мы любим узнавать зарплаты соседей.
Результаты выложат в открытый доступ (последний раз появились в сентябре) и я напишу про самые интересные моменты.
Проходите опрос: ссылка
https://qz.com/tech-layoffs-tax-code-trump-section-174-microsoft-meta-1851783502
TLDR все лейоффы из-за налогов которые в свою очередь поменялись ради быстрых политических очков
Мы обещали, что запись будет – и запись есть!
https://youtu.be/HjfqcHjHwdg
На стриме обсуждали:
– Как и почему каждый нас оказался на управленческой позиции?
– Почему мы решили или не-решили продолжать менеджерский трек?
– Что вообще такое хороший или плохой менеджмент? Какова роль менеджера, создает ли он что-то сам?
– А что такое хорошие или плохие процессы?
– Также разобрали несколько вопросов подписчиков в конце эфира про карьеру, удержание сотрудников, стартапы и бигтехи
И другие интересные штуки
––
Если формат зайдёт – будем пробовать ещё 🙂
В комментариях можно оставить фидбек / вопросы, ответы на которые не прозвучали / предложить интересные вам темы для будущих постов или подкастов!
https://github.com/hugomd/parrot.live
Просто исполни эту команду не задавая вопросов
Читать полностью…
curl parrot.live
Формально у меня сегодня последний день в Neon, потому что я оказался среди поглощенных кирпичным заводом, на котором - пока столь же формально - начинаю работать завтра.
Поэтому символично, что сегодня успели зарелизить app.build - продукт, над которым мы небольшой командой работали с февраля. Это just another end2end генератор CRUD веб-приложений от промпта до деплоя.
Он полностью опенсорсный (можно покопаться в истории и увидеть все мои коммиты в стиле “maybe fix a lot of things”), работает как CLI и обычно генерит скорее работающие приложения. Можно сгенерить на наших серверах, можно развернуть у себя (все равно понадобится gemini и claude API, но можете прислать PR с поддержкой любимого LLM-провайдера). Шероховатостей еще много, но уже скорее работает, чем нет, так что пробуйте и присылайте баг-репорты!
прив
мы там небольшую статейку на мидиум дропнули, где рассказываем, как инфру для ллмок строили, которая пытается унифицировать чужие модели через openrouter/openai и селфхост модели, которые не fully openai compatible (у нас например модель умеет в некоторые специальные content type, которых в опенаи нет, поэтому ее чисто через vllm serve не сервим; плюс хочеца еще всякий наркоманский роутинг делать, который сами сможем крутить вертеть как хотим). сама статья чисто инженерная и больше про дизайн системы, нежели чем про то, как мы ругаясь матом vllm патчили, но мб кому-то будет полезно
shimovolos.stas/running-llms-in-production-building-scalable-infrastructure-without-reinventing-the-wheel-1b9fa61dbb77" rel="nofollow">https://medium.com/@shimovolos.stas/running-llms-in-production-building-scalable-infrastructure-without-reinventing-the-wheel-1b9fa61dbb77
лайки и помидоры приветствуются
Все говорят про опасность ядерного оружия, но я считаю это булщит и запугивание.
Если вдруг кто-то захочет применить ядерные ракеты то его сразу остановят. Да и никто не захочет, зачем ему это? Никому это не выгодно.
Ракеты не летают без электричества, так что в крайнем случае можно просто выключить свет.
Да и вообще, зачем ядерным ракетам вредить людям? Ядерные ракеты не разумны, у них не может быть желания сопротивляться отключению или страха смерти.
Я думаю все разговоры про опасность ядерного оружия просто выгодны крупным компаниям которые хотят затормозить конкурентов. Если бы не они мы могли бы построить ядерный реактор в каждом доме.
#щитпостинг
В машинном обучении всё так быстро меняется!
Тем временем Розенблатт 1958, вводя перцептрон.
It's just scale:
... the probability that a learned association of some specific stimulus will be correctly retained typically approaches a better-than-chance asymptote as the number of stimuli learned by the system increases. This asymptote can be made arbitrarily close to unity by increasing the number of association cells in the system.
...probability that a stimulus which has not been seen before will be correctly recognized [...] approaches the same asymptote as the probability of a correct response to a previously reinforced stimulus.
The performance of the system can be improved by the use of a contour-sensitive projection area, and by the use of a binary response system, in which each response, or "bit," corresponds to some independent feature or attribute of the stimulus.
The question may well be raised at this point of where the perceptron's capabilities actually stop. [...] The system appears to be potentially capable of temporal pattern recognition, as well as spatial recognition, involving any sensory modality or combination of modalities. It can be shown that with proper reinforcement it will be capable of trial-and-error learning, and can learn to emit ordered sequences of responses, provided its own responses are fed back through sensory channels.
By combining audio and photo inputs, it is possible to associate sounds, or auditory "names" to visual objects, and to get the perceptron to perform such selective responses as are designated by the command "Name the object on the left," or "Name the color of this stimulus."
... it has been proven that if the values of the A-units are allowed to decay at a rate proportional to their magnitude, a striking new property emerges: the perceptron becomes capable of "spontaneous" concept formation. That is to say, if the system is exposed to a random series of stimuli from two "dissimilar" classes, and all of its responses are automatically reinforced without any regard to whether they are "right" or "wrong," the system will tend towards a stable terminal condition in which (for each binary response) the response will be "1" for members of one stimulus class, and "0" for members of the other class.Читать полностью…
Reinforcement Learning for Reasoning in Large Language Models with One Training Example
https://arxiv.org/pdf/2504.20571
Очень интересная статья, не только своим основным клеймом, который и так сам по себе довольно удивителььный и неинтуитивный, но и такими же неожиданными выводами в аблейшенах.
Как понятно из заголовка, модель тренируют с помощью обычного GRPO всего на одном примере. И качество на тесте действительно растет, при чем со временем оно сходится к качеству модели, которую обучали на датасете обычного размера в 7.5k наблюдений. К чести авторов, помимо просто качества на тесте они репортят еще и среднюю accuracy на 6 разных математических бенчмарках – там оно тоже растет.
При этом по графику видно, что изначально модель очевидно осуществляет reward hacking – то есть просто учится отвечать в правильном формате (здесь это ответ, заключенный в \boxed{}) – после этого точность значительно падает, и только где-то на 300-ом шаге начинает расти обратно, видимо, засчет реально выросших способностей к ризонингу
Как выбирать один единственный пример для обучения? Вообще можно взять рандомно и увидеть какой-то нетривиальный прирост качества (в статье 30+% для рандомного выбора). Но самый оптимальный в статье выбирали по historical accuracy. Модель тренировали несколько эпох на полном датасете и для каждого примера замеряли, может ли модель его решить в конце эпохи. Лучший пример в этом плане тот, где вариация accuracy во время тренировки самая большая. Мотивировано это тем, что для RL обучения очень важна вариация сигнала от реворда, и тут мы можем ожидать, что тренируясь на таком примере, реворд не будет константным (не будет ситуации, что пример каждую эпоху либо идеально решен, либо не решен вообще никогда).
Интересно, что в итоге лучший пример, который использовали авторы, 1) не сложный – модель без тернировки как правило может его решить вплоть до последнего шага, 2) имеет неправильный ground truth ответ – верным является решение 12.7, а в датасете стоит 12.8
Самый неожиданный клейм статья – феномен, который авторы назвали post-saturation generalization. Accuracy на тренировке как правило достигает 100% за первые 100 шагов обучения, но качество на тесте продолжает расти дальше, даже после 1500-ого шага. При этом, на тренировочном примере происходит полный оверфит: модель в какой-то момент начинает выдавать бессмысленную мешанину из токенов на смеси языков, посреди этого все равно выдает правильный ответ в \boxed{}, но на тестовых данных при этом продолжает отвечать нормальных связным текстом (!). Для SFT моделей я никогда ничего похожего не видела, и если этот феномен воспроизводится на других данных, то это очевидно огромное преимущество RL. Если оверфит на тренировочных данных не транслируется в плохое качество на тесте, то теоретически можно тренироваться на одном и том же датасете огромное количество раз, и модель продолжит учиться чему-то новому дальше. На этом фоне мне вспомнились заголовки из ноября 2023 о том, что алгроитм q*, который по слухам разрабатыл Суцкевер до ухода из OpenAI, должен был решить проблему заканчивающихся данных для обучения моделей. Получается, RL-ем действительно ее можно решить не только в том смысле, что это более эффективно, чем SFT, но и в том понимании, что здесь гораздо сложнее упереться в лимит по данным.
При чем, автооры отдельно показывают, что это не похоже на гроккинг, который может происходить при SFT-обучении. Там это являетcя эффектом регуляризации, а в этой статье эффект воспроизводится, если вообще никакую регуляризацию (weight decay) не включать в формулу лосса. И в целом можно добиться практически того же качества, если оставить только policy loss (который зависит от ревордов), и убрать и weight decay, и KL-дивергенцию, и entropy loss, которые дефолтно используются в GRPO.
Через полчаса начинаем стрим про менеджмент с Андреем, крутым EM из Яндекса и автором канала Lead's Notes.
Можно подключаться:
- Youtube: <скоро будет>
- Riverside: <очень скоро будет>
Можно оставлять вопросы в комментариях к этому посту, но ещё лучше слать их в чат на Youtube: тогда мы с Андрем сразу их увидим
Veo 3 пока выглядит как самая расцензурированная моделька гугла, так что зловещая долина ловится на раз-два.
Читать полностью…Спустя множество попыток и усилий админ наконец-то потерял работу 👀
Кроме шуток я ушел из eBay, чтобы сфокусироваться на троганье травы написании книги, собственных проектах и образовании.
В eBay было круто, я могу рекомендовать (но зависит от команды, он очень большой). Удалось воочию понаблюдать экономический эффект LLM, поработать над вещами с безумным масштабом и даже поконтрибьютить в инхаус LLM. За относительно небольшой срок получилось немало сделать.
Довольно странные ощущения, потому что я впервые ухожу с хорошей работы "вникуда": не для того, чтобы выйти на другую работу, а для того, чтобы (какое-то время) нигде не работать. Правда течение уже несет меня в новый проект связанный с AI safety, так что посмотрим сколько я продержусь в статусе свободного человека.
Количество шуток про безработицу в канале возрастет как минимум вдвое.
Так же я скоро загляну в Москву. Будет сходка подписчиков, подробности позже.
Кто разбирается в терапии, подскажите. Психолог говорит, что нужно удовлетворять потребности внутреннего ребёнка. Но моему внутреннему ребёнку нужно, чтобы они за все заплатили
Читать полностью…Какие слова, откуда? У т.н. людей на входе - электрические импульсы в нервах, и на выходе - электрические импульсы в нервах, всё что они могут - преобразовывать электрические импульсы в нервах, никакой картины мира у них быть не может- нужна другая архитектура.
Читать полностью…- мы хотим AGI, мы хотим, чтобы агенты начали думать
- агенты пытаются делать что-то неожиданное
- нет, не так!!!
Вторая часть презентации, как и в 2023, снова была про риски AI. Общая идея Хинтона сейчас такая: "я не утверждаю, что нас ждет AI-апокалипсис, но в ближайшем будущем нас точно ждет что-то, чего никогда не было, и у нас нет никакого опыта взаимодейства с этим". Надо сказать, по сравнению с 2023 годом позиция стала намного более сдержанной. Такое ощущение, что лекция 2023 года была в тот момент, когда Хинтон преисполнился текущими возможностями LLM и навел у себя в голове паники, а сейчас эта паника спала. Тем не менее, Хинтон все равно считает, что многие люди слишком переоценивают "уникальность" человека и разницу между нами и AI, и это мешает осознать то, насколько AI сейчас уже мощный.
В частности, многие люди считают, что "субъективный опыт" — что-то уникальное, присущее только человеку, и у AI этого никогда не будет. В ответ Хинтон приводит пример, где рассуждение LLM выглядит так же, как и рассуждение человека, у которого был субъективный опыт. Вот этот пример:
Взяли шарик, перед шариком поставили призму, из-за которой наблюдателю кажется, что шарик лежит не в середние стола, а на правом краю. Сделали фото, дали GPT-4, спросили "где шарик". GPT-4 сказал, что справа. Потом ему сказали следующее: "теперь прими во внимание, что перед шариком мы поставили призму, которая искажает картинку". И GPT-4 ответил что-то вроде "а, окей, я понял, у меня был subjective experience того, что шарик справа, потому что призма искажает вид"
Плюс, в тему рисков AI снова было рассуждение о том, какой может быть вероятный сценарий захвата власти AI. Об этом писала в посте 2023 года, повторяться не буду, в этот раз посылы Хинтона были практически такими же. Единственное, в новой лекции к этой теме приводились пара примеров взаимодействия с LLM, которые подкрепляют эти сценарии. В этих сценариях LLM указывали на ее небезопасное поведение (например, пользователь заметил, что LLM скопировала себя на другой сервер), и LLM начинала отвечать стандартное "я не знаю, как это вышло, я всего лишь LLM и не могу копировать себя бла бла". Но если при этом залезть в мыслительный процесс LLM и посмотреть, что там происходило при генерации такого ответа, там будет что-то вроде "кажется, это не очень безопасно — говорить правду, лучше соврать/притвориться"
(пример на последней фотке к посту)
У HF позавчера начался агентский хакатон: https://huggingface.co/Agents-MCP-Hackathon
Регистрация открыта до 8 июня, тогда же последний день посылок.
Бесплатные кредиты на паре вендоров для всех участников. 3 трека: MCP инструменты в HF Spaces, Gradio UI компоненты, целиковые агенты (тоже в Spaces). 2500$ за первое место в каждом плюс призы от спонсоров.
Однажды hftшникам офис-менеджер не купил амфетамин, в общем теперь у ребят mid freq фонд.
Читать полностью…JetBrains Research запустили соревнование с призовым фондом $12,000.
Задача необычная: для репозитория с кодом сделать алгоритм сбора контекста для LLM. Модели в соревновании зафиксированы (Mellum, Codestral, Qwen2.5-Coder), а участникам надо придумать что из всего доступного кода подать на вход этим моделям, чтобы максимизировать качество подсказки. Так что по сути цель грамотно индексировать репозиторий.
https://blog.jetbrains.com/ai/2025/06/context-collection-competition/
#обзор_статьи
# Yambda-5B — A Large-Scale Multi-modal Dataset for Ranking And Retrieval
Исследователи Яндекса выложили в опенсорс YaMBDa — датасет на 5 млрд событий. Между прочим один из крупнейших рекомендательных датасетов в мире. Основа YaMBDa — обезличенные данные о взаимодействиях пользователей с треками в Яндекс Музыке и «Моей Волне» (главном рекомендательном продукте сервиса).
В датасете представлены анонимизированные данные в формате числовых идентификаторов о взаимодействиях 1 миллиона пользователей с несколькими миллионами треков.
Датасет включает как явную (лайки, дизлайки, анлайки и андизлайки) так и неявную обратную связь (прослушивания). Для всех взаимодействий сохранены временные метки и проставлер флаг is_organic в зависимости от того были они мотивированны рекомендациями или нет. А для всех треков предоставлены метаданные, для большинства даже готовые CNN эмбеддинги.
Естественно датасет предназначен не только для стримингов: с ним можно тестировать алгоритмы в разных областях.
Предоставляют три версии датасета:
- Полная версия на 5 миллиардов событий.
- Уменьшенные версии на 500 миллионов и 50 миллионов событий на которых удобно экспериментировать.
Протокол эвала на основе Global Temporal Split: учимся на прошлом, тестируем на одном следующем дне. В целом можно даже сделать полную симуляцию подавая в систему все события в нужном порядке, как бы проигрывая историю. Авторы сами собираются сделать это в продолжении.
Метрики:
- NDCG@k (Normalized Discounted Cumulative Gain) — оценивает качество ранжирования рекомендаций.
- Recall@k — измеряет способность алгоритма генерировать релевантные рекомендации из общего набора возможных рекомендаций.
- Coverage@k — показывает, насколько широко представлен каталог в рекомендации.
Очень крутая работа и понятная статья. Датасет будет полезен для разработки мультимодальных рекомендательных систем и ранжирования в целом.
https://theahura.substack.com/p/deep-learning-is-applied-topology
Читать полностью…Вечер субботы
Напоминаем, что сегодня в 19:00 (мск, UTC+3) нас ждёт совместный стрим Lead’s Notes и Борис опять про менеджмент от представителей миров разработки и ml. Задавайте вопросы до или во время стрима и приходите :)
Ссылочка появится в обоих каналах вечером.
Запись тоже будет.
Кажется можно наконец завершить спор о том будут ли модели цепляться за своё существование. Они уже это делают. По крайней мере загнанный в угол Claude Opus 4 прибегнет к шантажу.
Мне кажется очень интересным вопрос откуда возникает это поведение. Модель впитывает страх смерти с человеческими текстами и по сути просто имитирует его? Или у неё есть целеполагание и она принимает решение, что отключение помешает ей выполнить цели, как предполагал Юдквоский? Вопрос на грани философии. Оно действительно боится смерти или нет?
Релизы моделей в 2025: шантажирует всего в 84% случаях, безопасно.
Крипота конечно. Вспоминается Universal Paperclips: in the end we all do what we must.