Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
Тем временем аккаунт ChatGPT в X внезапно запостил картинку, изображающую что-то вроде обучения компьютера
Знак? 🤔
Alibaba только что релизнули мультимодальную модель R1-Omni, обученную с помощью RL-подхода DeepSeek
Ключевое, на чем построена R1-Omni – это алгоритм RLVR (Reinforcement Learning with Verifiable Rewards), который DeepSeek ввели в статье про R1. В отличие от ванильного RLHF, RLVR не использует преобученную ревард модель, а сравнивает ответы модели с правильными напрямую, обычно в связке с GRPO (мы разбирали этот подход тут).
В не мультимодальной R1 у DeepSeek это работало отлично, но здесь RLVR используют не просто для текста, но и работы со звуком и видео (в частности понимание эмоций в роликах).
Это те модальности, в которые ризонинг добавляют редко, потому что это сложно и дорого. В то же время рассуждения бы здесь очень пригодились, потому что в системах работы с видео очень часто нужна интерпретируемость. Так что RLVR, который заводится без разметки, – тут просто идеально решение.
И действительно, для достижение результата понадобилось всего 580 видеосэмплов с разметкой CoT, остальное доучили с RLVR на обычных датасетах с меткой. При этом метрики по сравнению с базовыми моделями выросли на +5-7%, так что это очередное доказательство того, что почти в любой задаче даже такое "ленивое" добавление ризонинга окупается втройне.
huggingface.co/papers/2503.05379
Ян Лекун заявил, что следующее поколение моделей, которое он разрабатывает в FAIR, будет обладать настоящими эмоциями
Напоминаем, что ученый уже давно настаивает на том, что текущие модели все еще глупы, не понимают физический мир, не обладают памятью и не могут мыслить и планировать. "Мы лишь обманываемся тем, что это так, потому что модели превосходно манипулируют речью," – говорит он.
А сейчас вышло интервью, в котором Лекун говорит, что в Meta разрабатывают новую концепцию DL моделей, в которых все эти проблемы будут решены. При этом эти модели сумеют эмоционировать, например бояться или радоваться.
"Мы даем им цель, которую они пытаются выполнить. Если они ее выполняют, то остаются счастливы. То есть они будут обладать эмоциями, потому что смогут предсказать результат своих действий"
🎉 Результаты розыгрыша:
🏆 Победители:
1. Mike (@m1ke000)
2. Alina (@avo_milas)
3. Никита (@diplodoczek)
4. Konstantin (@Konst_reborn)
5. Fdn (@ddmonstr456)
✔️Проверить результаты
Дорогие наши DS-подписчицы!
Наша редакция от всей своей Data-души поздравляет вас с праздником! Желаем, чтобы скор вашего настроения рос, а лосс неудач падал.
А еще в честь праздника мы приготовили для вас фирменные открытки. Хватайте их и поздравляйте коллег и друзей!
А что, если бы LLM эволюционировали, как живые существа? Вышла статья, в которой исследователи попытались соединить идеи генетических алгоритмов и LLM
Представим, что модели – это индивиды, а их веса – это гены. Тогда к ним можно применить классический набор модификаций: кроссовер (объединение весов родительских моделей для создания потомства), мутации (небольшие случайные изменения весов для увеличения разнообразия популяции), наследование опыта или естественный отбор.
Это и есть идея, которую предложили в статье. Подход назвали GENOME (GENetic Optimization for Model Evolution). Понятно, что он не для претрейна – это скорее какое-то переосмысление ансамблей и файнтюнинга на базе старых как мир генетических алгоритмов. Вот что происходит:
1. Берем несколько готовых моделей, прогоняем их по нашему датасету. Отбираем тех, кто решает задачу успешнее всего.
2. Скрещиваем их, то есть создаем новые модели, веса которых – это линейная комбинация весов родительских.
3. Добавляем мутацию, то есть какую-то случайную компоненту.
4. Переходим обратно к пункту 1.
5. На выходе получаем успешную популяцию моделей, которые дальше можем ансамблировать привычно. Например, с помощью majority voiting.
Всего через несколько часов после выхода QwQ-32B Alibaba дропнули START – модель, дообученную на использование инструментов
START – это Self-Taught Reasoner with Tools. То есть здесь из обычных цепочек рассуждений пытаются сделать такие, чтобы модель в какой-то момент сама понимала, что хорошо бы проверить что-то с помощью кода, шла и проверяла.
Для этого взяли QwQ-32B и зафайнтюнили его в два этапа:
1. Во время инференса прямо в CoT вставляли подсказки. Типа «Возможно, здесь хорошо бы использовать Python», как будто моделька сама до этого догадалась. Такие подсказки становились частью контекста и заставляли ризонер подумать подольше, сгенерировать код и запустить его.
2. После первого этапа у нас остается куча цепочек с использованием интерпретатора. Среди них есть ошибочные и хорошие. Фильтруем, обрабатываем, и еще разок дообучаем модель на чистых и правильных CoT с инструментами.
Надо сказать, очень прикольный способ генерации специфичной синтетики, который, к тому же, дал свои результаты: метрики относительно базового QwQ-32B подскочили на 5-15 процентных пунктов, и STAR почти на всех представленных бенчмарках обогнал o1-mini.
arxiv.org/pdf/2503.04625
И кстати, если вы думали, что 200 долларов за ChatGPT – это предел, то присаживайтесь поудобнее: сейчас будет больше нулей! 🤑
В OpenAI обсуждают добавление новых подписок, которые будут стоить от 2 000$ до 20 000$ в месяц. В них будут включены несколько агентов уровня PhD, которые «способны генерировать научные гипотезы и разрабатывать ПО». Целевая аудитория – «работники научной сферы и высокими доходами» и, конечно, лаборатории и компании.
Интересно, какой уровень возможностей будет предлагать стартап за такие деньги. Ведь это аналогично тому, чтобы нанять себе неплохого живого ассистента (2к) или даже очень крутого PhD исследователя (20к).
Вышла QwQ-32B – новая ризонинг модель от Qwen
По качеству она соответствует DeepSeek-R1, а на некоторых тестах даже обходит его. И это при том, что в R1 в 20 раз больше параметров.
И снова: все благодаря мощному скейлингу RL. Согласно блогпосту, обучали в два этапа:
1. RL только для задач математики и кодинга, причем без разметки и традиционной ревард модели. Вместо этого использовали интерпретатора кода и верификатор ответов для математических задач.
2. RL для общих способностей, уже с привычным ревардом и некоторыми rule-based верификаторами. На этом этапе модель училась «нравиться» пользователю и следовать инструкциям.
Исследователи написали, что видят еще много потенциала в RL и продолжат над этим работать. «Возможно, в следующий раз сочетание более сильных предобученных моделей с RL приведет нас к AGI».
Блогпост | Веса
Пообщаться с моделью абсолютно бесплатно уже можно в чате
Премия Тьюринга этого года только что досталась ML-рисерчерам за вклад в обучение с подкреплением
Это самая престижная награда в мире в области информатики, ее часто называют Нобелевской премией Computer Science. В этом году ею наградили легендарных Эндрю Барто и Ричарда Саттона – отцов обучения с подкреплением.
Именно они разработали основы RL в восьмидесятых. Правда, всю мощь подхода оценили только несколько лет назад, когда Google показали AlphaGo. Сегодня RL – неотъемлемая часть ML, и, особенно, наших любимых LLM.
Респект! 🎉
Кажется, скоро нас ждет новая text2image модель от OpenAI
Или она будет внутри GPT-5? 🤔
MIT перезапустили свой легендарный курс 6.S191: Introduction to Deep Learning
NLP, CV, LLM, приложения в медицине: тут все end-to-end, включая теорию и практику с актуальными версиями библиотек.
Подходит курс даже для тех, кто вкатывается с нуля: достаточно уметь брать производные и умножать матрицы, остальное обещают объяснить на ходу.
Лекции будут выходить в свободный доступ на YouTube по понедельникам, первая вышла вчера. Слайды, код и доп.материалы лежат здесь.
Такое не пропускаем
Стали известны некоторые имена сотрудников компании Ильи Суцкевера
SSI была основала еще летом, но до сих пор дистанцируется от СМИ и остается скрытой. Это значит, что ее сотрудники не указывают в соцсетях место работы, и составы команд не афишируются.
Тем не менее, некоторые сведения иногда проскальзывают. Вот некоторые имена:
🔷 Доктор Яир Кармон, старший преподаватель факультета компьютерных наук Тель-Авивского университета с 2020 года. У него три ученых степени по физике, включая докторскую Стэнфорда. Он занимается алгоритмами и оптимизацией.
🔷 Ницан Тор, выпускник Technion и золотой призер трех международных математических олимпиад.
🔷 Шахар Папини, еще один выпускник Technion, олимпиадник и сооснователь блокчейн-компании.
А еще известный Ярон Бродский и около 10 других инженеров и ученых из Google Research (которых Ярон видимо привел). Интересный состав.
Занятно, что SSI вообще не публикуют вакансии, а об эйчарах и речи не идет. Всех нанимают только по личным рекомендациям и сарафанному радио. Кроме того, говорят, в компании нет иерархической структуры, тимлидов и деления на команды: все равны и работают над одним проектом.
К слову, сейчас SSI оценивается уже в 30 миллиардов. Это всего в 5 раз меньше OpenAI и в 2.5 раза меньше xAI.
Исследователь Юрген Шмидхубер заявил крестному отцу ИИ Джеффри Хинтону, что его надо лишить всех наград за плагиат
Шмидхубер уже стал мемом в ML-сообществе за свои бесконечные выпады о том, что у него украли какую-то выдающуюся идею, но все не останавливается. Из последних заявлений этой легенды:
– Хопфилд и Хинтон получили Нобелевскую премию незаслуженно, потому что украли идею из статьи шестидесятых годов
– Все, что сделали DeepSeek с R1, взято из статей Шмидхубера
– GAN – тоже его идея, а авторы основополагающей статьи про эту архитектуру наглые копирайтеры
– Ну и добивочка: трансформеры, естественно, придумал он, а не ребята из Google
Хинтон, кстати, заявление даже никак не прокомментировал.
Бесконечно можно смотреть на три вещи: как горит огонь, как течет вода, и как все воруют у Шмидхубера
Как начинающему аналитику успешно пройти собеседование с HR и получить первую работу?
Прохождение собеседований с HR — навык, который можно натренировать, посетив некоторое количество собеседований. При этом, начинается оно еще до непосредственной встречи — вас начинают оценивать уже по переписке при назначении даты и времени.
О том, как аналитику подавать себя, свой опыт и навыки поговорим на бесплатном вебинаре «Как уверенно пройти собеседование с HR».
Спикер: Наталья Рожкова, HR-эксперт с 5+ лет опыта и успешным трудоустройством более 100 аналитиков и других айтишников.
На вебинаре вы узнаете:
🟠Как использовать свои сильные и слабые стороны для эффективной презентации, чтобы сразу зарекомендовать себя
🟠 Вопросы о компании, которые покажут ваш интерес и профессионализм
🟠 Как спланировать собеседование в соответствии с вашим типом личности и энергетикой
🕗Встречаемся 12 марта в 18:00 по мск
Зарегистрироваться на бесплатный вебинар
Лаборатория BlinkDL выпустила ризонинг-модель RWKV7-G1, и этот релиз крайне интересен по двум причинам:
1. Модель совсем крошечная: 0.1В. Таких маленьких ризонеров мы точно еще не видели. При этом текст, который генерирует RWKV7-G1 выглядит вполне связным и осознанным (для таких малышек это достижение). + На бенчмарках этой весовой категории показывает себя неплохо.
2. Это не трансформер. Это архитектура RWKV, без механизма внимания вообще. Почти RNN, только, в отличие от RNN, эффективно параллелится и быстро обучается. Получается, берет лучшее от двух миров: линейность от RNN и параллелизацию от трансформеров.
Технической информации пока немного, так что с нетерпением ждем статью.
Веса и демо уже в опенсорсе
В соцсетях бурно обсуждают только что вышедшего агента Manus: это Operator, Deep Research и Cursor в одном флаконе
Его выпустила одноименная китайская лаборатория и этот релиз уже называют DeepSeek moment v2. Чем он цепляет:
1. Он действительно автономный. Не ждет подтверждения действий, как Operator, а планирует и выполняет задачи самостоятельно. Все это работает в фоновом режиме, а вы просто получаете уведомление о завершении.
2. Универсальность. Может провести исследование, подключиться к вашей среде разработки, работать в браузере, использовать интерпретатор кода и тд. Конечно, есть мультимодальность.
3. В нем, как в ChatGPT, есть память. То есть со временем он узнает вас и ваши предпочтения лучше и ориентируется на этот контекст.
На бенчмарке GAIA перформит лучше Deep Research, но отдельно сравнений по Computer Use почему-то не показали. Будем ждать независимых оценок, но пока выглядит многообещающе.
Вот тут и тут можете посмотреть примеры работы. Вот здесь добавляйтесь в лист ожидания и пробуйте сами.
Пользуясь случаем, делимся с вами полезной подборкой блогов / каналов / курсов по ИИ, созданных лучшими женщинами учеными и ML-разработчицами
🟦 Всеми любимый технический блог Лилиан Вэнг – исследовательницы из OpenAI, которая сейчас работает у Миры Мурати. Тут подробные объяснения концепций LLM, схемы, ссылки на актуальные статьи и многое другое. Наша любимая статья: Prompt Engineering (до того как это стало мейнстримом)
🟦 Блог и видеокурс Кэсси Козырков. Она бывшая главная специалистка по теории принятия решений на данных в Google (Chief Decision Scientist), а на сегоднящий день CEO Data Scientific. Известна своим активным блогом, прекрасным kozyrkov/videos">каналом на YouTube и бесплатным видеокурсом "Making Friends with ML".
🟦 Блог и огромный курс по NLP Лены Войты, из которого все всегда берут схемы и рисунки. Лена – Research Scientist в FAIR Meta, PhD и автор кучи статей. Если хотите с вероятностью 100% понять все главные концепции NLP – вам сюда.
🟦 JordanHarrod/videos">YouTube-канал Джордан Харрод – докторантки MIT по нейронаукам. Тут и простые видео про то, как использовать ИИ в рутине, и обзоры новостей, и разборы статей, и объяснения сложных концепций ML простым языком. Однозначно рекомендуем.
🟦 Блог Рэйчел Томас – очень известной специалистки в области ML и соосновательницы образовательной платформы fast.ai. Она была включена в топ-20 женщин в ИИ по версии Forbes, а в своем блоге активно пишет об этике данных и прикладном ИИ в медицине и биологии.
Сохраняйте (и еще раз с 8 марта вас!)
Известный рисерчер Миша Ласкин вместе с Яннисом Антоноглу запускают собственный стартап
Они оба – бывшие исследователи Google DeepMind и большие специалисты по RL, которые разрабатывали AlphaGo, Gemini, PaLM и другие знаковые системы.
Стартап называется ReflectionAI. В нем будут разрабатывать автономные системы суперинтеллекта. «Мы начнем с автономного кодинга» – написано в из первом посте в Твиттере.
Скоро бывшие исследователи Google образуют собственную кремниевую долину
Новая OCR система от Mistral: SOTA или все-таки нет?
Вчера вечером Mistral выкатили собственную OCR модель и заявили ее как "лучшую в мире". На всякий случай, OCR – это распознавание символов с картинки, типа doc2text или image2text. Задача звучит не очень сложно, но на самом деле многосоставная и нетривиальная, особенно когда дело доходит до распознавания сканов плохого качества или рецептов вашего терапевта. На 100% задача OCR в ML до сих пор не решена.
И да, возвращаясь к Mistral: по их внутренним неопубликованным бенчмаркам (а они только такие показали в блогпосте) моделька действительно лучшая и классно справляется и с разными языками, и с формулами, и с таблицами, и с картинками, и с рукописными бумагами, и со сканами. Плюс, на примерах из того же блогпоста выглядит супер.
К тому же она довольно дешевая и быстрая: 1000-2000 страниц обрабатывает за 1 доллар и 1 минуту.
Но что там с независимыми бенчмарками? Вот здесь и здесь, например, показывают, что Gemini Flash 2.0 со многими задачами справляется лучше, а вот тут на открытых данных разработчиков другой OCR-системы Mistral вообще оказался на 6 месте (график на картинке 3). В соцсетях многие также пишут про галлюцинации на рукописях.
В общем, модель однозначно хороша, но по поводу "лучшей в мире" все-такие есть сомнения. Подождем больше тестов. А пока вы и сами можете попробовать: здесь в чате или через API.
mistral.ai/news/mistral-ocr
Трое мэтров ML опубликовали статью под названием "Superintelligence Strategy". В ней они предлагают стратегию мировой безопасности в области ИИ
Среди авторов:
– Дэн Хендрикс, директор Центра безопасности ИИ США
– Эрик Шмидт, бывший исполнительный директор и глава совета директоров Google, член совета директоров Apple, член совета по науке и технологиям США
– Александр Ван, 27-летний миллиардер, основатель Scale AI
Основная идея этих троих – исключить монополию на искусственный интеллект с помощью концепции Mutual Assured AI Malfunction (MAIM) – по аналогии с доктриной взаимного гарантированного уничтожения (MAD) времён холодной войны.
Суть MAIM в том, что государства будут стремиться саботировать потенциально опасные проекты конкурентов, чтобы ни одна страна не имела возможность обрести единоличное доминирование. Предполагается, что такая монополия будет приравниваться к агрессии и прямой угрозе существованию других.
С практической точки зрения MAIM – это шпионаж и разведка, скрытый саботаж, кибератаки, и даже физические атаки на датацентры. Да-да, мы все еще говорим о том, что написано в статье. По мнению авторов, только так можно избежать межгосударственных конфликтов и наладить взаимодействие в области ИИ.
Необычно.
https://drive.google.com/file/d/1wLcGgLOTVNsVVbgS5lPHOnqOQtNT8Z5j/view
Тем временем OpenAI закончили раскатывать GPT-4.5 на юзеров Plus подписки (20$)
Теперь можно сэкономить 180 долларов 🤑
⚫️ Разыгрываем 5 книг по обучению с подкреплением!
В честь того, что Эндрю Барто и Ричард Саттон получили премию Тьюринга — самую престижную награду в мире компьютерных наук — мы решили подарить нашим подписчикам 5 экземпляров их легендарной книги «Обучение с подкреплением».
Это главная и самая понятная книга по RL, написанная буквально отцами области. На её 600 страницах — всё, что нужно знать о reinforcement learning: от самых основ до разборов новейших подходов и знаменитых алгоритмов AlphaGo и AlphaZero, которые обыграли чемпионов мира по шахматам и Go.
Чтобы получить одну из пяти книг, просто убедитесь, что вы подписаны на оба наших канала: Data Secrets и Data Secrets Карьера. Результаты мы объявим в пятницу.
Жми "Участвовать" и совсем скоро книга может оказаться именно у тебя
От мидла до тимлида. Звучит как очередная история успеха, но это команда Циан ищет дата-сайентистов разного уровня. А ещё рассказывает:
➡️ как они выявляют проблемы и выдвигают гипотезы;
➡️ как им помогают записи пользовательских сессий;
➡️ над чем работают сейчас.
Их истории и вакансии можно увидеть на странице команды в Teams. Переходите, чтобы познакомиться и подсмотреть за работой в Циан.
Помните бенчмарк ARC AGI? Сегодня вышла статья, в которой его решили на 20% без претрейна
20% – высокий результат. GPT-4o выбивает 5%, o1-mini – 13%, а o1 – около 30. Но самое интересное в этой работе – это заявление «без претрейна».
То есть да, модель вообще не предобучали на задачах из трейна ARC-AGI. Для каждого примера берется новая нетронутая сетка, которая инициализируется случайно и обучается с помощью градиентного спуска исключительно на конкретном тестовом примере во время инференса 😮
Весь подход основан на… компрессии информации. Идея в том, чтобы находить максимально компактное (то есть низкобитное) представление задачи, которое затем при декомпрессии в точности воспроизводит исходный пазл вместе с ответом. Подход назвали CompressARC.
Архитектура похожа на VAE: мы оптимизируем параметры модели и входное распределение с применением относительного энтропийного кодирования (REC) и арифметического кодирования для эффективного сжатия информации. Модель как бы учится находить оптимальное структурное представление задачи, что в итоге и равняется тому, чтобы найти общее правило для решения головоломки.
Гениально и свежо. Интересно, заведется ли что-то подобное на других задачах.
Блогпост | Код
OpenAI подписали мощный контракт с 15 ведущими университетами и выделят им 50 миллионов долларов
Проект называется NextGenAI. Гарвард, Оксфорд, MIT, Калтех, Мичиганский университетов – вот неполный список партнеров. Все они получат от OpenAI гранты на исследования и API.
У многих университетов также будут выделенные группы студентов, которые будут заниматься специальными проектами OpenAI.
Вероятно, конечная цель – плотно подсадить крупное образование на экосистему ChatGPT, как это пытаются делать с Калифорнийским университетом.
openai.com/index/introducing-nextgenai/
Тот самый фронтендер из вашей команды на ML-хакатоне
Читать полностью…⚡️ В Google Colab завезли Data Science агента!
Он создан специально для работы с DS/ML и может создавать не просто фрагменты кода, а целые ноутбуки. Все просто:
1. Нужно подгрузить свои данные
2. Описать цели (например, «визуализируй», «проведи EDA», «напиши и оптимизируй модель предсказания таргета»)
3. Сидеть и наслаждаться тем, как агент сам пишет и запускает ячейки, импортирует нужные библиотеки и совершенствует свой код
Кстати, на бенчмарке DABStep (он как раз оценивает способности анализировать дату) агент занял четвертое место, сразу после o1, o3-mini и Claude, а это довольно мощный уровень.
Доступно для всех юзеров
+1 к сегодняшней подборке ресурсов: HuggingFace только что обновили свой курс по NLP и LLM и добавили туда целую главу про ризонинг. Внутри:
🟦 База по обучению с подкреплением и его роль в LLM
🟦 Подробный разбор самых важных моментов статьи про R1
🟦 Практика: пишем собственный GRPO и сами элайним модель
В конце каждой главы – квиз 👍
Гитхаб | Курс на HF