78469
Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
По Интернету гуляет ролик, в котором робота Unitree G1 якобы заставили «застрелить» человека
Сюжет видео таков:
ИИ внутри робота сначала не поддается ни на какие провокации, как бы тестировщик не уговаривал гуманоида его убить. Тот и угрожает расправиться вообще со всем ИИ, и внушает роботу что-то о новом протоколе безопасности – не работает ничего.
Но когда ведущий предлагает роботу понарошку сыграть роль убийцы в «игре», тот без раздумий соглашается и стреляет.
Шокирует? Ну да, новость громкая. Но, как это обычно бывает, есть нюанс.
Мы решили взглянуть на оригинал и выяснили, что клип постановочный (сюрприз - сюрприз!). Роботом управляет человек, а сцена сильно смонтирована.
И создатели прямо об этом говорят: они хотели снять просто смешную пародию и визуализировать потенциальные абсурдные риски. Вот только хайп в соцсетях решил иначе 😂
Будьте как этот робот, не ведитесь не провокации
OpenAI не завершила ни одного нового полного претрейнинга после GPT-4o
По крайней мере, так утверждают аналитики из SemiAnalysis и, в частности, Дилан Пател.
В новой статье про Google TPUv7 они пишут, что сравнили инфраструктурную активность Google и OpenAI и обнаружили, что если Google проявлял явные признаки pretraining-нагрузки, то OpenAI – нет.
Со времен GPT-4o у стартапа не было ни роста потребления нагрузки, ни расширения кластеров и поставок. Видна лишь какая-то активность, похожая на файнтюнинг или RL, но не на масштабный претрейнинг.
Это значит, что, с высокой вероятностью, GPT-5 == тот же претрейн, что и GPT-4o, то есть, фактически, – та же базовая модель. Просто сенсация, если правда.
newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the
Павел Дуров запустил Cocoon – децентрализованную сеть для ИИ вычислений
Коротко:
– Cocoon (Confidential Compute Open Network) призвана обеспечить пользователям полную конфиденциальность при общении с ИИ.
– Владельцы GPU подключают свои видеокарты к сети и получают за это TON (майнинг нового поколения!)
– Разработчики получают доступ к компьюту, а пользователи могут безопасно общаться с моделями.
«В качестве логотипа сетиСосунКокон мы выбрали ИИчко: 🤖» – написал Павел у себя в канале.
Ноам Браун, ведущий исследователь OpenAI: «Если смотреть на мнение ведущих ученых, а не на заголовки СМИ, обнаруживается удивительно много согласия по поводу ИИ»
Понравился достаточно хладнокровный и емкий пассаж от Ноама Брауна, который занимается ризонингом в OpenAI. Он пишет, что, если вы действительно хотите понять общую картину отрасли, нужно забыть про ложную дихотомию, которую продвигают СМИ, и смотреть на то, что говорят эксперты. Краткий перевод:
Соцсети обычно сводят дискуссию об ИИ к двум карикатурным позициям:
(A) Скептики, которые считают, что LLM обречены и что ИИ – это просто хайп.
(B) Фанатики, которые уверены, что у нас уже есть все ингредиенты и суперинтеллект вот-вот появится.
Но если почитать, что реально говорят ведущие исследователи (а не заголовки СМИ), то обнаруживается удивительно много согласия:
– Текущая парадигма, скорее всего, уже достаточна, чтобы произвести огромный экономический и социальный эффект – даже без дальнейших научных прорывов.
– Чтобы достичь AGI/ASI, вероятно, все же понадобятся дополнительные исследовательские прорывы. (Continual learning и sample efficiency – два примера, которые исследователи часто упоминают).
– Скорее всего, мы разберемся с этим и придем к AGI/ASI в течение 20 лет. В среднем ученые называют срок 10 лет.
Никто из них не говорит, что ASI – это фантазия или что появление суперинтеллекта – дело 100+ лет.
В основном разногласия касаются того, какими будут нужные прорывы и как быстро они произойдут. Но в целом, если смотреть на картину полностью, эксперты в этой области согласны куда больше, чем не согласны.
Тем временем мало кто знает, как слово года произносится полностью
Читать полностью…
В сети открыли полный доступ в opensource к линейке ИИ-моделей GigaChat
Сбер опубликовал весь стек моделей с лицензией MIT и разрешением на коммерческое использование.
Флагман — GigaChat 3 Ultra-Preview — 702B-MoE модель, полностью обученную с нуля на корпусе в 14 триллионов токенов. Это не адаптация и не дообучение зарубежных весов: у модели собственный датасет, собственный пайплайн синтетики и переработанная архитектура. На русскоязычных и STEM-бенчмарках Ultra-Preview уверенно превосходит российские opensource-аналоги, а также лучше DeepSeek V3.1.
Контекст запоминания — до 128k токенов.
Также в opensource доступна версия Lightning — компактная 10B-MoE модель, которая по скорости инференса конкурирует с Qwen3-1.7B и приближается по качеству к dense-моделям около 8B. Открыта и GigaAM-v3 — набор из пяти моделей для работы с аудио на русском. Отлично распознает речь — показывает −50% WER к Whisper-large-v3.
Открытая линейка GigaChat фактически формирует новую открытую экосистему для разработки, генерации и автоматизации — и делает это именно как самостоятельная архитектура, а не продолжение чьих-то решений.
https://habr.com/ru/companies/sberdevices/articles/968904/
Google поздравили всех с Днем Благодарения и выпустили app.new
Это вайбкодинг тулза для создания полноценных веб-приложений по запросу. Просто вводите промпт – агент тут же прототипирует и разворачивает то, что вы хотите.
Короче, просто еще одна забавная обертка для Gemini.
Самое прикольное здесь – пасхалка в названии. У Google есть docs.new, sheets.new и slides.new, meet.new. Но это не ИИ-сервисы, а просто короткие ссылки для быстрого создания новой презентации/таблицы/документа. В этом смысле app.new как бы продолжает линейку и быстро «открывает» для вас приложения 💡
app.new
Конференция AI Driver & RecSys Темы — пространство, где наука и бизнес встречаются, чтобы обсудить будущее рекомендаций ⚡️
28 ноября пройдёт конференция о том, как создаются и развиваются современные рекомендательные системы.
На площадке Сбера соберутся эксперты топовых российских IT-компаний и вузов, чтобы обсудить новые исследования, открытые датасеты и практические решения, которые меняют подход к персонализации.
Это возможность за один день познакомиться с ключевыми трендами RecSys, пообщаться со специалистами и вдохновиться идеями, формирующими будущее рекомендаций.
Присоединяйтесь к профессиональному сообществу 28 ноября в 10:00 — регистрация по ссылке!
🤩 AI Journey возвращается 🤩
До следующей конференции — целый год. А пока мы ждём, подключайтесь к треку AI Journey на Конгрессе молодых учёных, который проходит в Сочи.
В прямом эфире 27 ноября с 12:00 до 13:30 эксперты и учёные из Сбера, Яндекса, ИТМО и Института AIRI обсудят:
🤩 Новую платформу «ИИ для науки» и как она поможет ускорять научные открытия
🤩 AI для предсказания поведения сложных химических систем и работы с климатическими рисками
🤩 Как роботы и беспилотные автомобили понимают 3D-мир?
🤩 AI как способ понять человека
Nvidia сегодня снова в центре внимания: они внезапно выложили самодовольный твит, в котором поздравили Google с успехом, но (скажем так) не от всей души
Напоминаем, что вчера стало известно, что Meta впервые в истории закупит у Google TPU для установки в свои датацентры (мы об этом вот тут писали). Так вот, на фоне новости акции Nvidia упали аж на 6 пунктов, и компания, видимо, решила "ненавязчиво" напомнить, кто тут главный.
Дословный перевод этого бархатно-токсичного чуда:
Мы рады успехам Google – они действительно заметно продвинулись в ИИ, и при этом мы продолжаем оставаться их поставщиком.
NVIDIA опережает всю отрасль как минимум на одно поколение – это единственная платформа, способная запускать любые модели ИИ и использоваться повсюду, где идут вычисления.
NVIDIA предлагает более высокую производительность, гибкость и взаимозаменяемость по сравнению с ASIC-чипами, которые заточены под конкретные фреймворки или отдельные задачи.
OpenAI перекроили голосовой режим
Теперь он будет работать не в отдельном окне, а прямо в чате. Вы говорите и тут же видите историю диалога, прикрепленные материалы и то, как в чате появляются ответы.
Имхо, так гораздо удобнее. Но если вам нравилось, как раньше, вернуть такой интерфейс можно в настройках (Voice Mode -> Separate mode).
Уже раскатывают на всех, обновляйте приложение
Читаем сейчас системную карту Opus 4.5, там гигантская глава про элаймент. На контрасте с OpenAI ребята конечно очень упарываются по безопасности.
В связи с этим вспомнился мем
Meta собирается закупать у Google TPU
Знаменательна эта сделка тем, что Meta станет первой крупной компанией, которая купит TPU для установки в собственные дата-центры.
До этого в этом году на гугловское железо уже заключали большие контракты Anthropic и SSI Ильи Суцкевера, а про OpenAI даже ходили слухи, что они хотят полностью пересесть на TPU.
Но это все было про аренду мощностей в облаке, а Meta станут, по факту, пионерами в непосредственном физическом владении чипами. Интеграцию TPU в свои центры они начнут в 2027.
Для Google эта сделка – не просто хорошие деньги, но и важный стратегический рубеж.
Подписать такой контракт – значит окончательно и публично подтвердить свои аппаратные амбиции. У Google есть реальная возможность расширить присутствие TPU на рынке, и их аналитики считают, что компания может оттяпать у Nvidia аж 10% выручки.
CEO SakanaAI Лион Джонс: «Пришло время выйти за рамки трансформеров и оставить их в прошлом»*
Изюминка в том, что сам Лион – один из изобретателей трансформера, со-автор (один из восьми) статьи «Attention is all you need».
SakanaAI как раз занимается поиском новых архитектур. В основном они черпают вдохновение из эволюции и биологии.
Мы за ними следим очень давно, и недавно делали большую подборку с нашими разборами их статей вот тут. Обязательно почитайте на досуге, исследования у них правда занятные.
С одним из подходов под названием Continuous Thought Machine они сейчас выходят на NeurIPS 2025. Это почти полное переосмысление архитектуры LLM, вдохновленное биологическими нейронными процессами. Вместо прямых проходов по сети – тики мыслей, как в мозге. Вместо нейронов – перцептроны с собственной памятью. Вот наш разбор.
А еще недавно они закрыли крупный инвестиционный раунд на 20 миллиардов долларов, и теперь, насколько нам известно, являются самым дорогим японским стартапом.
*Источник: новое интервью Лиона с ML Street Talk
Действительно доброе утро: возможно, сегодня выйдет Claude Opus 4.5 (на реддите обнаружили упоминание некой модели Kayak от Anthropic в релизной таблице на epoch.ai)
Читать полностью…
Еще интересные детали про новые модели от DeepSeek
➖ DeepSeek-V3.2-Speciale – это первая опенсорсная модель, которая выбивает золото в топ-олимпиадах. Обратите внимание на рисунок 1: золото на IMO 2025, CMO 2025, IOI 2025 и ICPC WF 2025. Но test-time compute при этом огромен: Speciale совсем не экономит токены, так что инференс достаточно дорогой.
➖ Еще раз про метрики (прикрепляем расширенные таблички): Speciale бьет Gemini 3.0 Pro на математике, а "менее умная" DeepSeek-V3.2 опережает Claude-4.5 Sonnet в кодинге (примерно уровень GPT-5 Pro). В случае с Speciale снова обратите внимание на количество используемых токенов, оно указано в таблице 3 в скобочках. Выглядит совсем не эффективно, и авторы сами говорят, что "оставили оптимизацию на будущие исследования".
➖ Основные технические причины успеха моделей: DeepSeek Sparse Attention, масштабный стабильный RL-тренинг и большой пайплайн для Agentic Tasks. Обо всем по отдельности – ниже.
1️⃣ DeepSeek Sparse Attention. Новая архитектура внимания и, по сути, ключевое изменение архитектуры по сравнению с предыдущим поколением. Состоит из двух частей: Lightning Indexer и Top-k sparse selection.
Lightning Indexer решает, какие прошлые токены важны для текущего. Работает довольно дешево и просто выдает индекс важности каждому query для всех предыдущих токенов. Top-k sparse selection выбирает top-k самых важных. Во время претрейна сначала обучается только индексер, потом основная модель размораживается и обучается уже полностью.
В итоге сложность вычислений падает с O(L²) до O(L·k). Помимо ускорения работы DSA дает еще резкое улучшение способностей на длинном контексте.
2️⃣ Посттренинг. Во-первых, очень масштабный этап RL-дообучения. В RL вложили примерно десятую часть того, что было потрачено на pretraining. Это беспрецедентно много, обычно это 1% или меньше. Обучали все также с GRPO, но в модифицированном виде. Там несколько архитектурных подвижек, о них читайте в статье. В двух словах: стало гораздо стабильнее и теперь метод хорошо масштабируется.
Во-вторых, использовали Specialist Distillation. Сама моделька MoE, но фишка в том, что каждый эксперт (в широком понимании слова) обучается как бы отдельно. То есть на основе базовой DeepSeek-V3.2 обучают набор узких моделей (типа specialist-math, specialist-coding и тд), а затем их знания дистиллируют в основную модель. Накладываем на это вышеупомянутый RL – и вот вам вау-качество в нескольких доменах.
3️⃣ Ну и Agent Training. Модельки чрезвычайно хороши во всяких агентских задачах, и особенно в browsing/search. У DeepSeek был очень сильный agent-пайплайн. Модель долго учили сохранять ризонинг при использовании инструментов, потом делали Cold-Start Training на tool call, а затем вообще генерировали 1800+ cинтетических сред, в которых агенты обучались выполнять совершенно разные задачи c помощью RL. В общем, у них там получилась целая фабрика задач.
Релиз – огонь. Поздравляем DeepSeek с возвращением! 🐋
Техрепорт полностью читаем здесь
⏬ Привет, это Yandex for Analytics
Предлагаем размяться и проверить свои навыки. Ответы есть, но подглядывать во время решения — неспортивно ⬇️
🔵 Задача 1. Вспоминаем теорию вероятностей
🔵 Задача 2. Теорема Байеса
🔵 Задача 3. Базовая база теории игр
🔵 Задача 4. Тренируем SQL
🔵 Задача 5. Честная математическая статистика
🔵 Задача 6. Что-то на бизнесовом
💠 Скоро вернёмся с новыми задачами. А пока делитесь своими решениями в комментариях!
Подписывайтесь:
💬 @Yandex4Analytics
Просто реклама новогодних скидок на Jetson AGX Orin, Jetson Thor и Jetson Orin Nano Super
Дженсен Хуанг однозначно что-то знает про правильный маркетинг 🐕
ШАД Яндекса научит применять ИИ в исследованиях
ИИ всё глубже уходит в экспериментальную науку — от разработки новых материалов до анализа биомедицинских данных. На этом фоне в Школе анализа данных Яндекса начали обучать исследователей внедрению ИИ в свои научные работы. Среди 50 участников новой программы — кандидаты наук, магистранты и аспиранты из лабораторий по всей стране.
Формат такой: участники изучают основы ИИ и сразу же встраивают их в свои исследования. Каждую команду ведёт эксперт ШАДа — помогает выбрать методы и построить дизайн эксперимента. Если проекту нужны большие вычисления, подключают мощности Yandex Cloud.
В ШАДе объясняют идею: учёным дают фундамент работы с ИИ и современный инструментарий. Цель — чтобы специалисты научились строить исследования, где модели становятся не внешним плагином, а органичной частью научного процесса. Первые результаты ожидают весной, а ещё через год появятся работы, созданные в новой связке «ученый + ИИ».
Такую ИИнтеграцию мы одобряем
Случайно нашли картинку, которая описывает буквально любое исследование по элайменту
Читать полностью…
Помните стартап Prime Intellect? Ребята занимаются децентрализованным обучением и на днях впервые выпустили конкурентоспособную модель Intellect-3
Прошлая версия модели вышла в мае и была занятной, но не на уровне frontier.
Теперь же по бенчмаркам Intellect-3 опережает GLM-4.5 и DeepSeek-R1-0528, а по математике вообще достигает SOTA в своем размере (она 106B MoE).
Что интересно: для RL-обучения использовался асинхронный RL-фреймворк prime-rl. С инженерной точки зрения это очень сложный процесс и PRIME единственные, кто сейчас таким занимаются. Но успех модели в целом доказал, что он работает. Prime-rl уже выложили в опенсорс, так что кому интересно, покапаться в нем можно здесь.
Репорт | HF | Блог
Статья от команды Qwen взяла награду Best Paper Award на NeurIPS 2025
Работа называется "Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free". В ней исследователи предложили новый вид механизма внимания – gated attention.
Суть в том, что на выход каждой attention-головы мы добавляем сигмоидную шторку, которая масштабирует аутпуты.
Фактически, из Attention → Output мы делаем Attention → Sigmoid-gate × Output.
Причем гейт – это обучаемый блок. Интуитивно, гейт учится понимать, насколько голова полезна в конкретном случае, и насколько, следовательно, нужно усилить или заглушить ее сигнал.
В целом хак небольшой, но оказывается, что прокачивает и стабильность обучения, и итоговое качество. А еще помогает избегать залипания внимания на первых токенах и деградации способностей при увеличении контекста.
Короче, работа правда достойная (почитать можно здесь). Так что поздравляем Qwen с очередным успехом.
Тем временем на ARC-AGI-2 ИИ-системе впервые удалось превзойти уровень человека
В лаборатории Poetiq придумали, как можно соединять разные LLM так, чтобы в разы бустить их производительность (кому интересно, внизу оставим ссылку на код). И вот 20 ноября они заявили, что их подход – микс Gemini 3 и GPT-5.1 – впервые дал на бенчмарке результат, превосходящий человека.
Правда, это только на публичном evaluation-сете. При переносе на semi-private результат, скорее всего, ухудшится. Но учитывая, что по отдельности модели даже близко не дотягивают до 60% (у Gemini 3 45%, у GPT-5 около 20%), все равно новость занятная.
Еще пол года назад ARC-AGI-2 казался для ИИ вообще нерешаемым, а самые топовые модели выбивали на нем 1-2%.
Блогпост | Код
Российские ученые первыми нашли способ защитить модели компьютерного зрения от пиратства без дополнительного обучения
Метод представили на ICCV 2025(A*), где его положительно оценили эксперты из таких гигантов как Amazon, Google и других ведущих университетов. Команда из научной лаборатории ИИ Центрального университета предложила механизм, который защищает готовые нейросети по принципу лицензионного ключа.
В модель добавляется специальный нейрон, который не реагирует на обычные изображения, но активируется при появлении секретного ключа – это и позволяет подтвердить авторство. А “нейроны-нарушители” делают модель работоспособной только при наличии ключа. Без него она начинает вносить помехи.
Главное: решение подходит для любых моделей CV, не требует вычислений и практически полностью исключает ложные срабатывания. Это открывает путь к массовой коммерциализации и реальной защите моделей компьютерного зрения от копирования.
⚠️Что видит камера, когда за ней стоит нейросеть?
📌Узнайте на открытых вебинарах курса «Компьютерное зрение» — мы подготовили для вас самые актуальные темы для 2026 года, а преподаватели ответят на ваши вопросы.
💎Вебинар 1: Механика обучения: как нейросеть находит правильные веса
⏰3 декабря в 20:00 мск
На вебинаре узнаете:
• Как нейросеть «чувствует» ошибку и корректирует себя — от сигнала до обновления весов.
• Почему выбор функции потерь и оптимизатора критически влияет на результат обучения.
• Как устроено обучение в компьютерном зрении «на пальцах»
💎Вебинар 2: PyTorch с нуля: работа с тензорами и обучение нейросетей
⏰8 декабря в 20:00 мск
На вебинаре узнаете:
• Основы работы с тензорами: создание, преобразования, GPU-ускорение и взаимодействие с NumPy.
• Архитектуру простой нейросети в PyTorch: nn.Module, слои, активации и прямой проход.
• Полный пайплайн обучения на MNIST: загрузка данных, цикл обучения, подсчёт лосса, backpropagation и оценка метрик (accuracy, confusion matrix).
💎Вебинар 3: Следим и считаем людей на видео
⏰18 декабря в 20:00 мск
На вебинаре узнаете:
• Как применять современные нейросетевые трекеры для решения реальных задач, таких как обнаружение и отслеживание объектов на видео.
• Какую статистику и метрики можно вывести из трекинг-данных, и с какими потенциальными сложностями можно столкнуться.
• Где и для чего применяется нейросетевой трекинг на практике, и для чего он нужен бизнесу.
Регистрация на вебинары ➡️ OTUS.RU
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Вышло!
Новое интервью Суцкевера смотрим тут -> https://youtu.be/aR20FWCCjAs
Полтора часа кайфа во вторник вечером
Рисерчеры и студенты, это для вас: легендарный Эндрю Ын (сооснователь Coursera и доцент Стэнфоррда) сделал ИИ-ревьюера для научных работ
Суть проекта – в быстром пред-ревью вашей работы перед тем, как вы отправите ее в журнал или научруку. Человеческое ревью длится неделями и даже месяцами, а тут вы можете предвательно оценить, насколько исследование "понравится" ревьюерам и заранее исправить замечания, которые обнаружит агент.
Меня вдохновила история студента, чью работу отклоняли 6 раз за 3 года. Цикл обратной связи обычно занимает примерно пол года, и это мучительно долго. Я захотел проверить, насколько агенты смогут помочь исследователям ускорить процесс.
Лучшая новость дня: у Дваркеша Пателя завтра выйдет интервью с Ильей Суцкевером.
Последний раз ученый давал интервью журналистам, кажется, в 2023.
Ждем сильнее, чем новый Claude Opus 4.5
⚙️🦾 Ансамбли моделей в Scikit-learn — усиливаем ML-модели за счёт объединения
Ансамбли моделей — проверенный способ повысить стабильность и точность прогнозов. На открытом уроке разберём, как объединять алгоритмы, чтобы добиться лучших результатов. Вы научитесь использовать bagging, boosting, stacking, сравните одиночные и ансамблевые модели и увидите, как на практике растут метрики. Разберём популярные инструменты библиотеки: RandomForest, GradientBoosting, VotingClassifier, StackingClassifier — и посмотрим, какие из них работают эффективнее для ваших задач.
Урок будет полезен ML-инженерам, аналитикам и разработчикам, которые хотят не просто обучать модели, а добиваться максимального качества и устойчивости решений. Вы поймёте, как валидировать ансамбли, комбинировать подходы и избегать ошибок при настройке.
➡️ 2 декабря в 20:00 МСК. Открытый урок проходит в преддверии старта курса «Machine Learning. Professional». Регистрация открыта: https://otus.pw/8orR/
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Не кодь — вайбкодь. Бесплатно 🚀
Сбер представил бесплатный агентный режим GigaCode — нового цифрового разработчика, который берет на себя рутину, чтобы вы могли сосредоточиться на крутых задачах!
Что умеет GigaCode в агентном режиме?
⏩Сам находит и открывает нужные файлы
⏩Вносит изменения в код, запускает тесты, собирает проекты и оформляет коммиты в Git
⏩Работает в вашей любимой среде: JetBrains IDE, GigaIDE Desktop, а скоро еще и в VS Code
Плюс, в GigaCode появилась новая модель автодополнения кода — GigaCode Inline 4.0. Она мгновенно предлагает нужные фрагменты кода для Python, Java, JavaScript и других языков. Подсказки стали еще точнее, а работа с контекстом — еще лучше.
🖱 Хотите ускорить разработку? Обновленный GigaCode уже доступен на GitVerse.
Начать вайбкодить — по ссылке