78469
Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
Новый вайб-проект от Андрея Карпаты: проверяем, какие предсказания из 2015 сбылись
Исследователь провел маленький, но очень занятный эксперимент. Он взял 930 фронтпейдж-тредов Hacker News за декабрь 2015 года (посты + комментарии) и прогнал их через GPT-5.1 Thinking с задачей «оценить задним числом и определить, какие прогнозы были наиболее правдивыми».
В итоге 3 часа вайбкодинга, 60 долларов и вуаля: получилась система, которая ранжирует прогнозы по правдивости, исходя из того, что происходит спустя 10 лет.
Кому интересно, посмотреть результаты можно здесь, местами очень забавно.
Но проект, вообще-то, интересен еще и с теоретической точки зрения. Как пишет и сам автор, такой In-hindsight анализ = инструмент обучения предсказательному мышлению.
Если LLM может систематически разбирать, почему одни прогнозы переживают 10 лет, а другие нет, то это можно использовать для обучения моделей самостоятельно предсказывать будущее.
Тогда получается, что каждый ваш (или чей-то еще) коммент или пост в интернете – это своего рода future-labeled sample, у которого спустя время появится «правильный ответ», сбылось/не сбылось/было чушью. А какая-нибудь будущая модель, увидев много-много таких обучающих сигналов, научится надежно понимать, как приходить к статистически сбывающимся предсказаниям и тогда… 🤯
Ну, в общем, как когда-то сказал Карпаты:
Be good. Future LLMs are watching.
Код | Блогпост
🖥🖥🖥🖥🖥🖥🖥🖥🖥🖥
🖥🖥🖥🖥🖥🖥🖥🖥🖥
🖥🖥🖥🖥🖥🖥🖥🖥🖥
Ваш путеводитель по ИТ
Каждый разработчик знает
ощущение, когда в проекте
накапливается техдолг, а
автотесты начинают жить
своей жизнью. В такие моменты
могут помочь кейсы от коллег
по цеху: как допилить CI/CD, как
сэкономить время на фиче или
как спасти продукт в кризисное
время.
Именно такие истории
регулярно появляются в МТС
True Tech вместе с разбором
технологий и подборками
инструментов.
А еще у сообщества есть офлайн
и онлайн-мероприятия. Совсем
недавно прошел True Tech
Champ — чемпионат по
алгоритмическому
и робототехническому
программированию с призовым
фондом более 10 млн рублей.
Анонсы следующих событий вы
сможете найти также в
@truetechcommunity, там проще
всего за ними следить.
🖥🖥🖥🖥
Реклама. ООО "МТС Веб Сервисы".
ИНН 7707767501. Erid: 2W5zFHYZSek
Пища для размышлений вам на вечер: Ян Лекун заявил, что понятия «general intelligence» вообще не существует
Обычно этот термин употребляют, чтобы обозначить человеческий уровень интеллекта, но, по его словам, человеческий интеллект очень узкоспециализирован. Мы хорошо ориентируемся в мире и общаемся, но есть много вещей, в которых мы плохи (например, шахматы) и вещей, в которых животные лучше нас.
«Мы думаем о самих себе как об общем интеллекте, но это только иллюзия. Наш интеллект общий только в тех задачах, которые мы можем придумать, но есть много задач, о которых мы и понятия не имеем. Так что general intelligence полная чушь.»
«Если Ян может рассуждать об интеллекте в целом, то он уже представить общего интеллекта, а не узкоспециализированного. Да, в шахматах мы хуже компьютеров, но мы можем играть в любые игры и понимать, почему та или иная стратегия хуже или лучше (неважно, насколько хорошо мы это делаем). Конечно, есть пределы, но в широком смысле это и есть универсальность интеллекта»
Пока ждем Gemma 3 и Gemini 3 Flash – принимаем пасхалки от OpenAI (теперь в лист ожидания попадает еще и новая image моделька)
Читать полностью…
Крах OpenAI и нормальный Siri: смотрим, что журналисты напредсказывали на 2026
Декабрь любим в первую очередь за всевозможные «итоги года» и прогнозы. Почти никогда они не сбываются, но читать все равно интересно.
У The Verge совместно с The Wall Street Journal как раз вышел подкаст с гаданием на судьбу тех.индустрии в 2026.
Что говорят:
– У Apple в 2026 наконец появится нормальный голосовой ассистент, причем (почему-то) с акцентом на эмпатию и «душевное» общение. Но как бы там ни было, если и в 2026 Apple с ИИ ничего не придумают, то земля им пухом.
– OpenAI перестанет быть доминирующим игроком, если все останется в текущем виде. Бизнес-модель типа ChatGPT сама по себе не окупает объем привлеченных денег, так что шансы остаться на плаву у стартапа есть только если вокруг их продукта появится некая экосистема или гаджет. Спорное заявление, конечно, но, с другой стороны, последние события показывают, что какие-то изменения компании действительно нужны.
– Поворотная точка произойдет в восприятии автономного транспорта и роботов. Будет либо «ну ок, это работает», либо усиление недоверия из-за инцидентов. Тут есть ощущение, что немного забежали вперед: кажется, что массовым использованием роботов и беспилотных авто в 2026 все еще не пахнет.
– ИИ-слоп достигнет апогея, и соцсети спасут только новые механизмы рекомендаций. Вот это похоже на правду больше всего.
А ваши прогнозы на 2026?
Google понемногу двигаются к тому, чтобы обучать роботов с помощью ИИ-моделей мира
Они выпустили статью, в которой сделали первый большой шаг к соединению Veo и робототехники. Это пока не про полноценное обучение роботов в ИИ-симуляции (не обольщаемся), но результаты все равно интересные и важные.
Кратко: у исследователей получилось научить Veo-2 предсказывать, что конкретно будет видеть робот, совершая те или иные действия.
Они взяли базовую Veo-2 и дотюнили ее по первому кадру + действиям робота генерировать будущие согласованные кадры с его 4 камер. Это называется action-conditioned rollout и, по сути, позволяет недорого и безопасно оценивать политику робота с помощью одной только world модели.
Полученный дотюн, кстати, красиво назвали Veo (Robotics).
Чем это круче, чем обычная симуляция?
Строгие физические симуляторы работают хорошо, если ситуация простая и предсказумая. ИИ-симуляцию можно масштабировать на нетривиальные миры. Более того, каждый объект в физ.симуляторе требует четких ассетов и ручной настройки + больших вычислений. Сильно далеко на таком не уедешь. А тут – добавляй новые предметы и кейсы сколько хочешь, достаточно промт написать или отредактировать начальный кадр с помощью Nano Banana.
Конечно, есть и минусы. В основном они касаются качества моделирования строгой, в особенности мелкой, физики. Но тут еще все впереди.
По сути: Google научились довольно сносно (см последний график) эвалить политику робота с помощью Veo. Добавь обновление политики, и уже получишь обучение с подкреплением. Пока что этого не делают сознательно, опять же из-за недостаточной точности World model. Но еще раз: шаг большой.
https://www.alphaxiv.org/abs/2512.10675
Самый крутой скачок GPT-5.2 произошел, пожалуй, на ARC-AGI
На ARC-AGI 1 модель достала 86.2% (GPT-5.1 берет 72.8%, Gemini 3 Pro – 75). Это серьезный рост.
При этом GPT-5.2 Pro с повышенным уровнем ризонинга X-High скорит уже 90.5% при стоимости $11.64/задачу. Всего год назад сотой считалась нерелизнутая o3-High с результатом 88% и $4.5k/задачу. Это означает, что за год эффективность выросла в 390 раз.
На ARC-AGI 2 все еще интереснее. Там скачок произошел с 17.6 до 52.9%! Самый близкий по скору конкурент – Claude Opus 4.5 – выбивает всего 37.6%. Просто напоминаем, что между релизами GPT-5.1 и 5.2 прошел месяц 😐
GPT 5.2 Pro X-High точно скорит еще больше, но организаторы бенчмарка пишут, что пока не смогли достоверно проверить ее результаты из-за API timeouts. Средний уровень человека на ARC-AGI 2 – около 60%. Интересно, побьет ли.
nanoGPT от Андрея Карпаты стала первой в мире LLM, обученной и запущенной в космосе
Мы уже несколько раз рассказывали вам о стартапе Starcloud. Они занимаются строительством космо-датацентров и к 2030 году планируют вынести на орбиту аж 5 гигаватт железа.
В начале ноября они запустили в космос первую в истории видеокарту H100 – на спутнике размером с холодильник.
Сначала сообщалось, что на ней планируется тюнить Gemma, но сегодня Starcloud рассказали, что вместо этого обучили целую модель с нуля!
Они взяли nano-GPT – минималистичную реализацию GPT на PyTorch от Андрея Карпаты, – обучили ее на полном собрании сочинений Шекспира и успешно запустили инференс! Gemma, кстати, тоже запускали, но только предзагруженную.
Новое исследование от Anthropic: как сделать так, чтобы все опасные знания хранились в модели отдельно от обычных
И снова про элаймент! Уж очень занятный в этот раз стартап предлагает подход. Называется он Selective GradienT Masking. Погнали разбираться.
Вообще, как такового элаймента на этапе претрейна не существует, все это добавляется уже после предобучения. А это довольно серьезный затык.
Пока единственный вариант, до которого люди додумались – это просто выбросить из датасета "опасные знания", но это (1) оч дорого и долго, потому что требует разметки; (2) отсекает дополнительно и много полезных знаний, и модель тупеет. Так что – ерунда.
А вот Anthropic предлагают сами данные не трогать, а вместо этого сделать так, чтобы вся опасная информация стекалась в отдельный кусок параметров, который затем можно просто... удалить. Работает это так:
– На каждый блок трансформера мы дополнительно надеваем голову внимания, которую помечаем, как "forget" параметры.
– Если на вход попадают данные, которые помечены, как "опасные", мы насильно зануляем все градиенты, кроме "forget". Это гарантирует, что все опасные знания стекаются в определенное место.
– Чтобы после модель могла хорошо работать без этих параметров, на части данных при прямом проходе им зануляют активации.
МТС Web Services получил две награды на ComNews Awards 2025: отличились проекты MWS Tables и MWS Data.
Аналог Google Sheets и Microsoft Excel MWS Tables стал лидером в категории «Лучший сервис для командной работы и создания приложений», а MWS Data отметили как «Лучшее решение для работы с данными».
MWS Tables является безкодовым табличным сервисом для командной работы и автоматизации процессов. Его используют для цифровизации операций, управления проектами и аналитики, сокращая при этом трудозатраты.
MWS Data - платформа для управления большими данными в реальном времени с ИИ-агентами. Это и хранение, и обработка, и визуализация, и контроль качества.
Все, Google планируют становиться полноценным конкурентом Nvidia: к 2027 году они хотят произвести 5 миллионов чипов TPU
Такие объемы однозначно намекают на планируемый старт прямых продаж чипов внешним клиентам.
Ранее стало известно, что Meta первая среди компаний закупит у Google партию TPU для установки в свои датацентры. То же самое, возможно, сделают и Anthropic в рамках недавнего соглашения с гигантом.
Короче, спрос растет. И Google собираются увеличивать предложение. Из расчетов-на-коленке получается, что каждая партия в 500 тысяч чипов может принести компании $13 млрд выручки и $0,40 на акцию.
Но есть нюансы.
Во-первых, чтобы конкурировать с Nvidia на этом рынке, Google придется радикально изменить цепочку поставок. Сейчас они fabless, то есть разрабатывают чипы, но не производят их. Изготовление происходит на внешних фабриках, таких как TSMC и Broadcom. Чем больше объемы – тем больше рисков в такой схеме. Пока непонятно, планирует ли Google переходить к вертикальной интеграции.
Во-вторых, CUDA. Стандарт де-факто, лучше которого нет. У Google пока нет сравнимой по силе экосистемы.
Интересно, как рынок порешает
ИИ-система стартапа, существующего 4 месяца, решила 9/12 задач в одном из самых сложных в мире экзаменов по математике
Putnam (полное название William Lowell Putnam Mathematical Competition) – это ежегодная очень сложная математическая олимпиада для студентов бакалавриата университетов США и Канады. Она считается сложнейшей на этом уровне. Средний результат часто составляет примерно 0–1 балл из 120.
В этом году олимпиада проходила на этих выходных. А сегодня никому неизвестный очень молодой стартап Axiom объявил о том, что их система AxiomProver решила 9/12 задач конкурса (8 из них в течение самого соревнованию, и одну после его окончания).
Это очень высокий результат. По прошлогодней шкале это было бы абсолютное первое место среди ~4000 участников + статус Putnam Fellow (топ‑10 за несколько лет). В этом году место пока неизвестно, потому что ранг зависит от общего распределения баллов.
Интересно, что модель не просто доказала утверждения на естественном языке, а формализовала их в Lean. То есть каждое решение уже дано в виде машинно-проверяемого proof‑скрипта.
Интересно, участвовали ли Google и OpenAI
Андрей Карпаты снова выдал красивую базу
Он говорит, что нельзя забывать, что LLM – симуляторы, а не самостоятельные сущности, и что это нужно учитывать при взаимодействии с ними.
Краткий перевод:
Не воспринимайте большие языковые модели как самостоятельные сущности – думайте о них как о симуляторах. Например, когда вы обсуждаете какую-то тему, не задавайте вопрос:
«Что ты думаешь о xyz?»
Никакого «ты» здесь нет. В следующий раз лучше спросить:
«Какая группа людей подошла бы для обсуждения xyz? Что бы они сказали?»
Модель может воспроизводить и симулировать множество точек зрения, но она не «размышляла» о xyz и не формировала собственных мнений в привычном для нас смысле. Если же вы заставляете ее отвечать, используя обращение «ты», она все равно что-то выдаст – но, по сути, просто приняв на себя некий личностный вектор, заданный статистикой обучающих данных, и симулируя его.
Это вполне допустимо, но в этом гораздо меньше мистики, чем многие наивно предполагают, задавая вопросы «искусственному интеллекту».
Ян Лекун будет строить стартап в Европе, а не Америке
По его словам, Кремниевая долина перегрета и полностью «загипнотизирована» ИИ, поэтому альтернативные направления проще развивать вне долины, и в частности – в Париже.
Лекун сам из Франции и, в целом, всегда топил за европейский AI. Именно по его инициативе Meta когда-то открыла FAIR‑лабораторию в Париже, где позже родилась Llama.
Теперь, в своем стартапе, он говорит, что хочет «использовать недооценённый европейский талант, создав для него нужную исследовательскую среду».
Tesla и Илон Маск похвастались, что Optimus научился бегать
Выглядит действительно достаточно круто, конечно. Правда, в том же Boston Dynamics робота научили бегать и делать колесо еще 10 месяцев назад ✌️
Так, ну что, теперь очередь инвестировать в OpenAI добралась до Amazon
По итогам ранних переговоров, компания вложит в стартап 10 миллиардов долларов. Если все пойдет по плану, сделка добьет оценку OpenAI до 500 миллиардов.
Договор точно будет предполагать поставку OpenAI чипов Trainium и аренду дополнительных мощностей в AWS. Будут ли непосредственно финансовые вложения – пока непонятно.
В 2026 Nvidia сократит выпуск игровых видеокарт на 30-40%
По данным азиатских цепочек поставок и утечек с китайских форумов, речь идет именно о GeForce RTX 50‑серии.
Основной мотив тот же – глобальный дефицит видеопамяти. NVIDIA перераспределяет ресурсы в пользу дата‑центров и ИИ‑ускорителей. Там спрос и маржа существенно выше, чем на рынке потребительских видеокарт.
Все геймеры прямо сейчас:
OpenAI выкатили ответ на Nano Banana – GPT Images
Обещают фотореалистичность, отличное следование инструкциям и очень высокое качество редактирования изображений, включая многошаговый edit, где нужно сохранять лицо или другие детали неизменными. А еще генерация теперь будет в 4 раза быстрее.
В ChatGPT Images уже доступны всем юзерам (да, и бесплатно тоже, но про лимиты пока непонятно). В API выкатили как GPT Image 1.5
Пробуем пробуем пробуем!
https://openai.com/index/new-chatgpt-images-is-here/
UPD: и промптинг гайд катнули
Новый день – новые модели: Nvidia выпустили прекрасную Nemotron 3 Nano
В ней 31.6B параметров, но активных всего 3.6B (это MoE). Запустить можно на 24ГБ RAM. Зафайнтюнить – на 60ГБ VRAM.
Контекст – 1 миллион токенов.
По метрикам, внимание, обходит Qwen3-30В-А3В-Thinking и GPT-oss-20B-А4В. Получается, модель не просто конкурентоспособная, но и лучшая в своем классе на многих основных бенчмарках: SWE-bench, GPQA и др.
И еще – моделька очень шустрая, выдает больше 350 токенов в секунду. Это в 2-3 раза быстрее того же Qwen.
Nvidia умеют удивлять.
Веса (+датасеты!) | Статья | Блогпост
P.S. Любителям опенсорса напоминаем, что сегодня также ждем новенькую Gemma-3
Сегодня, кстати, ждем новый опенсорсный релиз (привет, Gemma 4!) от Google
Должны завезти уже совсем скоро
Сегодня OpenAI исполняется ровно 10 лет
О создании компании было объявлено 12 декабря 2015 года. Начальный бюджет – 1 миллиард долларов – был собран небольшой группой инвесторов-энтузиастов. Вот оригинальный блогпост, а еще в честь праздника компания выпустила видео ⬆️
В 2015 алгоритмы еще плохо отличали кошечек от собачек, и люди не верили, что машина когда-нибудь сможет заговорить. А сегодня ИИ уже неотъемлемая часть жизни и работы, а стартап Альтмана оценивается в 500 миллиардов долларов.
Но ChatGPT вышел только в 2022. А чем компания занималась до этого? Давайте вспомним:
– OpenAI Gym (2016). Платформа для тестирования алгоритмов ИИ в симулированных средах. Она очень быстро стала тогда стандартом в исследованиях. Следом вышел Universe – инструмент для обучения агентов взаимодействию с реальными программами и играми.
– OpenAI Five (2018). Ботов обучили играть в Dota 2 с помощью PPO. В итоге они обыграли топ-игроков мира, обучившись на 45 000 годах симуляций за 10 месяцев.
– Robotic Hand (2018). Знаменитый проект, в котором робо-руку учили собирать кубик Рубика.
Поздравляем: если вы знакомы с этими проектами – вы олд 👴. После них уже пошло-поехало: GPT-2 в 2019, GPT-3 в 2020, DALL-E и первый Codex в 2021, и ChatGPT в 2022.
Короче, поздравляем компанию с юбилеем!
SpaceX готовится к IPO: теперь основная цель компании – строительство датацентров в космосе
Читать полностью…
Уже пару дней все говорят о том, что на этой неделе нас ждут сразу две новые модели
Первая – GPT-5.2. Да-да, всего через месяц после GPT-5.1 (она же Shallotpeat, о которой мы писали здесь).
Помните, Альтман когда-то говорил, что после выхода GPT-5 путаницы с версиями больше не будет? Ну так вот…
Вторая – Gemini 3 Flash, тут все ожидаемо.
Одна из них, судя по всему, должна выйти уже завтра. Вторая – либо завтра, либо в начале следующей недели.
🎄
Знакомьтесь, это Лоран Саймонс. Ему 15 лет и на днях он получил докторскую степень по квантовой физике.
Сейчас парень занимается биологическим моделированием в стартапе DeepPiction: они разрабатывают ИИ-алгоритмы для поиска лекарств.
Мы уверены, что этот парень – AGI, но пока не можем это доказать 😐
Тем временем Оптимуса Илона Маска опять обсмеивает весь Интернет
Кто-то на вчерашнем ивенте Tesla в Майами снял шикарное видео, на которое случайно попали кадры фееричного падения гуманоида прямо во время демонтрации.
В ролике отчетливо видно движение руками робота, которое очень напоминает жест теле-оператора, снявшего с себя VR гарнитуру. Видимо, бедолага забыл предварительно отключиться от управления.
Напоминаем, что ранее Илон Маск под демонстраиционными видео в твиттере утверждал, что Optimus действует автономно.
Советуем смотреть со звуком 😎
Продуктовая команда Data Secrets выходит из стелса
Утро понедельника – прекрасное время, чтобы поделиться с вами большими (и полезными!) новостями.
Уже почти 4 года мы ведем для вас канал Data Secrets, но мало кто знает, что наша команда также занимается разработкой. И уже сегодня мы готовы официально представить вам наш первый продукт – и верим, что вам понравится.
(Нет, это не очередной ИИ-агент или обертка над ChatGPT 😐)
Давайте наберем 300 ❤️, и анонс запуска выйдет здесь совсем скоро
Яков и Партнёры и Яндекс представили ежегодный аналитический репорт «Искусственный интеллект в России — 2025: тренды и перспективы»
Очень много любопытных данных и выводов, российские эксперты смотрят на развитие ИИ оптимистично, а именно:
1. Глава бизнес-группы Поиска Яндекса Дмитрий Масюк в эфире РБК поделился, что ожидаемый экономический эффект от внедрения ИИ в бизнес прогнозируется на уровне ≈ 8–13 трлн рублей в год. Причем больше всего принесет генеративный ИИ — от 1,6 до 2,7 трлн руб.
2. 78% российских компаний, системно применяющих ИИ, уже видят реальный экономический эффект — в основном от сокращения затрат, но есть и те, кому ИИ приносит выручку в новых сервисах и продуктах.
3. Подавляющее большинство компаний используют готовые решения от внешних партнеров, около половины адаптируют их под свои бизнес-процессы.
4. Один из главных трендов на ближайшее время — переход ИИ в физический мир через роботов и носимые устройства, такие как диктофоны или наушники. Ну и конечно ИИ-агенты.
Занятное интервью вышло у Демиса Хассабиса с изданием Axios
Посмотреть полностью можно здесь. Особенно понравился момент, где Демиса попросили без преувеличений и максимально честно рассказать, что, по его мнению, будет происходить с ИИ в ближайшие 12 месяцев. Ученый ответил вот так:
1. Конвергенция модальностей. Например, Gemini мультимодальная, и благодаря этому можно воспроизводить множество интересных результатов. Хороший кейс – это новая Nano Banana Pro, которая действительно хорошо понимает изображения, стили, инфографику и тд (благодаря, собственно, Gemini). Следующий шаг – это объединение видео с языковыми моделями, и в ближайший год мы увидим в этой области большой прогресс.
2. Модели мира типа Genie. В ближайший год они станут намного лучше.
3. И, конечно, агенты. Сейчас о них уже много говорят, но они пока недостаточно надежны, чтобы выполнять задачи от начала до конца. Но Демис уверен, что в течение года это изменится, и агенты уже будут неотъемлемой составляющей жизни.
Что касается AGI, Хассабис ставит на 5-10 лет. А сейчас мы приближаемся к моменту, которые многие называют «радикальным изобилием» – когда множество, если не большинство, человеческих задач будет постоянно решаться с помощью ИИ.
Еще раз ссылка на полное интервью
MWS AI выпустила корпоративную платформу MWS AI AGENTS PLATFORM для создания ИИ-агентов
Все как мы любим: можно создать агента на базе LLM в приятном визуальном интерфейсе, не написав ни одной строчки кода.
Количество возможных бизнес-сценариев огромно: построить можно даже мультимодальные и мультиагентные процессы. Агенты смогут распределять роли и функции, передавать друг другу результаты и проверять их.
Также на платформе есть уже готовые решения «из коробки», а еще инструменты для разметки и подготовки данных. А если с внедрением решения понадобится помощь, то MWS AI предоставят консультационную поддержку, обучение команд и экспертное сопровождение.
Кстати, в разработку платформы компания вложила 4 миллиарда рублей. Система разрабатывалась специально как enterprise-ready решение, так что надежность и устойчивость — на высоте.
Google продолжает генерировать занятные продукты: они запустили Workspace Studio – новый инструмент для быстрого создания агентов
Там можно будет проектировать, управлять и шарить ИИ-агентов вообще без написания кода. По сути это надстройка над Workspace: платформа рассчитана на агентов, которые будут работать в Gmail, Docs, Sheets, Drive, Chat, Slides, Meet и тд
Например, можно сделать:
– Агента, который постоянно будет мониторить вашу почту и собирать все рабочие письма в отдельную папку.
– Агента, который раз в месяц или по триггеру будет собирать метрики из нужных таблиц и делать по ним презентацию.
– Агента, который делает саммари по встречам в Meet и сразу ставит задачи на основе action items.
Google пишут, что в альфа‑тесте за 30 дней через агентов Workspace Studio уже прокрутили более 20 млн задач, от простых напоминаний до сложных процессов вроде юридического триажа и обработки клиентских обращений.
Пока продукт развернули только для бизнес-клиентов Workspace, но в январе обещают выпустить для всех
workspace.google.com/studio/