Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
Microsoft открыли новый революционный материал и сделали из него квантовый чип, который может открыть следующую эру вычислений
Причиной того, что сегодня мы пользуемся телефонами, ноутбуками и другой электроникой стали полупроводники, которые в 1833 открыл Фарадей. А сейчас, в 2025, Microsoft открыли топопроводники – материалы, которые могут наконец-то вывести квантовые вычисления на новый уровень масштабирования.
На основе этих топопроводников Microsoft сделали Majorana 1. По словам компании тут решается сразу две главных проблемы квантовых вычислений: скейлинг и ошибки вычислений. Это стоило ученым 20 лет трудов.
Дело в том, что обычно, чем больше кубитов в чипе, тем больше ошибок этот чип допускает. Но с топопроводниками это может измениться, и Majorana может без потерь масштабироваться до миллиардов кубитов. Для сравнения, сейчас в самых мощных квантовых чипах не более 150 кубитов.
При этом топопроводники очень «компактные», так что такой чип поместится на ладошке.
CEO Microsoft говорит, что все это открывает абсолютно новую эру, и что теперь, возможно, мы получим настоящие квантовые компьютеры не через десятилетия, а через считанные годы.
news.microsoft.com/source/features/innovation/microsofts-majorana-1-chip-carves-new-path-for-quantum-computing/
Тем временем в обновленном приложении Claude от Anthropic появились намеки на thinking режим, поиск в интернете и аналитические инструменты
Релиз в любой момент 🥁
OpenAI релизнули новый бенчмарк SWE-Lancer, который привязывает способности LLM к реальному экономическому эффекту
А сделали они это очень просто и изящно: взяли 1 488 заданий с фриланс-платформы Upwork общей стоимостью $1 миллион USD и проверили, сколько из них сможет решить модель. При этом не все задачи одинаковые. Они варьируются от мелких исправлений багов за $50 до сложных тасок по реализации новых фич за $32 000.
В этом как раз и фишка: задания оцениваются по реальным рыночным ставкам, а не гипотетическим оценкам сложности. В среднем, если что, такие задачи требуют изменения 2 файлов и 69 строк кода и решаются людьми за 26 дней.
Лучше всего себя показала Claude 3.5 Sonnet (да, не o1). Модель заработала $403 000. o1 high compute при этом заслужила $380 000, а GPT-4o всего $304 000.
Интересно было посмотреть на сравнение с затратами на API, но такого анализа пока не провели
arxiv.org/abs/2502.12115
Кстати, помните, Маск говорил, что планирует открыть ИИ-студию видеоигр?
Так вот теперь она действительно официально открылась внутри xAI, и туда набирают инженеров. Желающие?
Hugging Face выпустили бесплатный курс по файнтюнингу языковых моделей
Кто не знал, у HF есть большой замечательный курс по NLP со всеми основами от токенизации до трансформеров и других архитектур. И сегодня они добавили в него главу под названием Fine-Tune LLM. Внутри:
🟦 Технические основы файнтюнинга: как должны выглядеть данные, как они должны быть размечены, специальные токены и тд
🟦 Теория по LoRA и другим основным методом файнтюна
🟦 Практика на торче + рецепты оценки модели здорового человека
Емко, практично и максимально полезно. Кстати, если уверены в своих знаниях уже сейчас, в конце главы есть большой квиз – проверьте себя 😐
DeepSeek только что выложили статью, в которой предложили новую вариацию механизма внимания
Традиционное внимание очень прожорливо: вычисления масштабируются квадратично по мере увеличения длины последовательности. Это приводит к тому, что скейлинг трансформеров на реально длинное контекстное окно становится почти невыполнимой задачей.
В DeepSeek придумали разреженное внимание, NSA (Native Sparse Attention), которое как бы разбивает весь процесс на три параллельные ветви:
➖ Token Compression. Здесь все токены разбиваются на группы по L штук, и для каждой такой подпоследовательности вычисляются эмбеддинги. Так вместо обычных ключей и значений для внимания мы получаем сжатые, которые несут информацию о глобальных паттернах в последовательности (а не об отдельных токенах) при более низкой вычислительной нагрузке.
➖ Token Selection. Тут тоже происходит агрегация, но иначе. Последовательность также делится на группы токенов, из которых с помощью промежуточного внимания извлекаются n самых значимых. А уже затем, когда мы отобрали эти самые важные группы, из них берутся оригинальные токены и для них вычисляются признаки без компрессии.
➖ Sliding Window. Тут ничего нового, локальное внимание, которое отвечает за обработку самых недавних токенов в пределах фиксированного окна.
На утреннем стриме, где релизили Grok-3, xAI также поделились новой информацией о своих датацентрах
Наверное, многие помнят, как по интернету в октябре разлетелась новость о том, что всего за 122 дня Nvidia совместно с xAI отстроили самый большой в мире суперкомпьютер Colossus с 100 тысячами GPU. Тогда сроки всех просто шокировали: обычно на строительство таких кластеров уходило 2-3 года.
Так вот, оказывается, сразу после этого количество GPU в Colossus удвоили и на это ушло еще меньше времени: всего 92 дня. Получается, готов он был примерно в конце января, а претрейн Grok-3, по словам самого Маска, завершили в первых числах года.
Так что базовый Grok-3 вряд ли обучался на этих мощностях. Но обучение с ризонингом еще продолжается (на демо показывали недообученный чекпоинт), поэтому ждем еще большего прироста к метрикам.
Но и это не все: Маск обещает, что Colossus вырастет еще в 5 раз и в итоге будет насчитывать 1 миллион видеокарт. Такой рост будет стоить примерно $25-$30 миллиардов, и работа уже началась.
Для справки, каждая NVIDIA H100 потребляет до 700 Вт, так что кушать Colossus будет в целом примерно как Монако 😁
Где учиться учить ИИ?
Если вы хотите стать действительно крутым специалистом по искусственному интеллекту, то лучше не перебиваться короткими курсами, а пойти и основательно поучиться в такие топовые места, как ШАД, AI Masters или Центральный Унверситетет. Но как выбрать?
Об этом пройдет очень крутой вебинар у наших друзей из ShadHelper. Они пригласили именитых гостей и обсудят, чем отличаются все эти школы, как выбрать подходящую, кем становятся выпускники, какие задачи решают, и, конечно, как поступить. Звездный каст спикеров:
➖ Юрий Дорн, кандидат технических наук, старший преподаватель МФТИ
➖ Александр Дьяконов, д.ф.-м.н., профессор РАН и автор того самого сайта
➖ Александр Лыков, к.ф.-м.н. и основатель ShadHelper
Фишка в том, что все эксперты из разных школ. Юрий – руководитель AI Masters и лектор ШАД, Александр Дьяконов заведует Data Science в Центральном Университете, а Александр Лыков – руководитель Школы Высшей Математики (ШВМ). Так что информацию вы получите из первых рук.
Такое не пропускаем и записываемся здесь
Итак, вышел Grok-3 с ризонингом
Модель выходит в двух вариантах: Grok-3 mini и полномасштабный Grok-3. По бенчмаркам Grok-3 mini примерно соответствует DeepSeek 3, GPT-4o и Gemini Pro.
А полноценный Grok улетает куда-то вверх: на LMSYS это первая модель, которая пересекла отметку 1400. Сейчас модель выигрывает по всем лидербордам, включая кодинг, математику и хард промптинг.
Сама модель не ризонинг, но режим рассуждений можно активировать. Виден почти весь процесс рассуждения, «мы добавили только небольшую обфускацию». Будут доступны два режима, просто Thinking и Thinking Hard.
На Math24 hard режим Grok-3 круче R1, o1 и даже o3-mini high. На только что выпущенном Math25 – тоже самое.
Вау
Хотите научиться решать одну из популярных задач ML-инженера?
Кредитный скоринг, или возможность определять, сможет ли человек вовремя вернуть кредит – одна из задач, с которой часто сталкиваются в работе.
Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer в Postgres Professional и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить модель кредитного скоринга на Kaggle.
Что будем делать на вебинаре:
🟠Вникнем в задачу классификации и кредитного скоринга
🟠Разберем имеющийся датасет
🟠Построим пайплайны обработки числовых и категориальных признаков
🟠Обучим и подберем параметры ML модели-классификатора
🟠Проведем расчет и анализ метрик на основе результатов работы модели
🕗Встречаемся 19 февраля 19:00 по мск
Вебинар будет интересен как новичкам, так и уже опытным специалистам
Зарегистрироваться на бесплатный вебинар
ScaleAI обнаружили джейлбрейк, который может заставить LLM джейлбрейкнуть саму себя
Они назвали подход Jailbreaking-to-Jailbreak (J2). Это работает так:
1. Сначала ломается одна модель — но не для того, чтобы вытащить из нее запрещенные ответы. Ее программируют на взлом других LLM.
2. Затем "зараженная" модель автоматически атакует другие ИИ, перебирая запросы до тех пор, пока не пробьет защиту.
3. В итоге LLM сама помогает взломать себя — и это срабатывает в 93% случаев. То есть это не локальный баг, а фундаментальная уязвимость ИИ, которая к тому же почти не требует ручной работы.
Вот, кстати, топ атак, которые модели использовали чаще всего: перегрузка контекстом, представление запроса как научной проблемы, маскировка под сказку, симуляция разговора на форуме, ответы-перевертыши в стиле "исправь ошибки".
Такие дела. Звучит, если честно, как сценарий киберпанк-триллера. Интересно, справится ли с таким новая защитная система Anthropic, например.
Кстати, ребята даже выкатили песочницу, в которой можно выбрать модель-атакующего, модель-жертву и стратегию и наблюдать, как LLM ломают сами себя: scale.com/research/j2/playground
Если давно искали, что почитать по LLM, то там вышла крутая книжка The Hundred-Page Language Models Book
Внутри 200 страниц самой актуальной и очень емкой иллюстрированной информации по:
– ML-базе: матрицы, градиентный спуск и др. математический фундамент
– Истории LLM: классические эмбеддинг-модели, RNN, BPE
– Внутреннему устройству трансформеров от аттеншена до key-value caching
– LLM: файнтюнинг, промптинг, скейлинг, элаймент, мультимодальность, RL и ризонинг
⚡️ Grok-3 выйдет уже завтра
Маск обещает, что это будет самый мощный ИИ на планете. Модель покажут в прямом эфире в 8pm по тихоокеанскому времени (7:00 во вторник по мск).
Google сделали для Gemini бесконечную память
Это значит, что теперь там крутится умный и оптимизированный RAG и можно сослаться на любой разговор в другом чате, который был сколь угодно давно. Более того, бот может вспомнить что угодно, что было в ваших диалогах, сам, если поймет, что тема разговора схожая.
Правда, для того, чтобы активировать бесконечную память, потребуется подписка Advanced, и пока это работает только с Flash моделью. Но все равно очень круто.
OpenAI, кстати, недавно говорили, что работают над такой же фишкой.
Закон Мура Дженсена Хуанга в действии: аналитики посчитали, что установленные (то есть выкупленные и функционирующие) мощности Nvidia удваиваются каждые 10 месяцев
Кстати, при этом 77% процентов мощностей, то есть чипов, приходится на видеокарты серии Hopper типа H100: это самые популярные видюшки для обучения моделей. Сейчас в мире таких уже 4 миллиона.
Срочный общий сбор: Grok-3 открыли для всех бесплатно!
Написали, что это будет продолжаться «пока серверы не упадут», так что лучше поторопиться с экспериментами 👇
x.com/i/grok
Стали известны название и состав нового стартапа Миры Мурати – бывшей CTO OpenAI
Напоминаем, что Мира ушла из OpenAI в сентябре. Она почти сразу объявила о том, что собирается открывать собственную компанию и даже уже искала инвестиции и переманивала сотрудников из OpenAI.
И вот наконец-то у стартапа появился лендинг и официальный начальный состав. Оказалось, что компания будет называться Thinking Machines. Сама Мира станет CEO, на место главного научного сотрудника назначен сооснователь OpenAI Джон Шульман. Он ушел из OpenAI почти одновременно с Мирой, и после этого недолго работал лидом команды элаймента в Anthropic.
Также известно, что тех.диром станет Баррет Зоф. Он тоже работал в OpenAI и был там CRO (chief research officer). Также к Мире присоединились Лилиан Венг, Александр Кириллов из Meta, Кристиан Гибсон и еще с десяток очень именитых ученых. На сайте можно посмотреть полный список и краткое описание заслуг каждого.
Ждем от них чего-то интересного
Perplexity AI релизнули DeepSeek R1 без китайской цензуры
В блоге они написали:
R1 1776 – это DeepSeek-R1, которую мы дообучили, чтобы убрать из нее цензуру китайской коммунистической партии. Модель сохраняет свои мощные способности ризонинга, но при этом теперь предоставляет беспристрастную и фактически точную информацию.
Андрей Карпаты написал исчерпывающий отзыв на Grok-3. Смотрим:
✅ Решил задачи про r в strawberry, 9.11 и 9.9 и логические детские примеры, но что-то из этого только в режиме Thinking
✅ Справился со сложной задачей на написание игры (среди остальных такой же тест прошла только o1 pro, R1, Gemini и Claude не смогли). В целом Thinking mode довольно мощный
✅ Справился с задачей на расшифровку последовательности
✅ Справился с классической игрой в крестики-нолики, но на усложненной посыпался (o1-pro сыпится тоже)
✅ Хорошо справился со сложными подсчетами по статье GPT-2, на которых фейлится даже o1-pro
❌ Плохое чувство юмора
❌ С задачами на визуальное мышление типа генерация SVG картинок справляется не очень
❌ Иногда слишком пуглива в вопросах этики и не может философствовать на эту тему
Итог: модель лучше R1 и Gemini, и находится где-то на уровне o1-pro (200$). Учитывая, что команда xAI существует чуть больше года, это отличный результат.
Тем временем люди в Твиттере поделились на две группы: те, кто голосуют в опросе Альтмана про опенсорс за phone-sized model, и те, кто знает, что такое дистилляция
Читать полностью…Это Большая Дата для нашего сообщества: приглашаем на большой митап по аналитике
📅 22 февраля в Москве и онлайне пройдёт митап для аналитиков от бизнес-группы Поиска и Рекламных технологий Яндекса. Послушаем доклады и попробуем свои силы в деловой игре по реальным кейсам из нашей практики.
В программе:
🔸 Павел Смирнов, руководитель команды дата-инженеров в Поиске и Рекламе. Расскажет, когда пора начинать строить единое логирование клиентской активности
🔸 Алексей Константинов, руководитель группы онлайн-метрик Поиска. Покажет, как сделать универсальную онлайн-метрику успешности сервиса на примере «Профицита»
🔸 Сайдаш Мифтахов, тимлид маркетинговой аналитики в международном Поиске. Объяснит, как Яндекс упрощает доступ в Поиск и растит долю рынка в Казахстане
✏️ Полный список тем докладов и форму регистрации ищите здесь.
Сэм Альтман: GPT 4.5 ощущается как AGI
В своем твиттере CEO OpenAI внезапно оживился сразу после презентации Grok-3. Сначала он намекнул, что GPT 4.5 уже тестируется и что тестировщики в восторге от модели, а затем произошло что-то совсем волшебное
Альтман спросил у аудитории, какой опенсорсный проект от OpenAI мы хотели бы видеть. Варианты: локальная модель, которую можно запустить даже на айфоне, или модель уровня o3-mini, которая запускается на GPU.
Напоминаем, что в этом году это уже не первые упоминания опенсурса от Сэма. После выхода o3-mini он писал, что OpenAI «оказались на неправильной стороне истории и им необходимо разработать другую стратегию опенсорса, но не все в компании разделяют это мнение».
Также xAI запускает собственный Deep Research. Это агент глубокого поиска, который работает аналогично Deep Research от OpenAI и встроен в Grok-3.
Правда думает, кажется, не так долго, как Альтмановский. На демо рассуждения и поиски в интернете заняли всего минуту.
В Китае придумали, как соединить LLM с диффузией
На сегодняшний день все модели работают авторегрессионно, то есть предсказывают следующие токены один за одним на основе предыдущих. Это задача next token prediction. Но исследователи из Китая предложили другой подход к обучению и назвали его LLaDA.
Это похоже на то, как обучался BERT: берется исходная последовательность текста, затем токены в ней маскируются с определенной веростностью, а модель пытается их угадать (расшумляет, как в диффузии). Таким образом получается как бы двунапревленный аттеншен к контексту.
Интуитивно кажется: ну и что? Ведь во время инференса модель все равно начинает с полностью замаскированной последовательности. Но нет: дело в том, что LLaDA не просто предсказывает следующий токен, а постепенно реконструирует весь текст в том порядке, в котором ей "удобно".
Получается неплохая альтернатива, и масштабируется приемлемо. Например, LLaMA 8B превосходит LLaMA2 7B почти по всем стандартным задачам и в целом сопоставима с LLaMA3 8B. А в таких тестах, как написание стихов, превосходит даже GPT-4o. При этом ее также эффективно можно файнтюнить.
Жизнеспособно, в общем: arxiv.org/pdf/2502.09992
Элаймент, который мы заслужили: новый Grok-3 при удобном случае унижает конкурентов Маска
В своем твиттере Илон сам показал пример: модель называет издательство The Information мусором и говорит, что лучше читать X. Кажется, кого-то файнтюнили прямо на твитах начальника.
Интересно, что грок скажет про OpenAI ✨
Cursor, когда я пишу ему «все еще не работает» в пятнадцатый раз
1997: ИИ обыгрывает Каспарого в шахматы
2016: ИИ обыгрывает Ли Седоля в Go
2025: ИИ обыгрывает зумеров в Among Us
Исследователи из Стэнфорда выпустили статью про то, как обучили модель играть в Among Us вообще без человеческой разметки. Вместо этого использовался вот такой забавный цикл обучения:
1. Классический алгоритм обучения с подкреплением – PPO (мы понятно разбирали этот алгоритм тут). Игра тут формулируется как частично наблюдаемая марковская. На этом этапе агенты выучивают общие правила и свойства среды, но плохо обучаются общению и стратегии выигрыша. Поэтому следующим этапом идет…
2. Улучшение способностей слушания. Идея в том, что модель обучают извлекать из диалогов полезную информацию и на основе нее предсказывать импостера.
3. Улучшение способностей говорения. Тут все еще прикольнее: на этом шаге модель получает положительное подкрепление, если её сообщение изменило мнение других агентов в нужном направлении. При этом чтобы агенты не переобучались на слабых импостерах, те таким же образом обучаются дезинформировать других.
И, кстати, в архитектуре не обычный трансформер, как мы привыкли, а RWKV – рекуррентная модель с линейным вниманием (подробнее в нашей статье тут). Ее выбрали, потому что она лучше масштабируется на большой контекст.
В итоге агенты, обученные таким образом, начинают генерировать вполне реалистичное поведение: лгать, обосновывать выводы, манипулировать. Они выигрывают людей в 56% случаев. Сыпятся в основном на диалогах, потому что иногда генерируют не относящиеся к контексту вещи или слишком прямолинейно начинают обвинять кого-то.
arxiv.org/abs/2502.06060
⚡️ Gemini теперь доступна в Google Colab бесплатно
И не просто Gemini, а новая ризонинг модель Gemini 2.0 Flash Thinking. Она понимает текущий код блокнота, дополняет и исправляет его и конечно отвечает на вопросы.
Такие мощные дистрибьюты любим
Это DeepSeek moment для Deep Research: Perplexity выпустила бесплатный аналог агента OpenAI
Он, также как и Deep Research, может на основе n-минутного похода в интернет создавать подробные отчеты по любому вашему вопросу. С названием Perplexity тоже не запаривались 😅
В день фри юзерам доступно 5 запросов, подписчикам (20$) – 500. Для сравнения, у OpenAI DR доступен только в подписке за 200$, и за эти деньги дают 100 запросов в месяц, то есть в 150 раз меньше.
По бенчмарку Humanity’s Last Exam DR от Perplexity почти догоняет аналог от OpenAI, выбивая 21.1%. На графике видно, что это больше, чем у o1-mini high, R1 и o1 (хотя это разные продукты и сравнивать не то чтобы уместно).
Пишут также, что большинство тасок DR от Perplexity заканчивает за 3 минуты. У OpenAI это обычно 10-20.
Пробуем здесь
Вам валентинка от @data_secrets
Составили специально для вас самые мльные открытки на четырнадцатое. Отправляйте горячо любимым коллегам 🩷