data_secrets | Unsorted

Telegram-канал data_secrets - Data Secrets

55444

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n

Subscribe to a channel

Data Secrets

Я нифига не понимаю в собственном коде
Я занимаюсь вайб-кодингом

Читать полностью…

Data Secrets

GPT-4.5 нужна в основном для следующей thinking модели

По итогу нескольких дней тестирования можно сказать, что новая GPT-4.5, пожалуй, самая неоднозначная модель OpenAI на сегодняшний день. Она много чего знает, но плоха в точных задачах по сравнению с ризонерами, а еще чрезвычайно дорого стоит. Если в чате с ней поговорить прикольно, то в API сценариев, при которых ее стоило бы использовать, почти нет.

Единственная надежда: GPT-4.5 пригодится OpenAI для следующего поколения ризонеров. Также, как V3 послужила базой для R1 и, предположительно, 4o — для o1, GPT-4.5 может стать отправной точкой для o3/o4/GPT-5. И если скачок будет такой же, как у o1 относительно 4o, то эта модель насытит очень многие сложные бенчмарки.

Но есть нюанс: цена. Цены на o1 больше цен на 4o в 6 раз. А GPT-4.5 уже сама по себе конски дорогая, куда уж еще больше? Даже если получится немного снизить цены, как это вышло с o3-mini (она в два раза дешевле 4o), все равно в сухом остатке мы получаем довольно недоступный ИИ.

Будем надеяться, у OpenAI есть туз в рукаве

Читать полностью…

Data Secrets

Парень создал тулзу для прохождения собеседований, прошел с помощью нее в Amazon, а теперь его могут отчислить из университета

Разработчика зовут Чунгин Ли. Сейчас он учится в Колумбийском университете и работает над ИИ-приложением InterviewCoder для прохождения технических интервью. Ежемесячный доход стартапа уже составляет 30 тысяч долларов, а он запустился всего месяц назад.

Так вот около недели назад Чунгин решил испытать свое детище в поле, пошел вместе с InterviewCoder проходить собеседование в Amazon и в итоге «с блеском» получил офер.

Об успехе приложения он радостно рассказал в твиттере, опубликовал на ютубе запись собеса и получил кучу просмотров и пользователей (кстати, работать в Amazon он на самом деле не собирался).

В Amazon тоже увидели твиты парня и, когда поняли, что их «обманули», видимо сильно обиделись. Они написали гневное письмо ему, а затем и в его университет с просьбой «принять меры» в отношении и студента, и приложения, которое он продает. Теперь Чунгина могут отчислить.

Сам он, кстати, прокомментировал письмо так: «Лол, не задавайте тупых вопросов на собеседованиях, и люди не будут пользоваться такими штуками»

Парня жалко, конечно, но если это не лучшая реклама, то что? www.interviewcoder.co/

Читать полностью…

Data Secrets

Наши друзья из ecom.tech запустили видео-подкаст “AI в действии”. В нем они говорят о свежих новостях в мире DS, о трендах и о том, как наука может найти свое применение в бизнесе.

Ведущий подкаста — Петр Лукьянченко, руководитель ML-департамента в eсom.teсh.

Уже опубликовали два эпизода: в первом гостем был Алексей Масютин, руководитель Центра Искусственного интеллекта НИУ ВШЭ. Порассуждали о том, как сегодня начинать свой путь в data science, что представляет из себя DS в крупных IT-компаниях и даже успели немного погрузиться в специфику разработки и развития мультимодальных архитектур.

Гостем второго выпуска стал Юрий Дорн, руководитель программы AI Masters в Институте ИИ МГУ.
В этой части говорили о том, где заканчивается теория и начинается практика в DS. Когда нужно перестать читать книги и начать писать код? Что нужно знать, чтобы быть классным специалистом? А может быть, теория переоценена и нужно сразу идти соревноваться на kaggle? Постарались сформулировать набор советов для тех, кто думает, с какой стороны подступиться к изучению Data Science и как правильно найти учебный материал, подходящий под конкретную ситуацию.

Первый эпизод:
🙂 Смотреть
🙂 Слушать

Второй эпизод: 
🙂 Смотреть
🙂 Слушать

Реклама. ООО «Умное пространство», ИНН: 7811554010. Ерид: 2W5zFJ36FGU

Читать полностью…

Data Secrets

Ух ты: сегодня на первом месте в топе paper of the day на Hugging Face статья от Sber AI и AIRI

Она посвящена новой и первой опенсорсной (!) модели переноса головы с картинки на картинку GHOST 2.0.

Задача похожа на face swap, но немного сложнее: тут нужно адаптировать голову под всю сцену, следить за цветом кожи, контрастом и другими характеристиками. В то же время, решения получаются практичнее. Например, в отличие от face swap, ничего не ломается, если форма лиц source (откуда переносим) и target (куда переносим) разная.

Архитектура GHOST 2.0 похожа на единственное существовавшее до этого момента решение – модель HeSer (Head Swapper), из которой позаимствовали идею двух основных модулей.

1. Aligner – модуль, реконструирующий голову для вставки в таргет. В основе подобие StyleGAN, входной эмбеддинг для которого генерируют три энкодера. Первые два считывают лицо, прическу и другие детали с source изображения. Последний – позу и выражение лица с target изображения, и меняли относительно HeSer именно его.

В старом решении один из энкондеров был избыточен, обучался с ликами и сильно все портил. Пришлось корректировать и архитектуру, и лосс, и датасет, и процесс трейна. На этом этапе уже виден огромный прогресс по сравнению с HeSer (см. картинку 1).

2. Blender – вставка головы в target фон. В оригинале здесь работала связка извлечения цветного референса для раскраски + сама зашивающая в таргет все маски и изображения модель UNet. Однако оказалось, что генератор цвета провоцирует появления серых областей, а из-за UNet вокруг головы образуется белое пространство.

Поэтому в архитектуре заменили принцип работы и того, и другого. Color Creator теперь сам заполняет все серые области на основе общих оттенков изображения, а в UNet добавили механизм экстраполяции маски, который как бы накладывает фон еще раз поверх вставки головы. При этом, чтобы вырезанных областей от маски не оставалось, картинки еще и постобрабатывали с помощью Kandinsky 2.2. Он с помощью простого запроса качественно закрашивал серость без необходимости файнтюнинга.

Результат – на лицо голову. Метрики подросли, да и на глаз качество результатов сильно приятнее предыдущих алгоритмов.

🔥 Страница проекта | Хабр | Статья | Демо

Читать полностью…

Data Secrets

CTO социальных платформ VK Сергей Ляджин в подкасте рассуждал о AI-технологиях в продуктах компании и технологических вызовах, которые в целом нас ожидают.

Это интересно: он говорил не только про улучшение пользовательских сценариев, но и создание новых, которых еще нет. AI меняет нас, мы меняем AI, и каждый раз появляется что-то новое.

Полный выпуск смотрите здесь.

Читать полностью…

Data Secrets

Пятый и последний день опенсорса от DeepSeek (будем скучать)

Сегодня у нас целая файловая система 3FS (Fire-Flyer File System). Она глобально оптимизирует работу с данными и в обучении, и в инференсе. То есть позволяет:

🔵 Быстро загружать и сохранять данные для обучения модели
🔵 Мгновенно получать доступ к нужным частям данных, что очень важно для инференса
🔵 Сокращать повторные вычисления и увеличивать скорость работы

Внутри – умная параллельная сортировка, цепочная репликация, KVCache, параллельный чекпоинтинг и другие хаки, особенно актуальные именно для ML-систем. В общем, достаточно масштабно.

В тестах на чтения вся эта красота достигает пропускной способности 6.6 ТиБ/с на 180 узлах: github.com/deepseek-ai/3FS

Читать полностью…

Data Secrets

У OpenAI закончились графические процессоры 😢

По крайней мере, так говорит Сэм Альтман. Вчера после выпуска GPT-4.5 он написал в X:

Это гигантская дорогая модель. Мы действительно хотели выпустить ее в версиях Plus и Pro одновременно, но мы сильно выросли, и у нас закончились GPU. На следующей неделе мы добавим десятки тысяч GPU и выпустим ее в Plus. (Скоро их будет сотни тысяч, и я почти уверен, что вы будете использовать все)


Скинемся по 200 долларов Сэму на чипы? 💵

P.S. Кстати цены на API зверские. 75$ за миллион токенов на input и 150$ (сколько????) на output. Это в два раза дороже, чем o1, o3-mini и 4o вместе взятые.

Читать полностью…

Data Secrets

В твиттер уже утекла системная карта GPT-4.5

«Это наша самая большая модель, которая продолжает парадигму масштабирования претрейна и ризонинга» – пишут в ней

Также в доке есть бенчмарки: много оценок безопасности и чуть-чуть качества. По ощущениям хуже, чем o3-mini и даже o1, но отстает не сильно. Стоит смотреть скорее на приросты относительно GPT-4o.

https://cdn.openai.com/gpt-4-5-system-card.pdf

Читать полностью…

Data Secrets

В Yandex Cloud Foundation Models теперь можно разворачивать открытые модели легким движением руки

Никаких тебе долгих настроек окружения, мониторинга, масштабирования. Все происходит на готовых серверах, надо просто подобрать себе конфигурации. Из коробки уже можно запустить YandexGPT, LLaMa, Qwen, Mixtral, DeepSeek и др.

К слову, так можно использовать сразу несколько моделей параллельно или комбинировать их.

Но если вы более искушенный потребитель, то в Yandex Cloud AI Studio появилась возможность файнтюнить модельки методом LoRA. Для этого нужно собрать датасет, выбрать модель и… все.

LoRA позволит легко настроить модель для ваших задач или дообучить на определенный домен, и тогда можно будет даже маленькие модели эффективно гонять в проде за совсем небольшие деньги. При этом если датасет небольшой, дообучение займет всего минут 10.

Представьте, какая экономия времени и ресурсов для бизнеса. Экспериментируй и внедряй – не хочу

Читать полностью…

Data Secrets

Четвертый день опенсорса от DeepSeek: библиотека DualPipe

Это инструмент для эффективной параллелизации. Что это значит:

1. Минимизация пайплайн-пузырей. Это, иначе говоря, периоды простоя оборудования, когда какие-то процессоры ничего не считают и просто ждут поступления данных.

В данном случае алгоритм позволяет прямой и обратный проход выполнять одновременно, поэтому этапы передачи перекрываются вычислениями, и обучение значительно ускоряется.

2. Симметричное распределение микробатчей в прямом и обратном проходе, чтобы сбалансировать нагрузку.

3. Хранение меньшего количества активаций. Это происходит как раз за счет симметричности: часть активаций сразу используется для обратного распространения, и их можно вычищать из памяти.

Кстати, один из троих разработчиков библиотеки – Лян Вэньфэн, CEO и основатель DeepSeek. Оказывается, он не просто руководит, но и довольно часто сам пишет код.

github.com/deepseek-ai/DualPipe

Читать полностью…

Data Secrets

Как прокачаться в DS за 2 дня? Приезжайте на Data Fusion 2025 — самое масштабное событие этой весны в сфере анализа данных и искусственного интеллекта.

Что вас ждет?

🔹 14 треков и 70+ сессий, посвященных передовым разработкам в Data Science и AI
🔹 Кейс-стади по применению DS в различных сферах бизнеса от финтеха и промышленности до медицины.
🔹 250+ экспертов — от известных ученых до лидеров бизнеса

📅 Когда? 16-17 апреля
📍 Где? Москва, технологический кластер «Ломоносов»

Конференция бесплатная. Регистрируйтесь по ссылке https://data-fusion.ru/


*AIискусственный интеллект
*DS
Data Scienceнаука о методах анализа данных

Читать полностью…

Data Secrets

Стартап Миры Мурати оценили в 9 миллиардов долларов

Чуть меньше, чем у Суцкевера, конечно, но все еще очень даже прилично для еще ничего не выпустившей компании 🤑

Также пишут, что скоро компания привлечет инвестиции в размере одного миллиарда.

Читать полностью…

Data Secrets

❓ Архитектура проектов по видеоаналитике или какие проблемы проектирования и масштабирования в 2025 году?

Узнайте на бесплатном вебинаре 27 февраля в 20:00 (МСК)

Так же вы поймёте:
+ Какие методы применяют в аналитике дорожного движения, мониторинга объектов и других задач, связанных с компьютерным зрением;
+ Как использовать временные базы данных (time series DB) и визуализацию данных в Grafana;
+ Реализацию на практике примера проекта по аналитике дорожного движения, включая детекцию, трекинг и анализ загрузки дорог.

🆓 Вебинар проходит в рамках курса «Компьютерное зрение. Advanced»

👉  Регистрация открыта: https://otus.pw/ttsDr/?erid=2W5zFJYkfnp

#реклама
О рекламодателе

Читать полностью…

Data Secrets

Третий день опенсорса DeepSeek: библиотека DeepGEMM для ускорения умножения матриц

GEMM – это General Matrix Multiplication, обобщённая операция умножения матриц. Вот формула: C=α×A×B+β×C. Здесь A,B,C – матрицы, а альфа и бетта – скаляры.

Если вам кажется, что вы это выражение где-то видели, то вам не кажется. Оно фигурирует в любом учебнике по DL или LLM, потому что лежит в основе большинства преобразований глубокого обучения. В трансформерах это вычислении матриц запросов (Q), ключей (K) и значений (V) для механизма внимания, обычные полносвязные feed-forward слои, расчет эмбеддингов и другое.

DeepSeek большие любители оптимизации и, конечно, они крутят в своих моделях собственную реализацию GEMM, которой сегодня и поделились. Кода, кстати, немного: все реализовано в одном ядре в примерно 300 строк, так что разобраться довольно просто. Основное достоинство – это JIT-компиляция и двухуровневое накопление.

Реализация поддерживает FP8 и подходит и для плотных моделей, и для MoE. Ускорение относительно других популярных оптимизаций – от 1,1x до 2,7x.

github.com/deepseek-ai/DeepGEMM

Читать полностью…

Data Secrets

Что почитать и посмотреть про обучение LLM и ризонинг? Подборка топ-7 ресурсов от нашей редакции, после которых вы точно лучше поймете, как работают и учатся современные модели 🤓

1. Несомненно, трехчасовое видео Андрея Карпаты "Погружение в LLM". Вся теория по основным этапам обучения, архитектуре, файнтюнингу, ризонингу и обучению с подкреплением верхнеуровнего и доступно. Идеально для первого знакомства с теорией по LLM.

2. Видео про трансформеры от 3Blue1Brown. Немного подробнее про внутреннее устройство LLM. Необходимо хотя бы идейно понять архитектуру, чтобы потом разбираться с новейшими техниками, и этот максимально наглядный гайд подойдет идеально. В видео есть русский дубляж.

3. Для тех, кому хочется практики, отличный бесплатный курс от Hugging Face. Классные иллюстрации, понятные примеры, все необходимое для того, чтобы вы могли сами запускать модели.

4. Статья про модель DeepSeekMath от DeepSeek. Да, здесь все еще не про ризонинг, зато очень подробно и понятно описан этап сбора данных, претрен, эксперименты и обучение с подкреплением. Этот текст даст вам крепкую базу для понимания того, как обучают модели в индустрии. Вот, кстати, наш большой разбор этой статьи.

5. У истоков ризонинга: статья про CoT от Google Research. Одна из первых и самых влиятельных работ, в которой обстоятельно обсуждается, что такое цепочки мыслей CoT и как они влияют на качество результатов. Много примеров. Историческая и необходимая база.

6. Cтатья про DeepSeek-R1. Да, эти ребята умеют хорошо писать. Подробно, лаконично, с практической точки зрения. Прочитайте это, и будете понимать ризонинг лучше, чем 99.9% пользователей ChatGPT. Наш разбор.

7. Очень содержательное выступление "Learning to Reason with LLMs" от Ноама Брауна – известного ученого из OpenAI, который работает как раз над ризонингом и агентами. Про игры, масштабирование компьюта и то, как индустрия пришла к моделям, основанным на рассуждениях.

Сохраняйте!

Читать полностью…

Data Secrets

Вышла интересная статья, в которой показали эффективный способ расширения контекстного окна

Продолжается борьба между сторонниками RAG и модельного подхода, в котором контекстное окно пытаются расширить только за счет архитектурных хаков, а не за счет пост-оберток. На эту тему выходит все больше статей. Самая яркая из последних – Infinite Retrieval из Китая.

В этой работе впервые показали способ расширения контекста, который выбивает 100% на бенчмарке «Иголка в стоге сена». Это когда мы вставляем целевое предложение («иглу») в корпус случайных документов («стог сена») и задаем вопрос, на который можно ответить, только используя информацию в «игле».

Раньше некоторые подходы тоже выбивали 100%, НО только на исходном размере контекстного окна модели. А тут взяли малюсенький Qwen2.5-0.5B-Instruct с контекстом 32К, расширили контекст до 1 миллиона (!) и получили результат 100%. Очень круто. Разбираемся, что под капотом 👇

В целом, все построено на привычном подходе кэширования ключей и значений для критически важной информации. Но есть два ключевых отличия:

1. Текст предварительно разбивается на логически завершённые сегменты. Так, чтобы в кэше оставались не отдельные токены, а самые важные законченные мысли

2. Определение значимости сегментов встраивается не поверх, а прямо последним слоем в модель. То есть релевантная информация извлекается прямо во время инференса


Чем-то похоже на недавнюю статью DeepSeek (наш разбор). Очень ждем, пока что-то такое наконец будет в опенсорс продакшене.

arxiv.org/abs/2502.12962

Читать полностью…

Data Secrets

Маржинальность DeepSeek составляет 545%. Или нет?

Сегодня внезапно случился шестой, незапланированный, день опенсорса от DeepSeek. Они рассказали о том, как устроен онлайн-инференс моделей DeepSeek-V3/R1 и о том, сколько они зарабатывают на наценке.

Итак, инференс делится на два этапа: Prefilling и Decoding. То есть сначала модель разбивает запрос на токены и формирует эмбеддинги, а затем генерируют выходные токены один за одним. При этом Prefilling легко распараллелить между кучей GPU и проблем тут нет.

А вот с декодингом все сложнее. Тут возникают задержки из-за обмена данными между процессорами и экспертами MoE. Сюда то как раз и встаивают систему DualPipe, о которой мы подробно рассказывали в четвертый день опенсорса DeepSeek. Благодаря ней этапы передачи данных перекрываются вычислениями.

Интересно так же то, что на каждом слое модели при этом доступны аж по 256 экспертов, хотя для одного запроса активируются всего 8. Зачем? Все просто: если один эксперт оказывается перегружен или занят, токены могут быть направлены к другому, что обеспечивает балансировку нагрузки. Плюсом отказоустойчивость и оптимизация вычислений в разных конфигурациях.

А теперь немного экономики.

Сервис работает на H800. За 24 часа пиковая занятость достигала 278 узлов, а средняя – 226.75 узлов. При условии, что каждый узел содержит 8 GPU, ежедневные затраты составляют примерно $87,072.

Всего за сутки обработано 608 миллиардов входных токенов, из которых 56.3% (342 млрд) – это попадания в on-disk KV cache. Сгенерировано 168 миллиардов выходных токенов (средняя скорость генерации – 20–22 токена в секунду)

При стандартном ценообразовании R1, входящие токены оцениваются в $0.14 в кэше или в $0.55 без кэша, а аутпут токены – $2.19 за миллион. То есть общая выручка составляет $562,027, что приводит к маржинальности 545%.

Но это число, конечно, завышено. Во-первых, у DeepSeek-V3 более низкие цены. Во-вторых, в веб-версии все работает бесплатно. В-третьих, даже на API есть ночные скидки.

И тем не менее, с такими оптимизациями и скоростью система остается очень даже экономически эффективной. Очень интересный шеринг от DeepSeek, в общем, таким очень редко кто делится

https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md

Читать полностью…

Data Secrets

Новое видео от Андрея Карпаты: «Как я использую LLM»

Это большой гайд по тому, как подобрать оптимальный инструмент для ваших задач и при этом сэкономить время и деньги. В программе:

– Как работают экосистемы LLM
– ChatGPT под капотом
– Ценообразование: как не переплачивать
– Ризонеры: когда и как их использовать
– Поиск в интернете, deep research, tool use
– Что такое advanced voice mode
– Claude и его артефакты
– Cursor
– NotebookLM
– Генераторы видео и картинок
– Память в ChatGPT
– И даже кастомные GPTs


Все таймкоды на видео помечены, общая продолжительность 2 часа. То что нужно на выходные

youtu.be/EWvNQjAaOHw (внимание на первый комментарий под видео)

Читать полностью…

Data Secrets

По интернету пролетела новость о том, что в следующем квартале Meta планирует выпустить собственный ИИ-чат. Компания будет тестировать подписочную систему и добавлять в чат инструменты: все, как в популярных ChatGPT, Сlaude и тд.

Тем временем реакция Альтмана: "ок, пойду сделаю соцсеть"

Читать полностью…

Data Secrets

Скрин со вчерашнего стрима OpenAI, но не простой

Кто найдет пасхалку? 🐣

Читать полностью…

Data Secrets

✒️ Разбираем тестовое задание в Альфа Банк на позицию Junior Аналитика данных

Чтобы найти работу, мало пройти курс и сделать классное резюме. На практике, чтобы выделиться на собеседовании, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.

Чтобы попрактиковаться в этом, приходите на бесплатный вебинар, где будем разбирать реальное тестовое задание, которое дают аналитикам в Альфа Банке💻

Что будем делать на вебинаре:
🟠 Напишем сложные SQL-запросы для банковских данных;
🟠 Вспомним, как правильно использовать оконные функции;
🟠 Узнаем, как создавать разметку, из чего она состоит и для чего она нужна;
🟠 На реальных данных проведем когортный анализ и сделаем выводы;
🟠 Расскажем, как доставать инсайты из данных.

Вебинар проведет Денис Иванов, ведущий продуктовый аналитик

🏃‍♀️ Зарегистрироваться на бесплатный вебинар

Читать полностью…

Data Secrets

Итак, GPT-4.5 вышла

Еще раз: в сравнении с o1 на математике и кодинге модель хуже (неудивительно, это другой подход). Но нельзя бесконечно скейлить только ризонинг, и, с другой стороны, это самая большая и самая накаченная знаниями о мире модель. Она поглотила МНОГО текста и лучше подходит для простых нетехнических задач, креатива, написания текстов, социального взаимодействия и просто разговоров.

Отдельно отмечают глубокий элаймент и то, что модель стала безопаснее и этичнее. Ее долго тюнили на предпочтения, и ответы получаются емкие и естественные. Кроме того, в GPT-4.5 сократили процент галлюцинаций.

Пока доступно только Pro, в течение следующей недели добавят в плюс и тим

Читать полностью…

Data Secrets

Я в ожидании стрима OpenAI:

P.S Кстати, сегодня должны были раскатить Advanced Voice на базе GPT-4o mini на всех бесплатных пользователей. У кого появилось?

Читать полностью…

Data Secrets

OpenAI объявили, что через 4.5 часа проведут лайфстрим

Ждем 4.5 часа и встречаем GPT-4.5 (и скрещиваем пальцы, чтобы доступ дали всем)

Читать полностью…

Data Secrets

Помните, мы рассказывали про диффузионную языковую модель LLaDA?

Так вот подход, кажется, набирает популярность: стартап Inception Labs выпустил «первую большую диффузионную языковую модель коммерческого масштаба»: Mercury Coder.

Если кратко, идея состоит в том, чтобы вместо генерации токенов один за одним генерировать их в произвольном порядке, как бы постепенно расшумляя замаскированную последовательность (подробнее - в нашем разборе LLaDA).

Самое интересное в этом – скорость. Mercury Coder летает в 5-10 раз быстрее, чем LLM текущего поколения. Это примерно 1000 токенов в секунду на обычной H100.

И метрики при этом вполне конкурентноспособные. На Copilot арене Mercury сейчас на втором месте. Это лучше, чем GPT-4o и Gemini 1.5.

Попробовать сетку можно уже сейчас бесплатно: chat.inceptionlabs.ai/

Читать полностью…

Data Secrets

⚡️ Microsoft выпустили новое поколение семейства Phi

Phi-4-Multimodal и Phi-4-Mini уже лежат в опенсорсе под лицензией MIT и интегрированы в Transformers.

Мультимодальность включает текст, аудио и видео. Ну куче мультимодальных бенчмарков модель превосходит GPT-4o, Gemini-2.0 Flash и 1.5 Pro. Это первая открытая модель такого уровня поднимания речи и OCR.

В привычных математических и кодинговых задачах тоже неплохо: mini с ризонингом соответствует o1-mini и дистилляциям R1.

Внутри 2 адаптера для видео и аудио + лоры для модальностей в основной модели, чтобы не менять ее собственные веса. Обучали в три внушительных этапа:

1. претрейн на тексте + файнтюн на тексте
2. мультимодальный трейн на vision, audio и vision-speech
3. ризонинг трейн на CoT + обучение с подкреплением с DPO

Веса, веса mini

Читать полностью…

Data Secrets

Мастхэв: Google совместно с Kaggle снова открыли регистрацию на тот самый бесплатный курс по генеративным моделям

Он пройдет в формате недельного интенсива с 31 марта по 4 апреля. Каждый день – онлайн лекции, домашки, практики + обсуждения в Дискорде.

В программе актуальная база по основным архитектурам глубокого обучения, устройству LLM, векторным базам данных и MLOps. Курс составляли ML-ресерчеры и инженеры из Google.

В конце, кстати, будет еще и проект-соревнование, так что можно заодно залутать медальку Kaggle.

Еще раз: все бесплатно. Для регистрации нужен только Google аккаунт 🍯

Читать полностью…

Data Secrets

OpenAI начинает прогрев перед выпуском GPT-4.5: некоторым Pro-пользователям обновленного приложения на Android «случайно» всплыло уведомление с приглашением попробовать модель.

Попробуйте предварительную исследовательскую версию GPT-4.5 — пользователи Pro теперь имеют доступ к нашей новейшей, самой большой модели.


Все указывает на то, что завтра модель действительно выйдет в виде превью для pro-юзеров, а на остальных покатят позже.

Читать полностью…

Data Secrets

Вышла 12 версия легендарного детектора YOLO

В ней наконец традиционные CNN-модули заменены на гибридные с вниманием. Конкретнее, добавили area attention, которое делит входной тензор на равные сегменты и тем самым снижает квадратичную сложность операций дальнейшей обработки.

Кроме того, схему ELAN заменили на ELAN с остаточными блоками. Так градиенты лучше прикидываются через сеть, и без ущерба для метрик снижается вычислительная сложность.

А если хотите подробнее узнать, что такое ELAN и как вообще работает YOLO, почитайте нашу большую статью «История YOLO». В ней – все о том, что такое детекция, как работала самая первая YOLO, как изменялись следующие, и какие скандалы за этим стояли.

Репозиторий 12 версии (тут статья, код, результаты и пр)

Читать полностью…
Subscribe to a channel