ai_newz | Unsorted

Telegram-канал ai_newz - эйай ньюз

70254

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow

Subscribe to a channel

эйай ньюз

Через пять минут начнётся Made By Google

Презентацию продвигали как анонс новых телефонов Pixel, но они уже тизерят Gemini Live - мб понимающую прямую трансляцию видео и аудио. Может и Gemini 2 завезут.

Интересно что учудит на этот раз OpenAI, они часто привязывают свои релизы к ивентам гугла.

https://www.youtube.com/watch?v=jvyyfvf0gjI

@ai_newz

Читать полностью…

эйай ньюз

Сегодня работаю вот с таким видом. Офис меты оказался на 30 этаже в очень удачном месте. Ну, лепота же.

@ai_newz

Читать полностью…

эйай ньюз

Всем хайпующим по 🍓 желаю успокоиться, потрогать траву и нормально провести остаток выходных. Я вот, например, пойду сейчас чилить в сауну и бассейн.

Пояснительная бригада: Project Strawbery - это по слухам грядущее обновление модели ChatGPT. Пока нет оснований утверждать, что это будет каким-то прорывом, но народ сильно хайпует в твитторе.

@ai_newz

Читать полностью…

эйай ньюз

FLUX.1 рвёт Text to Image арену (да, есть и такая)

Даже опенсорснутая и урезанная FLUX.1 schnell, с которой можно делать что угодно из-за Apache 2.0 лицензии, отстаёт по качеству только от Midjourney v6.

Арена

@ai_newz

Читать полностью…

эйай ньюз

Дешёвые, как грязь, LLM

API-провайдеры невероятно быстро снижают стоимость использования своих LLM. При отсутствии ярко выраженного лидера по качеству моделей, главным аргументом становится цена.

➖ Google с 12 августа дропает цены на Gemini Flash на 80%. Вот и реакция на GPT-4o mini, спустя две недели после релиза. Вот бы то же самое сделали с Pro 1.5.

➖ Новая версия GPT-4o упала в цене до $2.5 input/$10 output за миллион токенов, прошлые версии стоили $5 input/$15 output за миллион токенов. Последний месяц Claude 3.5 Sonnet и Llama 3.1 405B сильно поджимали OpenAI по цене, пришлось отвечать.

➖Deepseek релизит обещанный месяц назад Context Caching. Цены поражают: стоимость токенов при попадании в кэш падает не в 2x, как у гугла, а в 10x, при этом с бесплатным хранением. DeepSeek V2 и так произвёл эффект разорвавшейся бомбы на китайском рынке три месяца назад: модель была в разы дешевле конкурентов, при лучшем качестве. А сейчас нанесли добивающий удар.

С такими темпами цена за миллион токенов станет меньше цента менее чем через год. И будем мы мерять цены в долларах за миллиард токенов.

А помните, цены на GPT-4 доходили до $60 input/$120 output?

@ai_newz

Читать полностью…

эйай ньюз

Варшава x ai_newz!

Друзья, я еду Варшаву на несколько дней! Хочется поотдыхать и поработать в новой обстановке, и, конечно, поесть белорусской и польской вкуснятины (кстати, посоветуйте хорошие места)!

Я знаю, что там должно быть очень большое комьюнити наших ребят. Было бы круто сделать сходку, познакомиться. В этом году я так уже делал в Сан-Франциско и Тбилиси – это были всегда очень классные встречи.

Если вы сейчас в Варшаве, вступайте в чат, там договоримся, когда и где организуем митап:
/channel/+XZX3N3B-DP9mZjUy

#personal
@ai_newz

Читать полностью…

эйай ньюз

Стартап Exactly.ai ищет Head of ML Engineering

Exactly.ai — это платформа, позволяющий художникам тренировать ML-модели на своих иллюстрациях и предоставлять их в аренду брендам. Бренды могут создавать иллюстрации для маркетинговых кампаний с помощью моделей лучших художников. Exactly.ai — самый большой хаб персональных моделей, созданных профессиональными художниками и иллюстраторами. В прошлом году Google включил Exactly.ai в топ-15 лучших стартапов. Компания привлекла Seed Round и стремится к расширению.

Мы ищем специалиста с опытом в ML-инженерии и руководстве командой, который будет играть ключевую роль в развитии наших технологий.

Ваша работа будет включать разработку и внедрение инновационных ML решений, оптимизацию и улучшение существующих алгоритмов и моделей, а также управление командой ML-инженеров.

Крутая команда, конкурентная зарплата, опцион, офис в Лондоне с возможностью удаленной работы, подробности.

Если вам интересно, отправьте ваше резюме и сопроводительное письмо на roman@exactly.ai

#промо

Читать полностью…

эйай ньюз

У Nvidia проблемы - Blackwell задерживается

В суперчипах GB200 нашли изъян - у чипа, отвечающего за связь двух B200 друг с другом и с Grace CPU, слишком большое количество производственных дефектов. Чтобы удовлетворить гигантский спрос, его нужно редизайнить. Если всё пойдёт хорошо, Blackwell поставят на три месяца позже планируемого срока.

Это заметно задержит развёртывание ряда кластеров: Microsoft хотела дать OpenAI доступ к 50 тыс.+ GPU нового поколения к началу 2025 года, Google заказал 400 тыс. GPU для своего облака, ряд других технологических гигантов сделали заказы на 10+ миллиардов долларов. Из-за этого новое поколение моделей, для тренировки которых и нужны новые кластеры, задержится на несколько месяцев.

@ai_newz

Читать полностью…

эйай ньюз

Умельцы прикрутили новую Ламу 405B к Comfy UI.

Работает на хостинге Replicate. По сути, это кастомная нода, которая пишет полноценный промпт из простого описания (prompt rewrite), так же как ChatGPT для Dalle-3.

Вообще мне не очень понравился процесс генерации картинок в нашем любимом чатГПТ, потому что у тебя нет контроля над финальным промптом, который идёт в диффузионку. Даже если просишь использовать данный промпт слово в слово, гптишка нет-нет, да меняет там что-нибудь без твоего разрешения. А суть промпт-инжиниринга в том, чтобы итеративно менять промпт и смотреть, что улучшилось, но бот часто берет и всё переписывает. Хотя для новичков это, конечно, топчик. Ну и как отправная точка для профи, тоже хорошо.

Вижу такой пайплайн для генерации короткометражных фильмов:

1) Сценарист выдаёт краткое описание кадров и, может быть, скетч от руки.
2) Нодами генерим промпт для каждого кадра на вход, берём скетчи и раскадровку от сценариста.
3) Художник пишет промпт для стиля. Добавляем его после промпта каждого кадра отдельной нодой. Подбирает модельки, лоры и пр.
4) Запускаем весь батч раз 5-10, берём лучшие кадры.
5) Идем в Luma оживлять картинки.

Кстати, нужны гайды по Комфи? Ставьте 🦄

Гитхаб

@ai_newz

Читать полностью…

эйай ньюз

Новая экспериментальная версия Gemini 1.5 Pro вырвалась в топ арены

Давно такого не было! И как-то радостно. Модель уже доступна в AI Studio (заходить через VPN). К результатам одного бенча всегда стоит относиться осторожно, ждём вайбчеков и других бенчей.

Релиз OpenAI через 3...2...

@ai_newz

Читать полностью…

эйай ньюз

Тут я сравнил FLUX.1 [pro] с FLUX.1 [dev].

Видно, что Guidance Distillation очень хорошо справилась с задачей и почти не повлияла на качество FLUX.1 [dev].

High-frequency детали не такие резкие у дистиллированной модели – смотри на перья Эму в первой паре.

Text Faithfulness только немного пострадал от дистилляции – вместо двух алигаторов, стал только один. В остальном в моем маленьком тесте она показала себя на уровне оригинально модели. Даже на тесте с людьми и гориллами, где модели от гугла часто прокалывались в прошлом, FLUX.1 модель выдала достойный результат.

Первая картинка в каждой паре - FLUX.1 [pro],
Ввторая картинка - FLUX.1 [dev].

Промпты в комментах.

Тыкал в бесплатое демо:
- https://fal.ai/models/fal-ai/flux-pro
- https://fal.ai/models/fal-ai/flux/dev

@ai_newz

Читать полностью…

эйай ньюз

Google выпустил Gemma 2 2B

Модель - SOTA в своей весовой категории, запускается везде: в браузере, на телефоне, на посудомойке. На арене перегоняет даже GPT 3.5, но веры арене теперь нет.

Модель дистиллировали из какой-то более жирной LLM (какой именно не сказано), как это сейчас делают для большинства мелких моделек. Так как дистилляция даёт лучший результат чем тренировка с нуля.

Но самое интересное в релизе - натренированные Sparse Autoencoder (SAE) для всех слоёв Gemma 2 2B и 9B. Это нейронки выделяющие отдельные фичи из активаций LLM. Они позволяют нам не только читать их "мысли", но и напрямую влиять на них! Если вы видели майское демо Golden Bridge Claude от Anthropic, то вы уже видели SAE в действии.

На Neuronpedia выпустили демку, где каждый может поиграться с этим.

На картинке - активность ряда топовых лаб на huggingface в этом году

Веса модели
Веса Sparse Autoencoders
Демка "чтения мыслей" Gemma

Ещё, умельцы уже запилили ноутбук для файнтюна модели в бесплатном коллабе.

@ai_newz

Читать полностью…

эйай ньюз

Extreme Compression of Large Language Models via Additive Quantization

Продолжаем разбирать статьи с ICML. AQLM от Yandex Research — это квантизация, позволяющая вместить 70B модель в консьюмерскую карточку вроде 3090/4090, при этом сохраняя в среднем 95% качества.

Вышло настолько сильно сжать путём использование Additive Quantization - каждый вектор выражается через сумму нескольких других. Работает это в 4 стадии:

1️⃣ Через лучевой поиск находят сочетание векторов из codebook для каждого квантизируемого вектора.

2️⃣ Codebook оптимизируется с помощью Adam.

3️⃣ Тюнят каждый трансформеный блок, чтобы его компоненты могли работать вместе (оптимизация отдельный слоёв блока и самого блока - слегка разные вещи).

4️⃣ С ростом количества токенов на параметр, квантизация становится сложнее. Поэтому для квантизации Llama 3 тюнинга лишь блоков по отдельности стало недостаточно, пришлось тюнить всю модель. Для этого придумали PV-tuning, на замену STE, используемому в обычных методах экстремальной квантизации. Метод сложный, про него есть отдельный пейпер, так что о нём как-то в другой раз.

Результат выходит лучше или на уровне QuIP#, прошлой SOTA техники. Ещё большой майлстоун тут в достижении Парето-оптимальности модели при квантизации до двух бит: теперь квантизированная до 2 бит 13B модель показывает лучше результаты даже чем полностью несжатая 7B, нечего уже говорить о квантизированной до 4 бит.

Ждём Llama 3.1 405B, квантизированную таким методом (так она сможет влезть в 2xA100, 1xH200 или 6x4090). А пока что есть квантизированные веса кучи моделей: оригинальная Llama 2/3, Mixtral, Command R и т.д.

Квантизированные веса
Пейпер
Код

> Если хотите получше разобраться с базой по квантизации, то вот ликбез курс от Эндрю Ына.

@ai_newz

Читать полностью…

эйай ньюз

Вчера на SIGGRAPH Хуанг и Цукерберг общались и шутили про AI и GenAI - прям как настоящие обычные люди.

Дженсен особенно выделил нашу модель Imagine Flash, которой он любит пользоватьcя в вотсапе (посмотрите отрывок). Она позволяет генерить картинки в риалтайме, пока печатается промпт.

Очень приятно, что даже куртка оценил мою модельку!

> Про свою работу я писал тут.
> Полная запись разговора.

#personal
@ai_newz

Читать полностью…

эйай ньюз

SAM 2: Segment Anything in Images and Videos

Вышла вторая версия SAM - модели для сегментации изображений. Лучше оригинала по качеству, при это в шесть раз быстрее (130 FPS на одной A100)!

Главная новая фича - поддержка видео, для чего в архитектуру добавили темпоральные компоненты (memory attention, memory encoder, etc.).

Вместе с моделью релизят датасет SA-V в 50к размеченных видео с 600к масклетов (масок объекта на протяжении времени).

Веса релизнуты по лицензии Apache 2.0, то есть делать с моделью можно практически что угодно.

Демо
Пейпер
Репа (ссылки на веса там)

@ai_newz

Читать полностью…

эйай ньюз

Qwen 2 - Math и Audio

Прямо перед выходными Alibaba релизнула несколько тюнов своей линейки Qwen 2.

Math модель выглядит крайне вкусно - 7B версия обходит недавнюю Mathstral, а 72B обходит ВСЕ существующие модели в математике, даже упомянутую мимоходом в техрепорте версию Gemini заточенную под математику. Но, в отличии от господ из Google, не утруждающих себя "релизами", китайцы выложили все веса на huggingface.

Вместе с Math выпустили ещё и 7B Audio модель, это уже второе поколение аудиомоделей от Alibaba. Лучше во всех бенчмарках, понимает восемь разговорных языков. Но всё ещё немая - может общаться только лишь текстом. До Omni модели от китайцев, видимо, ещё далеко.

Веса Math
Веса Audio

@ai_newz

Читать полностью…

эйай ньюз

Practical ML Conf 14 сентября пройдет в Москве и онлайн!

Machine learning, проверенный практикой*
* Сгенерировано YandexGPT

Главная конференция Яндекса по ML для экспертов: качественные технические доклады от ключевых инженеров, максимум пользы и знаний о практическом применении.

Ключевые темы конференции:
CV / NLP / Speech / RecSys / MLOps / Data science

В числе спикеров:
– Степан Комков — Яндекс Поиск, старший разработчик службы синтеза речи;
– Дмитрий Антипов — Сбер, АБТ, тимлид разработки;
– Виктор Плошихин — Yandex Cloud, руководитель ML-лаборатории в Yandex Platform Engineering.

Во вдохновляющем футуристичном пространстве «Суперметалл» мы поговорим о кейсах, которые не найти в научных статьях, ведь когда они появятся — вы уже не сможете оказаться в числе визионеров.

Ждём вас, чтобы заглянуть в будущее вместе — офлайн и онлайн.

Реклама. ООО "Яндекс", ИНН 7736207543.
#промо

Читать полностью…

эйай ньюз

Вместе с анонсом понижения цен на Gemini Flash, Google анонсировали ещё и доступность тюнинга моделей Gemini для всех разработчиков. Я тогда как-то анонс пропустил, а ведь это разрыв:

➖ Тюнинг бесплатный. Совсем. Не только для Flash, но и для Pro.

➖ Цена инференса затюнненных такая же как и у обычных моделей
(у OpenAI затюненные модели стоят в два раза дороже).

Работает это, скорее всего, через что-то похожее на batched LoRa. Из-за этого качество тюнов на больших датасетах может страдать, насколько - нужно тестить. Кстати API Gemini до определённых лимитов можно использовать бесплатно, за право тюнинга на ваших запросах.

@ai_newz

Читать полностью…

эйай ньюз

В тему про эту статью.

@ai_newz

Читать полностью…

эйай ньюз

Генерация видео от Black Forest Labs

Они релизнули FLUX.1 всего неделю назад, а уже тизерят SOTA видеогенерацию. Видео искажено эффектом телевизора, но выглядит очень впечатляюще.

Ребята наглядно показывают насколько в Stability был фиговый менеджмент. Если за полгода с нуля те же самые люди, которые сделали SD3 забахали такое, то в Stability всё очень запущено, некому пилить ресерчи, а новый менеджмент может и не спасти.

Как думаете, будет опенсорс?

@ai_newz

Читать полностью…

эйай ньюз

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

В последнее время, увеличение размера словаря токенизатора для LLM всплывало в основном как метод улучшения многоязычного перформанса. Но часто народ забывает, что увеличение размера словаря ещё и позволяет пропустить через LLM больше текста при том же компьюте (потому что в каждый токен, в среднем, будет влезать больше букв), тем самым повысив эффективность тренировки и улучшив результаты модели. Но где предел такому росту эффективности?

В этом пейпере авторы натренировали ряд моделей с разными размерами словаря токенизатора и вывели формулу для расчёта оптимальных размеров. Вот основные выводы:

➖ У большинства современных моделей словари слишком маленькие, результаты можно заметно улучшить просто его увеличив.
➖ Оптимальный размер словаря растёт очень медленно - с увеличением модели в 100 раз, оптимальный словарь растёт в 10.
➖ Модели учатся хуже как со словарём больше оптимального, так и меньше оптимального.
➖ Если есть ограничение в размере датасета, иногда лучше использовать неоптимальный токенизатор, чтобы увеличить количество токенов, и тем самым улучшить результаты.
➖ Оптимальный размер словаря токенизатора Llama 3.1 405B - полмиллиона токенов, в 4 раза больше оригинального словаря.

Токенизаторы — это всё ещё очень плохо изученная тема, и даже большие лабы делают тут банальные ошибки. Если хотите разобраться как они работают сейчас, то вот лучший туториал.

Пейпер

@ai_newz

Читать полностью…

эйай ньюз

Whisper Medusa - сверхбыстрое распознавание речи

Файнтюн Whisper со слегка изменённой архитектурой - теперь за одну итерацию модель выдаёт несколько токенов, а не один. В разы ускоряет декодинг, но качество слегка проседает.

Подход похож на недавнюю Multi-Token Prediction Language Model от коллег из Meta, только тут это применили для распознавания речи

Ждём когда это применят к Distil Whisper

Код
Веса

@ai_newz

Читать полностью…

эйай ньюз

🚨Noam Shazeer возвращается в Google🚨

Вместе с ним Google хайрит ещё одного кофаундера и около 30 (из 130) сотрудников Character. Взамен Google даёт большой мешок денег инвесторам стартапа и лицензирует его технологии. По факту это приобретение, но чтобы не разозлить FTC какой-то призрак компании будет функционировать.

Ноам это один из главных звёзд в ИИ ресёрче: один из авторов оригинального Attention is All You Need, T5, PaLM, нескольких важных пейперов о MoE, придумал Multi-Query Attention. Количество людей с таким количеством импакта можно посчитать на пальцах.

В итоге Google станет ещё сильнее, особенно интересно это ощущается на фоне недавних результатов на арене. Из приятного - Character обещает удариться в опенсорс, учитывая уровень эффективности их моделей, всему опенсорс комьюнити они точно не помешают.

А помните пару месяцев назад Microsoft провернул такой же трюк с Inflection?

@ai_newz

Читать полностью…

эйай ньюз

Продолжается приём заявок на открытый отбор научных статей для публикации в журнале международной конференции по искусственному интеллекту AI Journey.

Приз за лучшую статью — 1 млн рублей. Неплохая мотивация поучаствовать. А ещё есть шанс представить свою работу на конференции AI Journey.

Если вы исследуете AI, точно пробуйте свои силы. Для вас это хорошая практика и возможность поделиться полезным с миром.

Ключевые работы будут опубликованы в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics. Специальное издание выйдет в рамках ежегодной конференции AI Journey.

Подать заявку можно до 20 августа на сайте. Статья может быть на русском или английском языке и должна содержать только новые, ранее не опубликованные сведения. Подробности можно найти в Правилах проведения отбора.

Узнать больше и отправить заявку: AI Journey

#промо

Читать полностью…

эйай ньюз

индустрия vs академия

@ai_newz

Читать полностью…

эйай ньюз

🔥Black Forest Labs: новая лаба, которая будет двигать опенсорс image и видео генерацию! И новая SOTA 12B t2i модель!

Ядро команды состоит из авторов Stable Diffusion, которые покинули Stability-ai в марте. Как я и думал, они ушли и создали свою компанию!

Парни за эти несколько месяцев обучили text2image модель FLUX.1 на 12 B параметров! Которая на сегодня является SOTA моделью в открытом доступе! По предоставленным бенчам бьет даже MJ6!

Кажется, делали FLUX.1 по рецепту SD3, т.к. она имеет очень похожую архитектуру (DiT с двумя стримами - текст и картинка) и также основана на Flow Matching.

FLUX.1 вышла в 3 вариантах:

1️⃣ FLUX.1 [pro]: СОТА модель на 12B параметром. Все как надо - хорошая детализация изображений и фледование промпту, разные стили.
Доступна только через API:
- https://replicate.com/black-forest-labs
- https://fal.ai/models/fal-ai/flux-pro (дают даже бесплатно потыкать)

2️⃣FLUX.1 [dev]: Это дистиллированная чезе Guidance Distillation модель FLUX.1 [pro], которая в ~2 раза быстрее оригинала, и выдает почти такое же качество.
Демо:
- https://fal.ai/models/fal-ai/flux/dev
Веса (Non-Commercial License):
- https://huggingface.co/black-forest-labs/FLUX.1-dev

3️⃣ FLUX.1 [schnell]: Это быстра версия. По все видимости, это дистиллированная с помощью LADD (пост) модель FLUX.1 [pro], которая работает за малое число шагов (от 1 до 12), но с качеством похуже.
Веса (Apache 2.0 License):
- https://huggingface.co/black-forest-labs/FLUX.1-schnell

Репа с кодом
Блогпост

Следуюшим шагом парни хотят выпустить SOTA text2video в опенсорс.

@ai_newz

Читать полностью…

эйай ньюз

Runway хвастаются в твиттере, что натренили Gen-3 Turbo — судя по всему, дистиллированную модель, которая генерит 10 секундные видео за 11 секунд.

В твите пишут, что Turbo модель в 7x раз быстрее базовой. Но, судя по видео, базовая модель (слева) потребовала 91 секунду для инференса, а Турбо (справа) – 11 секунд. То есть ускорение в 8 раз. Видимо кто-то обсчитался.

Ещё бог его знает, сколько H100 GPU они тут использовали для инференса параллельно.

В любом случае, через несколько дней обещали понизить цены на генерацию и выкатить Turbo в прод. Будем смотреть, насколько просялет или не просялет качество.

@ai_newz

Читать полностью…

эйай ньюз

Результаты LLaMa 3.1 теперь на арене!

Она там делит третье место с Gemini 1.5 Pro. Достойный результат, особенно учитывая то что по какой-то причине на арену засунули версию 405B в fp8, то есть с потерями от квантизации. Но даже так 405B показала себя на уровне фронтирных моделей.

@ai_newz

Читать полностью…

эйай ньюз

🔥Mastering LLMs: Открытый курс по LLM от практиков

Я заметил, что очень хорошо разлетелся пост с ноутбуком для файнтюна LLaMa 3.1 в колабе. Поэтому принес вам еще имбовый курс по LLM от практиков для практиков. Он будет актуален для технических специалистов (включая инженеров и DS-ов), которые имеют некоторый опыт работы с LLM, да, я думаю, и для начинающих практиков он тоже хорошо зайдет.

Это набор лекций, которые покрывают такие прикладные темы как RAG, файн-тюнинг, промпт-инжиниринг, оценка качества моделей и прочее. Курс уникальный, потому что лекции ведут 25+ разных опытных чуваков из индустрии, которые являются экспертами по соответсвующим темам. Там ребята из Pytorch (Meta), Anthropic, Mistral, Fireworks-ai и других компаний.

Курс очень хорошо оформлен. К каждой лекции идут слайды, заметки, дополнительные ресурсы со ссылками и полный транскрипт видео.

Минимальные требования, чтобы успешно смотреть курс:
- Базовое знакомство с LLM-ками.
- Если такого опыт у вас нет, то рекомендуется начать с видео A Hacker’s Guide to LLMs от Джереми Ховарда, а также пройти туториал об Instruction Tuning LlaMa-2.

> Ссылка на курс: https://parlance-labs.com/education/

Давайте еще накидаем в комментах другие классные курсы по NLP, которые вы сами смотрели/проходили.

#ликбез
@ai_newz

Читать полностью…

эйай ньюз

ICML - Best Paper Awards

В субботу закончилась ICML 2024. На ней, как и на других топовых конференциях (например NeurIPS) выбирают и награждают лучшие статьи.

Статья про SD3 от моих одногруппников (Scaling Rectified Flow Transformers for High-Resolution Image Synthesis) тоже получила best paper award на ICML! Это очень круто! Про саму статью я писал ранее тут.

Полный список пейперов получивших награду (я разбил их на темы).

Генерация текста:

1️⃣ Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution - генерация текста с помощью диффузии, работает быстрее чем авторегрессия.

2️⃣ Stealing Part of a Production Language Modeling - Как украсть веса последнего слоя у ChatGPT, потратив пару тысяч долларов на API.

3️⃣ Debating with More Persuasive LLMs Leads to More Truthful Answers – дебаты как метод получения более правдивых ответов от больших языковых моделей (LLM). Более слабая модель может оценивать ответы более сильных LLM.

4️⃣ Probabilistic Inference in Language Models via Twisted Sequential Monte Carlo - вероятностный инференс в LLM.

Генерация картинок и видео:

5️⃣ VideoPoet: A Large Language Model for Zero-Shot Video Generation – LLM для генерации видео от Google

6️⃣ Scaling Rectified Flow Transformers for High-Resolution Image Synthesis – Stable Diffusion 3

7️⃣ Genie: Generative Interactive Environments – foundation world model, которая может генерировать бесконечное разнообразие играбельных (с контролируемыми действиями) миров

Другое:

8️⃣ Position: Measure Dataset Diversity, Don't Just Claim It - Про датасеты

9️⃣Information Complexity of Stochastic Convex Optimization: Applications to Generalization and Memorization - Про выпуклую оптимизацию


Исторически ICML славилась более хардкорными статьями с кучей матана и теорем. Но тут, как видите, большинство из лучших статей очень прикладные и понятные, кроме может быть двух (про Convex Optimization и инференс LLM через TSMC), где нужно реально потратить время чтобы осознать, что происходит.

@ai_newz

Читать полностью…
Subscribe to a channel