ai_newz | Unsorted

Telegram-канал ai_newz - эйай ньюз

70254

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow

Subscribe to a channel

эйай ньюз

А вот как NEO Beta ходит и помогает по кухне

@ai_newz

Читать полностью…

эйай ньюз

Новая Alexa будет на основе Claude

По сообщению Reuters, продвинутые фичи на основе новой модели будут стоить 5-10 долларов в месяц. Выглядит как ещё одна попытка получить хоть какую-то прибыль от Alexa, потери от которой с 17 по 21 годы составили 25 миллиардов (более новых данных нет, но там вряд ли дела обстоят лучше).

Увы, похоже это будет не омни-модель, вроде GPT-4o, так что задержка лучше текущих голосовых режимов не станет (то есть ~3 секунды, а не ~300 миллисекунд). Надеюсь Антропик подсуетится и даст возможность Claude работать напрямую с аудио и на вход и на выход, тогда будет разнос (но о стоимости инференса даже думать страшно).

Вот и начинается интеграция Claude в продукты Amazon, раньше это было лишь API. Инвестицию в 4 миллиарда отбивать-то нужно.

@ai_newz

Читать полностью…

эйай ньюз

VGGHeads: Восстанавливаем 3D головы на групповых фото

В догонку к недавнему посту про OccluFaceDiff, где мы со студенткой восстанавливали 3D-шейп лица по видео или аудио, даже если в какой-то момент оно закрыто, спешу поведать про VGGHeads. Ребята научились собирать меш сразу для нескольких голов по одному фото. Казалось бы, а что, фильтры в Instagram так не умеют? А вот нет! Потому что задетектить столько лиц сразу — довольно сложная задача, а здесь это ещё и делается в один шаг. Архитектура модели ню построена на базе YOLO-NAS. Не реалтайм, конечно, но очень к этому близко.

Ещё из интересного то, что для тренировки использовался полностью синтетический датасет. Картинки генерили на основе референсных, используя диффузию и 2D Pose controlnet. Всего так нагенерили 1M картинок с 2M+ головами, из которых 10 000 зааннотировали вручную (правда, только вот этой красной рамкой см. картинку, но и на это ушло 56 часов).

Примечательно, что человеку необязательно смотреть прямо в кадр — лицо детектится и в профиль. Выше пример с недавней сходки в Варшаве.

Project page
Пейпер
Код
Демо
Датасет (скоро)

@ai_newz

Читать полностью…

эйай ньюз

Никто:

Илон Маск: высказывается в поддержку калифорнийского закон SB 1047 о регуляции AI, который зажмёт его собственные компании тоже.

@ai_newz

Читать полностью…

эйай ньюз

LLM Arena для русскоязычных моделей

Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков!

C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так:
- Gpt4o
- Gpt4o mini
- LLaMa 3.1 405b
- LLaMa 3.1 70b
- Gemma 27b
- LLaMa 3 70b

RuArenaGeneral — бенчмарк на основе lmsys arenahard . Это единственный полностью открытый современный бенчмарк на русском языке.
В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с оригинальной ареной lmsys.org.

На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные.

Шлёпа lb — это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от Mera, сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения!

Для новчиков - тут я писал подробнее, что такое ChatBot Arena.

@ai_newz

Читать полностью…

эйай ньюз

Внимание! Hugging Face представляет конструктор «Собери сам роборуку и обучи ее»

Вкомплект входит:
- Конструктор «Собери сам» — роборука с ссылками для заказа запчастей ~ $300 (опционально есть еще вторая за $250) + файлы для принтера.
Гайды по:
- Cборке и калибровке.
- Записи собственного датасета на камеру телефона.
- Тренировке нейросетей для управления рукой.

Прикольная инициатива, ребята надеются максимально помочь начинающим в надежде привлечь больше рук (кожаных, а не робо-) в опен-сорс, что, в общем-то, шикарно!

Расходники вышли дороговатыми, но это уже не $108K за домашнего робогуманоида + скоро обещают выпустить новую версию, говорят уложились в $150 за обе руки.

Чел научил две роборуки складывать футболки на 100 примерах за одну ночь тренировки.

Хотел бы я подарить такую штуку себе 15 лет назад.

Туториал на гитхабе
Тред с гайдом получше (есть и видео и ноутбуки с тренировкой нейронок)

@ai_newz

Читать полностью…

эйай ньюз

Пока Карпатый уже не может представить, как работать без копайлота или Cursor, Амазоновские перелопатил половину корпоративного спагетти-кода, юзая их Amazon Q*.

Чуваки прикинули и пришли к выводу, что за пару недель сэкономили 4500 лет (sic!) работы человека-разработчика. Сначало не верится, но если учесть, что 80% кода они отправили напрямую в прод... хочется задуматься о перспективах работы для программистов.

Новая простыня отличается повышенной безопасностью и эффективностью (конечно, со слов разработчиков, ещё посмотрим какие дыры проявятся через некоторое время). А вообще, оптимизация должна принести Безосу лишние 260М в год👍

С одной стороны, в очередной раз press F джунам, с другой — ребята, пока еще не все выкупили фишку, устраивайтесь скорее на синьоров в старые компании и переписывайте им код за нормальную зп😁

* Amazon Q - это амазоноаский копайлот, который под капотом все также использует GPT, имеет доступ ко всей базе кода и документов внутри компании, плюс некий обвес из пайплайнов и интерфейсов вокруг. Вот тут про него.

@ai_newz

Читать полностью…

эйай ньюз

Я вернулся из поездки в Варшаву! Город очень живой и активный, особенно сильно это ощущается на контрасте с размеренным Цюрихом. И, конечно, огромное русскоговорящее комьюнити технарей.

Я провел целых две тусовки с подписчиками – одной оказалось мало, и меня попросили организовать еще одну. Сразу скажу, что обе прошли просто шикарно! Спасибо всем, кто пришел – вы все очень крутые!

Для первой забронировал целиком белорусский бар "Банки-Бутылки" (он же раньше был в Минске на Зыбицкой). Я приятно офигел от того, что на тусу пришло более 50 человек. Это пока рекордная по размеру тусовка "эйай ньюз". Получилось прям круто! Тут было, как мне кажется, три составляющие успеха:
➡️ Много интересных людей. Кроме ребят, кто работает в AI и ML (из FAANG-а, фирм поменьше и стартапов), были артисты, фотографы и маркетологи, которые активно используют AI в своей работе.
➡️ Вкусные коктейли, в том числе и безалкогольные (респект барменам!).
➡️ Хорошая музыка и обстановка. Так как место было зарезервировано чисто под нас, была очень уютная и непринужденная атмосфера.
➡️ Для самых стойких мы организовали афтерпати на шикарной террасе с видом на реку (кудос моему другу Андрею!). Разошлись в 3 часа ночи только 🎵.

Вторую тусу поменьше на 15 человек провели через два дня после первой на берегу реки Вислы за комфортабельными деревянными столами, где можно было приносить свои напитки. Тут было более спокойно, но не менее кайфово, смогли хорошо пообщаться и выпить пива с ребятами, наблюдая красивые виды вокруг.

Кроме того, меня пригласили на локальный Data Breakfast, который ребята проводили в Гугле. У Гугла оказалось прям крупное представительство в Варшаве, и есть даже команды из Waymo (где пилят self-driving).

Еще позвали в гости в офис Pinterest, где я познакомился с командой, вышедшей из белорусского стартапа Vochi, который был куплен Пинтерестом в 2021. Ну, и конечно, поработал из нашего Метовского офиса с классным видом на центр Варшавы.

Поездку в Варшаву объявляю очень удачной, приеду еще раз как-нибудь!

#personal
@ai_newz

Читать полностью…

эйай ньюз

CDTO - Chief Digital Transformation Officer - это человек, который отвечает за технологическое развитие компании и внедрение новых технологий в работу. Уверен, у этих парней выдался тяжёлый год из-за бума нейросетей: каждый CEO хочет себе какую-нибудь AI приколюху.

Вообще, интересная должность, хотя понимание AI технологий — это уже мастхэв скилл для любого управленца. Те, кто любят и технологии, и бизнесовую тему (я как раз шарил список книг на стыке бизнеса и AI), точно оценят рассказ о CDTO в свежем выпуске подкаста Data Therapy.

Ведут подкаст директора X5 Group, и во втором выпуске про CDTO в гостях Николай Верховский, директор Центра цифровых программ Московской школы управления Сколково.

Сейчас у подкаста идёт 3 сезон, ребята рассказывают про внедрение AI в различные ниши на конкретных кейсах гостей. Но скажу сразу: подкаст довольно хардовый, подойдёт опытным менеджерам и директорам или тем, кто хочет таковыми стать.

Слушать здесь

#промо

Реклама. ПАО «Корпоративный центр ИКС 5», ИНН 9722079341, erid: LjN8KEQV2

Читать полностью…

эйай ньюз

Scaling Diffusion Transformers to 16 B parameters with MoE

Китайцы месяц назад заскейлили DiT до 16.5 млрд параметров с помощью Mixture of Experts (MoE). Это могла бы быть самая большая DiT диффузия в опенсорсе на сегодняшней день, если бы веса 16.5B выложоли. Но шансы этого близки к нулю, т.к. я прождал месяц, а весов большой модели все еще нет.

Экспертов вставили в каждый MLP блок, то есть вместо одного такого блока у нас теперь K параллельно, которые активируются в зависимости от входного токена. Во время инференса активны только 4 эксперта из К в каждый момент ( 2 "общих" эксперта активны всегда).

В чем профит использовать MoE?
- По сравнению с Dense моделью аналогичного размера (где у нас один жирный MLP блок), МоE позволяет условно распределить знания по отдельным экспертам, каждый из которых имеет меньший размер. За счет этого во время инференса мы можем активировать только часть экспертов и экономить на вычислениях.
- Выигрыша по памяти MoE в этом случае не дает - нам все равно нужно загружать сразу всех экспертов в память, т.к выбор экспертов происходит на уровне токенов.
- Если бы мы выбирали экспертов на уровне промпта или шага t, то можно было бы сэкономить и память. Но тут так не делают.

Тренят модель на:
– На 1.3M картинках из Imagenet и на синтетике.
– Нагенерили 5M картинок 512x512 для Imagenet классов с помощью SD3-2B и SDXL, а затем фильтранули клипом. Это для того, чтобы насытить данными жирную 16.5B модель, ведь 1.3M из Imagenet тут уже мало.

Результаты:
Картинки в статье выглядят так себе, наверное плохо черипикали. Но чего ожидать от генерации по классам на Imagenet. А по метрикам у них SOTA. Что ж, ждем аналогичную text-2-image модель.

В репе есть код тренировки (на DeepSpeed). Недавно добавили тренировку на основе Flow Matching, как это делают в Flux и SD3 - авторы пишут что таким методом модель быстрее сходится и дает лучшие результаты (это полезное замечание).

Вот веса моделей:
- B/2 с 8-ю экспертам (800 M, 12 блоков)
- G/2 с 16-ю экспертами (16.5 B, 40 блоков) - не выложили ха-ха.

@ai_newz

Читать полностью…

эйай ньюз

Нашел прикольное сравнение Runway и Luma. tesorone">Автор прогнал одни и те же картинки через обе модели и сделал два одинаковых трейлера.

В связи с этим решил провести свое небольшое сравнение трёх конкурентов в разных категориях:

1) Следование промпту: сможет ли модель нарезать апельсин?
2) Реалистичный портрет "говорящая голова".
3) Продакт-фото — ещё один очень популярный юзкейс.
4) Абстрактная динамичная сцена с китом, который выпрыгивает из дюны.

Все видео генерил три раза (что, вообще говоря, маловато) и использовал один и тот же промпт из этой GPT.

Результаты выше.

Скажу честно, я топил за Luma, но после того, как Runway Gen-3 расправился с этим апельсином, мое мнение резко переменилось. Luma разрезала апельсин только после добавления endframe, хотя Gen-3 справился с первой попытки.

Прайсинг:
Здесь сложно судить. Думаю, нет смысла считать стоимость токена или секунды генерации. Все равно 2/3 генераций уйдут на свалку. НО! У Runway есть анлим за 95 баксов, и если вы вот реально угарели по этой теме, то Runway ноубрейнер чойс. Luma за $100 дает 480 генераций, что кажется много, но по сути из 30 минут сгенерированного видео юзабельными будут минут 6-10 от силы, чего хватит на пару-тройку клипов. А еще можно скинуться с корешами на акк Runway, а для отдельных задач юзать фри токены лума (пока фичу со start & end keyframes не завезли в gen-3), но я вам об этом не говорил🤭.

Выводы:
Runway дает более киношную и чистую картинку, но меньше движений. Хотя, это решается грамотным промптингом и черрипиком. Здесь нужно добавить, что я тестировал Turbo версию, так как на нее есть бесплатные кредиты😁. Luma, судя по первому видео, дает больше движений, но и больше артефактов. В целом, тот же черрипик должен решить проблему, а четкость можно добавить в посте и на этапе апскейла, который все равно требуется для всех трех моделей.

А Kling... ну что Kling... Он в целом менее популярный из трёх, хотя, кажется, имеет наилучший мувмент в плане реалистичности и фиделити. Однако, картинка еще более мутная и менее киношная. Как-то ни народ, ни я его не взлюбили. А еще в бесплатной версии ну оочень долгая очередь, как в первые дни релиза Luma (ждал ночь).

Пока мой выбор за Runway GEN-3. Если набить руку и не жалеть анлим, то получится выжать динамичную и красивую картинку. Это как MidJourney, ради красоты стоит потерпеть.

@ai_newz

Читать полностью…

эйай ньюз

Какие перспективы у квантовых компьютеров?

Часто слышим, что вскоре квантовые компьютеры смогут взломать RSA-шифрование. Многие уже пробовали писать код на Qiskit и ждут запуска на реальном оборудовании.

Сегодня квантовые компьютеры решают задачи вроде факторизации чисел, моделирования молекул и оптимизации. Но примеры «квантового преимущества» пока далеки от реальных кейсов. Хотя число кубитов стабильно растет.

Будет ли квантовый компьютер полезен бизнесу в ближайшее время? На ИТ-пикнике об этом говорил спикер облачного провайдера Cloud․ru. Вот ключевые советы от Михаила Ремнева, аналитика-исследователя из R&D-команды Cloud․ru:

😶‍🌫️Фокусироваться на прикладных задачах, а не на кубитах;
😶‍🌫️Сравнивать с традиционными методами;
😶‍🌫️Следить за новостями и мнениями экспертов;

➡️Подписывайтесь на Cloud․ru Tech, чтобы быть в курсе трендов в облаках и AI.

Erid 2VfnxvkDtkg
#промо

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#31)

Три недели прошло с последнего дайджеста, возвращаюсь к формату

LLM
- Обновления Qwen 2 - один тюн теперь SOTA по математике, а другой понимает аудио

- ReBased – новая архитектура линейного трансформера. Это лучший, на данный момент, вариант Linear Transformer, исправляющий ошибки прошлых архитектур.

- Grok 2 - ещё одна модель уровня GPT-4. В пантеон OpenAI, Anthropic, Google и Meta добавился XAI.

- Context Caching для Claude - любимая фича для удешевления моделей наконец-то заехала в клода, но кэш живёт лишь пять минут, что ограничивает юзкейсы.

Общие новости
- Презентация гугла - показали полуработающие демо Gemini, новые телефоны Pixel и кучу фич для их камер. Было скучно, админ заснул.

- Команда из РФ победила на международной олимпиаде по AI - ребята молодцы, а задачки оттуда это хорошая практика даже для опытных спецов.

Аналитика
- Почему не стоит верить сливам - разбор одного популярного в последнее время "инсайдера", который ни разу не оказался прав.

Жизнь
- Поработал из офиса Meta в Варшаве - очень красиво, согласитесь. Организовал две тусы для подписчиков (про них ещё напишу). Да и в целом в Варшаве очень понравилось!


> Читать дайджест #28

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

В этом году впервые прошла Международная олимпиада по искусственному интеллекту для школьников (IOAI) в Болгарии с 9 по 14 августа. И вот что произошло:

- Команда из России (школа Летово) одержала победу в общем зачете! Они заработали золото за решение задач по машинному обучению и компьютерному зрению и серебро за задачи по обработке естественного языка. По сумме баллов за оба конкурса ребята обошли конкурентов из 39 стран, включая Китай, Японию, Канаду, Швецию, Нидерланды, США. Команда вернулась домой сегодня ночью и их огого как встретили в аэропорту!

В команду победителей вошли Никита Курлаев, Андрей Грицаев, Андрей Громыко и Анастасия Гайнуллина. К олимпиаде детей готовили преподаватели Центрального Университета, основанного при поддержке т-банка и других крупных компаний.

Необычный формат олимпиады (не похоже на IMO или IOI): Задачи были в стиле Kaggle, но с ограничениями по времени и ресурсам. Это уменьшило роль брутфорса и акцентировало внимание на знаниях и находчивости участников.

Задачи:
- В ML задаче требовалось создать лучшие фичи для небольшого DecisionTree.
- В NLP задаче — зафайнтюнить mBERT для нового языка с зашифрованными текстами.
- В CV задаче — заставить miniSD всегда дорисовывать гидрант, если на картинке есть корова.

Финальный этап: Длился 8 часов, команда из 4 человек решала 3 задачи, используя только два ноутбука (я так понимаю, с GPU).

На сайте олимпиады, кстати, собрано много полезных ресурсов для подготовки, многие из которых хорошо подойдут всем, кто вкатывается в ML по работе: https://ioai-official.org/how-to-prepare/

@ai_newz

Читать полностью…

эйай ньюз

🔥 Anthropic запилили Context Caching! 🔥

Называется она в их исполнении prompt caching. Запись токенов в кэш платная - цена кэшируемых токенов на 25% выше.

Основной подводный камень - хранятся кэшированные токены всего пять минут после последнего использования, но цена за кэшированный токен в десять раз лучше. Предложение явно хуже чем у DeepSeek, но вполне конкурентоспособно с Google.

Почитать что такое Context Caching можно тут.

Документация

@ai_newz

Читать полностью…

эйай ньюз

Новые роботы NEO Beta от 1x

В движении видно что робот, но чисто по стопкадрам сложно отличить от человека в костюме. А всего три месяца назад роботы компании ещё ездили на колёсах. А тут можете похвалить (или поругать) одного из разработчиков.

What a day to be alive

@ai_newz

Читать полностью…

эйай ньюз

MLPerf Inference v4.1 - триумф Nvidia B200

MLPerf - это главное соревнование производительности железа для ИИ, где сравнивают их производительность на реальных моделях. Есть две основных категории - тренировка и инференс, сейчас закончился инференс. В этом раунде аж 4 новых ускорителя, два - от компаний участвующих впервые. Все новички участвовали лишь в одной дисциплине.

Главная звезда - Nvidia со своей B200. Она в 2.5 раза быстрее новенькой H200, которую Nvidia начала продавать лишь вчера, и в 4 раза быстрее H100 - на новой видеокарте Llama 2 70B выдаёт больше 11к токенов в секунду.

Впервые на MLPerf появилась AMD, с MI300x. Перформанс Llama 2 70B - 3к токенов в секунду, уровень H100, но отстаёт от 4.5к у H200. Прямой конкурент H200, MI325x (монстр с 288 гигами видеопамяти) выйдет в четвёртом квартале, то есть отставание по железу у AMD сейчас всего несколько месяцев. Но отставание в софте - совсем другая проблема.

Кстати видеокарты AMD уже светились на MLPerf один раз прежде, правда геймерские. tinycorp, которая производит серверы на основе геймерских видеокарт, удалось натренировать ResNet на 6x7900XTX, используя и свой фреймворк и свои драйвера.

Ещё один новичок - Untether AI, их собственный ускоритель смог добиться 60% перформанса H100 в ResNet, при эффективности в три раза выше. Достигли этого, засунув всю модельку прямо на чип, а не в видеопамять, поэтому участвовали лишь в дисциплине с очень маленькой моделькой. Как они будут запускать модели побольше – открытый вопрос. Однако, эту проблему уже удалось решить Groq - стартапу с похожей архитектурой чипа, но Llama 70B запускается у них на 576 чипах, что требует нетривиального нетворкинга.

Заявился туда и Google, с новыми TPU v6. В инференсе SDXL перформанс в три раза лучше чем у v5e или примерно 70% от перформанса H100. Это младшая версия TPU v6, созданная для инференса. Разница в производительности между младшей и старшей версией предыдущего поколения - 2.3x, похожую разницу стоит ожидать и сейчас.

В своих маркетинговых материалах разработчики железа манипулируют всем, что только можно, сравнивают тёплое с мягким. Поэтому сравнивать железо на общих, независимых, бенчмарках, как это происходит на MLPerf, чрезвычайно важно.

Результаты

@ai_newz

Читать полностью…

эйай ньюз

Сверхзвуковые LLM

Llama 3 70B запустили на скорости в 450 токенов в секунду. А 8B - на бешенных 1800 токенов в секунду. Это всё без квантизации, да и цена не кусается - API стоит 10 центов за лям токенов для 8B и 60 для 70B. Предыдущий рекорд по скорости побили в более чем два раза для 8B. В будущем обещают добавить больше моделей, начиная с Llama 3.1 405B

Сделал это стартап Cerebras. Он производит железо для нейронок, известен самым большим чипом в мире (в 57 раз больше по размеру H100!). Предыдущий рекорд по скорости поставил тоже стартап со своим железом - Groq.

Хороший пример того что специализированные только под нейронки чипы вроде могут в разы превосходить видеокарты по скорости инференса, а ведь скоро ещё будут чипы которые заточены под конкретные модели, например Sohu. Кстати, давно хотел разобрать разные стартапы по производству железа и разницу их подходов. Интересно?

Попробовать можно тут.

@ai_newz

Читать полностью…

эйай ньюз

Тут ребята из VK совместно с ИТМО провели исследование ML-сообщества России и опросили более 300 спецов.

Здесь не будет рейтингов компаний и размера ЗП, но есть выборка карьерных ожиданий и перечень критериев, необходимых для успеха на рынке. Подробнее — в карточках

Кстати, мой канал вошёл в топ самых популярных тг-каналов, откуда народ черпает информация про AI и ML.

#промо

Читать полностью…

эйай ньюз

Нашел мем, высмеивающий завышенные ожидания от применения нейронок 10 лет назад. Хотя мем и забавный, важно понять не только как и почему так вышло, но и отметить, что несмотря на сохранение профессии радиолога, медицина продолжает трансформироваться под влиянием AI.

Главная причина таких ошибочных прогнозов — концентрация на бенчмарках без учёта полевых условий применения. Модели, превосходящие человека в анализе рентгеновских снимков на бенчмарках, часто оказываются менее эффективными на реальных клинических данных. Кроме того, бенчмарки не отражают всего спектра задач, с которыми сталкиваются радиологи.

Сейчас исследователи начали применять ключевой принцип стартапов — прямое общение с пользователями, в данном случае с практикующими врачами. Это позволяет внедрять AI для решения реальных проблем, таких как поиск редких патологий, которые из-за своей нечастой встречаемости могут быть не замечены обычными врачами.

Хороший пример и такого юзкейса — нейросеть, которая выявляет редкие патологии нервной системы на ранних стадиях беременности по результатам УЗИ. Идея проекта принадлежит фонду "Спина бифида", а создали нейросеть в Яндексе в сотрудничестве с врачами перинатального центра Кулакова и студентами Школы анализа данных. Несмотря на относительно небольшой процент детей с подобными патологиями, в масштабах стран речь идёт о тысячах случаев ежегодно. Раннее выявление может значительно улучшить качество жизни этих детей

Архитектурно тут всё очень просто - YOLOv10 и пара DenseNet. А основная сложность – это датасет, который размечали на основе 6 тысяч УЗИ снимков (в том числе 300 с патологиями).
Моделька открытая,плюс её можно затюнить искать дополнительные патологии или лучше понимать снимки какой-то отдельной модели УЗИ аппаратов.

На фоне шумихи вокруг LLM часто забывается, как AI уже сейчас реально улучшает жизни, и до прихода AGI (а там еще посмотрим кто кого спасать будет).

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#32)

Генеративные модели
- FLUX ControlNet смешали с Luma. Вышел прикольный морфинг.
- GEN-3 vs Luma vs Kling. Какую же подписку взять? Проводим тесты и выбираем модель себе по душе.
- Первый IP-Adapter для FLUX.1. Вышло сыровато, но зато первые!
- MidJourney вернули триал! И окончательно переехали в веб. Теперь сайт имеет полноценный набор инструментов и можно пилить новые фишки, хотя Discord все еще жив!
- Ideogram 2.0. Новая SOTA чуть ли не лучше FLUX, но закрытая и коммерческая, парни явно хотят отжать часть рынка у MidJourney.

Пейперы
- Скейлим диффьюжн трансформеры с помощью MoE. Креативный способ набрать больше параметров почти бесплатно.
- Мои коллабы со студентами. Делюсь плодами студентки, которая продолжает мой старый проект Avatars Grow Legs, но теперь с лицами.

Другое
- Сходка в Варшаве. Было мега круто, спасибо всем, кто пришел и кто читает канал <3
- Подборка ML фреймворков. Разбираемся с внутрянкой на практике. Все мы любим потыкаться в чужой код и посмотреть, что выйдет.
- ЛЛМ Безоса Amazon Q переписала старое репо и сэкономила 4500 лет работы и $260M в год. Может, у джунов все-таки есть шанс пройти собес под прикрытием Copilot'а?

———

Так-с, я там пропустил пару недель, так что вот пара самых горячих новостей за недели 29 и 30. Пропустили юбилей = (

- ICML - Best Paper Awards. Эти статьи точно стоит почитать на досуге. Прям интересно.
- Black Forest Lab. Это же те самые авторы FLUX и спасители опенсорса, вперед мужики!
- Grok 2 вырвался в топ. Теперь XAI – серьезная AI компания. Их модельку sus-column-r на арене нарекли прорывом от OpenAI. Есть о чем задуматься.
- Скидки на LLM. Провайдеры мощно режут цены на свои API. Оптимизированные минимодельки, да еще и с кешем теперь почти ничего не стоят.
- Болтовня Хуанга и Цукерберга. Пацаны собрались нормально поболтать за жизнь работу. Мистер кожанка даже похвалил мой Imagine Flash, приятно :)
- Полный курс по LLM. Бесплатно и от топовых практиков в индустрии, если вливаться в NLP, то только так.
- SAM 2: Segment Anything in Images and Videos. Кто-то там все еще не может удалить задний фон, а тут ребята сегментируют элементы не просто на картинках, а на видео.

> Читать дайджест #31

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

Я раньше вам уже рассказывал, что у нас в Мете есть возможность коллаборировать с университетами и супервайзить научные работы студентов. Так вот я этим и продолжаю заниматься.

В этом году я супервайзил еще одну магистерскую работу в ETH Zurich. Это работет так, что у студента формально есть супервайзер и в ETH и в Мете. Но так как это коллаб, то тему работы задавали мы из Меты (я и еще одна моя коллега).

Мы еженедельно встречались и обсуждали прогрес по проекту, я накидывал идеи и помогал решать проблемы если были блокеры.

За основу проекта была взята моя статья Avatars Grow Legs, но на этот раз мы хотели сделать что-то с анимацией лиц.

Около месяца назад моя студентка-магистрантка добила этот проект и успешно защитила свою Магистерскую работу в ETH Zurich!

Работа называется "OccluFaceDiff: Multimodal-Conditioned Occlusion-Aware 3D Facial Animation Using Diffusion". Если коротко, то мы научили (я говорю мы, но на самом деле всю работу, конечно, сделала студентка) мультимодальную диффузионную модель восстанавливать 3D shape лица человека по видео и аудио, если оно есть. То есть на вход видеоряд - на выходе последовательность 3D шейпов лица, соответствующая каждому кадру. Фишка работы была в том, чтобы восстанавливать все лицо даже если часть его закрыта чем-то (например маской или рукой). Если часть лица не видна, но есть аудио, то по звуку и эмоциям можно предсказать, как выглядело лицо человека. Самое сложное тут это мимика.

Ну, а после защиты счастливая студентка уехала на стажировку в Amazon в Люксембург :) Как вернется, возможно, будем готовить статью.

Так что, если вы толковый студент (желательно PhD) и есть амбиции и желание написать со мной статью, то можете написать в лс или в комментах. Возможно, сможем поработать вместе.

#personal
@ai_newz

Читать полностью…

эйай ньюз

Ideogram 2.0

Это новая SOTA - по внутренним тестам она обходит FLUX.1 Pro, причём модель особенно хороша для генерации текста. Судя по результатам генерации что я видел, это и правда так. Бесплатно доступно 10 кредитов в день, этого хватает на 5 генераций с новой моделью, а подписка стоит от 8 баксов в месяц.

Добавили и функционала по контролю за генерацией - предопределённые стили и возможность выбирать палитру,

Вместе с новой моделькой релизнули приложение на iOS и API. API стоит примерно на уровне FLUX.

Технических деталей, увы, нет. Судя по поведению компании вряд-ли будут.

Попробовать

@ai_newz

Читать полностью…

эйай ньюз

Midjourney наконец-то начали выбираться из Discord!

В честь релиза вебверсии для всех пользователей врубили бесплатные триалы - дают бесплатно сгенерить 25 картинок. Дальше по подписке - они стоят от $10 до $120 за месяц или от $96 до $1152 за год.

В веб интерфейсе на удивление много фич - кроме стандартной галереи генераций и интерфейса промптинга там есть текстовые и голосовые чаты, текстовые связаны с дискордом. В придачу есть специальный интерфейс для ранкинга изображений в обмен на ускоренную генерацию картинок (очень умный способ получить данные для тюна практически бесплатно).

Заметьте как один из лучших генераторов изображений в мире больше двух лет был доступен лишь в дискорде. Фокус был на основном продукте - модели генерации, на вторичные фичи на распылялись. В том числе из-за этого
компания не просто профитная, она ни разу не привлекала денег, остальным стартапам есть чему у них поучиться.

https://www.midjourney.com/

@ai_newz

Читать полностью…

эйай ньюз

А вот и первый IP-Adapter для FLUX.1 [dev] подъехал

IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.

Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.

Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.

Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.

Это только первая версия адаптера, поэтому может быть еще сыровата.

Веса на HF
Воркфлоу для Comfy UI

@ai_newz

Читать полностью…

эйай ньюз

Контролнеты для FLUX.1 поражают

Тут использовали Depth Controlnet для генерации фреймов и Luma для синтеза переходов между генерациями.

@ai_newz

Читать полностью…

эйай ньюз

Принёс вам подборку ресурсов о внутренностях ML фреймворков

Autodidax - туториал который проведёт вас сквозь имплементацию ядра Jax - библиотеки от Google, которая пришла на смену Tensorflow. Сейчас Jax это основной конкурент PyTorch и доминирует в RL сфере. В основном это из-за DeepMind, но ещё на Jax возможно делать симуляцию окружения для ИИ агентов с безумной скоростью. За пределами RL - XAI и Midjourney полностью на Jax, многие компании вроде Apple используют преимущественно Jax (модели для Apple Intelligence тренировались при помощи AXLearn, который работает поверх Jax).

Если autodidax кажется вам сложным - у Андрея Карпатого есть туториал о создании micrograd. Он хорошо объясняет как работает бэкпроп и библиотеки для создания нейронок.

А настоящие хардкорщики могут покопаться в tinygrad - полностью функционирующем ML фреймворке в менее чем 9000 строк кода. Несмотря на небольшую кодбазу фреймворк запускается на видяхах Nvidia, AMD, Intel, Qualcomm и Apple. Вот небольшой курс статей объясняющих внутренне устройство фреймворка (им несколько месяцев, так что некоторые части успели поменяться, но в целом хорошо объясняют суть). А начать знакомство с внутренностями стоит наверное с этого файла.

Если хочется разобраться во всей тематике поглубже, то есть университетский курс о компиляции нейронок от автора Apache TVM (.

Желаю вам приятного начала рабочей недели!

#ликбез
@ai_newz

Читать полностью…

эйай ньюз

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

В последние годы сложно найти сферу в ML где SOTA это не трансформер. Но у трансформера есть Ахиллесова пята - по компьюту он остаётся квадратичными. При маленькой длине контекста это не супер важно, но тренировать трансформеры с контекстом в миллионы токенов довольно дорого, так что идёт активный поиск архитектур на замену.

Основные кандидаты на замену сейчас это State Space Models (SSM) и так называемые Linear Transformers (которые в пейперах часто называют просто трансформерами, что неописуемо бесит). Где-то на фоне ещё есть перерождение RNN в виде RWKV и CNN в виде Hyena. Все они пока не могут победить механизм внимания в 100% случаев, там есть недостатки. О других архитектурах напишу как-то в другой раз, а сейчас речь зайдёт о линейном трансформере.

Основная идея линейного трансформера - апроксимировать поиск схожести между queries и keys. Происходит это пропуском queries и keys через какой-то предопределённый кернел и заменой квадратичных частей аттеншна простым суммированием. Из-за важности основной вектор улучшения этого семейства моделей - как раз в поиске оптимальной функции.

Тут появляется BASED - модель, которая использует квадратичную аппроксимацию экспоненты в качестве кернела. Это позволяет ей лучше справляться с задачами обучения в контексте, чем другие линейные модели. Но у BASED есть свои проблемы - она не очень хорошо игнорирует ненужные токены в длинных последовательностях.

И тут на сцену выходит ReBased - эволюция BASED. Ресерчеры из T-Bank AI Research провели анализ недостатков BASED и внесли несколько изменений, исправляющих недостатки. ReBased добавляет обучаемые параметры в кернел и нормализацию перед его применением. Это позволяет модели лучше адаптироваться к данным и эффективнее обрабатывать длинные последовательности. ReBased показывает результаты лучше BASED на задачах ассоциативного восстановления и языкового моделирования, особенно когда дело касается длинных контекстов.

Результаты вышли чуть хуже трансформера, но при этом модель бегает быстрее. Поиск продолжается, но подход интересный - статью на этой неделе презентовали на ACL - главной конференции по NLP в мире.

Пейпер
Код

@ai_newz

Читать полностью…

эйай ньюз

Пока у ChatGPT лаги, давайте поговорим о ненадёжных "сливах"

Всю прошлую неделю у меня комментарии, как и твиттер, ломились от 🍓🍓🍓. Один твиттер аккаунт наделал кучу предсказаний и ему поверило какое-то безумное количество людей. К примеру, на удалённой сейчас (вместе с аккаунтом) гитхаб репе с ридми и одним питон файлом было 1.5к звёзд.

Я к этому изначально относился скептически, а сейчас удостоверился что весь хайп с 🍓 - лажа. Давайте разберём почему, на примере двух конкретных предсказаний автора хайпа:

sus-column-r на арене - это модель от OpenAI на основе новых прорывов. В итоге оказалось, что это просто Grok-2 от XAI.

Релиз gpt-4o-large-0813 13 августа в 10 утра по Калифорнии. Тут всё просто. В 10 утра по Калифорнии была только презентация гугла, на которой я благополучно заснул. Так что обзора анонсов с презентации нет (как и интересных анонсов по тематике канала).

Напоследок хочу попросить не верить всяким рандомным грифтерам из интернета. Из относительно качественных аккаунтов (про слухи и слив) можете подписаться на Jimmy Apples, хотя там в последнее время был контент о том, как он проходил Red Dead Redemption 2. В остальном лучше читайте реальных ресерчеров, а не хайпожеров.

@ai_newz

Читать полностью…

эйай ньюз

Grok 2 - XAI Маска теперь на фронтире

Новая модель от XAI на уровне Claude 3.5 и GPT-4. Уже доступна пользователям X Premium.

Grok 3 уже тренируется на новом кластере XAI, ждём.

Блогпост

@ai_newz

Читать полностью…
Subscribe to a channel