ai_newz | Unsorted

Telegram-канал ai_newz - эйай ньюз

70254

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow

Subscribe to a channel

эйай ньюз

Самый большой open-source датасет для In-Context Reinforcement Learning – XLand-100B.

Продолжая тему In-Context Reinforcement Learning и конференции ICML. Недавно чуваки из AIRI (ex. команда из T-Bank Research) релизнули огромный (по меркам RL) датасет в 100 млрд токенов на основе XLand-MiniGrid – open-source аналог среды XLand от DeepMind.

В чем фишка среды и датасета – объясню на примере игры Minecraft:
Представьте, что каждый раз при запуске игры дерево крафта меняется случайным образом, и агенту нужно добыть сложный предмет. Это означает, что перед ним стоит задача: с помощью экспериментирования нужно открыть новую структуру дерева крафта с нуля. Но после того, как агент справился, ему не удастся применить накопленные знания к следующей игре – новое дерево крафта будет скрыто. Это заставляет агента адаптироваться, учиться на ходу и становиться более эффективными в исследовании новой среды. Именно на таком принципе сделан XLand-MiniGrid и отлично подходит для тестирования ICRL.

Но если погрузиться в литературу, то выясняется, что вообще-то открытых датасетов для таких моделей нет, а сами таски достаточно простые и тестируют тривиальную генерализацию.

В этой работе собрали датасет в нетипичных для RL масштабах, реализовали известные бейзлайны и показали, что он может использоваться для ICRL. Из интересного, нашли, что Decision Pretrained Transformer (DPT) сильно проигрывает AD. А сбор датасета занял всего (хе-хе) 50k A100 GPU-часов.

Если In-Context RL не ваша тема, то датасет можно использовать и для всяких других приставок: Offline RL, Multi-Task RL, Goal-Conditioned RL и т.д. В целом, кажется, что датасет должен позволить потрогать scaling-laws более широкому кругу ученых из разных областей близких к RL.

Авторы, кстати, сейчас расширяют команду и ищут стажеров развивать эту тему и дальше скейлить такие модели (и не только).

Если хотите получше разобратсья в RL, я на днях публиковал список ресурсов.

Пейпер
Код и датасет

@ai_newz

Читать полностью…

эйай ньюз

LMSYS релизнули матчапы GPT-4o mini на чатбот арене

После того как поднялся шум из-за результатов 4o mini на арене, авторы арены выложили huggingface space с 1000 рандомных матчапов 4o mini с другими моделями.

В спейсе можно сравнить 4o mini с оппонентами и отфильтровать по языку, модели и результату матчапа на арене.

Я немного полистал, такое ощущение что 4o mini просто даёт более детальные ответы относительно быстро. Людям влом всё это всё читать и они голосуют за 4o mini, не особо проверяют корректность. Произошёл DDOS. Но модель всё равно очень хорошая, просто слегка хуже чем можно подумать по результатам арены.

https://huggingface.co/spaces/lmsys/gpt-4o-mini_battles

@ai_newz

Читать полностью…

эйай ньюз

Если вы прочитали пост выше и ничего не поняли, то вот вам подборка курсов и материалов, чтобы вкатиться в Reinforcement Learning (RL).

1️⃣Библия Reinforcement Learning от Ричарда Саттона, хардкорная книга со всей базой.

2️⃣Курс по Deep Reinforcement Learning от HuggingFace, с практикой.

3️⃣Spinning Up in Deep RL - мини-курс от OpenAI. База за 3 часа, с кодом.

4️⃣Пример как в гугле обучали мультизадачных робо-руки с помощью Offline RL. Довольно старая статья, но это интересный и понятный кейс.

Вперед к новым знаниям!

#ликбез
@ai_newz

Читать полностью…

эйай ньюз

Слили список видео, на которых тренировали Runway GEN-3.

Спойлер: конечно же, там куча пиратского контента. Также выкачивали красивые блогерскик видео с Ютуба.

Хз, правда кого в 2024-м можно этим удивить.

404media ссылается на бывшего сотрудника, который слил целый документ со ссылками на избранные плейлисты и каналы в ютубе для парсинга видео в датасет. Кроме того, документ содержит ссылки на сайты с пиратскими фильмами.

Примечательно, что такие сливы обычно опираются на "чьи-то слова" и притянутые за уши примеры похожих генераций, а тут прям целый документ с конкретными ссылками и тегами.

Смешно, что до обращения 404media runway спокойно генерала видосы с именами Ютуберов в промпте, а сейчас говорят, отказывается работать, лол.

Интересно, чем этот скандал закончится. Я не удивлюсь, если и OpenAI тренились на видео из Ютуба, и поэтому сейчас они особенно боятся давать доступ к SORA (вы ещё помните, что такая была?).

Источник
Документ

@ai_newz

Читать полностью…

эйай ньюз

AlphaProof - нейросеть Google решает задачи с IMO (международной олимпиады по математике) на уровне серебряного медалиста

Модель идеально решила 4 проблемы из 6, набрав 28 баллов из 42. Для золотой медали нужно 29 баллов.

Подход концептуально относительно простой - зафайнтюненная Gemini переводит условие задачи в формат Lean (инструмент доказательства теорем такой). Дальше в дело вступает знакомый алгоритм AlphaZero, который научили решать формальные проблемы.

Если вы не знакомы с Lean и интересно что это такое - попробуйте natural numbers game, это прекрасное введение в Lean, которое прошёл даже Терри Тао.

Блогпост

@ai_newz

Читать полностью…

эйай ньюз

⚡️Файнтюним LLaMa 3.1 8B бесплатно в Google Collab

Принес вам колабчик от Unsloth-ai, в котором можно бесплатно зафайнтюнить LLaMa 3.1 8B и еще кучу других моделей в 4 bit. Всё дело влазит в 8GB VRAM. Вот блогпост об этом.

Если хотите, то можно и Llama-3.1 70b затюнить c помощью QLoRA – потребуется 48GB VRAM.

https://colab.research.google.com/drive/1Ys44kVvmeZtnICzWz0xgpRnrIOjZAuxp?usp=sharing

@ai_newz

Читать полностью…

эйай ньюз

Llama 3.1 405B, квантизированная до 4 бит, запущенная на двух макбуках (128 гиг оперативки у каждого). Возможно это с помощью exo - тулы, позволяющей запускать модельку распределённо на нескольких девайсов. Поддерживаются практически любые GPU, телефоны, планшеты, макбуки и почти всё о чём можно подумать.

Запустить ламу на домашнем кластере

@ai_newz

Читать полностью…

эйай ньюз

Доступные для скачивания модели LLaMa 3.1

Pretrained:
Meta-Llama-3.1-8B
Meta-Llama-3.1-70B
Meta-Llama-3.1-405B
Meta-Llama-3.1-405B-MP16
Meta-Llama-3.1-405B-FP8
Fine-tuned:
Meta-Llama-3.1-8B-Instruct
Meta-Llama-3.1-70B-Instruct
Meta-Llama-3.1-405B-Instruct
Meta-Llama-3.1-405B-Instruct-MP16
Meta-Llama-3.1-405B-Instruct-FP8
Llama-Guard-3-8B
Llama-Guard-3-8B-INT8
Llama-Guard-2-8B
Llama-Guard-8B
Prompt-Guard-86M

Примечание для 405B:
Выпустили несколько версий модели 405B, чтобы уместить ее большой размер и обеспечить различные варианты деплоя:
– MP16 (Model Parallel 16) - это полная версия весов BF16. Эти веса можно деплоить только на нескольких нодах с использованием pipelined parallel инференса. Минимально требуется 2 ноды с 8 GPU для деплоя.
– MP8 - это также полная версия весов BF16, но может быть задеплоена на одном ноде с 8 GPU с использованием динамического квантования FP8 (Floating Point 8). Выложили код для этого.
– FP8 (Floating Point 8) - это квантованная версия весов. Эти веса можно деплоить на одном ноде с 8 GPU с использованием статической квантования FP. Есть код и для этого.
– Модель 405B требует примерно 750 ГБ и минимум двух нод (по 8 GPU) для инференса в MP16.

@ai_newz

Читать полностью…

эйай ньюз

Сравнение 3.1 с 3.0, бенчмарки заметно подросли, за счёт дистилляции 405B в модели поменьше.

@ai_newz

Читать полностью…

эйай ньюз

Знаю, что многие из вас интересуются не только ресерчем, но и AI с продуктовой точки зрения.

Поэтому, вот, ловите список книг для вкатывания в тему, где сливается AI и бизнес: /channel/ainastia/23

#книги
@ai_newz

Читать полностью…

эйай ньюз

XAI построили крупнейший тренировочный кластер в мире

Но самый большой построенный не значит самый большой работающий. Питаться кластеру пока что не от чего: из рассчитанных 200 мегаватт, в датацентр поступает всего лишь 7. То есть из ста тысяч GPU работает примерно четыре тысячи. В начале следующего месяца ситуация должна поправиться - подстанция, питающая датацентр заработает на полную. Это даст на него 50 мегаватт и позволит выйти на уровень производительности одного из двух кластеров, которые Meta запустила в марте. Полностью запустить кластер удастся только в конце этого года/начале следующего.

Затык в тренировке ИИ всё больше и больше не в чипах, а в энергии. Это приведёт в ближайшие годы к куче странных феноменов: мы всё больше будем видеть компании, сбрасывающие GPU прошлого поколения за бесценок, просто потому что их нечем питать. Так и в реакторы синтеза от Альтмана начинаешь верить.

Кажется, Grok 3 всё-таки релизнется по Elon time, а не в декабре

@ai_newz

Читать полностью…

эйай ньюз

Принес вам сборку компьютера для Deep Learning в 2024, и рассказ о работе ML инженера

Еще можете глянуть забавное видео "День из жизни ML инжинера (в маленьком стартапе)", откуда я и взял эту сборку.

По стоимости комп вышел $3900, не учитывая Nvidia RTX 4090 24GB, которая сейчас стоит примерно $1800. Итого $5700 (но это в Америке). Такой машины хватит, чтобы файнтюнить большинство СОТА моделей и гонять инференс почти всего что есть в опенсорс с достойной скоростью.

Самое важное что чел в видео сказал, так это то что на построение самой модели у него как у ML инженера уходит не так много времени, и большую часть времени они заняты данными. Думаю это особенно актуально для малкньких стартапов, где обычно нет moat в плане моделей, но есть премущество в том, что они затачивают существующие модели под эффективное решение определенных задач. В условном Mistral архитектурой модели, я уверен, тоже не так много людей занимается, и очень много ресурсов уходит именно на "правильную готовку" данных.

Делитесь своими сборками для Deep Learning в комментах.

#карьера
@ai_newz

Читать полностью…

эйай ньюз

Через 40 минут начинаем стрим!

Присоединяйтесь, и накидывайте вопросы (про учебу, ресерч, карьеру в AI, и на смежные темы) в комменты под этим постом.

@ai_newz

Читать полностью…

эйай ньюз

🔥На прошлой неделе нас стало 50.000!
В воскресенье будет стрим!


Это крутая отметка, мне очень приятно, что вам нравится мой контент, и вы меня регулярно читаете. Спасибо, друзья! 🤗

Чтобы отпраздновать, в это воскресенье я хочу провести стрим с 16:00 до 17:00 CET.

Мне задают много вопросов про то, как прокачивать свои навыки в AI, в какую магистратуру пойти или как выбрать научную группу для PhD. Про все эти темы плюс про вопросы по карьере в AI ресерче, собеседования и поиск работы поговорим на стриме!

А пока пишите в комментах свои вопросы.

Добавляйте себе в календарь: инвайт.
Буду рад вас увидеть в воскресенье!

@ai_newz

Читать полностью…

эйай ньюз

Пользователям GitVerse стали доступны инструменты разработки и СУБД корпоративного уровня от СберТеха

СберТех открыл для разработчиков доступ к продуктам цифровой облачной платформы Platform V. Пользователи платформы для работы с исходным кодом GitVerse могут воспользоваться следующими инструментами:

- Работа с задачами для публичных и приватных репозиториев с настройкой полномочий и привилегий. Инструмент основан на базе решения для командной работы и управления жизненным циклом целей и задач Platform V Works: Task Tracker.

- Публикация релизов и хранение пакетов. Разработчики смогут управлять релизными версиями проекта и цифровыми артефактами, а также хранить и публиковать пакеты для различных языков программирования. Инструменты основаны на базе решения для управления репозиториями Platform V Works: Artifactory.

Кроме того, продолжается акция, в рамках которой пользователям GitVerse доступен бесплатный годовой пакет облачных сервисов. В этом же пакете разработчикам стала доступна СУБД Platform V Pangolin.

Подробности и правила акции, а также регистрация — на сайте платформы.

#промо

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#28)

Жаркая выдалась неделя, такая же как погода за окном. Кстати, давно трогали траву?

LLM
- LLama 3.1 вышла из клетки - Meta выпустила новую версию на 8B, 70B и долгожданную 405B! Контекст теперь 128к токенов. Ждем, когда простые смертные смогут потыкать палочкой в 405B версию на домашнем железе, лол.
- Llama 3.1 405B теперь самая дешевая топовая модель - API провайдеры предлагают токены по $3 за миллион. Дешевле только даром.
- Квантизированная Llama 3.1 405B на двух макбуках - Запустили 4-битную версию на двух макбуках. Не ну вот это я понимаю chatgpt для народа.
- Файнтюним LLaMa 3.1 8B бесплатно - Теперь можно тюнить модель в Google Colab, процесс влезает в бесплатные лимиты. Идеально для тех, кто хочет почувствовать себя настоящим ИИ-инженером и запилить что-нибудь под себя.
- GPT-4o mini покаряtт олимп chatbot arena - малышка забралась подозрительно высоко. OpenAI, кажется, перестаралась с тюнингом для бенчмарков.
- Позже LMSYS выложили матчапы GPT-4o mini на арене - Кажется что люди голосуют за него, потому что лень читать длинные ответы других ботов.
- OpenAI запустили поиск - Временный прототип с выдачей ссылок на источники.
- AlphaProof решает олимпиадные задачи - Нейросеть Google набрала 28 из 42 баллов на IMO (это такая олимпиада по матеше).Внутри Lean и AlphaZero.

Генеративные модели

- Kling AI вышел в массы - Китайский генератор видео теперь доступен всем. Ждем наплыва шедевров от диванных режиссеров.
- Убийца Kling, генератор видео Qingying - Генерирует 6-секундные видео за 30 секунд. Качество среднее но тоже живенько.
- Слили список видео для тренировки Runway GEN-3 - Оказалось, что там куча пиратского контента и ютуб-блогеров. Никогда такого небыло и вот опять.

Подборки курсов
- Подборка курсов по Reinforcement Learning - Для тех, кто хочет понять, как научить ИИ играть в видеоигры лучше вас. Хотя с нашими клешнями это не так сложно.
- Список книг по AI и бизнесу - Для тех, кто хочет не только кодить, но и зарабатывать на ИИ. Темщики на месте?

Всякая-всячина
- In-Context Reinforcement Learning - Новый метод позволяет ИИ адаптироваться к новым типам действий на лету. Ждем что боты в играх будут учиться новым приемам прямо во время матча и вдогонку.
- ПК для Deep Learning в 2к 24 - Принесли дорогующу сборку за $5700, чтобы файнтюнить СОТА модели.
- Билеты на ECCV - Я купил билеты на топовую конференцию по компьютерному зрению в Милане. Буду организовывать тусу!
- XAI построили крупнейший тренировочный кластер. Он настолько большой, что на него не хватает электричества. Прикольно как теперь энергия стала главной проблемой, а не чипы.


> Читать дайджест #27

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

Вышел убийца Kling! Генерит за 30 секунд!

Ну почти...
Тут чуваки из Zhipu AI (это AI-стартап, китайский аналог Open AI со своим блэкджеком и ChatGPTGLM) выпустили свою Sora. Штука генерит 6-секундные видео за 30 секунд, что ну очень быстро, согласитесь (в Клинге я ждал больше часа, у Лумы 5 сек генерится 2 минуты). Так быстро работает, насколько я понял, из-за их хитрого 3D автоэнкодера, который сжимает представление видео в latent space до 2% от оригинального размера.

Вот промпты для видосиков из примера с голливудской адаптацией на английский язык от Google переводчика:

In a lush forest, some sunlight shines through the gaps between leaves, creating a Tyndall effect, giving the light shape.

When the tsunami roared in like a raging monster, the entire village was instantly swallowed up by the sea, just like a classic scene in a doomsday movie.

In the neon-lit city night scene, a little monkey full of cyber beauty holds high-tech tools and repairs equally flashing, futuristic electronic equipment.

Changing the style of painting, the kitten opened its mouth wide, showing a human-like confused expression, with question marks written all over its face.


Остальные без инструкций, так, для примера.

Качество ну не синематик, видно, что тренили на стоках и каких-то странных китайских видео. Назвали Qingying или Ying. Пока кредиты безлимитные. Я хотел потестить, но похоже, мы снова столкнулись с новым феноменом: paywall по-китайски. Опять нужен китайский номер :( Может, у кого из вас выйдет вот ссылка.

Источник
Пытаемся вломиться здесь

@ai_newz

Читать полностью…

эйай ньюз

In-Context Reinforcement Learning for Variable Action Spaces (ICML 2024, T-Bank AI Research и AIRI)

In-context learning - это способность больших языковых моделей (LLM) выполнять новые задачи, основываясь на нескольких примерах, предоставленных в промпте, без необходимости дополнительного обучения или файнтюнинга параметров модели. ChatGPT или LLaMa 3.1 так умеет, описываете пару примеров в запросе, и задача решается (например, задача классификации настроения).

А есть ли что-то аналогичное для  Reinforcement Learning? Например, я показываю боту несколько примеров, как играть в новую игру на PS5, и он проходит всю игру сам после этого. Ну вот такого еще особо нет, но мы (как комьюнити AI ресерчеров) к этому стремимся, пока на более простых задачах.

В 2022 году в DeepMind-е представил метод под названием Algorithm Distillation. Суть метода в том, чтобы "перегнать" алгоритмы обучения с подкреплением (RL) в нейронку на базе трансформера. Вот как это работает:

1. Сначала обычный RL алгоритм учиться решать разные задачи.
2. Вся история его обучения записывается - состояния, действия, награды.
3. Затем эту историю обучения "скармливают" трансформеру, который учится предсказывать действия агента. То есть получают условный ChatGPT, который работает на траекториях действий агента и выдает следующее действие.

Самое интересное, что получившийся трансформер может сам решать "новые задачи" обучения с подкреплением, причем иногда даже лучше, чем исходный алгоритм. И делает он это "на лету", не меняя свои веса. "Новые задачи" я взял в кавычки, потому что реальной генерализации там не было, и модель училась решать только задачи, очень похожие на те, что ей показали во время обучения (например, находить заданную клетку на 2D поле размером 9x9, как в бенчмарке DarkRoom) и список доступных действий после завершения обучения менять нельзя. То есть если бота в Doom2 учили только убегать от монстров, то стрелять по ним он уже не сможет, даже если показать ему пример такой последовательности действий.

В свежей статье "In-Context RL for Variable Action Spaces" с ICML 2024 парни улучшили метод Дипмайнда так, что бы он мог на лету адаптироваться к гораздо бóльшим изменения условий решаемой задачи. Например они позволили модели работать с новыми типами экшенов во время теста, причем их может быть в разы больше чем во время трейна. Модель по заданному контексту (история взаимодействия с окружением) понимает какой смысл имеет каждое новое действие и может их использовать.

В качестве трансформера, в который кормится контекст с последовательностями действий, ревордов и состояния мира, тут использовали архитектуру TinyLLaMA с 1.1 млрд параметров. [Мне это кажется небольшим перебором, учитывая какие простые задачи ей решались, но в наше время 1 млрд параметров – это уже считается моделью-крошкой.] Технический трюк был в том, чтобы не учить трансформер работать с фиксированными экшенами, а представлять их на входе случайными ортогональными векторами. Таким образом новые действия всегда можно представить новыми векторами, а на выходе модели получать эмбеддинг и выбор действия делать, используя nearest neighbour вектор из доступных действий.

В этой работе, конечно, тестили только простенькие задачи вроде однокурих бандитов и движения по 2d лабиринту, где метод показывал хорошую генерализация. Ожидаю, что в будущем вы увидим и более сложные задачи, которые будут решаться через in-context learning в том или ином виде. Без этого роботам за нами будет не угнаться 🔫.

@ai_newz

Читать полностью…

эйай ньюз

OpenAI запустили превью своего поиска!

Это временный прототип, функции из которого планируют интегрировать в обычный ChatGPT. Поиск будет давать ссылки на источники. Ему можно будет задавать наводящие вопросы.

Отмечают, что они работают с издателями и криейторами чтобы лицензировать их контент. Это важно, ведь текущий лидер по ИИ поиску Perplexity (я, кстати, и сам им пользуюсь), недавно попал в скандал из-за игнорирования robots.txt.

Моя догадка: Скорее всего они будут покупать поисковые запросы у Бинга.

Записаться в вейтлист


@ai_newz

Читать полностью…

эйай ньюз

Эта арена сломалась, несите новую

Что-то GPT-4o mini слишком высоко на арене. Видимо, OpenAI начали слишком сильно тюнить модели для арены (если кто не знал, lmsys публикует 20% чатов, которые случаются на арене, OpenAI этого было достаточно). Что ж, закон Гудхарта в действии.

Кстати, с последнего раза, когда я писал об арене, топ-1 опенсорс модель успела смениться несколько раз. Сначала Nemotron 340B от Nvidia обошёл Llama 3.0 70B, после этого его уже обскакала Gemma 2, а сейчас лидирует новая версия DeepSeek V2. Llama 3.1 там ещё нет, но результаты должны быть уже скоро.

Узнать подробнее, что за Арена можно в этом посте.

@ai_newz

Читать полностью…

эйай ньюз

День за днём новости все жарче!

Kling раскатили на весь мир. Регистрация просто по почте. Ожидаются кратковременные лежащие сервера. Хотя интересно как китайцы подготовились к наплыву.

В бесплатном режиме каждый день дают кредитов, которых хватит чтобы сгенерить 6 видео.

Бегом тестить на klingai.com

@ai_newz

Читать полностью…

эйай ньюз

Первые API провайдеры начали предлагать Llama 3.1 405B в своих сервисах. И это теперь самая дешёвая фронтирная модель!

fireworks.ai продаёт токены по цене в $3 за миллион и input и output токенов (у 3.5 Sonnet - $3 input/$15 output, 4o - $5 input/$15 output). При этом цена может упасть ещё больше, по мере того как провайдеры конкурируют друг с другом.

Ждём чтобы context caching и batch API предоставляло больше провайдеров

@ai_newz

Читать полностью…

эйай ньюз

А вот сравнение моделей с конкурентами. У нас теперь есть модель уровня GPT-4o, которую могут скачать простые смертные (те, у которых есть одна нода 8xGPU). Ждём результаты с арены и вайбчеки от обычных юзеров.

@ai_newz

Читать полностью…

эйай ньюз

Meta выпустила Llama 3.1

Версии на 8B, 70B и наконец на 405B!

https://llama.meta.com/

@ai_newz

Читать полностью…

эйай ньюз

Апдейт: кластер хоть запитан не весь, но работает там сильно больше GPU, чем можно подумать по его потреблению из электросети. А именно ~32 тысячи H100, треть кластера.

Секрет успеха - генераторы, которые подвезли прямо к кластеру. Если количество генераторов останется константным, то в августе может заработать уже больше половины кластера.

@ai_newz

Читать полностью…

эйай ньюз

Купил билеты на ECCV, которая пройдет в конце сентября в Милане.

European Conference on Computer Vision или ECCV – это топовая конференция по компьютерному зрению. Она проходит раз в два года, обычно в Европе. Но 2020 она конфа была в Израиле, мне тогда там очень понравилось (пост1, пост2).

Билеты в кармане, так что теперь я точно в деле! Будем устраивать тусы, как я обычно это делаю на конференциях.

Ведь одна из основных целей посещения конференций для меня, если не самая главная – это нетворкинг (пост про это)!

Кто-то из вас тоже планирует поехать?

#конфа
@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#27)

LLM
- Suck Up! Игрушка, где нужно обмануть нпс с прикрученной ллм.
- MobileLLM. Мощнейший способ оптимизировать модельки под мобилы.
- MathΣtral и Codestral Mamba Свежий подгон от Mistral для матеши и кода. Правда последняя сыпется после пары тысяч токенов. И еще вот мем обзор.
- NeMo. Еще один релиз Мистраль - мини (на 12B лол) мультиязычная модель.
- GPT-4o mini. Супер дешевая и эффективная модель, эх ушла эпоха gpt 3.5
- Claude for Android. Простенькое приложение для мобилок.

Гайды

- Workspace Labs. Гугл начали раскатывать представленные на последней презентации фичи.
- Воркшопы Nvidia. Гайды ну прям для самых прошаренных, так как обойдутся в копеечку. Но зато какая там инфа!
- Очередной ШЭДЭЭВР от Эндрю Ына. Небольшой курс по промпт-инжинирингу LLaMa для самых маленьких.

Прочее
- CloneRobotics. Терминатор все ближе, поляки строят анатомически точный клон человека, пока есть только рука.
- Виртуальный аватар с нейрорендером. Чел прикрутил геймпад от плойки к простенькой 3д модельке персонажа и прогнал через img2img.
- PixArt 900M 1024x1024. Расширенная txt2img модель. Интересно, как стакают слои в DiT диффущиях. Радует, что опенсорс не стоит на месте.

Я провел юбилейный стрим в честь 50К, посвещенный учебе и карьере в AI.
Релевантные посты, про которые я говорил на стриме:
– Как я запромоутился на Staff Research Scientist (тык)
– Инженерные грейды в Big Tech (ч1)
– Инженерные грейды в Big Tech (ч2)
– Как я вкатывался в AI:
Часть 1
Часть 2
– Что я делал в первые месяцы PhD (из письма от моего научника)
– Нетворкинг или как я познакомился со свом интерн-менеджером из Faсebook (тык)
– Мои ресерч проекты на стыке Истории Искусств и Computer Vision (тык)

> Читать дайджест #26

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

Новая t2i модель – PixArt 900M 1024x1024

На HuggingFace появилось новая модификация DiT на базе PixArt-Σ.

Что за она?
Оригинальная модель Pixart-Σ - это DiT с 28 слоями, которая имеет 600 M параметров в сумме. Умельцы взяли эту модель и прикрутили к ней еще 14 слоев (наверное, тупо добавили в конец). В итоге получили модель с 42 слоями и 900 M параметров. Далее это все дообучили на датасете с 3.5 млн картинок, причем первые 28 слоев инициализировали весами Pixart-Σ.

В датасете были генерации из MJ-6, DALLE-3, аниме и профессиональные фотографии. А тюнили все всего лишь на 8xA100.

Результаты:
На реддите модель хвалят, кто-то даже говорит, что для него она лушче чем SD3. Я потестил Pixart-Σ 600M против PixArt 900M на нескольких промптах cfv. Почти везде Σ лучше чем версия 900 M, кроме может быть аниме. На картинках слева - Σ, справа - PixArt 900M, промпты оставлю в комментах.

Модель еще очень сильно недотренирована, контуры обектов часто не очень четкие, детализация тоже еще не очень высокая. Что-ж, ждем новых версий тюна.

Я думаю, что учить с нуля было бы лучше, но так как это опенсорс, то все на энтузиазме, ресурсов мало, и поэтому придумали такой дешманский метод, чтобы расширить размер модели.

Веса:
- Базовая модель: https://huggingface.co/terminusresearch/pixart-900m-1024-ft-v0.5
- Файнтюн (его еще продолжают тренировать): https://huggingface.co/ptx0/pixart-900m-1024-ft-v0.7-stage2

Demo на обнимающем лице

@ai_newz

Читать полностью…

эйай ньюз

У Claude наконец-то есть приложение на Android!

Я попробовал, вышло максимально базово - поддержку Artifacts, к примеру, не завезли. У OpenAI приложение пока что на голову лучше, но они и выпустились на год раньше, было время развить до хорошего состояния.

Приложение в Play Market

@ai_newz

Читать полностью…

эйай ньюз

Сони-бои, руки на стол!

Зацените прикольный юзкейс. Можно управлять свом аватаром джойстиком, чтобы бегать по метаверсу прямо со своей приставки что ли.

Это все, конечно, не в риалтайме. Фильтр на красивое лицо и face animation сделан в постобработке (хотя можно было сделать риалтайм, используя, например, Imagine Flash или sdxl lightning и толстую видеокарту).

Но выглядит интересно. Давайте проголосуем и сделаем наши предсказания.

Нейро-рендер в играх – наше будущее?
👍 - да
🫡- нет

@ai_newz

Читать полностью…
Subscribe to a channel