Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow
GPT-4o mini
Наконец-то замена GPT-3.5, которой давно пора на пенсию. Новая модель заметно дешевле - всего 15 центов за лям токенов на вход и 60 на выход (по batch API в два раза дешевле). При этом обходит всех современных конкурентов (Gemini 1.5 Flash, Claude 3 Haiku). Но они не сидят на месте - Anthropic уже пообещали выпустить 3.5 Haiku, плюс на днях были следы готовящегося релиза Gemini 2.0.
У большинства юзеров ChatGPT доступ должен быть уже сегодня, у энтерпрайз клиентов - на следующей неделе.
За пару часов до релиза анонс утёк вообще во все СМИ, но я решил подождать официального анонса
Блог
@ai_newz
Курс по промпт-инжинирингу для моделей семейства LLaMa
Мета заколлабилась с командой Эндрю Ына и выпустили короткий курс (1ч), который разбирает best-практики по промтингу LLaMa 2,3 и CodeLLaMa, включая few-shot, chain-of-thought, и другое.
Курс подойдёт именно для начинающих. И нет, 300к/сек после него вы поднимать не станете.
What you’ll do:
1. Learn best practices for prompting and selecting among the Llama 2 & 3 models by using them as a personal assistant to help you complete day-to-day tasks.
2. Experiment with advanced prompt engineering techniques, like few-shot prompting to get Llama 2 to classify the sentiment of text messages, and chain-of-thought prompting to solve logic problems.
3. Treat Code Llama as a pair programming partner to both learn to write and improve code.
4. Promote safe and responsible use of LLMs by having Llama Guard check user prompts and model responses for harmful content.
Мои опасения по поводу Codestral Mamba пока подтверждаются - похоже, моделька начинает сыпаться уже через пару тысяч токенов контекста. Тест простейший - в файле с кучей функций, нужно вызвать функции с фруктом в названии (apple, banana, etc.).
@ai_newz
Вакансии: Senior AI Engineer на Кипре
В рамках одного из крупнейших недетских проектов, связанных с искусственным интеллектом, открыты две уникальные вакансии на Кипре:
1. Senior AI / ML Engineer — тренировать и тюнить LLM-ки.
2. Senior AI Image Generation Engineer — тюнить text2image модели.
Мы ищем опытных специалистов в области больших языковых моделей (LLM) и генеративных алгоритмов.
Есть довольно много компьюта (фермы на A100, H100), можно ещё легко отскейлиться, если будет надо. Инференс на собственных L40s.
Эти позиции предполагают релокацию на Кипр и предлагают конкурентоспособные условия:
- зп у сеньоров 6000 – 10000 евро
- плюс полный пакет преимуществ и интересные задачи.
Кроме того, что на острове приятно жить, Кипр славится своим развитым IT-сообществом и очень мощной тусовкой IT профессионалов.
Если вы уверены в своих силах и готовы к новым вызовам, ознакомьтесь с подробностями вакансий по ссылкам ниже и свяжитесь с указанными контактами.
- [Senior AI / ML Engineer]
- [Senior AI Image Generation Engineer]
#промо
Андрей Карпатый основал компанию, которая занимается ИИ образованием
Eureka Labs будет школой, созданной с учётом ИИ. Преподаватели всё ещё будут создавать курсы, но помогать ученикам продвигаться по ним будет специализированный AI Teaching Assistant. Первый продукт компании - LLM101n, курс про тренировку ИИ моделей, я о нём уже писал.
Иллюстрированный букварь для благородных девиц становится всё ближе и ближе. Сложно представить человека, лучше подходящего для его создания, чем Карпатый.
Сайт компании
@ai_newz
Зацените детище CloneRobotics!
Ребята из Вроцлава не спят и пилят своих адройдов. Выглядит крипово и прекрасно одновременно. Каждая мышца выполнена так, чтобы в точности повторять анатомию человека. Там даже учебник на одном из видосов мелькает.
Двигается пока не очень человечно, но ребята в конце 23-го года захантили к себе ML-щиков всех мастей и верят, что путь к AGI идет через полное клонирование человека, сначала анатомически, а сейчас вот учат повторять за человеком механически.
Правда, гляньте видос внизу, какая там бандура управляет одной рукой. В гуманоида такого не засунешь, но чуваки работают. Выглядит многообещающе, а то надоели эти бесполезные клешни. Все-таки оттопыренный пятый палец поставил человека на вершину пищевой цепи 🤙
ещё про роботов, андройдов и агентов
@ai_newz
ИТМО занял 51 строчку мирового топ-100 QS World University Rankings, в категории “Data Science & AI”.
Крупнейшая магистратура по искусственному интеллекту ИТМО – AI Talent Hub продолжает набор на 200 бюджетных мест программы «Искусственный интеллект».
▪️ Учись онлайн у лучших практиков из Яндекс, Sber AI, Napoleon IT, Ozon, MTS AI, AIRI;
▪️ Самостоятельно собери программу обучения из 80+ дисциплин;
▪️ Реализуй 4 проекта с реальными бизнес-кейсами;
▪️ Участвуй в воркшопах, хакатонах, проектных семинарах;
▪️ Стань частью крупнейшего AI комьюнити
📥 Для участия в конкурсе на бюджет, рекомендуется подать заявку до 20 июля: ai.itmo.ru
AI Talent Hub — магистратура, созданная университетом №1 рейтинга Альянса ИИ по подготовке AI-специалистов — ИТМО и AI-компанией Napoleon IT.
Реклама. Университет ИТМО ИНН:7813045547
#промо
Нейродайджест за неделю (#26)
LLM
- Context Caching в массы. Новая фича от Google зашла и другим провайдерам, теперь адаптируют.
- Grok 2 на подходе. Маск, как всегда, тизерит золотые горы gpu, ну а тем временем вторая версия LLM уже тюнится.
- Flash Attention 3! Всякие ускоряшки и улучшалки.
- Доходы OpenAI. Они, конечно, хайпуют, но денег, как оказалось, не так уж и много...
- Варим GPT-2 🗿. Гайд от Карпатыча о том, как натренировать свою LLM за 500 баксов.
- Системный промпт для Claude Sonnet 3.5. Работает лучше, чем джун в 90% случаев. Сори, пацаны, я с вами.
GPU
- Nvidia все также поставляет ГПУ в Китай, несмотря на запреты. Как кожанка умудрился это провернуть и подробности про новую линейку.
- Набор инструкций для H100 и 4090. Теперь проще оптимизироваться код под конкретные архитектуры нейронок.
Генеративки
- Новый геймдев от PhysDreamer. Или как создавать миры в риалтайме.
- Видеогенерация от нового стартапа Odyssey. Обещают супер контроль над картинкой для Голливуда, благодаря 4-м отдельным моделям для света, текстур, моушена и геометрии.
- Как контролировать стиль в MJ, как это реализовано (IP-Adapter) и небольшой ликбез по волшебным кнопкам MidJourney.
Прочее
- Задачки по ML. Готовимся к собесу AI Coding с этими сайтами.
- Правки в законе, регулирующем большие модели в США или о страшном сне опенсорса. Движемся в верном (нет) направлении, и все еще есть вопросики.
> Читать дайджест #25
#дайджест
@ai_newz
Апдейт по SB 1047 - Калифорнийскому законопроекту для регуляции ИИ
TLDR: прямую угрозу маленьким разработчикам пока убрали, но большой опенсорс это не спасёт. И всё ещё возлагает ответственность на автора модели, а не на пользователя.
Авторы SB-1047, о котором я писал в мае внесли ряд правок. Тогда законопроект был настолько плохо написан, что против него протестовали даже Anthropic. Я прочитал поправки, вот суть:
➖ Убрали пункт где под ограничения подпадали модели "схожие по возможностям к моделям подпадающим под закон". Это был самый адовый пункт, который в лучшем случае заморозил бы опенсорс на уровне 2024 года, а в худшем мог бы запретить практически любую тренировку.
➖ Регулировать собираются модели которые тренировались на 1e26 flops и более чем ста миллионах долларов компьюта. То есть сейчас, когда 1e26 стоит $150-300m, под ограничение подпадают модели с 1e26 flops. Через год-два, когда компьют подешевеет, будут подпадать только модели которые стоят дороже ста миллионов долларов.
➖ Улучшили ситуацию с ответственностью разрабов моделей за файнтюны - теперь модели, которые тюнили на более чем 3e25 flops считаются новыми моделями, создатели оригинала не ответственны за их действия.
➖ Все суммы в законопроекте теперь указаны в долларах 2025 года и будут поправляться на инфляцию.
➖ Добавили кучу возможных штрафных санкций, например штраф на сумму до 10% стоимости компьюта использованного для тренировки модели.
➖ Созданный орган контроля сможет менять определения моделей подпадающих под контроль каждый год без необходимости проводить новый закон. То есть, теоретически, 1 января 2027 года регулятор имеет право запретить всё что ему вздумается. Ни разу не пространство для regulatory capture, да-да.
➖ Разработчики моделей теперь будут должны каждый год, начиная с 2028 проходить независимый аудит на соответствие регуляциям.
Стало местами лучше, но законопроект всё ещё лажа:
🟥 Идея ответственности разработчиков моделей за использование моделей крайне плохая и опасная. По такой логике можно заявить что Боинг ответственен за события 11 сентября 2001 года.
🟥 Определение "Critical harm", которое в законе даёт право регулятору накладывать штрафные санкции, вплоть до удаления модели, очень жёсткое: хакерская атака на 500 миллионов долларов это не такой редкий случай, а в законе не указано насколько сильно модель должна ей поспособствовать.
🟥 Давать регулятору право решать что всё таки является его зоной контроля это очень плохая идея.
Самое смешное тут то, что авторы законопроекта проводили ряд публичных встреч, где говорили что хотят сделать менее драконовский закон чем European AI Act. Такое ощущение что даже не пытались.
@ai_newz
Я обычно не выкладываю промпты. Но вот что-то последнее время попадается на глаза красота с использованием стилевых кодов для MJ. Заодно и расскажу, как это работает на уровне имплементации.
Что такое эти стилевые коды?
Кроме текстового промпта на вход можно подать ссылку на референсную картинку (или несколько), в стиле которой и будет финальная генерация. Почти наверняка это работает на базе IP-Adapter – это штука, которая позволяет дотюнить диффузию так, чтобы кроме текстового промпта на вход можно было также подавать референсную картинку. Это может использоваться как для генерации нескольких картинок в одном стиле, так и для консистентности персонажа. Картинка преобразуется в вектор с помощью CLIP, который затем скармливается в продублированные с помощью LoRA cross-attention блоки в каждом слое трансформера (в случае DiT или SD3) или в соответствующих слоях Unet.
Так вот, самые интересные стили могут быть "закешированы" на сервере в виде векторов, которым назначены номера. Затем эти стили можно легко и быстро переиспользовать, если известен номер. Это и делает аргумент --sref <код-стиля> после промпта в MJ.
Вот моя подборка таких sref кодов (по номерам картинок в посте):
1. --c 8 --sref 4158384349 --p --s 1000 --ar 1:1
2. --sref 340668170
3. --sref 981744181
4. shot, underwater --c 30 --ar 2:3 --sref 981744181 --p --s 500
5. --sref 3677111049 {--style raw}
6. --sref 885020885 --style raw --ar 2:3 --sw 200 --stylize 300
7. --sref 1693082081
Коды, кстати, можно мешать и даже выставлять веса для каждого через ::
. В этом случае эти закешированные вектора линейно интерполируются. А параметр --sw 0-100
меняет вес всего стиля (style weight). Ну, и небольшой промптинг для полировки всё-таки может понадобиться.
Больше стилей и кодов к ним можно посмотреть в этой галлерее: midjourneysref.com
@ai_newz
Держите два сайта с наборами задач для тренировки ML. Задачек пока что немного — около пятидесяти в сумме на оба сайта.
На позиции Research Scientist и Research Engineer есть такой тип интервью, который называется AI Coding, и я такие в том числе тоже провожу. Часто там задачи просто алгоритмические, как на LeetCode, но бывают и более близкие к AI/ML, такие как представлены на этих сайтах. В общем, сохраняйте для подготовки к AI coding собеседованиям.
https://www.deep-ml.com/ - тут всё нужно делать с нуля, на чистом питоне
https://tensorgym.com/exercises - тут можно использовать торч
#interviews
@ai_newz
GPT-2 (1.6B) за 24 часа и всего $672
Карпатый затвитил, что примерно 5 лет назад анонсировали GPT-2. Тогда на тренировку этой модели у OpenAI ушло целых ~$100,000.
Сейчас же, чтобы воспроизвести те результаты потребуется одна нода 8XH100 на 24 часа, что обойдется вам в районе $500-$672.
Карпатый показывает как это легко и дешево сделать на его минималистичном llm.c в 5000 строк кода:
https://github.com/karpathy/llm.c/discussions/677
Далее у Андрея в планах заимплементировать операции в fp8, файнтюнинг, мультимодальность и заонбордить на llm.c более современные архитектуры вроде LLama и Gemma.
Приятно наблюдать, как за 5 лет стоимость обучения модели упала аж в 150-200 раз, благодаря улучшению технологий и, конечно, ускорению железа. Так и до GPT-3 на рисоварке действительно недалеко!
@ai_newz
Вышел Flash Attention 3!
На этот раз специально оптимизировали под H100 и H800.
Для FP16, достигает ускорения в 1.6x-2.0x по сравнению с FA-2! Особенно большой прирост заметен, когда побольше размерность голов в аттеншен, например 128 или 256. Очередной разрыв!💥
Статья
Блог
Код
@ai_newz
Наверняка вы играли в Pac-Man или просто слышали об этой культовой игре
Так вот, ребята из Cloud․ru сравнили процесс внедрения облака с этой ламповой аркадой и запустили собственную мини-версию игры. А еще турнир, в котором можно выиграть классные призы. Рассказываем.
Тебе предлагается примерить на себя роль Cloud-Man’а. Твоя миссия — помочь клиенту избавиться от устаревших on-premise решений и перенести его инфраструктуру в облако. Помогут выполнить миссию крутые бусты — преимущества облачной платформы Cloud․ru Evolution.
Участвуй в турнире до 28 июля включительно. Трех участников, которые наберут наибольшее количество очков, ждут:
• до 100 000 бонусных баллов (= рубли) на все сервисы Cloud․ru Evolution;
• толстовка с принтом игры каждому финалисту.
Играть в Cloud-Man
#промо
Не прошло и недели, а у Mistral новый релиз!
Новую "малую" модель NeMo тренировали совместно с Nvidia. У неё 12 миллиардов параметров, 128k контекста, инференс в fp8 без потери в качестве. Модель сделана так, чтобы влезала в 4090.
NeMo - нативно мультиязычная модель, тренировали в том числе на русском, немецком, японском, китайском. И тут она конкурентов и в хвост, и в гриву. Обновили и токенизатор - он теперь на 36% эффективнее для русского, на 11% для английского, а на некоторых языках прирост по эффективности в 3-4 раза. Интересно, в токенах найдутся пасхалки?
С бенчами опять шалят: сравнивают только базовые модели, а бенчи для Instruct версий публикуют только специализированные, не общие.
Заметьте, как "малые" модельки растут в размере: 7B превратилось в 8, потом в 9, а сейчас уже 12
Веса
Блог
@ai_newz
📄В интернете можно, условно говоря, заниматься двумя вещами:
1. развиваться, читая научные статьи о рекомендательных системах;
2. орать с угарнейших мемасиков про котиков.
И, хотя официально интернет существует для первого, рекомендательные системы толкают пользователей скорее ко второму. Так происходит потому, что мемасики получают больше лайков, чем статьи по рекомендательным системам (даже в нашем канале). На ридинг-группе 25 июля будем разбираться, как это поправить. Обсудим статью, которая предлагает способ отделить сиюминутное желание покекать от долгосрочной полезности и балансировать эти факторы при построении рекомендательной системы. Рассказывать будет Коля Анохин, ведущий специалист ОК по ML. Начало встречи в 16:00.
Зум: ссылка
Meeting ID: 875 8500 6307
Passcode: okdsrg
Кстати, для тех кто не знал, NVIDIA регулярно проводит платные воркшопы онлайн.
Вот, например, скоро будет 7-часовой воркшоп "Model Parallelism: Building and Deploying Large Neural Networks".
Цена вопроса - $500.
Звучит интересно, я бы послушал инсайты от NVIDIA, как они юзают всякие параллелизма для тренировки очень больших моделей (например Хуанг хвалился, что они натренили LLM с 1.8 триллионами параметров). Но ценник, конечно, почти как регистрация на ECCV. Наверное, лучше посмотрю леции на ютубе и съезжу в Милан.😁
Хотя, если кто-то начинает изучать эти темы с нуля, то такие воркшопы могли бы хорошо зайти, ведь там дадут структурированную информацию и можно позадавать вопросы. Есть очень много тонкостей, которые нигде не написаны и их можно узнать только из личной беседы.
Вот тут есть расписание всех воркшопов.
#ликбез
@ai_newz
Пока OpenAI всё тянет с релизом обещанной модельки, гугл потихоньку разворачивает киллер-фичи от Gemini, в том числе Vids.
Vids — это новая тулза от гугл, которая должна помось создавать видосы на скорую руку. Из функционала:
- Генерация скрипта
- Текста для видео
- Подбор стоковых видео
- Генерация видео (наверное через Veo)
- Подбор фоновой музыки
- Генерация текста для озвучки
- Генерация самой озвучки
И всё это в один шаблон.
Короче, полноценный агент для создания дешёвых промо роликов. (Ну а что, Спилберг тоже не с Голливуда начинал)
Чтобы проверить, есть ли у вас доступ к функциям Workspace Labs, откройте документ в Google Docs. Слева [у меня была справа] найдите раздел "Help me write".
Mistral выпустили две новые 7B модели
MathΣtral - тюн Mistral 7B, ориентированный на математику и технические дисциплины. На бенчах заметно лучше конкурентов среди открытых математических LLM, но до закрытых моделей всё ещё далеко - специализированные на математике варианты Gemini 1.5 Pro на MATH выдают за 90%.
Создали модель в коллаборации с Project Numina, победителями недавнего AIMO Progress Prize, где модели соревновались в решении задач с международной математической олимпиады (IMO). На том соревновании первые 4 места заняли тюны DeepSeek Math 7B, видимо, Mistral захотели своего конкурента.
Codestral Mamba - модель для кода, основанная на архитектуре Mamba V2, первый не трансформер который натренили в Mistral.
Результаты неплохие, но результатами бенчей слегка манипулируют - сравнивают с довольно старыми моделями, а с сильными конкурентами, вроде Llama 3 8B и DeepSeek Coder V2 Lite - нет. Результат Llama 3 8B на HumanEval выше чем у других моделей с которыми сравнивают Codestral. А DeepSeek Coder V2 Lite на HumanEval обгоняет не только Codestral Mamba, но и Codestral 22B.
Mamba, в теории, обещает "линейный" инференс с "бесконечным контекстом. Конкурентов трансформерам всегда интересно видеть, но я пока что не видел нормальных тестов контекста более чем 16к токенов, так что отношусь к архитектуре скептически. Если хотите, могу написать про неё поподробнее.
@ai_newz
А вот такая бандурина управляет механической рукой. Я считаю, есть пространство для оптимизации!
@ai_newz
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases
Юзать LLM хотят все, но инференс в облаке стоит конских денег. Но есть простое решение - давайте юзеры будут запускать LLM у себя, а не в облаке. Однако не стоит забывать – большинство пользователей интернета владеют лишь телефоном. Оперативной памяти там не так уж и много - у iPhone это 6 гигов, у большинства андроид флагманов до 12, так что нужно оптимизировать параметры, но и не забывать про перформанс. Авторам пейпера удалось заметно улучшить качество инференса на телефонах, без потерь в перформансе.
Как это вышло?
➖ Авторы выяснили, что масштабирование модели вглубь при таком же количестве параметров работает лучше чем при масштабировании модели вширь. Таким образом модель на 125 миллионов параметров имеет 30 слоёв (у GPT-2, Bert и вообще всего в такой весовой категории обычно 12).
➖ Традиционный для "эффективных" моделей шеринг входного и выходного слоя эмбеддингов.
➖ Завезли Group Query Attention, который раньше в таких моделях не использовался.
➖ Убедились что все слои влезают в кэш телефонов, потому что оперативка значительно медленнее.
Самая интересная часть - layer sharing, так что её разберём поподробнее. Идея в том, чтобы использовать один и тот же слой несколько раз, и таким образом улучшить перформанс. Попробовали несколько стратегий:
➖ Повторять слои незамедлительно - то есть слой компьютит что-то, а потом его вывод кормится в него же.
➖ Повторять все слои в том же порядке - по сути моделька запускается два раза на одном и том же инпуте.
➖ Сначала считать слои в обычном порядке, а потом задом наперёд.
Лучше всех показал себя второй способ, но выбрали первый, потому что он заметно быстрее работает (не нужно грузить слой в кэш несколько раз).
В итоге вышло хорошо так улучшить результаты, без раздутия количества параметров или времени выполнения модели. Итоговая модель выдаёт более чем 50 токенов в секунду на обычном телефоне. Статья февральская, но код выложили только сейчас. Весов нет.
Пейпер
Код
@ai_newz
Кто там хотел прикрутить LLM к NPC?
Продолжаю серию постов про AI в играх.
Вот новый экземпляр на вечер — Suck Up!
Суть:
Вы вампир, ваша цель — вломиться в дом NPC и съесть их. Правда, теперь они не такие тупые, ведь к ним по API прикручена ЛЛМ, так что кого попало они домой не пускают. Для убедительности можно использовать найденные на улице предметы и одежду прошлых жертв. Например, доставщика пиццы.
У каждого NPC свой костюм, характер и манера речи. К каждому нужен свой подход. Текст вводится голосом! Правда, отвечают пока просто текстом, генерацию речи еще не завезли.
Видео от разработчиков прилагается. Если нечем заняться, вот еще можно глянуть https://youtu.be/V-6M6lm3mTY?si=KFJqU0ruKlbO-VwA
Стоит 16 баксов. Интересная модель монетизации. Получаешь игру полностью и к ней 10 000 токенов. Когда они закончатся, придется платить снова. В целом, неплохой вариант, + авторы уверяют, что этого должно хватить на 40-50 часов геймплея. Кстати, игры в Steam нет, потому что они хз, что делать с AI. А точнее, как его регулировать.
Подробности здесь.
@ai_newz
Принёс вам системный промпт для оптимального кодинга с Claude Sonnet 3.5 – на замену джуну. На реддите и в твиттере его очень хвалят.
Нужен доступ через API, чтобы попробовать его, либо через web с Pro подпиской (в настройках нового проекта, см скрин в комментах), либо через кастомного бота в Poe.
@ai_newz
Разработчики нейросетей Fabula AI запустили реферальный конкурс.
Команда поставляет инструменты для создания ИИ-аватарок, изображений (там есть SD3 например), видео и текста с помощью нейросетей.
В преддверии запуска большой партнерской программы, в боте проходит конкурс. Главный приз — смартфон стоимостью $500.
Чтобы выиграть, нужно пригласить как можно больше друзей воспользоваться ботом Fabula.
ТОП-20 участников, пригласивших больше всего рефералов, заберут денежные призы от $250 до $10, а лидеру достанется новый смартфон.
Конкурс продлится до 17 июля включительно. Подробная информация об условиях доступна в боте.
#промо
Может кому-то из читателей будет интересно. AIRI организует бесплатную летнюю школу для студентов и исследователей по мультимодалкам, генеративным моделям и RL. Подача заявок до воскресения вечера (14 июля).
Вот записи лекций с прошлого года: плейлист на ютубе.
@ai_newz
Отвлекитесь от экрана — оторвитесь на ИТ-пикнике 17 августа
У фестиваля больше 17-ти ИТ-партнеров. Вас ждут воркшопы, лекции от спикеров известных компаний, нетворкинг, выступления топовых музыкантов и даже детская зона. Будут TRITIA, Дайте танк (!), Драгни, Найк Борзов, Нееет, ты что и еще один секретный хедлайнер. Вы же не пропустите такое событие?
Успейте зарегистрироваться
erid:2VtzqwanyqT
Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673
#промо
Тут стартап futureresearch сделал доклад о доходах OpenAI за год:
$1.9B за ChatGPT Plus (7.7M подписчиков по $20/мес),
$714M от ChatGPT Enterprise (1.2M по $50/мес),
$510M от API, и
$290M от ChatGPT Team (80k по $25/мес)
$3.4B общего годового дохода
Данные собирали по косвенным показателям, поскольку это не официальный отчет – зато порядок чисел интересный, АИ-масс адаптация еще не случилась это точно
Видео модель с максимальным уровнем контроля.
Стартап Odyssey врывается с двух ног в генеративный AI. Да не с одной моделью, а сразу с 4-мя! Каждая из которых отвечает за свой аспект картинки.
Загибаем пальцы, модель для генерации:
1) high-quality геометрии
2) фотореалистичных материалов
3) освещения
4) подконтрольного моушена
(последний палец видимо мы)
Анонс направлен на Голливуд, и ну конечно же самый пафосный, ощущение, что текст писал сам маэстро:
Мы должны предъявлять к ИИ более высокие требования. Небольшое путешествие по Сети покажет, что мы наводнены низкокачественным контентом, созданным ИИ. Контент-фермы, спам-боты и даже благонамеренные компании используют ИИ для создания текстов и изображений, стремясь придать алгоритмам игровой характер и захватить ваше внимание. Если не сделать все правильно, создание видео с помощью ИИ может пойти в том же направлении, когда мы будем наводнены случайными видео, в которых нет ни искры, ни сюжета. Возможно, через достаточно большой промежуток времени мы пристрастимся к этим нездоровым видео, забыв о том, как выглядит качественное человеческое повествование. Возможно, люди превратятся в наблюдателей за сюжетом, а не в рассказчиков.
В Odyssey мы отвергаем такое будущее.
Нас ждет абсолютно новый геймдев. Зацените, что делают ребята, которые сидят на жестких гауссиан сплатах.
Одна картинка и целый мир готов. В целом генерация таких 3D сцен — это не новость, но вот в риалтайме еще никому не удавалось. На генерацию одной полной сцены уходит 10 секунд на A6000 GPU. Это, конечно, не ультра скорость, но учтите, что даже в играх никто не рендерит во все 360. Можно считать, что это просто мир прогружается, а потом спокойно бегать.
Картинка номер 2 в общем-то вполне наглядно объясняет принцип работы. Здесь у нас солянка из добротных быстрых гауссиан сплатов, карт глубины и аутпейнтинга.
Берут изначальную картинку, из нее извлекают карту глубины, как в обычном контролнете при аутпейнтинге генерируют мир вокруг изначальной картинки. Но с тем отличием, что карту глубины как бы упрощают и берут ограниченное количество "глубин" в целях оптимизации. Тренируют салаты по картинке.
Наслаждаемся и ходим по новоиспеченной сцене.
А если к этому еще и прикрутить PhysDreamer ой-ой-йой... (это который позволяет физически взаимодействовать со сплатами)
Когда там уже нейрорендер станет мейнстримом? Где мой риалтайм сгенерированный мир в 120 fps или ещё лучше как в нашей статье 1000fps?
Ветка про Gaussian Splatting:
- 3D Gaussian Splatting ликбез
- NerfStudio, ну а вдруг пригодится,
- мерджим картинки,
- Infinite Realities
- PhysDreamer
Project page, там даже есть демо, правда, заранее сгенерированное, просто погулять. Но сам рендеринг сцены прямо в браузере, придется немного подождать.
Бумага
Код (скоро)
@ai_newz