derplearning | Unsorted

Telegram-канал derplearning - Derp Learning

12278

Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.

Subscribe to a channel

Derp Learning

Видео Нейродайджест:
2025 год видео моделей и думающих LLM

- Veo 2 — Гугловский монстр вырвался на волю. Доступен на Freepik (Premium+ юзерам за тонну токенов) и на fal.ai ($1.25 за 5-секундный видосик). Цена кусается, пока только txt2img, но качество — космос.

- Luma Ray 2 — Теперь с img-2-video и video-2-sfx (саунд). Не дотягивает до Veo 2 по картинке, зато цена норм и фичи удобные: анлим за $95 для тех, кому надо.

- Pika’s Pikadditions & Pikaswaps — Чуваки идут путём мемов и VFX. Pikadditions пихает объекты с фоток в видео, Pikaswaps меняет банки ягуара на колу. 8 бесплатных генераций в месяц, но глюки — часть веселья: лица корежит, физика выходит из чата.

- Adobe Firefly Video — Чистый датасет, симпатичная картинка. Идеально для монтажа: продлить, расширить (да, есть расширение), накинуть VFX. Идеальный add-on для Премьера.

- Topaz Starlight — Диффузионный реставратор видео на 6B+ параметров. Вытягивает даже самые убитые кассеты. 10 сек бесплатно, 5 мин за бабки (немалые). Ждём концерт Queen в 4K.


И ещё 1000 и 1 опенсорс-проект — Lumina Video, Magic 1-For-1 и прочие. Статус “юзабельно” всё ближе, а кому-то уже и так норм.

> Читать Топ-10 постов 2024 года.

#дайджест
@ai_newz

Читать полностью…

Derp Learning

К вопросу про оцифровку актеров.

На видео - использование Хуньянь и SkyReel для консистентных сцен с конкретным оцифрованным актером.

Из интересного:
Они сначала оцифровали актера (captured him volumetrically), а потом натренировали Хульяньскую Лору на коротких видео по 2 секунды. Как я понял, вольюметрик скан использовался именно для рендеринга таких коротких видеосов, где башка поворачивается из профиля в фас или на меньших углах(но это неточно, trained a LoRA model directly on video data, allowing us to generate sequences where a person remains consistent across shots)

50 видосов для тренировки в 100 эпох - заняли 48 часов на H100.

Пишут, что SkyReel - плохой, особенно в text2video, оттуда взяли мало шотов.

Подробности шаманство с latent upscale и другими гиковскими терминами вот тут.

Это, конечно, просто игра мышцами от kartel_ai, но оцифровка актеров мне видится примерно так.


@cgevent

Читать полностью…

Derp Learning

Андрюха, у нас Улица разбитых фонарей, но это аниме.

Результат моего теста Luma Ray 2.

Читать полностью…

Derp Learning

Наконец-то подвезли годные технологии. Компьют хоть не в пустоту тратится. Спасибо Тиктоку и новому фильтру Microwave в Cupcat.

Читать полностью…

Derp Learning

Step-Video-T2V - opensource 30b text2video model (MIT)

What are you doing, StepFun?
Китайцы в очередной раз упоролись риса и выкатили в опенсорс здоровенную модель text2video.

Генерит до 544px992px204кадров, жрет 80gb VRAM, любит партию и вождя - все как мы любим.
Лицензия при этом MIT на код и модели (хотя веса и попахивают hunuyan)

hunuyan в девичестве генерил 720px1280px129f за 60gb VRAM, затем народные умельцы усмирили его аппетиты до 12gb - HunyuanVideoGP: Large Video Generation for the GPU Poor
Так что ждем gpu poor версию и погнали!

github
paper
model
demo (из поднебесной)

@derplearning

Читать полностью…

Derp Learning

Валентинки через Glif

Теперь каждый глиф стоит по-разному, но на старте вам дают 30 кредитов бесплатно и так же они ежедневно пополняются. А я подготовил для вас Глифы для Валентинок!

💰 В среднем 1 генерация в моих глифах тратит ~8 кредитов
💰 Оригинальный Glif — ~5 кредитов

Готовые глифы для Валентинок:
angrypenguin/glifs/cm72g4nie0006rz8l6kxmh1es">Оригинальный Glif — откуда я взял идею, генерирует картинку + милый текст через Sonnet. Из минусов — вотермарка.

MonkeyInLaw/glifs/cm72vf4y70002rv29eqvreat1">Мой вариант. 2:3 размерность (1200x1600px) — Идеален для печати!
НО! Есть особенность сделал его с разделением промпта для Clip L и T5XXL.
Мне помогает вот этот промпт для любой LLM: Create prompts based on text for Clip L and T5XXL. Text: [Ваше описание или картинка]
Если не хочется заморачиваться с промптами для Clip L и T5XXL, просто вставьте одинаковый текст в оба поля.

MonkeyInLaw/glifs/cm74j1nbd000srhb5t1jjczrs">Вариант с возможностью референс картинки. Добавил Redux туда.

HF Lora — для тех кто хочет локально погенерить

— Я распечатал эти открытки на акварельной бумаге, и они выглядят как настоящая пастель!

Читать полностью…

Derp Learning

Да ты же просто робот, имитация жизни. Разве робот сможет написать симфонию, сделать шедевр?

Читать полностью…

Derp Learning

В нейронке PixVerse появился фильтр, который превращает фотографии в видео, где вас обнимает Иисус.

Пользователи начали тестировать его на своих питомцах, татуировках и прочих вещах. Получилось максимально проклято.

Тоже можете попробовать. Там несколько генераций бесплатно
r/#aivideo

Читать полностью…

Derp Learning

56 это до или после налогов? 🤔

Читать полностью…

Derp Learning

Опенсорс Suno🤡🤡🤡

Наконец-то в опенсорс генераторах музыки сподвижки. Угадайте, кто? Правильно, китайцы YuE — по-русски йе! Yeah, ну или просто 乐. По звуку похоже скорее на Suno v2, но и это уже очень хорошо. Примеры в видосе и полные треки в комментариях.

К сожалению, какого-то демо не нашёл, поэтому своих тестов нет. Пейпер обещают скоро, а вот раскатить модельку у себя уже можно. Потребуется только 24 GB VRAM, то есть 4090 может осилить.

Ждём, когда оптимизируют и понаделают всякие финтифлюшки, по типу звуковых IP-адаптеров и контролнетов. :)

Модели на HF
Project page
GitHub

@ai_newz

Читать полностью…

Derp Learning

DiffSplat для гиков.

Тут в тиктоке зафайнтюнили диффузионные картинкогенераторы так, чтобы они сразу генерили Гауссиановые Сплаты. Напрямую.
Внимание - за 1-2 секунды, по промпту или одной картинке.

DiffSplat is a generative framework to synthesize 3D Gaussian Splats from text prompts & single-view images in ⚡️ 1~2 seconds. It is fine-tuned directly from a pretrained text-to-image diffusion model

Надо бы обновить тему сплатов - это один из кандидатов на новые игровые и неигровые движки.

https://chenguolin.github.io/projects/DiffSplat/

@cgevent

Читать полностью…

Derp Learning

Тем временем мамкины спамеры начали переключать шлюхоботов на Deepseek (тому шо дешевле в 10 раз).

Что могло пойти не так?

Читать полностью…

Derp Learning

В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

Читать полностью…

Derp Learning

Дожили! Теперь можно заниматься машинным обучением в футбольном клубе!

Читать полностью…

Derp Learning

TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training - Этот простой трюк ускорит претрен вашего DIT в 25 раз!

Идея такая: не все токены одинаково полезны на всех слоях, не все слои одинаково полезны для всех токенов. Давайте дадим модели самой выбирать на какие слои передавать токены, а на какие слои нет.

авторы получают х25 ускорение претрена и модель лучшую по метрикам чем классический DIT.


paper

Читать полностью…

Derp Learning

Олды тут? Elasto Mania в виде робота – смотрите какая цаца 🥰

Оригинал видео

Читать полностью…

Derp Learning

Когда смотришь как работает твой сложный код в реальном продукте полностью написанный Нейросетью

Original

Читать полностью…

Derp Learning

Илоныч присоединился к тренду и поменял дизайн лого Grok на анус.

Читать полностью…

Derp Learning

Пару недель назад посмотрел мульт Flow — это тот, который про кота и потоп.

Неожиданное и запоминающееся открытие года. Основная его фишка в том, что он вообще без слов, что особенно удобно, когда ищешь в чужой стране, что посмотреть, хотя бы на английском.

Фишечка именно в отсутствии диалогов. Мозг и нейронная активность при таком просмотре активируют не только зрительную кору, но и области, которые связаны с визуальным восприятием и обработкой эмоций.

В мульте, наверное, есть только один момент, который позволяет выдохнуть, всё остальное время находишься в напряжении.

Что интересно, режиссёр Gints Zilbalodis писал сценарий 5,5 лет, пока инвесторы искали финансирование, а закончили они его за пару дней до отправки на Каннский фестиваль. После этого мульт получил Золотой глобус и сейчас номинирован на Оскар как лучший анимационный фильм.

Кроме очевидных отсылок к дружбе и взаимовыручке, лично для себя увидел пару моментов, связанных с миграцией, кластеризацией обществ, разделением на «свой-чужой», оставлением своего дома и вообще всего, к чему привязан.
Обратите внимание на покидание дома лемуром.

Мульт сделан в Blender, поэтому отдельно было забавно наблюдать в начале на фигурках котиков модификатор Decimate с воксельным режимом упрощения. 😀

Читать полностью…

Derp Learning

HunyuanVideo GP. GP = GPU POOR

Для гиков. Форк Хуньяня, который работает на картах с 12 Гиг VRAM.

https://github.com/deepbeepmeep/HunyuanVideoGP

Читать полностью…

Derp Learning

Претренить нужно в INT4

Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.

Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.

Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.

Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!

Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.

Читать полностью…

Derp Learning

DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models

Вот прям хорошая работа от канадской Нвидии, оставшаяся незамеченной.

Прежде всего для композа.

Спойлер: кода нет, композера своего у Нвидии нет, так что это все скорее всего для их Omniverse.

Но красиво, обратный рендер получает на входе видос, вытаскивает оттуда глубину и пытается восстановить 3Д-объекты (трекинг?), причем даже с материалами.
А прямой рендер после этого, может перегенерить картинку с:
1. новым освещением
2. другим материалом на объекте
3. и даже вставить новый (свой, 3д из блендора) объект в эту "сцену", то есть в исходное видео.

Прям композкомпоз.

https://research.nvidia.com/labs/toronto-ai/DiffusionRenderer/

@cgevent

Читать полностью…

Derp Learning

@derplearning

Читать полностью…

Derp Learning

Клип, сделанный Ruairi Robinson для Steve Moore.
Ruairi - режиссер со стажем, несколько раз номинировался на Оскар, с графикой знаком давно, в общем, знает, что делает.
Этот кусок ничем не хуже, чем какой-нибудь Gessafershtein.
Выглядит мощно, звучит тоже! AI only.

Relevant, best, and no comments 🔥
Youtube

Читать полностью…

Derp Learning

Швейцарский стартап FinalSpark начал работу по созданию первого в мире биокомпьютера!

Учёные вырастили 16 органоидов человеческого мозга, способных обучаться и обрабатывать информацию. При этом доступ к их исследованию можно получить удалённо через онлайн-платформу Neuroplatform.

По словам компании, эти биопроцессоры потребляют в миллион раз меньше энергии, чем традиционные цифровые процессоры, и могут стать следующим эволюционным скачком для искусственного интеллекта.

В качестве демонстрации возможностей своей революционной работы FinalSpark создали виртуальный мир с моделью бабочки, управляемой непосредственно органоидами мозга.

«Это значительный шаг на пути исследований в области сохранения когнитивных функций человека и загрузки сознания»


Любители научной фантастики здесь? 👀👀

Читать полностью…

Derp Learning

> ТЫ ОБЫЧНЫЙ УГА-БУГА

> Молодняк не хочет тащить камни на руках

> Используют какое-то новомодное "колесо"

> Совсем привыкнут к нему и ослабнут

> Недовольно бурчишь

Читать полностью…

Derp Learning

One-Prompt-One-Story: SVD и длинный промпт для генерации связанных изображений

Чтобы сгенерировать при помощи диффузии набор связанных консистентных изображений с единым персонажем, существует много методов, основанных на обучении (DreamBooth, IP-Adapter, Textual Inversion и т. п.). Но на самом деле можно обойтись и без обучения — например, StoryDiffusion делает это через расширение attention на референсную картинку.

В новой статье описывают ещё более простой метод генерации таких «историй» с единым героем — «One-Prompt-One-Story». Оказалось, что достаточно взять один длинный промпт с описанием каждого кадра и аккуратно, по очереди «выключать» нерелевантные части, сохраняя random seed. Для этого авторы используют SVD на текстовых эмбеддингах: усиливают нужные токены и ослабляют все лишние. Плюс небольшой трюк с cross-attention, чтобы персонаж не «расползался». Всё делается на лету, без дообучения и без референсных снимков.

Несмотря на простоту, метод по метрикам сильно обходит StoryDiffusion, и даже иногда обходит IP-adapter.

Статья, GitHub

Читать полностью…

Derp Learning

Значит, смотрите, все как учил вас в 2025!

Сначала отстреливаем каждую из семи щупалец. После того как он перестанет вас хватать, целимся в светящийся оранжевый треугольник, между сенсорами. Как убьете, не подходите сразу для сбора дропа — после смерти они, как правило, взрываются!

Читать полностью…

Derp Learning

Look how the turntables!

Source

Читать полностью…

Derp Learning

В Suno появилась функция audio input, теперь можно записать свои звуки, речь, и собрать из этого композицию.

Я когда спотифай слушаю, каждый раз ловлю себя на мысли сколько сгенерированных треков я уже послушал не подозревая этого.

На сколько просто теперь стало делать музыку, все еще удивляюсь.

Читать полностью…
Subscribe to a channel