Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
https://huggingface.co/flymy-ai/qwen-image-edit-inscene-lora
Братва рвется к gpt4o в опенсурсе
Слева до Лоры справа после
Лестницы — одна из причин, по которой нам пока не стоит бояться восстания машин
Читать полностью…Wan 2.1 был sd 1.5-моментом для генерации видео, Wan 2.2 - SDXL-момент.
Опенсорс уже не удержать :D
Wan 2.2 x instagirl lora
civitai
@derplearning
Finally, голошоп!
Агент через mcp плагин рулит фотошопом, what a time to be alive!
X.com
AI индустрия сделала одну вещь хорошо: обманула продактов и нагрузила их работой. Теперь они кодят вместо джунов, оплачивают подписки трех ИИ тулов, радуются и считают, что это они всех перехитрили.
Читать полностью…В преддверии выхода Gpt-5 копим крышки и сохраняем важную инфу (бензин из бензобака станет непригодным всего через 3 месяца, а в специальном хранилище протянет максимум года 3)
Читать полностью…Genie 3 — SOTA World Model от Google
World Model — это по сути нейронные игровые движки, позволяющие двигатся и взаимодействовать с миром.существующим исключительно в воображении нейросетки. Прошлое поколение — Genie 2, позволяло создать по текстовому промпту окружение, в котором можно было походить 10-20 секунд в 360p. В этом поколении разрешение уже 720p, а длится взаимодействие с ней может уже несколько минут.
Но делает особенной эту модель возможность хорошо помнить эти несколько минут симуляции, даже взаимодействия пользователя с миром. Одно из демонстрационных вдиео — как пользователь красит сцену, потом отходит и немного крутится по комнате, а краска на стене остаётся. А ведь меньше года назад в нейронном майнкрафте достаточно было просто отвернутся чтобы модель совсем забыла всё об окружающей среде.
Крайне сильно выросла и возможность симулировать живой мир — промпты позволяют сгенерировать не просто окружение, но и события в этом окружении. Такая эволюция позволяет уже запускать симуляцию для тренировки полноценных агентов для реального мира, которым можно тренировать выполнять разные задачи. Я, правда, очень смутно представляю как такое окружение сделать верифицируемым.
А вот игры на такой технологии представляются куда проще — ведь не просто так игровой гигант Tencent настолько сильно инвестирует в world models. Кстати, многие не знают что глава Google DeepMind, Демис Хассабис, начинал с игровой индустрии. До DeepMind он основал свою студию, которая выпустила несколько игр, например Evil Genius.
Блогпост
@ai_newz
Wan 2.2 почти смог в Икею.
1.5 часа на 4090 @ a14b t2v q8, 720p, 121frame, 20steps
Весы
@derplearning
Но кого мы обманываем. На самом деле наши берлоги выглядят вот так.
Промт в комментах.
В Осаке, Япония, нашли способ полезно применять дроны – как указатели в небе на мероприятиях ☕️
Читать полностью…Там вышел Tripо 3.0.
Оставив за собой первенство среди генераторов.
Потестить пока нет времени, но я обязательно это сделаю позже.
Теперь, чтобы не бегать по сервисам для генерации себе концептов для 3D, внутри Tripo можно и GPT-4o, и Flux юзать.
Туть
@CGIT_Vines
СМИ: Ии заменит кожаных композиторов.
Тем временем кожаные композиторы: а что если космодесантники месили ксеносов под Элтона Джона?
Полная версия (Space Marine 2 OST)
А вот и юзкейс из жизни: агент переименовывает слои из стандарта индустрии привычных нам layer5 в понятные имена в зависимости от их содержимого.
X.com
AI caring about such individuals by default with no need for any additional prompting was… somehow out of my bingo card for search engine evolution
Читать полностью…А еще в Genie 3 можно загрузить любую картину и «прогуляться по ней» в симуляции, как в интерактивной игре
Мне нравится думать, что к ~2030 мы сможем оживить все личные фотоархивы что у нас есть на устройствах, из фото или видео, очень хочется
В десктопной версии Gemini теперь можно делать целые книжки с картинками.
Гемини сама напишет историю, может взять ваши картинки на вход для стиля, и сделает не просто книжку, но и аудио версию к ней.
Мне это напоминает диафильмы на стероидах.
Достаточно написать в промпте "create storybook about .... как срать не снимая свитер"
Он сделает книжку, ее можно смотреть в Гемини, там же слушать или шарить ссылку.
Экспорта в пдф или MP4 не нашел.
Поглядите пример:
https://gemini.google.com/share/52a81c4683ea
Работает только в браузерной версии Гемини. В мобильном приложении пока нет.
Пришёл вечером домой, давайте дети сказку послушаем. Про свитер.
Поставил аудио версию, вывел картинки на телевизор, и ну спать (или новости писать в телегу)
@cgevent
Современные проблемы требуют современных решений
(Тем временем в консоли: undefined)
@derplearning
Автора не нашёл пока, но это прекрасно.
@cgevent
А вы знали, что в Veo-3 можно просто нарисовать на первом кадре визуальные инструкции: всякия стрелочки, подписи типа "сюда не ходи снег башка попадет". И Veo3 это пережует и поймет. Экономия на промптах. И никакого джайсона.
@cgevent
Мы родились слишком поздно, чтобы бороздить океаны, слишком рано, чтобы исследовать космос, но как раз вовремя, чтобы делать ии каверы на Меладзе.
Читать полностью…the budgets of the casting couch videos are getting out of hand
soon (tm)
paperswithcode.com поплохело или как еще привлечь аудиторию к ml пейперам
Читать полностью…