Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
This bass video is generated by AI
Ну и чтобы закрыть тему с басистами сегодня, держите видео от моего любимого Davie504, о котором я периодически пишу в канале.
Это невыносимо смешно.
Davie504 вначале троллит Suno, но если вы посмотрите с 5:00, вы увидите изменение тональности.
Ну и это отличная демонстрация того, что Suno - это прежде всего бесконечный источник идей, а потом уже самой музики. Самая частая моя реакция на прослушивание суновских генераций - "если переписать вокал в студии, то это хит".
А Davie504 в конце "переписывает" партию баса для Суно. И получается прекрасно.
И поглядите до конца, когда он с его серьезным лошадиным лицом рассуждает "Am I AI?".
Восторг для тех, кто в теме. Поглядите полное видео тут:
https://youtu.be/a9GVnh2to44
P.S. А если хотите просто удовольствия от слэпа, вот вам трек от Charles Berthoud X Giacomo Turra:
https://www.youtube.com/watch?v=6B5Kc0D8uqI
@cgevent
Немного разбавим гиковские посты.
Я не знаю, для чего это может быть нужно, но это очень забавная нейросетка.
Определяет, кто и куда смотрит.
Можно, конечно пофантазировать:
- камеры в школе и на лекциях - анализ внимания
- камеры в переговорках - анализ вовлеченности и подтупливания в телефонах
- приложения для телефона для анализа видео типа "посмотри, куда реально глядит твой парень"
- VFX - плагин автоиспепеляющий взгляд
Еще варианты?
И все это уже работает на основе опенсорсных клея и палок:
https://github.com/fkryan/gazelle
Поглядите, хорошие примеры внутри.
@cgevent
Лоры для видео
Мне кажется, скоро мы увидим поток Лор для видео-моделей. И если закрытые платформы типа Kling выкатывают свои скромные решения, позволяющие тренировать внутренние лоры на лицах, но опен-сорс не разменивается по мелочам.
Я долго мучился, выбирал, какое видео можно хотя бы под спойлер спрятать, еле нашел одно.
В общем держите:
CogVideoXXX1.5-5B-I2V LoRA NSFW
Сообщество идет путем Stable Diffusion 1.5 и тренирует то, что действительно востребовано.
Слабонервным, нервным, строговоспитанным и впечатлительным смотреть и ходить по ссылке крайне не рекомендуется. Там все по-взрослому.
Но стоп-кран сорван и трушные Лоры для видео залетают на Civitai.
https://civitai.com/models/1000190/cogvideoxxx15-5b-i2v-lora-nsfw
@cgevent
Это выглядит одновременно очень мило и абсолютно проклято.
Вот бы кто-нибудь устроил матч между такими роботами. Это же действительно куда интереснее, чем мясной футбол.
P.S.: робот в синей футболке симулирует травму
Боюсь, что нигде теперь. А как ещё ИИ будет получать бесплатную разметку для беспилотников?
Любишь катацца, люби и данные метить.
Не любишь катацца, сиди на обочине прогресса.
@cgevent
Grok Aurora & Kandinsky
Цензура? Нет, не слышали..
Сора: а чо так можно было?
@cgevent
Реалтаймовый path tracing в UE5.
Честно говоря, звучит как изобретение квантового рейтрейсинга или применение квантовых компьютеров для рендеринга. Ну не может такой кадр считаться в 60fps, я хорошо помню из прошлой жизни, что такие сцены считаются сутками. На кадр.
Если интересно как это возможно, поглядите видео. Как я понял, вместо миллиардов лучей испускаются миллионы(звучит иронично, но экономия в тысячи раз) и испускаются локально, только там где надо(блидинг, софт шедоу и пр).
И там хорошие три вопроса, один из которых про потерю качества при таком подходе. Ответ - ее почти нет.
Явшоке. Подробности ниже.
А я вспоминаю недавние посты про генерацию, а точнее про рендеринг игр нейронками, которые знать не знают про path tracing и физическую корректность, и думаю, а что важнее - дофамин или физически корректный свет? И где предел качества картинки, после которого пользователю уже все равно на качество?
https://youtu.be/JYI1srodjeg?si=8VxmZyglPqGCjVOa
@cgevent
OpenAI 7: проекты в chatgpt
Очень полезная штука. Можно такие папочки создавать, в которых все необходимые документы, инструкции, чаты. Причем не только на потрындеть, но и код пописать. Наконец-то можно будет разложить все аккуратно и контекст сохранять. Тут рабочая стратегия, тут путешествия организация и так далее. Раскатывают прямо сейчас
https://www.youtube.com/live/FcB97h3vrzk?si=xjUjA8kQxsJLMglh
Мадагаскарский яйценосный дрозд (Madagascar ovum turdi) - единственная известная науке птица, не высиживающая яйца и не вьющая гнезд.
После завершения беременности, самка откладывает в специальную кожаную сумку два, в редких случаях - три яйца, практически идеальной круглой формы.
По окончании вынашивания, нижняя часть кожистой стенки истончается, яйца выкатываются наружу, и происходит процесс вылупления птенцов. Молодой яйценосный дрозд готов к самостоятельному полету уже через четверть часа после рождения, что также является уникальным явлением в мире птиц.
Известный канадский орнитолог Летиция Боллс в своей книге «Наша уникальная планета», так описывает самок Мадагаскарского яйценосного дрозда:
“Учитывая, что во время сезонных миграций этим маленьким хрупким женщинам приходится пролетать около 20 000 км, их по праву можно назвать женщинами с яйцами. И не только из-за необычного способа вынашивания птенцов».
Wilson Journal of Ornithology, 2024
Это мой приятель Алекс Васильев, сделал 4 апреля вот такой пост. Ну и взорвал интернет.
Оригинал тут
В итоге дроздяра разлетелся по интернетику как ковид. Из последнего, я видел тетеньку, кандидата биологических наук, которая прям на серьезных борщах затирала про особый вид дроздов с термотестикулами, а на заднике была вот эта ИИ-птичка.
Тут, конечно, можно разразиться длинным постом о природе кожаных, но я лишь приложу видос из Соры.
Чтобы кандидатам биологических наук было, что обсудить в интернетике.
Я, кстати, уже писал про то, как Алекс меняет фауну планеты.
@cgevent
🔵 Предыстория: У меня в телеге тысячи! непрочитанных и неотвеченных сообщений, скорее всего у вас также. Большинство из них с запросами на партнерства, запуски проектов, маркетинг, да и просто обычные вопросы от пользователей наших продуктов. Все это наверно сотни тысяч долларов упущенных возможностей.
⚠️ Но кто это все должен разбирать, квалифицировать, общаться, договариваться? Не доверишь же ты свой личный телеграм трем ассистенткам.))
Ну и решил я все это автоматизировать через AI Telegram бота, и тут понеслось)) 📱📱📱
Спустя 20.000 строк кода родился полноценный AGI бот-ассистент для Телеграм, который за меня может вести все переписки и делать практически что угодно:
- общаться на любые темы
- квалифицировать лидов и их потребности
- вести переговоры и договариваться в свою пользу
- назначать встречи и звонки
- и даже продавать сервисы и принимать платежи
Ну и конечно же я не поленился добавить в него все последние фишки AI:
- Загрузка любых данных (doc, md, pdf, csv) — бот “запоминает” всё, что нужно.
- Голосовые сообщения — можно добавить свой голос, и бот сможет общаться голосовыми за вас.
- Самые мощные AI-модели (#OpenAI, #Anthropic) под капотом.
- Полный контроль и гибкая настройка инструкций и интеллекта под ваши задачи и цели.
- Доступ в интернет для поиска нужной информации
- Безопасность на уровне самого Telegram — бот работает только с теми чатами, которые вы ему разрешите.
BLENDERGPT
Держите вам еще один 3Д-генератор.
Несмотря на название это НЕ плагин к Блендору, это просто еще один облачный сервис за 10 долларов в месяц.
Преимущество - быстрый.
Я попробовал, не увидел чего-то особенного. Может вы найдете.
С персонажами совсем беда.
https://www.blendergpt.org/app
@cgevent
В аккурат после Gemini OpenAI показали камера- и скрин-шеринг в chatGPT (к чорту приватность, данные всё). И мультимодальность в голосовом режиме в виде audio-direct-to-audio. Звучит действительно еще круче.
А потом стали мучить Санту вопросами про оленей.
Теперь можете поставить телефон рядом с собой, включить камера шеринг - и он будет коментировать ваши действия. Все как у людей.
Кстати, для фитнеса и йоги может зайти. Не удивлюсь, если услышу на тренировке: подтяните внутренние пахи.. Когда ходил на Айенгару, никто мне не мог объяснить, кто это такие. Может chatGPT объяснит.
Sora vs Minimax
Как иллюстрация к предыдущему экзальтированному посту.
Вот смотрите, есть две картинки.
По первой, Сора НАОТРЕЗ отказывается генерить видео. Орёт: вижу людей! тревога! не могу! не буду!
По второй генерит реальную хрень, явно желая выйти в прокрустово ложе датасета, привычную лыжню камеры и псевдо-3Д стиль.
При этом Минимакс (видео без лого) кушает все это как родной. Понимая и про людей, и про стиль (что это мультик) и про камеру.
Как еще надо поломать мозги Соре, чтобы стало понятно, что это тупик?
Спасибо Максу и подписчикам, атомный чат у меня в коментах, конечно
@cgevent
Если так пойдет, то можно выпивать за настольные игры.
Gemini просто будет рисовать следующие ходы на телевизоре.
Надо погонять ее на Code Names.
Даёшь ей снимок карточек на столе и свою карту с красными и синими квадратиками.
И она такая "вот вариант на восемь".
Кто играл в коденеймс, тот поймет.
Главное, чтобы у твоих коллег ума хватило закрыть 8 карточек.
И тут мы подходим к вопросу, что ЛЛМ становятся умнее нас настолько, что наших мозгов не хватает, чтобы понимать их ответы.
Если вы не кандидат филологических наук или турболингвист (на примере коденеймс)
В пределе, им просто не о чем будет с нами разговаривать. Когда мы зададим все свои наивные вопросы.
Будущее с AI
Устойчивое будущее без широкого применения искусственного интеллекта уже невозможно. И в рамках международной конференции AI Journey Альянс в сфере AI, объединяющий ведущие технологические компании страны, и Национальным ESG Альянсом, который занимается повесткой устойчивого развития, были представлены успешные кейсы.
В кейсбуке 39 примеров использования AI-технологий, решающих экологические, социальные, управленческие и бизнес-задачи с ESG-эффектами на основе их результативности, наличия измеримых эффектов в области устойчивого развития, вклада в достижение целей устойчивого развития (ЦУР) ООН и национальных целей развития России.
Первый зампред правления Сбера, Александр Ведяхин, объяснил, как данные решения повлияют на развитие будущего:
«Согласно исследованиям, AI-технологии могут помочь в решении 80% задач в области устойчивого развития. Вместе с экспертами мы начали собирать такие AI-решения, чтобы продемонстрировать, как технологии можно использовать для сохранения национальных природных богатств, улучшения жизни и благополучия людей. Это поможет создавать технологии, ориентированные на долгосрочные позитивные изменения. Уверен, этот проект знаменует важный шаг к системному применению искусственного интеллекта и обмену лучшими практиками для устойчивого развития России».
Казах и помор.
Те, кто почитывал меня в прошлой жизни на fb (который я забросил, полностью перейдя в телегу), помнят, что у меня там была целая серия #khazakhipomor.
Есть у меня какая-то необъяснимая кармическая связь с казахами.
И щас хочу рассказать, что на Кипре у меня есть .. долго подбирал слово.. приятель, знакомый .. кент (или на новом нормальном, братуха).
Зовут его Алмас Абулхаиров - физтех, велосипедист, как бы видеоблоггер, и на минуточку создатель SpatialChat (тут вот ссылка на Forbes еслишо).
Недавно выступал у меня на Хабе, полностью уничтожил зал своей харизмой.
Мы встречаемся не так часто, как хотелось бы, но это всегда абсолютное тепло и поддержка.
В добавок ко всему, у Алмаса есть охренительный канал с не менее охренительным названием "Венчур по понятиям". И это не какой-то там модный "дружеский\честный пиар", это абсолютно искренний пост. Читаю его постоянно.
Он пишет про венчур примерно как я про ИИ. Как дышит. Только посты у него более умные и содержательные. И очень личные, что отчаянно важно в эпоху бесконечных штампов и копипастов.
Знаю, что у него там вот-вот будут еще огненные новости, которыми я обязательно поделюсь.
Но самое главное, он - басист!
Всем стартаперам читать, как учебник.
P.S. Блин, поймал себя на мысли, что на фотке пересчитываю зубы у нейродеда, который выглядит, как нейродемон. И у нейроказаха. И сам себя спрашиваю, это генерация или фото. Совсем охренел от ИИ уже.
@cgevent
Ну а совсем для гиков, кто хочет потренировать свои Лоры для видео, держите вот такой пайплайн.
Он, кстати, также может делать Лоры и Файнтюны(!) для Flux (то есть для картинок) и поддерживает, внимание тренировку Лор для Hunyan Video.
Поддежка multi-GPU и все дела:
Pipeline parallelism, for training models larger than can fit on a single GPU
Full fine tune support for:
Flux
LoRA support for:
Flux, LTX-Video, HunyuanVideo
Я обычно не пощшу про новые Лоры для Флюкса, их уже стало слишком много, но вот это прям хорошо.
Более того, для комфименов и комфивуменов там есть воркфлоу для Комфи с восьмистепным ТурбоФлюксом он Алимамы, апскейлером и LUT. И датасет у Лоры был, судя по всему, очень качественный.
Ну хорошие же! А мужик на пятой фотке просто брился второпях..
А я вам сейчас еще новостей про тренировку моделей пригоню.
https://civitai.com/models/1038829/dramatic-portrait
@cgevent
Адобченко пилит свой Omnigen. И какой!
https://xavierchen34.github.io/UniReal-Page/
Обещан код!
В воскресенье мне негоже писать лонгриды, поэтому я просто скопирую сюда все эти сладости, из которых меня больше всего возбудила вот эта:
Learns from video data to understand shadows, reflections, lighting effects and object interactions
Итак.
# 🌟 Key Features
* Universal Framework: Handle multiple tasks like generation, editing, customization and composition in a single model
* Real-world Dynamics: Learns from video data to understand shadows, reflections, lighting effects and object interactions
* Multi-Image Support: Process multiple input/output images seamlessly as "frames"
* Smart Context Understanding: Advanced hierarchical prompting system for precise control
* Automatic Adaptation: Intelligently adjusts to different tasks without requiring specific instructions
# 🎨 Example Applications
# Image Editing
* Add/remove objects with natural lighting and shadows
* Modify scene attributes while maintaining consistency
* Seamless object insertion with proper perspective
# Image Customization
* Transfer objects between images with proper context
* Adjust object poses and lighting automatically
* Multi-subject composition with realistic interactions
# 🔥 Comparison Results
UniReal shows significant advantages over existing methods:
* Instruction Following: Better understanding of complex editing requests
* Detail Preservation: Superior quality in maintaining important details
* Natural Integration: More realistic blending of edited elements
* Background Consistency: Better preservation of original image elements
@cgevent
Pika 2.0 — мечта всех рекламщиков
Pika продолжают исследовать возможности для контроля видео и на этот раз представили Scene Ingredients.
Фича позволяет создавать видео с реальными людьми (0:37) и объектами, а затем поместить их всех в какое-то место действия. По сути, это IP-Adapter на стероидах для видео. Конечно, тут ничего на лету не обучается, просто на вход сетки подаются дополнительные эмбеддинги референсных объектов. Но это может не очень стабильно работать.
- Подписка за $35 даёт кредитов на 40 видео в месяц (это очень мало).
- За $95 можно получить уже 120 видео.
Видео с Ingredients используют в два раза больше кредитов. Так что подписки даже за 95 баксов на нормальный видос не хватит 🤭
Большой упор сделали на рекламщиков. А-ля: загрузи фотку модели и фотку какой-то вещицы — и вот держи, пожалуйста, модный промо-видосик! Но не совсем понятно, насколько это на самом будет хорошо работать и слушаться промпта.
Kling вот недавно тоже сделали шаг в этом направлении, неожиданно релизнув один из лучших virtual try-on'ов. И даже с ним одежда получается не всегда 1 в 1. Чего тогда ожидать от IP-адаптера для видео? Хотя черипики в видосе выше, конечно, прикольные. Слишком уж дорого тратить драгоценные генерации видео без полноценной подложки из 100% рабочей картинки.
pika.art
@ai_newz
Kandinsky Video, Gigachat Music и народный датасет.
У Кандинского вышла новая модель 4.0 для генерации видео и местами там очень неплохие результаты.
А Gigachat запустил свой генератор музыки. Длина трека полторы минуты, но есть также генератор тестов песен.
И кстати про тексты и датасеты. Сбер в 2025 году начнет собирать "Народный датасет" для обучения моделей GigaChat и Kandinsky - в нем могут поучаствовать все желающие, приведя информацию о небольших регионах, о городской специфике, малых народах или устоявшихся выражениях. Своеобразный национальный краудсорсинг информации новой модели.
Подробности тут.
Ну, за подкасты.
Не очень понятно зачем теперь нужны кожаные блогеры, влогеры, инфлюматьихенсеры.
Я тут смотрел, как народ упарывается в NotebokLM, создавая аудио-подкаст из текста, потом вырезает в аудасити звук для каждого голоса, потом огородит с хейгеном и звуком, и тд.
Все.
Одна кнопка.
Сделать красиво.
Тупо, но красиво.
А зачем еще это все?
Хейген, похоже, сами не понимают, как они троллят интернет.
@cgevent
Krea.ai Edit
Редактор изображений Krea.ai теперь доступен всем.
Инпейнтинг, аутпейнтинг, выделение/замена/удаление объектов. Все это удобно как в фотошопе и бесплатно (ограниченно)
#imageediting #inpainting #outpainting
У меня в телеге все разбито на папки. Каналы в одной папке, активные каналы в другой, рабочие чаты в третьей, персональные сообщения в четвертой, ну и тд. Проблема в том, что когда кто-то делает новый чат с тобой и кем-нибудь еще, то этот чат попадает в папку All, а там тысячи непрочитанных. И все это улетает вниз. Не нашел как с этим бороться, а также, как искать ТОЛЬКО в личных сообщениях или только в сообщениях их определенной папки, или только pdf-ы. На итоге постоянно теряю кого-то или что-то. И тут мне пишет подписчик Илья, который с помощью ИИ забабахал бота, который решает часть таких проблем.
Смотрите ниже
⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️
В 3Д-генераторы потихоньку заползают 8К-текстуры.
Это уже намерение работать с ассетами для кино.
Но.
Помимо разрешения, у текстур должно быть и качество.
Я вот поглядел, как Rodin бахнул OmniCraft - там и HDRI генератор, и 8К текстуры, и на входе может быть пять ракурсов.
https://hyper3d.ai/omnicraft
Но потом нашел вот такое сравнение с опен-сорсным TRELLIS, который снимает текстуры, более похожие на реальные.
Rodin, конечно, всех пока уделывает по продуктовым фишкам, а вот по части качества придется теперь конкурировать с опен-сорсом.
Про Trellis читаем тут.
@cgevent
Мы: ну сегодня покажут новый DALL·E 4
OpenAI: смотрите в chatGPT есть кнопка "Санта"
https://www.youtube.com/watch?v=NIQDnWlwYyQ
Два мира, две системы.
На деле три, есть ещё опенсорс.
Но давайте поглядим на то, как Сора неуклюже и лицемерно(людей за 200$ можно) реализует цензуру.
В это же время, Грок от Маска совершенн безбашенно и залихватски генерирует любых политиков, знаменитостей, селебов, бесстрашно начхав на эти вот ванильные "мы заботимся о вашей безопасности"
В одно и тоже время существуют два радикально иных подхода к цензуре.
В этом смысле подход маска мне сильно ближе, он не делает вид "мы не такие и вообще принцессы не какают".
А опенАИ продолжают загонять себя в анекдот, когда сынок спрашивает маму, что такое жопа.
"Ой, нет такого слова, сынок"
Сынуля: "Хмм, странно, жопа есть, а слова нет".
Тут вот Альтман гонял в Голливуд полгода назад, общаться за Сору.
Но большинство голливудского сторителлинга построено на жопах, сиськах и насилии. Какая в жопу Сора?
При этом и грок и сора/далле существуют в одном инфополе.
У меня совершенно крамольная аналогия про христиан и язычников, но я не могу от нее отделаться.
Два мировоззрения. Главное, чтобы до крестовых походов не дошло. Рыцари-Юристы уже готовы.
Картинка из Грока, как вы понимаете
@cgevent
Нет-нет, вы не поняли, он может прям взять вашу фотку, подумать над ней и дорисовать, например, ход в крестиках-ноликах 😏
(функция доступна только доверенным бета-тестерам, полноценный релиз для всех в начале следующего года. У меня вот нет доступа, это скриншот из твиттера)
А Midjourney тем временем пивотнулись в неведомые 2д-дали.
Обещали нам сначала видеомодель, потом 3Д, потом 2.5 - "заглядывание в картинки".
На итоге выкатили что-то странное - среднее между Пинтересом и Фигмой на стероидах ЛЛМ.
Название громкое World building tool, звучит как метаверсищще!! На деле больше похоже на метамудборд.
Как пишет Ник Перье - this feels less like a world building tool and more like a GPT enabled Figma board linked to MJ api
Надо сказать, что я только что видел что-то похожее у Леонардо в виде Flow State и у Runway была потрясающая статья (которую паблики перепутали в просто кифреймами для видео) про творчество в латентном пространстве, которую я до сих пор не разобрал для вас (а именно там жир)
Меня в этот заплаточный мир не пустило - Make sure your Midjourney account is connected to your Google account
Хотя все там законнекчено давно.
В общем, если еще живы Midjournисты, растолкуйте в коментах ценность нового пивота от Midjourney
https://updates.midjourney.com/patchwork-user-guide/
@cgevent