ИИ-покалипсис ? Люди больше не нужны? Собираем все по теме нейронных сетей в одной ленте dzen.ru/ner vk.com/neir_on 👤 @gloomers
Вы будете смеяцца, но у нас новый (авторегрессионный притом) видеогенератор.
Его зовут MAGI-1 и при нем есть все кунштюки:
Сайт, где можно генерить - 500 кредитов на новый акк, 3 секунды генерации - 30 кредитов.
Техническая папира.
И код!!
Как всегда есть вопрос про разницу в коде на сайте и гитхабе.
Но.
Обещаны прям сладкие штуки:
🌀 Infinite video extension – no stitching, no cuts. Just pure, seamless storytelling.
⏱️ Second-level timeline control – precision at every frame.
⚙️ Physics-aware motion dynamics – scenes that actually make sense.
📽 From one photo to full motion – cinematic results from a single still.
А еще он генерит в каком-то конском разрешении.
Я погенерил у них на сайте, там претензия на нодовый пайплайн в духе glif.app. Скачивание видосов напрямую неочевидно, но вы справитесь (я же справился).
Главные фишки - возможность продолжать видеотрек и конское разрешение.
А теперь за код: там две модели 24B и 1.5B. Так вот, чтобы запустить 24B вам на ВОСЕМЬ H100(!).
Чтобы запустить малую, вроде как надо 4090.
Завтра проверю, сегодня перегрелся под вентиляторами H100.
Сделал пару проб. Дам в след посте.
→ MAGI-1 generates videos chunk-by-chunk using autoregressive denoising on 24-frame segments, enabling streaming generation and temporal consistency.
→ Built on a transformer-based VAE with 8x spatial and 4x temporal compression, it achieves fast decoding and competitive reconstructions.
→ Diffusion Transformer backbone includes innovations like Block-Causal Attention, GQA, SwiGLU, Sandwich Norm, and Softcap Modulation for scalable training.
→ A shortcut distillation approach supports variable inference budgets and includes classifier-free guidance.
→ MAGI-1 outperforms all open models in instruction following, motion quality, and physics prediction in both V2V and I2V.
→ Supports controllable generation with chunk-wise prompts for long-horizon synthesis and scene transitions.
https://github.com/SandAI-org/Magi-1
@cgevent
⚡️ У Krea новая фича — теперь там можно создавать целые виртуальные миры и добавлять туда 3D-объекты 💃
ИИ сам создаёт простенькое пространство, а потом предлагает поместить туда подходящие объекты. Еще и промты подсказывает, что можно сгенерировать.
И да, можно пользоваться БЕСПЛАТНО — здесь.
Lottielab заанонсили Magic Animator 😠 — новый йй для автоматической быстрой анимации интерфейсов сразу из фигмы. Ох как же легко моушерам будет житься если это будет нормально работать.
Читать полностью…Еще один ИИ-браузер 🔪
ИИ-поисковик Perplexity делает свой браузер — он будет называться Comet и работать с упором на агентов. То есть, вы даёте ИИ задачу, а он перерывает за вас интернет — не только находит информацию, но и принимает разные решения и выполняет задачи
Видимо, сейчас многие продукты/LLMки будут выпускать сторонние продукты, чтобы привлечь как можно больше инвестиций и при этом создать дополнительные площадки для сбора данных
Например, The Verge пишет, что OpenAI хочет сделать свою соцсеть с упором на генерацию картинок с помощью ChatGPT. У неё уже есть прототип, который Сэм Альтман активно показывает людям за пределами компании
К этой идее их подтолкнул Grok — по словам сотрудников одной из крупнейших лабораторий, все завидуют интеграции ИИ в Твиттер. В основном из-за того, как пользователи соревнуются в том, чтобы заставить Grok сказать что-то дурацкое 😐
Но вообще Грок в Твиттере оч удобная штука, просто тегаешь и он тебе пересказывает, например, тред
Google дропнул свой топовый видеогенератор Veo 2 для всех — создавать кинематографичные ролики можно в AI Studio.
Лимит: 3-5 видосов в день, зато БЕСПЛАТНО. Если у вас ещё не появился доступ, попробуйте притвориться американцем с помощью VPN.
Пользователи Gemini Advanced теперь могут создавать восьмисекундные видео с помощью модели Veo 2. Есть месячный лимит на создание роликов, какой — Google не уточнила.
Также компания добавила функцию анимирования картинок с помощью Veo 2 в экспериментальный сервис Whisk
vc.ru/ai/1928287
А вот это круто – если вы хотите покодить с 4.1, то в https://windsurf.com/ она доступна бесплатно эту неделю 💂♀️
Читать полностью…А ещё OpenAI решили закрутить гайки. Компания вводит «верификацию организаций» — это значит, что продвинутые функции станут доступны только по паспорту и только при условии, что страна в списке «разрешённых».
Россия в списке разрешённых не значится, а значит, некоторые наши компании, которые используют продукцию от OpenAI, могут пострадать. Судя по всему, после всех расследований, связанных с DeepSeek, компания Сэма Альтмана решила ввести фейсконтроль построже.
@lobushkin
✔️ В американском сегменте соцсетей начали реагировать на многочисленные китайские видеоролики о намечающейся реиндустриализации США
Читать полностью…OpenAI «значительно улучшила» «память» в ChatGPT, и теперь чат-бот может ссылаться на все предыдущие разговоры с пользователем.
Например, напомнить содержание беседы, которая была несколько дней назад. Обновлённая «память» доступна пользователям подписок Plus и Pro
vc.ru/chatgpt/1918921
Google добавил AI
как формулу в гугл-таблицы (но не всем пока, нужно включить тут) – наконец-то можно не мучаться с плагинами и скриптами
Тут подробнее
В Pikaframes можно загрузить до пяти кадров и получить 20 секунд анимации\видео, "проходящей" через эти кадры.
Больше, наверное, ни у кого нет.
Но если посмотреть на 3-4 ролика, то начинаешь точно угадывать момент, в который будет стык.
Во-первых, у них на движение камеры стоит easy-in easy-out и камера притормаживает к концу плана автоматически.
Во-вторых, там типичная ошибка с дублирующимся кадром, его надо ручками выкидывать, похоже. Иначе паузы.
В-третьих, переходы с движущейся камерой получаются одинаковые, некий спотыкач.
А вот на статике может быть поинтереснее. С морфингом неплохо, и очень забавный пример со скетчем. Теперь спид-пайнт можно симулировать задав пять (и еще пять) промежуточных скетчей.
В общем Пика верна себе. Больше вирусности и ваушности.
Но движение в cторону раскадровок хорошее.
@cgevent
t.me/denissexy/9715
А я давно настаиваю что человечество на планете Земля это один из многих экспериментов кого-то по "выращиванию" реально рабочего ИИ
Типа как даешь одну задачу нескольким джунам, в надежде что из несколких бесполезных юнитов хоть один придумает что-то рабочее
«В ближайшие 3-6 месяцев AI будет писать 90% кода, а через 12 месяцев почти весь код, возможно, будет генерироваться AI», — заявил Дарио Амодеи, генеральный директор Anthropic.
Полное выступление Амодеи: https://youtu.be/esCSpbDPJik
Наверное, никого не удивит, но OpenAI в очередной раз сказали неправду. Наврали. Солгали.
Раскатка GPT-4.5 Plus пользователям уже завершена 🤷♂️ вот так вот вместо «нескольких дней»
Пользуйтесь моделью с умом, скорее всего у неё лимит вроде 50 сообщений в неделю.
А ниже будет отзыв одного из подписчиков, который работает над научной статьёй для журнала: он прислал мне четыре файла и два коротких промпта, а я ему — ответы модели. Он их сравнил с результатами работы Claude Sonnet 3.7, с которым на прошлой неделе проработал эти же запросы:
«Хорошо 😇
Вот прям реально хорошо, модель отлично поняла суть работы (хотя контекста не супер много дано) и корректно расставила фокусы
Структура текста очень достойная, идеально соответствует академическому стилю письма в секции "введение"
Ну это буквально zero-shot для написания введения
Я с клодом прошел через несколько итераций редактирования, а вот эту версию сразу бы взял как первый качественный драфт»
И
«Вводный абзац сильно лучше чем у клода, мотивация хорошо выравнена с мотивацией статьи + изложено очень понятно
В последнем абзаце также качественное заключение, у клода с этим было похуже
Второй абзац - отличный
Третий и четвертый абзац - содержат отличные кусочки, но примерно половина текста не совсем соответствует сути статьи (это вследствие недостаточного контекста о работе). Но типа пишется драфт, задача не написать сразу статью, поэтому ответ очень полезный
Результатами я здесь также очень доволен, очень достойно 👍»
(язык работы был английский)
UPD: если вы хотите прогнать что-то своё, но у вас нет подписки или жалко тратить сообщения — пишите мне в комментарии. Только задачи давайте похожие, нормальные, а не «спой песенку, считая буквы R».
И снова проблемы с подсчетом пальцев у нейронок. o3 и Gemini 2.5 Pro не справляются.
AGI отменяется.
Понравился коммент на эту тему на реддите:
Их специально обучали, чтобы они не делали шестипалые руки, потому что над этим смеялись в предыдущем поколении. Теперь они абсолютно точно знают, что так быть не может, поэтому они отвергают вашу реальность и заменяют её своей.Читать полностью…
А еще o3 прекрасно определяет где было сделано фото - попробуйте, она прям в деталях каждый фрагмент рассматривает
Читать полностью…o3 и o4-mini от OpenAI релизятся
Главная фишка — новые модели натренировали использовать тулы прямо во время ризонинга. То есть они могут не только искать в интернете, но и исполнять код и пользоваться другими тулами. Обе модели мультимодальные и могут использовать это во время размышлений.
По бенчам — разнос всего, даже недавно релизнутой Gemini 2.5 Pro Experimental. Но оно и не удивительно — на тренировку o3 ушло более чем в 10x больше компьюта чем у o1.
Модели начинают раскатывать уже в ChatGPT для Pro и Plus планов, остальным через неделю. Какие лимиты — не сказали, так что скорее всего будут как у прошлых моделей. Для Pro подписчиков обещают и o3-pro, но релизнут её немного позже.
В API релизят тоже сегодня, но пока что без тулюза. Цена за o3 — $10/$40 за миллион токенов, это на треть дешевле чем o1 и в 15 (!) раз дешевле o1-pro. При этом o1 для решения задачи нужно больше токенов чем o3, поэтому o1 собираются полностью заменить на o3. А вот o3-mini стоит столько же сколько o4-mini — $1.1/$4.4 за миллион токенов, но интеллекта на доллар там тоже больше, из-за чего и o3-mini полностью заменят на o4-mini.
@ai_newz
В Японии впервые арестовали людей по делу о продаже AI-порно.
Полиция Токио задержала трех мужчин и одну женщину возрастом от 20 до 50 лет по подозрению в продаже откровенных картинок, сгенерированных нейросетью. По данным следствия, 44-летний Томохиро Мизутани, двое других мужчин и 27-летняя женщина продавали подобные материалы через интернет-аукцион с октября 2024 года. Мизутани заработал на этом примерно 70 тысяч долларов в год. По версии следствия, подозреваемые обучили генеративный ИИ на множестве реальных эротических изображений, после этого он смог создавать правдоподобные порнокартинки.
Затем ИИ давали подсказки для создания новых изображений вымышленных людей, указывая позы. После этого постеры выставляли на онлайн-аукционах с подписью «красоты ИИ». Картинки женщин, которых не существует в реальности, создавали с помощью запросов вроде «раздвинутые ноги». Чтобы обойти запрет на продажу откровенных материалов в стране, продавцы частично скрывали часть изображений на сайтах, но клиенты получали их уже без цензуры.
Anthropic запустили бету своего Deep Research
В отличии от конкурентов, он может искать не только по интернету, но и по персональным данным — этому помогают новые интеграции с Google Workspace. Они работают и без Research и уже доступны всем платным юзерам.
А вот Research доступен лишь пользователям в США, Бразилии и Японии на планах Team, Enterprise и Max. Max — это ответ Anthropic на ChatGPT Pro, она даёт увеличенные лимиты и стоит либо 100 (за 5x лимиты) либо 200 (за 20x лимиты) долларов.
@ai_newz
Разработчики китайского ИИ-сервиса Kling AI выпустили модель для создания видео Kling 2.0 и функцию Multi-Elements — с помощью неё можно «переместить» в ролик персонажа с картинки.
Например, сделать так, чтобы монстр с щупальцами оказался на лестничной клетке пятиэтажки
vc.ru/ai/1927156
Серия моделей 4.1 (кодовое название Quasar Alpha):
— Модели сделаны для разработчиков
— Сильно дешевые
— Поддерживают 1 миллион токенов контекстного окна (наконец-то)
— 4.1 следует инструкциям почти на уровне o3-mini, то есть очень хорошо
— 4.1 есть в размерах nano и mini, работает быстрее, но падает качество
— Все виды 4.1 модели прекрасно ориентируются в контекстом окне и не потеряют детали документа если его добавить
— В моделях знания до 1-го Июля 2024 года
E-com стартап Nate поймали на том, что его ИИ — на самом деле сотни филиппинцев в кол-центре. Приложение компании позволяло покупать товары на сторонних сайтах без регистрации. То есть, вы просто отправляете ссылку в Nate, а «ИИ» сам оформляет покупку с вашими персональными данными.
Компания привлекла десятки миллионов долларов инвестиций, но Минюст США провёл расследование и выяснил, что никакого ИИ нет. Все покупки вручную делали филиппинцы на другом конце света.
Несмотря на то, что Nate покупали ИИ-технологии и активно нанимали разработчиков, уровень автоматизации составлял 0%.
@zavtracast
А Пика отвечает с помощью Pika Twists
Манипуляция любым персонажем или объектом на видео, сохраняя все остальное нетронутым.
Ну, за композеров. По десятому кругу...
@cgevent
Google запустила платформу Firebase Studio для генерации приложений, сайтов и игр по текстовому описанию. ИИ-модель Gemini также помогает писать и редактировать код.
Сервис доступен бесплатно и с российских IP-адресов
vc.ru/ai/1918441
МОЩЬ: у CapCut появился свой генератор картинок, видео, а самое главное — оживлятор портретов.
ВСЕ люди на видео нереальны: нейронка заставила губы двигаться, а лица — выдавать эмоции.
Можно тестить бесплатно, подрубите VPN на США и залетайте — сюда.
Сделал еще один мелкий тул для ChatGPT:
Иногда, когда копируешь что-то в ChatGPT из веба или доков, теряется форматирование – это путает модель, так как теряется почти все – а потом сиди проставляй форматирование в доке руками
Набросал веб-штуку, куда можно вставить кусок текста с форматированием и перегнать в markdown, тот вид который лучше понимают модели:
⚙️ Format to markdown
Как всегда, данные не уходят на сервер и все процессится во вкладке браузера
P.S. Там же, можно этот же markdown перегнать в html – например, чтобы быстрее собрать веб страницу с ответом из LLM
P.P.S. Это та еще верхушка айсберга, поэтому конвертор может иногда пропускать форматы и глючить, я когда-нибудь улучшу (или нет)
Пример:
OpenAI представили на стриме 3 новых инструмента для разработчиков:
— WebSearch Tool (то же, что у ChatGPT под капотом, дообученная GPT-4o / GPT-4o-mini) для поиска информации в интернете и уменьшения галлюцинаций (нечто схожее есть у Google для Gemini)
— FileSearch Tool, чтобы делать поиск по документам (как в Ассистентах). Поддерживает фильтрацию по тэгам, которые вы присваиваете документам.
— Computer Use, или Operator (та же самая модель под капотом), но теперь как у Anthropic: можно запускать с доступом к своему компьютеру (а не только на виртуальном браузере на сервере OpenAI). На второй картинке метрики, ждём, пока сообщество доработает промпты итд и проведёт свои замеры.
Доступны в API вместе с новым SDK (библиотекой для взаимодействия с этими инструментами).
Буду обновлять пост по мере появления информации (в основном, интересны цены).
🤖 Разбираемся в моделях искусственного интеллекта
Мир ИИ развивается с невероятной скоростью, и порой сложно уследить за всеми новинками. Techcrunch коротко описал каждую модель, а я составила таблицу-путеводитель.
🔔 Подписаться / Буст
В соцсетях появились первые примеры генераций нейросети Mirage, которая создаёт видео с людьми по аудиозаписи голоса.
Модель разработали создатели Captions — видеоредактора с ИИ-функциями
vc.ru/ai/1847679