ai_newz | Unsorted

Telegram-канал ai_newz - эйай ньюз

70253

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow

Subscribe to a channel

эйай ньюз

DeepSeek выпустили новую DeepSeek 2.5

Новую DeepSeek-V2.5-1210 заметно прокачали - она выросла на бенчах по кодингу и математике, но больше всего прирост в написании текста. Это последний релиз DeepSeek V2, теперь DeepSeek полностью сфокусированы на r1 и следующем поколении их LLM - V3.

Вместе с релизом модели на их сайте появилася поиск. Работает хорошо - точно лучше чем ChatGPT Search и часто лучше Perplexity. Мне кажется это из-за количества источников - DeepSeek использует до 50 источников, все остальные в 2-3 раза меньше. Платить за всё это удовольствие, кстати, не нужно.

Попробовать модель
Веса

@ai_newz

Читать полностью…

эйай ньюз

OpenAI официально показали Sora!

Доступно будет всем подписчикам ChatGPT - и Plus и Pro. Дают кредитов на до 50 генераций в месяц Plus подписчикам и до 500 быстрых генераций Pro подписчикам. Pro подписчики с более 500 генераций попадают в "медленную очередь".

Длина видео всё таки от 5 до 20 секунд (для Plus максимум 5), а разрешение от 480p до 1080p (Plus подписчики ограничены 720p). На более длинные видео и видео разрешения уходит больше кредитов. К видео можно применять стили и создавать свои.

Показали Storyboard - продвинутый инструмент позволяющий режиссировать видео. К примеру можно попросить Sora сгенерить видео человека, который на пятой секунде видео машет рукой.

Ещё есть куча продвинутых инструментов - можно догенеривать до видео как начало так и концовку, смешивать несколько видео вместе разными способами и много чего ещё.

Модерация сейчас чрезмерно строгая, но OpenAI обещают постепенно снимать ограничения.

sora.com

@ai_newz

Читать полностью…

эйай ньюз

XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX

В RL уже давно стоит проблема чрезмерно медленных сред, особенно когда речь идёт о масштабных мета-RL экспериментах. Чтобы достичь хорошей производительности, агенту требуется огромное количество взаимодействий со средой. Если среда генерирует данные медленно, то обучение затягивается на долгие часы и дни, а исследование новых идей становится крайне неудобным.

Но на CPU достичь больших скоростей трудно - даже несмотря на то что у современных процов часто сотни ядер, они просто не могут угнаться за современными видяхами, мощность которых часто измеряется в петафлопсах. И вот поэтому среды стали переносить на GPU, но писать CUDA код, особенно быстрый не каждый ресёрчер сможет

Поэтому не так давно пошла мода писать среды на Jax - фреймворке от Google, основном конкуренте PyTorch. Создавали его в том числе под DeepMind, поэтому тамошние ресёрчеры убедились чтобы в нём было достаточно гибкости для создания таких сред. Но хоть Jax и в опенсорсе, а свои среды Google никому не даёт.

XLand-MiniGrid, созданный чуваками из T-Bank AI Research и AIRI, как раз и есть опенсорс репродукция Xland, закрытой среды от Google. Это grid-world среда, где агент перемещается по сетке и взаимодействует с объектами по определённым правилам. Такие среды можно очень просто и быстро симулировать, при этом задачи остаются нетривиальными, а результаты часто переносятся на более сложные домены. В Xland-MiniGrid агент решает задачи на основе системы правил и целей. Например:

➖ Агент видит на поле синюю пирамиду и фиолетовый квадрат. Его задача - поднять пирамиду и положить рядом с квадратом. Когда он это делает, срабатывает правило NEAR и оба объекта превращаются в красный круг.
➖ Появляется новая цель - поместить красный круг рядом с зелёным. Но если агент поместит фиолетовый квадрат рядом с жёлтым кругом, задача становится нерешаемой.

Такие правила можно комбинировать, создавая деревья задач разной глубины. В простых бенчмарках всего пара правил, в сложных - до 18. При этом позиции объектов рандомизируются при каждом сбросе среды, а правила и цели скрыты от агента. Чтобы решить задачу, ему нужно экспериментировать и запоминать, какие действия к чему приводят.

Работает это всё на бешенных скоростях - на одной RTX 4090 может симулироваться до 800к действий в секунду, а ведь можно использовать далеко не одну GPU. А для того чтобы не генерить с нуля, авторы уже сгенерили и выложили в опенсорс датасет на 100 миллиардов взаимодействий, о котором я уже писал.

Пейпер
Код

@ai_newz

Читать полностью…

эйай ньюз

Утекла экранная копия ролика Sora v2. Версию v1 видать просто пропустили:)

Ролик эффектно выглядит, но учитывайте, что это промо.
Будет доступна "совсем скоро". Ага, верим (нет), ждем.

Обещают 1 мин генерации, text2video, image2video, video2video.

@ai_newz

Читать полностью…

эйай ньюз

xAI Илона Маска запустили Aurora - свой собственный генератор картинок

После вчерашнего апдейта использовать его можно бесплатно - 10 сообщений каждые два часа. Оригинальный Grok 2 с FLUX.1 пока ещё тоже доступен.

grok.x.com

@ai_newz

Читать полностью…

эйай ньюз

Все как с цепи сорвались перед вторым стримом OpenAI

Google выпустили Gemini-Exp-1206, которая заняла первое место на арене во всех категориях (хард промпты, стиль, кодинг), плюс повысили лимиты в AI Studio (бесплатно можно потыкать гемини, нужен впн).

xAI сделали Grok бесплатным - теперь можно общаться 10 сообщений каждые 2 часа. А ещё куда-то пропал Grok 2 mini. Неужели Grok 3 не за горами?

А посмотреть стрим OpenAI можно вот тут, начнётся через 15 минут. Что, думаете, там покажут?

https://www.youtube.com/watch?v=fMJMhBFa_Gc

@ai_newz

Читать полностью…

эйай ньюз

Слухи оказались правдивыми - OpenAI запускает подписку за 200 долларов в месяц

Подписка даст доступ к o1 pro режиму - модели позволят дольше думать над запросами. Также дают неограниченный доступ к o1, o1-mini и Advanced Voice Mode.

Ещё o1 выходит из превью, релизная версия принимает на вход картинки и заметно лучше в математике и кодинге. Плюс она лучше понимает сколько нужно думать над таском - над простыми запросами теперь будет думать быстрее, над сложными - больше.

А ведь ещё ходили слухи о подписке за $2k в месяц ☠️

@ai_newz

Читать полностью…

эйай ньюз

LLM стают ещё дешевле - Lambda запустили Inference API

Миллион токенов Llama 3.1 405B в fp8 теперь стоит всего 90 центов (одинаковая цена за инпут и аутпут). Это почти в два раза дешевле самого дешёвого провайдера. Цена других моделей тоже поражает - за миллион токенов Qwen 2.5 Coder просят всего 9 центов.

Увы, пока что нет context caching и batch api, но если их когда-то добавят, то разнос будет полный. Ждём бенчей эндпоинтов и поддержку bf16.

Ещё жаль, что пока у них нет VLM моделей.

https://lambdalabs.com/inference

@ai_newz

Читать полностью…

эйай ньюз

Я недавно писал как Amazon, в обмен на дополнительные инвестиции ($4 млрд), заставили Anthropic использовать их чипы Trainium. А вот и вышла хорошая выжимка статьи с разбором этих чипов:

/channel/addmeto/5976

@ai_newz

Читать полностью…

эйай ньюз

Сейчас будет пост для новичков и повод вспомнить былое для старичков. 

Зачем ученым нужен AI? 


Тут мой бывший преподаватель по алгоритмам из Школы анализа данных в Минске, а ныне руководитель всего ШАДа Алексей Толстиков написал небольшое эссе на эту тему и собрал пару юзкейсов из академии. 

Кроме всяких чатов GPT, и Copilot'ов, помогающих писать код, машинное обучение уже давно используется в науке. Например, бозон Хиггса еще в 2012 году открыли с помощью ML (хоть и классического). Модели кормили килотоннами данных с датчиков, пока они искали какие-то необычные паттерны.

Самый известный на сегодняшний день пример, пожалуй, — AlphaFold, который предсказывает трехмерную структуру белков. Этот инструмент открыл множество новых комбинаций, за что и получил Нобелевскую премию. 

В таких задачах людям пришлось бы годами разбираться в бесконечных датасетах и графиках. Нейросети здесь незаменимы, особенно когда дело доходит до эмпирического вывода закономерностей — первого шага к построению полноценной теории или законов. 

Кстати, ШАД тоже занимается разработкой ИИ-моделей для научных задач.. Например, там собрали нейронку для предсказания распространения вулканического пепла в атмосфере. Это помогает заранее подготовиться к выпадению пепла и и минимизировать риски для людей и инфраструктуры. Такие риски есть, например, на Камчатке и в других регионах с активными вулканами. 

Технологии ИИ в науке начали применять еще давно. Например, с помощью модели Morpheus астрономы с 2020 года анализируют космическое небо в поисках экзопланет  Однако рядовой астроном или биолог вряд ли соберет AlphaFold, а обычный ML-щик без биолога тоже не справится. Поэтому ML-специалисты нужны везде! 

Вообще, междисциплинарный ресерч — это топ (я и сам начинал PhD с интердисциплинарного проекта с историей искусств). У нас уже есть Нобелевские премии по физике и химии, а еще осталась куча дисциплин, где использование AI еще не получило такого большого признания. Кто знает, может, следующая будет по истории? Например, за расшифровку каких-нибудь древних рун.

@ai_newz

Читать полностью…

эйай ньюз

Так-с, OpenAI открывет офис в Цюрихе! И это не может не радовать. Это, кстати, их первый research-офис вне США.

Круто, что в Цюрихе есть офисы почти всех самых классных AI компаний. Думаю, скоро и другие AI стартапы-переростки подтянутся.

Почему тут открывают офисы? Потому что сюда можно хайрить лучшие таланты со всего мира (не все хотят жит в США), тут очень сильные университеты по профилю AI/ML, низкая налоговая база для компаний и для работников. Плюс можно переманивать людей из других местных бигтехов.

@ai_newz

Читать полностью…

эйай ньюз

Hunyuan Video - новый опенсорс 13B видео генератор от Tencent

Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.

Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.

По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.

Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.

В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.

Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.

Статья занятная, стоит прочитать в деталях.

Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.

Демка (нужен китайский номер)
Веса
Пейпер

@ai_newz

Читать полностью…

эйай ньюз

В Intel серьёзные перестановки

CEO Пэт Гельсингер ушёл на пенсию, а пока ищут полноценную замену, его роль будут выполнять два временных co-CEO - текущий CFO компании и глава Client Computing Group (подразделения, делающего консьюмерские продукты).

У компании большие проблемы: на основных рынках, где компания совсем недавно была монополистом, появились серьёзные конкуренты. Серверные процы Intel теряют свою долю рынка из-за Epyc от AMD, а Arm-процы теперь делают уже все, кому не лень - от больших клиентов, вроде Amazon, Nvidia и Google, до мелких рыбёшек вроде Ampere.

С десктопными процессорами вообще ад - Intel на пару с производителями материнок настолько их разогнали, что они просто начали гореть (при этом всё равно отставая от чипов AMD, жрущих в два раза меньше энергии). В ноутбучных тоже шляпа - 6 лет назад конкурентов совсем не было, а сейчас компанию душат одновременно AMD, Qualcomm и Apple.

Не вышло и выйти на новые рынки - компания зачем-то сделала три поколения Gaudi, чипов для нейронок, а потом убила направление в пользу серверных видеокарт, причём когда Gaudi 3 удалось догнать H100 по производительности. С серверными видяхами тоже не очень - первое поколение, вышедшее в прошлом году, совсем не задалось, второе решили просто не выпускать, третье выйдет лишь в следующем году. Пытались они сделать и свои геймерские видеокарты, где доля, которая на старте была 2% от рынка новых видях, сейчас опустилась до 0%. Кстати, завтра презентация нового поколения геймерских видях Intel.

На кошельке компании всё это отразилось крайне сильно - убытки выросли с 1,6 миллиарда во втором квартале до астрономических 16,6 миллиардов в третьем. Посмотрев на такие выдающиеся успехи, акции за последний год упали более чем в два раза.

Пока не выберут нового CEO, компания в подвешенном состоянии. У 18A (18 ангстремов) техпроцесса, на который Пэт поставил будущее всей компании, судя по слухам, значительные проблемы. Но даже его абсолютный успех мог не предотвратить продажу ряда подразделений, а что будет, если он провалится - страшно и подумать.

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#45)

LLM
- Model Context Protocol — открытый протокол развязывает руки LLM для работы с внешними серверами, как LSP, но для нейронок.
- INTELLECT-1 — цифровые анархисты ликуют! Первая большая распределённая тренировка прошла успешно. Модель вышла не слишком мощной, но какой задел! Кожанка ликует, ведь может повториться история с майнингом.
- Веса INTELLECT-1 — техрепорт и подробности о результатах.
- AI Assistant API — нативно интегрирован в API RAG.
- SmolVLM — мизерная VLM, умещается в 6 GB RAM, выдаёт 80 токенов/сек на M1 Max, причём значительно лучше конкурентов.

Генеративные модели
- СЛИВ SORA — на обнимающее лицо залили доступ к Sora по API, Карл! Теперь у нас есть реальные тесты второй (после MovieGen) модельки.
- Black Forest Labs подняли $200M — при оценке в $1B, став единорогом за 4 месяца.
- Курс по диффузионным моделям от KAIST — здесь всё необходимое для старта + подборка постов на тему.

Прочее
- Маск возвращается в геймдев — впервые после истории, как он, будучи подростком, продал игру за $500, Маск заявил о планах xAI возглавить рынок AI-игр.

Читать дайджест #45

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

Про нейросети и технологии пишут многие. Но много из того, о чём пишет редакция ТЕХНО, нигде больше не увидишь. Контент, конечно, не такой хардкорный, как в @ai_newz, но действительно качественный и разнообразный.

ТЕХНО будет полезен тем, кто хочет быть в курсе не только развития софта, но и того, что можно пощупать ручками. Про основы AI там тоже частенько вещают. Вот, например, первый калькулятор, который определил наше представление о том, как должен выглядеть калькулятор или вот про мягкие игрушки-психотерапевты с LLM под капотом.

А в курсе последних новостей держит регулярный технодайжест.

Подписывайтесь!

#промо

Читать полностью…

эйай ньюз

xAI Илона Маска официально анонсировали text2image модель Aurora

После субботнего релиза и исчезновения модельки на какое-то время, появился блогпост с деталями и примерами генерации.

Самое интересное - Aurora не диффузионка, а авторегрессионная модель. В отличие от диффузии, которая берёт шум и в течении нескольких шагов лепит из него картинку, Aurora генерит изображения маленькими, полностью готовыми, кусочками (токенами). В процессе генерации изображение как-будто грузится сверху вниз, как раньше бывало при медленном интернете.

Большой плюс такого подхода - к модели применимы оптимизации инференса LLM, и в нее можно легко кормить одновременно и картинки и текст. Хоть диффузию можно ускорять не меньше, иметь схожую архитектуру для всех моделей - это огромный плюс. Наверное поэтому Aurora это Mixture of Experts, ровно как и первая версия Grok. Хоть про Grok 2 мало что известно, вряд-ли xAI слезли с MoE.

Из минусов такого подхода:
1) это скорость генерации, ведь нужно прогонять сеть отдельно для генерации каждого токена;
2) качество генерации. Видно гранулярность изображени, оно не всегда чёткое. Возможно это из-за того, что ради скорости пытались сделать токены большего размера.

Ещё показали редактирование картинок по текстовому промпту - моделька меняет только нужные детали, а не изкажает изображение до неузнаваемости, в отличие от большинства других генераторов. Эту фичу завезут чуть позже, пока что она недоступна.

Чтобы попробовать, нужен всего лишь бесплатный аккаунт в экс-твиттере.

@ai_newz

Читать полностью…

эйай ньюз

Вот почему Sora не пускали в сеть

А еще релиз обещают сегодня! Я уже писал об этом, но тогда это были догадки.

Marques Brownlee, крупнейший техноблогер YouTube, поделился своими тестами Sora и снял на нее обзор. Выше его тесты — бегом смотреть! Там, кстати, помимо видосов есть и обзор на UI, который подозрительно похож на MidJourney.

Я еще не успел посмотреть сам обзор, сразу побегом к вам. Но так, на первый взгляд, в генерациях, конечно, есть косяки — это все-таки технология в разработке, а не магия. У чела, например, телефон то появляется, то пропадает. Но это не то чтобы сразу бросается в глаза, как у того же Runway.

Понимание промпта — мое почтение! Кадр с новостями полностью сгенерирован без дополнительного монтажа, все плашки тоже (на них, конечно, какой-то нонсенс, но все же! Их все равно никто не читает).

Ну и очевидно, что OpenAI плевать хотели на копирайт (помните жесткий фейл Мурати?). Они 100% использовали те же самые новости, видео ютуберов и со стоков, что прекрасно видно по генерациям.

Ждем релиз и расчехляем свои кошельки на подписку! Анонс будет через 15 минут здесь.

@ai_newz

Читать полностью…

эйай ньюз

Sora всё ближе! 🥳

На сайте OpenAI уже появилась страница со списком стран где будет доступна Sora. Сюрприза не случилось: модель недоступна в ЕС и Великобритании, из-за драконовских регуляций. Всем остальным странам, где есть ChatGPT, доступ дадут.

Судя по тому, как участились утечки (вроде вчерашней экранки), релиз не за горами, может быть даже сегодня вечером! Но, мне кажется, что желающим попробовать Sora стоит приготовить $200 на новый тир подписки - генерация даже пары секунд видео это очень дорогое удовольствие, а ведь Sora 2, судя по утечкам, сможет генерить аж целую минуту!

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#47)

12 стримов OpenAI
- ChatGPT Pro за 200 баксов — анлим на o1, o1-mini и Advanced Voice Mode + доступ к еще более долгодумающему (теперь это круто) o1 Pro.
- Паника перед стримами OpenAI — все судорожно релизят свои модели (Gemini-Exp-1206) и открывают бесплатный доступ (к Grok), чтобы успеть попасть в инфополе и подпортить релиз OpenAI.
- Файнтюнинг o1 — запуск в следующем году, можно записаться на бету.

LLM
- Nova — свежие мультимодальные LLM от Amazona, но подороже конкурентов.
- Миллион токенов за 9 центов — Inference API Lambda предлагает цены в два раза ниже самого дешевого предложения, которое было на рынке раньше. А Llama 3.1 405B в fp8 стоит всего 90 центов.
- Llama 3.3 — 70B обогнала в перфомансе старую 405B, но пока это всё, других моделей не будет до 4-й версии.

Железо
- Intel на грани — CEO ушел на пенсию, оставив убыточную компанию без единого успешного направления.
- Intel Battlemage — новое поколение GPU, теперь Intel в позиции догоняющего. Это не топ-карта, а скорее бюджетная серия с неплохим коэф. цена/качество. Ждем ответки NVIDIA.
- На чем тренят Anthropic? — разбор чипов Trainium от Amazon.
- Colossus — миллионный кластер Маска. Суперкомпьютер xAI растет до невиданных размеров.

Генеративные модели

- Hunyuan Video — еще одно детище Tencent, опенсорс 13B видео-генератор + небольшой разбор архитектуры.
- Genie 2 — игровая world model от DeepMind позволяет генерить игры всех мастей и размеров. Пока еще есть над чем работать, но нас ждет шикарный AI-геймплей в будущем.
- Aurora — xAI выпустили очень сносный генератор картинок без цензуры на лица, который можно запустить в их теперь условно бесплатном чате Grok 2. Уже его убрали.

Прочее
- HuggingFace — прошла халява: ввели ограничения на хранилище. Где теперь хранить датасеты — неясно. Говорят, его использовали как облачное хранилище для обычных файлов.
- Зачем ученым нужен AI — ретроспективный пост о развитии LLM и немного об интердисциплинарном ресерче.
- OpenAI в Цюрихе — «открытая» компания впервые открыла офис вне США, и это еще и прямо у меня под боком!


> Читать дайджест #46

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

OpenAI показали файнтюнинг O1

Запустят полноценно в следующем году, пока что бета.

Заявляют, что всего из пары десятков примеров модель сможет при помощи RL научится новым скиллам в какой-то узкой области.

@ai_newz

Читать полностью…

эйай ньюз

Вышла Llama 3.3!

70B модельку дотюнили так, что она часто обгоняет даже 405B. Особенно большой прирост на математике и кодинге, в которых Llama традиционно была послабее. В этот раз релизят только 70B, других размеров и VLM нету.

Веса

@ai_newz

Читать полностью…

эйай ньюз

Начался первый из 12 стримов с анонсами OpenAI!

https://www.youtube.com/watch?v=rsFHqpN2bCM

@ai_newz

Читать полностью…

эйай ньюз

Colossus расширят минимум до миллиона видеокарт

Размер суперкомпьютера xAI, который построили за рекордные четыре месяца, пару месяцев назад начали удваивать - к 100k H100 решили докинуть 50k H100 и 50k H200. Закончены ли уже работы - непонятно, но Маск вроде пока этим не хвастался.

До лета следующего года планируется докинуть ещё 300к GB200, первые из которых начнут устанавливать уже в январе, за приоритетный доступ к GPU Маск заплатил больше миллиарда долларов. А вот сейчас выяснилось что и это не предел, а общее количество карт планируется довести более чем до миллиона.

Для понимания масштабов - Llama 3 405B тренировали на 16k H100, Grok 2 - на 20k. Кластеры для тренировки других передовых моделей тоже находятся в пределах пары десятков тысяч GPU. Следующее поколение моделей, вроде Grok 3, тренируется уже на 100k+ GPU, а компании уже закладывают инфраструктуру на всё большую и большую тренировку.

А ведь миллион GPU это не предел - уже какое-то время ходят слухи о многогигаваттных инсталляциях, стоимостью за сотню миллиардов долларов каждая, с многими миллионами чипов.

@ai_newz

Читать полностью…

эйай ньюз

Genie 2 – A large-scale foundation world model

Google DeepMind хвастаются своим игровым AI-движком на базе диффузионного генератора видео. Сейчас это модно назвать World Model, но давайте без булшита, друзья.

Imagen 3 (txt2img от GDM) генерирует картинку – типа начальное состояние игры. Затем, в привычной нам для img2video манере, картинку оживляют, превращая ее в игру, где дополнительным инпутом идет нажатие клавишь.

Пока что игра живёт лишь 60 секунд максимум (в среднем 10–20), но миры все крайне разнообразные и в абсолютно разных условиях. Я имею в виду вид от третьего лица, первого лица, сверху — и даже гонки можно сделать (и на лошади тоже), и просто бродилки, конечно же. Управление по классике: WASD (QE), пробел и мышь.

Также работает и взаимодействие с объектами, например, можно лопать шары, взрывать бочки и открывать двери на E. Там даже NPC-персонажей можно найти, если задать нужный входной "скрин".

Архитектура
Каких-то технических деталей по Genie 2 особо нет — Google на такие вещи довольно скупы. Из моего представления - там тупо latent diffusion image2video модель, где каждый следующих кадр постепенно генерируется, исходя из контекста, состоящего из существующих кадров и нажатий на клавиатуру/мышку.

Черипики с сайта сасные в плане diversity, но не ахти по качеству картинки. Возможно, через год-два каждый сможет сгенерировать себе мир по душе, так же как сейчас генерируют музыку в Suno.

Очевидно, до статуса играбельно ещё далеко. И я тут даже молчу о скорости генерации (об этом не пишут, но, думаю, там не совсем риалтайм). Несмотря на то, что у авторов были горы TPU для обучения и тысячи часов записанного геймплея, качество видео пока хуже PlayStation 1, картинка размытая, и нет четкости в деталях. Ну, и мир сильно плывет после 10–20 секунд. Есть куда улучшать.

Скоро в эту нишу могут вкатиться другие серьёзные игроки (ждём ответку от Маска). Вот тогда и посмотрим.

Блогпост

@ai_newz

Читать полностью…

эйай ньюз

Amazon релизнули Nova - новое поколение своих моделей

В семействе четыре LLM - Micro, Lite, Pro и Premier. Первые три уже доступны на AWS, а Premier ещё тренируется. Все кроме Micro - мультимодальные.

Модели вышли дороговатые - Pro по бенчам чуть лучше Llama 3.2 90B, но по сильно более высокой цене - $0.8/$3.2 за лям токенов у Pro, против $0.72/$0.72 у Llama на том же AWS. Но Amazon очень хочется чтобы сравнивали с передовыми моделями, поэтому все результаты Nova Pro в табличке выделили жирным, не смотря на результаты, хоть и сравнивают с GPT-4o и Claude Sonnet, которые сильно впереди.

Что неплохо - длина контекста. Хоть у Micro она всего 128к, у Lite и Pro она уже солидные 300к. Этого уже достаточно чтобы туда засовывать видео, пусть и в маленьком фреймрейте. Больше контекст только у Gemini.

Также релизнули Nova Canvas и Nova Reel, для генерации изображений и видео. Пока примеров генерации не очень, так что отпишусь про них я как-то потом.

Model card

@ai_newz

Читать полностью…

эйай ньюз

Intel показали новое поколение видях - Battlemage

Хоть у компании и большие проблемы, смена CEO менее чем сутки назад не помешала провести презентацию видеокарт. В этом поколении ещё больший упор на бюджетных геймеров, чем в прошлом, а показали лишь две карты. У старшей B580 12 гигов видеопамяти, по бенчам Intel она на 10% быстрее 4060, а выйдет уже 13 декабря за $249. Соотношение цена/качество очень хорошее, но стоит подождать что смогут предложить конкуренты в этом поколении.

У младшей B570 всего 10 гигов, сильно порезанные характеристики, а цена не сильно ниже — $219. Выйдет она 16 января, цену до этого момента надеюсь успеют сбросить, ведь разница в характеристиках сильно больше разницы в цене.

Набор фич в гейминге подтянули до уровня Nvidia — завезли Frame Generation в свой XeSS, аналог Nvidia DLSS. Добавили и Low Latency режим, аналог Nvidia Reflex. Но новое поколение Nvidia выходит уже в начале следующего года, а для него Хуанг явно придумал что-то новое.

Довольно большой упор делают на ИИ-фичи - сделали AI Playground, приложение, позволяющее простым юзерам запускать модели на видяхах Intel. Поддерживаются не только LLM, оно умеет ещё и в генерацию изображений - внутри Playground есть как ComfyUI, так и AUTOMATIC1111 webui. Для людей не разбирающихся, как работает Comfy, сделали библиотеку готовых пайплайнов.

Софт всё ещё сырой, но ситуация улучшается. Хвастаются, что поддержку видях Intel скоро смержат в мейнлайн PyTorch, так что запуск рандомных репозиториев будет возможен без костылей. Говорят, что стабильность драйверов тоже возросла - с момента выпуска прошлого поколения выпустили больше 50 крупных апдейтов, что исправило кучу проблем. Надеюсь, Intel сможет себе позволить выпустить следующее поколение - Celestial, желательно с хайенд видяхами. Софт к тому моменту должны уже полностью допилить, а серьёзной конкуренции на рынке GPU очень не хватает.

В общем, новое поколение потребительских GPU началось, ждём анонсов от Nvidia и AMD на CES.

@ai_newz

Читать полностью…

эйай ньюз

HuggingFace ввели ограничение на объём загруженных моделей и датасетов. Pro подписка не спасает - она всего лишь удваивает лимит до терабайта, как повысить дальше не очень понятно.

Что будет с теми кто уже превысил лимит не говорят, но, надеюсь, массовой чистки репозиториев не будет.

Конец эпохи.

Ну, и пора делать бэкапы датасетов.

@ai_newz

Читать полностью…

эйай ньюз

Яндекс Образование и НИУ ВШЭ проводят офлайн финал олимпиады по AI и Data Analysis. 

Сегодня в Москве проходит финальный этап олимпиады по ИИ от Яндекс Образования и Вышки.

Задачу для молодых ML-щиков разработали в Яндекс Такси: создать модель, которая с помощью компьютерного зрения будет находить дефекты на кузове и в салоне автомобилей – чтобы вовремя отправлять их в ремонт. 

30 лучших команд, которые прошли онлайн-отбор, 32 часа подряд готовили свои решения. Работы проверят сразу и сегодня уже объявят победителей. За первые три места выдадут денежные призы в размере 600, 450 и 300 тысяч рублей.

В работе используются датасеты Яндекса, так что участники практикуются в решении реальных бизнес-задач.

Если вы студент и планируете участвовать в следующем году, вот в чем вы должны разбираться: 
- Мат. статистика и теория вероятностей 
- Python 
- Сбор, очистка и визуализация данных 
- Теория алгоритмов и структур данных (ну, чутка литкода всё-таки добавили) 
- Алгоритмы машинного обучения 
- Фреймворки глубинного обучения 

#промо

Читать полностью…

эйай ньюз

CS492(D): Diffusion Models and Their Applications

Курс по Диффузионным моделям от KAIST (Южная Корея) - если хочется поднять базу, не ходя в университет.

Читает леции вот этот чувак - Minhyuk Sung. На сайте есть записи всех лекций и слайды, плюс 2 гостевые лекции от крутых ученых.

Список лекций:
1 - Course Introduction
2 - Introduction to Generative Models / GAN / VAE
3 - DDPM 1
4 - DDPM 2
5 - DDIM 1
6 - DDIM 2 / CFG
7 - CFG / Latent Diffusion / ControlNet / LoRA
8 - Zero-Shot Applications
9 - Guest Lecture 1 by Or Patashnik
10 - DDIM Inversion / Score Distillation 1
11 - Score Distillation 2
12 - Diffusion Synchronization
13 - Inverse Problems 1
14 - Inverse Problems 2
15 - Probability Flow ODE / DPM-Solver
16 - Flow Matching 1
17 - Flow Matching 2
18 - Course Summary
19 - Guest Lecture 2 by Jiaming Song, Chief Scientist at Luma AI

https://mhsung.github.io/kaist-cs492d-fall-2024/

Ну а еще почитать про диффузию можно у меня :) Вот пара ссылок:
- Как ускорить диффузию часть 1, часть 2
- Моя любимая статья по диффузионным моделям (база)
- Разбор нашей статьи Cashe Me if You Can по ускорению диффузионок
- И ещё пара туторов, вот первый и второй

#ликбез

@ai_newz

Читать полностью…

эйай ньюз

Выложили веса INTELLECT-1, первой модели натренированной децентрализованно

Пару дней назад я уже писал про завершение тренировки, а вот релизнули и веса. Модель оказалась в среднем по бенчам примерно на уровне Llama 2 7B, но, так как сейчас есть куча моделей получше в схожей весовой категории (Llama 3.1, Qwen 2.5, Mistral Nemo, Gemma), юзать её вряд ли кто-то будет. Всё-таки для первой распределённой тренировки такого масштаба результаты отличные.

Вместе с релизом модели выпустили и техрепорт, где рассказывается, как они уменьшили необходимость коммуникации во время тренировки в 400 раз. Помимо использования смеси DiLoCo и FSDP2, они квантизируют градиенты в int8. К сожалению, никаких абляций эффективности такого метода в техрепорте нет. Оно-то точно работает, но насколько хорошо – вопрос, плюс явно можно придумать схемы квантизации получше.

В будущем Prime Intellect планируют расширить масштабы тренировки, оптимизировать стек и добавить экономические стимулы для комьюнити. Как может работать последнее – непонятно, может быть, у вас есть идеи?

Демка
Веса
Техрепорт

@ai_newz

Читать полностью…
Subscribe to a channel