Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow
В Intel серьёзные перестановки
CEO Пэт Гельсингер ушёл на пенсию, а пока ищут полноценную замену, его роль будут выполнять два временных co-CEO - текущий CFO компании и глава Client Computing Group (подразделения, делающего консьюмерские продукты).
У компании большие проблемы: на основных рынках, где компания совсем недавно была монополистом, появились серьёзные конкуренты. Серверные процы Intel теряют свою долю рынка из-за Epyc от AMD, а Arm-процы теперь делают уже все, кому не лень - от больших клиентов, вроде Amazon, Nvidia и Google, до мелких рыбёшек вроде Ampere.
С десктопными процессорами вообще ад - Intel на пару с производителями материнок настолько их разогнали, что они просто начали гореть (при этом всё равно отставая от чипов AMD, жрущих в два раза меньше энергии). В ноутбучных тоже шляпа - 6 лет назад конкурентов совсем не было, а сейчас компанию душат одновременно AMD, Qualcomm и Apple.
Не вышло и выйти на новые рынки - компания зачем-то сделала три поколения Gaudi, чипов для нейронок, а потом убила направление в пользу серверных видеокарт, причём когда Gaudi 3 удалось догнать H100 по производительности. С серверными видяхами тоже не очень - первое поколение, вышедшее в прошлом году, совсем не задалось, второе решили просто не выпускать, третье выйдет лишь в следующем году. Пытались они сделать и свои геймерские видеокарты, где доля, которая на старте была 2% от рынка новых видях, сейчас опустилась до 0%. Кстати, завтра презентация нового поколения геймерских видях Intel.
На кошельке компании всё это отразилось крайне сильно - убытки выросли с 1,6 миллиарда во втором квартале до астрономических 16,6 миллиардов в третьем. Посмотрев на такие выдающиеся успехи, акции за последний год упали более чем в два раза.
Пока не выберут нового CEO, компания в подвешенном состоянии. У 18A (18 ангстремов) техпроцесса, на который Пэт поставил будущее всей компании, судя по слухам, значительные проблемы. Но даже его абсолютный успех мог не предотвратить продажу ряда подразделений, а что будет, если он провалится - страшно и подумать.
@ai_newz
Нейродайджест за неделю (#45)
LLM
- Model Context Protocol — открытый протокол развязывает руки LLM для работы с внешними серверами, как LSP, но для нейронок.
- INTELLECT-1 — цифровые анархисты ликуют! Первая большая распределённая тренировка прошла успешно. Модель вышла не слишком мощной, но какой задел! Кожанка ликует, ведь может повториться история с майнингом.
- Веса INTELLECT-1 — техрепорт и подробности о результатах.
- AI Assistant API — нативно интегрирован в API RAG.
- SmolVLM — мизерная VLM, умещается в 6 GB RAM, выдаёт 80 токенов/сек на M1 Max, причём значительно лучше конкурентов.
Генеративные модели
- СЛИВ SORA — на обнимающее лицо залили доступ к Sora по API, Карл! Теперь у нас есть реальные тесты второй (после MovieGen) модельки.
- Black Forest Labs подняли $200M — при оценке в $1B, став единорогом за 4 месяца.
- Курс по диффузионным моделям от KAIST — здесь всё необходимое для старта + подборка постов на тему.
Прочее
- Маск возвращается в геймдев — впервые после истории, как он, будучи подростком, продал игру за $500, Маск заявил о планах xAI возглавить рынок AI-игр.
Читать дайджест #45
#дайджест
@ai_newz
Про нейросети и технологии пишут многие. Но много из того, о чём пишет редакция ТЕХНО, нигде больше не увидишь. Контент, конечно, не такой хардкорный, как в @ai_newz, но действительно качественный и разнообразный.
ТЕХНО будет полезен тем, кто хочет быть в курсе не только развития софта, но и того, что можно пощупать ручками. Про основы AI там тоже частенько вещают. Вот, например, первый калькулятор, который определил наше представление о том, как должен выглядеть калькулятор или вот про мягкие игрушки-психотерапевты с LLM под капотом.
А в курсе последних новостей держит регулярный технодайжест.
Подписывайтесь!
#промо
Дженсен Хуанг после того как респредлённая тренировка станет возможной на консьюмерских видюхах (куртка у него уже есть)
@ai_newz
Маск пообещал заделать целую ИИ игровую студию внутри xAI, как противовес "студиям во владении гигантских корпораций". У xAI, кстати, оценка 50 миллиардов, это между Electronic Arts и Nintendo.
Как думаете, что из этого выйдет?
@ai_newz
А вот новая моделька SmolVLM работает на M1 Max на скорости в 80 токенов в секунду.
@ai_newz
AI Assistant API или RAG из коробки
RAG – это хороший способ залить в нейронку свою базу данных и избежать галлюцинаций (вот здесь я писал подробнее про это). RAG достаточно жестко задает контекст в виде фрагментов текста, на базе которых LLM должна скомпоновать ответ, то есть нейросеть не обучают на нем, а используют непосредственно в момент генерации. Имплементировать RAG самому, хоть и не очень сложно, но всё же требует специальных умений.
Тут Яндекс решил ещё упростить жизнь разработчиками и внедрил RAG в свой API. Идея в целом не новая, но в паре с неплохим облачным сервисом, на котором строятся местные компании, выходит удобный фреймворк. Он не требует специальных навыков, чтобы прикрутить AI-ассистента на сайт клиента — что сейчас, как будто бы, must-have для любого сайта. Ну а кроме этого, RAG полезен для работы с внутренней документацией, crm и прочими базами данных.
@ai_newz
Anthropic показали универсальный способ общения LLM с внешним миром
MCP (Model Context Protocol) - открытый протокол, позволяющий любой LLM получать доступ к инструментам и информации. В качестве демо Claude попросили создать веб-страницу, залить её на GitHub, создать issue и PR, что он успешно и сделал (показано на видео).
Вдохновлялись LSP - протоколом, который позволил написать ядро интеграции языка с IDE один раз и использовать её повсюду, чем изменил рынок редакторов кода, дав маленьким проектам конкурировать с большими IDE.
MCP работает по простой клиент-серверной архитектуре - приложения на основе LLM (клиенты) могут запрашивать информацию у серверов, а также пользоваться предоставленными серверами инструментами. Ещё серверы могут задавать ряд промптов. Сделать сервер довольно просто - показанный в видео сервер для GitHub написали меньше чем за час.
Клиент пока что только один - Claude Desktop, а серверы нужно разворачивать своими руками локально. Потом обещают поддержку сторонних серверов - то есть в каком-то Notion будет кнопка "привязать Claude/ChatGPT/Gemini", через которую LLM будет даваться доступ к вашим данным.
Выглядит это куда интереснее, чем то как пытаются сделать интеграции OpenAI и Google в ChatGPT и Gemini. Во-первых, MCP более гибкий - авторы приложений могут встраивать туда MCP-серверы. Во-вторых, открытость протокола позволит более маленьким провайдерам, вроде Mistral или DeepSeek, использовать куда больше тулов, чем если бы они пытались сделать это сами. Ну и, конечно же, это приближает эру агентов.
Взлетит или не взлетит - пока ещё непонятно, но выглядит многообещающе. В качестве примеров для разработчиков Anthropic сделали 9 MCP-серверов - Slack, Google Maps, GitHub и ещё несколько. Несколько компаний уже принялись делать и сторонних клиентов - к примеру, авторы Zed и Codeium.
Примеры интеграций
Туториал по протоколу
@ai_newz
На чатбот арене последние дни очень жарко 💃
Неделю назад Gemini-1114 заняла первое место на арене, обогнав все модели OpenAI. В среду OpenAI ответили более новой версией 4o, Artificial Analysis протестировали её, и выводы печальные - хоть рейтинг на арене и растёт, бенчи MATH и GPQA просели ниже результатов июльской 4o-mini. При этом, с просадкой по бенчам, более чем в два раза выросла скорость - с 80 до 180 токенов в секунду. Похоже, нам суют модель сильно поменьше за те же деньги.
Вот вам ещё одно напоминание, что теперь и арене верить решительно нельзя - несколько компаний уже несколько месяцев активно занимаются тюном под арену только чтобы повысить ELO. Живая демонстрация закона Гудхарта в действии: «Когда мера становится целью, она перестает быть хорошей мерой». Кстати, жёсткий тюн под арену не сильно помог OpenAI - новая 4o продержалась в топе всего лишь чуть больше суток. В четверг вечером первое место заняла уже Gemini-Exp-1121.
Под постом про набор интернов у меня спрашивали, чем лучше сейчас заняться в AI. Так вот, надеюсь, посмотрев на весь этот бардак с ареной, кто-то из подписчиков вдохновится темой оценки качества моделей и сможет предложить бенчи получше.
Вообще объективная автоматическая оценка качества генеративных моделей будь-то текстовых или картиночных и видео - задача важная, но все еще не решенная.
@ai_newz
Amazon инвестирует ещё 4 миллиарда в Anthropic
Слухи ходили уже какое-то время, я уже писал об этом раунде в начале ноября. И вот свершилось - Amazon всё таки удалось заставить Anthropic тренировать на своих чипах Trainium, что позволит довести эти чипы до ума, а там, глядишь, и кто-то их начнёт арендовать у амазона.
Вообще поразительно как часто сейчас случаются такие многомиллиардные сделки - неделю назад xAI подняли ещё 5 миллиардов на дополнительные 100к GPU для их Colossus . Оценка компании за полгода удвоилась, до 50 миллиардов долларов, что в 500 раз больше её годовой выручки. А сейчас уже Databricks, по слухам, ищет 8 миллиардов по оценке в 61, причём, скорее всего, компания их найдёт.
Инвестиций, даже в большие компании, столько, что я не знаю, есть ли смысл писать про каждую отдельно. Канал ведь не финансовый. А ведь есть ещё и рыбёшки поменьше...
@ai_newz
FLUX.1 Tools
Ну что, лучший генератор картинок (Recraft не в счет) решил не отставать от Midjourney и выпустил свой почти такой же набор инструментов. Все они, как полагается разработчикам модели, аутперформят решения от комьюнити.
В наборе:
- Ин/аутпейтинг — FLUX.1 Fill
- Конролнет — FLUX.1 Depth и FLUX.1 Canny, которые также идут в формате LoRA.
- IP-адаптер — FLUX.1 Redux
Классический набор готов, остальное могут сделать энтузиасты. О качестве судить пока рано — жду ваши тесты в комментариях.
А дальше, что дальше? На сайте BFL уже красуется громкая надпись:
"Up Next. State-of-the-Art Text to Video for all."
Анонс
Обнимающее лицо
GitHub
@ai_newz
Llama 3.1 405B ускорили почти до тысячи токенов в секунду
Cerebras наконец-то нашли достаточное количество своих CS-3, чтобы запустить Llama 405B, применили к ней Speculative Decoding, который использовали для ускорения 70B до 2к токенов, и обскакали SambaNova почти в 6 раз. Стоить это будет $6 input/$12 output за миллион токенов и уже доступно в бете. Всем пользователям дадут доступ в первом квартале 2025.
Столько ждать нужно из-за крайне плохой доступности железа - для того чтобы запустить Llama 405B, нужно 20-30 CS-3. Для сравнения, в Condor Galaxy, суперкомпьютере на чипах Cerebras, всего 64 CS-3. А стоит он больше ста миллионов долларов. Надеюсь, что если им удастся перейти на массовое производство, то стоимость их систем значительно упадёт. Иначе прибыльность такого API сомнительна.
Проблемы с доступностью не только у Cerebras — есть они и у Groq, которые больше трёх месяцев обещают API 405B, но, видимо, чипов просто не хватает (для запуска 405B нужно около четырёх тысяч чипов Groq). А пока что они почти догнали Cerebras на инференсе Llama 70B — 1669 токенов в секунду, при этом обещая, что следующее поколение чипов будет сильно быстрее.
К сожалению, доступ всем юзерам через чат на этот раз не дали. Да и длина контекста пока что всего 8к, но на релизе обещают сделать доступным и 128к. Скорость при таком контексте, правда, проседает, но всё равно больше полутысячи токенов в секунду. Надеюсь, к полноценному релизу R1 они откопают ещё один суперкомпьютер, и будет у нас модель, думающая секунды вместо минут.
@ai_newz
😮 R1-Lite - бесплатный конкурент o1, который скоро релизнут в опенсорс
Китайцы из DeepSeek, несмотря на крайне ограниченные ресурсы, продолжают выдавать охренительные модели мирового уровня. Их новая модель, R1-Lite, очень близка по бенчмаркам к o1-preview, где-то даже превосходит. Она также может тратить десятки тысяч токенов на размышления, при этом чем больше токенов, тем лучше результаты. DeepSeek говорят, что это только начало и тизерят модели ещё мощнее.
По бенчмаркам модель лучше o1-preview в кодинге и математике, но отстаёт в остальных задачах. С o1-mini, которая как раз в кодинге и математике сильнее, чем o1-preview (не спрашивайте), на графиках не сравнивают. Для примера, по бенчам OpenAI, у o1-preview Elo на Codeforces 1258, у o1-mini и полноценной o1 - 1650 и 1673 соответственно. По моим личным тестам, R1-Lite тоже отстаёт от моделей OpenAI.
Но насколько лучше или хуже R1-Lite, чем разные версии o1, это не так важно, ведь изначальная моделька сильно меньше и хуже. Важно, что inference time scaling заставили работать за пределами OpenAI, причём без дурацких ограничений - в отличие от o1, DeepSeek дают полный доступ к размышлениям модели. К тому же скоро обещают API и опенсорс-релиз, к которым будет прилагаться Technical Report о тренировке, а они у DeepSeek очень детальные. То есть даже если другие лабы не смогли воспроизвести inference time scaling самостоятельно, через пару месяцев свой o1 будет у всех. Вместе с base и instruct весами будут релизить ещё и reasoner.
Ещё один нюанс - DeepSeek всё ещё отрабатывают рецепт тюна на маленькой модели, перед тем как потратить заметные ресурсы на тюн большой. Отсюда и Lite в названии модели. Не факт, что она основана на DeepSeek V2 Lite, но скорее всего её смогут запустить простые смертные. Полноценный R1 будет гораздо умнее.
Попробовать можно на их сайте, включив «Deep Think». Дают 50 сообщений в день, причём абсолютно бесплатно.
chat.deepseek.com
@ai_newz
Интеренcый видос про то, как чел натренил маленькую быструю 2B VLM, которая оказалась лучшей в своем классе.
Моделька - это Phi1.6B + SigLIP 400M vision encoder. Далее чел собрал синтетический датасет LNQA (Localized Narratives Question Answering) с вопросами-ответами по картинкам, 300к пар. И натренил на нем свою модель и выложил все в опен-сорс.
Полочилась довольно сильная шустрая модель. Далее чел поднял $4.5M и строит стартап moondream.ai по тренировке мелких моделей для прода.
В общем правильные данные решают.
Github
Demo
Blogpost про синтетический QA датасет
Видео
Pixtral Large 🔥🔥🔥
Новая моделька от Mistral на 124B параметров является мультимодальным расширением Mistral Large 2, но с обновлённым системным промптом и улучшенным пониманием длинного контекста в 128K токенов. На мультимодальных бенчах показывает себя очень хорошо, по заявлениям чуть ли не SOTA.
Но Mistral часто убирает неудобные бенчи или модели из своих анонсов. Конкретно тут непонятно с какими версиями моделей сравнивают, плюс как-то очень удобно "забыли" про мультимодального Qwen2-VL и Molmo. Я добавил таблицу с ними тоже. По сути Pixtral Large даже слегка хуже чем Qwen.
Также можно потыкаться в Le Chat. Он, кстати, тоже мощно обновился. Добавили веб-поиск с ссылками на цитаты. Canvas для редактирования аутпута inline, не переписывая всё заново, как это недавно сделали в ChatGPT. Ещё прикрутили Flux Pro прямо в чат.
Веса уже лежат на Hugging Face
Le Chat
Или подключиться по API
Подробнее
@ai_newz
Яндекс Образование и НИУ ВШЭ проводят офлайн финал олимпиады по AI и Data Analysis.
Сегодня в Москве проходит финальный этап олимпиады по ИИ от Яндекс Образования и Вышки.
Задачу для молодых ML-щиков разработали в Яндекс Такси: создать модель, которая с помощью компьютерного зрения будет находить дефекты на кузове и в салоне автомобилей – чтобы вовремя отправлять их в ремонт.
30 лучших команд, которые прошли онлайн-отбор, 32 часа подряд готовили свои решения. Работы проверят сразу и сегодня уже объявят победителей. За первые три места выдадут денежные призы в размере 600, 450 и 300 тысяч рублей.
В работе используются датасеты Яндекса, так что участники практикуются в решении реальных бизнес-задач.
Если вы студент и планируете участвовать в следующем году, вот в чем вы должны разбираться:
- Мат. статистика и теория вероятностей
- Python
- Сбор, очистка и визуализация данных
- Теория алгоритмов и структур данных (ну, чутка литкода всё-таки добавили)
- Алгоритмы машинного обучения
- Фреймворки глубинного обучения
#промо
CS492(D): Diffusion Models and Their Applications
Курс по Диффузионным моделям от KAIST (Южная Корея) - если хочется поднять базу, не ходя в университет.
Читает леции вот этот чувак - Minhyuk Sung. На сайте есть записи всех лекций и слайды, плюс 2 гостевые лекции от крутых ученых.
Список лекций:
1 - Course Introduction
2 - Introduction to Generative Models / GAN / VAE
3 - DDPM 1
4 - DDPM 2
5 - DDIM 1
6 - DDIM 2 / CFG
7 - CFG / Latent Diffusion / ControlNet / LoRA
8 - Zero-Shot Applications
9 - Guest Lecture 1 by Or Patashnik
10 - DDIM Inversion / Score Distillation 1
11 - Score Distillation 2
12 - Diffusion Synchronization
13 - Inverse Problems 1
14 - Inverse Problems 2
15 - Probability Flow ODE / DPM-Solver
16 - Flow Matching 1
17 - Flow Matching 2
18 - Course Summary
19 - Guest Lecture 2 by Jiaming Song, Chief Scientist at Luma AI
https://mhsung.github.io/kaist-cs492d-fall-2024/
Ну а еще почитать про диффузию можно у меня :) Вот пара ссылок:
- Как ускорить диффузию часть 1, часть 2
- Моя любимая статья по диффузионным моделям (база)
- Разбор нашей статьи Cashe Me if You Can по ускорению диффузионок
- И ещё пара туторов, вот первый и второй
#ликбез
@ai_newz
Выложили веса INTELLECT-1, первой модели натренированной децентрализованно
Пару дней назад я уже писал про завершение тренировки, а вот релизнули и веса. Модель оказалась в среднем по бенчам примерно на уровне Llama 2 7B, но, так как сейчас есть куча моделей получше в схожей весовой категории (Llama 3.1, Qwen 2.5, Mistral Nemo, Gemma), юзать её вряд ли кто-то будет. Всё-таки для первой распределённой тренировки такого масштаба результаты отличные.
Вместе с релизом модели выпустили и техрепорт, где рассказывается, как они уменьшили необходимость коммуникации во время тренировки в 400 раз. Помимо использования смеси DiLoCo и FSDP2, они квантизируют градиенты в int8. К сожалению, никаких абляций эффективности такого метода в техрепорте нет. Оно-то точно работает, но насколько хорошо – вопрос, плюс явно можно придумать схемы квантизации получше.
В будущем Prime Intellect планируют расширить масштабы тренировки, оптимизировать стек и добавить экономические стимулы для комьюнити. Как может работать последнее – непонятно, может быть, у вас есть идеи?
Демка
Веса
Техрепорт
@ai_newz
Black Forest Labs привлекают $200M по оценке более чем в $1B
Такая оценка неудивительна - посмотрите на сравнение популярности FLUX.1 с разными версиями Stable Diffusion, у последних версий которой большие проблемы.
Вообще оцените темп - парни ушли из Stability в марте, в августе уже релизнули первую модельку, попутно зарейзив $31M на Seed. Сейчас в процессе рейза $200M по оценке $1B. Достигли единорога за 4 месяца c запуска первой модели в начале Августа! 🦄
Пацаны вообще ребята!
@ai_newz
СЛИВ SORA
или художника обидеть может каждый...
Я обычно скептически отношусь ко всем подобным заявлениям, вот, например, про strawberry. Но здесь ситуация еще более неоднозначная.
Что у нас есть:
1. Группа анонимных бетатестеров.
2. Hugging Face Space, куда захардкодили запрос на OpenAI Sora API endpoint.
Вот, зацените:
def generate_video(prompt, size, duration, generation_history, progress=gr.Progress()):
url = 'https://sora.openai.com/backend/video_gen?force_paragen=false'
headers = json.loads(os.environ["HEADERS"])
cookies = json.loads(os.environ["COOKIES"])
if size == "1080p":
width = 1920
height = 1080
elif size == "720p":
width = 1280
height = 720
elif size == "480p":
width = 854
height = 480
elif size == "360p":
width = 640
height = 360
payload = {
"type": "video_gen",
"prompt": prompt,
"n_variants": 1,
"n_frames": 30 * duration,
"height": height,
"width": width,
"style": "natural",
"inpaint_items": [],
"model": "turbo",
"operation": "simple_compose"
}
some sora-alpha-artists, Jake Elwes, Memo Akten, CROSSLUCID, Maribeth Rauh, Joel Simon, Jake Hartnell, Bea Ramos, Power Dada, aurèce vettier, acfp, Iannis Bardakos, 204 no-content | Cintia Aguiar Pinto & Dimitri De Jonghe, Emmanuelle Collet, XU Cheng, Operator, Katie Peyton Hofstadter
SmolVLM - новая VLM с мизерным потреблением памяти
Huggingface заделали конкурента для moondream, маленькой 2B VLM, о которой я рассказывал на прошлой неделе. К SmolLM 2 1.7B прицепили visual encoder от SigLIP.
Модель при мизерном потреблении памяти еще и умудряется сильно обскакать moondream по качеству! Эх, догоняйте, стартаперы!
Так мало памяти SmolVLM кушает из-за более эффективной токенизации картинок. Из-за большего размера патчей в картинках, на тот же промпт, где у SmolVLM уходит 1,2к токенов, у Qwen2-VL 2B уходит 16к. Таким образом, при одинаковом количестве параметров, SmolVLM вплоть до 5x быстрее и кушает почти в три раза меньше памяти. Размер патча в SigLip увкличили за счет применения к закодированной кантинке блока Pixel shuffle, который дополнительно уменьшает количество токенов в 9 раз. Pixel Shuffle преобразует квадраты из 3x3 токенов в один токен, перещая токены из spacial размерности в channels.
Все же тут палка о двух концах - хоть Qwen и медленнее, но качество у него сильно выше.
В принципе из-за такой эффективности модель могла бы быть довольно хороша для понимания видео, но, к сожалению, длина контекста всего 16к.
Демо
Веса
Блогпост
@ai_newz
INTELLECT-1 - первая децентрализованно натренированная LLM
Наконец-то завершилась первая большая распределённая тренировка, продолжавшаяся больше месяца на трёх континентах - в Европе, Азии и Северной Америке. В результате вышла 10B модель, натренированная на одном триллионе токенов, на что ушло около 80к H100-часов.
В тренировке поучавствовало около 30 людей и организаций, компьютом скинулся даже Hugging Face. Большую часть времени тренировки регистрация была закрыта, а поучаствовать можно было только задеплоив готовый образ на машине с 8xH100 80Gb через Prime Intellect, агрегатор GPU-провайдеров, который и организовал тренировку. В следующих трейнинг ранах обещают открыть доступ к тренировке и с другого железа и не через Prime Intellect, ждём.
Но даже когда тренировать смогут все желающие на любом железе, на консьюмерских видеокартах поучаствовать вряд-ли выйдет - сейчас в 24 гига 4090, для тренировки, влезет максимум модель 3B класса. Но через пару прорывов в распределённой тренировке, Training@home может стать реальностью.
Вышла явно не SOTA - современные модели тренируют, используя на порядок больше данных. Если авторы сильно не налажали, результаты должны быть где-то в районе Llama 2 13B. Не идеально, но в качестве proof of concept более чем достаточно.
Сделали такую распределённую тренировку возможной через слегка модифицированный DiLoCo, а код тренировки открыт и лежит на гитхабе. Сейчас модель тюнят, полный релиз будет где-то на этой неделе. Потом обещают и пейпер.
@ai_newz
Нейродайджест за неделю (#45)
LLM
- DeepSeek 2.5 – лучший в своем деле! Подъехали неожиданные результаты с Copilot Arena.
- Pixtral Large – Open source SOTA даже среди фронтирных моделей в мультимодалках, правда, и здесь не без подвоха.
- Phi1.6B + SigLIP 400M vision encoder – мини-моделька на коленке оказалась лучшей в своем классе, или о том, как случайно сделать стартап, подняв $4,5M.
- R1-Lite – опенсорс-аналог o1 от OpenAI. Пока слабенький, но главное, что мы теперь тоже научились в inference time scaling.
- Llama 3.1 405B – на скорости 1k токенов/сек. Гонки инференса продолжаются, Cerebras пока лидирует.
- Бойня на арене – Gemini топ-1, тюн под ELO арены и прочие грязные приемчики.
Генераторы всякого
- Cтримец про Movie Gen от коллег. Даже запись сохранилась.
- FLUX.1 Tools – BFL снабдили нас всем необходимым для полноценного пользования FLUX, остальное – на плечах опенсорса.
Про деньги
- Насильный манирейз от Amazon – сколько бы Anthropic ни отнекивались, все-таки взяли 4 миллиарда зеленых. И еще о других многомиллиардных сделках.
Мой ресерч
- Мой доклад про CV – видос лежит на YouTube, сделал обзор на новиночки в вижене за 2023-2024.
- Ищу Research интернов – требования серьезные, но, может, именно ты как раз проходишь.
Читать дайджест #44
#дайджест
@ai_newz
☀️Computer Vision Research in 2023-2024: A Brief Overview
Наконец-то выкладываю видео моего доклада на мини-конфе в Тбилиси в марте.
Я рассказывал про основные интересности в Компьютерном Зрении (не GenAI), которые прозошли c марта 2023 до марта 2024. За пол года SOTA уже, конечно, обновилась, но концептуально я разобрал много базированных статей 23-го и 24-го года, поэтому доклад все еще актуален.
What matters in CV in 2024:
SCALE
COMPUTE
DATA
О внедрении AI в бизнес.
Я недавно делал обзор на то, как корпорации тратят деньги на AI. В основном это LLM, которые берут на себя customer support, продажи и контент в соцсетях.
О том, как эффективно и пошагово внедрить AI в свой бизнес, — читай здесь.
Автор канала — Михаил, кандидат наук по экономике с MBA Skolkovo и владелец Black Mesa IT, которая внедряет AI-решения в крупнейшие корпорации, включая Сбер.
🔥 Рекомендую! Здесь учат использовать нейросети для роста вашего бизнеса: @KiberMisha.
#промо
Прямо сейчас идет трансляция, где коллеги рассказывают про нашу 30B Movie Gen модель!
Не знаю, будет ли запись. Но еще не поздно присоединиться.
https://atscaleconference.com/event/live-now/
@ai_newz
Приглашаем тебя на крутое IT-мероприятие, посвящённое AI и передовым технологиям разработки рекомендательных систем.
Регистрируйся, и в день мероприятия мы пришлём тебе ссылку на трансляцию. Или приходи очно, если ты живёшь в одном из городов.
Где и когда?
✔️ Владивосток, 26 ноября
✔️ Новосибирск, 28 ноября
✔️ Нижний Новгород, 5 декабря
✔️ Санкт-Петербург, 6 декабря
Тебя ждут крутейшие доклады, живая дискуссия и новые знания в сфере рекомендательных систем.
Количество мест ограничено — успей занять своё и прикоснуться к миру рекомендательных систем! 👌
#промо
Новая модель GigaChat Max от Сбера
Сбер выложил новую модель GigaChat Max. У нее заявлены увеличенная база знаний и улучшенная логика. Еще добавили Vision.
Новый GigaChat эффективнее работает с текстом и пишет код. Дает более красивые и структурированные ответы, лучше решает комплексные и творческие задачи. А по бенчмаркам уступает лишь Llama-3.1 и GPT4o.
Также GigaChat MAX хорошо показала себя при создании агентов. Ещё у них есть специальная Studio, позволяющая создавать агентов без специальных знаний.
@ai_newz
И опять настало то время года, когда я ищу Research интернов к нам в команду в Meta GenAI в Цюрихе!
Интерн будет работать непосредственно со мной и моими коллегами. Основная цель стажировки – публикация на ICLR/CVPR.
Работать будем над image&video генерацией (см. Movie Gen для примера).
Какой профиль я ищу:
- PhD студент, официально зачисленный в университет.
- Есть 2-3+ публикации на top-tier конференцииях вроде NeurIPS, CVPR, ICRL, ECCV и т.д.
- Опыт с диффузионными моделями (предпочтительно) либо с LLM.
- Дополнительным плюсом будет, если вы умеете ускорять модели либо работали с альтернативными архитектурами типа Mamba-шмамба, RWKV, и тп.
Длительность стажировки: 24 недели.
Начало: весна-лета 2025.
Визу и переезд в Цюрих спонсируем.
Писать можно мне в ЛС, прикрепляя CV. Репост и решер приветствуется - может у вас есть кто-то знакомый, кому эта вакансия идеально подойдет.
@ai_newz
DeepSeek 2.5 оказался лучшей моделью для автокомплита кода
Спустя всего пару недель после запуска, подъехали результаты с Copilot Arena. На удивление для всех, топовой моделью там оказался DeepSeek 2.5, опередив Claude Sonnet, Codestral и Llama 3.1 405B. А вот модели от OpenAI заметно отстают. GPT 4o-mini — худшая модель из всех, которые тестили, причём отставание огромное.
Что примечательно, дешевле DeepSeek 2.5 лишь Gemini Flash, и то до учёта context caching'а, который у DeepSeek автоматически хранится сутки и сбивает цену инпута в 10 раз. В реальном использовании она дешевле всех, да к тому же единственная полностью открытая модель из топа (у Codestral драконовская лицензия).
o1 и o1-mini тут не участвовали, потому что задержка там слишком высокая для автокомплита, а новая Qwen 2.5 Coder просто не успела на лидерборд. Не хватает и более специализированных моделей — вроде Cursor Tab или Supermaven, которые создатели Cursor недавно купили. Они явно будут похуже чисто из-за размеров, но вопрос, насколько.
@ai_newz