Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow
Прошла пятая онлайн-конференция Яндекса Yet another Conference on Education. В этом году обсуждали будущее образования.
Благо, на сайте есть запись для тех, кто крутиться в этой теме и случайно пропустил онлайн-трансляцию.
Вот какие темы вас ждут:
- Свежее исследование Яндекс об AI в образовании.
- Каким сейчас представляется будущее учебного процесса?
- Какие навыки становятся востребованными?
- Как бизнес, общество и технологии трансформируют обучение?
- Как получить навыки, которых нет в специальности: софт-скилы и нейросети?
Смотрите конференцию в записи и будьте в курсе всех изменений!
#промо
Лол, стример Kai Cenat купил робота EVE.
Помните, я писал про X1? Так вот, похоже, первые модели разъехались по домам. Наблюдать за историей приходится от лица бешеных стримеров.
Плюсом ко всему, они, видимо, зафайнтюнили бота под хозяина, и теперь он, помимо обычных робо-дел, ведет себя несколько *freaky*. Спокойно произносит слово на букву "N" и говорит о том, что переспал с Alexa от Amazon. Я собрал для вас небольшую подборку выше. Зацените угар.
Но скорее всего роботом управляет человек, конечно же.
А, ну и да, еще X1 со злости разбил ему телек 😂
@ai_newz
Риалтайм предсказание положения тела по одной ego-камере😨
Одна из главных проблем всех этих ваших виаров и эйаров заключается в том, что нужно раскидать камеры по всей комнате для трекинга положения тела. Я тоже решал эту проблему, когда работал в Reality Labs - мы предложили диффузионную модель AGRoL, которая по трекингу рук и головы синтезирует движение всего тела в 3D. Теперь зацените свежачок от интернов из Meta Reality Labs.
Тут пошли еще дальше и используют только одну RGB камеру на голове (которая итак стоит во всех VR/AR очках), они смогли в реальном времени (70FPS на A100) с задержкой всего 0.17 секунд отследить положение всех конечностей, даже если они не попадают в кадр.
Ребята решили взять максимум из того, что есть: они скормили диффузионке данные о положении головы, цветную картинку и набор SLAM-точек (думайте об этом как о гауссовских сплатах на минималках). Кроме того, добавили CLIP-эмбеддинг для извлечения семантической информации (что находится в кадре). Всё это обучили на 200 часах видеоконтента с данными от motion capture костюма для захвата движений.
В результате получилась модель, которая не только лучше предшественников, но и работает супербыстро, что позволяет использовать её для онлайн-процессинга. Правда, пока SLAM работает только в статике — если, например, передвинуть стол, модель этого не заметит.
Очевидно, бенефициар этой технологии — это AR и VR. Игрушки выйдут топовые, хоть на поле 100 на 100 игроков устраивай, как это показывал Snapchat на последней презентации своих очков. Нужно только рядом кластер с хотябы 1xA100 на человека поставить 😁.
Помимо игр, технология пригодилась бы в робототехнике, в частности, для обучения робогуманоидов нормально ходить и ориентироваться в пространстве. Такие данные сложно получить сразу в большом объёме, поэтому сейчас, например, используют imitation learning, как в этом посте про живую сталь.
Пейпер
Код (скоро)
Project page
@ai_newz
Как находу сделать 3D скан какой-нибудь достопримечательности в отпуске?
Держите новиночку с CVPR2024 — NeRF On-the-go.
Для справки:
Пост про нейрорендеринг и NeRF — это метод создания 3D-модели из нескольких фото, при котором нейросеть обучается по этим изображениям для реконструкции сцены. NeRF использует трассировку лучей для получения данных о цвете и глубине каждой точки, что даёт высокую детализацию и реализм, но требует больше ресурсов.
Что такое Гаусовские Сплаты — это более простой и быстрый способ, где сцена представлена облаком размазанных пятен (гауссиан). Тренировка и рендеринг занимают меньше времени, поэтому этот метод более удобен для практического применения, хоть и немного уступает в качестве.
Ключевое различие: NeRF — это детально и медленно, с трассировкой лучей, а Гауссовские сплаты — быстро и проще, но менее детализировано.
Вы меня спрашивали, как найти классного ментора, если на текущей работе нет никого подходящего, либо если вы сам себе хозяин. Есть вариант найти себе подходящего ментора на разных платформах типа intro (у Насти есть хороший пост на этот счет).
Конечно, это стоит недешево (от $500 до нескольких тысяч в час), но я убежден, что встреча с толковым ментором раз в месяц или хотя бы раз в два месяца может очень сильно помочь и сдвинуть вас с мертвой точки в карьере.
Кроме того так вы можете знакомиться и расширять свой нетворк с людьми, которых очень трудно случайно встретить в жизни.
Кстати, это никакая не реклама, чисто делюсь лайфхаками.
#карьера
@ai_newz
Пришли ревью с ICLR. Мы получили отличные рецензии! Но как всегда есть тот самый Reviewer #2, который порет какую-то фигню.
С поддержкой остальных ревьюеров, думаю, мы легко сможем опровергнуть R2, и, надеюсь, статья будет принята.
Что за статья пока точно сказать не могу :) Могу только сказать, что она про LLM.
А как ваши ревью, если сабмитили?
#конфа #резерч
@ai_newz
Очередной хайп-тул от китайцев из ByteDance — SeedEdit
По сути, это еще один text2photoshop или по простому текстовый редактор картинок, но качество — моё почтение (судя по черипикам, а демо на Hugging Face у меня пока лежит).
Результаты получаются очень похожими на то, что даёт наш Emu Edit из соседней команды.
Пробежался по тех-репорту. Деталей там зиро, так же как и novelty:
Все таже начинают с обычной pre-trained text2img диффузии и генерят пары синтетических данных - картинка и ее отредактированная версия с инструкцией. Далее это все дело сильно фильтрут, дообучают модель на отфильтрованных парах с инструкциями. Затем опять повторяют по кругу - генерят синтетику, фильтруют и дотренивают модель. Так несколько раз.
По архитектуре: вместо добавления оригинальной картинки на вход с помощью конкатенации дополнительных каналов как в Emu Edit, тут кормят фичи оригинальной картинки в контекст self-attention блоков. Эта фишечка не новая, так делали уже например в Story Diffusion для генерации консистентных кадров.
Иначе говоря, ничего нового в методе нет, челы просто очень хорошо приготовили синтетические данные (data is the king).
Больше примеров ниже.
Демо на Hugging Face
Пейпер
Project page
@ai_newz
Кажется, OpenAI достигли потолка scaling law.
The Information (от них последнее время приходит много интересной информации) поделились неутешительными новостями о следующей LLM от империи Альтамана.
С одной стороны, o1, пройдя всего 20% тренировки, уже достиг уровня GPT-4. С другой — источники в OpenAI говорят, что следующая модель хоть и обещает быть лучше предшественника в целом, но «не надежно лучше своего предшественника». Именно поэтому обсуждается смена парадигмы нейминга. Чтобы справиться с вызовами скейлинга, OpenAI создали специальную команду — foundation team. Похоже, мы можем не дождаться ChatGPT-5. o1, конечно, выглядит перспективно, но это всего лишь один из примеров смены направления развития.
Как видно из успеха o1, следующий шаг в развитии LLM-моделей лежит не в увеличении объема данных (их, кстати, уже не хватает — в датасете уже куча синтетики), а в поиске новых подходов к скейлингу. Один из таких подходов — это chain of thought, который по сути получает прирост в качестве за счет скейлинга количества компьюта во время инференса.
Еще одно важное направление — это агенты. Антропик уже продемонстрировали computer use, так что ответ от OpenAI не заставит себя ждать (как минимум еще во время презентации 4o gpt-ишка смотрела на экран юзера). Правда, точных дат нам не называют, и это, возможно, к лучшему — не хотелось бы снова ждать полгода, как это было с voice mode после первого анонса.
И да, Orion ожидается early next year, что на языке OpenAI это может означать период с января до середины июля :)
@ai_newz
У Epoch новый бенчмарк — Frontier Math, состоящий из задач, на решение которых у профессионалов могут уйти дни. Лучшие современные модели могут решить менее 2% задач, даже с доступом к Python и кучей токенов на размышления. Для составления бенчмарка привлекли более 60 математиков из разных областей; у них суммарно 14 золотых медалей IMO (Международной математической олимпиады) и одна Филдсовская премия.
Чтобы оказаться в бенчмарке, задача должна быть оригинальной и иметь ответ, который нельзя угадать с вероятностью более 1%, не проделав большую часть работы по решению задачи. В то же время ответ должен быть легко проверяем без вмешательства человека — поэтому у многих задач в качестве ответа используется целое число (но в некоторых случаев решение проверяется через SymPy), а если для решения задачи нужно запускать код, то время выполнения референсного решения ограничено одной минутой.
Небольшую выборку получившихся задач предоставили на оценку трём лауреатам Филдсовской премии: Ричарду Борчердсу, Уильяму Гауэрсу и Теренсу Тао, а также Эвану Чену, золотому медалисту IMO, который сейчас занимается подготовкой других к олимпиаде. Они назвали эти задачи "крайне сложными" и ожидают, что для создания моделей, которые хорошо себя в них показывают, нужны годы. Основная проблема — задачи крайне специализированные, и статей на тему может быть всего около десятка.
В то же время отмечают, что "решение таких задач отличается от доказательства теорем" и что система, которая может такое решить, хоть и не сможет заменить профессионального математика, но будет крайне полезным ассистентом. Но тут важна и цена вопроса — три дня на суперкомпьютере, которые нужны были для AlphaProof для решения некоторых задач с IMO, могут стоить дороже, чем годовая зарплата математика. А ведь задачи в бенче значительно сложнее.
Небольшой нюанс: Теренс Тао придумал несколько задач для бенчмарка, а Чен выступил соавтором статьи в качестве математика, с которым сотрудничали основные авторы.
В эпоху перенасыщения старыми бенчмарками нужны новые сложные бенчмарки, у которых есть шансы продержаться несколько лет. Оценивать модели по вайбам, конечно, весело, но без воспроизводимых бенчмарков непонятно: а есть ли у нас вообще прогресс или мы просто топчемся на месте?
Пейпер
Пять задач из бенча разных уровней сложности
@ai_newz
Как корпорации тратят деньги на AI?
The Information подготовили отчёт по тратам крупнейших компаний на генеративные модели. В основном это, конечно, ллм-ки, но некоторые еще генерят картинки для креативов🥴.
Сама таблица не очень удобная, поэтому я прогнал её через LLM, чтобы распределить по группам для наглядности:
### 1. Customer Support/Service
- AT&T: Customer service chatbot
- Doordash: Customer support/contact center chatbot, voice ordering, menu, and search optimization
- Duolingo: Generating lessons, audio, and chatbot for conversational practice
- Elastic: Sales, marketing, and information retrieval internal tools
- Expedia: Customer-facing chatbot, internal tools
- Fidelity: Generating emails to customers and other materials
- Freshworks: Customer service chatbot, employee HR chatbot, document summaries
- G42: Customer-facing chatbots for healthcare, financial services, and energy sectors
- H&R Block: Customer-facing chatbot in tax software
- Ikea: Customer-facing chatbot on the website
- Klarna: Customer service chatbot and HR software
- Intuit: Chatbot and customer service features
- Mercedes Benz: Call center automation
- Oscar Insurance: Customer-facing chatbot in insurance claim software
- Radisson Hotels: Customer service assistant for managing bookings
- Snap: Chatbot
- Stripe: Customer service chatbot and fraud detection
- Suzuki: Employee chatbot apps
- T-Mobile: Customer support chatbot
- Uber: Customer support and internal HR tools
- Volkswagen: Voice assistant in vehicles, employee-facing tools
### 2. Marketing/Content Generation
- Coca-Cola: Generating marketing materials and AI assistants for employees
- Autodesk: Support, code generation, and sales
- IPG: Content generation and employee-facing chatbot
- Walmart: Curating personalized shopping lists, generative AI-powered search, assistant app
- Wayfair: Code generation
- Wendy’s: Generating suggested orders for customers
### 3. Document Processing & Information Retrieval
- Morgan Stanley: Information retrieval for wealth management
- Pfizer: Search documents by voice command and chatbot
- Toyota: Information retrieval and coding assistants for employees
- Volvo: Streamlining invoice and claims document processing
- Zoom: Meeting summarization
### 4. Development/Code Generation
- Goldman Sachs: Code generation, document search, summarization
- ServiceNow: Generating sales emails and code generation
- GitLab: Code generation
- Notion: Summarization and text generation
### 5. Employee & Internal Tools
- Fidelity: Emails to customers and other materials
- Salesforce: Chatbots and summarization for sales and HR
Physical Intelligence подняли $400M при оценке в $2 миллиарда.
Чуваки планируют создать foundation model для роботов всех мастей. Чтобы вот воткнул софтинку в машину, а она резко адаптировалась и подстроилась под существующую механику. Похоже, нас ждут «мозги по API»! Но надеюсь, к тому времени научатся считать всё локально.
Главными инвесторами стали Amazon, фонды Thrive и Lux Capital, ну и OpenAI — куда же без них.
Стартап не совсем с голой жопой. Если не считать топовый состав ко-фаундеров, в который входят Mr. Hausman, в прошлом robotics scientist в Google; Sergey Levine, профессор в Беркли, преподаёт computer science, но сам дико угарает по обучению агентов и RL (кстати, я лично с ним знаком, и вот ещё пост про воркшоп с его участием); и Lachy Groom, бывший executive в Stripe (сейчас все зарубежные подписки оплачиваются через него), так что бизнес он вести умеет. Чуваки недавно опубликовали пейпер, где представили свою первую модель pi0 (они кстати процитировали нашу Movie Gen, кек). Научили две роборуки разным приколам типа складывания одежды и уборки. Всё это мы уже видели тут, тут и тут, ну а главные в этом 1X . Да и вообще, вот есть набор «сделай сам» для точно таких же механических рук — здесь (вместе с тренировкой и записью датасета).
Но это только начало, у Physical Intelligence цель в другом. Не просто научить машину в какой-то конкретной конфигурации выполнять команды, а научить вообще всех ботов всему, в том числе саморепродукции и захвату человечества. По факту, есть закос на general purpose модель, и вот в этом и заключается наибольшая проблема - совсем непонятно смогут ли они перегнать general purpose модели от Anthropic или тех же OpenAI, которые всё лучше и лучше справляются с контролем роботов.
Источник
Пейпер
@ai_newz
Капчи для LLM - Anthropic провели хакатон в Сан-Франциско
Собралось более двухсот человек, было немало интересных проектов.
🥇 Первое место заняла команда, которая дала Claude мануал по использованию робота, и при помощи Computer Use Claude смог управлять роботом и выполнять инструкции (хотя с заметными задержками). Задача была достаточно простой, и хотя скорость работы Claude оставляет желать лучшего, сам факт того, что это работает, впечатляет.
🥈 Второе место заняла капча, которую сложно обойти современным LLM с Computer Use. Участники показали несколько способов поймать Claude: ➖ Логические задачки — LLM всё ещё часто ошибаются на таких. ➖ Анимированные паттерны, которые видны обычному пользователю, но не видны LLM, ориентирующейся по скриншотам. ➖ Ловушки — задачи на время, которые человек просто не успеет решить, а LLM справится без вопросов. Конечно, эти решения сложно масштабировать, но задача важная и её нужно как-то решать.
🥉 Третье место занял проект по улучшению ТЗ через обсуждение несколькими агентами.
Причин использовать Haiku 3.5, участники хакатона не придумали.
@ai_newz
Marimo - как Jupyter, только лучше
Огромная часть кода для ИИ пишется и запускается в Jupyter ноутбуках, как локально так и в колабах. Но они не идеальны - дефолтно редактировать код там не очень удобно, часто можно наворотить такого, что решается лишь перезапуском ноутбука. Marimo решает заметную часть проблем Jupyter, при этом привнося кучу новых фич:
➖ Реактивность - при изменении ячейки, зависящие от неё ячейки тоже автоматически пересчитываются (смотреть гифку). Если пересчитывать половину ноутбука при каждом изменении не хочется, то можно включить lazy mode, который будет всего лишь помечать ячейки устаревшими.
➖ Отсутствие "hidden state" - переменная из удалённого когда-то куска кода теперь никак не будет влиять на код текущий, рандомных перезапусков теперь будет поменьше.
➖ Поддержка ИИ ассистентов - как автокомплиты Copilot и Codeium, так и API больших моделей (OpenAI, Anthropic, Google).
➖ Интеграция с пакетными менеджерами - можно указать зависимости для конкретного ноутбука, Поддерживаются все популярные пакетные менеджеры для Python, за исключением Conda.
➖ Интерактивность - использовать местные виджеты куда проще чем в Jupyter так как не нужно использовать колбеки.
➖ Ноутбуки хранятся в обычных питон файлах, так что их куда проще хранить в гит репозиториях и запускать как скрипты.
Основной минус - неполная поддержка LSP, так что об ошибках типизации узнаёшь только когда код запускается. Отсутствие LSP в Jupyter Notebooks - одна из причин почему может быть не очень удобно использовать Cursor (Microsoft блокирует использование Pylance в Cursor, а Jedi не поддерживает Jupyter). Да и работает пока что только в браузере, но надеюсь мы получим и расширение для VS Code.
Хоть тула ещё и в альфе и не всё идеально, то что есть подаёт надежду и ощущается заметно лучше Jupyter, по крайней мере после нескольких часов которые я им пользовался.
Попробовать можно вот так:
pip install marimo && marimo tutorial intro
Super Sonic sound special effects с контролем голосом от Adobe (из анонса в этом посте).
Видали прикол? Кричишь в микрофон, а на выходе — рык дракона. txt2sfx от Eleven Labs конечно прикольно генерит, но таким образом тяжело попасть в динамику движений в кадре.
Больше всего завирусился отрывок генерации по голосу, но оказывается, модель умеет генерить ещё и по движению на футаже. Более того, можно сегментировать кадр и делать озвучку только для какой-то отдельной его части (см. видео с примером НЛО). Пока генерация чисто по видео работает не очень хорошо в сложных сценах, так что SFX-еры ещё успеют наиграться с этой тулзой, ведь она даёт наибольший контроль над динамикой и характером звука. Кстати, в кино много эффектов делают именно голосом с жирной пост-обработкой — это база.
Подобные решения уже появлялись на рынке, но без возможности описывать сам звук текстом. Можно было, например, напеть мелодию, и она переводилась в мелодию на гитаре. Хотя чего-то реально юзабельного не было. Интересно, как SuperSonic проявит себя на этом поприще.
@ai_newz
Тут за последние пару дней было несколько новых фич от LLM провайдеров
Легко было что-то упустить, поэтому я собрал всё в один пост.
OpenAI выпустили в публичный доступ SearchGPT - всё ещё отстаёт от Perplexity по качеству, зато довольно быстрый, да и обычные пользователи про Perplexity и не слышали. Но всё ещё иногда начинает искать в интернете, когда это совсем не нужно (если кто-то знает, как можно отключить эту функцию, напишите, пожалуйста, в комментариях).
Почти одновременно с SearchGPT они выпустили возможность дистиллировать модели. То есть сначала можно отвечать моделью вроде o1 либо 4o, а потом дистиллировать их ответы для вашего конкретного юзкейса в модель поменьше, например 4o-mini. Чтобы вы могли оценить, насколько хорошо это работает, добавили возможность создавать собственные методы оценки моделей. Цены соответствуют стандартным для файнтюнинга.
Ещё случайно сделали доступной полноценную o1 на пару часов - видимо релиз близко. В добавок к возможности загружать файлы и картинки, она заметно умнее o1-preview - та заметно проседает в математике и кодинге и отстаёт в этом даже от o1-mini. Кстати не первый раз случайно дают не те права доступа к модели, но раньше это было с внутренними моделями для тестирования. Интересно, GPT-5 так утечёт?
Anthropic выпустили приложение Claude для Mac и Windows — в принципе, похоже на мобильное, возможно, готовятся к релизу функции computer use для подписчиков. Ну и глобальный шортакт для вызова клода удобный.
Кроме того, теперь Claude может понимать изображения в PDF. Однако контекст для обычных пользователей всё ещё ограничен 200к токенами (против 500к у корпоративных пользователей), поэтому пользоваться, не выходя за пределы контекста, сложно.
Google добавили Grounding для Gemini в AI Studio и API. Теперь запросы к LLM можно привязывать к результатам поиска. Стоимость — $35 за тысячу запросов.
Чем из этого вы уже пользовались? Как вам?
@ai_newz
Нейродайджест за неделю (#44)
LLM
- Возможный потолок Scaling law. OpenAI меняет вектор развития.
- GPT-2 Small за 8 минут. Подъехали свежие оптимизации, теперь своя LLM обойдется всего лишь в 3 доллара.
Карьера
- Ревью с ICLR. Наша команда получила отличные рецензии!
- Как найти ментора? Есть неплохой вариант заплатить за это.
3D
- NeRF On-the-go. Делаем нерф на ходу в ужасных условиях.
- Трекаем тело по одной ego камере. В реальном времени, с лучшей точностью. Уже юзабельно в продуктах VR/AR.
Прочее
- Роботы EVE разъехались по домам. Первые тесты от "эксцентричного" Kai Cenat.
- Веса и код AlphaFold 3. Следующее поколение нобелевконосной модели для предсказания структуры стало "народным достоянием".
- SeedEdit. Очередной текстовый фотошоп. Ничего нового, но зато показывает, насколько важен хороший датасет.
> Читать дайджест #43
#дайджест
@ai_newz
Вот как выглядит работа этого метода:
Одна шакальная камера на голове, о качестве можете судить сами в правом верхнем углу. В середине — предсказанное положение тела и облако из SLAM-точек. + можете сравнить с тем, что было на самом деле.
@ai_newz
Как работают генеративные технологии, которые лежат в основе большинства визуальных сервисов? Какова их «математическая начинка»? Получите ответ на эти и другие вопросы на бесплатном интенсиве Computer Vision Week! Он пройдёт с 25 по 29 ноября онлайн и поможет вам разобраться в сложных вопросах компьютерного зрения и диффузионных моделей.
Среди организаторов — эксперты, которые создают технологии будущего: Yandex Cloud, Школа анализа данных, YaArt и YaResearch. За 5 дней они расскажут, как устроена генерация изображений на практике: от математических основ и алгоритмов до нейробайесовских методов. Вы также научитесь работать с генеративными технологиями самостоятельно и узнаете, какие горизонты они открывают для разработчиков и исследователей.
Что ещё? Вы не только послушаете лекции, но и сможете попробовать свои навыки на практике — в решении задач. Те, кто успешно справится с отборочными испытаниями и итоговой работой, получат заветный сертификат в портфолио!
Успейте зарегистрироваться до 24 ноября, пока есть места!
#промо
GPT-2 Small теперь тренируют в полтора раза быстрее
Модель теперь тренируется менее чем восемь минут на 8xH100 - всего пару недель назад это занимало более 12 минут. Стоимость тренировки упала до 3 долларов. Давайте разберём как так вышло.
Основной архитектурный трюк - улучшенный value residual learning. Он нужен потому, что модели на более глубоких слоях фокусируются на меньшем количестве токенов, что сильно снижает эффективность глубоких слоёв. Решается это домешиванием в values n-го блока values из первого блока трансформера. То есть в attention идёт не обычная value-матрица, а взвешенное среднее текущей value-матрицы и таковой из первого блока. Параметры для усреднения обучаются отдельно для каждого трансформерного блока.
Такой же трюк с value residual learning применяют и к эмбеддингам - в каждом трансформерном блоке эмбеддинги также взвешенно усредняются, как и value-матрица.
Ещё одно изменение, которое срезало чуть больше минуты от тренировки, - отвязывание embedding-слоя от lm head. Это повысило количество параметров на 39 миллионов, но никак не повлияло на количество активных параметров и время каждого шага. Авторы репозитория сказали, что с данного момента будут ограничивать себя активными параметрами, так что мы вполне можем увидеть MoE через неделю-другую.
Из мелочей - lm head инициализируется теперь нулями, а после эмбеддинг-слоя добавили одну норму. Максимальное значение логитов теперь ограничено, по заветам Gemma 2. А ещё заметили что по дефолту в PyTorch bfloat16 используется достаточно консервативно и вручную заменили fp32 на bfloat16 в паре мест.
Кстати, автор доказал, что они скейлятся как минимум до 1.5B, по крайней мере на нескольких миллиардах токенов. Это обнадёживает, но не означает, что все эти трюкт стоит использовать в тренировке больших моделей. Ждём, когда кто-то попробует это либо на моделях побольше (7B+), либо на бо́льшем количестве токенов (1T or bust).
Такие спидраны нужны по двум причинам. Первая — повышение эффективности претрейна больших моделей: даже если не всё масштабируется, то что-то точно будет. А наличие чёткого базового уровня помогает лучше понять эффективность каждого отдельного изменения. Вторая - повышение доступности ресёрча. Одна 3090 может натренировать такую модель примерно за 8 часов (одну ночь), без этих оптимизаций тренировка на 3090 приближалась бы к суткам, что сильно снижает скорость итерации.
https://github.com/KellerJordan/modded-nanogpt/
@ai_newz
⚡️ Machine learning - крупнейший обучающий канал для всех, кто хочет погрузиться в Машинное обучение, Аналитику данных и ИИ.
По контенту:
1. Разбираем за вас самые интересные мл модели, новости и анонсы.
2. Ежедневные мл-дайджесты.
3. Курсы, гайды, уроки и обучающие материалы.
4. Решаем задачи с собеседований.
5. Публикуем бесплатные книги, учебники и разбор статей,
6. Подготовили для вас целую папку со всем необходимым для МЛ- специалитса.
И многое другое.
Подписывайтесь, такие знания в 2024-м году на вес золота: t.me/ai_machinelearning_big_data
#промо
Вот еще примеры SeedEdit. Первые две картинки с китайского сайта, где, вроде бы, можно потыкать модельку, пока Hugging Face лежит, но нужен китайский номер. Демки целых две: вот первая и вторая. Остальные — это черрипики из статьи.
@ai_newz
Google DeepMind релизнули веса и код AlphaFold 3
За предыдущую версию Демису Хассабису дали нобелевку, а эта, по заявлениям гугла, как минимум на 50% лучше.
Раньше доступ был лишь через AlphaFold Server, с ограничением в 20 запросов в день. Код уже на гитхабе, а веса доступны по запросу, обещают одобрить или отклонить в течении 3 рабочих дней.
Важно: лицензия некоммерческая и очень жёсткая, использование коммерческим организациям и в коммерческих целей запрещено. Также запрещено распространение весов и тренировка своих моделей на аутпутах AF3.
Запускается на видюхах с 16 гигами, но с ограничением длины контекста в 1280. Лучше юзать как минимум A100 на 40 гигабайт. Всякие A6000 тоже в теории подходят, но авторы тестировали точность модели только на H100 и A100.
А у нас есть кто-то кто пользуется AlphaFold в рабочей деятельности? Как вам?
Github
Курс по использованию AlphaFold
@ai_newz
Нейродайджест за неделю (#43)
LLM
- API Claude 3.5 Haiku. Дорого и бесполезно, картинок на входе еще даже нет.
- Frontier Math. Самый сложный бенчмарк от Epoch. С ним справятся не все доктора наук, а LLM решает эти задачи чуть чаще, чем никогда (<2%).
Про деньги в индустрии
- Где бабки Лебовски, или куда тратят деньги корпорации в AI. Репорт от The Information слил расходы на AI 50 крупнейших корпораций.
- Anthropic и золотые горы. Главный конкурент OpenAI привлекает несколько миллиардов "зеленых". Амазону понравилось доить API Антропиков.
- Physical Intelligence. Стартап, заручившись поддержкой Амазона, OpenAI и фондов, строит foundation model для всех типов роботов.
Генеративные модели
- Super Sonic. Генерим спецэффекты по видео или голосом от Adobe.
- FLUX1.1 pro Ultra and Raw Modes. Еще один хит от Black Forest Labs! Генерит картинки в 2k с потрясающей детализацией. Картинка стоит $0.06 по API. Примеры.
Прочее
- Marimo. Прокаченная версия Jupyter ноутбука, куча фич, упрощающих жизнь, топ для пользователей ноутбуков.
- Хакатон Anthropic. Наделали кучу прикольных проектов, среди которых мануал для Computer Use Claude, благодаря которому он научился управлять роботом и выполнять команды, а еще капча против LLM.
> Читать дайджест #42
#дайджест
@ai_newz
Anthropic собирается привлечь ещё несколько миллиардов долларов инвестиций
Инвестором снова должен выступить Amazon, который уже инвестировал в компанию 4 миллиарда долларов. Оценка в этом раунде инвестиций ожидается в районе 30-40 миллиардов долларов.
Amazon явно понравились результаты инвестиций - AWS, главная дойная корова компании, показывает очень хороший рост во многом из-за продажи AI API. Плюс Amazon пихает Claude сейчас куда только возможно - от чатботов на сайтах и в приложениях, до их конкурента Github Copilot. А ещё планируемая интеграция в Alexa, по платной подписке.
Загвоздка на этот раз в том, что Amazon хочет, чтобы Anthropic использовал Trainium - собственные чипы Amazon. Они их произвели в огромных количествах, но никто не хочет их использовать. Я даже не припомню ни одной статьи, где использовали бы Trainium. Anthropic в качестве клиента поможет отполировать софт до хорошего уровня, плюс сделает неплохую рекламу, если на них смогут натренировать какие-то передовые модели.
Такие условия не новинка в индустрии — в прошлом году Intel провернула такой же трюк со Stability, предоставив им свои чипы Gaudi 2 вместе с инвестициями. Да и сами Anthropic как минимум использовали TPU для инференса после того, как Google в них инвестировал.
С кнутом есть и пряник - ведутся переговоры о постройке Amazon кластера для обучения для Anthropic - вроде тех, что Microsoft строит для OpenAI, а X.AI и Meta для себя. Будут ли там Trainium или более традиционные чипы от Nvidia - непонятно.
Понятно только одно – инфраструктурная гонка все еще набирает обороты, а клауд провайдеры снимают жирнющие сливки от огромного запроса на инференс и тренировку больших AI моделей.
@ai_newz
🔥FLUX1.1 [pro] Ultra and Raw Modes
Новый релиз от Black Forest Labs! 4k изображения и более реалистичный режим!
1. FLUX1.1 [pro] Ultra - теперь можно генерить картинки в 4k разрешении! Причем довольно быстро - за 10 сек.
$0.06 за картинку
2. FLUX1.1 [pro] Raw - режим, который передает подлинное ощущение спонтанной фотографии. Генерит изображения с менее синтетической, более естественной эстетикой. Он значительно увеличивает разнообразие человеческих образов и улучшает реализм
@ai_newz
Об AI в образовании: универы по всему миру все активнее используют нейронки
Яндекс Образование и ВШЭ выпустили карту университетов, которые решили внедрить ИИ в обучение. Получилась кейсотека с примерами того, для каких задач студенты и преподы используют ИИ. Проект поможет вузам определиться с наиболее подходящими стратегиями интеграции нейросетей. Собрал несколько любопытных примеров.
#промо
Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»
Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML
— @ai_newz — эйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте
— @seeallochnaya — Сиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории
— @gonzo_ML — gonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны
— @rybolos_channel — Kali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности
— @boris_again — Борис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM
— @tech_priestess — Техножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении
— @dealerAI — DealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей
— @sysblok — Системный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках
Anthropic наконец-то релизнули API Claude 3.5 Haiku
Результаты SWE Bench выше чем у июльского Sonnet 3.5. Cutoff данных тренировки - июль 2024.
Этого мало чтобы перекрыть минусы - цена выросла в 4 раза по сравнению с 3.0, а изображения в качестве инпута модель на старте просто не поддерживает. Кажется Anthropic, которые изначально и начали гонку дешёвых моделей, решили просто заняться рекламой GPT 4o-mini и Gemini Flash.
Я совсем не понимаю зачем использовать эту модель, а что думаете вы?
@ai_newz
Нейродайджест за неделю (#42)
Робототехника
- CoTracker3 — новая модель для трекинга точек от исследователей из Meta. Как минимум это полезно для обучения роботов и контролируемой генерации видео.
- Как научить роборуку играть в дженгу за 1 час — пособие для начинающих. Все благодаря тому, что демонстрации человека и исправление ошибок встроены прямо в RL-пайплайн.
ЛЛМ
- MoE улучшает память больше, чем reasoning — статья пытается ответить, почему MoE показывает хорошие результаты по World Knowledge, но уступает в математике и логических рассуждениях по сравнению с плотной моделью.
- YandexGPT 4 — звёзд с неба не хватает, но и прогресс есть.
- Github Copilot на подъёме — новые фичи и поддержка актуальных LLM. Наконец-то достойный конкурент Cursor.
- Дайджест по LLM провайдерам — вышло много обновлений, собрал все в одном посте. Даже случайно слили o1 (уже не превью), OpenAI дали общий доступ на пару часов, лол.
Генеративные модели
- Recraft.ai — «Тёмная Лошадка» обошла Flux на арене. Респект ребятам!
- Adobe Max — большой дайджест по презентации Adobe, где показали много реально полезных инструментов. Must-read для дизайнеров.
Прочее
- О ценности PhD — так что, ребят, продолжаем рисерчить.
- Ещё -1 в OpenAI — Chief Research Officer Боб МакГрю ушёл в безвеременный отпуск. Денег он уже набрал достаточно и вертел всю эту «Игру престолов». Коллективно понимаем...
> Читать дайджест #42
#дайджест
@ai_newz
На днях стали известны итоги прошедшего ML Prize. Заявлено всего было 160 работ, из которых выделили 14 самых значимых. Победители получили денежную премию в зависимости от номинации и ещё гранты в Yandex Cloud для расчетов + остальные плюшки. Пейперы worth to check out, особенно если сами планируете двигать ML. Отобрал неплохие бумаги, вот парочка:
Вот пытаются сделать децентрализованную многоагентную навигацию для робо-роя, исследование на dissercat. Кроме всяких футуристичных штук, полезно в складской логистике.
Ещё разрабатывают методы обучения генеративных моделей на основе теории оптимального транспорта. Планируют применять для проектирования (как ни странно) транспорта, а также материалов и лекарств.
Ещё об оптимизации децентрализованных систем и асинхронных вычислений.
Было еще много всего про многоагентные системы и оптимизации. Ну и здесь стоит добавить, что премия выдавалась не за конкретные пейперы, а по категориям. Подробнее здесь
@ai_newz