Канал, в котором мы говорим про искусственный интеллект простыми словами Главный редактор и по рекламе: @crimeacs Иногда пишут в канал: @GingerSpacetail, @innovationitsme
🔥 Movie Gen: A Cast of Media Foundation Models
Мы наконец выкатили нашу 30B модель для генерации видео! И я очень рад, что являюсь одним из контрибьютеров в этот грандиозный проект.
Bye-bye SORA. Movie Gen – это новая SOTA в генерации видео по тексту!
Модель генерит 16-секундные видео в 1080p, 16FPS.
Общая длина контекста - 73к видео токенов (256 кадров).
Выкатываем ещё:
- 13B модель для генерации видео одновременно со звуком в 48kHz.
- И ещё тюны для редактирования видео и генерации персонализированных видосов с вашим лицом по заданному фото.
В статье мы описываем много новых штук по части архитектуры, рецептов тренировки больших видео-моделей, параллелизации, увеличения скорости инференса, оценки качества, курирования данных и других трюков. В статье очень много деталей!
Сайт
Блогпост
Подробная статья (92 стр)
Скоро ждите ещё дополнительный пост с разбором.
@ai_newz
📢 Новый инструмент от OpenAI — Canvas
Сегодня рассказываю о новом инструменте от OpenAI — Canvas. Это дополнение к ChatGPT, которое помогает работать над текстом и кодом вместе с искусственным интеллектом. Canvas делает процесс редактирования и поиска решений более удобным и эффективным.
🔍 Что такое Canvas?
Canvas — это отдельное окно, в котором ChatGPT помогает вам в работе над проектом. Если вы пишете текст или работаете с кодом, Canvas лучше понимает контекст и предлагает конкретные правки. Например, он подскажет, как улучшить предложение или исправить ошибку в коде. Это как работа с напарником, который помогает улучшить ваш проект.
Canvas работает на основе модели GPT-4o и уже доступен пользователям ChatGPT Plus и Team, а вскоре станет доступен и для остальных.
🤝 Удобное сотрудничество с ChatGPT
Многие используют ChatGPT для написания текстов и работы с кодом, но стандартный чат не всегда удобен для постоянных правок. Canvas решает эту проблему с помощью:
- Инлайн-редактирования: Выделяете текст или код, и ChatGPT предлагает изменения.
- Полного контроля: Вы управляете проектом, используя удобные кнопки для изменения текста, исправления кода, настройки уровня сложности и финальной доработки.
- Прямого взаимодействия: Можно редактировать текст самостоятельно, а ChatGPT подскажет, что улучшить. Если нужно, можно отменить изменения с помощью кнопки "Назад".
Canvas автоматически открывается, когда это необходимо, например, при написании статьи, кодировании, мозговом штурме или редактировании документа. Также можно запросить его, написав "use canvas".
✍️ Инструменты для работы с текстом
Canvas предлагает полезные функции для работы с текстом:
- Предложение правок: Улучшение текста для более плавного и понятного изложения.
- Изменение длины: Укорачивание или удлинение текста.
- Настройка уровня чтения: Подгонка текста под нужный уровень сложности.
- Финальная доработка: Проверка грамматики, ясности и согласованности.
- Добавление эмодзи: Добавление эмодзи для более живого оформления текста.
💻 Удобная работа с кодом
Canvas также упрощает работу с кодом благодаря таким инструментам:
- Обзор кода: Предложения по улучшению кода.
- Добавление логов: Вставка print-выражений для отладки.
- Добавление комментариев: Автоматическое добавление комментариев для лучшего понимания кода.
- Исправление ошибок: Поиск и исправление ошибок в коде.
- Портирование в другой язык: Перевод кода на JavaScript, Python или C++.
🧠 Обучение GPT-4o работе с Canvas
Модель GPT-4o была обучена так, чтобы Canvas стал естественным продолжением ChatGPT. Модель понимает, когда нужно использовать Canvas, и выбирает между конкретными правками или полным переписыванием.
Качество комментариев, которые дает модель, также было улучшено. После тестирования и анализа модель с Canvas показала улучшение на 30% в точности и на 16% в качестве комментариев. Точность означает, насколько хорошо модель находит места, где нужны комментарии, а качество — насколько полезны эти комментарии.
🚀 Что дальше?
Canvas — это первое крупное обновление визуального интерфейса ChatGPT с момента его запуска. В планах дальнейшее улучшение, добавляя такие функции, как контроль версий, настраиваемые шаблоны и инструменты для более удобного сотрудничества.
Если вы уже пользуетесь Plus или Team версией, попробуйте Canvas и расскажите, как он меняет ваш рабочий процесс!
Подробнее про Canvas
На этом трансляция завершается, спасибо что были со мной.
Go build something cool! И не забудьте репостнуть, что бы канал рос и у меня была мотивация писать еще больше эксклюзива про AI
Сессия вопросов и ответов с Сэмом Алтменом об искусственном интеллекте и OpenAI
Q: Насколько мы близки к созданию AGI (Artificial General Intelligence)?
A: Раньше было легко определить, почему тот или иной продукт не является AGI, но сейчас это становится все сложнее. Модель O1 явно соответствует второму уровню, хотя в некоторых важных аспектах она еще не ощущается как AGI (имеются ввиду уровни автономности AGI). Мы активно работаем над развитием агентных возможностей, и если сравнить O1 с GPT-4 прошлого года, разница поразительна. Ожидайте стремительного прогресса как минимум в ближайшие два года. Мы находимся в размытой зоне — это AGI или нет? В скором времени это перестанет иметь значение. Мы продолжаем двигаться по плавной экспоненциальной кривой развития.
Q: Сохраняет ли OpenAI прежнюю приверженность исследованиям, как и раньше?
A: Да, и даже больше, чем когда-либо. Наша миссия — создать безопасный AGI. Если решение заключается в увеличении количества GPU, мы это сделаем, но сейчас все сосредоточено на исследованиях. Каждые несколько месяцев появляются новые возможности, которые меняют направление наших разработок. OpenAI гибко реагирует на то, что работает или нет, и быстро адаптируется. Хотя правительство хочет получать уведомления за 60 дней о новых возможностях, мы часто движемся быстрее.
Q: Правда ли, что OpenAI теперь лишь формально уделяет внимание проблеме выравнивания (alignment)?
A: Наш подход изменился, но мы по-прежнему стремимся создавать более мощные модели, которые работают безопасно. Новые модели приносят новые вызовы. Важно понять, куда движутся возможности, и затем обеспечить их безопасное развертывание. Безопасные системы поддерживаются набором инструментов. Модели должны быть в целом безопасными и надежными для применения в реальном мире. Когда мы создавали GPT-3, мы даже не задумывались о вещах, которые важны сегодня, потому что тогда они не существовали! Мы придерживаемся итеративного подхода, постоянно улучшаясь.
Забота о возможных научно-фантастических сценариях важна, но мы не ограничиваемся только этим. Мы хотим подходить к проблемам с разных сторон. Главное — итеративное развертывание.
Q: Как вы видите роль агентов в реальном мире?
A: O1 и его возможности рассуждения сделают агентов реальностью. Чат-интерфейсы отличны и важны, но когда вы можете попросить модель выполнить многошаговые взаимодействия с миром быстрее и дешевле, чем это могут люди, это существенно изменит то, как функционирует мир в очень короткие сроки. Люди быстро привыкают — спустя всего лишь 20 минут в автономном автомобиле вы уже не впечатлены и пялитесь в телефон.
Когда возможности улучшаются, ожидания растут: если компьютер выполняет задачу за час, вы хотите, чтобы это заняло минуту. Одна из самых увлекательных вещей в OpenAI — наблюдать за невероятно быстрым развитием идей и проектов со стороны разработчиков. Мы планируем быть небольшой частью агентов в мире; основную роль будут играть разработчики.
Q: Какие препятствия существуют для того, чтобы агенты управляли компьютерами?
A: Основные вызовы — безопасность и выравнивание. Люди готовы уступить контроль, но стандарты безопасности высоки. Важно разработать рамки безопасности и доверия.
Q: Может ли безопасность выступать ограничивающим фактором для технологий? Это приведет к более эгалитарному миру?
A: Да, это вероятно. Мы начинаем с консервативного подхода. Если вы хотите, чтобы O1 вас оскорбил, он, вероятно, должен следовать вашим инструкциям. Но мы будем консервативны, потому что система станет гораздо более мощной в короткие сроки, и мы всегда можем ослабить ограничения.
Оптимизация точности, задержки и стоимости в приложениях на базе LLM
Разработка приложений с использованием крупных языковых моделей (LLM) всегда связана с поиском баланса между точностью, задержкой и стоимостью. В этом докладе рассказывали, как эффективно оптимизировать каждую из этих составляющих.
Точность: как установить правильную цель
Первый шаг на пути к высокой точности — создание наборов оценок (evals), которые помогают протестировать производительность модели на различных этапах.
Один из способов установить целевую точность — разработать модель затрат. Сравните стоимость ошибок и успехов модели: сколько стоит исправление ошибки и сколько экономит правильное решение? Так вы сможете определить, какая точность будет для вас приемлемой. Стоит отметить, что пользователи часто ожидают от LLM более высокой точности, чем от людей.
Задержка: как её уменьшить
Задержка — это время, которое проходит от момента запроса до получения ответа. Она складывается из нескольких составляющих:
- Сетевая задержка (примерно 200 мс из-за роутинга OpenAI).
- Время до первого токена (TTFT) — задержка перед началом генерации ответа.
- Время между токенами (TBT) — задержка между выводом каждого токена.
- Количество выводимых токенов — больше токенов требует больше времени.
Как снизить задержку:
- Используйте короткие запросы и меньшие модели.
- Внедрите кэширование запросов, чтобы избегать повторной генерации.
- Сократите количество выводимых токенов — 100 токенов генерируются в 10 раз быстрее, чем 1000.
Стоимость: как сделать приложение экономичнее
Многие способы сокращения задержки также помогают снизить затраты. Например:
- Кэширование позволяет сэкономить на повторной генерации одного и того же ответа.
- Пакетные запросы (Batch Requests) снижают накладные расходы за счёт обработки нескольких запросов одновременно.
Чем меньше токенов — тем дешевле и быстрее будет работа модели.
Используйте специально сгенерированные промпты из плэйграунда
Заключение: сбалансированный подход
Оптимизация LLM-приложений требует внимательного подхода к каждому аспекту: точности, задержке и стоимости.
Установите целевые показатели, проанализируйте источники задержек и найдите способы сокращения затрат. Такой подход поможет вам создать более быстрое, точное и экономичное решение.
Еще из прикольного, все объявления на мероприятии делает голос ChatGPT (ну типа, please join your sits, session will resume shortly)
Читать полностью…Опубликовали цены на realtime api
Input: text - 5$/1M audio - $0.06/ минута
Output: text $20/1M audio $0.24/ минута
В холле стоит телевизор с генерациями из Sora, по сравнению со всеми остальными платформами (типа RunWay) качество так себе
Читать полностью…Мощные небольшие модели с помощью дистилляции
Дистилляция моделей — это путь от прототипа к масштабированию. При использовании крупных моделей, таких как GPT-4o, разработчики сталкиваются с проблемами: время отклика, лимиты на запросы и высокая стоимость. Например, GPT-4o набирает 88% на MMLU, а его уменьшенная версия GPT-4o Mini — 82%. Но важен ли этот показатель для реальных задач?
Дистилляция: узкий фокус вместо широкого интеллекта
Большие модели часто превосходят по академическим метрикам, но такие тесты не всегда отражают реальные потребности пользователей. Здесь на сцену выходит дистилляция: не нужн широкий интеллект, а только узкий. Мы обучаем меньшую модель на основе данных, сгенерированных большой моделью.
Как это работает:
1 Оценка задач: Определение критериев, по которым модель будет оцениваться.
2 Сбор данных: Запись качественных ответов большой модели.
3 Файнтюнинг: Обучение маленькой модели на этих данных.
Основные сложности
На практике только около 15% разработчиков используют API для файнтюнинга. Главная сложность — создание качественного набора данных для обучения. Однако OpenAI представила два новых инструмента, которые упрощают этот процесс:
1 Stored Completions: Сохранение ответов моделей с параметром store=True.
2 Evals (beta): Оценка производительности модели прямо в интерфейсе Playground.
Теперь вы можете сохранять все выходные данные большой модели и добавлять метаданные, такие как разделение на тест и обучение. Во вкладке Evals можно настроить критерии оценки и сразу видеть результаты. Этот новый инструмент значительно упрощает процесс.
Дистилляция GPT-4o в GPT-4o-mini
Процесс дистилляции прост:
• Определите критерии оценки
• Сохраните результаты большой модели
• Нажмите "Distill" и выберите GPT-4o-mini в качестве базовой модели.
Через некоторое время вы получите настроенную модель, которая работает немного хуже GPT-4o, но значительно легче и дешевле в использовании.
Примеры и рекомендации
Где дистилляция наиболее эффективна:
• Анализ тональности
• Извлечение сущностей
• Майндинг мнений
Где она подходит:
• Классификация
• Копирайтинг
• Генерация резюме
• Чат-боты поддержки
Где она не работает:
• Тесты MMLU/GPQA
• Вопросно-ответные системы открытого домена
• Точный перевод
Основные ошибки
• Неправильное распределение данных
• Слишком малое количество примеров
Как повысить эффективность дистилляции:
• Оптимизируйте большую модель
• Качественно подберите обучающие данные
• Не переусердствуйте с количеством примеров — достаточно нескольких тысяч.
• Работайте итеративно: оценивайте и улучшайте модель постепенно.
Дистилляция — это способ создать мощные и узкоспециализированные AI-решения, которые легко и быстро адаптируются под конкретные задачи, снижая затраты и увеличивая производительность.
Пишите в комментарии, выберу несколько и закину в бокс
Читать полностью…Началась следующая сессия, я буду делать заметки, и под конец сессии опубликую пост целиком
Читать полностью…Хотите узнать, как отечественные компании экспериментируют с генеративным ИИ?
Какие модели используют, в какие кейсы внедряют, как определяют показатели эффективности? Тогда смотрите новый выпуск подкаста Conversations with... ⚡️
В новом сезоне ребята приглашают к себе в гости экспертов топовых российских компаний, которые честно делятся внутрянкой AI-экспериментов: о работе с опенсорсными моделями, финансовых ожиданиях, об удачных (и не очень) кейсах применения нейросетей 😎
Гостями этого выпуска, например, стали специалисты по ИИ из Ozon, Samokat.Tech и Х5 🔥
Ссылки на площадки:
📱 YouTube
📺 Rutube
🤖 The agent economy.
Ребята из Felicis Ventures сделали прикольную карту, где представлены лидеры в определенных сегментах и их конкуренты, которые работают в формате AI copilots или autopilots.
1/ Что там есть любопытного?
Три группы:
▪️Горизонтальные решения (не зависят от отрасли)
▪️Вертикальные решения (отраслевые);
▪️Consumer решения.
Примеры компаний и их конкуренты AI copilots:
▫️Salesforce => 11x, Artisan;
▫️Calendly => Blockit AI, Mindy;
▫️Adobe => Jasper
▫️Tableau => Delphina;
▫️Google Translate => DeepL;
▫️Unity => Astrocade;
▫️Zillow => reAlpha;
▫️Expedia => Mindtrip.
В целом список очень залипательный. Категорийные лидеры знакомы, прям так и представляется то, как должны работать заменители.
2/ Что любопытно, так это то, что Felicis указали количество сотрудников в компаниях как прокси их размера. Может быть, они имели ввиду, что конкуренты тоже могут вырасти в большие бизнесы, но выглядит это как то, что copilots выбросят всех этих людей на улицы – немного зловеще.
👉 Ссылка на статью в блоге Felicis: https://www.felicis.com/insight/the-agent-economy
@proVenture
#ai #trends
Q: Что должны создавать стартапы с использованием API OpenAI?
A: Стартапам следует создавать то, что модели ИИ пока едва не могут делать — то, что почти не работает сейчас, но будет работать со следующим обновлением, и вы будете первыми. Технология почти никогда не является причиной для создания стартапа. Вам нужно создавать накопленные преимущества (accumulated advantage) со временем. Крутой сервис не освобождает вас от необходимости иметь хороший бизнес. Люди склонны забывать об этом.
Q: Голосовой режим взаимодействует с человеческой природой. Как вы предотвращаете злоупотребления?
A: В голосовом режиме трудно не использовать вежливые фразы. Даже я говорю "пожалуйста" ChatGPT. По мере того как эти системы становятся все более способными, они будут затрагивать те части нашего мозга, которые развивались для взаимодействия с другими людьми. Голосовой режим должен преодолеть эффект "зловещей долины". Я рекомендую говорить "пожалуйста" и "спасибо" ChatGPT — это, вероятно, хорошая привычка, никогда не знаешь.
Q: Когда появятся вызовы функций в O1?
A: Вероятно, до конца года. Модель будет становиться лучше очень быстро. Мы знаем, как масштабироваться от GPT-2 до GPT-4, и сделаем это для O1.
Q: Какие возможности конкурентов вы заценили?
A: Google NotebookLM действительно впечатляет. Это новая и хорошо сделанная вещь. Сам формат довольно интересен, а голосовые возможности очень приятны.
Q: Как вы балансируете между тем, что пользователям может понадобиться, и тем, что им на самом деле нужно?
A: Вы должны решать насущные потребности сегодняшнего дня. Это реальный вызов — научить людей использовать ChatGPT и его новые возможности. Многие люди до сих пор не осознают всю магию и преимущества.
В основном мы верим, что по мере того, как мы продолжаем повышать интеллект системы, люди сами найдут способы строить новые продукты на ее основе, и именно это будет действительно важно. Я стремлюсь интегрировать передовые разработки в продукты.
Q: Планируете ли вы разрабатывать Вопрос: модели специально для агентных случаев использования?
A: Агентные модели являются приоритетом на ближайшие несколько месяцев, но не в специфическом смысле — мы стремимся к тому, чтобы все модели были агентными и были лучшими в мире.
Q: Используется ли внутри OpenAI собственные разработки? (Dog fooding)
A: Да, мы используем промежуточные контрольные точки для внутреннего использования.
Q: когда уже О1 работники в OpenAI
A: Пока еще не O1, но скоро будет. Уже сейчас 20% команды поддержки клиентов — это ИИ. Многие процессы безопасности автоматизированы. Внутри компании есть множество примеров.
Речь идет о использовании цепочки моделей, которые действительно хороши в том, что делали люди.
Q: Есть ли планы поделиться моделями для офлайн-использования?
A: Мы открыты к этому, но это не является высоким приоритетом, у нас пока недостаточно ресурсов. Это не то, что произойдет в этом году.
Q: Многие государственные учреждения могли бы получить пользу от моделей, которые еще не развернуты. Что вы об этом думаете?
A: Учреждениям не стоит ждать появления AGI, чтобы начать участвовать. Мы хотим помочь правительствам получить пользу от технологий. Сейчас есть огромный потенциал для добра — присоединяйтесь.
Q: Каковы ваши мысли об открытом исходном коде?
A: Открытый исходный код — это замечательно, и если бы у нас было больше ресурсов, мы бы открыли больше наших разработок. Уже существуют хорошие модели с открытым исходным кодом. Для нас это вопрос того, что если мы этого не сделаем, мир этого не получит.
Q: Почему мы не можем разрешить пение для advanced voice mode?
A: Я сам задавал этот вопрос 4 раза. Проблема в авторских правах на песни. Сейчас это сложный и тонкий вопрос. Мы хотим, чтобы модели могли петь, но пока это невозможно.
Q: Каково будущее длины контекстного окна? Как балансировать между длиной окна и извлечением из памяти (RAG)?
A: Контекст длиной в млн токенов используются меньше, чем я ожидал. Когда мы перейдем от 10 миллионов к 10 триллионам (бесконечный контекст)? Для OpenAI увеличение длины контекста до миллионов токенов — вопрос месяцев.
🎙️ Realtime API: Будущее мультимодальных AI-приложений
Сегодня OpenAI представила— Realtime API, которая позволяет создавать мультимодальные, разговорные интерфейсы с малой задержкой. Это API поддерживает взаимодействие с AI через голос и текст в режиме реального времени. Вот что важно знать:
🧠 Как это работает?
Realtime API работает через WebSocket, что позволяет поддерживать постоянное соединение. Поток взаимодействия следующий:
1 Пользователь говорит 🎤
2 Аудио передаётся в API для обработки
3 API возвращает текстовые или голосовые ответы
4 Возможна интеграция с функциями, например, запрос на получение данных или выполнение задач.
🔧 Почему это важно?
Раньше для голосового взаимодействия с AI приходилось использовать несколько инструментов: Whisper для распознавания речи, Chat Completions для создания ответов, и TTS для преобразования текста в голос. Теперь же, с Realtime API, всё это объединено в один интерфейс, что значительно сокращает задержку и делает взаимодействие более плавным.
💡 Возможности:
• Мультимодальный ввод и вывод: Поддержка как текста, так и голоса.
• Нативная обработка речи: AI может отвечать в режиме реального времени без промежуточного преобразования текста.
• Вызов функций: Мгновенные действия по голосовому запросу (например, узнать погоду или забронировать билет).
• Сохранение состояния: Поддержка непрерывного разговора в течение сессии.
🚀 Применение:
1 Голосовые ассистенты для умного дома или клиентской поддержки.
2 Интерактивные истории с возможностью управлять сюжетом через голос.
3 Здоровье и благополучие: Реальные голосовые советы в ответ на запросы пользователей.
Вывод:
Realtime API от OpenAI значительно сокращает задержку, упрощает голосовые интерфейсы и открывает новые возможности для разработки приложений с естественным голосовым взаимодействием. Это шаг вперёд в построении более интуитивных и отзывчивых AI-приложений.
Начинается следующая секция, буду делать заметки и напишу пост как закончится
Читать полностью…Структурированные Выводы для Надежных Приложений на базе ИИ
Авторы: Элети Атти и Мишель Покрасс
---
В мире искусственного интеллекта (ИИ) важно обеспечить надежность и структурированность выводов больших языковых моделей (LLM) для их интеграции с внешними системами. Однако, стандартные выводы LLM часто бывают непредсказуемыми и неструктурированными.
Проблема и Решения
В июне 2023 года OpenAI представила функцию function calling, но она не полностью решила проблему надежности. На Developer Day был анонсирован JSON mode, который позволял выводить данные в формате JSON, однако сложности с вложенными структурами остались.
В августе 2024 года OpenAI внедрила Structured Outputs в API, позволяя разработчикам задавать схему ожидаемого вывода. Это значительно повысило точность и соответствие формата данных без необходимости сложного проектирования запросов.
Как Это Работает
1.Структурированные Выводы: с помощью маскировки токенов ограничивается словарь, доступный модели, что предотвращает генерацию нежелательных токенов.
2. Поддержка Грамматик:
- Регулярные выражения подходят для простых схем.
- Контекстно-свободные грамматики (CFG) позволяют обрабатывать более сложные и вложенные структуры JSON.
3. Кэширование Индексов: Для ускорения обработки индексов используются кэшированные значения.
4. Дизайн API:
- Предпочтение отдается явным схемам вместо неявных предположений.
- Строгие Свойства: Дополнительные свойства по умолчанию запрещены, все основные свойства обязательны.
Исследования и Улучшения
Для повышения качества выводов модели обучались на вложенных схемах JSON, что улучшило семантическое понимание и снизило появление лишних символов, таких как \n.
Внедрение Structured Outputs значительно повысило надежность и точность выводов LLM, облегчая интеграцию ИИ с различными приложениями и системами. Это укрепляет доверие к ИИ-решениям и открывает новые возможности для их использования в будущем.
Ивент охраняет полиция на гидроциклах, я не шучу
Читать полностью…Сказал что Сэм в 4 приедет и будет выступать с новым CTO
Читать полностью…Теперь про дистилляцию - будет доступен набор инструментов для того что бы делать свои дистилляции из их моделей
Читать полностью…Например можно затюнить для обнаружения объектов
Читать полностью…