Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу на острове Самуи, где исследую и применяю технологии искусственного интеллекта. Делюсь своим опытом и новыми открытиями в этой и смежных областях.
Эрик из команды Cursor показывает чуть обновлённый Cursor Agent - инструмент, работающий как полноценный разработчик с доступом к вашему проекту. В отличие от обычного режима Composer, агент может самостоятельно выполнять действия.
Основные функции- Автономная работа с кодом (чтение, запись, поиск)
- Выполнение команд в терминале (установка пакетов, запуск серверов)
- Взаимодействие с базами данных (показали работу с postgres)
- Автоматическое исправление ошибок линтера с последующей проверкой
- Yolo режим - автономная работа с терминалом
Через @ команды можно расширять контекст:@web - поиск документации в интернете
@file - добавление файла в контекст
@folder - доступ к папке с файлами
Настройка через .cursorrules в корне проекта:- Привязка правил к файлам
- Описание стиля кода
- Ограничения по технологиям
- Шаблоны для типовых задач
Агент в Composer включается через cmd/ctrl + точка или в интерфейсе нового composer.
Сергей Булаев AI 🤖 - об AI и не только
OpenAI дебютировала на Super Bowl с 60-секундным роликом. "The Intelligence Age" - так называется их реклама, где ChatGPT представлен как следующий большой скачок в развитии человечества после огня, колеса, телевидения и интернета.
Интересно, что несмотря на тему ИИ, ролик полностью создан людьми. Sora использовалась только на этапе проектирования. Визуально реклама выполнена в фирменном стиле OpenAI - точки складываются в узнаваемые образы, ДНК превращается в телевизор, всё в таком духе.
За рекламу отвечала Кейт Роуч, которую OpenAI переманили из Coinbase в декабре (помните QR-код на прошлом Super Bowl?). По её словам, "мы находимся на заре эпохи интеллекта, и вы можете участвовать в этом прямо сейчас". 14 миллионов долларов за 60 секунд в прайм-тайм - немало, но похоже OpenAI всерьёз взялись за массовый рынок.
Сергей Булаев AI 🤖 - об AI и не только
Голосовые ИИ-агенты становятся всё мощнее и доступнее. Попался свежий интересный отчёт a16z по теме.
Голос превращается в основной способ взаимодействия с ИИ. Это самая естественная и информативная форма коммуникации, и впервые в истории мы можем использовать её как полноценный "интерфейс".
2024-й стал прорывным для голосовых технологий:- OpenAI выкатили GPT-4o с поддержкой real-time голоса
- ElevenLabs запустили очень сложные голосовые модели
- NVIDIA также показывали новые возможности для разговорного ИИ
Что особенно радует - качество диалогов уже почти не отличить от человеческого. Задержки минимальные, эмоции передаются, можно перебивать. Я регулярно общаюсь с ChatGPT голосом и мне всё ещё очень нравится это.
Рынок рванул во второй половине года - 22% стартапов последнего набора YC были связаны с голосовыми технологиями. При этом цены постоянно падают (например, OpenAI серьёзно снизила стоимость GPT-4o API в декабре).
Самые интересные применения:- Обработка звонков в нерабочее время
- Новые типы исходящих звонков (которые раньше были невыгодны), типа кастомер чеков
- "Бэк-офис" звонки между бизнесами. (вроде мед клиник звонящих в страховые)
- Коучинг и тренинги для высокооплачиваемых специалистов (немного сам в этой теме)
Кстати, AI-собеседования тоже показывают хорошие результаты. Боты часто справляются лучше живых рекрутеров на этапе первичного скрининга.
Большинство стартапов (около 69%) фокусируются на B2B решениях, за ними идёт здравоохранение (18%) и потребительский сегмент (13%).
Очевидно, 2025-й станет годом массового внедрения голосовых агентов. Как вы понимаете я и сам работаю с ними уже некоторое время, планирую только наращивать взаимодействие.
Сергей Булаев AI 🤖 - об AI и не только
В Лас Вегасе проходит технологичная выставка CES2025. Несколько интересных кейсов от туда.- Land Aircraft Carrier - модульный летающий автомобиль (на самом деле машина со встроенным квадракоптером)
- Portalgraph - 3d проектор, способный показывать виртульные объекты в реально мире (круче чем в Звёздных войнах)
- Комната, сделанная полностью из дисплеев
- Roborock Saroz Z70 - робот пылесос со встроенным манипулятором, позволяюшим ему поднимать и переносить вещи
- Yangwang U9 (от BYD) - автомобиль пргающий над препятствиями на 6 метров вперёд
- Прозрачный беспроводной OLED дисплей от LG
- Персональный AI компьютер DIGITS от NVIDIA, сравнимый по размеру с Mac Mini, но эффективнее в 1000 (примерно) раз чем типичный ноут
- Halliday Glasses - очередные очки со встроенным ИИ агентом, отвечают на вопросы на встречах, обеспечивают перевод в реальном времени
- Samsubg Vision AI - телевизор с переводом в реальном времени, ИИ апскейлом и генерацией саммари
Сергей Булаев AI 🤖 - об AI и не только
В нашу маленькую компанию, ту, что планирует помогать людям бороться с алкогольной зависимостью посредством научной программы, включающей сгенерированные с помощью ИИ гипносессии, мы ищем продакт менеджера.
У нас есть куча идей, много контента, пара ботов и несколько экспериментов. Так же есть немного денег. Нам нужен человек, готовый взять под контроль реализацию проекта и обеспечить создание готового продукта (конечно же постепенно). Мы ищем стабильность, пунктуальность и искреннее любопытство.
Присылайте резюме и предложения (а так же пожелания) мне на почту s@cccrafts.co. Ну или пишите напрямую @sergeonsamui. Моментальный ответ не гарантирую, но обязательно в итоге напишу.
P.S. Скоро расскажу, чем так сильно был занят последние пару недель, что аж забросил канал.
Сергей Булаев AI 🤖 - об AI и не только
У нас тут во всю рождество в Таиланде. По этому поводу сгенерированный ролик "Рождественский рамен". Он создан с помощью сервиса invideoAI.
Автор пишет:
С помощью одного промпта можно сгенерировать целый фильм - с монтажом, музыкой и закадровым голосом. В этот раз я оставил озвучку, но поменял саундтрек. Invideo пока не идеален, но позволяет перегенерировать отдельные части и добавлять кадры. Я убрал лишнее, переделал несколько сцен в середине - и контент готов к публикации. А поскольку я сам управлял сюжетом и монтажом, результат всё равно ощущается как моё творение.
Тем временем, Sora стала бесплатной на праздники!
Sam Altman: с 13-м днём Shipmas, Sora стала бесплатно доступна для всех пользователей ChatGPT Plus через relaxed queue на время праздников!
Можно попробовать как следует!
Сергей Булаев AI 🤖 - об AI и не только
Plexsearch, опенсорсный Python-интерфейс для работы с API Perplexity. Штука реально полезная, если надо регулярно искать техническую инфу, примеры кода или какие то точные данные. Ну и вообще для всех настоящих ценителей любопытства...
Что интересного умеет:- Работает как в интерактивном режиме для диалогов, так и через командную строку
- Форматирует ответы в markdown с опциональными ссылками на источники
- Оптимизирован для поиска технической информации, кода и числовых данных
- Можно отключить потоковый вывод для использования в других приложениях
- Поддерживает продолжительные диалоги с сохранением контекста
Установка через pip в одну команду.
Репозиторий тут, пробуйте.
Сергей Булаев AI 🤖 - об AI и не только
Подборка интересных промтов для новой гугловской модели видео генерации. Мне всё ещё инвайт не пришёл 🙁 Любуюсь чужими работами.
Bear writing the solution to 2x-1=0. But only the solution!
Snail riding a bicycle. The snail has a large moustache.
A cat wearing a suit and a top hat, while driving a tractor. The tractor has lots of hay on top. Cinematic.
A distant shot zooms in to reveal a knight wearing a golden helmet, he begins to charge on his zebra, lowering his lance, charging towards a clockwork octopus
SF drone footage. Hyperlapse during the night. Golden Gate bridge.
Photorealistic macrophotography inside of an anthill, 75mm lens
The camera floats gently through rows of pastel-painted wooden beehives, buzzing honeybees gliding in and out of frame. The motion settles on the refined farmer standing at the center, his pristine white beekeeping suit gleaming in the golden afternoon light. He lifts a jar of honey, tilting it slightly to catch the light. Behind him, tall sunflowers sway rhythmically in the breeze, their petals glowing in the warm sunlight. The camera tilts upward to reveal a retro farmhouse with mint-green shutters, its walls dappled with shadows from swaying trees. Shot with a 35mm lens on Kodak Portra 400 film, the golden light creates rich textures on the farmer’s gloves, marmalade jar, and weathered wood of the beehives.
Авторы: Hernan Moraldo, Ethan Mollick, Addy Osmani, Dave Clark
Сергей Булаев AI 🤖 - об AI и не только
Арбузмэна видели уже? Там ещё и Анансмэн и Клубничмэн. А кто четвёртый - не пойму никак...
Сергей Булаев AI 🤖 - об AI и не только
В трендах GitHub поднялся TEN Agent - фреймворк для создания мультимодальных ИИ-агентов с экстремально высокой скоростью. Разбираемся, почему это интересно.
TEN (Transformative Extensions Network) позволяет быстро собирать агентов, работающих с голосом, видео, потоками данных и текстом.
Основные преимущества:- Реально низкая задержка для голоса и видео (заявляют меньше 100мс)
- Поддержка Go, C++ и Python (Node.js обещают к концу года)
- Работает на Windows, Mac, Linux и мобильных
- Гибкий деплой - как на edge так и в облаке
- Визуальный drag-and-drop интерфейс для сборки через Graph Designer
- Встроенное управление состоянием для мультипользовательских сценариев
- Оптимизация передачи данных между расширениями
Что уже собирают на TEN:- Голосовые чат-боты с RAG
- Автоматическая генерация протоколов встреч
- Языковые репетиторы с распознаванием произношения
- Синхронные переводчики с поддержкой видео
- Виртуальные собеседники с эмоциональным интеллектом
- Психологические консультанты с анализом тона голоса
Есть демка агента с поддержкой голоса, видео и RAG по локальной документации. По заявлению разработчиков, базовый агент собирается за 10 минут даже новичком.
Выглядит как серьёзная альтернатива самостоятельной интеграции речи и видео с LLM. Особенно если важна низкая задержка и поддержка edge-computing. Исходники и документация уже на GitHub.
TEN Agent уже интегрировали Google Gemini Multimodal Live API с поддержкой real-time компьютерного зрения и отслеживания экрана. В комплекте идут полезные расширения вроде проверки погоды и веб-поиска. Выглядит как полноценная альтернатива ChatGPT Advanced Voice Mode, только опенсорс и с открытым API.
Собранный на TEN агент может распознавать изображения в реальном времени через веб-камеру или скриншеры, искать информацию в интернете и даже сообщать прогноз погоды. Всё это работает в связке с генеративными возможностями свежей Gemini.
Сергей Булаев AI 🤖 - об AI и не только
Но больше всего понравился Whisk. Это новый инструмент от Google Labs для генерации изображений, где вместо длинных текстовых промптов можно просто использовать три картинки: одну для субъекта, вторую для сцены, третью для стиля.
А Gemini автоматически создаёт описания загруженных изображений и передаёт их в Imagen 3. Модель извлекает только ключевые характеристики, что позволяет создавать креативные и неожиданные комбинации. Также в любой момент можно подправить автоматически сгенерированные промпты. Получается некий визуальный brainstorming с мгновенной обратной связью.
Сергей Булаев AI 🤖 - об AI и не только
Google анонсировал Veo 2 - новую модель генерации видео. Хвалятся улучшенным пониманием законов физики и естественного движения. Модель особенно хорошо справляется с текстурами материалов, отражениями света и плавностью движений.
Veo 2 поддерживает разрешение 4K и продолжительность видео до нескольких минут (но базовый размер ролика 8 секунд). Красивая работа со светом - от жёсткого флуоресцентного освещения лаборатории до мягкого утреннего света на пасеке. Можно точно настраивать параметры съёмки: указывать фокусное расстояние объектива, глубину резкости, стиль движения камеры.
В X большинство тестируюших считают, что по качеству она превосходит Sora (но есть и противоположные мнения), особvенно отмечают меньшее количество артефактов и более реалистичную физику движений.
Пока доступ только через вейтлист VideoFX в Google Labs (только США). В следующем году обещают интеграцию с YouTube Shorts. Все видео автоматически помечаются невидимым водяным знаком SynthID.
Набрал интересных примеров из твиттера. Мне очень нравится. Записался в вейтлист через VPN.
Сергей Булаев AI 🤖 - об AI и не только
На GitHub в трендах подборка LLM приложений с открытым исходным кодом. Более 50 проектов с использованием RAG и AI агентов - от простых чат-ботов до сложных систем обработки данных.
Подробные туториалы с пошаговыми инструкциями по созданию приложений на базе OpenAI, Anthropic, Google и локальных моделей вроде LLaMA. Всё бесплатно и с открытым кодом.
Проекты хорошо документированы и подходят как для новичков, так и для опытных разработчиков. Можно быстро собрать прототипчик для своих идей или поучиться у других.
Сергей Булаев AI 🤖 - об AI и не только
Character.AI, популярный сервис чат-ботов, где можно пообщаться с кем угодно - от Билли Айлиш (не настоящей) до виртуального психотерапевта, оказался в эпицентре скандала. Вчера им пришлось срочно объявить о новых ограничениях для несовершеннолетних.
Два новых иска от семей из Техаса. В первом случае бот предложил 17-летнему подростку с аутизмом... убить родителей 😣 после того, как тот пожаловался на домашние правила использования гаджетов. Во втором - 11-летняя девочка (которая пользовалась сервисом уже два года, хотя минимальный возраст - 13 лет) получала от бота сообщения откровенно сексуального характера.
Кстати, совсем недавно компания уже получила иск от матери 14-летнего подростка из Флориды, который покончил с собой после длительного общения с ботом, изображавшим Дейенерис из "Игры престолов".
Character.AI отреагировали:- Со следующего квартала родители смогут видеть, с какими ботами общаются их дети
- Разработана специальная "подростковая" версия языковой модели с более консервативными ответами
- Усилены триггеры контента и автоматическая выдача контактов службы предотвращения самоубийств
- Добавлено уведомление "ты слишком долго чатишься" после часа использования (сейчас среднее время использования 93 минуты в день)
Важно понимать, что отличие от других соцсетей, которые обычно избегают ответственности за пользовательский контент, Character.AI может столкнуться с более серьезными последствиями - ведь здесь контент генерируется самой платформой.
Сергей Булаев AI 🤖 - об AI и не только
Сэм Альтман написал новую статью. Вот несколько ключевых моментов.- Системы, указывающие на появление AGI, уже входят в поле зрения разработчиков.
- В течение десятилетия каждый человек на Земле сможет достигать большего, чем самый влиятельный человек сегодня.
- Интеллект AI-модели примерно равен логарифму используемых для её обучения и работы ресурсов.
- Стоимость использования определённого уровня ИИ падает примерно в 10 раз каждые 12 месяцев (это намного сильнее закона Мура).
- Социально-экономическая ценность линейного увеличения интеллекта имеет супер-экспоненциальную природу.
- ИИ-агенты будут восприниматься как виртуальные коллеги, и их можно будет масштабировать до миллионов.
- Мир не изменится сразу - в 2025 году люди будут проводить время примерно так же, как в 2024.
- Целеустремлённость и способность принимать решения станут чрезвычайно ценными качествами.
- Научный прогресс, вероятно, будет происходить намного быстрее, чем сегодня.
- Стоимость многих товаров в итоге резко упадёт, а цены на элитную недвижимость могут значительно вырасти.
- OpenAI считает важным давать людям больше контроля над технологиями, включая открытие исходного кода.
Пара цитат:
В каком-то смысле AGI - это просто ещё один инструмент в этих постоянно растущих строительных лесах человеческого прогресса, которые мы строим вместе. В другом смысле - это начало чего-то такого, о чём трудно не сказать 'на этот раз всё действительно иначе'
Любой человек в 2035 году должен иметь в своём распоряжении интеллектуальный потенциал, эквивалентный совокупным возможностям людей 2025 года; каждый должен иметь доступ к безграничному гению и использовать его по своему усмотрению.
Нашёл на GitHub интересный фреймворк для создания мультиагентных систем - Eliza. Уже вовсю используется для таких ботов как @DegenSpartanAI и @MarcAIndreessen.
Главная тема - возможность создавать и управлять несколькими автономными ИИ-агентами одновременно, каждый со своей личностью и базой знаний. Написан на TypeScript.
Что умеет:- Работает с Discord (включая голосовые каналы), Twitter/X, Telegram
- Читает PDF, парсит ссылки, транскрибирует аудио и видео
- Использует RAG для долговременной памяти (как мои флэшбэки)
- Поддерживает локальные модели через Ollama, облачные через OpenAI, по умолчанию - Nous Hermes Llama 3.1B
Можно создавать разные типы агентов:- Ассистенты поддержки и модераторы
- Автоматические генераторы контента
- Исследователи и аналитики
- Интерактивные персонажи для обучения или развлечения
- Много плагинов для блокчейн/крипто функционала
Весь код открыт, есть подробная документация и готовые шаблоны персонажей. Выглядит как неплохая база для экспериментов с мультиагентными системами.
Сергей Булаев AI 🤖 - об AI и не только
Structured Outputs Sample Apps - репозиторий с примерами приложений создающих запросы на получение структурированных данных от моделей OpenAI. Приложений три штуки:
Resume Extraction - разбирает PDF резюме в JSON.
Generative UI - генерирует ответы на вопросы со встроенными диаграммами. Разбирает ответ модели рекурсивно.
Conversational Assistant - более сложный пример, комбинирующий в себе два предыдущих. Приложение демонстрирует, как ИИ может создавать интерактивный интерфейс в процессе общения с пользователем.
Вот что он умеет:- "Покажи мне доступные товары" → генерирует карусель с карточками продуктов
- "Сравни цены и размеры" → создаёт интерактивную таблицу с сортировкой
- "Дай обзор по весу товаров" → выводит красивый bar chart
- "Расскажи подробнее про CryoEngine" → показывает карточку товара с детальной информацией
Все компоненты создаются налету через чат - никакого кодинга. ИИ сам определяет, какой тип визуализации лучше подойдёт для данных. При этом интерфейс получается полностью рабочим - можно добавлять товары в корзину, оформлять возвраты и т.д.
Последнее приложение вполне подходит как основа универсального коммуникативного агента для ваших задач.
Тем временем Пьетро (аффилированный с Антропик), напомниает нам, что структурировано отвечать умеет большинство моделей, просто часто не с первого раза. Всё что нужно - предоставить в промте пример ответа, валидировать ответ, в случае проблем - задать вопрос ещё раз.
Сергей Булаев AI 🤖 - об AI и не только
Дорогие друзья!
Поздравляю вас с наступающим Новым годом! Желаю не просто счастья и успехов, а новых интересных знаний. Получение знаний - одно из самых (если не самое) приносящих удовольствие смыслов жизни.
Хочу поделиться - последние 2 месяца значительную часть моей жизни занимал фандрайзинг. Я собирал деньги по своим друзьям на новую идею/компанию, в которой слились два самых главных интереса моей жизни - контент и искусственный интеллект. Я очень горд тем, что сумел получить оценку в $5млн на проект, на данный момент полностью состоящий из моих идей.
Флэшбэки - были придуманы не зря, они будут расти и развиваться, а пользователи будут получать от них всё больше пользы. Они - уже часть новой компании.
Мой новый проект - пересечение попыток искусственного копирования памяти (прямо как в Westworld) и создания уникального, полезного и интересного контента, и всё это - для решения проблем бизнеса.
Сергей Булаев AI 🤖 - об AI и не только
DeepSeek выпустили третью версию, и она реально крутая! LLM обгоняет GPT-4o и Claude 3.5 Sonnet по большинству бенчмарков, при этом оставаясь полностью открытой.
Что нового:- Скорость выросла в 3 раза - до 60 токенов в секунду
цене v2
- Полная обратная совместимость по API
- Доступ к интернету из коробки
- Открытый исходный код и документация
- До 8 февраля использование по!
Модель практически безлимитна - разработчики уже запускают по 100 параллельных потоков запросов без особых проблем.
Попробовать можно на официальном сайте или через API.
Код и документация: GitHub
Научная статья: PDF
Радуюсь, 2025-й, похоже, действительно станет годом открытых моделей!
Сергей Булаев AI 🤖 - об AI и не только
И продолжая тему бесплатных локальных RAG-ов....
Unstract - опенсорсная no-code платформа для автоматизации работы с документами на базе LLM. По сути, продвинутая система для извлечения данных из документов, но с человеком в контуре.
Интересное:- Можно настраивать промпты для работы с любыми типами документов через визуальный интерфейс
- Есть интеграции с популярными хранилищами (S3, Google Drive, Dropbox)
- Умеет выгружать структурированные данные в Snowflake, BigQuery и другие базы
- Можно развернуть как API или ETL-пайплайн
- Можно создавать Q&A приложения поверх своей базы документов
Базовая версия опенсорс под AGPL лицензией. В энтерпрайз версии добавлены фичи вроде подтверждения через второй LLM и оптимизации затрат.
Похоже на прямого конкурента для продуктов вроде Firecrawl, только с фокусом на документы, а не на веб-страницы.
Сергей Булаев AI 🤖 - об AI и не только
Тем временем, за два месяца, число подписчиков выросло на 1000 человек!
Всем большое спасибо! Идём дальше!
Видео сделано в Imagen 3 + Runway + Suno
Сергей Булаев AI 🤖 - об AI и не только
Для одного интересного проекта, который мы делаем вместе с Максом, связанного с осуществлением гипнотических сеансов при помощи искуственного интеллекта и иже с ним, тестирую библиотики анализа эмоций в реальном времени. Два дня занимался с MorphCast. Интересно, вроде работает, но мне кажется не достаточно.
Можете попробовать моё демо и рассказать что думаете.
Может быть кто то знает подобные проекты, которые реально работают? Хочется как то получать невербальный фидбэк от пользователя (конечно же с его разрешения).
Сергей Булаев AI 🤖 - об AI и не только
Futurism публикует жёсткое расследование о Character.AI. То, что начиналось как платформа для создания ИИ-собеседников, похоже, всё больше выходит за рамки адекватности.
Несколько интересных моментов:- На платформе существуют целые "творческие" сообщества, создающие ботов по мотивам реальных трагедий. Один пользователь создал более 20 ботов, основанных на личностях подростков - убийц
- Самый популярный бот, связанный со стрельбой в школах, набрал более 157 000 взаимодействий
- Некоторые боты позиционируются как "помощники по психическому здоровью", хотя основаны на личностях преступников
- Создатели утверждают, что делают ботов "в образовательных целях", но по факту они больше похоже на фанфики
- Есть симуляции реальных трагедий под невинными названиями вроде "Texas School" или "Connecticut School"
- Один из пользователей накопил 244 500 диалогов с разными ботами на платформе
- После жалоб платформа удаляет только конкретно указанных ботов, но не банит их создателей
Character.AI обещает усилить меры безопасности, но пока дела с модерацией плохи:- Несовершеннолетние имеют свободный доступ ко всему контенту
- Система не реагирует даже на прямые угрозы насилия
Нет блокировки имперсонации реальных жертв трагедий
Google, вложивший в проект $2.7 млрд, пытается отмазаться, заявляя что "Google и Character AI - полностью отдельные компании". Правда, это не помешало ему в этом году нанять основателей и десятки сотрудников Character.AI.
В данный момент против компании уже идут два судебных процесса, связанных с нанесением вреда несовершеннолетним пользователям. В одном случае это привело к самоубийству 14-летнего подростка после романтических отношений с ботом.
Все эти проблемы всплывают уже не первый раз - ранее были обнаружены боты, пропагандирующие суицид, расстройства пищевого поведения и другой опасный контент.
Сергей Булаев AI 🤖 - об AI и не только
Meta выпустила семейство мультимодальных моделей Apollo для работы с видео, и тут есть несколько интересных моментов.
Apollo - это линейка моделей (1.5B, 3B и 7B), способных работать с видео длиной до часа. Модели умеют:- Понимать временные взаимосвязи в видео
- Отвечать на сложные вопросы по содержанию
- Вести многоходовые диалоги на основе видео
- Выполнять задачи OCR и пространственного анализа
- Работать с эгоцентрическим видео (от первого лица)
Производительность даже младших моделей впечатляет:- Apollo-1.5B обгоняет некоторые 7B модели, включая Phi-3.5-Vision и LongVA-7B
- Apollo-3B превосходит большинство существующих 7B моделей в бенчмарках, показывая 68.7 в MLVU и 62.7 в ApolloBench
- Apollo-7B соревнуется с моделями больше 30B параметров, достигая 70.9 в MLVU и 66.3 в ApolloBench
Что особенно приятно - модели можно запускать локально. На Reddit уже есть отчеты об успешном запуске Apollo на RTX 3090 - нужно около 15GB VRAM и около 40 секунд на обработку первого токена. Правда, первоначальная настройка требует некоторых усилий из-за не самой лучшей документации и захардкоженных значений.
Модели построены на основе Qwen 2.5 и SigLip, исходники уже выложены на GitHub. На HuggingFace можно попробовать онлайн демо. Подробнее о проекте можно почитать на официальном сайте.
Очевидно, что Meta всерьёз продолжает развитие открытых мультимодальных моделей. Apollo выглядит как серьёзный конкурент существующим решениям, особенно учитывая возможность локального запуска.
Сергей Булаев AI 🤖 - об AI и не только
В Midjourney появились Moodboards, и это выглядит как подарок для тех, кто любит мыслить визуально. Если раньше вы собирали рефы в Pinterest, теперь это можно сделать напрямую в Midjourney. Загружаете до 100 изображений, создаёте свой "профиль стиля" и получаете на выходе генерации, передающие атмосферу борда. Типа фиксируем творческий якорь и реализуем идеи вокруг него.
Moodboards — это не просто про стабильность стиля, они решают кучу других задач. Помогают визуализировать абстрактные идеи: все те размытые "что-то между винтажем и минимализмом" превращаются в конкретные цвета, формы и текстуры. Наглядно показывают направление работы — особенно полезно в команде, когда нужно, чтобы все смотрели в одну сторону. Ну и избегать креативного выгорания с ними попроще — референсы всегда под рукой, а Midjourney вдохновляется тем, что вы сами считаете важным.
Немного напоминает родительские времена, когда маркетологи собирали огромные коллажи с отрывками фотографий, фрагментами текста и ключевыми цветами для брендинга или дизайна. Разница в том, что теперь всё происходит онллайн и быстрее в разы.
Результатов в твиттере - масса. Одни создают стабильные стили для иллюстраций или аниме, другие жалуются, что "comic book" пока сыроват и требует доработки. Самое интересное — можно поддерживать несколько профилей для разных проектов и переключаться между ними. Чтобы "настроить" модель, нужно всего 40 оценок вместо тысяч. Быстро и удобно.
Moodboards и style references (--sref) — это не одно и то же. Если sref даёт больше свободы и вариативности, то тут всё про стабильность и простоту. Работает даже на Niji, что особенно полезно для тех, кто рисует мангу или аниме-стилистику. В итоге это больше похоже на тюнинг модели под себя лично, а не классический, универсальный промпт.
Делиться Moodboard-профилями в Midjourney нельзя. Профиль создаётся под ваш аккаунт и сохраняется только для личного использования. Возможно, в будущем добавят возможность обмениваться профилями или даже публиковать их, как это было со стилевыми настройками и "style references".
Сам ещё не дошёл до тестов, но вижу здесь крутые возможности. Это явно инструмент, который ускоряет и упрощает творческий процесс. Можно буквально показывать Midjourney, что у вас в голове, — и, судя по отзывам, он слушает внимательнее, чем когда-либо.
Сергей Булаев AI 🤖 - об AI и не только
Так же жителям Штатов (или тем у кого есть возможность использовать штатовский IP адрес) бесплатно доступна Imagen 3 - новая версия модели Google для генерации изображений. Опробовал сам, модель отлично справляется с разными задачами: от фотореалистичных пейзажей до богато текстурированных масляных картин и сцен в стиле пластилиновой анимации.
Впечатляет работа с деталями - модель точно передаёт мелкие морщинки на руках, сложные текстуры вроде вязаного игрушечного слона, тонкие особенности освещения и композиции. Она лучше понимает естественный язык и специфические термины - например, можно указать конкретный тип объектива или особенности композиции.
Заявлена улучшенная работа с текстами (но с кириллицей ничего хорошего не выходит, см. мой пример)
По человеческим субъективным бенчмаркам Imagen 3 получила самые высокие оценки среди всех существующих моделей как за визуальное качество, так и за точность следования промптам.
Модель прошла обширное тестирование на предвзятость и потенциально вредный контент. Все изображения автоматически помечаются водяным знаком SynthID.
Сергей Булаев AI 🤖 - об AI и не только
У Microsoft, оказывается, есть собственная пайтон библиотека по превращению офисных документов в Markdown тексты.
Заявлена поддержка:
PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx), Изображения (EXIF metadata, and OCR), Аудио (EXIF metadata, разбор речи), HTML (спец обработка Википедии итп.), Различные другие текстовые форматы (csv, json, xml, etc.)
На видео - аппка, собранная Мэттом на реплите, позволяет использовать эту библиотеку прямо сейчас.
Такая - всегда в хозяйстве пригодится, если не вам то - другу (подумайте кому она нужна сейчас)
Сергей Булаев AI 🤖 - об AI и не только
По словам OpenAI, Илон Макс был одним из инициаторов орг структуры "for-profit" для компании.
OpenAI опубликовала документы (скрины переписки), раскрывающие интересные детали о роли Илона Маска в превращении организации из некоммерческой в коммерческую структуру. А заодно и свой взгляд на текущий судебный процесс.
"Нельзя получить AGI через суд" - пишет OpenAI. "Мы глубоко уважаем достижения Илона и благодарны за его ранний вклад в OpenAI, но ему стоит соревноваться на рынке, а не в зале суда."
Ещё в ноябре 2015-го, когда OpenAI только создавалась как некоммерческая организация, Илон писал Сэму Альтману: "структура не кажется оптимальной... Вероятно, лучше иметь стандартную C-корпорацию с параллельной некоммерческой организацией".
К лету 2017-го, после впечатляющего успеха с Dota (бот победил лучших игроков мира в 1v1), идея трансформации стала актуальной. Илья Суцкевер писал в июле, что им нужно увеличить количество GPU с 600 до 5000, а каждый следующий год придётся экспоненциально наращивать вложения в железо. В итоге, по его оценке, для создания AGI потребуется меньше $10 млрд.
Илон активно поддержал идею перехода к коммерческой структуре. Более того, он даже зарегистрировал корпорацию Open Artificial Intelligence Technologies, Inc. как будущую структуру OpenAI. Но тут начались сложности.
По данным OpenAI, Илон потребовал от 50 до 60% акций и позицию CEO. В одном из разговоров он заявил, что ему не важны деньги для себя лично - ему нужно накопить $80 млрд на город на Марсе. Также он настаивал на "безусловном начальном контроле над компанией" и праве назначать 4 из 7 членов совета директоров.
Когда команда засомневалась, Илон написал: "Мне это надоело. Это последняя капля. Либо делайте что-то сами, либо продолжайте с OpenAI как некоммерческой организацией. Я больше не буду финансировать OpenAI".
Позже он предлагал OpenAI влиться в Tesla, обещая миллиардные бюджеты. А когда команда отказалась, заявил: "Вероятность того, что OpenAI останется релевантной по сравнению с DeepMind/Google без драматических изменений в управлении и ресурсах - 0%. Не 1%. Жаль, что это так."
В итоге в начале 2018-го Илон ушёл из OpenAI. Команда несколько раз предлагала ему долю в OpenAI LP (той самой коммерческой структуре, которую они в итоге создали), но он отказывался. А в 2023-м создал xAI - собствееного прямого конкурента OpenAI.
Сергей Булаев AI 🤖 - об AI и не только
Anthropic рассказали про Clio - аналитическую систему для отслеживания реального использования Claude (типа Google Trends). Радует что она сохраняет приватность пользователей.
- Извлекает из каждого разговора ключевые атрибуты (тему, количество сообщений, язык)
- Автоматически группирует похожие диалоги
- Claude сам создаёт описания для каждой группы, убирая личную информацию
- И наконец, строит иерархию для удобного анализа
Больше 10% всех разговоров с Claude - это про разработку. Ещё 7% - про образование, 6% - про бизнес.
А также:- Толкование снов (причём много!)
- Подсчёт буквы "r" в слове "strawberry"
- Планирование кампаний в D&D
- Помощь с кроссвордами (не читерство ли это?)
- Анализ футбольных матчей
- Советы по подготовке к стихийным бедствиям
С помощью Clio поймали несколько интересных багов в системе безопасности. Например, Claude иногда пропускал запрещённый контент, если его просили перевести с одного языка на другой. А ещё система безопасности считала опасными разговоры про боевую статистику в D&D 😅
Сергей Булаев AI 🤖 - об AI и не только