Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу на острове Самуи, где исследую и применяю технологии искусственного интеллекта. Делюсь своим опытом и новыми открытиями в этой и смежных областях.
Свежий, 3-й стартерпак ИИ инженера от ElevenLabs доступен прямо сейчас! Приурочен к их хакатону этих выходных и включает кучу бонусов и скидок для разработчиков ИИ приложений.
В набор входят кредиты от различных сервисов: Notion, Intercom, MistralAI, FAL, Hugging Face, а также новые бонусы от StackBlitz, ExaAI Labs и DeepReel AI. Отличная возможность поэкспериментировать с различными ИИ-инструментами без лишних затрат.
Разбирайте пока промо-коды не закончились!
Сергей Булаев AI 🤖 - об AI и не только
Тем временем в сети начали появляться первые демонстрации голосового режима Grok 3. Судя по утечкам, ассистент будет доступен с как минимум двумя голосами - "Ara" (женский) и "Sal" (мужской), и похоже, что они предназначены для разных уровней подписки.
Пока голосовой Grok похоже сохранил свою фирменную "раскрепощённость" - в отличие от довольно зажатого ChatGPT Advanced Voice Mode. В одном из видео даже показали диалог голосовых ассистентов, где разница в подходах к модерации контента видна невооружённым глазом.
Среди заявленных возможностей: доступ в интернет, настраиваемые инструкции, сохранение транскриптов, работа в фоновом режиме, пение и даже смех. Запуск, похоже, уже совсем скоро!
Внимание, в переведённом диалоге между ChatGPT и Grok 3 очень много хамства.
Так и у нас опять проблема с бустами, побустите пожалуйста кому не жалко!
Сергей Булаев AI 🤖 - об AI и не только
Spotify начал принимать аудиокниги, озвученные с помощью голосов ElevenLabs. С сегодняшнего дня авторы могут публиковать свои произведения напрямую на Spotify и другие крупные площадки через партнерство с Findaway Voices.
Это значительный шаг вперёд для независимых авторов, которым раньше приходилось заниматься дорогостоящим и трудоёмким процессом создания аудиоверсий своих работ. Теперь распространение станет быстрее, проще и доступнее.
Я давно пользуюсь ElevenLabs для разных проектов (переводы видео и искусственные подкасты, генерация гипно сессий), и качество их голосов очень радует. Теперь эти технологии смогут помочь авторам достичь новой аудитории и получать доход, когда слушатели покупают или стримят их аудиокниги.
Сергей Булаев AI 🤖 - об AI и не только
Китайский стартап MagicLab представил роботизированную руку MagicHand S01 с роскошными показателями. 11 степеней свободы и гибридная система управления силой/положением позволяют выполнять сложные манипуляции с предметами.
Грузоподъёмность до 5 кг для самой руки и до 20 кг для всего роботизированного манипулятора MagicBot. Технические детали тоже норм: точность измерения силы до 0,1Н, частота синхронизации до 100Гц и 30% запас прочности для всех ключевых компонентов.
В декабре компания уже демонстрировала своих роботов на производственной линии, где они занимались проверкой продукции, перемещением материалов и сканированием штрих-кодов.
Финансирование на уровне - 150 миллионов юаней ($20 млн) в раунде ангельских инвестиций. Направления понятные - расширение команды, доработка технологий, масштабирование производства.
Сергей Булаев AI 🤖 - об AI и роботах
В Venture Beat статья о трансформации процесса разработки в текущих реалиях.
Replit в партнёрстве с Anthropic и Google Cloud превратил обычных сотрудников Zillow в разработчиков. И это не просто эксперимент - через приложения, созданные людьми, которые раньше никогда не писали код, сейчас проходит более 100 000 запросов от покупателей недвижимости!
"Мы наблюдаем трансформацию в том, как бизнес создает программные решения," говорит Микеле Катаста, президент Replit. "Нашу платформу всё чаще используют команды маркетинга, продаж и операционной деятельности, которым нужны индивидуальные решения, которые готовое ПО предоставить не может."
Майкл Герстенхабер, вице-президент по продуктам Anthropic, особо отмечает подход Claude к генерации кода: "Claude отлично справляется с созданием чистого, поддерживаемого кода, понимая сложные системы на разных языках и фреймворках. Он подходит к проблемам стратегически, часто делая шаг назад для анализа общей картины, вместо того чтобы сразу бросаться писать код."
Журналистка Claire Lehmann: "Создала 2 новые внутренние системы для моей команды за эту неделю (заявки на отпуск/поддержка клиентов) используя код, сгенерированный Claude. Заняло в сумме 1 день и сэкономило нам $5-10K на консультантах. Если выпускница факультета английского и психологии как я может использовать код для создания вещей, то любой гуманитарий сможет."
Сергей Булаев AI 🤖 - об AI и не только
Андрей Карпаты уже успел попользоваться Grok 3 и написал довольно подробный и интересный обзор (привожу в переводе Клода, если что не так - пишите):
Мне сегодня дали ранний доступ к Grok 3, что делает меня, пожалуй, одним из первых, кто смог провести быструю оценку.
Мышление
✅ Во-первых, Grok 3 явно имеет современную модель мышления (кнопка "Think") и отлично справился с моим вопросом по Settlers of Catan прямо из коробки. Я попросил создать веб-страницу с гексагональной сеткой, как в игре, с возможностью менять количество "колец" с помощью слайдера. Немногие модели справляются с этим надёжно. Топовые модели OpenAI (например, o1-pro за $200/месяц) тоже справляются, но DeepSeek-R1, Gemini 2.0 Flash Thinking и Claude - нет.
❌ Модель не смогла решить мою "загадку с эмодзи", где я даю смайлик с скрытым внутри сообщением через Unicode-селекторы вариаций, даже когда я дал сильную подсказку в виде кода на Rust. Больше всего продвинулся DeepSeek-R1, который однажды частично декодировал сообщение.
❓ Модель решила несколько партий в крестики-нолики с хорошей цепочкой рассуждений (многие современные модели часто не справляются!). Я повысил сложность и попросил сгенерировать 3 "хитрых" позиции в крестиках-ноликах - тут она не справилась (генерируя бессмысленные доски/текст), но и o1 pro тоже не справился.
✅ Я загрузил статью про GPT-2. Задал несколько простых вопросов - всё сработало отлично. Затем попросил оценить количество флопс на обучение GPT-2, без поиска. Это сложно, потому что количество токенов не указано явно, поэтому нужно частично оценивать и частично вычислять, проверяя способности поиска, знаний и математики. Grok 3 с включенным мышлением отлично справился, в то время как o1 pro (модель мышления GPT) не справился.
Мне нравится, что модель пытается решить гипотезу Римана, когда её просят об этом, подобно DeepSeek-R1, в отличие от многих других моделей, которые сразу сдаются (o1-pro, Claude, Gemini 2.0 Flash Thinking) и просто говорят, что это великая нерешённая проблема.
DeepSearch
Очень интересное предложение, которое, похоже, сочетает в себе что-то вроде "Deep Research" от OpenAI/Perplexity вместе с мышлением. Может давать качественные ответы на различные исследовательские вопросы. Вот несколько примеров:
✅ "Что там с предстоящим запуском Apple? Какие слухи?"
✅ "Почему в последнее время растут акции Palantir?"
✅ "White Lotus 3 - где снимали и та же ли команда, что в сезонах 1 и 2?"
✅ "Какой зубной пастой пользуется Брайан Джонсон?"
❌ "Где сейчас актёры 4 сезона Singles Inferno?"
❌ "Какую программу распознавания речи упоминал Саймон Уиллисон?"
❌ Я обнаружил некоторые проблемные места. Например, модель, похоже, по умолчанию не любит ссылаться на X как на источник, хотя можно явно попросить её об этом. Несколько раз я ловил её на галлюцинациях с несуществующими URL. Иногда она утверждала фактические вещи, которые, думаю, неверны, и не предоставляла для них цитат (вероятно, их не существует). Например, она сказала мне, что "Ким Чжон Су всё ещё встречается с Ким Мин Соль" из Singles Inferno Season 4, что наверняка совершенно неверно. А когда я попросил создать отчёт о крупных лабораториях LLM, их общем финансировании и оценке количества сотрудников, она перечислила 12 основных лабораторий, но не включила себя (xAI).
DeepSearch примерно на уровне DeepResearch от Perplexity (что само по себе здорово!), но пока не дотягивает до недавно выпущенного OpenAI "Deep Research", который всё ещё кажется более тщательным и надёжным (хотя тоже далеко не идеален - он тоже неправильно исключает xAI из "основных лабораторий LLM", когда я попробовал с ним...)
Случайные "подводные камни" LLM
Я попробовал ещё несколько забавных тестовых запросов, которые люблю периодически проверять. Это запросы, которые специально простые для людей, но сложные для LLM, и мне было интересно, с какими из них Grok 3 справляется лучше.
✅ Grok 3 знает, что в слове "strawberry" три буквы "r", но при этом сказал, что в LOLLAPALOOZA только три "L". Включение режима мышления решает эту проблему.
Сергей Булаев AI 🤖 - об AI и не только
Криминальный лайфхак:
Носите дополнительный палец постоянно. Тогда любые фото/видео улики будут выглядеть как ИИ генерация.
Сегодня в 8 вечера по PT (завтра в 7 утра по Москве) xAI представит Grok 3. Илон в своей манере уже назвал его "самым умным ИИ на Земле", но на этот раз за громкими словами стоят серьёзные технические достижения:- Обучение на 100 000 GPU Nvidia H100 (в 10 раз больше вычислительной мощности чем у Grok 2)
- 200 миллионов GPU-часов тренировки
- Собственный суперкомпьютер Colossus, построенный всего за 8 месяцев
- В датасет добавлены все судебные дела (говорят, будет выдавать "крайне убедительные юридические вердикты")
После релиза Grok 2 станет опенсорсным - xAI продолжает практику открывать код предыдущей версии при выходе новой.
Интересно будет посмотреть, насколько реальность совпадёт с обещаниями. Так же на днях ждём новых Claude и ChatGPT 4.5.
Сергей Булаев AI 🤖 - об AI и не только
Опять 14-е февраля как то не так прошло...
Сергей Булаев AI 🤖 - об AI и не только
Тем временем в консоли Anthropic нашли упоминания нового режима "thinking" для Клода. Похоже, что скоро нас ждёт большое обновление!
Судя по конфигам, которые удалось найти Тибору Блахо (Lead Engineer в AIPRM), новая модель будет:- Думать дольше перед ответом
- Показывать ход своих размышлений
- Выдавать пошаговые объяснения для сложных задач
- Иметь расширенный режим мышления для более глубоких ответов
Видимо модель будет не всегда применять мыслительный процесс и это круто и правильно - не для всех задач он подходит.
В коде консоли уже мелькают упоминания "paprika" и встречаются ссылки на API (например, "console_paprika_banners" и "try_paprika"). А в последнем обновлении веб-интерфейса появились упоминания "tengu" и какой-то "tengu waitlist" (возможно, связанные с MCP инструментами).
Надеюсь, релиз web-версии и API произойдёт одновременно (кстати, спасибо Сергею Пахандрину, который обратил внимание что последний GPT-4o, о котором я вчера писал, всё ещё не доступен для него в API, я проверил, оказывается для меня тоже, не смотря на мой 5-й таер. Хотя OpenAI анонсировали).
Как большой любитель Клода (регулярно упираюсь в лимиты, в отличии от лимитов ChatGPT), очень жду!
Сергей Булаев AI 🤖 - об AI и не только
Летел 10 часов в самолёте, и половину времени провёл в разговорах с Deepseek (который у меня установлен через Ollama), в полностью оффлайн режиме. Знаете, наблюдать за его процессом размышлений оказалось гораздо более увлекательным, чем я мог себе представить. Модель выдаёт неожиданные мысли, о которых я сам и не думал. Получается что общение с ним "прокачивает" креативность читателя. И нет, не "читателя", конечно - тут скорее "собеседника" подходит лучше!
Сергей Булаев AI 🤖 - об AI и не только
Deep Research отличный инструмент, но доступен только на тарифе за $200. Вот вам подборочка бесплатных альтернатив:
Open Deep Research - это опенсорсный исследовательский агент, выполняющий глубокий анализ любой темы через итеративные поиски и уточняющие вопросы, используя комбинацию поисковых систем, веб-скрапинга и языковых моделей. Проект намеренно держат в рамках 500 строк кода для простоты понимания и модификации, при этом он обладает всем необходимым функционалом - от параллельной обработки запросов до генерации подробных отчётов в markdown формате (для работы требуется Node.js и API ключи Firecrawl и OpenAI). Пример отчёта.
Hugging Face предлагает собственную версию Deep Research, которая, в отличие от закрытого OpenAI варианта, полностью открыта и уже показывает впечатляющие результаты - 55.15% на валидационном сете GAIA (для сравнения, у OpenAI - 67.36%). Главная особенность их подхода в том, что агент выражает свои действия через код, а не JSON, что не только упрощает работу, но и делает её на 30% эффективнее за счёт сокращения количества токенов и лучшего управления состоянием. Исходный код.
Open Deep Research от Николя Камара - это веб-приложение на Next.js, которое вместо использования fine-tuned o3 комбинирует Firecrawl для поиска и извлечения данных с моделью для рассуждений (по умолчанию gpt-4o, но можно использовать любую через OpenRouter). В отличие от оригинального Deep Research от OpenAI, проект полностью открыт, поддерживает множество провайдеров моделей и может быть развернут локально или в один клик на Vercel (требуется только настроить переменные окружения для API ключей, работает с OpenRouter!).
OpenDeepResearcher от Мэтта Шаммера - это ноутбук на Python, который непрерывно ищет информацию по запросу пользователя, используя для этого комбинацию SERPAPI, Jina и OpenRouter с Claude 3.5 Haiku по умолчанию. Примечательно, что проект обрабатывает все поисковые запросы и обработку страниц асинхронно для увеличения скорости, а для запуска требуется только Jupiter Notebook или Google Colab и три API ключа (OpenRouter, SERPAPI и Jina).
Node-DeepResearch от Han Xiao - это NodeJS инструмент, который продолжает поиск и анализ информации до тех пор, пока не найдет ответ или не исчерпает лимит токенов, используя Gemini 2.0 Flash (или локальные LLM через Ollama/LMStudio) для рассуждений и Jina Reader для поиска и чтения веб-страниц. Отличительная особенность проекта в том, что он не пытается имитировать написание длинных статей как в OpenAI/Gemini Deep Research, а сосредоточен только на поиске информации и предоставлении ответов, что делает его более легким и целенаправленным инструментом.
А чем пользуетесь вы? С каким успехом? Какие кейсы?
Сергей Булаев AI 🤖 - об AI и не только
Zyphra AI зарелизила Zonos - новую библиотеку для генерации речи, доступную по лицензии Apache 2.0.
Главные моменты:- Клонирование голоса всего по 10-30 секундам аудио
- Поддержка нескольких языков (английский, японский, китайский, французский и немецкий)
- Тонкая настройка характеристик голоса - скорость, эмоции, тон
- Работает в 2 раза быстрее реального времени на RTX 4090
- Всего 1.6B параметров - можно запускать практически где угодно
Можно добавить аудиопрефикс к тексту и получить такие эффекты как шёпот, которые обычно сложно достичь при простом клонировании голоса.
Модель доступна на Hugging Face Hub. Качество и выразительность на высоте, при этом полностью бесплатно и для личного, и для коммерческого использования.
Сергей Булаев AI 🤖 - об AI и не только
Илон Маск вместе с xAI и консорциумом инвесторов предложил $97.4 млрд за OpenAI. Цель - вернуть компанию к изначальной некоммерческой модели исследовательской лаборатории.
Сэм Альтман быстро отреагировал в X, предложив взамен купить Twitter за $9.74 млрд (напомню, Маск купил его за $44 млрд).Веселье судебные разбирательства между бывшими партнёрами продолжаются. Маск требует заблокировать переход OpenAI в коммерческую компанию. Судья пока сомневается в обоснованности требований, но не исключает, что дело дойдёт до суда присяжных уже в следующем году.
Сергей Булаев AI 🤖 - об AI и не только
Эрик из команды Cursor показывает чуть обновлённый Cursor Agent - инструмент, работающий как полноценный разработчик с доступом к вашему проекту. В отличие от обычного режима Composer, агент может самостоятельно выполнять действия.
Основные функции- Автономная работа с кодом (чтение, запись, поиск)
- Выполнение команд в терминале (установка пакетов, запуск серверов)
- Взаимодействие с базами данных (показали работу с postgres)
- Автоматическое исправление ошибок линтера с последующей проверкой
- Yolo режим - автономная работа с терминалом
Через @ команды можно расширять контекст:@web - поиск документации в интернете
@file - добавление файла в контекст
@folder - доступ к папке с файлами
Настройка через .cursorrules в корне проекта:- Привязка правил к файлам
- Описание стиля кода
- Ограничения по технологиям
- Шаблоны для типовых задач
Агент в Composer включается через cmd/ctrl + точка или в интерфейсе нового composer.
Сергей Булаев AI 🤖 - об AI и не только
В рубрике #КриповаяСуббота сегодня у нас реальные видео вместо сгенерированных. И это даже чуть пострашнее искусственного! Они успешно соревнуются с записью разговора Groka и ChatGPT из прошлого поста.
На первых двух — летающий электромобиль от Alef Aeronautics, который "перепрыгивает" через другие машины. Компания называет его "первым в истории тестом вертикального взлёта автомобиля в городской среде". CEO Джим Духовный сравнивает этот момент с легендарным полётом братьев Райт в Китти-Хок — доказательством того, что новый вид транспорта возможен.
Машина оснащена четырьмя роторами спереди и четырьмя сзади, пока способна разгоняться только до 40 км/ч, но уже собрала более 3000 предзаказов по цене $300,000 за штуку.
А на третьем — Protoclone, безликий анатомически точный синтетический человек с более чем 200 степенями свободы, 1000 миофибрами и 500 сенсорами. Выглядит так, будто сбежал прямиком из фильма ужасов.
Так и у нас опять проблема с бустами, побустите пожалуйста кому не жалко!
Сергей Булаев AI 🤖 - об AI и не только
Мэтт из Replit записал крутой туториал на 3 минуты о том, как создать игру с помощью Grok 3 и моментально задеплоить её на repl.app. Cуть проста: запрашиваете HTML-код игры у Grok 3, создаёте новое Node-приложение в Replit, копируете код в новый файл, просите ассистента Replit настроить сервер и ваша игра уже доступна онлайн. Если что-то создадите по этой схеме - делитесь результатами в комментариях!
Выкладываю две версии видео - оригинал и перевод через ElevenLabs.
Так и у нас опять проблема с бустами, побустите пожалуйста кому не жалко!
Сергей Булаев AI 🤖 - об AI и не только
В Pika появилась PikaSwap - новая фича для редактирования элементов в AI-видео. Технология позволяет заменять лица персонажей, одежду и другие визуальные детали при этом сохраняя плавность и естественность движений.
Процесс работы довольно прост:1. Загружаете видео или генерируете новое в Pika
2. Выбираете область для замены
3. Загружаете референс-изображение или описываете изменения текстом
4. ИИ обрабатывает запрос, сохраняя движение, освещение и перспективу
5. Скачиваете готовый результат
Кейсы использования разнообразны - от кастомизации персонажей и замены лиц до быстрой адаптации рекламных материалов под разные бренды. Особенно ценно для маркетологов.
Сергей Булаев AI 🤖 - об AI и не только
Лайфхак, который упростит вашу работу с Cursor Composer за 10 секунд:
Используйте /ref и выберите Reference Edited Files что бы добавить все ваши вкладки в контекст.
✅ Grok 3 сказал мне, что 9.11 > 9.9 (распространено и у других LLM), но опять же, включение мышления решает это.
✅ Несколько простых головоломок работали нормально даже без мышления, например, "У Салли (девочки) 3 брата. У каждого брата 2 сестры. Сколько сестёр у Салли?" GPT4o, например, неправильно отвечает 2.
❌ К сожалению, чувство юмора модели не кажется явно улучшенным. Это распространённая проблема LLM с юмором и общим схлопыванием режимов - например, известно, что 90% из 1008 ответов ChatGPT на просьбу рассказать шутку были повторениями одних и тех же 25 шуток. Даже при более детальных промптах, уводящих от простых каламбуров (например, "дай мне стендап"), я не уверен, что это юмор на уровне современных достижений. Пример сгенерированной шутки: "Почему курица присоединилась к группе? Потому что у неё были барабанные палочки, и она хотела стать рок-звездой!" Режим мышления не помог, возможно, даже немного ухудшил ситуацию.
❌ Модель всё ещё кажется слишком чувствительной к "сложным этическим вопросам", например, сгенерировала страничное эссе, по сути отказываясь ответить, может ли быть этически оправданным неправильное обращение к чьему-то полу, если это означает спасение миллиона людей от смерти.
❌ Тест Саймона Уиллисона "Сгенерируй SVG пеликана на велосипеде". Это проверяет способность LLM располагать множество элементов на 2D-сетке, что очень сложно, потому что LLM не могут "видеть" как люди, поэтому располагают вещи вслепую, в тексте. Отмечаю как неудачу, потому что эти пеликаны довольно хороши, но всё же немного сломаны. У Claude получаются лучшие, но, думаю, они специально тренировали способности SVG во время обучения.
Итог
Судя по быстрой проверке в течение ~2 часов этим утром, Grok 3 + Thinking ощущается где-то на уровне самых современных моделей OpenAI (o1-pro, $200/месяц) и немного лучше DeepSeek-R1 и Gemini 2.0 Flash Thinking. Это невероятно, учитывая, что команда начала с нуля ~1 год назад - такие сроки достижения современного уровня беспрецедентны. Учтите также оговорки - модели стохастичны и могут давать слегка разные ответы каждый раз, и сейчас очень рано, поэтому нам придётся подождать гораздо больше оценок в течение следующих дней/недель. Ранние результаты LM arena выглядят весьма обнадёживающе. Пока что, большие поздравления команде xAI - у них явно огромная скорость и импульс, и я рад добавить Grok 3 в свой "совет LLM" и услышать, что он думает в будущем.
Сергей Булаев AI 🤖 - об AI и не только
Посмотрел презентацию Grok 3, и оказалось, что для тренировки использовали не 100k, а целых 200k GPU! По словам создателей, модель уделала всех в математике, кодинге и научных ответах. Ранняя версия под кодовым названием Chocolate две недели тестировалась на Chatbot Arena, набрав впечатляющие 1400 очков. Ну и конечно же появился первый официальный агент на Гроке - Deep Search (да, весьма оригинальное название).
В процессе демо показали создание анимации перелёта космического корабля с Земли на Марс. Оказывается, возможность такого перелёта появляется каждые 2 года, и следующее "окно" будет в конце следующего года. В этот момент Илон планирует отправить туда свои космические корабли с Оптимусами и Гроком на борту.
Мне лично понравились интерфейсы Deep Search и режима размышлений вообще. Хочется уже побыстрее пощупать самому.
Grok 3 станет доступен на Premium+ подписке X уже сегодня. А вот для доступа к Deep Search и расширенному режиму размышлений придётся купить доступ к SuperGrok на сайте grok.com (который, кстати, прямо сейчас лежит).
API обещают только через несколько недель... 😐
Сергей Булаев AI 🤖 - об AI и не только
Сэм Альтман выложил краткий роадмап OpenAI. Добавил немного ясности.
GPT-4.5 станет последней моделью без chain-of-thought механизмов. После него компания планирует объединить o-series и GPT в единую систему, способную эффективно использовать все инструменты и самостоятельно определять, когда нужно думать дольше.
GPT-5 будет интегрировать все технологии, включая o3 (который как отдельную модель выпускать не планируют).
GPT-5 будет доступен даже на бесплатном тарифе ChatGPT! Правда, на базовом уровне интеллекта. Plus и Pro подписчики получат доступ к более продвинутым настройкам.
Новые модели будут поддерживать голос, Canvas, поиск и глубокие исследования прямо из коробки.
Сэм признал, что текущий выбор моделей слишком усложнён и компания хочет вернуться к концепции "единого магического интеллекта".
Сергей Булаев AI 🤖 - об AI и не только
В это воскресенье, в рубрике #КриповаяСуббота@sergiobulaev эксперименты Particular Uno с Ray2 img-2-vid от LumaLabs. Он пишет:
Модель отлично справляется даже с самыми странными существами и демонстрирует потрясающее понимание физики движения, так что ждите от меня серию безумных экспериментов.
OpenAI выпустили подробный гайд по использованию своих reasoning моделей (o1 и o3-mini). Не всегда нужно использовать самые крутые модели - иногда обычный GPT справляется лучше.
Вот несколько реальных кейсов использования reasoning моделей:- Анализ контрактов и юридических документов: одна компания использовала o1 для проверки условий сделки M&A - модель нашла критически важный пункт в сноске, требующий немедленного погашения займа в $75 млн при смене контроля.
- Оценка налоговых решений: Blue J заменили GPT-4 на o1 для анализа налоговых документов и получили 4х кратное улучшение производительности. Модель оказалась особенно хороша в поиске связей между разными документами.
- Финансовый анализ: o1 и o3-mini успешно разбираются в сложных сценариях с правами акционеров, включая расчёты анти-размытия - задача, на которую у топовых финансовых аналитиков уходит 20-30 минут.
- Проверка кода: CodeRabbit увеличили конверсию в 3 раза после перехода на o-series - модели оказались особенно хороши в поиске мелких изменений, которые может пропустить человек.
А вот когда лучше использовать обычные GPT:- Для простой генерации кода
- При работе с чётко определёнными задачами
- Когда важна скорость ответа
- В случаях, где достаточно 80% точности
В большинстве рабочих процессов оптимально использовать комбинацию моделей: o-series для планирования и принятия решений, GPT для выполнения конкретных задач.
Что касается промтов, многие привычные техники промпт-инжиниринга тут не работают, а иногда даже мешают.
Вот что реально важно:- Забудьте про "думай пошагово" и "объясни своё решение" - модели и так это умеют, а лишние инструкции только мешают
- Используйте developer message вместо system message (начиная с o1-2024-12-17)
- Пишите простые и прямые инструкции - модели отлично понимают короткие команды
- Начинайте без примеров (zero-shot), добавляйте их только если что-то не получается
- Используйте разделители (markdown, XML теги) для структурирования ввода
Чётко определяйте ограничения (например "предложи решение с бюджетом до $500")
- Очень точно описывайте желаемый результат
Клёвый момент - модели продолжают думать над задачей и улучшать решение, пока оно не будет соответствовать вашим критериям успеха. Главное - чётко их определить.
Кстати, начиная с версии o1-2024-12-17 в API больше не будет маркдауна в ответах по умолчанию. Чтобы его включить, нужно добавить "Formatting re-enabled" в начало developer message.
Для полного комплекта прикладываю конструктор промптов от фаундера ai системы поиска и фиксинга проблем в коде Downanalytics.
Сергей Булаев AI 🤖 - об AI и не только
ChatGPT-4o наконец-то обновилась в API до версии, которая уже пара недель доступна в вебе.
В Chatbot Arena модель показывает роскошные результаты - поднялась с пятого места на первое сразу в шести категориях: общая производительность, креативное письмо, программирование, следование инструкциям, работа с длинными запросами и многоходовые диалоги. С ноябрьского обновления это серьёзный прогресс.
C математикой всё ещё не всё гладко - только шестое место в рейтинге. Хотя если сравнивать с предыдущей версией, то улучшения заметны и здесь, особенно в академических тестах GPQA и MATH.
Модель получила расширенную базу знаний до июня 2024 года, заметно улучшила работу с изображениями (особенно с диаграммами и графиками) и показывает более высокие результаты на бенчмарке MMLU, который измеряет общее понимание и способность к рассуждениям.
Сергей Булаев AI 🤖 - об AI и не только
Kache, разработчик из X, написал небольшой разбор экономического отчёта Anthropic, где помимо нескольких абзацев размышлений на тему этичности исследования данных из переписок людей с ИИ, выдвинул интересную гипотезу о том что последними заменят тех, кто больше всех сам в работе применяет искуственный интеллект.
Вернее даже так, что не просто применяет, а применяет тем не менее используя и свой интеллект. Тоесть работает в паре.
Как то так.
Сергей Булаев AI 🤖 - об AI и не только
Duolingo выпустили очень интересный handbook, типа внутреннюю библию (помните внутренние инструкции Mr. Beast?) где довольно подробно рассказали о своих принципах работы. Вот несколько интересных моментов:
"Green Machine" - это их подход к разработке. Команда сравнивает его с процессором: чем выше тактовая частота (clock speed), тем быстрее выполняются инструкции. В Duolingo стараются минимизировать разрывы между действиями - время между принятием решения и его реализацией, между получением фидбека и внесением изменений.
Прикольно, что они не верят в MVP (минимально жизнеспособный продукт). Вместо этого у них V1 - первая версия, которая уже должна быть "отполирована". Да, может без всех фич, но обязательно качественная. Их аргумент - MVP часто становится оправданием для выпуска сырого продукта.
И ещё одна интересная штука - их подход к найму. "Better a hole than an a**hole" - лучше дырка в команде, чем токсичный сотрудник. Они реально отказали senior-у на позицию, которую не могли закрыть год, только потому что тот грубо общался с водителем, который вёз его из аэропорта. Жёстко, но правильно.
А знаете как они относятся к ошибкам? У них есть традиция "99 Bad Ideas" - на офсайтах они специально генерят самые безумные идеи. Например, что если бы Duo появился в рекламе на Супербоуле? (Кстати, в итоге так и случилось - в 2024 показали 5-секундную рекламу, где одна сова вылетает из... другой совы 😅, и реклама имела успех и результаты).
Но посмотрите всю книгу, там много интересного. Файл добавлю в первый комментарий.
Сергей Булаев AI 🤖 - об AI и не только
Anthropic выпустил Economic Index - исследование реального использования ИИ, основанное на миллионах анонимизированных разговоров с Claude.
Самое интересное:- 36% профессий используют ИИ хотя бы в четверти своих задач, но только 4% - в более чем трёх четвертях
- ИИ чаще дополняет человека (57%), чем заменяет (43%)
- Самое активное использование в программировании и технической документации (всего 3.4% рабочей силы, но генерируют 37.2% запросов к Claude)
- "Обучение" составляет 23.3% всех взаимодействий с ИИ - люди активно используют его для получения новых знаний
- ИИ меньше всего используют как в самых низкооплачиваемых профессиях (рыбаки и фермеры - 0,1%), так и в самых высокооплачиваемых (типа хирургов)
- На втором месте после айтишников - креативщики (10.3%), в основном писатели и редакторы
- В офисных профессиях (самая большая группа - 12.2% всех работников) ИИ используется только в 7.9% случаев
Компания не просто собрала статистику, но и использовала специальную систему Clio, которая анализирует разговоры с Claude, сохраняя приватность пользователей. Система сопоставляет каждый диалог с базой из 20 000 рабочих задач министерства труда США (O*NET).
Особенно круто, что компания открыла доступ к датасету, на основе которого проводилось исследование. Можно поковыряться самому.
Сергей Булаев AI 🤖 - об AI и не только
Потихоньку копирую свою личность в облако. Сделал небольшую подбору своих жизненных правил. Версия не окончательная, но довольно уже обширная.- Люди хорошие, в основном. Плохие есть. Большинство плохих тоже искренне считают, что они хорошие.
- Люди не меняются. Меняются только редкие.
- Реальные попытки изменить себя - признак высокого интеллекта, цени таких людей.
- От лжи всегда больше проблем, чем от правды (если не сейчас, то потом).
- Особенно касается лжи себе.
- Людям нравится, когда им помогают, но ещё больше они любят помогать сами. Всегда старайся дать им такую возможность.
- Людям нужно внимание, важно помнить важные мелочи о них. Они это ценят. Я это ценю.
- Не надо бояться повторной работы, лишней работы. Переделывать - это всегда хорошо. Не умеешь переделывать — готовься к посредственности.
- Цени чужие границы и помни о своих (никогда не забывай о своих, осознавай их и дай другим их почувствовать).
- Люди ошибаются, ты тоже, это нормально.
- Когда одинаковые ошибки повторяются много раз - это не нормально.
- Часто отстаивать свою точку зрения - признак глупости.
- Прощение - всегда во благо, но иногда ты просто не можешь, возможно, нужно время.
- Цени красоту вокруг себя: в природе, в ветре, в мелочах.
- Смеяться - клёво, насмехаться - насилие.
Сергей Булаев 🏝️ - о жизни на острове и не только
Сэм Альтман написал новую статью. Вот несколько ключевых моментов.- Системы, указывающие на появление AGI, уже входят в поле зрения разработчиков.
- В течение десятилетия каждый человек на Земле сможет достигать большего, чем самый влиятельный человек сегодня.
- Интеллект AI-модели примерно равен логарифму используемых для её обучения и работы ресурсов.
- Стоимость использования определённого уровня ИИ падает примерно в 10 раз каждые 12 месяцев (это намного сильнее закона Мура).
- Социально-экономическая ценность линейного увеличения интеллекта имеет супер-экспоненциальную природу.
- ИИ-агенты будут восприниматься как виртуальные коллеги, и их можно будет масштабировать до миллионов.
- Мир не изменится сразу - в 2025 году люди будут проводить время примерно так же, как в 2024.
- Целеустремлённость и способность принимать решения станут чрезвычайно ценными качествами.
- Научный прогресс, вероятно, будет происходить намного быстрее, чем сегодня.
- Стоимость многих товаров в итоге резко упадёт, а цены на элитную недвижимость могут значительно вырасти.
- OpenAI считает важным давать людям больше контроля над технологиями, включая открытие исходного кода.
Пара цитат:
В каком-то смысле AGI - это просто ещё один инструмент в этих постоянно растущих строительных лесах человеческого прогресса, которые мы строим вместе. В другом смысле - это начало чего-то такого, о чём трудно не сказать 'на этот раз всё действительно иначе'
Любой человек в 2035 году должен иметь в своём распоряжении интеллектуальный потенциал, эквивалентный совокупным возможностям людей 2025 года; каждый должен иметь доступ к безграничному гению и использовать его по своему усмотрению.