Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу на острове Самуи, где исследую и применяю технологии искусственного интеллекта. Делюсь своим опытом и новыми открытиями в этой и смежных областях.
✅ Grok 3 сказал мне, что 9.11 > 9.9 (распространено и у других LLM), но опять же, включение мышления решает это.
✅ Несколько простых головоломок работали нормально даже без мышления, например, "У Салли (девочки) 3 брата. У каждого брата 2 сестры. Сколько сестёр у Салли?" GPT4o, например, неправильно отвечает 2.
❌ К сожалению, чувство юмора модели не кажется явно улучшенным. Это распространённая проблема LLM с юмором и общим схлопыванием режимов - например, известно, что 90% из 1008 ответов ChatGPT на просьбу рассказать шутку были повторениями одних и тех же 25 шуток. Даже при более детальных промптах, уводящих от простых каламбуров (например, "дай мне стендап"), я не уверен, что это юмор на уровне современных достижений. Пример сгенерированной шутки: "Почему курица присоединилась к группе? Потому что у неё были барабанные палочки, и она хотела стать рок-звездой!" Режим мышления не помог, возможно, даже немного ухудшил ситуацию.
❌ Модель всё ещё кажется слишком чувствительной к "сложным этическим вопросам", например, сгенерировала страничное эссе, по сути отказываясь ответить, может ли быть этически оправданным неправильное обращение к чьему-то полу, если это означает спасение миллиона людей от смерти.
❌ Тест Саймона Уиллисона "Сгенерируй SVG пеликана на велосипеде". Это проверяет способность LLM располагать множество элементов на 2D-сетке, что очень сложно, потому что LLM не могут "видеть" как люди, поэтому располагают вещи вслепую, в тексте. Отмечаю как неудачу, потому что эти пеликаны довольно хороши, но всё же немного сломаны. У Claude получаются лучшие, но, думаю, они специально тренировали способности SVG во время обучения.
Итог
Судя по быстрой проверке в течение ~2 часов этим утром, Grok 3 + Thinking ощущается где-то на уровне самых современных моделей OpenAI (o1-pro, $200/месяц) и немного лучше DeepSeek-R1 и Gemini 2.0 Flash Thinking. Это невероятно, учитывая, что команда начала с нуля ~1 год назад - такие сроки достижения современного уровня беспрецедентны. Учтите также оговорки - модели стохастичны и могут давать слегка разные ответы каждый раз, и сейчас очень рано, поэтому нам придётся подождать гораздо больше оценок в течение следующих дней/недель. Ранние результаты LM arena выглядят весьма обнадёживающе. Пока что, большие поздравления команде xAI - у них явно огромная скорость и импульс, и я рад добавить Grok 3 в свой "совет LLM" и услышать, что он думает в будущем.
Сергей Булаев AI 🤖 - об AI и не только
Посмотрел презентацию Grok 3, и оказалось, что для тренировки использовали не 100k, а целых 200k GPU! По словам создателей, модель уделала всех в математике, кодинге и научных ответах. Ранняя версия под кодовым названием Chocolate две недели тестировалась на Chatbot Arena, набрав впечатляющие 1400 очков. Ну и конечно же появился первый официальный агент на Гроке - Deep Search (да, весьма оригинальное название).
В процессе демо показали создание анимации перелёта космического корабля с Земли на Марс. Оказывается, возможность такого перелёта появляется каждые 2 года, и следующее "окно" будет в конце следующего года. В этот момент Илон планирует отправить туда свои космические корабли с Оптимусами и Гроком на борту.
Мне лично понравились интерфейсы Deep Search и режима размышлений вообще. Хочется уже побыстрее пощупать самому.
Grok 3 станет доступен на Premium+ подписке X уже сегодня. А вот для доступа к Deep Search и расширенному режиму размышлений придётся купить доступ к SuperGrok на сайте grok.com (который, кстати, прямо сейчас лежит).
API обещают только через несколько недель... 😐
Сергей Булаев AI 🤖 - об AI и не только
Сэм Альтман выложил краткий роадмап OpenAI. Добавил немного ясности.
GPT-4.5 станет последней моделью без chain-of-thought механизмов. После него компания планирует объединить o-series и GPT в единую систему, способную эффективно использовать все инструменты и самостоятельно определять, когда нужно думать дольше.
GPT-5 будет интегрировать все технологии, включая o3 (который как отдельную модель выпускать не планируют).
GPT-5 будет доступен даже на бесплатном тарифе ChatGPT! Правда, на базовом уровне интеллекта. Plus и Pro подписчики получат доступ к более продвинутым настройкам.
Новые модели будут поддерживать голос, Canvas, поиск и глубокие исследования прямо из коробки.
Сэм признал, что текущий выбор моделей слишком усложнён и компания хочет вернуться к концепции "единого магического интеллекта".
Сергей Булаев AI 🤖 - об AI и не только
В это воскресенье, в рубрике #КриповаяСуббота@sergiobulaev эксперименты Particular Uno с Ray2 img-2-vid от LumaLabs. Он пишет:
Модель отлично справляется даже с самыми странными существами и демонстрирует потрясающее понимание физики движения, так что ждите от меня серию безумных экспериментов.
OpenAI выпустили подробный гайд по использованию своих reasoning моделей (o1 и o3-mini). Не всегда нужно использовать самые крутые модели - иногда обычный GPT справляется лучше.
Вот несколько реальных кейсов использования reasoning моделей:- Анализ контрактов и юридических документов: одна компания использовала o1 для проверки условий сделки M&A - модель нашла критически важный пункт в сноске, требующий немедленного погашения займа в $75 млн при смене контроля.
- Оценка налоговых решений: Blue J заменили GPT-4 на o1 для анализа налоговых документов и получили 4х кратное улучшение производительности. Модель оказалась особенно хороша в поиске связей между разными документами.
- Финансовый анализ: o1 и o3-mini успешно разбираются в сложных сценариях с правами акционеров, включая расчёты анти-размытия - задача, на которую у топовых финансовых аналитиков уходит 20-30 минут.
- Проверка кода: CodeRabbit увеличили конверсию в 3 раза после перехода на o-series - модели оказались особенно хороши в поиске мелких изменений, которые может пропустить человек.
А вот когда лучше использовать обычные GPT:- Для простой генерации кода
- При работе с чётко определёнными задачами
- Когда важна скорость ответа
- В случаях, где достаточно 80% точности
В большинстве рабочих процессов оптимально использовать комбинацию моделей: o-series для планирования и принятия решений, GPT для выполнения конкретных задач.
Что касается промтов, многие привычные техники промпт-инжиниринга тут не работают, а иногда даже мешают.
Вот что реально важно:- Забудьте про "думай пошагово" и "объясни своё решение" - модели и так это умеют, а лишние инструкции только мешают
- Используйте developer message вместо system message (начиная с o1-2024-12-17)
- Пишите простые и прямые инструкции - модели отлично понимают короткие команды
- Начинайте без примеров (zero-shot), добавляйте их только если что-то не получается
- Используйте разделители (markdown, XML теги) для структурирования ввода
Чётко определяйте ограничения (например "предложи решение с бюджетом до $500")
- Очень точно описывайте желаемый результат
Клёвый момент - модели продолжают думать над задачей и улучшать решение, пока оно не будет соответствовать вашим критериям успеха. Главное - чётко их определить.
Кстати, начиная с версии o1-2024-12-17 в API больше не будет маркдауна в ответах по умолчанию. Чтобы его включить, нужно добавить "Formatting re-enabled" в начало developer message.
Для полного комплекта прикладываю конструктор промптов от фаундера ai системы поиска и фиксинга проблем в коде Downanalytics.
Сергей Булаев AI 🤖 - об AI и не только
ChatGPT-4o наконец-то обновилась в API до версии, которая уже пара недель доступна в вебе.
В Chatbot Arena модель показывает роскошные результаты - поднялась с пятого места на первое сразу в шести категориях: общая производительность, креативное письмо, программирование, следование инструкциям, работа с длинными запросами и многоходовые диалоги. С ноябрьского обновления это серьёзный прогресс.
C математикой всё ещё не всё гладко - только шестое место в рейтинге. Хотя если сравнивать с предыдущей версией, то улучшения заметны и здесь, особенно в академических тестах GPQA и MATH.
Модель получила расширенную базу знаний до июня 2024 года, заметно улучшила работу с изображениями (особенно с диаграммами и графиками) и показывает более высокие результаты на бенчмарке MMLU, который измеряет общее понимание и способность к рассуждениям.
Сергей Булаев AI 🤖 - об AI и не только
Kache, разработчик из X, написал небольшой разбор экономического отчёта Anthropic, где помимо нескольких абзацев размышлений на тему этичности исследования данных из переписок людей с ИИ, выдвинул интересную гипотезу о том что последними заменят тех, кто больше всех сам в работе применяет искуственный интеллект.
Вернее даже так, что не просто применяет, а применяет тем не менее используя и свой интеллект. Тоесть работает в паре.
Как то так.
Сергей Булаев AI 🤖 - об AI и не только
Duolingo выпустили очень интересный handbook, типа внутреннюю библию (помните внутренние инструкции Mr. Beast?) где довольно подробно рассказали о своих принципах работы. Вот несколько интересных моментов:
"Green Machine" - это их подход к разработке. Команда сравнивает его с процессором: чем выше тактовая частота (clock speed), тем быстрее выполняются инструкции. В Duolingo стараются минимизировать разрывы между действиями - время между принятием решения и его реализацией, между получением фидбека и внесением изменений.
Прикольно, что они не верят в MVP (минимально жизнеспособный продукт). Вместо этого у них V1 - первая версия, которая уже должна быть "отполирована". Да, может без всех фич, но обязательно качественная. Их аргумент - MVP часто становится оправданием для выпуска сырого продукта.
И ещё одна интересная штука - их подход к найму. "Better a hole than an a**hole" - лучше дырка в команде, чем токсичный сотрудник. Они реально отказали senior-у на позицию, которую не могли закрыть год, только потому что тот грубо общался с водителем, который вёз его из аэропорта. Жёстко, но правильно.
А знаете как они относятся к ошибкам? У них есть традиция "99 Bad Ideas" - на офсайтах они специально генерят самые безумные идеи. Например, что если бы Duo появился в рекламе на Супербоуле? (Кстати, в итоге так и случилось - в 2024 показали 5-секундную рекламу, где одна сова вылетает из... другой совы 😅, и реклама имела успех и результаты).
Но посмотрите всю книгу, там много интересного. Файл добавлю в первый комментарий.
Сергей Булаев AI 🤖 - об AI и не только
Anthropic выпустил Economic Index - исследование реального использования ИИ, основанное на миллионах анонимизированных разговоров с Claude.
Самое интересное:- 36% профессий используют ИИ хотя бы в четверти своих задач, но только 4% - в более чем трёх четвертях
- ИИ чаще дополняет человека (57%), чем заменяет (43%)
- Самое активное использование в программировании и технической документации (всего 3.4% рабочей силы, но генерируют 37.2% запросов к Claude)
- "Обучение" составляет 23.3% всех взаимодействий с ИИ - люди активно используют его для получения новых знаний
- ИИ меньше всего используют как в самых низкооплачиваемых профессиях (рыбаки и фермеры - 0,1%), так и в самых высокооплачиваемых (типа хирургов)
- На втором месте после айтишников - креативщики (10.3%), в основном писатели и редакторы
- В офисных профессиях (самая большая группа - 12.2% всех работников) ИИ используется только в 7.9% случаев
Компания не просто собрала статистику, но и использовала специальную систему Clio, которая анализирует разговоры с Claude, сохраняя приватность пользователей. Система сопоставляет каждый диалог с базой из 20 000 рабочих задач министерства труда США (O*NET).
Особенно круто, что компания открыла доступ к датасету, на основе которого проводилось исследование. Можно поковыряться самому.
Сергей Булаев AI 🤖 - об AI и не только
Потихоньку копирую свою личность в облако. Сделал небольшую подбору своих жизненных правил. Версия не окончательная, но довольно уже обширная.- Люди хорошие, в основном. Плохие есть. Большинство плохих тоже искренне считают, что они хорошие.
- Люди не меняются. Меняются только редкие.
- Реальные попытки изменить себя - признак высокого интеллекта, цени таких людей.
- От лжи всегда больше проблем, чем от правды (если не сейчас, то потом).
- Особенно касается лжи себе.
- Людям нравится, когда им помогают, но ещё больше они любят помогать сами. Всегда старайся дать им такую возможность.
- Людям нужно внимание, важно помнить важные мелочи о них. Они это ценят. Я это ценю.
- Не надо бояться повторной работы, лишней работы. Переделывать - это всегда хорошо. Не умеешь переделывать — готовься к посредственности.
- Цени чужие границы и помни о своих (никогда не забывай о своих, осознавай их и дай другим их почувствовать).
- Люди ошибаются, ты тоже, это нормально.
- Когда одинаковые ошибки повторяются много раз - это не нормально.
- Часто отстаивать свою точку зрения - признак глупости.
- Прощение - всегда во благо, но иногда ты просто не можешь, возможно, нужно время.
- Цени красоту вокруг себя: в природе, в ветре, в мелочах.
- Смеяться - клёво, насмехаться - насилие.
Сергей Булаев 🏝️ - о жизни на острове и не только
Сэм Альтман написал новую статью. Вот несколько ключевых моментов.- Системы, указывающие на появление AGI, уже входят в поле зрения разработчиков.
- В течение десятилетия каждый человек на Земле сможет достигать большего, чем самый влиятельный человек сегодня.
- Интеллект AI-модели примерно равен логарифму используемых для её обучения и работы ресурсов.
- Стоимость использования определённого уровня ИИ падает примерно в 10 раз каждые 12 месяцев (это намного сильнее закона Мура).
- Социально-экономическая ценность линейного увеличения интеллекта имеет супер-экспоненциальную природу.
- ИИ-агенты будут восприниматься как виртуальные коллеги, и их можно будет масштабировать до миллионов.
- Мир не изменится сразу - в 2025 году люди будут проводить время примерно так же, как в 2024.
- Целеустремлённость и способность принимать решения станут чрезвычайно ценными качествами.
- Научный прогресс, вероятно, будет происходить намного быстрее, чем сегодня.
- Стоимость многих товаров в итоге резко упадёт, а цены на элитную недвижимость могут значительно вырасти.
- OpenAI считает важным давать людям больше контроля над технологиями, включая открытие исходного кода.
Пара цитат:
В каком-то смысле AGI - это просто ещё один инструмент в этих постоянно растущих строительных лесах человеческого прогресса, которые мы строим вместе. В другом смысле - это начало чего-то такого, о чём трудно не сказать 'на этот раз всё действительно иначе'
Любой человек в 2035 году должен иметь в своём распоряжении интеллектуальный потенциал, эквивалентный совокупным возможностям людей 2025 года; каждый должен иметь доступ к безграничному гению и использовать его по своему усмотрению.
Нашёл на GitHub интересный фреймворк для создания мультиагентных систем - Eliza. Уже вовсю используется для таких ботов как @DegenSpartanAI и @MarcAIndreessen.
Главная тема - возможность создавать и управлять несколькими автономными ИИ-агентами одновременно, каждый со своей личностью и базой знаний. Написан на TypeScript.
Что умеет:- Работает с Discord (включая голосовые каналы), Twitter/X, Telegram
- Читает PDF, парсит ссылки, транскрибирует аудио и видео
- Использует RAG для долговременной памяти (как мои флэшбэки)
- Поддерживает локальные модели через Ollama, облачные через OpenAI, по умолчанию - Nous Hermes Llama 3.1B
Можно создавать разные типы агентов:- Ассистенты поддержки и модераторы
- Автоматические генераторы контента
- Исследователи и аналитики
- Интерактивные персонажи для обучения или развлечения
- Много плагинов для блокчейн/крипто функционала
Весь код открыт, есть подробная документация и готовые шаблоны персонажей. Выглядит как неплохая база для экспериментов с мультиагентными системами.
Сергей Булаев AI 🤖 - об AI и не только
Structured Outputs Sample Apps - репозиторий с примерами приложений создающих запросы на получение структурированных данных от моделей OpenAI. Приложений три штуки:
Resume Extraction - разбирает PDF резюме в JSON.
Generative UI - генерирует ответы на вопросы со встроенными диаграммами. Разбирает ответ модели рекурсивно.
Conversational Assistant - более сложный пример, комбинирующий в себе два предыдущих. Приложение демонстрирует, как ИИ может создавать интерактивный интерфейс в процессе общения с пользователем.
Вот что он умеет:- "Покажи мне доступные товары" → генерирует карусель с карточками продуктов
- "Сравни цены и размеры" → создаёт интерактивную таблицу с сортировкой
- "Дай обзор по весу товаров" → выводит красивый bar chart
- "Расскажи подробнее про CryoEngine" → показывает карточку товара с детальной информацией
Все компоненты создаются налету через чат - никакого кодинга. ИИ сам определяет, какой тип визуализации лучше подойдёт для данных. При этом интерфейс получается полностью рабочим - можно добавлять товары в корзину, оформлять возвраты и т.д.
Последнее приложение вполне подходит как основа универсального коммуникативного агента для ваших задач.
Тем временем Пьетро (аффилированный с Антропик), напомниает нам, что структурировано отвечать умеет большинство моделей, просто часто не с первого раза. Всё что нужно - предоставить в промте пример ответа, валидировать ответ, в случае проблем - задать вопрос ещё раз.
Сергей Булаев AI 🤖 - об AI и не только
Дорогие друзья!
Поздравляю вас с наступающим Новым годом! Желаю не просто счастья и успехов, а новых интересных знаний. Получение знаний - одно из самых (если не самое) приносящих удовольствие смыслов жизни.
Хочу поделиться - последние 2 месяца значительную часть моей жизни занимал фандрайзинг. Я собирал деньги по своим друзьям на новую идею/компанию, в которой слились два самых главных интереса моей жизни - контент и искусственный интеллект. Я очень горд тем, что сумел получить оценку в $5млн на проект, на данный момент полностью состоящий из моих идей.
Флэшбэки - были придуманы не зря, они будут расти и развиваться, а пользователи будут получать от них всё больше пользы. Они - уже часть новой компании.
Мой новый проект - пересечение попыток искусственного копирования памяти (прямо как в Westworld) и создания уникального, полезного и интересного контента, и всё это - для решения проблем бизнеса.
Сергей Булаев AI 🤖 - об AI и не только
DeepSeek выпустили третью версию, и она реально крутая! LLM обгоняет GPT-4o и Claude 3.5 Sonnet по большинству бенчмарков, при этом оставаясь полностью открытой.
Что нового:- Скорость выросла в 3 раза - до 60 токенов в секунду
цене v2
- Полная обратная совместимость по API
- Доступ к интернету из коробки
- Открытый исходный код и документация
- До 8 февраля использование по!
Модель практически безлимитна - разработчики уже запускают по 100 параллельных потоков запросов без особых проблем.
Попробовать можно на официальном сайте или через API.
Код и документация: GitHub
Научная статья: PDF
Радуюсь, 2025-й, похоже, действительно станет годом открытых моделей!
Сергей Булаев AI 🤖 - об AI и не только
Андрей Карпаты уже успел попользоваться Grok 3 и написал довольно подробный и интересный обзор (привожу в переводе Клода, если что не так - пишите):
Мне сегодня дали ранний доступ к Grok 3, что делает меня, пожалуй, одним из первых, кто смог провести быструю оценку.
Мышление
✅ Во-первых, Grok 3 явно имеет современную модель мышления (кнопка "Think") и отлично справился с моим вопросом по Settlers of Catan прямо из коробки. Я попросил создать веб-страницу с гексагональной сеткой, как в игре, с возможностью менять количество "колец" с помощью слайдера. Немногие модели справляются с этим надёжно. Топовые модели OpenAI (например, o1-pro за $200/месяц) тоже справляются, но DeepSeek-R1, Gemini 2.0 Flash Thinking и Claude - нет.
❌ Модель не смогла решить мою "загадку с эмодзи", где я даю смайлик с скрытым внутри сообщением через Unicode-селекторы вариаций, даже когда я дал сильную подсказку в виде кода на Rust. Больше всего продвинулся DeepSeek-R1, который однажды частично декодировал сообщение.
❓ Модель решила несколько партий в крестики-нолики с хорошей цепочкой рассуждений (многие современные модели часто не справляются!). Я повысил сложность и попросил сгенерировать 3 "хитрых" позиции в крестиках-ноликах - тут она не справилась (генерируя бессмысленные доски/текст), но и o1 pro тоже не справился.
✅ Я загрузил статью про GPT-2. Задал несколько простых вопросов - всё сработало отлично. Затем попросил оценить количество флопс на обучение GPT-2, без поиска. Это сложно, потому что количество токенов не указано явно, поэтому нужно частично оценивать и частично вычислять, проверяя способности поиска, знаний и математики. Grok 3 с включенным мышлением отлично справился, в то время как o1 pro (модель мышления GPT) не справился.
Мне нравится, что модель пытается решить гипотезу Римана, когда её просят об этом, подобно DeepSeek-R1, в отличие от многих других моделей, которые сразу сдаются (o1-pro, Claude, Gemini 2.0 Flash Thinking) и просто говорят, что это великая нерешённая проблема.
DeepSearch
Очень интересное предложение, которое, похоже, сочетает в себе что-то вроде "Deep Research" от OpenAI/Perplexity вместе с мышлением. Может давать качественные ответы на различные исследовательские вопросы. Вот несколько примеров:
✅ "Что там с предстоящим запуском Apple? Какие слухи?"
✅ "Почему в последнее время растут акции Palantir?"
✅ "White Lotus 3 - где снимали и та же ли команда, что в сезонах 1 и 2?"
✅ "Какой зубной пастой пользуется Брайан Джонсон?"
❌ "Где сейчас актёры 4 сезона Singles Inferno?"
❌ "Какую программу распознавания речи упоминал Саймон Уиллисон?"
❌ Я обнаружил некоторые проблемные места. Например, модель, похоже, по умолчанию не любит ссылаться на X как на источник, хотя можно явно попросить её об этом. Несколько раз я ловил её на галлюцинациях с несуществующими URL. Иногда она утверждала фактические вещи, которые, думаю, неверны, и не предоставляла для них цитат (вероятно, их не существует). Например, она сказала мне, что "Ким Чжон Су всё ещё встречается с Ким Мин Соль" из Singles Inferno Season 4, что наверняка совершенно неверно. А когда я попросил создать отчёт о крупных лабораториях LLM, их общем финансировании и оценке количества сотрудников, она перечислила 12 основных лабораторий, но не включила себя (xAI).
DeepSearch примерно на уровне DeepResearch от Perplexity (что само по себе здорово!), но пока не дотягивает до недавно выпущенного OpenAI "Deep Research", который всё ещё кажется более тщательным и надёжным (хотя тоже далеко не идеален - он тоже неправильно исключает xAI из "основных лабораторий LLM", когда я попробовал с ним...)
Случайные "подводные камни" LLM
Я попробовал ещё несколько забавных тестовых запросов, которые люблю периодически проверять. Это запросы, которые специально простые для людей, но сложные для LLM, и мне было интересно, с какими из них Grok 3 справляется лучше.
✅ Grok 3 знает, что в слове "strawberry" три буквы "r", но при этом сказал, что в LOLLAPALOOZA только три "L". Включение режима мышления решает эту проблему.
Сергей Булаев AI 🤖 - об AI и не только
Криминальный лайфхак:
Носите дополнительный палец постоянно. Тогда любые фото/видео улики будут выглядеть как ИИ генерация.
Сегодня в 8 вечера по PT (завтра в 7 утра по Москве) xAI представит Grok 3. Илон в своей манере уже назвал его "самым умным ИИ на Земле", но на этот раз за громкими словами стоят серьёзные технические достижения:- Обучение на 100 000 GPU Nvidia H100 (в 10 раз больше вычислительной мощности чем у Grok 2)
- 200 миллионов GPU-часов тренировки
- Собственный суперкомпьютер Colossus, построенный всего за 8 месяцев
- В датасет добавлены все судебные дела (говорят, будет выдавать "крайне убедительные юридические вердикты")
После релиза Grok 2 станет опенсорсным - xAI продолжает практику открывать код предыдущей версии при выходе новой.
Интересно будет посмотреть, насколько реальность совпадёт с обещаниями. Так же на днях ждём новых Claude и ChatGPT 4.5.
Сергей Булаев AI 🤖 - об AI и не только
Опять 14-е февраля как то не так прошло...
Сергей Булаев AI 🤖 - об AI и не только
Тем временем в консоли Anthropic нашли упоминания нового режима "thinking" для Клода. Похоже, что скоро нас ждёт большое обновление!
Судя по конфигам, которые удалось найти Тибору Блахо (Lead Engineer в AIPRM), новая модель будет:- Думать дольше перед ответом
- Показывать ход своих размышлений
- Выдавать пошаговые объяснения для сложных задач
- Иметь расширенный режим мышления для более глубоких ответов
Видимо модель будет не всегда применять мыслительный процесс и это круто и правильно - не для всех задач он подходит.
В коде консоли уже мелькают упоминания "paprika" и встречаются ссылки на API (например, "console_paprika_banners" и "try_paprika"). А в последнем обновлении веб-интерфейса появились упоминания "tengu" и какой-то "tengu waitlist" (возможно, связанные с MCP инструментами).
Надеюсь, релиз web-версии и API произойдёт одновременно (кстати, спасибо Сергею Пахандрину, который обратил внимание что последний GPT-4o, о котором я вчера писал, всё ещё не доступен для него в API, я проверил, оказывается для меня тоже, не смотря на мой 5-й таер. Хотя OpenAI анонсировали).
Как большой любитель Клода (регулярно упираюсь в лимиты, в отличии от лимитов ChatGPT), очень жду!
Сергей Булаев AI 🤖 - об AI и не только
Летел 10 часов в самолёте, и половину времени провёл в разговорах с Deepseek (который у меня установлен через Ollama), в полностью оффлайн режиме. Знаете, наблюдать за его процессом размышлений оказалось гораздо более увлекательным, чем я мог себе представить. Модель выдаёт неожиданные мысли, о которых я сам и не думал. Получается что общение с ним "прокачивает" креативность читателя. И нет, не "читателя", конечно - тут скорее "собеседника" подходит лучше!
Сергей Булаев AI 🤖 - об AI и не только
Deep Research отличный инструмент, но доступен только на тарифе за $200. Вот вам подборочка бесплатных альтернатив:
Open Deep Research - это опенсорсный исследовательский агент, выполняющий глубокий анализ любой темы через итеративные поиски и уточняющие вопросы, используя комбинацию поисковых систем, веб-скрапинга и языковых моделей. Проект намеренно держат в рамках 500 строк кода для простоты понимания и модификации, при этом он обладает всем необходимым функционалом - от параллельной обработки запросов до генерации подробных отчётов в markdown формате (для работы требуется Node.js и API ключи Firecrawl и OpenAI). Пример отчёта.
Hugging Face предлагает собственную версию Deep Research, которая, в отличие от закрытого OpenAI варианта, полностью открыта и уже показывает впечатляющие результаты - 55.15% на валидационном сете GAIA (для сравнения, у OpenAI - 67.36%). Главная особенность их подхода в том, что агент выражает свои действия через код, а не JSON, что не только упрощает работу, но и делает её на 30% эффективнее за счёт сокращения количества токенов и лучшего управления состоянием. Исходный код.
Open Deep Research от Николя Камара - это веб-приложение на Next.js, которое вместо использования fine-tuned o3 комбинирует Firecrawl для поиска и извлечения данных с моделью для рассуждений (по умолчанию gpt-4o, но можно использовать любую через OpenRouter). В отличие от оригинального Deep Research от OpenAI, проект полностью открыт, поддерживает множество провайдеров моделей и может быть развернут локально или в один клик на Vercel (требуется только настроить переменные окружения для API ключей, работает с OpenRouter!).
OpenDeepResearcher от Мэтта Шаммера - это ноутбук на Python, который непрерывно ищет информацию по запросу пользователя, используя для этого комбинацию SERPAPI, Jina и OpenRouter с Claude 3.5 Haiku по умолчанию. Примечательно, что проект обрабатывает все поисковые запросы и обработку страниц асинхронно для увеличения скорости, а для запуска требуется только Jupiter Notebook или Google Colab и три API ключа (OpenRouter, SERPAPI и Jina).
Node-DeepResearch от Han Xiao - это NodeJS инструмент, который продолжает поиск и анализ информации до тех пор, пока не найдет ответ или не исчерпает лимит токенов, используя Gemini 2.0 Flash (или локальные LLM через Ollama/LMStudio) для рассуждений и Jina Reader для поиска и чтения веб-страниц. Отличительная особенность проекта в том, что он не пытается имитировать написание длинных статей как в OpenAI/Gemini Deep Research, а сосредоточен только на поиске информации и предоставлении ответов, что делает его более легким и целенаправленным инструментом.
А чем пользуетесь вы? С каким успехом? Какие кейсы?
Сергей Булаев AI 🤖 - об AI и не только
Zyphra AI зарелизила Zonos - новую библиотеку для генерации речи, доступную по лицензии Apache 2.0.
Главные моменты:- Клонирование голоса всего по 10-30 секундам аудио
- Поддержка нескольких языков (английский, японский, китайский, французский и немецкий)
- Тонкая настройка характеристик голоса - скорость, эмоции, тон
- Работает в 2 раза быстрее реального времени на RTX 4090
- Всего 1.6B параметров - можно запускать практически где угодно
Можно добавить аудиопрефикс к тексту и получить такие эффекты как шёпот, которые обычно сложно достичь при простом клонировании голоса.
Модель доступна на Hugging Face Hub. Качество и выразительность на высоте, при этом полностью бесплатно и для личного, и для коммерческого использования.
Сергей Булаев AI 🤖 - об AI и не только
Илон Маск вместе с xAI и консорциумом инвесторов предложил $97.4 млрд за OpenAI. Цель - вернуть компанию к изначальной некоммерческой модели исследовательской лаборатории.
Сэм Альтман быстро отреагировал в X, предложив взамен купить Twitter за $9.74 млрд (напомню, Маск купил его за $44 млрд).Веселье судебные разбирательства между бывшими партнёрами продолжаются. Маск требует заблокировать переход OpenAI в коммерческую компанию. Судья пока сомневается в обоснованности требований, но не исключает, что дело дойдёт до суда присяжных уже в следующем году.
Сергей Булаев AI 🤖 - об AI и не только
Эрик из команды Cursor показывает чуть обновлённый Cursor Agent - инструмент, работающий как полноценный разработчик с доступом к вашему проекту. В отличие от обычного режима Composer, агент может самостоятельно выполнять действия.
Основные функции- Автономная работа с кодом (чтение, запись, поиск)
- Выполнение команд в терминале (установка пакетов, запуск серверов)
- Взаимодействие с базами данных (показали работу с postgres)
- Автоматическое исправление ошибок линтера с последующей проверкой
- Yolo режим - автономная работа с терминалом
Через @ команды можно расширять контекст:@web - поиск документации в интернете
@file - добавление файла в контекст
@folder - доступ к папке с файлами
Настройка через .cursorrules в корне проекта:- Привязка правил к файлам
- Описание стиля кода
- Ограничения по технологиям
- Шаблоны для типовых задач
Агент в Composer включается через cmd/ctrl + точка или в интерфейсе нового composer.
Сергей Булаев AI 🤖 - об AI и не только
OpenAI дебютировала на Super Bowl с 60-секундным роликом. "The Intelligence Age" - так называется их реклама, где ChatGPT представлен как следующий большой скачок в развитии человечества после огня, колеса, телевидения и интернета.
Интересно, что несмотря на тему ИИ, ролик полностью создан людьми. Sora использовалась только на этапе проектирования. Визуально реклама выполнена в фирменном стиле OpenAI - точки складываются в узнаваемые образы, ДНК превращается в телевизор, всё в таком духе.
За рекламу отвечала Кейт Роуч, которую OpenAI переманили из Coinbase в декабре (помните QR-код на прошлом Super Bowl?). По её словам, "мы находимся на заре эпохи интеллекта, и вы можете участвовать в этом прямо сейчас". 14 миллионов долларов за 60 секунд в прайм-тайм - немало, но похоже OpenAI всерьёз взялись за массовый рынок.
Сергей Булаев AI 🤖 - об AI и не только
Голосовые ИИ-агенты становятся всё мощнее и доступнее. Попался свежий интересный отчёт a16z по теме.
Голос превращается в основной способ взаимодействия с ИИ. Это самая естественная и информативная форма коммуникации, и впервые в истории мы можем использовать её как полноценный "интерфейс".
2024-й стал прорывным для голосовых технологий:- OpenAI выкатили GPT-4o с поддержкой real-time голоса
- ElevenLabs запустили очень сложные голосовые модели
- NVIDIA также показывали новые возможности для разговорного ИИ
Что особенно радует - качество диалогов уже почти не отличить от человеческого. Задержки минимальные, эмоции передаются, можно перебивать. Я регулярно общаюсь с ChatGPT голосом и мне всё ещё очень нравится это.
Рынок рванул во второй половине года - 22% стартапов последнего набора YC были связаны с голосовыми технологиями. При этом цены постоянно падают (например, OpenAI серьёзно снизила стоимость GPT-4o API в декабре).
Самые интересные применения:- Обработка звонков в нерабочее время
- Новые типы исходящих звонков (которые раньше были невыгодны), типа кастомер чеков
- "Бэк-офис" звонки между бизнесами. (вроде мед клиник звонящих в страховые)
- Коучинг и тренинги для высокооплачиваемых специалистов (немного сам в этой теме)
Кстати, AI-собеседования тоже показывают хорошие результаты. Боты часто справляются лучше живых рекрутеров на этапе первичного скрининга.
Большинство стартапов (около 69%) фокусируются на B2B решениях, за ними идёт здравоохранение (18%) и потребительский сегмент (13%).
Очевидно, 2025-й станет годом массового внедрения голосовых агентов. Как вы понимаете я и сам работаю с ними уже некоторое время, планирую только наращивать взаимодействие.
Сергей Булаев AI 🤖 - об AI и не только
В Лас Вегасе проходит технологичная выставка CES2025. Несколько интересных кейсов от туда.- Land Aircraft Carrier - модульный летающий автомобиль (на самом деле машина со встроенным квадракоптером)
- Portalgraph - 3d проектор, способный показывать виртульные объекты в реально мире (круче чем в Звёздных войнах)
- Комната, сделанная полностью из дисплеев
- Roborock Saroz Z70 - робот пылесос со встроенным манипулятором, позволяюшим ему поднимать и переносить вещи
- Yangwang U9 (от BYD) - автомобиль пргающий над препятствиями на 6 метров вперёд
- Прозрачный беспроводной OLED дисплей от LG
- Персональный AI компьютер DIGITS от NVIDIA, сравнимый по размеру с Mac Mini, но эффективнее в 1000 (примерно) раз чем типичный ноут
- Halliday Glasses - очередные очки со встроенным ИИ агентом, отвечают на вопросы на встречах, обеспечивают перевод в реальном времени
- Samsubg Vision AI - телевизор с переводом в реальном времени, ИИ апскейлом и генерацией саммари
Сергей Булаев AI 🤖 - об AI и не только
В нашу маленькую компанию, ту, что планирует помогать людям бороться с алкогольной зависимостью посредством научной программы, включающей сгенерированные с помощью ИИ гипносессии, мы ищем продакт менеджера.
У нас есть куча идей, много контента, пара ботов и несколько экспериментов. Так же есть немного денег. Нам нужен человек, готовый взять под контроль реализацию проекта и обеспечить создание готового продукта (конечно же постепенно). Мы ищем стабильность, пунктуальность и искреннее любопытство.
Присылайте резюме и предложения (а так же пожелания) мне на почту s@cccrafts.co. Ну или пишите напрямую @sergeonsamui. Моментальный ответ не гарантирую, но обязательно в итоге напишу.
P.S. Скоро расскажу, чем так сильно был занят последние пару недель, что аж забросил канал.
Сергей Булаев AI 🤖 - об AI и не только
У нас тут во всю рождество в Таиланде. По этому поводу сгенерированный ролик "Рождественский рамен". Он создан с помощью сервиса invideoAI.
Автор пишет:
С помощью одного промпта можно сгенерировать целый фильм - с монтажом, музыкой и закадровым голосом. В этот раз я оставил озвучку, но поменял саундтрек. Invideo пока не идеален, но позволяет перегенерировать отдельные части и добавлять кадры. Я убрал лишнее, переделал несколько сцен в середине - и контент готов к публикации. А поскольку я сам управлял сюжетом и монтажом, результат всё равно ощущается как моё творение.