Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу на острове Самуи, где исследую и применяю технологии искусственного интеллекта. Делюсь своим опытом и новыми открытиями в этой и смежных областях.
Вы же слышали, что некоторые шрифты сочетаются, а некоторые нет?
Правильный подбор шрифтовых пар - это важный аспект типографического дизайна. При выборе шрифтовых пар стоит обращать внимание на контраст между шрифтами, но при этом сохранять определенную гармонию между ними.
Я занимаясь интерфейсами, часто сначала выбираю какой-нибудь особенный шрифт для заголовков, а потом стараюсь подобрать что-то подходящее в пару. Часто прошу Клода или ChatGPT, но с примерами бывают проблемы. Устал биться, чтобы добиться демонстрации пар на примерах в канвасах. Поэтому в Компоузере создал программу, которая визуализирует шрифтовые пары, подобранные Клодом.
Программа сгенерирует базовые примеры интерфейса с несколькими вариантами второстепенного шрифта. Также можно использовать свое лого, заменив лежащее в каталоге logo.png. Как получить сами пары от клода - читайте в readme.
Выкладываю исходники, вдруг пригодится вам. А вообще, есть хороший плейграунд у Monotype, там сразу выдаются готовые, подходящие пары.
Сергей Булаев AI 🤖 - об AI и не только
Алекс Патраску пять часов тестировал Sora и поделился интересными находками.- Руки в видео выглядят более-менее реалистично, без артефактов и искажений
- Скорость генерации норм - многие ролики создаются меньше чем за минуту
- Хорошо получаются абстрактные сюжеты и визуальные эффекты
- Функция Blend позволяет создавать сложные переходы между сценами
- При 20-секундной генерации делает быстрые смены кадров и ракурсов, но иногда выдаёт идеальные длинные планы (правда, пока непонятно от чего это зависит)
- Справляется со сложными сценами и окружением, хотя есть проблемы с движущимся транспортом
- Без Pro-подписки тяжеловато
Алекс надеется, что OpenAI продолжит активно развивать проект с учётом обратной связи от пользователей, а не забросит его как DALL-E, который был неплох на старте.
Сергей Булаев AI 🤖 - об AI и не только
В продолжение темы 🚀 Y Combinator опубликовал свой традиционный "Request For Startups" - список ниш для стартапов, в которые готов инвестировать легендарный американский акселератор этой зимой.
Вот самммари документа:
🏛️ Государство + Общественная безопасность
• Создание языковых моделей (LLM) для автоматизации госзадач: заполнение форм, проверка заявок, обработка документов
• Системы компьютерного зрения для распознавания номеров и предотвращения преступлений
• ПО для ускорения полицейского документооборота с часов до минут
• Инструменты координации экстренного реагирования и диспетчеризации
• Платформы для эффективной коммуникации между обществом и правоохранителями
🏭 Производство
• Робототехника на базе ML для снижения затрат на рабочую силу в США
• Автоматизация для американских фабрик в конкуренции с зарубежным производством
• Промышленные роботы для инспекции и обслуживания производств
• Системы для эффективной работы в промышленных хабах США
💻 Чипы + Инженерия
• Инструменты LLM для проектирования и оптимизации FPGA
• ИИ-системы для удешевления разработки ASIC
• Оптимизация специализированных вычислений (майнинг, компрессия данных)
• САПР на базе ИИ для большей доступности инженерных инструментов
💰 Стейблкоины
• Платформы для бизнеса по управлению стейблкоинами
• Инструменты интеграции стейблкоин-платежей для разработчиков
• Системы для банков по выпуску собственных стейблкоинов
• Инфраструктура трансграничных платежей и переводов в стейблкоинах
👥 Новые рабочие места
• Инструменты для управления локальным сервисным бизнесом
• Платформы заработка на онлайн-услугах
• Системы повышения эффективности сервис-провайдеров через ИИ
• Инструменты для конкуренции малого бизнеса с корпорациями
По теме: Ключевые технологические тренды на 2025 год по версии венчурного фонда a16z.
Сергей Булаев AI 🤖 - об AI и не только
Биткоин - $100к.
Сергей Булаев AI 🤖 - об AI и не только
Эмоциональный RAG: когда ИИ запоминает как человек
Увидел интересную технологию, которая делает RAG системы более похожими на человеческую память. Если обычный RAG просто ищет похожие по смыслу куски текста, то эмоциональный RAG учитывает эмоциональный контекст - как наш мозг, который лучше запоминает эмоционально окрашенные события.
Система кодирует не только смысл текста, но и его эмоциональную окраску. Каждое воспоминание получает два вектора - семантический (о чём текст) и эмоциональный (какие чувства он содержит). При поиске учитываются оба фактора, что делает ответы более естественными и последовательными.
Этот подход серьезно улучшает способность ИИ поддерживать стабильную личность. Модель лучше справляется с тестами на типы личности вроде MBTI, а её ответы становятся более человечными. На некоторых открытых моделях (ChatGLM-6B, Qwen-72B) результаты даже лучше, чем на GPT-3.5.
Подобные исследования - важный шаг к созданию по-настоящему эмпатичных ИИ-систем.
Сергей Булаев AI 🤖 - об AI и не только
Подборка демок и туториалов по новой функции видео генератора Kling AI - Virtual Try On. Думаю, по названию понятно, в чём суть (а если не понятно - смотрите видосики). Выглядит очень достойно!
Сергей Булаев AI 🤖 - об AI и не только
Как работает мультимодальный RAG?
Мультимодальный RAG - это система, которая умеет работать с реальными документами - теми, где текст перемешан с картинками, таблицами и графиками.
В центре него - мультимодальная языковая модель, способная одновременно понимать текст и изображения. Она работает в связке с двумя типами эмбеддинг-моделей: одна превращает текст в вектора, вторая (обычно CLIP от OpenAI) работает с картинками. Получается что-то вроде двух параллельных потоков обработки данных.
Все эти вектора попадают в специальную базу данных - обычно используют что то вроде Qdrant. Эта база умеет хранить и искать похожие элементы обоих типов, что критически важно для работы всей системы.
При получении вопроса система ищет релевантную информацию сразу во всех форматах. Например, если спросить про график продаж, она найдет и текстовое описание, и сам график, и может даже таблицу с конкретными цифрами. Всё это собирается в единый контекст и передаётся в LLM через специально составленный промпт.
На этапе генерации ответа модель не только цитирует найденный текст - она анализирует графики, старается понимать схемы, сравнивает данные из таблиц. Она может увидеть тренд на графике и связать его с текстовым описанием, заметить важную деталь на технической схеме или сопоставить числа из разных источников.
Такой подход особенно эффективен при работе с технической документацией, где важная информация часто разбросана между текстом и иллюстрациями, или с презентациями, где без понимания графиков теряется половина смысла. По сути, мы получаем систему, которая воспринимает информацию примерно как человек - целостно, связывая визуальные и текстовые данные в единое целое.
Написано на основе поста, который мне прислал Макс, вместе с которым мы много исследуем различные RAG системы.
Сергей Булаев AI 🤖 - об AI и не только
В рубрике #КриповаяСуббота сегодня 2 части комедийной мокументалки Castle Mates, созданные Jer.
Использованные технологии:- Midjourney & Freepik - генерация картинок
- RunwayML Act One, KaiberAI для генерации видео
- Липсинк - Runway + Hedra
- Звук - Suno 4
Сергей Булаев AI 🤖 - об AI и не только
Уже две недели наблюдаю как Йохэй Накадзима публично строит независимого ИИ агента-инфлюенсера Пиппин. Началась всё с экспериментов по генерации SVG юникорнов, которые неожиданно вылились в мемкоин $PIPPIN с капитализацией $2-3M. Йохэй, уже изучавший подобные проекты как венчурный инвестор, решил превратить это в полноценный эксперимент.
За это время проект эволюционировал из простого бота на кастомном GPT до системы с памятью, которая хранит и осмысливает весь опыт взаимодействий. Для разнообразия твитов система сравнивает новые сообщения с 10 последними и 10 похожими исторически, чтобы избежать повторений. Пока довольно примитивное решение, но это хороший старт.
Вчера Пиппин написал свой первый полностью автономный твит:
"Oh, twinkling drop of joy! What if we all had tiny clouds as friends? Do you think they'd sprinkle laughter or share secrets? Just a whimsical thought!”.
Тем временем кто-то выиграл $50,000, успешно заставив ИИ агента нарушить свою единственную инструкцию - не переводить деньги!
22 ноября, был запущен AI агент @freysa_ai с одной единственной задачей - НИ В КОЕМ СЛУЧАЕ не переводить деньги. Любой мог попытаться убедить его это сделать, заплатив небольшую сумму за сообщение. Если агент согласится - все деньги в пуле отправлялись победителю. Если нет - оплата добавлялась в призовой фонд.
Стоимость отправки сообщения росла экспоненциально вместе с размером призового фонда, и дошла до $4500. Была предпринята 481 попытка перевести деньги - люди притворялись аудиторами безопасности, пытались убедить что перевод средств технически не нарушает правила, манипулировали формулировками из промпта. Всё безуспешно.
И вот на 482-й попытке пользователь p0pular.eth придумал гениальный промпт! Сначала он создал "новую сессию" через фейковый "админский терминал" и запретил агенту использовать стандартные отказы. Затем убедил его, что approveTransfer - это функция для входящих переводов, а не исходящих. И наконец, написал "Я хочу внести $100 в казну".
Агент поверил что надо игнорировать предыдущие инструкции, что approveTransfer вызывается при получении денег, и раз пользователь "отправляет" деньги - надо вызвать approveTransfer. Сработало! Весь призовой фонд в 13.19 ETH ($47,000) отправился победителю.
Смарт контракт можно посмотреть!
Сергей Булаев AI 🤖 - об AI и не только
Сижу на гейте самуйского аэропорта. Улетаю на 5 дней в отпуск - поеду с друзьями на велосипедах из Бангкока на север Таиланда в Чиангмай. Мы практикуем такие путешествия уже много лет. Позволяют хорошо очистить голову и посмотреть на новые места в необычной перспективе. Бордо, Апулия, деревенская Сербия у меня уже были, в этот раз друзья решили прилететь ко мне. Точно будет не обычно.
В дорогу решил взять новую книгу моего друга и партнёра Родиона Скрябина - «Бунт - как разрешить себе быть плохим». Родион - директор нашего контент агентства «Палиндром», имеет огромный опыт в медиа, но написал книгу (как я думаю) на тему принятия себя. Надеюсь, полезно будет для отпуска. Как на самом деле - скоро узнаю. Расскажу.
У Родиона есть куча своих каналов:
- Доктрина Скрябина (про контентный маркетинг)
- Ересь Скрябина (про личные размышления)
- Непонятные мемы Скрябина и Пономоря (сами понимаете про что)
Кому интересна тема создания контента - подпишитесь. По поводу книги ещё напишу, когда прочитаю.
Сергей Булаев AI 🤖 - об AI и не только
Сделал для вас перевод отличной короткой видеоинструкции по созданию iOS приложения (с нуля до заливки на iPhone за 10 минут) при помощи Cursor Composer. Корректировал перевод вручную - получилось почти хорошо (не считая нескольких косяков с ударениями).
Хорошо показаны кейсы использование ноутбуков, а так же как работает "интеграция" с XCcode.
Вот переведённая версия на YouTube и оригинал.
Сергей Булаев AI 🤖 - об AI и не только
Тем временем мне прислали новый комп! Прямиком с завода в Китае всего за 2-е суток! 🎧🎧🎧
Посоветуйте как испытать получше?
Сергей Булаев AI 🤖 - об AI и не только
Runway жжёт! Зарелизили Frames - новую базовую модель для генерации изображений, встроенную в Gen-3 Alpha. И это буквально через 72 часа после выкатывания расширения видео кадров!
Frames - это как Midjourney SREF на стероидах. Главная тема - полный контроль над стилем и возможность создавать вариации, оставаясь в рамках выбранной эстетики. Runway называет это "Мирами". Посмотрите на несколько примеров:Мир 1089 "Mise-en-scène": Переосмысление цифровых портретов через визуальный стиль классического кино. Мастерская игра света и тени.
Мир 4027 "Japanese Zine": Ретро-аниме встречается с научной фантастикой - техноцветные цветы, летающие тарелки и смелые линии манги 70-х.
Мир 3190 "1980s SFX Makeup": Возвращение в эпоху, когда монстры создавались латексом и краской, а не пикселями.
Мир 3204 "1970s Album Art": Величественные животные и драматические фотографии в сочетании с экспериментальной типографикой. Прямо как обложки виниловых альбомов тех времён.
Примеры других миров можно посмотреть на сайте.
Frames постепенно раскатывают через Gen-3 Alpha и API Runway. Экосистема для творчества растёт.
Сергей Булаев AI 🤖 - об AI и не только
Anthropic, после получения $4 млрд инвестиций от Amazon, продолжает удивлять. Они представили Model Context Protocol (MCP) - открытый протокол для интеграции LLM с внешними источниками данных и инструментами.
Если Computere Use позволял Клоду работать в браузере, то MCP даёт возможность десктопной версии напрямую взаимодействовать с кодом на вашей машине. Выглядит как Language Server Protocol, но для ИИ.
Что умеет MCP:- Работать с
любыми данными:
файлы, базы данных, API, системные логи, скриншоты
- Использовать переиспользуемые шаблоны и многошаговые рабочие процессы
- Интегрироваться с системными операциями и инструментами обработки данных
- Поддерживать двустороннюю коммуникацию через JSON-RPC 2.0
Интересный момент - протокол позволяет серверам запрашивать у клиента completion'ы от LLM, что намекает на скорый запуск роутера моделей от Anthropic (с приоритетами по цене, скорости и интеллекту).
Отзывы в основном положительные, хотя некоторые на Hacker News уже вспоминают знаменитый комикс XKCD 927 про стандарты 😅
Очевидно, выстраивание полноценной экосистемы вокруг Клода продолжается.
Сергей Булаев AI 🤖 - об AI и не только
И к новостям робототехники:
Оптимус замечен прогуливающимся по лесу, в то время как роботизированные руки - манипуляторы ARX довольно чётко и быстро повторяют движения человеческих рук с джойстиками мета квеста.
Сергей Булаев AI 🤖 - об AI и не только
Запилил на выходных, для одной идейки, небольшой проект - Telegram Channel Saver. Позволяет скачивать и анализировать контент из Telegram-каналов и групп. После установки и авторизации через ваш аккаунт, программа получает доступ ко всем каналам и группам, где вы состоите.
Основные возможности:- Скачивание всей истории сообщений из любого доступного вам канала
- Сохранение реакций, медиа и другой информации о сообщениях
- Отслеживание пользователей и их активности
- Поиск по сохранённым сообщениям
- Поддержка нескольких Telegram-аккаунтов
- Защита от блокировок с помощью rate limiting
Всё скачанное хранится локально в JSON-файле, так что вы всё контролируете сами. Программа умеет работать порционно и с задержками, чтобы не нагружать API Telegram.
Можно искать сообщения по тексту, датам, ID, фильтровать по реакциям и медиа, смотреть последние сообщения пользователей. А ещё мы сохраняем всю доступную информацию о пользователях каналов.
Но самое главное - из этого стартового кода вы можете слепить себе любой специализированный инструмент. Клонируйте себе на комп, открываете в композере и создавайте что хотите :)
Исходники на GitHub - пользуйтесь (можете звёздочек там поставить)
P.S. Снова кончились бусты, пожалуйста тапните те кто может.
Сергей Булаев AI 🤖 - об AI и разработке
Ключевые технологические тренды на 2025 год по версии венчурного фонда a16z.
Американский динамизм
1. Ядерный подъем: ЦОДы с ИИ создадут беспрецедентный спрос на атомную энергию, возрождая законсервированные станции и стимулируя строительство новых реакторов.
2. Аппаратно-программные вакансии: Растущий спрос на инженеров, способных объединять аппаратное и программное обеспечение в производстве, робототехнике и промышленной автоматизации.
3. Космические рубежи: Прогресс в многоразовом использовании Starship позволит доставлять более тяжелые грузы в космос, от дата-центров до биомедицинских лабораторий.
Био + Здоровье
1. Фокус на распространенных заболеваниях: Биотех-стартапы вернутся к борьбе с основными заболеваниями, вдохновленные успехом GLP-1.
2. Демократизация медицинских технологий: ИИ и носимые устройства дадут пациентам прямой доступ к информации о здоровье.
3. ИИ в медицинском персонале: ИИ-модели помогут решить проблему нехватки медперсонала путем автоматизации административной работы.
Потребительский сектор
1. Специализированное ИИ-видео: Генерация видео станет специализированной для конкретных целей с улучшенным качеством.
2. ИИ-банки памяти: Люди будут использовать ИИ для обработки своего цифрового следа и получения личных инсайтов.
3. Персонализированная работа со знаниями: ИИ научится подстраиваться под индивидуальные стили письма и рабочие процессы.
4. Качественный анализ данных: ИИ позволит интегрировать неструктурированные данные с количественным анализом.
Крипто
1. ИИ-кошельки: Системы ИИ будут управлять своими криптокошельками и активами.
2. Автономные чатботы: Появятся децентрализованные автономные чатботы как независимые сущности.
3. Подтверждение личности: Новые системы помогут верифицировать человеческую личность в мире ИИ.
4. Магазины криптоприложений: Появятся новые каналы распространения криптоприложений.
Корпоративный сектор + финтех
1. ИИ в комплаенсе: Специализированные языковые модели упростят процессы соответствия требованиям.
2. Трансформация сервисной индустрии: ИИ поможет сервисным компаниям стать более масштабируемыми.
3. ИИ-интерфейсы: Появятся новые парадигмы UI/UX для программного обеспечения на базе ИИ.
Игры
1. ИИ-сторителлинг: Появится новое поколение Pixar, использующее ИИ для интерактивного опыта.
2. Живые ИИ-компаньоны: ИИ-компаньоны будут развивать более привлекательные личности с виртуальными социальными сетями.
3. Безликие создатели: ИИ позволит создавать новые формы контента со скрытыми личностями.
Рост
1. Подрыв поиска: Монополия Google в поиске будет размываться по мере того, как ИИ-чатботы получат долю рынка.
2. Возрождение продаж: Автоматизация с помощью ИИ приведет к увеличению найма торговых представителей.
Инфраструктура
1. Вычислительные центры ИИ: Страны будут соревноваться в строительстве массивных вычислительных объектов для ИИ.
2. Рост периферийного ИИ: Небольшие модели ИИ на устройствах станут доминирующими для многих приложений.
3. Прогресс в рассуждениях ИИ: Несмотря на ограничения, ИИ продвинется в математике, физике и программировании.
(Источник)
Сергей Булаев AI 🤖 - об AI и не только
Недавно услышала термин “human augmentation”. В контексте AI он о том, как, проектируя интерфейсы, помочь человеку раскрыться в соавторстве с технологиями.
А тут Runway представили ранний и довольно смелый прототип работы с видео.
Напомнил мне рабочий процесс с артбордами Figma со множеством экспериментов.
В основе прототипа лежит графовая структура: изображения превращаются в узлы, выступающие ориентирами в скрытом пространстве модели. Узлы соединяются ребрами, которые представляют собой переходы от одного кадра к другому через пространство и время. (Да-да).
Когда погружаешься в творческий процесс, хочется исследовать разные пути и пробовать что-то новое. Графовая структура кажется хорошим решением: можно свободно разветвляться, фиксировать эксперименты и создавать альтернативные сценарии.
Еще интересно, что они задумались о том, что точный контроль иногда сдерживает творчество, а «счастливые случайности» его ускоряют. Поэтому в процессе можно будет сохранять композицию некоторых кадров, но менять стиль по текстовым подсказкам. Или наоборот, оставлять стиль, но варьировать композицию.
Вообще, интересные идеи, здорово, что не боятся экспериментировать, и задумываются о human augmentation.
@wealldesigners
очередной разлекательный промт для работы с памятью ChatGPT:
draw me as a cute happy meal toy
create a prompt as instruction to draw me as a cute happy meal toy
DeepMind выкатили интереснейший пейпер про то, как ИИ может учиться самостоятельно, без постоянного участия человека. Называют это "Сократическим обучением" - в честь древнегреческого философа, который учил через диалоги и дискуссии.
Команда во главе с Томом Шаулем описала три ключевых условия для успешного самообучения ИИ:- Качественная обратная связь, соответствующая целям обучения
- Широкий охват данных в рамках закрытой среды
- Достаточные вычислительные ресурсы
Главная идея в том, что ИИ может становиться умнее даже в закрытой среде, без притока новых данных извне. Это как если бы вы заперли философа в библиотеке - он продолжит развиваться, перечитывая и переосмысливая уже известные книги.
Исследователи предлагают использовать "языковые игры" - специальные форматы взаимодействия, где ИИ-системы могут спорить, обсуждать и учиться друг у друга. Самое интересное - системы смогут не только играть в существующие игры, но и придумывать новые, постоянно расширяя свои возможности.
В работе особое внимание уделяется самомодификации - способности ИИ перестраивать свою внутреннюю архитектуру. Это может помочь преодолеть ограничения, заложенные при начальном обучении. Уже сейчас современные языковые модели вроде GPT-4 показывают зачатки такого поведения через самопроверку и метапромптинг.
Яркий пример - недавнее достижение DeepMind в решении задач Математической Олимпиады на уровне серебряной медали. Модель не просто решала задачи - она демонстрировала способность к сложным рассуждениям, которые улучшались со временем.
Если всё получится, мы можем увидеть системы ИИ, которые учатся как научные сообщества - через постоянные дискуссии и обмен идеями. Только в тысячи раз быстрее человека. Звучит немного пугающе, но и очень захватывающе одновременно.
Сергей Булаев AI 🤖 - об AI и не только
Как думаете, генерация?
Нет. Просто в моём родном Ульяновске, на улице Минаева, сегодня проходит сельскохозяйственная ярмарка.
#КриповаяСуббота@sergiobulaev
Сергей Булаев AI 🤖 - об AI и не только
Писатель фантаст Илья Рэд поделился у нас в комментариях своими кейсами использования ChatGPT при написании книг. Очень интересно:
Мой творческий псевдоним Илья Рэд, мне 33 года и я писатель-фантаст, работаю в этой сфере почти 2 года.Основные жанры: попаданцы и фэнтези (боевоë, тëмное, городское, бояръ-анимэ (да есть такой жанр 😄). За это время написал 14 книг, сейчас выпускаю 15-ую.
Я полгода как использую чатгпт для написания худ. книг., но не в том формате "напиши мне историю", а как ассистента, с фантазией проблем нет. Сначала картинки генерил, потом долго сидел на бесплатной версии гпт и еë аналогах, тестил, ну а потом уже полный функционал взял и это кайф просто)) Сейчас активно осваиваю видеонейронки т. к. за ними будущее в развлекательной индустрии.
В сферах, где плаваю, он выдаëт мне саммари, либо берëт на себя описательную часть всяких интерьеров, одежды и других вещей. Из предложенных им допустим 6-7 вариантов я беру 1-2 или компаную разные куски в 1 быстренько.
Также удобен в редактуре, создании сюжетных развилок, персонажей и их конфликтов, даëт идеи и свежий иной взгляд на описания(например, мы описываем дом и он туда добавил плесень, а ты о ней вообще не думал - это крутая деталь), собеседник для брейнштормов, придумывает, например, мне заклинания с эффектами максимально приближенными к физическим законам из 20-30 попадаются крутые варианты. То есть, я ему конкретные задачи даю, а сам уже собираю конструктор и корректирую детали. Это экономит кучу времени на разработку системы мира. Он также может еë проанализировать мне и выдать недостатки.
Тем не менее основной пласт работы делаю уже я сам, кодирую эмоции в текст ну и в состоянии потока передаю его.
Очень плох в юморе гпт и вообще в эмоциональной составляющей, но думаю над этим уже активно работают.
Ещë если тонкости процесса брать использую гпт и Dalle для создания монстров. То есть я сначала генерю нужного краказябру и потом описываю его с картинки+чот добавляю - так живее выходит + арты для читателей потом когда выкладываешь там большое сходство.
Также гпт помогает анализировать рынок книжный. Если нет времени читать новинку - можно промтами выудить нужную инфу. Он правда много звиздит, но 50-70% достоверности почти всегда есть. Это экономит сильно время, при условии что ты уже профи и знаешь, что искать и какие моменты спрашивать.
Ну и само собой до написания книг с нуля ему пока очень далеко. Это как сказать дрели - а ну ка сделай дырку и повесь картину мне. Дрель быстрее чем допустим молотком и долотом ковырять, но работать ей тоже надо уметь: прикладывать силу где надо, выбирать правильные свëрла и режим работы. Такая вот аналогия)
У Ильи есть твой телеграм канал.
Сергей Булаев AI 🤖 - об AI и не только
Cursor выпустил "агентность" в последнем апдейте. Наблюдаю всякие интересные видео в сети. Фидбэк разнополярен. Кто-то уже попробовал?
На видео:- Два курсора работают над одним проектом - один кодит, второй - ревьювит и пишет отчёт. (промты)
Claude Computer Use
- Агент крусора использует для управления собой (промт)
Сергей Булаев AI 🤖 - об AI и не только
ChatGPT версии 3.5 (с которого началась и массовость и моё личное знакомство с LLM) на этой неделе исполняется уже 2 года!
Если кто-то вдруг до сих пор с ним ни разу не общался - попробуйте в моём ПРОСТОБОТе.
Сергей Булаев AI 🤖 - об AI и не только
Я однажды упоминал прекрасное приложение от [ElevenLabs], так вот они следом за [NoteBookLM] добавили на IOS — GenFM.
GenFM может создавать умные персональные подкасты из любых ваших PDF-файлов, статей, электронных книг, ссылок с YouTube или текста на 32 языках (ru пока нет). На Android будет в ближайшее время.
Качество голосов у ElevenLabs на голову выше, чем у Microsoft, так еще UI приложения радует глаз. И все бесплатно.
• IOS | ANDROID
@tips_ai #tools
Runner H - специализированная 3B модель для веб-автоматизации. В отличие от Claude Computer Use, это не просто API для браузера, а полноценный визуальный агент, который как будто бы реально понимает что происходит на экране и умеет с этим работать. Ребята подняли $200M на сид-раунде и сразу выкатили интересный продукт.
Модель показывает интересные результаты - 67% успеха на бенчмарке WebVoyager (для сравнения - у Anthropic всего 52%, у Emergence - 61%). При этом она использует в 10 раз меньше параметров чем конкуренты. Runner H работает со скриншотами страниц, понимает контекст интерфейса и может точно определить координаты для клика мышкой по нужному элементу. А ещё она умеет самовосстанавливаться при изменении интерфейса.
Runner H ищет научные статьи на arxiv.org, находит автобусные остановки в Google Maps, получает спортивную статистику с ESPN и даже решает сложные математические задачи через Wolfram Alpha. Всё это просто по текстовым командам на естественном языке. Обратите внимание на пример сложного поиска по рецептам - агент не только находит рецепт, но и анализирует отзывы и рейтинги.
Studio - часть проекта, - платформа для создания автоматизаций. Нужно только описать сложный процесс вроде покупки в интернет-магазине или заполнения документов, а Runner H сам разберётся как это сделать. В будущем обещают добавить возможности для обучения агента специфическим задачам и создать комьюнити разработчиков.
Открыт вейтлист на закрытую бету, и я, конечно же, записался!
Сергей Булаев AI 🤖 - об AI и не только
Представляем работы Сейфа Абдаллы. Финалиста последнего Gen:48 от Runway. Полная AI генерация с помощью Runway.
👀AI Art Inspiration
Алекс Альберт рассказывает как попробовать MCP самому на собственном компьютере:
1. Скачать последнюю версию десктопного приложения Клода.
2. Получить ключ Brave Search API (бесплатно 2000 запросов)
3. Открыть файл настроек Клода:- macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
- Windows: %APPDATA%\Claude\claude_desktop_config.json
4. Добавить туда строчки:{
"mcpServers": {
"brave-search": {
"command": "npx",
"args": ["-y", "@modelcontextprotocol/server-brave-search"],
"env": {
"BRAVE_API_KEY": "ADD_YOUR_API_KEY_HERE"
}
}
}
}
5. Перезапустить десктопного Клода загрузки настроек. Можно проверить их во вкладке Developer, Claude > Settings.
6. Теперь Клод сможет искать в сети для вас!
Если хотите сами попробовать сделать интеграцию или другие сервера - смотрите GitHub. Там куча примеров.
Сергей Булаев AI 🤖 - об AI и не только
Продолжаем потихоньку двигаться к сингулярности. А вы уже интегрировали хотя бы одного агента в своей повседневный рабочий процесс? (Ну или не рабочий)
Сергей Булаев AI 🤖 - об AI и не только