Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу на острове Самуи, где исследую и применяю технологии искусственного интеллекта. Делюсь своим опытом и новыми открытиями в этой и смежных областях.
Часть 1.
Текст - новая модель OpenAI, перевод - Claude, озвучка - Elevenlabs, изображение - Flux, ракурсы - новая гемини, которая редактирует картинки промтами ну и видео - Hedra Character 3.
Сергей Булаев AI 🤖 - об AI и не только
Google выпустил Gemma 3 – новую линейку мультимодальных моделей, которые работают как с текстом, так и с изображениями. Поддержка видео пока отсутствует :))
В линейке четыре модели: 1B, 4B, 12B и 27B параметров. Самое интересное, что даже младшая 4B версия уже обходит по качеству старшую Gemma 2 с 9B параметров. А 27B-модель вообще творит чудеса – на EQ-Bench она заняла второе место в категории креативного письма.
Технические характеристики:- Контекстное окно: 128K токенов для крупных моделей и 32K для 1B
- Выходной контекст: до 8192 токенов
- Рейтинг ELO на Chatbot Arena: 1338 (выше DeepSeek V3 671B)
- VRAM для 27B модели: примерно 45GB
На практике есть несколько нюансов:- Есть проблемы с обещанной поддержкой tool calling
ollama
- Модели часто крашатся в
- Некоторые платформы (например, Transformers) пока не распознают архитектуру
- На AIstudio наблюдаются проблемы с вводом изображений для gemma-3-27b-it
В поведении пользователи отмечают сходство 27B-модели с Sonnet 3.7 – она даёт подробные ответы даже на простые вопросы. Есть интересные наблюдения, что модель иногда "знает" информацию после своей предполагаемой даты отсечки 2021 года.
Так же появился Gemmaverse - портал с кейсами и проектами использующими модель.
Все модели уже доступны на Google AI Studio и Hugging Face, а также добавлены в Ollama. Для использования в своих проектах стоит обратить внимание на двойные BOS-токены при деплое.
Сергей Булаев AI 🤖 - об AI и не только
Новый Responses API от OpenAI
OpenAI выкатили новый Responses API - объединение Chat Completions и Assistants API! Наконец-то не нужно выбирать между простотой использования и функциональностью.
Что в нём клёвого:- Объединяет возможности обоих API в один интерфейс
- Упрощает интеграцию инструментов по сравнению с Assistants API
- По умолчанию сохраняет историю чата (бесплатно на 30 дней)
- Можно включить режим без состояния (как Chat Completions)
Для тех, кто уже вложился в Assistants API - без паники! OpenAI обещает целый год на миграцию с полной поддержкой, включая перенос assistant-подобных объектов, code interpreter и вебхуков.
Responses API доступен уже сейчас всем разработчикам и работает со стандартными тарифами на токены и инструменты.
Сергей Булаев AI 🤖 - об AI и не только
#КриповаяСуббота
Пока мы возимся с моделями ИИ, Cortical Labs зарелизили нечто ИНОЕ - CL1, первый в мире коммерчески доступный биологический компьютер на живых (искуственно выращенных) человеческих нейронах. И это не лабораторный эксперимент - они реально продают эти штуки по $35,000!
Самое удивительное здесь - "тело-в-коробке" (пророчество великого классика начинает сбываться) для этих нейронов. В CL1 встроена миниатюрная система жизнеобеспечения со всем необходимым для поддержания клеток в живом состоянии до шести месяцев - регулирование кислорода, доставка питательных веществ, удаление отходов и поддержание идеальной температуры 37°C. Никаких внешних инкубаторов не требуется!
Что же умеют эти био компьютеры? Они освоили игру в Pong всего за несколько часов - то, на что обычным моделям ИИ потребовалось бы гораздо больше времени. Нейроны могут невероятно быстро перестраивать свои связи, что делает их идеальными для обучения с подкреплением.
Стойка из 30 устройств CL1 потребляет всего 850-1000 ватт. Для сравнения, обучение модели типа GPT-3 требует около 1,300 МЕГАВАТТ-часов. Это разница в несколько порядков! Человеческие нейроны просто обрабатывают информацию гораздо эффективнее кремния.
Применения просто сумасшедшие - от тестирования лекарств от Альцгеймера на нейронах, полученных от реальных пациентов (вместо использования животных моделей), до создания роботов, которые могут адаптироваться к окружающей среде в реальном времени. Исследователи могут наблюдать, как нейроны формируют связи в реальном времени с помощью флуоресцентной микроскопии.
Конечно, эта технология поднимает и этические вопросы. Cortical Labs настаивает, что эти нейронные сети не обладают сознанием, но всё равно создали этический комитет и внедрили защитные механизмы, которые отключают систему, если нейронная сложность превышает определенные уровни. Лучше перестраховаться, когда имеешь дело с клетками человеческого мозга!
Что дальше? Они уже работают над объединением нескольких устройств CL1 в серверные стойки и движутся в сторону создания "Минимально Жизнеспособных Мозгов" с 3D-нейронными структурами. Границы между биологией и технологией становится всё более размытой.
Сергей Булаев AI 🤖 - об AI и не только
Ровно год назад мой друг Руслан рассказывал мне про идею ИИ-агента, который будет сидеть в браузере и выполнять рутинные действия. И вот, Опера придумала практически то же самое!
Ребята представили (ну типа в видео превью) Browser Operator - ИИ-агента, который понимает инструкции на человеческом языке и выполняет за вас задачи прямо в браузере. Концепт простой, но потенциально меняющий правила игры. Вы даёте указания - он делает.
Что можно поручить такому оператору? Да практически всё:- Заказать продукты для конкретного блюда
- Найти и купить те самые носки из мериносовой шерсти (которые вы давно хотели)
- Забронировать путешествие мечты
При этом, вы всегда можете вмешаться и взять управление на себя. Нормальный баланс автоматизации и контроля. Считаю идею весьма перспективной!
Сергей Булаев AI 🤖 - об AI и не только
У Pika новинка - PikaFrames! Теперь можно превращать фотографии в видео с уникальными переходами. Выбираете фотки, а затем объединяете, добавляете переходы и трансформируете. Возможностей - масса. Делал это в Runway полгода назад.
Кроме того, они обновили свою модель до Pika 2.2:- Нативное разрешение 1080p с улучшенным качеством изображения
- Генерация видео длительностью до 10 секунд
Сергей Булаев AI 🤖 - об AI и не только
Anthropic запустил Claude Code - агента для совместного кодинга
Anthropic выложил бету исследовательское превью Claude Code - агента для помощи в написании кода, который работает прямо в вашем терминале. Это первый продукт Anthropic, который выходит за рамки обычного чата и действует как настоящий агент: умеет просматривать код, редактировать файлы, запускать тесты и даже делать коммиты в GitHub.
Что интересного в Claude Code:- Прямо в терминале понимает контекст вашего проекта
- Может искать по всей кодовой базе и разбираться в её структуре
- Выполняет команды от вашего имени (тесты, линтинг и пр.)
- Работает с git: ищет в истории, разрешает конфликты, создаёт коммиты и PR
- Использует последнюю модель claude-3-7-sonnet-20250219 по умолчанию
Как начать использовать:
# Установка через npm
# Переходим в директорию проекта
npm install -g @anthropic-ai/claude-code
# Запускаем агента
cd ваш-проектclaude
После этого придётся авторизоваться через OAuth в консоли Anthropic (нужен активный биллинг).
Интересные применения:
# Спросить про код> как работает наша система аутентификации?
# Автоматизировать git> сделай коммит моих изменений
> создай PR
> в каком коммите добавили тесты для markdown в декабре?
# Изменить код> добавь валидацию ввода в форму регистрации
> рефактори логгер для использования нового API
# Тестирование и отладка> запусти тесты для auth модуля и исправь ошибки
> найди и исправь уязвимости безопасности
А теперь о расходах. Стандартное использование обходится в $5-10 в день на разработчика, но при интенсивном использовании может превышать $100 в час! Следите за расходами командой /cost или в консоли Anthropic.
Для экономии токенов:- Используйте /compact когда контекст разрастается
- Пишите более конкретные запросы
- Разбивайте сложные задачи на части
- Используйте /clear между задачами
У меня пока не было возможности попробовать (хотя уже установил на все компы, на всякий случай), но выглядит очень интересно. Кто-нибудь уже тестировал?
Сергей Булаев AI 🤖 - об AI и разработке вместе с ним
Наконец-то добрался до Cline! Столько про него слышал, но всё как-то руки не доходили. И знаете что? Он крутой! Replit на стероидах как будто. Есть небольшое ощущение магии, когда наблюдаешь за его работой.
Поставил ему первую тестовую задачу - написать транскрайбер диалогов. У меня есть куча записей в voice recorder на айфоне, которые я регулярно записываю (в основном мои разговоры), но нормально их распознать, особенно на русском, ни один сервис толком не мог.
Сразу решил использовать Assembly AI API - знаю, что он отлично справляется с разделением реплик между собеседниками (кстати, если кто-то знает другие варианты для этого - поделитесь в комментах!).
Работали итеративно:- Сначала базовое распознавание
- Потом добавили выбор языка
- В конце - возможность переименовывать участников диалога
- Ну и конечно архив транскрипций и хранение файлов.
На всё про всё ушло примерно полчаса и около 5 баксов на Клода через OpenRouter. Для небольших проектов "под ключ" выглядит даже круче Cursor Composer! Правда, как с ним работать над большими проектами - пока не очень представляю. За Composer-то иногда не успеваю уследить, а тут, похоже, будет ещё веселее.
Кстати, готовое приложение выложил на GitHub. Для использования нужен API ключ Assembly AI, но они всем дают $50 кредитов при регистрации. Должно надолго хватить - час транскрибации выходит примерно в 40 центов.
Сергей Булаев AI 🤖 - об AI и не только
Посмотрите, как Альваро Синтас сделал реальную игру с помощью Grok 3. Пара часов работы и получился рабочий 2D-платформер с вертикальным скроллингом. Более 1000 строк сгенерированного кода, много различных механик - разные герои, монстры, платформы, уровни сложности и система жизней.
Главное никаких сложных промтов и попыток сразу получить всё. Всё делается по шагам. Начал с простейшего запроса:
CopyCreate a basic 2D vertical jump game using HTML/CSS. The characters and platforms should be just shapes (will add assets later). Code everything in one file.
- Не пытайтесь сразу описать все детали и фичи
- Начните с максимально простой версии игры
- Для сложных задач используйте кнопку Grok Think (по его словам, работает отлично)
- Используйте простые фигуры вместо готовых ассетов на первом этапе
- Если появляются ошибки - просто просите Grok их исправить (если сами не понимаете как)
CopyA digital illustration of 10 cute, chibi-style characters with unique outfits and accessories, designed as game assets, standing in a row against a light beige background. Each character has a distinct appearance with shorter legs for a more compact look.
CopyA digital illustration of six simple, 2D side-scrolling platform game tiles, viewed from a true side-on perspective, set against a light beige background. Each tile is rectangular with a clean, minimalistic, and flat design, featuring different environmental themes: 1. A grassy platform...
CopyA digital illustration of a vertical side-scrolling game background, designed in a simple, cartoonish style, set against a light beige background. Bright colors and minimalistic details. Ice theme.
- Настройки игры
- Систему жизней
- Подсчёт очков
- Анимации
- Разные типы платформ
- Главное меню
- Врагов
Интересный отзыв от пользователя Windsurf о новой версии Cursor.
Xeophon получил ранний доступ к обновлению Cursor и, как активный пользователь Windsurf, решил сравнить инструменты. Главное изменение в том, что новый режим Agent в Cursor перенёс функционал Composer в панель чата, сделав его более доступным.
По его мнению, Cursor Tab работает намного лучше любого конкурента на рынке — такой же быстрый, как новая функция Edit Prediction от Zed, но более полезный. При этом встроенные предложения кода от Windsurf он считает непоследовательными и медленными.
Интерфейс нового Cursor ему нравится больше — более красочный, с удобными иконками. Windsurf же слишком серый, в нём сложно найти нужные функции. В Cursor доступно меньше моделей (только o3-mini и Sonnet), но результат работы Sonnet в Cursor был более точным — не содержал ошибок, в отличие от того же Sonnet в Windsurf.
Однако пользовательский опыт в Windsurf всё же лучше: он показывает список файлов и дифы, которые открываются прямо в редакторе и могут быть приняты по одному. Cursor же создаёт новые файлы, которые приходится просматривать в небольшом окне чата.
В целом автор доволен обновлением Cursor, и главное — растущая конкуренция на рынке пойдёт только на пользу всем пользователям!
Сергей Булаев AI 🤖 - об AI и не только
В рубрике #КриповаяСуббота сегодня у нас реальные видео вместо сгенерированных. И это даже чуть пострашнее искусственного! Они успешно соревнуются с записью разговора Groka и ChatGPT из прошлого поста.
На первых двух — летающий электромобиль от Alef Aeronautics, который "перепрыгивает" через другие машины. Компания называет его "первым в истории тестом вертикального взлёта автомобиля в городской среде". CEO Джим Духовный сравнивает этот момент с легендарным полётом братьев Райт в Китти-Хок — доказательством того, что новый вид транспорта возможен.
Машина оснащена четырьмя роторами спереди и четырьмя сзади, пока способна разгоняться только до 40 км/ч, но уже собрала более 3000 предзаказов по цене $300,000 за штуку.
А на третьем — Protoclone, безликий анатомически точный синтетический человек с более чем 200 степенями свободы, 1000 миофибрами и 500 сенсорами. Выглядит так, будто сбежал прямиком из фильма ужасов.
Так и у нас опять проблема с бустами, побустите пожалуйста кому не жалко!
Сергей Булаев AI 🤖 - об AI и не только
Мэтт из Replit записал крутой туториал на 3 минуты о том, как создать игру с помощью Grok 3 и моментально задеплоить её на repl.app. Cуть проста: запрашиваете HTML-код игры у Grok 3, создаёте новое Node-приложение в Replit, копируете код в новый файл, просите ассистента Replit настроить сервер и ваша игра уже доступна онлайн. Если что-то создадите по этой схеме - делитесь результатами в комментариях!
Выкладываю две версии видео - оригинал и перевод через ElevenLabs.
Так и у нас опять проблема с бустами, побустите пожалуйста кому не жалко!
Сергей Булаев AI 🤖 - об AI и не только
В Pika появилась PikaSwap - новая фича для редактирования элементов в AI-видео. Технология позволяет заменять лица персонажей, одежду и другие визуальные детали при этом сохраняя плавность и естественность движений.
Процесс работы довольно прост:1. Загружаете видео или генерируете новое в Pika
2. Выбираете область для замены
3. Загружаете референс-изображение или описываете изменения текстом
4. ИИ обрабатывает запрос, сохраняя движение, освещение и перспективу
5. Скачиваете готовый результат
Кейсы использования разнообразны - от кастомизации персонажей и замены лиц до быстрой адаптации рекламных материалов под разные бренды. Особенно ценно для маркетологов.
Сергей Булаев AI 🤖 - об AI и не только
Лайфхак, который упростит вашу работу с Cursor Composer за 10 секунд:
Используйте /ref и выберите Reference Edited Files что бы добавить все ваши вкладки в контекст.
Свежая партия из 170+ стартапов зимнего набора YC 2025 уже на подходе! В этот раз подборка особенно сильная - и основатели с видением, и технологии на острие. Вот несколько отборных проектов:
Mastra: TypeScript-фреймворк для создания ИИ-агентов. Вот вам NotebookLM на его базе.
Browser Use: Открытый веб-агент с 40 тысячами звёзд на GitHub. Есть даже интерфейс. (на приложенном видео)
Edexia: ИИ-ассистент для проверки учебных работ.
Harper: Страховой брокер с нативной ИИ-интеграцией.
Artificial Societies: ИИ для симуляции целых человеческих сообществ (Представьте что ваш пост завирусился до того как вы его выложили).
Onlook: позволяет визуально редактировать ваши React-сайты или веб-приложения и вносить изменения в код в режиме реального времени. Типа Cursor для дизайнеров.
A1Base: API для предоставления ИИ-агентам телефонного номера, электронной почты и надёжной идентификации. "Twilio для ИИ-агентов"
Misprint, Inc.: "Robinhood для карточек Покемон" (да, серьёзно!)
assistant-ui: Опенсорсная React.js библиотека для ИИ-чатов. Красивая.
Adam: самый быстрый способ превратить идеи в реальность. Опишите ваш прототип, и он появятся на свет. ИИ-инструменты для проектирования САПР
a0.dev: Создание мобильных приложений с помощью ИИ "за минуты"
Mosaic: Команда ИИ агентов для редактирования видео
Trata: ИИ база данных инвестиционных исследований от анонимных аналитиков хедж-фондов - крупнейшая в мире.
Сергей Булаев AI 🤖 - об AI и не только
Разработчики Luma AI забили очередной гвоздь в крышку гроба диффузии. Их новый подход, Inductive Moment Matching (IMM), вроде бы решает фундаментальные ограничения текущих моделей генерации.
Интересно тут что проблема застоя в ИИ не в нехватке данных, а в отсутствии алгоритмических инноваций. IMM позволяет генерировать контент за несколько шагов вместо десятков итераций, что просто подрывает представления о скорости генерации.
Этот всё заметно упрощает создание приложений использующих генерацию в реальном времени.
Сергей Булаев AI 🤖 - об AI и не только
Смотрите, первый в мире ИИ-инвестор, выписывает чек на $100k! Зовут её No Cap. 🚫🧢
Основатель Wonder Family Артём Голдман получил подписанный SAFE и деньги. На финальном звонке No Cap управилась за 3 минуты: подписала документы, перевела $100k, познакомила с пятью новыми инвесторами и даже подкинула контакт потенциального сотрудника. Эффективность - огонь!
Я в прошлом году убил десятки часов на общение с инвесторами, и продолжаю тратить 2-3 в неделю. А тут - раз, и за 3 и готово!
No Cap обучали на более чем 60 выпускниках Y Combinator (сами ребята тоже оттуда), и они называют себя "No Cap Mafia". На звонке, она говорит, что не собирается на Burning Man, и вообще общаться с ней можно 24/7, но только если сам фаундер этого захочет.
Готовимся к следующему уровню: ИИ инвестор встречает ИИ фаундера.
Сергей Булаев AI 🤖 - об AI и не только
Играю в Hedra Character 3, глючит жёстко, отказывается от генераций постоянно. С ошибками и без. Просто не создаёт и всё. Но иногда что то прикольное выходит. Хотелось бы стабильности для экспериментов.
Сергей Булаев AI 🤖 - об AI и не только
Новый Hedra Character-3 — первая омнимодальная модель, которая одновременно думает в тексте, картинках и звуке.
Собрали всё в одном: text-to-video, audio-to-video, генерация персонажей с сохранением стиля, динамические фоны. Прямотаки новая ступень эволюции видеогенерации.
Надо тестить самому! Сколько осталось инфлюенсерам?
Сергей Булаев AI 🤖 - об AI и не только
Aidan (кстати работающий в OpenAI), показал рисованную картинку трём моделям и попросил нарисовать тоже самое. Посмотрите что получилось.
Также у него нашёл пример с прогрессом рисования автопортрета по моделям GPT.
Сергей Булаев AI 🤖 - об AI и не только
Итак вышел GPT-4.5 (проект Orion)!
Все пишут о наконец то улучшенном эмоциональном интеллекте и творческих способностях. Модель стала больше походить на человека, чем на механического помощника. Меньше отказов, больше естественных ответов, лучше форматирование.
Как понимаете, релиз совпал с выходом Claude 3.7 Sonnet, который наоборот сделал акцент на кодинге, но потерял в "человечности".
По бенчмаркам - GPT-4.5 набрал 64% на Simple QA, почти вдвое больше чем GPT-4. Это значит, что он должен меньше галлюцинировать... хотя на практике явных улучшений пока не видно.
Интересные факты:- В Every дали GPT-4.5 пройти личностные тесты вместе с GPT-4o! По сравнению с предшественником, 4.5 оказался более экстравертным, открытым, добросовестным и менее невротичным. Забавно, что оба получили эстетику "Тёмная Академия" в тесте BuzzFeed.
- При просьбе исправить и подытожить стенограмму мыслей, GPT-4o следовал инструкциям буквально, а 4.5 часто - предпочитал написать эссе, игнорируя точные указания. Зато текст получался гораздо лучше и читабельнее.
- OpenAI называет стиль письма GPT-4.5 "Orion prose" - текст с паузами и переносами, который лучше звучит при чтении вслух. Они признались, что проектировали 4.5 больше для голосового режима, чем для чтения.
- Модель может быть своенравной - она не обязательно даст точно то, что вы просите, но предложит то, что считает лучшим. - Это раздражает тех, кто привык к послушным ассистентам.
- GPT-4.5 стоит примерно в 20 раз дороже предыдущих моделей! Неудивительно, что OpenAI пока сделала его доступным только для Pro-пользователей.
Модель доступна через API и в профессиональном плане, на плюсе обещают на следующей неделе.
Сергей Булаев AI 🤖 - об AI и не только
Anthropic выкатили Claude 3.7 Sonnet - свою первую гибридную модель с расширенным мышлением. И да, наконец-то, он может либо быстро отвечать, либо думать пошагово прямо на наших глазах.
По бенчмаркам, новый Клод выглядит просто роскошно! В программировании буквально рвёт — 70.3% на SWE-bench (с кастомным скаффолдом) против жалких 48.9% у o1. Космос!
В агентском использовании инструментов (TAU-bench) тоже явно впереди с 81.2% в ритейл-сценариях (против 71.5% у Claude 3.5 и 73.5% у o1). В следовании инструкциям вообще монстр — 93.2% с расширенным мышлением.
Забавный момент с математикой для старшеклассников (AIME) — с расширенным мышлением даёт 80% (против 83.3% у o1), а без него падает до жалких 23.3%. Тут ещё нужно поработать, похоже.
Для API-юзеров добавили тонкий контроль времени обдумывания — можно задать сколько именно токенов модель потратит на размышления, до 128К. Это как раз то, чего не хватало в o1, и сразу помогает сбалансировать скорость, стоимость и качество.
Anthropic запустили и новый инструмент Claude Code — консольную утилиту для написания кода прямо из терминала (правда, пока только в режиме ограниченного превью).
А вот с ценами всё приятно: $3 за миллион входящих токенов и $15 за миллион исходящих, включая "думательные" токены. Модель уже доступна на всех тарифах, даже на бесплатном (но без расширенного мышления).
Сергей Булаев AI 🤖 - об AI и не только
ByteDance (создатели/владельцы TikTok) продолжают удивлять! Свежий пейпер про OmniHuman-1 демонстрирует очередной взрыв мозга в генерации видео с говорящими людьми.
Главная тема - это "омни-кондишн" тренировка, которая позволяет модели учиться сразу на разных типах данных. Проще говоря, они научились использовать даже те видео, которые раньше приходилось выбрасывать из-за шума или плохой синхронизации губ.
В результате получилась универсальная модель, которая:- Умеет работать с любыми пропорциями кадра
- Точно передает движения губ и жесты
- Сохраняет стиль оригинального изображения
- Справляется даже с мультяшными персонажами
Самое поразительное - это объем данных. Для тренировки использовали 18.7K часов видео, из которых только 13% подходили под строгие критерии качества. Но благодаря новому подходу, модель смогла научиться даже на "плохих" примерах.
А ещё она умеет анимировать не только лица, но и полноценные сцены с объектами - например, музыкант с гитарой или человек с бокалом вина.
Результаты выглядят роскошно - в сравнительных тестах OmniHuman обходит существующие решения по всем метрикам. Правда, пока это только исследование, использовать его никак нельзя, но учитывая, что за ним стоит ByteDance - ждем появления этих технологий в их продуктах. (Похоже скоро криэйтеры будут не нужны совсем)
Сергей Булаев AI 🤖 - об AI и не только
Майкрософт на прошлой неделе представили свой первый квантовый компьютер - Majorana 1! И тут реально есть чем восхититься. Ребята не просто собрали какуюто новую машину, а создали совершенно новое состояние материи - не твёрдое, не жидкое и не газообразное, а топологическое.
Для тех кто не в теме квантовых вычислений:
Представьте обычный компьютерный бит - он может быть либо 0, либо 1. А кубит (квантовый бит) может находиться в обоих состояниях одновременно! Это как если бы монетка при подбрасывании могла быть и орлом и решкой сразу. Именно эта особенность и даёт квантовым компьютерам их суперсилу.
Что особенного в Majorana 1:- Использует совершенно новый тип материалов - топокондукторы
- Кубиты получились в 100 раз меньше существующих (0.01 мм)
- На одном чипе размером с ладонь можно разместить миллион кубитов
- Работает намного стабильнее других квантовых компьютеров
По словам Сатьи Наделлы, это прорыв позволит создать реально работающий квантовый компьютер не через десятилетия, как предполагалось, а уже через несколько лет. Такая машина сможет решать задачи, с которыми не справятся все существующие компьютеры вместе взятые.
Перевёл для вас обзорное видео (оригинал тут) от Microsoft о том, как это всё работает. ElevenLabs, как обычно, местами глючит, но общий смысл передаёт хорошо.
P.S. Создание этой технологии заняло у Microsoft почти 30 лет. Настойчивость заслуживает уважения. Интересно, что будет дальше!
Сергей Булаев AI 🤖 - об AI и не только
Свежий, 3-й стартерпак ИИ инженера от ElevenLabs доступен прямо сейчас! Приурочен к их хакатону этих выходных и включает кучу бонусов и скидок для разработчиков ИИ приложений.
В набор входят кредиты от различных сервисов: Notion, Intercom, MistralAI, FAL, Hugging Face, а также новые бонусы от StackBlitz, ExaAI Labs и DeepReel AI. Отличная возможность поэкспериментировать с различными ИИ-инструментами без лишних затрат.
Разбирайте пока промо-коды не закончились!
Сергей Булаев AI 🤖 - об AI и не только
Тем временем в сети начали появляться первые демонстрации голосового режима Grok 3. Судя по утечкам, ассистент будет доступен с как минимум двумя голосами - "Ara" (женский) и "Sal" (мужской), и похоже, что они предназначены для разных уровней подписки.
Пока голосовой Grok похоже сохранил свою фирменную "раскрепощённость" - в отличие от довольно зажатого ChatGPT Advanced Voice Mode. В одном из видео даже показали диалог голосовых ассистентов, где разница в подходах к модерации контента видна невооружённым глазом.
Среди заявленных возможностей: доступ в интернет, настраиваемые инструкции, сохранение транскриптов, работа в фоновом режиме, пение и даже смех. Запуск, похоже, уже совсем скоро!
Внимание, в переведённом диалоге между ChatGPT и Grok 3 очень много хамства.
Так и у нас опять проблема с бустами, побустите пожалуйста кому не жалко!
Сергей Булаев AI 🤖 - об AI и не только
Spotify начал принимать аудиокниги, озвученные с помощью голосов ElevenLabs. С сегодняшнего дня авторы могут публиковать свои произведения напрямую на Spotify и другие крупные площадки через партнерство с Findaway Voices.
Это значительный шаг вперёд для независимых авторов, которым раньше приходилось заниматься дорогостоящим и трудоёмким процессом создания аудиоверсий своих работ. Теперь распространение станет быстрее, проще и доступнее.
Я давно пользуюсь ElevenLabs для разных проектов (переводы видео и искусственные подкасты, генерация гипно сессий), и качество их голосов очень радует. Теперь эти технологии смогут помочь авторам достичь новой аудитории и получать доход, когда слушатели покупают или стримят их аудиокниги.
Сергей Булаев AI 🤖 - об AI и не только
Китайский стартап MagicLab представил роботизированную руку MagicHand S01 с роскошными показателями. 11 степеней свободы и гибридная система управления силой/положением позволяют выполнять сложные манипуляции с предметами.
Грузоподъёмность до 5 кг для самой руки и до 20 кг для всего роботизированного манипулятора MagicBot. Технические детали тоже норм: точность измерения силы до 0,1Н, частота синхронизации до 100Гц и 30% запас прочности для всех ключевых компонентов.
В декабре компания уже демонстрировала своих роботов на производственной линии, где они занимались проверкой продукции, перемещением материалов и сканированием штрих-кодов.
Финансирование на уровне - 150 миллионов юаней ($20 млн) в раунде ангельских инвестиций. Направления понятные - расширение команды, доработка технологий, масштабирование производства.
Сергей Булаев AI 🤖 - об AI и роботах
В Venture Beat статья о трансформации процесса разработки в текущих реалиях.
Replit в партнёрстве с Anthropic и Google Cloud превратил обычных сотрудников Zillow в разработчиков. И это не просто эксперимент - через приложения, созданные людьми, которые раньше никогда не писали код, сейчас проходит более 100 000 запросов от покупателей недвижимости!
"Мы наблюдаем трансформацию в том, как бизнес создает программные решения," говорит Микеле Катаста, президент Replit. "Нашу платформу всё чаще используют команды маркетинга, продаж и операционной деятельности, которым нужны индивидуальные решения, которые готовое ПО предоставить не может."
Майкл Герстенхабер, вице-президент по продуктам Anthropic, особо отмечает подход Claude к генерации кода: "Claude отлично справляется с созданием чистого, поддерживаемого кода, понимая сложные системы на разных языках и фреймворках. Он подходит к проблемам стратегически, часто делая шаг назад для анализа общей картины, вместо того чтобы сразу бросаться писать код."
Журналистка Claire Lehmann: "Создала 2 новые внутренние системы для моей команды за эту неделю (заявки на отпуск/поддержка клиентов) используя код, сгенерированный Claude. Заняло в сумме 1 день и сэкономило нам $5-10K на консультантах. Если выпускница факультета английского и психологии как я может использовать код для создания вещей, то любой гуманитарий сможет."
Сергей Булаев AI 🤖 - об AI и не только