Авторский контент Рвачева Никиты (@rvnikita): о чем думаю, мечтаю, что читаю.
ChatGPT когда в очередной раз просят картинку в стиле Studio Ghibli
#friday #fun
—————————
Мысли Рвачева
—————————
Что если бы Interstellar делали в Studio Ghibli.
Сразу предвосхищая вопрос:
1. В ChatGPT 4o Images делаются картинки
2. В morphic.com делается анимация
#ai #agi #chatgpt #video
—————————
Мысли Рвачева
—————————
Давайте в комментариях соберем крутые примеры использования 4o Image. Я начну.
#ai #agi #image
—————————
Мысли Рвачева
—————————
Prompt: Redraw as a cartoon in a Picasso style
Наконец получил доступ к генерации картинок в 4o. Нужно признать, что встроенная генерация через Sora это какой-то совсем новый уровень, особенно что касается деталей, хотя на сложных сценах (например когда два человека обнимаются и нужно разобраться где чья рука и т.д. он до сих пор ошибается достаточно часто).
Но в любом случае как говорится какое же крутое время в котором мы живем и это только начало.
#ai #agi #agi #chatgpt #image
—————————
Мысли Рвачева
—————————
Генерация картинок прям в ChatGPT через Sora
OpenAI встроила генерацию изображений прямо в ChatGPT. Это не просто «поддержка изображений», а полноценный апгрейд. Генерация идёт не через diffusion, как у DALL-E, а последовательно, «по буквам» — слева направо, сверху вниз. Благодаря этому у Sora наконец-то получилось то, что казалось невозможным: правильно писать текст на изображениях и не путаться в объектах, цветах и формах.
Можно попросить сделать комикс, диаграмму Ньютона или плакат с текстом — и модель выдаст внятное изображение, где всё на своих местах. Прямо внутри ChatGPT.
Live Demo: https://www.youtube.com/watch?v=2f3K43FHRKo
#openai #chatgpt #sora #ai #agi #image
—————————
Мысли Рвачева
—————————
Круто или страшно?
Наткнулся на интересную работу: ребята изучили, могут ли человекоподобные роботы выполнять клинические задачи удалённо с помощью телеуправления.
Они взяли робота Unitree G1 и разработали систему двуручного телеуправления, которая точно отслеживает движения человека-оператора и позволяет роботу повторять их в реальном времени.
Звучит футуристично, но это уже реальность: по сути, врач может «перенести» свои руки в тело робота и провести процедуру на расстоянии.
Перспективы у такого подхода огромные: от удалённой хирургии до экстренной медицинской помощи в труднодоступных местах.
#robotics #ai #agi
—————————
Мысли Рвачева
—————————
🤯 AGI уже через 7 месяцев? Новая метрика AI показывает стремительный прогресс.
Наткнулся на интересное исследование: ребята из METR предложили новую метрику прогресса AI, похожую на знаменитый закон Мура (напомню, он гласит, что число транзисторов в микросхеме удваивается примерно каждые два года).
Оказывается, за последние 6 лет длина задач, которые AI может выполнить самостоятельно (при 50%-ной вероятности успеха), удваивается каждые 7 месяцев. Несмотря на уточнение про "50% успеха", звучит впечатляюще.
Если тренд продолжится, уже в ближайшие 5 лет AI сможет самостоятельно выполнять значительную часть задач, на которые сейчас у людей уходят дни или недели.
Сами авторы пишут, что уже сейчас AI почти идеально справляется с задачами до 4 минут человеческого времени, но задачи свыше 4 часов пока даются с трудом (менее 10% успеха).
С такой скоростью прогресса к концу десятилетия нас ждут системы, которые будут автономно выполнять проекты длительностью месяц и более. Последствия этого сложно переоценить: от полностью автоматизированной работы до серьезных рисков, связанных с такой автономностью.
Подробности и методология тут:
https://metr.org/research/measuring-ai-ability
Paper: https://arxiv.org/abs/2503.14499
Github: https://github.com/METR/eval-analysis-public
#ai #automation #metr #agi
—————————
Мысли Рвачева
—————————
Отдельный кайф заниматься AI лабораторией, да и в целом AI - иметь возможность прикоснуться к будущему за пару моментов до того, как оно настало. Сегодня Google Labs позвали присоединиться к закрытому тестированию Project Mariner. Буду подсвечивать тут то, что не будет вылезать за NDA.
#ai #agi #agent #google #project_mariner
—————————
Мысли Рвачева
—————————
Чем глубже я погружаюсь в разработку AI агентов, тем больше возникает вопросов, а так же понимания, что все далеко не так просто и легко как казалось в самом начале.
В целом AI агента можно рассматривать как просто работника в офисе у которого есть профессия, круг обязанностей, должностные инструкции и доступы.
Вопрос с которым я пытаюсь сейчас разобраться - на сколько автономны должны быть агенты. Должны ли они работать в Apple way (когда тебе дается только то, что тебе нужно и ничего больше прям как в корпорации Apple) или агент должен иметь доступ к распределенной памяти где хранится и переписка с пользователем и результат работы предыдущих агентов.
С одной стороны хочется сделать супер фокус, так как понятно, чем меньше контекста использовано, тем выше качество, но тогда приходится полагаться на результат предыдущих агентов (которые могут накосячить). Если же никому не доверять (любая переработка или профильтровывание информации приводит только к снижению сигнала) - большой шанс понизить качество напихав слишком много информации в одного агента. Скорее всего ответ в балансе.
Наверняка есть какие-то научнные работы с AB тестами, статьи и т.д. Сталкивались ли вы с похожими мыслями? Что решили, что думаете? Поделитесь опытом. Думаю комментарии к этому посту будут полезны очень многим.
#ai #agi #agent
—————————
Мысли Рвачева
—————————
🚗 Waymo представила свежие данные о безопасности беспилотных авто за 2024 год.
50 миллионов километров без водителя-человека — и результаты впечатляют:
— На 83% меньше аварий с раскрытием подушек безопасности
— На 81% меньше аварий с травмами
— На 64% меньше ДТП, зарегистрированных полицией
Что это значит на практике? Waymo Driver уже сейчас водит значительно безопаснее среднего человека — машина реже попадает в серьёзные аварии, причиняющие ущерб или травмы.
Робот за рулём осторожнее, предсказуемее и внимательнее живого водителя. Если раньше главным вопросом был «как скоро беспилотники догонят человека», то теперь он звучит иначе: «как скоро человек уступит роботам дорогу?»
Подробнее с данными и цифрами:
https://waymo.com/safety/impact
#waymo #AI #selfdriving_cars
В будущем основным потребителем документации будет не человек, а LLM.
Поэтому уже сейчас компании вроде Stripe делают чтение документации удобнее для агентов, в частности создавая .llm формат. Пример https://docs.stripe.com/llms.txt
#friday #fun #coding
—————————
Мысли Рвачева
—————————
🚀 OpenAI запустила модель, позволяющую AI полноценно управлять браузером
Browserbase стал одним из первых партнёров OpenAI в исследовании новой модели, способной полноценно взаимодействовать с браузером через интерфейс. Такие инструменты появились не вчера: проекты вроде babyagi уже несколько лет пытаются автоматизировать работу за компьютером. Но сейчас очевиден серьёзный прогресс.
Я протестировал модель на задаче: «открой репозиторий, изучи код и дай рекомендации по улучшению». Пока не идеально — например, трудно остановить процесс и сказать: «Стоп, идёшь не туда, сделай иначе». Тем не менее, уровень впечатляет, и возможности для автоматизации огромные. Вспоминается цитата: «все удалённые позиции будут на 100% автоматизированы AI-агентами».
Browserbase выпустили бесплатную версию и исходный код — можно попробовать уже сейчас. Крутой шаг вперёд, рекомендую:
🔗 Demo: https://browserbase.com
👨💻 Github: https://github.com/browserbase/cua-browser
#ai #openai #automation #agi #coding
—————————
Мысли Рвачева
—————————
Давно экспериментирую с продуктивностью, в частности с Pomodoro-таймером. Для тех, кто не знает, основная идея — заводить таймер на 25 минут и, не отвлекаясь, работать над одной задачей, после чего делать небольшой перерыв на 5 минут. В идеале нужно набирать как можно больше таких «помидоров» (особенно приятно их фиксировать в блокноте). Основная проблема с продуктивностью у меня, как мне кажется, связана с переключением между контекстами и отвлечением на «мелкие задачи». Есть огромное количество приложений и плагинов для этого, но все они какие-то неудобные. В итоге подсмотрел у друга @gosha_from_the_block «Gravity Timer», который стоит около $17 на Amazon или менее $10 на AliExpress/Temu.
Из плюсов:
- выглядит очень круто;
- физически стоит рядом, и его можно использовать не только во время работы за компьютером, но и для других задач;
- включение, выключение и переключение занимают всего секунду за счёт переворачивания на нужную сторону.
Посмотрим, приживётся ли.
Расскажите ваши лайфхаки: используете ли технологии для продуктивности и в целом верите ли во всё это?
#productivity #pomadoro
—————————
Мысли Рвачева
—————————
🤖 CodeAct: новая эпоха AI-агентов после ReAct
AI-агенты — это программы, способные не просто выдавать ответы, но и самостоятельно принимать решения, выполнять задачи и взаимодействовать с окружающей средой. Долгое время AI умели хорошо «думать вслух» (chain-of-thought), постепенно рассуждая над задачей, но ограничивались только знаниями, которые уже были у них внутри. Другие подходы позволяли агентам активно действовать (например, искать что-то в интернете), но без глубокого планирования и понимания задачи в целом.
С появлением подхода ReAct (Reasoning + Acting) произошла важная революция. ReAct позволил AI-агенту делать две вещи одновременно: рассуждать и сразу же совершать действия во внешней среде.
Пример работы ReAct:
Представьте, вы спросили агента: «Какие интересные места посетить в Париже?» Агент сначала рассуждает: «Мне нужно найти актуальную информацию». Затем он совершает действие — ищет в интернете список достопримечательностей. Получив результат поиска, агент снова рассуждает: «Вот несколько мест, теперь выберу самые популярные», и выдаёт вам окончательный ответ. Если полученной информации недостаточно, агент снова выполняет действия и рассуждения, пока не достигнет нужного результата.
Однако когда задачи становятся длинными или особенно сложными, у ReAct могут возникнуть трудности: агент начинает теряться, повторять неудачные шаги или забывать общий план действий.
Именно для таких ситуаций был создан новый подход — CodeAct.
CodeAct использует более мощную идею: каждый следующий шаг AI-агента определяется не просто размышлениями, а с помощью генерации программного кода. Агент буквально пишет код, который выполняется, чтобы понять, что делать дальше.
Пример работы CodeAct:
Представьте, агенту нужно подсчитать сумму чисел от 1 до 100. Вместо того чтобы мысленно выполнять действия шаг за шагом, агент пишет код:sum(range(1, 101))
Затем агент запускает этот код, мгновенно получая результат.
CodeAct позволяет агенту «писать инструкции самому себе», которые затем исполняются. Это значительно повышает точность и позволяет выполнять сложные и многоэтапные задачи, например, планировать поездку (бронировать отели и авиабилеты, резервировать рестораны и встречи) или совершать покупки на разных сайтах одновременно.
Оба подхода (ReAct и CodeAct) работают по принципу цикла: агент думает, действует, оценивает результат и повторяет эти шаги, пока задача не будет выполнена. Но ключевое отличие CodeAct в том, что здесь агент не просто думает, а напрямую генерирует код для каждого действия, что намного расширяет его возможности и точность.
CodeAct — важный шаг вперёд, потому что позволяет агентам справляться с более сложными сценариями, чем это было возможно раньше. Это похоже на разницу между человеком, который решает задачу в уме, и человеком, который записывает промежуточные шаги на бумаге. Второй подход гораздо надёжнее и эффективнее, особенно если задача непростая.
Поэтому важно следить за развитием таких подходов, как CodeAct — они могут значительно расширить возможности AI в будущем.
#ai #coding #openai #multiagent #agent
—————————
Мысли Рвачева
—————————
Техническая, но важная (в первую очередь с точки зрения стандартизации индустрии) новость: OpenAI поддержит MCP.
https://x.com/sama/status/1904957253456941061
P.S. Для тех, кто не понимает о чем речь - писал об MCP тут.
#ai #agi #openai #mcp
—————————
Мысли Рвачева
—————————
Не понимаю как в 2025 году мы до сих пор носим все эти офисные карточки и брелки NFC, RFID, HID и т.д.
Почему это давно уже не встроено в телефон. Будем ждать еще 20 лет как с USB-C?
—————————
Мысли Рвачева
—————————
Gemini 2.5: новая вершина reasoning в AI
Google выкатила Gemini 2.5 Pro — экспериментальную версию самой продвинутой модели, которая мысленно проговаривает ответ, прежде чем его выдать. Это не просто генерация, а полноценное размышление: анализ, выводы, контекст, логика.
В итоге модель вышла на первое место в LMArena (оценка на основе предпочтений людей) и побила конкурентов на математических, научных и кодинговых бенчмарках.
Что особенно интересно:
– 18.8% на Humanity’s Last Exam — это экзамен по frontier-навыкам, придуманный сотнями экспертов;
– 63.8% на SWE-Bench Verified — одном из главных тестов на «агентное программирование»;
– контекстное окно — до миллиона токенов уже сейчас, два миллиона — скоро.
Gemini 2.5 умеет порождать сложные веб-приложения, редактировать и трансформировать код, и даже делать игры из одного промпта. Причём делает это, опираясь на reasoning, а не просто угадывая токены.
Скоро будет доступна и на Vertex AI. Пока можно играть в Google AI Studio или в Gemini Advanced.
Video: https://www.youtube.com/watch?v=RLCBSpgos6s
#gemini #googledeepmind #ai #reasoning #coding
—————————
Мысли Рвачева
—————————
Корреляция между GDP и уровнем счастья.
4 интересных факта из отчёта о мировом счастье (World Happiness Report 2025):
1. Совместные приёмы пищи делают людей счастливее
Люди, регулярно обедающие вместе с другими, чувствуют себя намного счастливее.
2. Добрые поступки снижают смертность
Общества с высоким уровнем взаимопомощи сталкиваются с меньшим количеством смертей от алкоголя, наркотиков и самоубийств.
3. Эффективная благотворительность увеличивает счастье
Правильно выбирая, куда пожертвовать деньги, можно значительно сильнее увеличить счастье других людей.
4. Семейная жизнь и счастье
Наиболее счастливы люди в семьях примерно из четырёх человек; жизнь в одиночестве связана с более низким уровнем счастья.
Полный отчет: https://happiness-report.s3.us-east-1.amazonaws.com/2025/WHR+25.pdf
#interesting_fact #stats
—————————
Мысли Рвачева
—————————
Как защитить свои данные от незаконного использования в обучении AI?
Cloudflare запустила AI Labyrinth — инструмент, который «обманывает» ботов, сканирующих сайты для обучения ИИ без разрешения.
Вместо простого блокирования такие боты теперь попадают в специально созданный «лабиринт» из бесполезных, сгенерированных AI страниц. Зачем это нужно? Чтобы максимально замедлить их работу и увеличить расходы компаний, которые обучают свои модели на чужом контенте без спроса.
Cloudflare утверждает, что ежедневно их сеть подвергается более 50 млрд запросов от таких AI-ботов — примерно 1% от всего мирового трафика.
Инструмент доступен бесплатно всем пользователям Cloudflare, подключить его можно прямо в личном кабинете.
Подробности: https://blog.cloudflare.com/ai-labyrinth
#cloudflare #ai #privacy
—————————
Мысли Рвачева
—————————
Скоро во всех кофейнях мира
#ai #agi #robotics
—————————
Мысли Рвачева
—————————
OpenAI только что представила впечатляющие обновления для аудио и речи в своем API. Теперь это не просто синтез или распознавание речи, а возможность буквально управлять интонацией и настроением речи, выбирая подходящий «vibe».
Сам попробовал демо на OpenAI.fm и был поражен: голос звучит невероятно естественно, а возможность на лету выбрать настроение речи — это нечто совершенно новое.
Что это значит? Скоро голосовые помощники перестанут звучать «роботизированно». Теперь у любого приложения есть шанс заговорить не хуже, чем живой человек, и даже тонко выражать эмоции.
Попробовать самому можно здесь: https://www.openai.fm
Документация и API: https://platform.openai.com/docs/guides/audio
P.S. Не знаю как у вас, у меня на последнюю неделю вернулось ощущение "все это слишком быстро развивается и становится понастоящему страшным". Разделяете ощущения?
#openai #ai #voice
—————————
Мысли Рвачева
—————————
Самый недооцененный магазин AI приложений в интернете, где почти 500 тысяч бесплатных AI-инструментов, доступных каждому:
https://huggingface.co/spaces
#ai #agi #huggingface
—————————
Мысли Рвачева
—————————
🤖 В этот день в 2012 году Amazon купила компанию Kiva, которая производила роботов для складов.
Всего через год на складах Amazon уже работало около 1000 роботов.
Сегодня их уже более 750 000.
Вот так выглядит масштаб автоматизации за 13 лет. И это только начало.
#ai #agi #robotics
—————————
Мысли Рвачева
—————————
🤖 NVIDIA только что представила Isaac GR00T N1 — первую в мире открытую foundation-модель для управления человекоподобными роботами.
GR00T N1 — это как ChatGPT, только для роботов. Он умеет не просто выполнять отдельные движения, а полноценно «думать», понимать контекст и адаптироваться к разным задачам. NVIDIA даже встроила в него два «режима мышления»: быстрое и интуитивное, и более медленное, аналитическое — буквально как у человека.
Что это значит на практике? Например, роботы теперь могут легко освоить задачи, для которых раньше приходилось нанимать людей: аккуратно перекладывать предметы с места на место, сортировать товары или даже убирать комнату, предварительно «посмотрев» видео-инструкцию.
Учитывая, что сегодня уже можно самостоятельно собрать настоящего робота всего за $250, нас ждёт очень интересное будущее.
Официальный аннонс https://nvidianews.nvidia.com/news/nvidia-isaac-gr00t-n1-open-humanoid-robot-foundation-model-simulation-frameworks
Подробнее о GR00T N1:
https://github.com/NVIDIA/Isaac-GR00T
Подробнее о $250 DYI-кит
https://github.com/AlexanderKoch-Koch/low_cost_robot
#nvidia #robotics #ai #automation
—————————
Мысли Рвачева
—————————
Ребята, мой друг @daniv запустил крутой проект — Divercity Map! Это иллюстрированная карта Нью-Йорка, которая отражает всю уникальность и разнообразие этого потрясающего города. На ней — сотни деталей и отсылок, она доступна в формате пазлов и постеров.
Давайте поддержим! Это не только красивая, но и невероятно важная идея.
https://www.kickstarter.com/projects/waso/divercity-a-map-of-manhattan-that-represents-nycs-diversity
🔌 Anthropic запустила MCP — протокол, который может изменить взаимодействие AI с миром
Относительно незаметно прошло важное событие: компания Anthropic представила Model Context Protocol (MCP). Простыми словами — это аналог USB-C, только для AI. Универсальный стандарт, позволяющий AI-агентам и приложениям легко подключаться к различным данным, инструментам и друг к другу.
Пока всё только начинается, но потенциал огромный. Например, в видео Claude напрямую подключается к Blender через MCP и буквально управляет им для создания 3D-анимации по заданному описанию.
Почему это важно? Представьте, что скоро любые приложения смогут «общаться» с AI напрямую, без костылей и отдельных интеграций. Это позволит автоматизировать множество задач, которые сейчас кажутся слишком сложными: от управления софтом для видеомонтажа и графического дизайна (как тот же Blender) до автоматического управления CRM-системами, редактирования контента в Notion или анализа данных в Excel.
AI получит доступ к десяткам инструментов, которые раньше были закрыты из-за отсутствия подходящих API. Это ускорит автоматизацию дизайна, программирования, аналитики и маркетинга, а в перспективе и вообще почти любой работы за компьютером.
Подробнее про MCP: 🔗 https://modelcontextprotocol.io/introduction
#ai #anthropic #mcp #automation #blender
—————————
Мысли Рвачева
—————————
🤖 Карта AI агентов от CBInsights + подробный отчет
CBInsights недавно выпустили отчет + карту AI агентов. Совершенно очевидно, что 2025 будет годом AI агентов. Про это мы будем слышать все больше и больше.
Три мысли из отчета:
1. Крупные компании, такие как OpenAI и Anthropic, продолжат захватывать рынок универсальных AI-агентов за счёт массовой аудитории и снижения рисков для предприятий. В ответ на это частные стартапы будут вынуждены углублять специализацию и предлагать нишевые решения с интеграцией клиентских данных.
2. Рынок инфраструктуры AI-агентов переходит от фрагментированности к чёткой структуре с появлением специализированных решений по управлению данными, инструментами поиска и оценки эффективности агентов. Одновременно растёт спрос на универсальные платформы разработки AI-агентов, доступные даже без глубоких технических знаний.
3. Компании активно интегрируют AI-агентов в рабочие процессы, однако сталкиваются с вызовами в области надёжности, безопасности и интеграции с существующими системами. Наиболее перспективными становятся решения, предусматривающие контроль человека («human-in-the-loop») и качественное управление данными, необходимые для успешного и безопасного внедрения AI-агентов.
🔗 Прямая ссылка на отчет: https://www.cbinsights.com/reports/CB-Insights_AI-Agent-Trends-To-Watch-2025.pdf?ip_et_ctx=23875269_31_9
#ai #agent
Ребятки, сейчас (как и многие) сильно погружаются в разработку AI агентов и их оркестрирование. Поделитесь в комментариях материалами которые очень полезны на ваш взгляд (видео, научные статьи, репозитории т.д., может уже есть книга с животным на обложке). Не поверхностные выдержки из документации, MVP и т.д. а глубокий полезный материал.
В моменте особенно интересуют архитектурные аспекты. Как правильно распределять роли, как работает дирижер, как устроен цикл, граф состояний и т.д., какая память (что обещдоступно, а что нет, кто может писать а кто нет) и т.д. и т.п.
Очевидно, что многие тут еще поменяется, но тема будет актуально долго. По ощущениям влияние будет не меньше чем с изобретением объектно-ориентированного программирования.
#ai #agent #coding #agi #architecture
—————————
Мысли Рвачева
—————————