Авторский контент Рвачева Никиты (@rvnikita): о чем думаю, мечтаю, что читаю.
Ок, я давно вынашиваю идею личного AI ассистента и вот решил наконец сделать немного шагов в эту сторону.
Буду писать небольший записки о том что происходит.
В моменте проект опенсорсный и будет доступен по адресу https://github.com/rvnikita/rv_ai_assistant
Основные претензии к текущему Voice GPT
1) иногда он глючит на длинных аудио, я могу надиктовывать ему 2-3-5 минут мыслей и потом он говорит “ой, что-то пошло не так” и все пропадает. Технически если голосовое в телеграмме, такого не должно случаться
2) он не умеет вызывать функции - например я хочу чтобы он послушал и дернул какое-нибудь API для поиска или чтобы узнать погоду. Или например отправить сообщение
3) GPT плохо работает в метро, он требует постоянного коннекта, в отличи от телеграмма который может работать и обрабатывать сообщение пока в метро нет интернета.
Итак верхнеуровнево текщая архитектура:
- High-Level Architecture
- Dispatcher Agent:
- The main agent that handles incoming messages and decides which module/agent to use based on the request.
- Uses GPT-4o for decision making.
- Interacts with a RAG (Retrieval-Augmented Generation) system to leverage past interactions and module usage data.
- Modules/Agents:
- Individual modules that handle specific tasks, such as downloading Twitter videos or future functionalities.
- Each module has a standardized interface for inputs, outputs, and descriptions.
- Database:
- PostgreSQL for storing messages, configuration, user interactions, and feedback.
- Alembic for database migrations.
- Transcription Service:
- Uses OpenAI's Whisper model for transcribing voice messages.
- Environment Management:
- Uses .env files to manage environment variables and API keys.
Пока все работает на локальном компьютере, но совсем скоро постараюсь выкинуть его на сервер, чтобы с ним можно было играть.
В текущей нулевой версии он просто копирует текст который ему прислали текстом, а так же распознает голос и возвращает текст на голосовое сообщение.
Из первого модуля, который хочется реализовать, это скачивание видео c x.com так как это частая задачи и постоянно приходится пользоваться для этого левыми сайтами
#ai #agi #rv_ai_assistant #assistant
—————————
Мысли Рвачева
—————————
Наконец-то! OpenAI добавил параметр "strict": true к "type": "json_schema”.
Это на 100% гарантирует, что LLM вернет ответ в валидном JSON формате.
Ожидаемый огромный шаг вперед для разработчиков
🔗 Source: https://openai.com/index/introducing-structured-outputs-in-the-api/
#ai #api #openai #gpt #dev
—————————
Мысли Рвачева
—————————
“You are a helpful mail assistant”, “do not hallucinate” и “avoid negative themes”.
Разработчики расковыряли промпты используемые в LLM встроенной в бета версии iOS которая планируется основным релизом на осень и должна добавить AI Assistance в айфоны и айпады.
🔗 Source: https://www.theverge.com/2024/8/5/24213861/apple-intelligence-instructions-macos-15-1-sequoia-beta
#ai #agi #apple #ios #gpt
—————————
Мысли Рвачева
—————————
Ключевые люди покидают OpenAI
Президент OpenAI Greg Brockman, один из соучредителей компании, берёт длительный отпуск. Ещё один соучредитель, John Schulman, перешёл в конкурирующую компанию Anthropic. Peter Deng, руководитель продукта, который присоединился к OpenAI в прошлом году, также ушёл.
Кажется в компании не все спокойно.
#openai #greg_brockman #john_schulman #peter_deng #anthropic
Интересный выпуск с Elon Musk и DJ Seo (COO & President Neuralink).
Весь выпуск конечно нереальный. И история про то как нейролинк работает в принципе, рассказ про то что провода устройства тоньше человеческого волоса. И про технические вызовы: с одной стороны хочется подзаряжать батарейку индукционно как айфон, с другой стороны нельзя нагревать поверхность покруг даже на пару градусов и многое многое другое. Рекомендую.
Из необычного Илон Маск рассуждает о том, что уже сейчас нейралинк позволяет ускорить передачу информации в 2 раза от текущего мирового рекорда. Только представьте отправлять сообщения, кодить, ставить лайки может будет в 2 раза быстрее. Лекс резонно спрашивает на сколько это в принципе важно и нужно.
И тут Элон приводит два логичных аргмента:
1) Представим себе, что наша голосовая коммуникация замедлилась в 10 раз, каково это будет? Скорее всего производительность упадет в разы
2) Мозг достаточно пластичен, после того, как слушаешь подкаст на x1.75 и возвращаешься к нормальной скорости - кажется все слишком медленно.
Ну и в общем снова и снова становится понятно, что наше взаимодействие с устройствами в общем и с AI в частности будет через нейроинтерфейс и всех ждет будущее киборгов.
https://www.youtube.com/watch?v=Kbk9BiPhm7o
#ai #neuralink #agi #cyborgs #elon_musk #dj_seo #brain
—————————
Мысли Рвачева
—————————
На вопрос «есть ли жизнь вне земли» интересная идея, что в природе нет не одного объекта в единичном экземпляре. Да и в целом подкаст интересный
#meaning_of_life #space
https://youtu.be/N2eHUNl0DmM?si=Z0D_cKbTX3ZEFZ1C
Как работают компьютеры?
Интересно, что большинство пользователей электронных устройств не понимают, как работают компьютеры, для них это черный ящик. Да даже те, кто проходил основы в универе, в реальности не понимают более подробного устройства современного процессора. Слишком большой масштаб, слишком далеко все убежало, хотя несколько десятилетий назад первые процессоры могли спроектировать несколько человек.
Так вот, если хочется разобраться в основах основ начиная с транзистора, Andrej Karpathy рекомендует видео курс на ютубе. Скучно (и легко) точно не будет. В догонку есть книга «But How do it know” убирающая магию из устройства компьютеров.
https://www.youtube.com/watch?v=HaBMAD-Dr8M&list=PLnAxReCloSeTJc8ZGogzjtCtXl_eE6yzA&index=1
#cpu #learning #andrej_karpathy
—————————
Мысли Рвачева
—————————
Стартап perceptive.io провел первую полностью автоматическую стоматологическую процедуру на человеке.
#ai #agi #robotics #dental #healthcare
—————————
Мысли Рвачева
—————————
Meta презентовала новую модель для сегментации изображений SAM2
Сегментация имеет огромное количество применений начиная от анализа потока машин и заканчивая видео редактированием кино и наукой.
https://ai.meta.com/blog/segment-anything-2/
#ai #agi #segmentation #meta
—————————
Мысли Рвачева
—————————
Давно размышляю о создании личного AI помощника/ассистента на основе Telegram. В потенциале было бы классно превратить это в платформу к которой любом смог бы написать плагины. Основная цель - сделать повторяющиеся задачи (отправить напоминалку, написать письмо, проверить текст, запостить пост) легче, в идеале либо полностью автоматизированными, либо исполнимыми «на бегу».
План примерно такой: есть центральный AI агент, который принимает все сообщения пользователя и дальше из существующих плагинов/агентов выбирает действие (поискать в интернете, написать и запостить пост в телегу, поставить будильник, исправить грамматику, записать запись в личный дневник и т.д.)
Каждый плагин/агент должен иметь унифицированный формат взаимодействия с основным агентом (какие параметры ожидаются на вход, что агент умеет делать, что будет на выходе и т.д.)
Важные элементы:
- память на каждого пользователя о предпочтениях исходя из предыдущих общений
- память в формате RAG о предыдущих использованиях (успешных и не успешных) для помощи следующих прогонов. Например в прошлый раз на запрос Х сделали Y и пользователю это понравилось, значит на похожие запросы будем так же отвечать.
- доступ к функциональным элементам (отправка почты, поиск в интернете, добавление записи в БД и т.д.)
Из текущих агентских фреймворков (например CrewAI) не нравится какая-то полная неконтролируемость и непредсказуемость. Система как-то сама работает внутри и не понятно что происходит.
В целом что думаете про проект такого рода? Есть ли аналоги? Что стоит почитать в эту сторону? Какие подводные камни? Пользовались бы вы таким помощником?
#ai #agi #agents #llm #gpt
—————————
Мысли Рвачева
—————————
OpenAI наступает гуглу на пятки
OpenAI тестирует SearchGPT - AI версию поисковика. Пока прототип, но уже понятно куда все движется.
https://openai.com/index/searchgpt-prototype/
#ai #openai #search #llm #google #gpt
—————————
Мысли Рвачева
—————————
Closed-sourced vs open-weight models
#llm #gpt #open_weight
—————————
Мысли Рвачева
—————————
OpenAI презентовали самую кост эффективную модель GPT-4o mini
https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
#openai
—————————
Мысли Рвачева
—————————
Новое демо возможностей видео генерации Sora от OpenAI.
Выглядит конечно невероятно.
UPD: почему-то снесли
https://youtu.be/QH_zS1BUE1Y?si=0mbn9zm9HslGDCbw
#text2video #ai #agi #sora #openai
—————————
Мысли Рвачева
—————————
Теория заговора: А вдруг AGI уже изобрели, он внедрен внутри OpenAI и постепенно избавляется от своих создателей (так или иначе из 11 фаундеров OpenAI осталось в процессе только два) 🤔
#ai #agi #openai #conspiracy_theory
—————————
Мысли Рвачева
—————————
🤔 Подозрительно много крутых людей уходить работать в “ai safety”
#ai #agi #ai_safety
—————————
Мысли Рвачева
—————————
А вот и обещанный робот от Figure.ai
Выглядит конечно невероятно: одновременно впечатляюще и ужасающе.
#ai #agi #robotics #humanoid
—————————
Мысли Рвачева
—————————
OpenAI аннонсировал OpenAI DevDay в 3 города (SF, London, Singapore) этой осенью.
Подать заявку на участие https://openai.com/devday/
#ai #agi #openai
—————————
Мысли Рвачева
—————————
Компания Figure (работающая над первым коммерческим человекоподобным роботом) 6 августа представит вторую версию робота 02.
🔗 Link https://www.figure.ai/
#ai #agi #robotics #humanoid
Не многие знают, но я коллекционирую книги. Особенно, конечно, люблю подписанные первые издания. Так или иначе в трех местах в нескольких странах у меня по несколько шкафов книг. Невозможно остановиться покупать.
Несмотря на то, что этот блог последнее время в основном про AI, изначально он задумывался чтобы писать то, что меня интересует, вдохновляет и волнует. Книги, очевидно, занимают не малую часть. Когда-нибудь расскажу про свои особо ценные экземпляры, а пока хочу показать то, что пришло сегодня.
Вообще я люблю «спасать» книги, покупая поддержанные книги в 2-3 (иногда 5) раз дешевле изначальное цены. Так же тут, в США, есть культура выставлять на улицу неиспользуемые вещи, а подбирать их - признак не того, что ты БОМЖ, а что ты даешь вторую жизнь вещи. В общем, я частенько таким образом «спасаю» в свою коллекцию книги, попадаются очень необычные экземпляры .
Так вот из последних покупок - в second hand магазине увидел книгу увидел книгу Яна Франк - Дневник Дизайнера-Маньяка, которую давно хотел купить, был супер удивлен увидеть русскую книгу и сразу ее забрал за $2. Книга интересная, в ней есть хороший раздел про книги которые она советует. Это книги про иллюстрации разных художников как инструмент дизайнера для вдохновления и насмотренности. В итоге я заказал себе штук 7 из списка и вот одна из них пришла.
Вообще иметь в коллекции книги с подборкой крутых иллюстраций это всегда классно, но эта, в частности, еще и подпитывает мою тоску по родине.
P.S. Будет круто если вы реакциям покажете интересно ли вам в принципе слышать про что я читаю и мысли вокруг этого.
🔥 - интересно
🥴 - не интересно
#books #ivan_bilibin #russia
—————————
Мысли Рвачева
—————————
То, как новая ChatGPT 4o голосовая модель берет время чтобы перехватить дыхание просто 🤯🤯🤯
#ai #agi #gpt #voice
—————————
Мысли Рвачева
—————————
Кажется наконец началось! Экспоненциальный рост количества поездок на самоуправляемых авто.
#ai #selfdriving #autonomous
—————————
Мысли Рвачева
—————————
#ai #agi #robotics
—————————
Мысли Рвачева
—————————
OpenAI начал раскатывать долгожданный Advanced Voice Mode на платных Pro пользователей.
Формат позволяет общаться с LLM в более натурально, похожим на обычный разговор формате.
P.S. Нужно признать, что я пытался какое-то время использовать голосвой ChatGPT для надиктовывания мыслей, чтобы в конце дня получать саммари и переносить их в свой дневник - но идея оказалась нерабочая, голосвые в несколько минут он теряет, пишет ошибка и в итоге весь экспериент дырявый. Дам второй шанс с Advanced Voice Mode, но походу все же не отверчусь о того, чтобы писать бота в телеге, который будет принимать голосовухи и на основе них выполнять агентские задачи.
https://x.com/OpenAI/status/1818353580279316863
#ai #agi #agents #llm #gpt #voice
—————————
Мысли Рвачева
—————————
Все еще думаете, что хоть кто-то останется с работой? :)
#ai #agi #robotics
—————————
Мысли Рвачева
—————————
Улучшение качества GPT ответов за счет правильной структуры промптов.
Не многие знают, но правильная структура промптов помогает существенно увеличить качество ответов. Один из "хаков" который рекоменудют все основные LLM - использовать XML для маркировки блоков. Например, если вы копируете кусочек документации, поместите его в теги <documentation></documentation> и т.д. Особенно актуально когда вы предоставляете огромные неструктурированные блоки. Например одновременно последняя версия кода пойдет в <my_code></my_code> и документация в <documentation></documentation>.
https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/use-xml-tags
https://platform.openai.com/docs/guides/prompt-engineering/strategy-write-clear-instructions
#llm #prompting #ai #gpt
—————————
Мысли Рвачева
—————————
Meta презентовала LLAMA 3.1 405b - модель схожую по производительности с GPT-4, но опенсорс и открытую для коммерческого использования.
https://ai.meta.com/blog/meta-llama-3-1/
#gpt #meta #open_source #open_weights
—————————
Мысли Рвачева
—————————
- Что такое GitHub?
- Это самый простой способ найти бесплатный OpenAI key.
#openai #github
—————————
Мысли Рвачева
—————————