Telegram-канал agi_and_rl - Агенты ИИ | AGI_and_RL: Unsorted - каталог телеграмм

agi_and_rl | Unsorted

Subscribe to a channel

Telegram-канал agi_and_rl - Агенты ИИ | AGI_and_RL

5507

Про ии, RL и в целом @tokarev_i_v https://t.me/researchim

Subscribe to a channel

Агенты ИИ | AGI_and_RL

06 January 2025 22:27

Ребята из проекта опенсурс агента для написания кода OpenHands 🥳 релизнули первую 0.18.0 версию 5 дней назад

https://github.com/All-Hands-AI/OpenHands

https://docs.all-hands.dev/

Я про этот проект не слышал раньше, а там 41к звезд на гитхабе (делают с апреля прошлого года и кажется вот что-то сделали)
Крч надо заценить

Читать полностью…

Агенты ИИ | AGI_and_RL

06 January 2025 15:28

В общем я какое-то время назад сделал группу куда кидаю ссылочки которые считаю интересными (этот канал тоже когда-то был свалкой ссылок по RL)
Но в целом я подумал что это может быть группой где люди могут общаться на АИ темы по отрослям так сказать.
Время от времени туда будут литься ссылки на мой взгляд интересные про которые я потом буду рассказывать
Может из этого и какое-нибудь комунити можно сделать по ресерчам. Колабиться и тд, что-нибудь делать

Меня интересует например ИИ + киберсек. Точнее то как может ИИ киберсеку помочь - там есть отдельный топик где могли бы собираться люди интересующиеся этой темой.

Туда можно писать по интересным вам темам + кидать что находите, репостать из крутых каналов и тд.

И да, там щас больше всего накидано крутого по RL и LLMам.

/channel/researchim

Читать полностью…

Агенты ИИ | AGI_and_RL

04 January 2025 18:44

Получается 31 декабря Дед Мороз приносил обзорку по Low Rank Adaptation и фоундейшен моделькам.

Рассказывают про лору, как работают, какие бывают, где и как применяются.
В целом балдежка

Low-Rank Adaptation for Foundation Models: A Comprehensive Review
https://arxiv.org/abs/2501.00365

Читать полностью…

Агенты ИИ | AGI_and_RL

03 January 2025 18:42

В прошлом году ребята из Physical Intelligence рассказывали про модель Pi0 https://www.physicalintelligence.company/blog/pi0 - что это фаундейшен моделька для роботов (работает поверх PaliGemma влмки от гугла + flowmatching подробнее тут писали /channel/rizzearch/696?single), тренировали ее на больших датасетах собранных с разных роботов.

Но ни модельку, ни данные они не выкладывали. И вот тут ресечер Allen Z. Ren который сам занимается роботами решил воспроизвести подход (данные он использует другие конечно) и заопенсурсил свой проект и модельки:

https://github.com/allenzren/open-pi-zero

Читать полностью…

Агенты ИИ | AGI_and_RL

03 January 2025 12:57

Эксперимент на тему обучения нейронок в 1.58 бит. Веса модели представляются в тернарном виде (т.е. каждый вес преобразуется в значение {-1,0,1}) и так используются для обучения.

Генерим много случайных разряженных тернарных шумовых векторов v_i (в них много нулей). С ними вычисляем якобиан-векторное произведение и получаем проекцию градиента на шумовой вектор, от которого нам нужен только знак (лежит шумовой вектор по градиенту (1) или против него (-1), или ортогонально (0)). И градиент оценивается через сумму шумовых векторов умноженных на знак проекции. Веса и градиент у нас тернарные и это должно сильно экономить память.

Параметры алгоритма: сколько случайных векторов используем и их разреженность.

Шумовые вектора (v_i) генерятся псевдослучайно из сида и нам не нужно их хранить (можно из сида восстановить, это может пригодиться при распределенном обучении).

Для хорошего обучения важен большой батч и много шагов оптимизации.

Так понял.

Автор добавил ноутбук с трейном MLPшки распознавать MNIST, вроде обучается.

Код и статья тут:
https://github.com/wbrickner/noise_step/tree/main

Читать полностью…

Агенты ИИ | AGI_and_RL

27 December 2024 13:35

Кстати, в России доступен ЧатМистраль https://chat.mistral.ai/ - как ЧатГПТ только от ребят которые еще модельки крутые выкладывают https://huggingface.co/mistralai

Просто регаетесь и поехали. Частенько пользуюсь, может пригодится и вам

Читать полностью…

Агенты ИИ | AGI_and_RL

25 December 2024 15:35

Ребята из Саканы двинулись в сторону применения VLMок к изучению искусственной жизни.
Так или иначе это связано с симуляциями и симуляторами.
У них получилась Automated Search for Artificial Life (ASAL).

Определяем набор искомых симуляций, начальное состояние, правила перехода между состояниями и применяем разные подходы для автоматического поиска.
Еще определяем субстрат - множество в котором ищем, в данном случае симуляторы искусственной жизни.

По начальным параметрам запускаем симулятор, получаем изображение, прогоняем через VLM, получаем представление (вектор), оптимизируем и получаем новые параметры для симуляции. Ну и так далее.

В качестве vlmок использовали CLIP и DINOv2.

Выделили 3 задачи:
- Supervised Target - ищем симуляцию которая приводит к нужному событию или серии событий (события описываем текстом, для серии событий пишем серию промтов). Например "две клетки" - это то что мы хотим увидеть в симуляции и поиск это должен будет найти.В конкретных экспериментах использовали Sep-CMA-ES для оптимизации.
- Open-Endedness - ищем симуляцию которая приводит к созданию нового изображения (ранее в истории не появлалось) для представления модельки. Это поиск новизны.
- Illumination - это как я понял исследование всего пространства (субстрата) и пространства вокруг конкретных симуляций. Здесь использовали генетический алгоритм.

В работе рассматривали (в разных поисковых кейсах) Boids, Particle Life, Life-like Cellular Automata, Lenia, Neural Cellular Automata

Так понял. В целом прикольно, хотя и достаточно отвлеченно от обычных сегодняшних ресечей) Я как-то особо не знаю чего бы еще такого в ALife делали.

https://pub.sakana.ai/asal/

Automating the Search for Artificial Life with Foundation Models
https://arxiv.org/abs/2412.17799

https://github.com/SakanaAI/asal

Ребята из Sakana делают много прикольных ресерчей (например про model merging где из кусков разных моделек можно собирать более лучшие для конкертной задачи) и можно смотреть просто их блог https://sakana.ai/blog/

Читать полностью…

Агенты ИИ | AGI_and_RL

20 December 2024 20:15

Забавные моменты:
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.

😏

Читать полностью…

Агенты ИИ | AGI_and_RL

19 December 2024 10:50

Вышел движок для симуляций/робототехники Genesis. Поверх физического движка будет генеративный фреймворк который будет генерить 3D сцены, движение камеры, людей/животных/роботов, анимации лица и видео по тексту.

Физический движок должен быть очень быстрыми и реалистичным, его заопенсурсили и он доступен ниже на гитхабе.
Генеративный фреймворк - отдельно, его не опенсурсят.

https://genesis-embodied-ai.github.io/

https://github.com/Genesis-Embodied-AI/Genesis

Читать полностью…

Агенты ИИ | AGI_and_RL

17 December 2024 15:09

Интересный пост про написание llm инференса на C++/cuda без доп библиотек (который должен получиться даже быстрее llama.cpp, автор пишет)

Fast LLM Inference From Scratch
Pushing single-GPU inference throughput to the edge without libraries
https://andrewkchan.dev/posts/yalm.html

код
https://github.com/andrewkchan/yalm

Читать полностью…

Агенты ИИ | AGI_and_RL

30 October 2024 11:48

АЛЛО МЫ ИЩЕМ ГОЛОСА

https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую!

Читать полностью…

Агенты ИИ | AGI_and_RL

26 October 2024 19:39

Бу испугался? не бойся, я RL, я тебя не обижу, иди сюда, иди ко мне, сядь рядом со мной, посмотри мне в глаза. ты видишь меня? я тоже тебя вижу, давай толкать тележки и учить пауков ходить до тех пор, пока наши глаза не устанут. ты не хочешь? почему? что-то не так?

Читать полностью…

Агенты ИИ | AGI_and_RL

20 October 2024 19:37

чот по интернетику пишут что вот мол уже засветилась 5090 (хотелось бы, но 32гб врама все равно мало)

вроде размером с 4090.

https://videocardz.com/newz/geforce-rtx-5090-graphics-card-featured-in-a-factory-trial-video

Читать полностью…

Агенты ИИ | AGI_and_RL

20 October 2024 15:24

В ByteDance стажёр обиделся и два месяца саботировал тренировочные раны соседней команды, причём весьма изощрёнными методами:

➖ Загружал чекпоинты с бекдором, через который проносил скрипт, который рандомно убивал джобы на ноде (ckpt - это pickle файл, они могут содержать произвольный код на питоне)

➖ Специально добавлял баги в форк PyTorch, который запускался на кластере

➖ Портил чекпоинты, чтобы результаты экспериментов не сходились

При всём этом он участвовал в митингах, где пытались отловить проблему, слушал, как коллеги пытаются решить её, и на основе услышанного придумывал новые способы саботажа. В итоге поймали по логам, но два месяца и усилия почти 30 человек пропали впустую. А у вас что-то такое было?

П.с. кроме шуток, мощный чел оказался.

@ai_newz

Читать полностью…

Агенты ИИ | AGI_and_RL

03 October 2024 16:44

Запустили Gemma 2 зафайнтьюненную на японский. Веса – на HuggingFace.

Заодно запустили соревнование на Кэггле на $150k 👀на адаптацию Gemma к 73 разным языкам, включая русский и украинский. Ждём ваших сабмитов!

Читать полностью…

Агенты ИИ | AGI_and_RL

06 January 2025 17:39

Кстати существует курс по квантовому млю на русском: https://quantum-ods.github.io/qmlcourse/book/index.html
(немножко участвовал в написании)

Читать полностью…

Агенты ИИ | AGI_and_RL

04 January 2025 19:24

Стороны сингулярности:
PPO не сошелся | PPO сошелся

Читать полностью…

Агенты ИИ | AGI_and_RL

04 January 2025 16:36

Тул для командной строки, который собирает код из укзанной директории в большой промт для ЛЛМки (для анализа кода, изменения или чего вам нужно).
Чтобы не ходить и не собирать руками строки из проекта

https://github.com/mufeedvh/code2prompt/

Читать полностью…

Агенты ИИ | AGI_and_RL

03 January 2025 13:11

А еще вдогоночку неделю назад работа вышла по 1.58bit Flux (флакс щас лучшая генерилка картинок) где обещают в ~5 раз экономию памяти на инференсе

https://chenglin-yang.github.io/1.58bit.flux.github.io/

1.58-bit FLUX
https://arxiv.org/abs/2412.18653v1

Код и веса обещают скоро зарелизить https://github.com/Chenglin-Yang/1.58bit.flux

Читать полностью…

Агенты ИИ | AGI_and_RL

31 December 2024 19:08

Всем добра и только хорошего в новом году

🥰🥰🥰

Читать полностью…

Агенты ИИ | AGI_and_RL

26 December 2024 14:55

Кстати, вышла новая обзорка по RLю, 144 странички, но на инглише (в конце даже немножко RL + LLMs налили)

Reinforcement Learning: An Overview
https://arxiv.org/abs/2412.05265

Не забываем что по rlю есть очень крутой конспект на русском на 245 страничек

Reinforcement Learning Textbook
https://arxiv.org/abs/2201.09746

Читать полностью…

Агенты ИИ | AGI_and_RL

23 December 2024 20:45

Тут 5 месяцев бенчмаркали и тестили AMD MI300X и сравнивали с H100/H200 и показали первую часть анализов.

MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive
https://semianalysis.com/2024/12/22/mi300x-vs-h100-vs-h200-benchmark-part-1-training/

В целом из коробки пока неюзабельно из-за софта. Ребят поддерживали несколько команд инженеров из AMD чтобы этот анализ выдать)

Читать полностью…

Агенты ИИ | AGI_and_RL

20 December 2024 19:32

Кто не в курсе тут последние 12 рабочих дней проходили показы от OpenAI всяких штук.
Сегодня последний день и они показывают ранние оценки на популярных бенчах новой фронтир модели o3, которую пока не выпускают (только рассказывают про нее)
Будут и o3-mini.
Модельки пока еще тестятся на безопасность.

Ну это жестко, если всё так. Но интересно как быстро это все будет отрабатывать в реальности и почем вообще?

Например про нее уже написали на https://arcprize.org/blog/oai-o3-pub-breakthrough

Посмотреть все 12 дней можно тут: https://openai.com/12-days/

Читать полностью…

Агенты ИИ | AGI_and_RL

19 December 2024 09:38

В последне время выходило много работ по воспроизведению o1 - как rl прикручивать, поиск применять и прочее.
А тут вышла обзорка по этим подходам, причем много внимания уделено стороне rlя

Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective
https://arxiv.org/abs/2412.14135

Читать полностью…

Агенты ИИ | AGI_and_RL

17 December 2024 09:00

ребята из HF 🤗 написали нам
https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

Про подходы к test time compute (какой поиск можно делать, использовать верификаторы, самовалидацию и тд), как это масштабировать, как сделать на опенсурсовских моделях (на примере LLama 3.2)

вполне стоит почитать

За основу взяли статью от ДипМаинда

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
https://arxiv.org/abs/2408.03314

код нашел тут:
https://github.com/huggingface/search-and-learn

сейчас реализовали на llama 3.2 1B подходы с Best of N, Beam Search, Diverse Verifier Beam Search (DVTS)
инструкция по запускам https://github.com/huggingface/search-and-learn/tree/main/recipes

Читать полностью…

Агенты ИИ | AGI_and_RL

28 October 2024 19:22

🎆 Небольшая лекция об Alignment и как мы его готовим

Это слайды с текстом, пока устно ее я рассказывал только внутри команды Vikhr.

Внутри вы узнаете:
- Теория Bradley-Terry и откуда берутся Reward модели
- Что нужно для обучения Reward модели и как его делаем мы
- Откуда взялся DPO и каковы его недостатки
- Какова мотивация нас и других авторов улучшать DPO
- Как устроен наш функционал SMPO - Simple Margin Preference Optimization
- Какие есть способы улучшения DPO на уровне данных и как готовим эти данные мы

Задавайте вопросы комментариях, если что-то непонятно, будем обсуждать.

Читать полностью…

Агенты ИИ | AGI_and_RL

22 October 2024 22:54

ммм, ребята попытались скомпилить все в одно по тюнингу ллмковых со свежими подходами
Норм обзорчик собрали, пусть будет

Stage 1: Dataset Preparation
Stage 2: Model Initialisation
Stage 3: Training Environment Setup
Stage 4: Partial or Full Fine-Tuning
Stage 5: Evaluation and Validation
Stage 6: Deployment
Stage 7: Monitoring and Maintenance

115 страничек

The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities
https://arxiv.org/abs/2408.13296

Читать полностью…

Агенты ИИ | AGI_and_RL

20 October 2024 15:25

в рабочем воркспейсе слака видишь его фотку. твои действия?

take a second to say hello

Читать полностью…

Агенты ИИ | AGI_and_RL

18 October 2024 18:34

Блин, чел мощно отлупил всех RL максималистов. RL не будет работать, ок? Усвоили

(Дипмаинду с ОпенАИ лучше закрыть свои ресерчи. Да и вообще закрыться полностью.)

https://www.argmin.net/p/cool-kids-keep

Читать полностью…

Агенты ИИ | AGI_and_RL

23 September 2024 15:19

Mcts-lib

Мы релизнули либу для улучшения генераций за счет MCTS(+10 пунктов по ru General Arena)!

Как это работает?

1. (Инициализация): Представьте, что вы начинаете с первой версии ответа, который модель предлагает. Чтобы не попасть в ловушку одного-единственного мнения с самого начала, модель также добавляет запасной вариант вроде “Я не знаю”. Это как стартовая точка, которая позволяет не зацикливаться на первой попытке.

2. (Selection): Из всех возможных вариантов ответа мы ищем тот, который выглядит самым перспективным, но при этом ещё не был полностью изучен. Это похоже на то, как вы бы выбирали, на какой вопрос или задачу потратить своё время дальше, полагаясь на интуицию и текущие знания.

3. (Self-Refine): Теперь, когда выбрали ответ, мы пытаемся его улучшить. Представьте, что вы показываете свой ответ опытному другу, и он говорит вам, что можно улучшить. Модель делает что-то похожее – она сама генерирует советы и, следуя этим подсказкам, старается улучшить ответ.

4. (Self-Evaluation): После того как ответ был доработан, модель оценивает его. Это как если бы вы сами посмотрели на свой улучшенный ответ и подумали: “Насколько это хорошо? Честно ли я оцениваю свой труд?” Чтобы оценка была объективной, модель специально избегает ставить идеальные баллы, чтобы не обманывать себя.

5. (Backpropagation): Если улучшенный ответ оказался хорош, эта информация передаётся обратно к родительскому узлу и другим связанным ответам. Это как если бы вы поделились своим новым знанием с друзьями, чтобы все в группе тоже стали умнее.

6.Актуализация планов (UCT Update): Когда все оценки обновлены, модель пересматривает свои планы и решает, какие варианты стоит изучить дальше. Здесь работает формула, которая помогает ей оценить, куда лучше направить внимание в следующий раз, чтобы стать ещё более эффективной.

Работает с openapi like apiшками, можно и llamacpp подключить и gpt4o!

github
оригинальный папир

Читать полностью…

Subscribe to a channel