5507
Про ии, RL и в целом @tokarev_i_v https://t.me/researchim
Ребята из проекта опенсурс агента для написания кода OpenHands 🥳 релизнули первую 0.18.0 версию 5 дней назад
https://github.com/All-Hands-AI/OpenHands
https://docs.all-hands.dev/
Я про этот проект не слышал раньше, а там 41к звезд на гитхабе (делают с апреля прошлого года и кажется вот что-то сделали)
Крч надо заценить
В общем я какое-то время назад сделал группу куда кидаю ссылочки которые считаю интересными (этот канал тоже когда-то был свалкой ссылок по RL)
Но в целом я подумал что это может быть группой где люди могут общаться на АИ темы по отрослям так сказать.
Время от времени туда будут литься ссылки на мой взгляд интересные про которые я потом буду рассказывать
Может из этого и какое-нибудь комунити можно сделать по ресерчам. Колабиться и тд, что-нибудь делать
Меня интересует например ИИ + киберсек. Точнее то как может ИИ киберсеку помочь - там есть отдельный топик где могли бы собираться люди интересующиеся этой темой.
Туда можно писать по интересным вам темам + кидать что находите, репостать из крутых каналов и тд.
И да, там щас больше всего накидано крутого по RL и LLMам.
/channel/researchim
Получается 31 декабря Дед Мороз приносил обзорку по Low Rank Adaptation и фоундейшен моделькам.
Рассказывают про лору, как работают, какие бывают, где и как применяются.
В целом балдежка
Low-Rank Adaptation for Foundation Models: A Comprehensive Review
https://arxiv.org/abs/2501.00365
В прошлом году ребята из Physical Intelligence рассказывали про модель Pi0 https://www.physicalintelligence.company/blog/pi0 - что это фаундейшен моделька для роботов (работает поверх PaliGemma влмки от гугла + flowmatching подробнее тут писали /channel/rizzearch/696?single), тренировали ее на больших датасетах собранных с разных роботов.
Но ни модельку, ни данные они не выкладывали. И вот тут ресечер Allen Z. Ren который сам занимается роботами решил воспроизвести подход (данные он использует другие конечно) и заопенсурсил свой проект и модельки:
https://github.com/allenzren/open-pi-zero
Эксперимент на тему обучения нейронок в 1.58 бит. Веса модели представляются в тернарном виде (т.е. каждый вес преобразуется в значение {-1,0,1}) и так используются для обучения.
Генерим много случайных разряженных тернарных шумовых векторов v_i (в них много нулей). С ними вычисляем якобиан-векторное произведение и получаем проекцию градиента на шумовой вектор, от которого нам нужен только знак (лежит шумовой вектор по градиенту (1) или против него (-1), или ортогонально (0)). И градиент оценивается через сумму шумовых векторов умноженных на знак проекции. Веса и градиент у нас тернарные и это должно сильно экономить память.
Параметры алгоритма: сколько случайных векторов используем и их разреженность.
Шумовые вектора (v_i) генерятся псевдослучайно из сида и нам не нужно их хранить (можно из сида восстановить, это может пригодиться при распределенном обучении).
Для хорошего обучения важен большой батч и много шагов оптимизации.
Так понял.
Автор добавил ноутбук с трейном MLPшки распознавать MNIST, вроде обучается.
Код и статья тут:
https://github.com/wbrickner/noise_step/tree/main
Кстати, в России доступен ЧатМистраль https://chat.mistral.ai/ - как ЧатГПТ только от ребят которые еще модельки крутые выкладывают https://huggingface.co/mistralai
Просто регаетесь и поехали. Частенько пользуюсь, может пригодится и вам
Ребята из Саканы двинулись в сторону применения VLMок к изучению искусственной жизни.
Так или иначе это связано с симуляциями и симуляторами.
У них получилась Automated Search for Artificial Life (ASAL).
Определяем набор искомых симуляций, начальное состояние, правила перехода между состояниями и применяем разные подходы для автоматического поиска.
Еще определяем субстрат - множество в котором ищем, в данном случае симуляторы искусственной жизни.
По начальным параметрам запускаем симулятор, получаем изображение, прогоняем через VLM, получаем представление (вектор), оптимизируем и получаем новые параметры для симуляции. Ну и так далее.
В качестве vlmок использовали CLIP и DINOv2.
Выделили 3 задачи:
- Supervised Target - ищем симуляцию которая приводит к нужному событию или серии событий (события описываем текстом, для серии событий пишем серию промтов). Например "две клетки" - это то что мы хотим увидеть в симуляции и поиск это должен будет найти.В конкретных экспериментах использовали Sep-CMA-ES для оптимизации.
- Open-Endedness - ищем симуляцию которая приводит к созданию нового изображения (ранее в истории не появлалось) для представления модельки. Это поиск новизны.
- Illumination - это как я понял исследование всего пространства (субстрата) и пространства вокруг конкретных симуляций. Здесь использовали генетический алгоритм.
В работе рассматривали (в разных поисковых кейсах) Boids, Particle Life, Life-like Cellular Automata, Lenia, Neural Cellular Automata
Так понял. В целом прикольно, хотя и достаточно отвлеченно от обычных сегодняшних ресечей) Я как-то особо не знаю чего бы еще такого в ALife делали.
https://pub.sakana.ai/asal/
Automating the Search for Artificial Life with Foundation Models
https://arxiv.org/abs/2412.17799
https://github.com/SakanaAI/asal
Ребята из Sakana делают много прикольных ресерчей (например про model merging где из кусков разных моделек можно собирать более лучшие для конкертной задачи) и можно смотреть просто их блог https://sakana.ai/blog/
Забавные моменты:
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.
😏
Вышел движок для симуляций/робототехники Genesis. Поверх физического движка будет генеративный фреймворк который будет генерить 3D сцены, движение камеры, людей/животных/роботов, анимации лица и видео по тексту.
Физический движок должен быть очень быстрыми и реалистичным, его заопенсурсили и он доступен ниже на гитхабе.
Генеративный фреймворк - отдельно, его не опенсурсят.
https://genesis-embodied-ai.github.io/
https://github.com/Genesis-Embodied-AI/Genesis
Интересный пост про написание llm инференса на C++/cuda без доп библиотек (который должен получиться даже быстрее llama.cpp, автор пишет)
Fast LLM Inference From Scratch
Pushing single-GPU inference throughput to the edge without libraries
https://andrewkchan.dev/posts/yalm.html
код
https://github.com/andrewkchan/yalm
АЛЛО МЫ ИЩЕМ ГОЛОСА
https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую!
Бу испугался? не бойся, я RL, я тебя не обижу, иди сюда, иди ко мне, сядь рядом со мной, посмотри мне в глаза. ты видишь меня? я тоже тебя вижу, давай толкать тележки и учить пауков ходить до тех пор, пока наши глаза не устанут. ты не хочешь? почему? что-то не так?
Читать полностью…
чот по интернетику пишут что вот мол уже засветилась 5090 (хотелось бы, но 32гб врама все равно мало)
вроде размером с 4090.
https://videocardz.com/newz/geforce-rtx-5090-graphics-card-featured-in-a-factory-trial-video
В ByteDance стажёр обиделся и два месяца саботировал тренировочные раны соседней команды, причём весьма изощрёнными методами:
➖ Загружал чекпоинты с бекдором, через который проносил скрипт, который рандомно убивал джобы на ноде (ckpt - это pickle файл, они могут содержать произвольный код на питоне)
➖ Специально добавлял баги в форк PyTorch, который запускался на кластере
➖ Портил чекпоинты, чтобы результаты экспериментов не сходились
При всём этом он участвовал в митингах, где пытались отловить проблему, слушал, как коллеги пытаются решить её, и на основе услышанного придумывал новые способы саботажа. В итоге поймали по логам, но два месяца и усилия почти 30 человек пропали впустую. А у вас что-то такое было?
П.с. кроме шуток, мощный чел оказался.
@ai_newz
Запустили Gemma 2 зафайнтьюненную на японский. Веса – на HuggingFace.
Заодно запустили соревнование на Кэггле на $150k 👀на адаптацию Gemma к 73 разным языкам, включая русский и украинский. Ждём ваших сабмитов!
Кстати существует курс по квантовому млю на русском: https://quantum-ods.github.io/qmlcourse/book/index.html
(немножко участвовал в написании)
Стороны сингулярности:
PPO не сошелся | PPO сошелся
Тул для командной строки, который собирает код из укзанной директории в большой промт для ЛЛМки (для анализа кода, изменения или чего вам нужно).
Чтобы не ходить и не собирать руками строки из проекта
https://github.com/mufeedvh/code2prompt/
А еще вдогоночку неделю назад работа вышла по 1.58bit Flux (флакс щас лучшая генерилка картинок) где обещают в ~5 раз экономию памяти на инференсе
https://chenglin-yang.github.io/1.58bit.flux.github.io/
1.58-bit FLUX
https://arxiv.org/abs/2412.18653v1
Код и веса обещают скоро зарелизить https://github.com/Chenglin-Yang/1.58bit.flux
Всем добра и только хорошего в новом году
🥰🥰🥰
Кстати, вышла новая обзорка по RLю, 144 странички, но на инглише (в конце даже немножко RL + LLMs налили)
Reinforcement Learning: An Overview
https://arxiv.org/abs/2412.05265
Не забываем что по rlю есть очень крутой конспект на русском на 245 страничек
Reinforcement Learning Textbook
https://arxiv.org/abs/2201.09746
Тут 5 месяцев бенчмаркали и тестили AMD MI300X и сравнивали с H100/H200 и показали первую часть анализов.
MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive
https://semianalysis.com/2024/12/22/mi300x-vs-h100-vs-h200-benchmark-part-1-training/
В целом из коробки пока неюзабельно из-за софта. Ребят поддерживали несколько команд инженеров из AMD чтобы этот анализ выдать)
Кто не в курсе тут последние 12 рабочих дней проходили показы от OpenAI всяких штук.
Сегодня последний день и они показывают ранние оценки на популярных бенчах новой фронтир модели o3, которую пока не выпускают (только рассказывают про нее)
Будут и o3-mini.
Модельки пока еще тестятся на безопасность.
Ну это жестко, если всё так. Но интересно как быстро это все будет отрабатывать в реальности и почем вообще?
Например про нее уже написали на https://arcprize.org/blog/oai-o3-pub-breakthrough
Посмотреть все 12 дней можно тут: https://openai.com/12-days/
В последне время выходило много работ по воспроизведению o1 - как rl прикручивать, поиск применять и прочее.
А тут вышла обзорка по этим подходам, причем много внимания уделено стороне rlя
Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective
https://arxiv.org/abs/2412.14135
ребята из HF 🤗 написали нам
https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute
Про подходы к test time compute (какой поиск можно делать, использовать верификаторы, самовалидацию и тд), как это масштабировать, как сделать на опенсурсовских моделях (на примере LLama 3.2)
вполне стоит почитать
За основу взяли статью от ДипМаинда
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
https://arxiv.org/abs/2408.03314
код нашел тут:
https://github.com/huggingface/search-and-learn
сейчас реализовали на llama 3.2 1B подходы с Best of N, Beam Search, Diverse Verifier Beam Search (DVTS)
инструкция по запускам https://github.com/huggingface/search-and-learn/tree/main/recipes
🎆 Небольшая лекция об Alignment и как мы его готовим
Это слайды с текстом, пока устно ее я рассказывал только внутри команды Vikhr.
Внутри вы узнаете:
- Теория Bradley-Terry и откуда берутся Reward модели
- Что нужно для обучения Reward модели и как его делаем мы
- Откуда взялся DPO и каковы его недостатки
- Какова мотивация нас и других авторов улучшать DPO
- Как устроен наш функционал SMPO - Simple Margin Preference Optimization
- Какие есть способы улучшения DPO на уровне данных и как готовим эти данные мы
Задавайте вопросы комментариях, если что-то непонятно, будем обсуждать.
ммм, ребята попытались скомпилить все в одно по тюнингу ллмковых со свежими подходами
Норм обзорчик собрали, пусть будет
Stage 1: Dataset Preparation
Stage 2: Model Initialisation
Stage 3: Training Environment Setup
Stage 4: Partial or Full Fine-Tuning
Stage 5: Evaluation and Validation
Stage 6: Deployment
Stage 7: Monitoring and Maintenance
115 страничек
The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities
https://arxiv.org/abs/2408.13296
в рабочем воркспейсе слака видишь его фотку. твои действия?
take a second to say hello
Блин, чел мощно отлупил всех RL максималистов. RL не будет работать, ок? Усвоили
(Дипмаинду с ОпенАИ лучше закрыть свои ресерчи. Да и вообще закрыться полностью.)
https://www.argmin.net/p/cool-kids-keep
Mcts-lib
Мы релизнули либу для улучшения генераций за счет MCTS(+10 пунктов по ru General Arena)!
Как это работает?
1. (Инициализация): Представьте, что вы начинаете с первой версии ответа, который модель предлагает. Чтобы не попасть в ловушку одного-единственного мнения с самого начала, модель также добавляет запасной вариант вроде “Я не знаю”. Это как стартовая точка, которая позволяет не зацикливаться на первой попытке.
2. (Selection): Из всех возможных вариантов ответа мы ищем тот, который выглядит самым перспективным, но при этом ещё не был полностью изучен. Это похоже на то, как вы бы выбирали, на какой вопрос или задачу потратить своё время дальше, полагаясь на интуицию и текущие знания.
3. (Self-Refine): Теперь, когда выбрали ответ, мы пытаемся его улучшить. Представьте, что вы показываете свой ответ опытному другу, и он говорит вам, что можно улучшить. Модель делает что-то похожее – она сама генерирует советы и, следуя этим подсказкам, старается улучшить ответ.
4. (Self-Evaluation): После того как ответ был доработан, модель оценивает его. Это как если бы вы сами посмотрели на свой улучшенный ответ и подумали: “Насколько это хорошо? Честно ли я оцениваю свой труд?” Чтобы оценка была объективной, модель специально избегает ставить идеальные баллы, чтобы не обманывать себя.
5. (Backpropagation): Если улучшенный ответ оказался хорош, эта информация передаётся обратно к родительскому узлу и другим связанным ответам. Это как если бы вы поделились своим новым знанием с друзьями, чтобы все в группе тоже стали умнее.
6.Актуализация планов (UCT Update): Когда все оценки обновлены, модель пересматривает свои планы и решает, какие варианты стоит изучить дальше. Здесь работает формула, которая помогает ей оценить, куда лучше направить внимание в следующий раз, чтобы стать ещё более эффективной.
Работает с openapi like apiшками, можно и llamacpp подключить и gpt4o!
github
оригинальный папир