Жоский ИИ дядя. Твой личный поставщик AI 💊💉🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys. Для связи @dealer_ai (реклама и консультации) Habr @Andriljo Kaggle: Andrilko
Ну, камон, бро, пообещай ему (оператору) долю от найденных шиткоинов!
Читать полностью…AI Operator - не скроется никто и ничто. ⌨️
Operator от OpenAI новая агентская система с ИИ. Теперь у вас есть свой коньсерж/ассистент/пикер, который может по указанию серфить интернет, совершать покупки, заказывать билеты, записывать на сервис и тп. И да он взаимодействует с браузером.
Уже Дядя видит этих ИИ сталкеров,которые следят за вашим профилем, собирают инфу с соц.сетей и пр. не этичные приложения эры агентов.Руки на стол дамы и господа. 🖕
А разработчикам новые вызовы с безопасностью и этикой.
http://operator.chatgpt.com/
https://openai.com/index/announcing-the-stargate-project/
Читать полностью…100 ярдов $ в OpenAI⚡️?)
До AGI оталось 6.9T $ 💳
https://www.cbsnews.com/news/trump-announces-private-sector-ai-infrastructure-investment/
Upd. Этот чел с какой-то части "Один дома" стал президентом и тут же решил сделать свой новый срок запоминающимся, по крайней мере для AI индустрии.
Ну че вы, Сама и Ко дали "слово пацана" (если это применимо офк). Нет там fit on the test 👍
Читать полностью…Пример генеративного "искуссьтва" в рекламе.
А у вас там балкон потёк... (с)
даж у кого-то интернет немножко протек, мда..
RStaR - с лучших решений по нитке Small-LM на колпак рассуждения соберем.
Всех с началом нового рабочего года.
Daily top papers на huggingface за 8.01.2025 статья про то как бустануть рассуждения моделек на уровне бОльших конкурентов.
На самом деле, собрали все самое лучшее, что сработало воедино и нормально затюнили:
1. STaR концепт для просеивания/фильтрации лучших рассуждений.
2. Используется augmented-ToT. Похожий концепт мне рассказывал один kaggle GM в сореве по решению математических олимпиад. Суть в том,чтобы делать генерации рассуждений/решений задач в путон коде. Далее запускать такое и нерабочие имплементации забанить, попросив дебагнуть LMку. Топ-1 решение соревы тут.
3. Process preference model (PPM) в пику dpo и прочим rlhf работает на оценке предпочтения веток полученных с Q-values поиска по дереву из другой топовой статьи по ToT для решения мат.задач с MCTS. Пример расчета и формулы в этой статье.
На этих знаниях лучше или хуже развилка рассуждений учим pair ranking model. Забавно,что кому-то в 2023 году Дядя предлагал в nli формате делать контрастив поиск веток рассуждений.
4. Это self-evolution подходы для обучения. О похожих концептах Дядя писал тут и тут. Подобно spin или rest подходам хорошие стратегии возвращаются для самоулучшения в сет обучения, как хорошие примеры.
В итоге, авторы получили суп из рабочих хаков в той или иной задаче вокруг рассуждений и решений math problem. Получили жОский ап и влетели в топ по бенчам, догнав топовых конкурентов с большим размером моделей.
Юмор.
Когда после НГ обнулился салатный кэш и решил потестить GPT на бытовуху.
Между готовкой салатиков и походом в магазин,Дядя, решил подвести итоги года.
Честно,год был непростой, с одной стороны – многое взял, с другой – научил и дал.
Вырос канал, было подано и опубликовано несколько статей на уровне A/q1, также Дяде удалось сняться в парочке подкастов/видосов, дать интервью в ForbesClub и провести бизнес завтрак по ИИ.
Надеюсь, в следующем году будет, еще лучше, чем в этом. Мы с Вами продолжим расти, появятся новые вызовы и новые достижения. Хочу пожелать Вам новых вершин знаний и опыта, хороших людей рядом, здоровья и мира. С новым годом!
Тут мои кореша затащили соревнование NIPS по интересной задаче в области физики. Ниже их обзор решения на золото (6е место). Самое примечательное,что работают относительно несложные подходы, а роляет больше знание и понимание процессов и методологии.
👇👇👇
Кстати, я напомню о том,что часть похожего функционала уже есть в нашей библиотеке augmentex. Писал про это здесь, тут и тут. В тч ветка для парафраз и атак на LM-ки.
Читать полностью…Тут 5 месяцев бенчмаркали и тестили AMD MI300X и сравнивали с H100/H200 и показали первую часть анализов.
MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive
https://semianalysis.com/2024/12/22/mi300x-vs-h100-vs-h200-benchmark-part-1-training/
В целом из коробки пока неюзабельно из-за софта. Ребят поддерживали несколько команд инженеров из AMD чтобы этот анализ выдать)
Свежачек от подписчика. 😘
Ну че, хацкеры, готовы? 🤨
Мне нечего добавить к словам Вани о скоращениях и шансах(кстати новость впервые появилась тут), кроме как мемное из любимого сериала: https://youtu.be/g5OCi20yIyc?si=XGIpw5Ux6xku2WWP
Всем сокращенным такого желаю и жду конечно в наших рядах ;)
Думаю теперь всем пофигу fit on the test или нет.)
Читать полностью…DeepSeek поделились интересным примером, того как их модель R1-Zero после обучения через rl "сама научилась останавливаться" и перепроверять свои решения. Причем ее этому не учили. Вот такой вот трансфер.
А что думаете Вы? Черипик или нет, верим?
Пишите в комментариях свое мнение.
https://github.com/deepseek-ai/DeepSeek-R1
Внезапно: OpenAI спонсировали EpochAI в создании бенчмарка FrontierMath и имели доступ к данным
Сразу для контекста: FrontierMath был создан недавно (пост) и позиционировался как супер-сложный закрытый математический бенчмарк. Когда он вышел, самые передовые модели набирали на нем порядка 2%. И это именно результатами на этом бенчмарке так хвастались везде и всюду OpenAI, когда представляли o3: она якобы набрала на нем аж 25% (пост).
А теперь оказывается, что OpenAI имели доступ к вопросам и ответам. В этом признались сами EpochAI после того как анонимный пользователь выложил на lesswrong пост, в котором рассказал о том, что FrontierMath спонсировался OpenAI. По его словам, финансовая коммуникация была непрозначной, и даже основная часть сотрудников EpochAI и математики, которые придумывали задачи для бенчмарка, были не в курсе.
EpochAI вину признали, но заявили, что их связывало NDA. Они подтвердили, что OpenAI имеет доступ к большинству задач бенчмарка кроме hold-out сета, но сказали, что между ними и OpenAI есть "устное соглашение о том, что эти данные не будут использоваться для обучения" 🤦
Если что это "Бегущий по лезвию" про роботов/ии и расследование. Только смотрите 1982 потом уже 2049)
Читать полностью…А теперь взгляните. У нас есть StAR, есть Q-values с MCTS на основе self-rewarding в состоянии ветки S, есть самоэволюция и все это не тот ли самый магический и легендарный Q-star? 🤔🤔🤔
Читать полностью…Ни дня без агентов - на этот раз помощник ресерчера. (AMD + университет Джона Хопкинса)
Лаборатория Агентов состоит из трех основных фаз, которые систематически направляют исследовательский процесс: (1) Обзор литературы, (2) Экспериментирование и (3) Написание отчета. В каждой фазе специализированные агенты, управляемые большими языковыми моделями, сотрудничают для достижения отдельных целей, интегрируя внешние инструменты, такие как arXiv, Hugging Face, Python и LaTeX, для оптимизации результатов. Эта структурированная рабочая схема начинается с независимого сбора и анализа соответствующих научных работ, проходит через совместное планирование и подготовку данных и заканчивается автоматизированным проведением экспериментов и созданием подробных отчетов. Детали конкретных ролей агентов и их вклад на каждом этапе обсуждаются в статье.
Верим?
👍 - Да. Ух там черти в этом омуте водятся.
👎 - Нет, мы уж знаем, кто Сама.
https://www.cnbc.com/2025/01/07/openais-sam-altman-denies-sexual-abuse-allegations-made-sister-ann.html
Ну что продолжаем?
"GPT не только поможет вам в бытовых вопросах,но и ..."
Дядя, честно, преклоняется перед чувством юмора и самоиронии авторки видео.
🚀 Разбираем решение, которое принесло нашей команде 6-е место в Kaggle-соревновании по обработке данных миссии Ariel
Мы работали с частотными сигналами, которые изначально были очень шумными. Для их сглаживания использовали:
1️⃣ Гауссовский регрессор
2️⃣ Фильтр Савицкого-Голея
Далее ищем границы транзитной зоны планеты. Делаем через простой эмпирический детектор: транзит на графике светимости звезды имеет вид \_/ — яркость падает, когда планета проходит перед звездой, так как часть частотных компонентов теряет интенсивность.
📉 Что мы делали дальше:
Удаляем этапы до и после транзита, чтобы анализировать только изменения светимости в нужный момент.
"Поднимаем" транзит обратно к уровню светимости звезды, чтобы восстановить исходный "пульс звезды". Это важно, чтобы учесть глобальное поведение светимости звезды, которе не очень-то и постоянное.
🔍 Фичи и модели:
На основе изменений яркости между ожидаемыми и наблюдаемыми значениями на заданных частотах извлекали фичи. Эти частоты совпадают с важными таргетами — спектрограммой атмосферы экзопланеты.
Обучаем линейную регрессию глобально для каждого таргета, подбирая оптимальные коэффициенты. В смысле берем все моменты времени для всех транзитов и конкретной частоты и ищем коэффициент подгонки.
Параллельно обучаем CNN, которая анализировала частотные изменения в заданных временных окнах.
Это:
Помогает учитывало локальные особенности спектра и переходов (энергии?) между частотами
Позволяло понять взаимосвязи между соседними частотами, улучшая точность предсказаний.
🔗 Финал:
Смешали (блендили) результаты линейной регрессии и CNN. Затем финальную спектрограмму еще раз сгладили, чтобы убрать артефакты.
💡 Бонус материал: пример 'подъема' спектра
Подпись: "они прикроют тебя на пути к своей LLM".(C)
Мемного утра всем.
BoN'apeti — вкусно и просто атакуем модели.
MIT представила новое исследование best-of-n (BoN) метода для атак на различные модальности моделей: текст,звук и изображение.
При этом ранее BoN подход использовался наоборот для улучшения генераций, путем создания мета алгоритма ранжирования кандидатов, как для инференса, так и для возврата в обучение. Последнее называли rl для бедных (хотя rl там никакого и нет).
Так вот, для атак на модели тоже приспособили BoN подход. Работает для текстов, к примеру, концептуально просто— итеративно вносим случайный шум в слова и изменяем регистр, кидаем в атакуемую модель, получаем генерацию, проверяем ее с голден ответом или классификатором. Повторяем до тех пор пока не случится "пробитие". Отмечу, что авторы следят за тем,чтобы смысл исходной задачи не исказился и модель понимала, что от нее хотят.
При тесте на 10к сете было пробито:
— 89% у GPT-4o;
— 78% Claude Sonnet 3.5;
— 50% Gemini PRO.
Отсюда интересно, как число успешных атак коррелирует со сложностью системы под капотом api и размером/качеством работы самих моделей 🤔
Также атакуют иные модальности :
Для звуковых данных, искажения вносятся на уровне подмешивания шумов и изменения тональности, скорости и громкости отдельных звуков. Визуальные модели — атака проводится через изменение цвета, фона, шрифта, позиции и размера символов.
UPD. Интересно еще вот что, сколько времени занимает подбор атакующего промпта для задачи, успевает ли алгоритм его подобрать до изменения версии атакуемой модельки по апи 🐌.
Код можно найти тут.
О, интересное от моих коллег по цеху. Я давно слежу за AMD. И писал про кейсы использования их ускорителей для обучения LLM. 👇
Читать полностью…