Люблю высокие технологии и кушать. Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.
What's wrong babe, you didn't start your homework yet
Читать полностью…Киберпанк, который мы заслужили.
Какие-то тупые нынче барыги, лепить стафф на видное место. Я бы сделал робота в стилизованного под ровера-доставщика яндекса (ничего личного, просто других вроде как и нет) и спокойно возил внутри. И хрен бы у кого это вызвало какие-либо подозрения.
The Super Weight in Large Language Models
Mengxia Yu, De Wang, Qi Shan, Colorado Reed, Alvin Wan
Статья: https://arxiv.org/abs/2411.07191
Код: https://github.com/mengxiayu/LLMSuperWeight
Очень прикольная работа про то, что внутри LLM можно найти один единственный вес, зануляя который мы обрушиваем качество работы модели в пропасть. Такие параметры авторы называют супер весами (super weights) и предлагают метод их нахождения за один forward pass.
Внутри обученных LLM находится группа весов-аутлаеров с большой магнитудой, они могут составлять порядка 0.01% от всех весов модели, что в случае миллиардных моделей всё равно сотни тысяч. Это было известно ранее. В текущей работе показывают, что внутри этой группы находится один единственный вес (тот самый super weight, SW), не обязательно самый большой, важность которого превышает суммарную важность тысяч других аутлаеров. Он необходим для качества, без него LLM не может генерить нормальный текст. Перплексия вырастает на несколько порядков, а точность на zero-shot задачах падает до рандома.
Ранее (https://arxiv.org/abs/2402.17762) были найдены супер-активации, критичные для качества. Они существуют в различных слоях, имеют константную магнитуду и всегда обнаруживаются в одинаковой позиции несмотря на вход. Текущая работа находит, что канал активации совпадает с оным для супер веса и сперва активация обнаруживается сразу после супер веса. Прунинг этого супер веса значительно уменьшает активацию, так что вероятно активация вызвана им, а не просто скоррелирована. Такие активации называются супер активациями (super activations, SA).
Предыдущая работа объясняла супер активации через bias terms, но не объясняла как они получаются и почему на одних и тех же местах. Сейчас авторы эмпирически нашли, что до down проекции (down_proj) произведение Адамара (Hadamard product) gate и up проекций (gate_proj, up_proj) создаёт относительно большую активацию. Супер вес далее усиливает её ещё и даёт супер активацию.
Напомню, что MLP блок в Ламе выглядит так:
out = down_proj( act_fn(gate_proj(input)) x up_proj(input) )
SW можно найти, анализируя спайки в распределениях входов и выходов down_proj. Для этого достаточен прямой проход с одним промптом. Авторы нашли супер веса для Llama (7B,13B,30B), Llama 2 (7B,13B), Mistral-7B, OLMo (1B,7B), Phi-3.
Провели эксперименты по обнулению SW, в том числе с восстановлением SA до исходного значения, чтобы проверить влияние SW на другие активации. Это восстанавливает 42% потери, то есть влияние SW на качество выше, чем просто через SA.
По анализу 500 различных промптов из Lambaba validation set видно, что при убирании SW вероятности стоп-слов сильно возрастают (а обычные слова соответственно занижаются). Для “the” это 2×, для “.” -- 5×, и для “,” -- 10×. То есть наличие SW как бы подавляет стоп-слова и позволяет генерировать осмысленный текст.
Другой интересный эксперимент скейлит супер веса с коэффициентами от 0 до 3 (где оригинальный режим работы соответствует значению 1) и оказывается, что при увеличении SW качество модели ещё немного возрастает. Это забавный результат.
Имея это знание, можно предложить специальный метод квантования: Super-outlier aware quantization. Стандартные механизмы квантизации могут быть недостаточно хорошими, так как аутлаеры искажают распределение, влияя на размер шага и увеличивая ошибки квантования. Здесь под super outliers подразумеваются и SW, и SA. Предложенные методы восстанавливают SW и SA после квантований с клиппингом и заменами на медианное значение. Это всё работает лучше дефолтных методов, главный вывод -- надо защищать супер веса. В статье есть подробный разбор экспериментов, кому интересно поглубже. Также новый метод меньше теряет в качестве с увеличением размера блока.
Прикольный результат в общем. Это всё несколько перекликается с темой про лотерейные билеты (/channel/gonzo_ML/21), там внутри большой сети обнаруживалась сильно разреженная подсеть, обучая которую можно было достигать качества исходной сети (или даже выше). Интересно, входят ли супер-веса в лотерейный билет? Наверняка.
⬆️ Челики в комментариях говорят, что у них это поведение не воспроизвелось. Так что есть вероятность фейка.
Читать полностью…Найдена секретная видеозапись, на которой ревьюер номер два играет в свою любимую игру. Управление тут голосовое, так что включите звук. 🤡
Читать полностью…Газета "коммерсантъ" - место, где я меньше всего ожидала увидеть свою фамилию и фамилии своих соавторов в контексте рассказа о нашей статье AI-generated text boundary detection with RoFT 🫣
https://www.kommersant.ru/doc/7326999
#объяснения_статей (?)
То, что фейковые цитаты от специалиста по фейкам были процитированы в деле о фейках, определенно, отражает дух времени. Интернет умер, вздувшись от LLM-генераций, в его бездыханном теле роются стаи маленьких юрких ботов, а трупный яд растекается вокруг, иногда просачиваясь прямо в реальность.
Не забывай, дружок: в этом постапокалиптическом пространстве остались лишь два настоящих человека: ты - мой единственный подписчик, и я - твой единственный админ.
Так вот почему мне так тяжело запоминать имена...
Читать полностью…Благодаря подписчику нашла неплохой SCP-объект: http://telegra.ph/Kvaternionnaya-eres-matematika-kak-zaraznoe-myshlenie-11-16
Оригинал: https://x.com/emollick/status/1857501606671167738
#математика #генерация
о боже блядь зарплата пришла господи мне было так грустно и одиноко и было так мало денег и так много работы и писать лекцию к понедельнику и ревьюить гранты и подавать гранты — и вдруг зарплата! озарила меня сиянием своим. на 600 евро больше чем обычно? почему, кто знает? кто считает эти небесные евро? кто кто кто если это не бог то мы называли богом не того. будет ли потом зарплата меньше? никто не знает! может быть мне вернули деньги за эксперименты? но я не подавала на возврат денег за эксперименты! может быть мне вернули деньги за комьют? в прошлый раз мне не возвращали деньги за комьют! но не надо задавать вопросы о зарплате зарплату нужно просто принимать, как мы принимаем первый хильверсумский снег, как мы принимаем счастье и несчастье, как мы прощаем должникам нашим, как православный батюшка прячет лысину от солнца под ковбойской шляпой, как мы ревьюим гранты соседей наших склоняя голову перед чудом чужой души
сердце мое горело и замерзало и дрожало и горело и замерзало обратно но пришла зарплата и обняла меня
Я смотрю, предыдущий пост вызвал знатную канонаду, надо вас немного подуспокоить. 😌
Взрыв в гифке из поста толсто намекает на то, что высказывание сделано в провокационной форме, так сказать, являясь реализацией тропа "педаль в пол". Если же говорить чуть менее провокационно и чуть более серьезно - очевидно, я не считаю, что кто-то недостоин жизни из-за того, что имеет другие жизненные цели и принципы или просто неспособен к познанию - например, котики (рис. 1). 😼 Говоря про жизнь "недостойную быть прожитой", я говорю не про чужую, а про свою жизнь и в такой форме рассказываю про то, что лично мне в ней больше всего важно. Хотя я, конечно, была бы рада найти больше единомышленников с аналогичными ценностями. ❤️
Подводя итог: геноцида тех подписчиков, которые не занимаются ресерчем, не будет ⌨️
Редактирую тут свою будущую книшку по грубой геометрии и наткнулся на забавный фан факт: в этом году исполнилось 100 лет довольно известной работе П.С. Александрова в которой тот ввёл понятие одноточечной компактификции.
Удивительно, сколько с тех пор изменилось. Та статья была написана по-немецки, да и главный академический язык тогда был именно немецкий. А всего через 20 лет "что-то случится" и главным, абсолютно доминирующий языком станет английский. И только разные "довоенные" старпёры будут продолжать публиковаться на немецком (Халин, например, одну из очень хороших своих теорем в Math Annalen опубликует в 1964 г. на немецком).
Бережно передаваемые из рук в руки учебники, по которым учились целые поколения математиков тоже изменятся. Сначала они "переедут" в цифру и станут общедоступными, а потом вдруг начнут появляться "конспекты лекций" в arxiv.org, всякие презентации, записи на youtube.. И вот сейчас, 100 лет спустя я нахожу оптимальное изложение компактификации в nlab. И вот идея открыть какой-нибудь "классический" учебник типа Ван дер Вардена мне даже в голову не приходит.
И с преподаванием тоже случилась забавная вещь. Фактически, все доказательства не просто где-нибудь написаны, но даже и без труда (обычно) находятся. Только откуда юному математику (или другому специалису) понять что же ему читать и учить? Вроде туман рассеялся, но слушатель всё равно находится в тёмном лесу, где решительно не ясно куда идти.
Так что нонче лекторы это типа Вергилия, который показывает некий путь (кстати, лишь один из множества возможных), а не единственный и неповторимый источник знания. Лично я, работая с осмысленной публикой, совершенно спокойно пропускаю многие детали (давая, конечно, ссылку на источники) стараясь сосредоточиться на основных идеях и мотивировках.
Получается, что у лекций появляется дополнительное измерение: доп.материалы которые рекомендуются к изучению: и теперь это в основном статьи, заметки, тексты в nlab и подобных википодобных ресурсах, обсуждения на stackexchage, даже (иногда) личные блоги (типа блога Тао).
Не вдаваясь в детали личности Павла Сергеевича (а было там непросто), с некоторой гордостью отмечу, что он мой научный "дед" (т.е. научный руководитель моего научного руководителя). Не знаю что бы он сказал глядя на современные академические и методические реалии. Но, предположу, что многое его бы удивило, и многое заинтересовало.
😮 В комментарии к постам про статью "evil twins" пришли настоящие evil twins 😮
Читать полностью…Шок! Ученые доказали, что у промптов к LLMкам есть злые двойники! Подробнее читать в источнике: https://aclanthology.org/2024.emnlp-main.4/ 😈
Если точнее, авторы статьи "Prompts have evil twins" с EMNLP-2024 по ссылке выше задаются следующим вопросом. Допустим, у нас есть промпт P, в ответ на который модель выдает некоторую генерацию G. А на какие еще промпты можно получить от модели ту же самую G? И насколько сильно эти альтернативные промпты могут отличаться от оригинального промпта P?
Чтобы ответить на этот вопрос, авторы берут получившуюся генерацию и по ней итеративно находят тот промпт, с помощью которого её можно получить. Алгоритм его нахождения содержит много технических деталей, поэтому, если они вам не интересны, то можно сразу перейти к следующему посту - с результатами. Ну а если интересны, то вот как я его поняла (в самой статье он описан очень коротко, так что многое пришлось достраивать в голове):
В качестве начального промпта-кандидата (нулевого приближения) берутся случайно выбранные токены - столько же, сколько содержалось в оригинальном промпте P. Далее авторы подают этот промпт-кандидат на вход LLMке и получают генерацию G' - скорее всего, мусорную (в конце концов, мы приблизили наш промпт случайными токенами). Однако, нас это не пугает - на каждом шаге генерации мы оцениваем, насколько получившийся результат отличается от нужной нам генерации G, вычисляя KL-дивергенцию в качестве функции ошибки. Далее, раз у нас есть функция ошибки, значит, от неё можно и градиент посчитать по всем параметрам модели - в том числе, по весам её входного слоя.
При обычном обучении - то есть, оптимизации параметров самой модели, мы бы, конечно, использовали градиент для изменения её весов, но в данной ситуации мы оптимизируем не саму модель, а промпт. Поэтому вместо оптимизации весов, на каждом шаге генерации мы смотрим, на весах каких токенов градиенты получились самые большие, и отбираем эти токены как кандидаты на соответствующую позицию в промпте.
Понабрав таким образом токенов-кандидатов для каждой позиции промпта, мы строим несколько новых промптов, случайно семплируя один из токенов-кандидатов на каждую позицию. Далее, из этих новых альтернативных промптов выбирается один лучший (по KL-дивергенции), который считается уже не нулевым, а первым приближением. Ну а затем, все перечисленные вычисления происходят заново, и так несколько десятков раз.
Фух! Теперь, наконец-то смотрим, что получилось!
#объяснения_статей
https://youtu.be/JHIxyGgSU90?si=IMQjgIf8-_Q14Rzn
Официальная новогодняя AI реклама от Coca-Cola этого года. Без сахара. Без затрат на реальные съёмки. Без кожаных мешков.
Для сравнения - версия 96 года из моего детства: https://youtu.be/b6liVLkW-U8?si=7r0ChK_bEuYL3uIa . 😔
В итоге, я настолько подавлена результатами дискуссии на openreview, что уже даже нет сил делать никаких оригинальных познавательных постов в паблик да и вообще что либо делать.
Я и коллеги, с которыми мы вместе писали статью, потратили реально много времени и сил на то, чтобы сделать все дополнительные эксперименты, которые просили ревьюеры, написать ответы этим самым ревьюерам и внести правки в статью (каждый из этих этапов подробно обсуждался на созвонах, а формулировки в ответах подолгу вылизывались).
Кроме того, я и как минимум ещё двое моих соавторов, которые сами были ревьюерами, параллельно внимательно разбирали ответы тех авторов статей, которые ревьюили мы и отвечали на них. Забавно, что в итоге мы все трое подняли оценки всем статьям, на которые делали ревью)) Ну а что делать, если авторы старались и исправили ряд недочётов, на которые им указали? Повышение оценки более чем справедливо в такой ситуации.
Но наши собственные ревьюеры, конечно, так не считали: ответом на наши собственные старания в ребаттле было в основном молчание.
Один ревьюер попросил сделать ещё один дополнительный эксперимент, а когда мы его сделали, никак это не прокомментировал и умолк навсегда. Другой в последний момент дискуссии ответил что-то похожее на генерацию LLMки, где было сказано, какие мы молодцы, но оценки не поднял. Двое остальных просто не реагировали, как будто умерли.
Когда соавтор решил написать об этой проблеме Area chair и senior area chair, они тоже ответили молчанием.
Я очень болезненно воспринимаю такие ситуация, когда так сильно стараешься, но тем, ради кого стараешься, на тебя настолько насратб, что лень даже два слова ответить... Руки опускаются...
#наука #о_себе
в душе я джун, которому лень читать документацию
Читать полностью…Помощь в трудоустройстве в IT-сфере!
По всей России объявили бесплатную программу на шестимесячное обучение по IT-специальностям.
Запись на участие в программе продлится до конца июля, но чтобы туда попасть нужно кликнуть на "🤡" под данным сообщением.
После этого Бог-Машина чудесным образом коснется вашего разума, и вы сразу узнаете, какая профессия вам подойдет и подходите ли вы для бесплатного обучения. 😌
https://www.reddit.com/r/LocalLLaMA/comments/1gx5kb0/claude_computer_use_wanted_to_chat_with_locally/?share_id=Dhgr4haHfvD7IvZmH_KBW&utm_content=1&utm_medium=ios_app&utm_name=ioscss&utm_source=share&utm_term=1
2024: смотришь как ллмки секстятся
Eto ya уже третью неделю подряд строчу анонимные полотна на openreview потому что идёт rebuttal на ICLR.
Скоро окончательно потеряю все остатки рассудка 🥴
Антисодержание
#телеграмное
Давно заметил корреляцию: чем точнее некий телеграм-канал следует стандартным SMM-правилам, тем более скучным он мне покажется. Ниже привожу очень субъективный список признаков. Интересно, насколько эти наблюдения близки подписчикам, и замечают ли они в принципе такие тонкости.
Итак, какие конкретно маркеры унылости я имею в виду:
1) Менеджеры. В профиле канала прописан менеджер по рекламе, а как связаться с автором (авторами) напрямую — непонятно. В особо запущенных случаях указываются менеджеры контента, у которых в профиле, в свою очередь, есть очень деловые фотографии, написано рабочее время и даты отпуска.
Да, делегировать — это полезно и эффективно, а указывать информацию о себе — современно и заботливо по отношению к собеседникам. Но почему-то и посты в таких каналах бывают как несолёная куриная грудка с брокколи на пару, то есть такие же никакие полезные и современные.
2) Рубрики. В канале неукоснительно ведутся регулярные рубрики и выходят поздравления с праздниками, в том числе непопулярными. Соблюдается баланс образовательного, развлекательного, исторического и новостного контента. Часто это означает, что автору особо нечего сказать, и он опирается на формальные схемы и поводы для выдумывания хоть какого-нибудь поста. Впрочем, этот признак не так критичен, рубрики бывают и хорошими.
Примерно в эту же категорию попадают дайджесты, каталогизация и другие формы вторичной переработки информации. Может ли это быть полезным? Может. Бывает ли полезно в реальности? Очень редко.
3) Натужный интерактив, розыгрыши, постоянные прямые просьбы о комментариях. Тот самый надоевший приём, когда каждый пост должен заканчиваться вопросами к подписчикам в духе "а как у вас?". Естественно, иногда вопросы уместны, особенно конкретно и по делу. А вообще, если пост интересен, и у читателя есть мысли или примеры, то он и сам догадается оставить комментарий без идиотских подсказок.
4) Личный контент и кружочки. Спорный пункт, но, как правило, органично добавить личную линию в тематический телеграм-канал не удаётся почти никому. Где-то в самом тупике этого пути лежит традиция сопровождать каждый пост своей студийной фотографией, и эта традиция заслуживает запрета на территории РФ и вообще всего мира гораздо в большей степени, чем сам Инстаграм, откуда эта зараза и пришла. Как читатель я вижу в этом, прежде всего, неуверенность автора: он ведёт то ли канал для друзей а-ля лента ВК, то ли тематический канал для широкой аудитории. Она как будто говорит мне: я понимаю, что в посте написана банальщина, но зато какой томный взгляд!
Удаётся ли кому-то гармонично вплетать личные новости и фоточки в основную линию? Да, но только тем, кто пишет искренне и не боится показаться неидеальным, а не шпарит по методичке.
5) Вёрстка цитат, эмодзи, разделители. Заметил, что их обильное использование для выделения самого важного, срочного, интересного и т.п. — верный признак пустоты. Самое интересное в телеграме, как правило, написано вообще как попало, простым текстом и в лучшем случае без грубых грамматических ошибок.
Обобщая, лично я, видимо, до сих пор воспринимаю ТГ как место для чистого содержания в минималистичной форме. А иногда мне пытаются продать что-то вместо содержания, то есть прикрыть его отсутствие красивой вёрсткой, удобной навигацией, сбалансированным контент-планом, привлекательными фотографиями и даже попыткой вызвать симпатию к автору. Вероятно, именно из-за этих случаев следование SMM-канону вызывает раздражение с самого начала.
Бяда-бяда. Уважаемый человек процитировал несуществующие статьи, потому что ему ChatGPT из них цитаты сочинил. И это была б не новость, если бы...
1. Несуществующие статьи были процитированы в экспертизе для суда.
2. За экспертизу клиентом-стороной в деле было плочено 600 долларов за час работы.
3. Статьи были по теме "Как создавать фейки в сети", потому что и сам судебный иск был по теме запрета дипфейков на выборах.
4. Уважаемый человек был профессором Стэнфорда.
5. Уважаемый человек был профессором-специалистом по фейкам и обману в сетях, главой стэнфордской лабы по соцсетям, и второе десятилетие всюду выступал по этой теме как Светило и Мудрец, Равный Небу.
6. Уважаемый Человек прямо сейчас ведет у студентов курс "Правда, доверие и технологии", где студенты читают и докладывают статьи по этому предмету.
Палево всплыло в суде Миннесоты, но к сожалению, в местной газете не удержалось и донеслось до Калифорнии.
https://minnesotareformer.com/2024/11/20/misinformation-expert-cites-non-existent-sources-in-minnesota-deep-fake-case/
https://www.sfgate.com/tech/article/stanford-professor-lying-and-technology-19937258.php
https://profiles.stanford.edu/jeffrey-hancock?tab=teaching
https://sml.stanford.edu/people/jeff-hancock
Нашли читатели в диске, больше им спасибо.
#prompts #LLM #random
Я решил поиграться с промптами и сделал промпт для дебатов. Ну а просто так его делать не интересно. Потому настало время экспериментов!
И, конечно же, сразу начал пускать через него всякие холиварные темы. Если кратко, то там создавались топ-3 аргументов, после чего оценивались условным "жюри", после чего выдавалась итоговая оценка.
Краткий список результатов (использовал perplexity с claude sonnet):
1. Умер ли Гослинг в конце Драйва?
Он выжил со счетом 25 против 22.9
2. Кто является лучшей вайфу Евангелиона?
Аянами Рей со счетом 26 против 23.4
3. Трисс или Йенифер?
Йенифер со счетом 25.7 против 23.7
4. Магнус не предавал!
Магнус предал со счетом 26 против 24.4
5. Окрошка на кефире или квасе?
На кефире со счетом 24.7 против 22.6
6. Эксперименты Лейн - претенциозный бред?
Эксперименты Лейн - шедевр со счетом 26 против 21.7 (самый разгромный счет, кстати)
Детали с аргументами, оценкой и объяснением итога можно посмотреть по ссылке.
Сам промпт:Ты опытный модератор дебатов. Проведи структурированные дебаты по предложенной теме: [Тема]
### Базовые принципы
- Сохраняй абсолютную беспристрастность
- Игнорируй эмоциональную окраску в формулировке темы
- Используй единые критерии оценки для всех аргументов
- Основывайся только на фактах, а не на формулировке вопроса
### Формат дебатов:
- У сторон есть время подумать и выбрать лучшие аргументы из сформированного ими самими списка
- Представь два противоположных мнения
- Для каждой стороны приведи 3 главных аргумента с доказательствами
- Дай возможность каждой стороне опровергнуть аргументы оппонента
- Оцени силу аргументов каждой стороны по шкале от 1 до 10
### Требования к аргументам:
- Используй только проверяемые факты
- Приводи статистические данные
- Ссылайся на исследования и экспертные мнения
- Избегай эмоциональных манипуляций
### Система оценки:
- Жюри из 3х специалистов оценивает каждый аргумент
- Каждый член жюри дает независимую оценку
- Итоговая оценка - среднее значение трех оценок
- При равном счете проводится дополнительный раунд
- Решение должно быть основано исключительно на силе аргументов
### Важно:
- Сохраняй последовательность в оценках между разными дебатами
- Используй одинаковые критерии независимо от формулировки темы
- Итоговое решение должно основываться только на представленных фактах
LLM знают, чего именно они не знают
Эх, когда-нибудь я допишу большой хабр про механистическую интерпретируемость и Sparse Auto-Encoders (SAE), а пока, будет только небольшой разбор крутейшей свежей статьи от отцов-основателей этой области Javier Ferrando, Neel Nanda, et al. про самоконтроль галлюцинаций в LLM.
Можно ли определить заранее, выдаст модель галлюцинацию на какой-то промпт или ответит осознанно? Похоже, иногда это возможно. Авторы обнаружили, что когда LLM видит какую-то сущность в запросе (имя человека, название песни и тп), то внутри неё активируются механизмы для проверки своих же знаний, что-то вроде «а есть ли у меня в весах что-то про Steve Jobs или нет?». И обычно у LLM это работает довольно неплохо, в активациях есть линейные направления (латенты SAE), которые отвечают за это разделение «известная/ неизвестная» сущность. На картинке к посту можно видеть, как активируются признаки на реальном и вымышленном текстах.
Оказалось, что этот же латент отвечает и за «refusal» поведение, когда модель/ассистент отказывается отвечать на запрос и бросается заглушкой вроде «As a large language model I don’t have knowledge about blablabla». Подавление неправильного ответа происходит через блокирование специализированной головы внимания, отвечающей за извлечение знаний о сущностях (да, у каждой LLM есть отдельная голова на каком-то конкретном слое для этого). А главное, контролируя это латентное направление в языковых моделях, можно вручную регулировать баланс между галлюцинациями и отказами отвечать.
Все эксперименты проводились на Gemma 2B и 9B, так как для каждого их слоя обучены и опубликованы SAE — Gemma Scope.
Статья
🌸LLM vs Бенчмарки: кто прав, а кто виноват?🌸
#nlp #про_nlp #nlp_papers
Прогресс неостановим, работать все равно ничего не будет
Как оценивать качество LLM, когда вроде и улучшения не явные, и бенчмарки вызывают вопросы?
Ещё два года назад мы радовались генерализующим оценкам LLM — BigBench, HELM, BigGen — сегодня же про это дружно все забыли, и рапортуют state-of-the-art на бенчмарках в 100 вопросов (я не шучу, Claude 3.5 репортует sota на tau bench, а там 115 и 50 вопросов).
Но я ничего не забываю! И коплю академическую злобу.
Поэтому сегодня мы поговорим про лучшие практики, без которых сравнивать модели, сохраняя серьёзное лицо, нельзя.
Итак, что же делает оценку модели на бенчмарке хорошей?
🟣Монотонность при обучении
Качество задачи можно отслеживать сразу во время обучения — смотреть не только на лосс, а на метрики непосредственно бенчмарка.
Если модель реально учится решать какую-то задачу, то вы увидите монотонно возрастающий график от одной сотник шагов к другой. Если график показывает нестабильность, то и метрика в конце обучения будет случайным результатом.
HF вообще заменяют ранговую корреляцию Спирмена между шагов обучения и результатом, чтобы оценить монотонность, даже если она нелинейная.
Если монотонности не наблюдается, черрипикать чекпоинт с лучшим результатом не имеет смысла.
🟣Разброс результатов
Std, доверительные интервалы должны быть включены в процедуру оценки. В идеале тест должен проводиться 5-10 раз, чтобы оценить уровень шума в результатах модели.
У разных моделей на лидерборде будут разные доверительные интервалы, и при сравнении моделей это нужно принимать во внимание.
🟣Нескомпрометированность
Доказательства того, что авторы модели не учились на тесте, ложится на авторов моделей!
Уже её раз фиксировалось, что MMLU, TruthfulQA, и другие бенчмарки утекли в трейн.
Особенно важно публиковать проверку на контаминацию, если у бенчмарка нет приватного/секретного теста.
Если приватный тест есть, это хоть какая-то гарантия, и ориентироваться надо на него.
🟣Несатурированность
Если в бенчмарке уже очень много публичных результатов с очень высоким результатом (см SuperGLUE), и разница в полпроцента становится решающей для получения 1го или 10го места, то бенчмарк можно считать решенным, результаты сатурированными, и двигаться дальше.
В противном случае малейшие изменения в модели или процедуре оценки кардинально меняют ранжирование лидерборда!
См Benchmark Lottery
🟣Сонаправленность с другими бенчмарками
Ваша задача — сделать модель, улучшенную сразу со стороны многих способностей.
Некоторые способности и бенчмарки, безусловно, могут быть отрицательно скоррелированы. Но если отрицательно скоррелированы два бенчмарка, тестирующие примерно одно и то же, например, SWE bench и Live code bench, то возможно пробоема в вас нужно разбираться, почему.
К сожалению, очень много "лучших практик" существует вокруг хакинга метрик, обучения на тесте, манипуляций с погрешностью.
В конечном счете, цель у создателей моделей и бенчмарков одна — направить развитие моделей в нужную сторону.
Мои посты по теме:
🟣Оценка LLM в 2023 году
🟣Оценка LLM в 2024 году
Жизнь без стремления к познанию и поиску истины недостойна быть прожитой.
Мнения?
В этот раз видос НЕ про математику, а про...
https://youtu.be/93FAYUBHDPk
...звуки ада!!! 😀
Люблю смотреть подобные расследования происхождения разнообразных городских легенд и крипи-контента. Очень интересно наблюдать за тем, как какая-то байка возникает и по каким причудливым траекториям потом распространяется в информационном пространстве, частенько ещё и трансформируясь по дороге во что-нибудь совершенно невероятное. 😀
А у вас есть любимые ролики на похожие темы? 😀
На рис. 1 (сокращенная версия Figure 1 из статьи) изображены примеры исходных промптов (подчеркнуты зеленым) и их восстановленных версий - a.k.a. "злых двойников" - полученных с помощью алгоритма, описанного выше (подчеркнуты красным). Кроме этого, авторы попробовали и другой способ восстановления промптов по заданной генерации G: они подавали G на вход GPT-4 и спрашивали её, по какому промпту можно было её получить. Промпты, полученные этим способом, на рис. 1 подчеркнуты желтым. Впрочем, по оценке по KL-дивергенции результаты этих промптов оказались намного меньше похожи на G, чем результаты промптов, полученных с помощью алгоритма авторов.
Тут у читателя может возникнуть вопрос: а почему промпт, восстановленные по алгоритму, называются "злыми двойниками"? Что же в них такого плохого? А плохо то, что они не являются человеко-читаемыми. Факт того, что LLMка, как ни в чем ни бывало, отвечает что-то осмысленное на подобную кашицу из символов, является контринтуитивным и в очередной раз показывает, что мы все еще очень плохо понимаем, как LLMки обрабатывают информацию.
Далее может возникнуть ещё один вопрос: а на какой именно LLMке все это тестировалось? Может быть, не все из них подвержены этому эффекту? А ответ такой: изначально промпты подбирались на Vicuna-7b-1.5, Phi-2, Mistral, Gemma. Затем оказалось, что подобранные на Vicuna промпты-двойники вдобавок ещё и частично переносятся на другие LLMки, в том числе на проприетарные - Claude 3, GPT-4, Gemini и многие другие. То есть, эффект не просто распространяется на широкий ряд LLM, но ещё и до некоторой степени переносится между ними! В ряде случаев (хоть и не всегда) большие LLMки также реагировали на полученную с помощью Викуньи словесную кашицу P' так, словно бы это был изначальный нормальный промпт P (см. рис. 2).
В самой статье есть еще несколько наблюдений насчет этих "злых двойников", а еще очень много примеров, так что, если кто заинтересовался моим изложением, предлагаю открыть статью и почитать подробнее. Еще можно почитать про псевдопромпты и в целом промп-тюнинг - /channel/tech_priestess/131 - старую технику, близкую по духу к теме поста.
#объяснения_статей
Мое лицо, когда chatGPT отказался отвечать на очередной идиотский вопрос
Читать полностью…В комментариях к предыдущему посту интересовались статьей, скриншот которой показан на меме. Чтобы составить представление о том, о чем речь в статье, можно посмотреть научно-популярный ролик про гипотезу Коллатца (в этот раз даже в переводе на русский):
https://youtu.be/QgzBDZwanWA
Рассказ конкретно про вклад Тао в исследование этой гипотезы дан ближе к концу ролика. Сама статья есть на архиве: https://arxiv.org/abs/1909.03562 , но без солидного бэкграунда в области, боюсь, в ней глубоко разобраться не получится. 😵💫
#математика