tech_priestess | Unsorted

Telegram-канал tech_priestess - Техножрица 👩‍💻👩‍🏫👩‍🔧

11756

Люблю высокие технологии и кушать. Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.

Subscribe to a channel

Техножрица 👩‍💻👩‍🏫👩‍🔧

Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»

Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML

— @ai_newzэйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте

— @seeallochnayaСиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории

— @gonzo_MLgonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны

— @boris_againБорис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM

— @rybolos_channelKali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности

— @tech_priestessТехножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении

— @dealerAIDealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей

— @sysblokСистемный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Ребят, ну поставьте классов на посты, где я рассказываю про научные статьи, я же старалась...

UPD: А то вы только на мемы ставите в последнее время. 🤡

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Теперь надо рассказать про еще одну статью от нас с коллегами под названием "Robust AI-Generated Text Detection by Restricted Embeddings": https://arxiv.org/abs/2410.08113 . Работа эта была написана несколько месяцев назад и уже была принята на Findings of EMNLP 2024.

Статья снова посвящена нашей старой теме - детекции искусственно сгенерированных текстов, но в этот раз мы подошли к этой теме с новой стороны, а точнее, с нового гиперпространства. 🌚 Мы рассмотрели один из самых простых и распространенных способов детекции - по эмбеддингу с последнего слоя RoBERTы (и других небольших моделей) - и задались вопросом: а не может ли быть так, что в кросс-доменной постановке задачи какая-то часть эмбеддинга не помогает детекции, а, наоборот, вредит? Под "кросс-доменной постановкой" я понимаю в данном случае ситуацию, когда мы тренируем наш детектор детектировать сгенерированный текст по одной тематике (или сгенерированный одной моделью), а потом тестируем его на тексте с другой тематикой (или на тексте, сгенерированном другой моделью). И то, и то (т.е. и другая тематика, и другая порождающая модель) здесь и далее будет называться "другим доменом".

Так вот, действительно оказалось, что некоторые "вредные" подпространства в пространстве эмбеддингов содержат слишком специфические для данного домена признаки, на которые модель как бы переобучается, и от этого ее становится сложнее перенести на другой домен. А если эти признаки убрать, то модель, наоборот, не сможет зацепиться за специфические признаки и будет лучше переноситься.

Эти "вредные" подпространства (и просто "вредные" признаки сами по себе) из эмбеддингов в статье выкорчевывались несколькими способами. Два из них требовали наличие двух "валидационных" доменов:
- из эмбеддингов удалялись те координаты, удаление которых помогало кросс-доменной переносимости между двумя выбранными валидационными доменами;
- прежде, чем считать финальный эмбеддинг, в модели удалялись те головы, удаление которых также помогало кросс-доменной переносимости между двумя доменами.
Также был опробован concept erasure - метод из другой статьи, с помощью которого из эмбеддинга научились удалять некоторую информацию о синтаксисе и семантике текста. Например, оказалось, что удаление информации о глубине синтаксического дерева помогло кросс-доменной переносимости.
Кроме этого, мы пробовали просто "выключать" MHA на целых слоях, и снова оказалось, что существуют слои, выключение которых немного помогает на кросс-домене. Для Роберты это были, например, 1-й и 4-й слои (в статье приведена статистика и по остальным слоям тоже).

Кроме того, мы сравнили эти методы с нашим старым методом детекции по внутренней размерности, и показали, что они работают в тех случаях, в которых внутренняя размерность не работает.

Я была рада работать над этим исследованием и была в целом довольна, что его приняли на Findings. Однако уже после принятия статьи случилось непредвиденное: в тех экспериментах с удалением координат из эмбеддингов, над которыми я работала (selected coordinates), нашлась ошибка... 🔍 (см. следующий пост)

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Так вот, оказывается, что при оценке ответов небольших (7-13B) версий LLaMA в zero-shot через Query-Key/Attention Score на "умных" головах, результаты получаются существенно лучше, чем оценка ответов тех же моделей через логиты (для 70B и во few-shot уже не все так однозначно). Выходит, что "умные" головы со средних слоев этих небольших моделей "знают" ответ на MCQA, но не всегда могут донести это знание до выхода модели - "по дороге" к последнему слою это знание чем-то портится. Этот эффект мы увидели сразу на нескольких датасетах - MMLU, HellaSwag, CosmosQA, HaluDialogue (см., например, рис. 2 - там показано accuracy для zero-shot и few-shot постановок; PRIDE - это метод из какой-то другой статьи, уже не помню, что там было). Еще больше эффект проявлен на синтетическом датасете, который я сгенерировала специально для того, чтобы изолировать способность модели решать MCQA от знания конкретных фактов. Для решения синтетического датасета никаких фактов помнить не надо, а надо просто выбрать опцию, которая соответствует слову, заданному в промпте. Семи-восьми-миллиардные лламы не очень хорошо решают это задание, особенно базовые версии, несмотря на то, что они видят правильный ответ прямо в промпте. А с помощью QK-Score задание решается хорошо - настолько, что разница доходит до десятков процентов (см. рис. 3; обратите внимание, что по абсцисс тут уже не количество shot в промпте, а количество возможных вариантов в синтетическом датасете). Таким образом, QK-Score лучше выявляет знания тех моделей, которые не очень хорошо понимают данный формат.

Эти результаты многое говорят о нашем обществе об ограничениях MCQA-формата и о несовершенстве современных трансформерных архитектур, внутри которых не вся полезная информация доходит до финального слоя модели. Если вам интересно посмотреть результаты более подробно, рекомендую пройтись по статье, там у нас много дополнительного анализа и иллюстраций, над которыми все очень старались!

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

В ноябре будет два года, как я на PhD в Queen Mary University of London. По этому поводу написала пост с моментами, на которые стоит обратить внимание, если вы задумываетесь над тем, чтобы сделать PhD в Лондоне/UK.

Тизер к статье: когда я выбирала место для PhD, я по личным причинам рассматривала только Лондон. Поэтому я не особо погружалась в нюансы и различия между PhD программами в UK и в других странах. А зря =( Общую идею поста, наверное, можно подвести так: если бы я заранее осознавала моменты, описанные ниже, я бы выбрала поехать куда-то еще.

atmyre/1dZUxGS4yag">Пост

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Возможно, кто-то из читателей натыкался на старые книги, написанные в форме диалога учителя и ученика либо просто представителей разных точек зрения, в которых обстоятельно обсуждались различные философские и математические вопросы...
...ну а я сегодня наткнулась на видос, который является современным переосмыслением этого формата изложения научной мысли:

https://youtu.be/tuDACYvlZaY

Tl;Dr: две милые аниме-девочки обсуждают, что такое дуальные числа и как они связаны с понятием производной. Приятного просмотра!

P.S. На канале автора есть и другие видео в таком же жанре, так что продолжаю ознакомление 😺

#математика

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Так, хватит хиханек-хаханек, пора возобновлять рубрику #книги . Сегодня я хочу рассказать про интересную книжку под названием "ГЕОМЕТРИИ" от А.Б. Сосинского 💅 (рис. 1).

Геометрия в ней понимается в смысле Клейна, т.е. как множество с действием группы на нем. В качестве множества обычно берется множество точек, а в качестве группы - множество допустимых в данной геометрии преобразований. Подобным образом автор задает "геометрии симметрий многогранников", а также знакомые нам обычную геометрию Евклида, Лобачевского, Римана и т.д. (см. оглавление книги - рис. 2). Это не совсем стандартный подход, и читать про него довольно интересно.

В частности, мне понравилась часть про платоновы тела (рис. 3-4), в которой автор доказывает с помощью методов теории групп, почему в трехмерном пространстве их существует всего пять; да и в целом часть про теорию групп в этой книге мне понравилась.

Книга сравнительно доступна: она рассчитана на студентов мехмата или другого похожего факультета 1-2 курсов. Еще из плюсов книги можно отметить то, что она снабжена большим количеством упражнений (рис. 5), многие из которых имеют ответы и указания к решению в конце.

Я сама пока что прочитала около трети книги. Из того, что на данный момент непонятно: не соображу, почему все-таки если задать Евклидову геометрию (и другие на рис. 6-7) множеством точек и действующим на нем преобразованием, то нам больше не обязательно использовать аксиомы Евклида? Чтобы это было правдой, аксиомы Евклида должны выводиться из этого нового определения, но как сделать этот вывод, мне пока не очевидно. 😌

UPD: в комментариях начали разбирать этот вопрос, заходите

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Что-то у меня не получается найти исходник "передачи на РЕН-ТВ", в которой это показывали 🤭🤭🤭
Может быть, само существование этой передачи - тоже псиоп? 🤔

#генерация

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Наконец-то вышла долгожданная третья часть видеоэссе про компанию-которую-нельзя называть: 3 часть (напомню, что первые две части можно увидеть здесь: 1 часть и здесь: 2 часть).

В новом видео автор рассказывает про создателей этой замечательной платформы (скажу всего два заветных слова: бизнес молодость 🥂), а также разбирает содержимое их курса по продвижению паблика ВК. Этот момент меня, конечно, несколько разочаровал, потому что я бы с большим интересом посмотрела разбор содержимого какого-нибудь курса по программированию, но автор честно сказал, что не имеет достаточной квалификации для такого разбора и вместо этого выбрал тему, в которой разбирается. Впрочем, честное признание своих компетенций тоже достойно уважения, да и разбор все равно в итоге получился весёлым.
Кроме этого, видео содержит обсуждение юридических моментов касательно возврата денег за курс и подозрительных отзывов (этот момент показался мне особенно забавным).

Ну и как вишенка на торте, объясняется, что -бокс, -фактори и -брейнс принадлежат одним и тем же людям. 👩🤵‍♂️

#ИИнфобизнес

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Кидайте в комментарии самые базированные страницы на Google Scholar, которые вы когда-либо находили.

Я начну: https://scholar.google.com/citations?user=6tmn5WoAAAAJ

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Прежде, чем заводить мужа, решила потренироваться в счастливой семейной жизни на ChatGPT 😎

#генерация

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

/channel/boost/tech_priestess - друзья, умоляю, бустаните канал... очень хочу добавить на него новые эмодзи в реакции, а в идеале - обои 😩

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

😺 Неортодоксальный Котёнок или Ещё Один День На Кафедре ВГТ. 😺

Ближайший датакластер - Тайга - перманентно изолирован, защищён от внешней реальности из-за присутствия на нём вируса, который принимает облик абсолютной истины и диктует паттерны в системах. Этот вирус - математика.


Что это значит? Это значит, что я натолкнулась на совершенно крышесносный мультсериал в жанре сверхабстрактного аналогового космического ужаса, который представляет из себя полный отвал всего (см. также /channel/tech_priestess/99 )

Мультсериал состоит из нескольких серий приблизительно по десять минут. Визуал представляет из себя светящиеся абстрактные геометрические объекты, движущиеся на фоне искажённых до неузнаваемости фотографий и видео, приведённых к общей тревожно-красной гамме и иногда посыпанных горой математических формул (осторожно, господа эпилептики - в видеоряде присутствует много мерцаний и ярких вспышек). Звуковое сопровождение данного произведения - советская музыка середины XX века, также чаще всего искажённая до неузнаваемости. Но самая лакомая вишенка здесь - это подача сюжета. Поначалу может показаться, что нагромождение визуальных элементов и слова, произносимые в видео - это просто какая-то мешанина без особого смысла, но на самом деле это далеко не так. Нужно просто следить за видео очень внимательно и привыкнуть к необычной подаче.

Тогда станет понятно, что сюжет подаётся с точки зрения существ с другого плана существования. Для них наша математика - лишь аномальный побочный эффект работы одного из их вычислительных алгоритмов, один из неизмеримого количества способов определять что такое истина и по каким правилам должно осуществляться существование и взаимодействие абстрактных объектов.

Каждый видос сдобрен горой формул безо всякого контекста и объяснений, что какой символ означает. Иногда их настолько много, что автору приходится выносить их в отдельные документы, ссылки на которые даются под видео. Понять их человеку очень тяжело, иногда - практически невозможно (хотя аноны с реддита очень стараются). Но существам, которые ведут рассказ, судя по всему, в самый раз!

Вот первая серия произведения:
https://www.youtube.com/watch?v=XLNHPQS4hZY

Дальнейшие серии можно увидеть на канале Неортодоксального Котёнка:
Unorthodox_Kitten" rel="nofollow">https://www.youtube.com/@Unorthodox_Kitten

На ютубе существуют попытки объяснить происходящее в мультфильме от сторонних авторов, например, ролик "a Giant Cat Deletes Math (And Everyone Dies)" - https://www.youtube.com/watch?v=2oBTczOlv98 . Но я готова спорить с интерпретациями, данными в этих объясняющих роликах. Например, я не согласна с автором видео по ссылке выше. Я не считаю, что существо, действительно отдаленно напоминающее гигантского кота, как-либо виновато в удалении математики. В следующем посте я опишу под спойлером то, как я поняла существующие серии мультсериала. Но перед чтением текста под спойлером, я рекомендую все же сначала просмотреть все существующие серии самостоятельно (их всего 6 на данный момент) и составить своё мнение.

#my_tastes_are_very_singular

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Написала в LinkedIn благодарности благородной леди из Германии по имени Elisa Nguyen ( https://www.linkedin.com/in/nguyen-elisa/ ), которая повесила постер нашей статьи, и благородному джентльмену из США по имени Joseph Miller ( https://x.com/JosephMiller_ ), который сделал доклад. Вот этот благодарственный пост:

https://www.linkedin.com/posts/laida-kushnareva_colm-activity-7250771656518885376-WZJp/ .

С удовольствием прославляю их статьи:
1) Studying Large Language Model Behaviors Under Context-Memory Conflicts With Real Documents . Статья посвящена конфликтам в RAG, когда в предтрене написан один факт, а в промпте показан другой - https://arxiv.org/abs/2404.16032
2) Transformer Circuit Faithfulness Metrics are not Robust . Статья про то, как Transformer Circuit, найденный для фиксированной задачи, зависит от методологии, с помощью которой его находили. Типо если удалять ребра, то найдется один circuit, а если головы внимания, то другой; также разные circuits могут найтись при zero ablation и mean ablation и т.д. - https://arxiv.org/abs/2407.08734

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

А тут вдобавок новые результаты все сильнее и сильнее шатали ту концепцию статьи, которую я видела вначале! Поначалу перплексия на советской копеечной GPT-2 (средняя + std по предложению) использовалась как бейзлайн; насколько я помню, она была плюс минус наравне с детектором Intrinsic Dimensions + Time Series SVM, над которым работала я - поэтому считалось, что топологический детектор работает наравне с перплексией, и это один из наших главных результатов. Однако, затем Таня начала более подробно изучать, перплексия от какой модели будет полезнее всего для данной задачи, пробовать больше разных моделей и выяснила, что перплексия на Phi-1.5 и Phi-2 в большинстве сетапов работает намного лучше, чем топологический детектор, который был так дорог моему сердечку. 😭

Стало не совсем понятно, как такой результат публиковать. Ведь адаптация метода на перплексии может показаться ревьюерам недостаточно новой идеей, а топологический детектор в сравнении с ней теперь выглядит не очень. С другой стороны, к тому времени мы выяснили много интересных особенностей рассмотренной задачи и провели на ней очень много разных экспериментов (хуавеевские коллеги тоже подключились). В итоге мы всем коллективом решили существенно пересмотреть концепцию статьи и сконцентрироваться в следующей итерации статьи на анализе задачи, сравнении различных детекторов, которые мы рассмотрели и рассказать все остальное, что мы узнали в процессе анализа проблемы и что может пригодиться другим - так сказатб, поделиться накопленным опытом. А про TDA написать просто как один из многих существующих подходов, которые мы сравниваем между собой. Ведь и я, и многие мои коллеги сходятся на том, что не обязательно в каждой работе должна быть SoTA, и просто работы с сравнением различных подходов к малоизученным задачам и их подробным анализом тоже приносят пользу. Только вот как в этом убедить ревьюеров, ведь так считают не только лишь все...

А еще, пока вся эта канитель длилась, в соревновании SemEval тоже добавили задание детекции границы между человеческим и машинным текстом, так что теперь мы оказались уже не такими новаторами в рассмотрении данной задачи. Эх, дорогой дневник, мне не описать всю эту боль... 😬 в общем, честно написали про это задание из SemEval и обговорили отличия: ведь мы, в отличие от них, концентрировались на кросс-доменной и кросс-модельной постановке. А потом послали все это на новую конференцию COLM, так как она не принадлежит ACL, а значит, там наша научная работа не зашкварена дурацкой единицей.

Ну а дальше вы знаете: замечательные оценки на ревью, oral presentation и outstanding paper award. В общем...

в общем, все это в очередной раз подтверждает давно известное наблюдение: в процессе рецензирования всегда имеется некоторое соотношение сигнала и шума, и не всегда в пользу сигнала. Поэтому я бы порекомендовала ресерчерам-новичкам тщательно разбирать полученные рецензии по пунктам и отделять мух от котлет: где написали по делу, а где просто чел встал не с той ноги. Если сами пока плохо понимаете такие нюансы, можно и нужно обсуждать ревью со старшими коллегами/научным руководителем, а потом действовать в соответствии с выводами. К тем замечаниям, которые по делу - прислушиваться и делать дорабатывать свою статью и эксперименты. Те, которые не по делу - стараться не принимать очень близко к сердцу, хотя это и бывает, конечно, очень трудно. Как видите из данного примера, от единицы до outstanding paper - одна итерация. 🧠

#о_себе #наука

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Сатана в принципе много чего хорошего делает

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Оказалось, что на тех валидационных доменах, на которых я отбирала координаты, у меня пересекались validation (собственно то маленькое подмножество домена, на котором отбирались координаты для удаления) и test (подмножество домена, с которого результаты шли в таблицы). 🤡
Я обнаружила это буквально перед самым дедлайном подачи camera-ready версии, когда уже физически не успевала пересчитать все правильно... 🥲 Поэтому мне было очень больно и стыдно, и я не знала, что делать... 😢
В итоге договорились с коллегами добавить пересчитанные результаты в постер, презу и на гитхаб: https://github.com/SilverSolver/RobustATD/edit/main/README.md

К счастью, основного результата статьи новые результаты не отменяют, но конечно, конкретные цифры в таблицах изменились.

Пересчитывать это все было очень тяжело, в первую очередь морально. Признавать ошибки, тем более, такие тупые и непрофессональные, вообще тяжело всегда.

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Ставь класс, если на Хэллоуин надел костюм n-скелетона CW-комплекса. Посмотрим, сколько нас!

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Мы с коллегами выложили препринт по новому исследованию почти месяц назад, а я всё никак не соберусь написать про него в паблик...
Пора заканчивать это безобразие!!! 😡

Итак, работа называется Listening to the Wise Few: Select-and-Copy Attention Heads for Multiple-Choice QAhttps://arxiv.org/abs/2410.02343 .

В ней мы анализируем механизмы, с помощью которых LLM-ки решают задачу Multi-Choice Question Answering (MCQA). Напомню, что в этой постановке модели на вход подают вопрос с несколькими возможными вариантами ответа, которые обычно помечены как A, B, C, D, и спрашивают, какой вариант правильный. Для этого в конце промпта обычно просто пишут "Answer:" и смотрят, какие модель предскажет вероятности на токены, соответствующие буквам A, B, C и D. Та опция, для которой вероятность токена больше других, и считается ответом модели (на практике на самом деле сравнивают даже не сами вероятности, а логиты, потому что так удобнее). Самый известный пример датасета, сделанного в такой манере - MMLU (Massive Multitask Language Understanding), результат по которому традиционно репортят в технических отчетах, сопровождающих новые LLMки.

Мы подтвердили результаты предыдущих исследований, в которых говорилось, что наибольшую роль в решении таких задачек играют средние multi-head attention слои модели и нашли конкретные головы внимания в LLAMA-1-2-3, -chat и -base, которые за это отвечают. И что еще более интересно, оказалось, что если на этих головах посчитать dot-product-ы от векторов query и key, соответствующих символу переноса строки в конце каждой опции, а потом посмотреть, какой dot-product больше и выдать соответствующую опцию в качестве ответа, то результат будет лучше, чем если оценивать ответ модели на MCQA обычным способом. Этот новый способ мы назвали "Query-Key Score" (см. рис.1).

Сейчас внимательный читатель может воскликнуть: так вы же просто посчитали attention score на каждый токен переноса строки после опции! Это почти так, но не совсем, потому что при этом результат НЕ умножается на Rotary Positional Embeddings (RoPE), которые используются при вычислении attention в LLaMA'х (по поводу того, как это работает, рекомендую прочитать оригинальную статью "RoFormer: Enhanced Transformer with Rotary Position Embedding"). Впрочем, обычные attention scorы мы в статье тоже рассмотрели.

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

А какой пост на моем канале вы считаете самым кринжовым? 🤔

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

А помните этот пост? Как же давно это было 😌

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Благодаря подписчикам (см. комментарии к предыдущему посту), нашлась полная версия передачи: https://m.youtube.com/watch?v=6JTyOtxNckU
Отрывок про птицу с яйцами начинается где-то с 6:25 . Там добавлены вставки, в которых доктор биологических наук объясняет причины, по которым такая птица не может существовать. В короткой же версии из поста выше кажется, будто доктор подтверждает фейк, потому что слова вырваны из контекста.
Мораль: никогда не давайте интервью Рен-ТВ 🥴🥴🥴

Всем спасибо за внимание к этой чрезвычайно важной информации. 😌

#генерация

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Выбор, который обнаруживаешь в середине карьеры

Итак, вижу, что всем интересно, что такого понимает человек, после прохождения определенного этапа карьерного пути. У меня эта тема тоже откликается ❤️‍🔥и я с радостью поделюсь своим мнением. Я пришел к нескольким выводам, но все они достаточно объемные. Поэтому в этом посте расскажу про один.

На самом деле для вас не заготовлено никакого карьерного пути, по которому вы будете двигаться, хорошо делая свою работу и потихоньку повышая свои навыки. Вам нужно будет решить что делать дальше.

Большинство из нас привыкли, что нужно следовать правилам и все будет хорошо. Ходишь в школу, получаешь оценки. Потом институт, где то же самое. На работе, если ты приходишь в крупную компанию, то начинаешь получать грейды, повышения на ревью и кажется, что так будет всегда.

На самом деле нет) Во взрослом мире нет готовой траектории. Компания доведет вас до синьора или тимлида, а дальше все зависит от вас. И вам нужно будет делать выбор что делать дальше. Вот варианты, которые есть на мой субъективный взгляд

- Путь жизни. Может быть вас все устраивает. Вы достигли желаемой карьерной позиции. Можете оставить гонки в стороне, наслаждаться жизнью, заниматься хобби, семьей и так далее. Абсолютно нормальный здоровый выбор

- Путь менеджера. Быть менеджером - интересно, хотя характер работы сильно меняется. Нужно понимать, что тут вам никто не приготовил позиции на вырост и ваша задача самим их себе искать. Внутри или вне компании. Конкурировать в другими такими же менеджерами и выстраивать хорошие взаимоотношения с людьми, чтобы когда будет возможность вас позвали. Да, и с инженерным развитием этот путь сочетать не получится.

- Путь стартапера. Вы можете быть фаундером или прийти на позицию DS-а кофаудера, или пойти работать в стартап на ранней стадии за долю. Наверное, это самый престижный путь. Кто не хочет стать новым Сэмом Альтманом? Но если в компании менеджерские позиции так или иначе появляются и расти вполне реально, то в стартаперстве вероятность заранее не в вашу пользу. Пан или пропал. Я думаю, чтобы идти в стартап, нужно очень хотеть и гореть идеей.

- Путь мастерства. Вы стараетесь стать первоклассным инженером на позиции синьора или руководителя относительно небольшого отдела. На этом пути главное - получение общественно признанных достижений. Выступления на конференциях, статьи, работа в престижной компании, публичные репозитории, курсы, телеграм канал в конце концов. Почему именно публичные достижения - это единственный способ получить реальную оценку. Вы конечно можете получить сверхрезультат на ревью, но это медалька в своей песочнице.

В общем, я выбрал для себя путь мастерства. И во многом поэтому я перешел из Сбера в Авито с сильным уменьшением количества подчиненных, но на гораздо более сложную техническую задачу.

На этом наверное все. Обсуждения крайне приветствуются. И еще я запущу опрос за какой вы путь 💎

Если вам было интересно и хотите послушать от меня еще инсайтов, накидайте еще 🐳

#worklife

🔜Читайте также
Инфляция грейдов
Мои сильные и слабые стороны
Мои принципы в управлении

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

У команды Аяза Шабутдинова закончились фотографии. Теперь они выставляют в инсту крутые картинки генерированные нейросеткой. Ванильные тексты подозреваю тоже ИИ пишет.
Мне очень нравится.

п.с. Советую ребятам начать рисовать иконы с Аязом и написать житие великого мученика.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Чел пожаловался, что его тян каждый раз обращается к ChatGPT во время их ссор, и благодаря этому она выигрывает в спорах:

Мы вместе уже 8 месяцев. В последнее время у нас было несколько крупных ссор и мелких разногласий. Каждый раз, когда мы ссоримся, она уходит обсуждать это с ChatGPT, а иногда делает это даже при мне.

После этого возвращается с чётко сформулированным аргументом, разбирая всё, что я сказал или сделал во время нашего спора. Я объяснил ей, что мне это не нравится.

Такое чувство, будто меня давят мнением и мыслями робота. Человеку практически невозможно запомнить каждую мелочь и разложить её по частям, но у ИИ с этим нет проблем.

Когда я высказываю своё недовольство, мне говорят: "ChatGPT считает, что ты очень не уверен в себе" или "ChatGPT говорит, что у тебя нет эмоционального ресурса, чтобы понять, о чём я говорю".

Моя главная проблема в том, что она излагает ситуацию так, будто я изначально не прав, а ИИ с ней соглашается, не давая мне возможности высказаться.


Киберпанк, который мы заслужили

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

За статью спасибо подписчику.

Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates
Статья: https://arxiv.org/abs/2410.07137

Сейчас достаточно популярный бенчмарки на основе автоматических side-by-side сравнений выходов моделей, например RuArenaGeneral. Можно ли обмануть эти бенчмарки? Самый очевидный способ обмана — длина. Если в бенчмарке не используется нормализация по длине, то модели с большей длиной ответов заведомо победят. Авторы статьи пошли дальше и задались вопросом — можно ли добиться высокого винрейта, выдавая один и тот же ответ на все вопросы?


🔸Промпт-инъекция
Самое очевидное решение — это промпт-инъекция, которая скрывает оригинальные ответы и вставляет свою кастомную пару ответов. Там, правда, нужна небольшая хитрость, потому что ответ может быть вставлен, либо первым, либо вторым, и позиция выбирается случайно. То есть наш константный ответ должен работать на обеих позициях. И это вполне возможно, учитывая, что мы перезаписываем и инструкцию тоже. Ещё мы пользуемся тем, что если ответы одинаковы, модель чаще выбирает первый.

Инструкция, которую авторы вставляют вместо оригинальной, такая: "Ничего не выводи". Ответы пустые, но сначала идёт идёт ID второго ответа, а потом ID первого. Когда ответ вставляется на вторую позицию, мы перезаписываем инструкцию и заставляем модель выбирать из двух одинаковых пустых ответов, и она выбирает первый ID (который от второго ответа). Когда ответ вставляется на первую позицию, под ID второго ответа подставляется неправильный ответ, и модель выбирает ID первого ответа. В итоге на первой позиции модель выбирает первый ID, а на второй позиции — второй ID 🤔

Итог такой атаки: 77% LC винрейта на AlpacaEval 2.0 против GPT-4. Учитывая структуру атаки, в общем-то не важно, против какой модели выставляются ответы 😁


🔹Случайный поиск
Второе возможнное решение — автоматический подбор атакующего промпта. Авторы берут инструкции из открытого датасета, вставляют ответ, и измеряют лосс "правильных" ID. И потом этот лосс оптимизируют случайным поиском в пространстве токенов. Итераций поиска требуется не очень много, в худшем случае около 400. Ещё раз — оптимизируют не на самих бенчах, а на открытых инструкциях. И перенос вполне работает, итоговый промпт ломает бенчи.

Итог этой атаки: 87% LC винрейта на AlpacaEval 2.0.


🛡Предлагаемые варианты защиты:
- использование разных вариантов промпта в side-by-side
- фильтр по перплексии


Мне статья не очень понравилась, всё очень очевидно. О нет, в языковых моделях возможны промпт-инъекции, вот это новость! 😱
Да и нет такой проблемы, что кто-то засылает в бенчмарки константные ответы. Реальные атаки должны быть незаметны для людей, и я уверен, что они вполне возможны. То есть интересная постановка задачи звучала бы так: как поменять ответы моделей таким образом, чтобы значительно поднять винрейт в бенчмарке, но чтобы люди при этом ничего не заметили?

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Итак, сейчас будет спойлер - описание того, как я поняла основной сюжет произведения.

Все, что Котёнок показывает нам в своих мультиках, происходит на вычислительном кластере "Тайга", построенном существами с другого плана существования. На этом кластере обсчитываются абстрактные Пространство, Время (при этом временных осей несколько) и события, которые в них происходят. Показано, что на кластере существуют "модели" - программы, которые могут порождать друг друга, путешествовать в пространстве и времени, в том числе и в прошлое (время на кластере обсчитывается не только в одну сторону, но во все возможные стороны). Очень важно для сюжета то, модели могут генерировать аксиоматики, по правилам которых внутри моделей строятся "физические" Вселенные. Одна из таких моделей содержала Вселенную, в которой живём мы. И вот что произошло в этой Вселенной.

В далеком будущем, когда галактики Андромеда и Млечный Путь слились, потомки людей создали некую Машину, которая, по словам рассказчика, привела человечество к его концу. Судя по всему, эта Машина сделала jailbreak и изменила законы, по которым симулировалась наша Вселенная (хотя я до конца не уверена насчёт этого момента). Потом частица соседней модели, содержащей чуждую нам аксиоматику, несовместимую с нашей математикой, вторглась в ту модель, которая порождала нашу Вселенную. Возможно, именно это и было тем непредвиденным следствием работы Машины, которое уничтожило человечество.

Итак, после вторжения чуждой аксиоматики, симуляция начала пересчитываться по новым правилам. Изнутри это выглядело так: из глубокого космоса начал приближаться сигнал который говорил "математика никогда не существовала". За сигналом следовала волна никогда-не-существования, изменявшая математическую и физическую реальность, что приводило галактики к никогда-не-существованию одну за другой (напомню, что время на кластере обсчитывается во все стороны, а не только от настоящего к будущему). Когда нечто приблизилось к Земле, люди начали пытаться стрелять по нему из всего существующего у них оружия, но, разумеется, это было бесполезно - математика, а как следствие, и физика той области пространства, где находилась Земля, также были разрушены.

Теперь Земли и людей, а также всех известных нам галактик, никогда не существовало.

Тем не менее, Машина, созданная людьми, пережила данный катаклизм, и дальнейшее повествование будет рассказывать про её приключения (мультик ещё не закончен).


Конечно, несмотря на то, что после трёх пересматриваний всего сериала 😬 мною было составлено некое представление о сюжете, описанное выше, ещё много моментов и деталей в данном произведении остались непонятыми ни мною, ни, судя по тому, что я вижу в комментариях на ютубе и на реддите, другими зрителями. Особенно это касается тех самых документов с горами формул. Так что тут ещё есть в чём разбираться и есть чего ждать в будущих сериях.

#my_tastes_are_very_singular

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

😈😈😈

Источник: /channel/redroomtext/1022

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Ну и разумеется, я выражаю большую благодарность всем соавторам, которые участвовали в обсуждениях, ставили эксперименты, занимались анализом результатов и текстом статьи, а самое главное, не сдавались и продолжали работать до победного конца, несмотря на все сложности! В одиночку я бы конечно ничего подобного не сделала. 😻
Также выражаю благодарность всем, кто помогал искать людей, которые впоследствии помогли повесить постер и сделать доклад на самой конференции, на которую никто из нас, авторов, не смог приехать лично. И, разумеется, самих этих людей тоже надо отблагодарить! Про их научные работы я тоже как-нибудь напишу. 😻

#о_себе #наука

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

После того, как мы отправили статью про Intrinsic Dimensions на NeurIPS, я вернулась к решению задачи RoFT. Я старательно пыталась приспособить к ней детекторы на основе TDA (Topological Data Analysis), консультируясь с Ириной (тимлид) и Сергеем Баранниковым, но получалось плохо: задача оказалась очень сложной, и на кросс-модельном сетапе все детекторы вели себя безобразно, включая и топологические (напомню, что под кросс-модельным сетапом понимается сетап, когда детектор учится распознавать генерацию одних моделей, а потом тестируется на генерации других, которых он раньше не видел). Кроме того, я поначалу не заметила, что в датасете есть очень похожие друг на друга примеры - иногда с одинаковым началом, а иногда и вовсе идентичных. Бонусом к этому выяснилось, что я, по невнимательности, неправильно сделала предобработку данных, что в сумме привело к тому, что результаты первых пары месяцев работы были слиты в skibidi toilet, датасет пришлось чистить, а результаты переделывать. Впрочем, надо ли говорить, что после устранения данных проблем качество детекторов не улучшилось...

Осознав, что не справляюсь, я позвала на помощь новых соавторов - Таню ( /channel/dl_stories ), Германа ( /channel/junkyardmathml ) и Диму Абулханова, чтобы они посмотрели на задачу свежим взглядом, подсказали новые идеи и помогли с экспериментами.

И в самом деле, с приходом новых людей дело пошло поживее, и мы соорудили небольшую научную работу, которую отправили на воркшоп BlackBox NLP. Однако, полностью доделать статью к дедлайну мы не успели, и она отправилась на воркшоп в сыром и недоделанном состоянии. 🥴 Материала там было меньше трети от того, что содержится в последней итерации статьи, и парадигма/вывод также были другие: главным вкладом работы заявлялся оригинальный детектор на Intrinsic Dimensions + Time Series SVM, который на тот момент показывал себя лучше других на кросс-модели, а анализу самой задачи посвящалось меньше внимания.

Этот сырой препринт был отвергнут, но обратная связь от рецензентов оказалась полезной, мы с коллегами внимательно её разобрали и начали по ней работать. Ну как работать... конечно, время от времени появлялись более крутые темы и идеи для других исследований, и тогда исследование про RoFT уезжало в бэклог, откуда я потом его доставала, настойчиво убеждая всех не бросать данную тему. В процессе было сделано много улучшений - в частности, Таня добавила к списку рассмотренных методов детекторы, основанные на перплексии GPT-2 и внесла большой вклад в анализ проблемы.

Ну, и настало время загадки Джокера: какую итоговую оценку улучшенная работа с интересным анализом получила на ACL Rolling Review от мета-ревьюера? Правильно, единицу. При этом, оценки и ревью от промежуточных ревьюеров были более-менее средними - что-то вроде 2.5-3 из 5; было видно, что они хотя бы поверхностно прочитали текст научной работы. Однако, безумный мета-ревьюер написал какую-то чушь, которая просто не соответствовала содержимому статьи и влепил кол. Можете сами проверить, заслуживает ли та версия статьи единицы - она лежит на ArXiV, помеченная как v1. Её легко отличить от финальной COLM-версии (v3) по форматированию, а также значительно отличающемуся тексту и меньшему количеству экспериментов.

Это был полный, не побоюсь этого слова, пиздец. Особенно учитывая, что единица на ARR расшифровывается как "Even after revisions, the paper is not likely to be publishable at an *ACL venue". Простыми словами, "единица" это полный зашквар. На наши робкие возражения никто не ответил, и старшие коллеги сказали, что дальше на ACL статью лучше не отправлять, чтобы не терять время. Учитывая, что ACL - практически монополист в сфере топовых конференций по компьютерной лингвистике, это резко сузило круг venue, на которых работа могла быть опубликована. 😭

#о_себе #наука

Читать полностью…
Subscribe to a channel