Люблю высокие технологии и кушать. Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.
Тем временем, выложили текущую статистику с распределением оценок по статьям, которые в данный момент проходят ревью на конференцию ICLR 2025:
https://papercopilot.com/statistics/iclr-statistics/iclr-2025-statistics/
(Там есть и обобщенная статистика по предыдущим годам). Как говорится, ищите себя на графике!
P.S. #академический_ликбез : ICLR (International Conference on Learning Representations) - одна из топовых ML-конференций, статьи на которую проходят рецензирование в несколько этапов. На первом этапе каждой статье (в анонимизированной форме) назначаются несколько анонимных ревьюеров, которые ее читают и независимо (в идеале) выставляют оценки от 1 до 10 в соответствии тем, насколько данная научная работа кажется им корректной, качественной и подходящей по теме. После этого начинается фаза срача rebuttal, на которой можно оспорить оценку каждого ревьюера, показать им дополнительные эксперименты и аргументацию, а также сделать правки в текст статьи, после которых они могут повысить (или понизить 🤡) свои оценки. На финальном этапе мета-ревьюер, по совокупности оценок и результатов обсуждения вынесет вердикт - брать статью на конфу или нет.
Ладно, пойду дальше продумывать срач научную дискуссию 😀 с ревьюерами, а то что-то оценки какие-то низкие поставили, посмотрите на них! 😀
Решила собрать для новых подписчиков горстку избранных старых мемов с канала, которые вы не видели.
#ML_в_мемах
По просьбе читателя, расскажу в общих чертах, как может выглядеть мой типичный день при разных обстоятельствах. Сразу предупрежу, что текст не обладает общностью - очевидно, что в других компаниях и даже командах день ресерчера будет выглядеть по-другому.
Итак, я могу очень условно выделить примерно четыре режима работы, в которых могу находиться:
1. "Свободное плавание";
2. "Работа над гипотезой";
3. "Последняя неделя-две перед дедлайном на конференцию";
4. Особые события.
1. "Свободное плавание": в этом режиме мой день выглядит более-менее расслабленно. Я размышляю над проблемой, которую мне дала тимлид или руководитель от академии, либо выбираю тему самостоятельно - где-то недалеко от интересов остальной команды. Например, недавно мне (и ближайшим коллегам) давали на рассмотрение тему того, как изучение внутренности трансформера может помочь в задачах детекции галлюцинаций и MCQA. А в последнее время, после отправки препринта про MCQA на ревью, я рассматриваю тему "какие свойства текста отражает внутренняя размерность", уже по своей инициативе. "Размышление", разумеется, не означает пассивное сидение на стуле и смотрение в стенку. Оно означает: а) чтение статей по теме; б) обсуждения темы на созвонах (2-3 раза в неделю); в) изучение полезных инструментов; г) постановку экспериментов, которые помогают протестировать мелкие гипотезы, которые появляются по ходу дела или просто лучше понять задачу. При этом я могу попросить коллегу сделать какой-нибудь эксперимент, но чаще делаю их самостоятельно. Вот так, в чередованиях этих активностей, и проходит мой день. В какой-то день я могу почитать больше статей, а в какой-то - больше поэкспериментировать, бывает по-разному.
2. "Работа над гипотезой": происходит после того, как какая-то достойная внимания гипотеза получает первые подтверждения. Подтвердиться может не обязательно моя гипотеза, но и гипотеза других коллег - в этом случае я подключаюсь к тому, что делали они или начинаю делать что-то около этого. В этом режиме я (и/или коллеги по моей просьбе) ставлю эксперименты именно по той гипотезе, которая подтвердилась и развиваю именно её. Здесь уже с большой вероятностью имеет место совместная работа. Конечно, созвоны с обсуждениями тоже продолжаются, но основная часть моего дня занята экспериментами по конкретной теме. Чтение статей или изучение новых инструментов отходит на второй план.
#о_себе
Увидела результаты подробного опроса около 300 специалистов, работа которых связана с машинным обучением - https://devcrowd.ru/ds24/community_2/
Было очень приятно, что довольно большой процент респондентов отметили мой паблик как один из источников информации по теме (рис. 1), спасибо вам. ❤️
Еще интересно, что почти половина опрошенных хочет подтянуть свои знания в математике (рис. 2). Надо будет подумать, о каких ещё полезных источниках на эту тему я могу у себя рассказать 🤔
Так, господа новые подписчики и дамы новые подписчицы. 🤨
Из-за обилия новых людей в паблике у меня слетела одна из реакций. Необходимо исправить эту ситуацию, поставив бусты:
/channel/boost/tech_priestess
Если не поставите, уберу клоунов и какашки из реакций! 😼😼😼
Сегодня по программе решаем лингвистические задачки из "Кванта" и радуемся моему маникюру 💅
#книги
Сатана в принципе много чего хорошего делает
Читать полностью…Оказалось, что на тех валидационных доменах, на которых я отбирала координаты, у меня пересекались validation (собственно то маленькое подмножество домена, на котором отбирались координаты для удаления) и test (подмножество домена, с которого результаты шли в таблицы). 🤡
Я обнаружила это буквально перед самым дедлайном подачи camera-ready версии, когда уже физически не успевала пересчитать все правильно... 🥲 Поэтому мне было очень больно и стыдно, и я не знала, что делать... 😢
В итоге договорились с коллегами добавить пересчитанные результаты в постер, презу и на гитхаб: https://github.com/SilverSolver/RobustATD/edit/main/README.md
К счастью, основного результата статьи новые результаты не отменяют, но конечно, конкретные цифры в таблицах изменились.
Пересчитывать это все было очень тяжело, в первую очередь морально. Признавать ошибки, тем более, такие тупые и непрофессональные, вообще тяжело всегда.
#объяснения_статей
Ставь класс, если на Хэллоуин надел костюм n-скелетона CW-комплекса. Посмотрим, сколько нас!
Читать полностью…Мы с коллегами выложили препринт по новому исследованию почти месяц назад, а я всё никак не соберусь написать про него в паблик...
Пора заканчивать это безобразие!!! 😡
Итак, работа называется Listening to the Wise Few: Select-and-Copy Attention Heads for Multiple-Choice QA: https://arxiv.org/abs/2410.02343 .
В ней мы анализируем механизмы, с помощью которых LLM-ки решают задачу Multi-Choice Question Answering (MCQA). Напомню, что в этой постановке модели на вход подают вопрос с несколькими возможными вариантами ответа, которые обычно помечены как A, B, C, D, и спрашивают, какой вариант правильный. Для этого в конце промпта обычно просто пишут "Answer:" и смотрят, какие модель предскажет вероятности на токены, соответствующие буквам A, B, C и D. Та опция, для которой вероятность токена больше других, и считается ответом модели (на практике на самом деле сравнивают даже не сами вероятности, а логиты, потому что так удобнее). Самый известный пример датасета, сделанного в такой манере - MMLU (Massive Multitask Language Understanding), результат по которому традиционно репортят в технических отчетах, сопровождающих новые LLMки.
Мы подтвердили результаты предыдущих исследований, в которых говорилось, что наибольшую роль в решении таких задачек играют средние multi-head attention слои модели и нашли конкретные головы внимания в LLAMA-1-2-3, -chat и -base, которые за это отвечают. И что еще более интересно, оказалось, что если на этих головах посчитать dot-product-ы от векторов query и key, соответствующих символу переноса строки в конце каждой опции, а потом посмотреть, какой dot-product больше и выдать соответствующую опцию в качестве ответа, то результат будет лучше, чем если оценивать ответ модели на MCQA обычным способом. Этот новый способ мы назвали "Query-Key Score" (см. рис.1).
Сейчас внимательный читатель может воскликнуть: так вы же просто посчитали attention score на каждый токен переноса строки после опции! Это почти так, но не совсем, потому что при этом результат НЕ умножается на Rotary Positional Embeddings (RoPE), которые используются при вычислении attention в LLaMA'х (по поводу того, как это работает, рекомендую прочитать оригинальную статью "RoFormer: Enhanced Transformer with Rotary Position Embedding"). Впрочем, обычные attention scorы мы в статье тоже рассмотрели.
#объяснения_статей
А какой пост на моем канале вы считаете самым кринжовым? 🤔
Читать полностью…А помните этот пост? Как же давно это было 😌
Читать полностью…Благодаря подписчикам (см. комментарии к предыдущему посту), нашлась полная версия передачи: https://m.youtube.com/watch?v=6JTyOtxNckU
Отрывок про птицу с яйцами начинается где-то с 6:25 . Там добавлены вставки, в которых доктор биологических наук объясняет причины, по которым такая птица не может существовать. В короткой же версии из поста выше кажется, будто доктор подтверждает фейк, потому что слова вырваны из контекста.
Мораль: никогда не давайте интервью Рен-ТВ 🥴🥴🥴
Всем спасибо за внимание к этой чрезвычайно важной информации. 😌
#генерация
Выбор, который обнаруживаешь в середине карьеры
Итак, вижу, что всем интересно, что такого понимает человек, после прохождения определенного этапа карьерного пути. У меня эта тема тоже откликается ❤️🔥и я с радостью поделюсь своим мнением. Я пришел к нескольким выводам, но все они достаточно объемные. Поэтому в этом посте расскажу про один.
На самом деле для вас не заготовлено никакого карьерного пути, по которому вы будете двигаться, хорошо делая свою работу и потихоньку повышая свои навыки. Вам нужно будет решить что делать дальше.
Большинство из нас привыкли, что нужно следовать правилам и все будет хорошо. Ходишь в школу, получаешь оценки. Потом институт, где то же самое. На работе, если ты приходишь в крупную компанию, то начинаешь получать грейды, повышения на ревью и кажется, что так будет всегда.
На самом деле нет) Во взрослом мире нет готовой траектории. Компания доведет вас до синьора или тимлида, а дальше все зависит от вас. И вам нужно будет делать выбор что делать дальше. Вот варианты, которые есть на мой субъективный взгляд
- Путь жизни. Может быть вас все устраивает. Вы достигли желаемой карьерной позиции. Можете оставить гонки в стороне, наслаждаться жизнью, заниматься хобби, семьей и так далее. Абсолютно нормальный здоровый выбор
- Путь менеджера. Быть менеджером - интересно, хотя характер работы сильно меняется. Нужно понимать, что тут вам никто не приготовил позиции на вырост и ваша задача самим их себе искать. Внутри или вне компании. Конкурировать в другими такими же менеджерами и выстраивать хорошие взаимоотношения с людьми, чтобы когда будет возможность вас позвали. Да, и с инженерным развитием этот путь сочетать не получится.
- Путь стартапера. Вы можете быть фаундером или прийти на позицию DS-а кофаудера, или пойти работать в стартап на ранней стадии за долю. Наверное, это самый престижный путь. Кто не хочет стать новым Сэмом Альтманом? Но если в компании менеджерские позиции так или иначе появляются и расти вполне реально, то в стартаперстве вероятность заранее не в вашу пользу. Пан или пропал. Я думаю, чтобы идти в стартап, нужно очень хотеть и гореть идеей.
- Путь мастерства. Вы стараетесь стать первоклассным инженером на позиции синьора или руководителя относительно небольшого отдела. На этом пути главное - получение общественно признанных достижений. Выступления на конференциях, статьи, работа в престижной компании, публичные репозитории, курсы, телеграм канал в конце концов. Почему именно публичные достижения - это единственный способ получить реальную оценку. Вы конечно можете получить сверхрезультат на ревью, но это медалька в своей песочнице.
В общем, я выбрал для себя путь мастерства. И во многом поэтому я перешел из Сбера в Авито с сильным уменьшением количества подчиненных, но на гораздо более сложную техническую задачу.
На этом наверное все. Обсуждения крайне приветствуются. И еще я запущу опрос за какой вы путь 💎
Если вам было интересно и хотите послушать от меня еще инсайтов, накидайте еще 🐳
#worklife
🔜Читайте также
Инфляция грейдов
Мои сильные и слабые стороны
Мои принципы в управлении
У команды Аяза Шабутдинова закончились фотографии. Теперь они выставляют в инсту крутые картинки генерированные нейросеткой. Ванильные тексты подозреваю тоже ИИ пишет.
Мне очень нравится.
п.с. Советую ребятам начать рисовать иконы с Аязом и написать житие великого мученика.
Хочу, чтобы Дуров ввел систему 🤡-компьюта. Работать она будет так:
Каждый раз, когда подписчик ставит "🤡" на пост в телеграмм-канале, его устройство автоматически на час подключается к ботнету, который админ канала может использовать для своих расчетов. Например, это могут быть какие-нибудь эксперименты с мелкими ллмками. Потом, если админ эти эксперименты добавит в свою статью, то должен будет добавить * со значком 🤡 в сноске, как упоминание о том, откуда взят компьют, так сказатб, для воспроизводимости.
А если админ не придумает никаких расчетов для запуска, то запустится расчет по умолчанию. Этот расчет будет майнить за счёт компьюта подписчика новую валюту: 🤡-коины.
Давайте попросим вместе: Дуров, сделай 🤡-компьют!
3. "Последняя неделя-две перед дедлайном": Тут начинается "затыкание дырок". То есть, в каждый момент времени, я смотрю, какая часть работы, наиболее критична и стараюсь сконцентрироваться на ней - если работа находится в рамках моих компетенций; если нет - то я, конечно, ее делегирую. Например, у младшего коллеги могут возникнуть какие-то технические проблемы, которые мешают ему работать, и в этом случае надо срочно их решить (либо передать на решение IT отделу, если не могу решить сама), потому что терять время перед дедлайном нельзя. Или на созвоне обнаружилось, что нужен какой-то дополнительный эксперимент, а все остальные коллеги уже заняты - тогда я его делаю, если могу за разумное время. Если нет, то эксперимент передается коллеге, который может сделать его быстрее, а я доделываю то, что он делал раньше - как бы меняемся задачами. Также может потребоваться напоминать коллегам о том, что нужно сделать, посмотреть, не нужен ли дополнительный созвон, договориться о сроках, в которые будет выполнена каждая часть работы и так далее (это отчасти тимлид, отчасти я, в зависимости от ситуации). И это не говоря о само собой разумеющихся вещах, таких как: поработать над теми частями текста статьи, которые я на себя взяла; проверить адекватность своего и чужого текста; привести в порядок код, который будет выложен при подаче препринта и т.д. и т.п. Короче, в этом режиме я часто переключаюсь между текстом статьи, экспериментом и какой-то организационной деятельностью и испытываю стресс.
4. Особые события - это поездка на конференцию / в командировку / на воркшоп / занятие инженерными вещами, которые нужны компании, типа очистки данных / рецензирование статей. Ясно, что в этих случаях я занимаюсь соответствующими активностями.
#о_себе
Шикарная ситуация: авторы стебанулись над рецензентами, которые заставляли их что-то ненужное (но может быть зато свое, родное) цитировать, и прямо написали об этом в тексте статьи.
Редактор все это дело пустил «в работу» и вот, статья, с таким красивым абзацем в конце введения, уже в печати 🥳
Одним словом авторы - капитальные красавчики. Другими словами - титановые шары у этих авторов 😁
Причем журнал вполне приличный (IF 8.1). Кризис научных журналов продолжается, в общем. Кстати, в том же MDPI, к рекомендациям типа «милок, ты вот эту пачку статей еще процитируй и все будет норм», относятя более чем строго. Своего вообще ничего нельзя советовать, а насчет чужих работ тоже еще десят раз уточнят, точно ли это нужно.
PS. Ссылка на саму статью авторов c Balls of Steel из Поднебесной тут.
Почему все с таким интересом обсуждают новый интерфейс для чатгпт в виде крысы? 🤔
Читать полностью…Сегодня праздник - день рождения Марии Кюри. Предлагаю в честь этого посмотреть короткий видос с обзором её диссертации, в которой рассказывалось про изучение явления радиоактивности и выделении нового элемента - Радия:
https://youtu.be/-Vynhniw7SY .
А тем, кому интересно почитать про её жизнь, рекомендую книжку, изображенную на рис. 1, мне очень понравилась. В ней и фотографий исторических много (рис. 2), и отрывков из её писем и дневников, и много чего ещё, что позволяет окунуться в атмосферу её жизни, а также жизни её ближайшего окружения.
Например, рассказывалось, как Пьер Кюри поддерживал её во всех её исследованиях, делал для неё измерительные приборы и вместе с ней проводил эксперименты по выделению радия. Короче, единственный нормальный муж. Жалко, что так рано умер. 😢
Было ещё очень грустно читать, что даже после смерти Пьера, Мария продолжала писать в дневнике про события своей жизни, обращаясь к нему, даже зная, что он никогда не прочитает эти строки... 😢
Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»
Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML
— @ai_newz — эйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте
— @seeallochnaya — Сиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории
— @gonzo_ML — gonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны
— @boris_again — Борис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM
— @rybolos_channel — Kali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности
— @tech_priestess — Техножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении
— @dealerAI — DealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей
— @sysblok — Системный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках
Ребят, ну поставьте классов на посты, где я рассказываю про научные статьи, я же старалась...
UPD: А то вы только на мемы ставите в последнее время. 🤡
Теперь надо рассказать про еще одну статью от нас с коллегами под названием "Robust AI-Generated Text Detection by Restricted Embeddings": https://arxiv.org/abs/2410.08113 . Работа эта была написана несколько месяцев назад и уже была принята на Findings of EMNLP 2024.
Статья снова посвящена нашей старой теме - детекции искусственно сгенерированных текстов, но в этот раз мы подошли к этой теме с новой стороны, а точнее, с нового гиперпространства. 🌚 Мы рассмотрели один из самых простых и распространенных способов детекции - по эмбеддингу с последнего слоя RoBERTы (и других небольших моделей) - и задались вопросом: а не может ли быть так, что в кросс-доменной постановке задачи какая-то часть эмбеддинга не помогает детекции, а, наоборот, вредит? Под "кросс-доменной постановкой" я понимаю в данном случае ситуацию, когда мы тренируем наш детектор детектировать сгенерированный текст по одной тематике (или сгенерированный одной моделью), а потом тестируем его на тексте с другой тематикой (или на тексте, сгенерированном другой моделью). И то, и то (т.е. и другая тематика, и другая порождающая модель) здесь и далее будет называться "другим доменом".
Так вот, действительно оказалось, что некоторые "вредные" подпространства в пространстве эмбеддингов содержат слишком специфические для данного домена признаки, на которые модель как бы переобучается, и от этого ее становится сложнее перенести на другой домен. А если эти признаки убрать, то модель, наоборот, не сможет зацепиться за специфические признаки и будет лучше переноситься.
Эти "вредные" подпространства (и просто "вредные" признаки сами по себе) из эмбеддингов в статье выкорчевывались несколькими способами. Два из них требовали наличие двух "валидационных" доменов:
- из эмбеддингов удалялись те координаты, удаление которых помогало кросс-доменной переносимости между двумя выбранными валидационными доменами;
- прежде, чем считать финальный эмбеддинг, в модели удалялись те головы, удаление которых также помогало кросс-доменной переносимости между двумя доменами.
Также был опробован concept erasure - метод из другой статьи, с помощью которого из эмбеддинга научились удалять некоторую информацию о синтаксисе и семантике текста. Например, оказалось, что удаление информации о глубине синтаксического дерева помогло кросс-доменной переносимости.
Кроме этого, мы пробовали просто "выключать" MHA на целых слоях, и снова оказалось, что существуют слои, выключение которых немного помогает на кросс-домене. Для Роберты это были, например, 1-й и 4-й слои (в статье приведена статистика и по остальным слоям тоже).
Кроме того, мы сравнили эти методы с нашим старым методом детекции по внутренней размерности, и показали, что они работают в тех случаях, в которых внутренняя размерность не работает.
Я была рада работать над этим исследованием и была в целом довольна, что его приняли на Findings. Однако уже после принятия статьи случилось непредвиденное: в тех экспериментах с удалением координат из эмбеддингов, над которыми я работала (selected coordinates), нашлась ошибка... 🔍 (см. следующий пост)
#объяснения_статей
Так вот, оказывается, что при оценке ответов небольших (7-13B) версий LLaMA в zero-shot через Query-Key/Attention Score на "умных" головах, результаты получаются существенно лучше, чем оценка ответов тех же моделей через логиты (для 70B и во few-shot уже не все так однозначно). Выходит, что "умные" головы со средних слоев этих небольших моделей "знают" ответ на MCQA, но не всегда могут донести это знание до выхода модели - "по дороге" к последнему слою это знание чем-то портится. Этот эффект мы увидели сразу на нескольких датасетах - MMLU, HellaSwag, CosmosQA, HaluDialogue (см., например, рис. 2 - там показано accuracy для zero-shot и few-shot постановок; PRIDE - это метод из какой-то другой статьи, уже не помню, что там было). Еще больше эффект проявлен на синтетическом датасете, который я сгенерировала специально для того, чтобы изолировать способность модели решать MCQA от знания конкретных фактов. Для решения синтетического датасета никаких фактов помнить не надо, а надо просто выбрать опцию, которая соответствует слову, заданному в промпте. Семи-восьми-миллиардные лламы не очень хорошо решают это задание, особенно базовые версии, несмотря на то, что они видят правильный ответ прямо в промпте. А с помощью QK-Score задание решается хорошо - настолько, что разница доходит до десятков процентов (см. рис. 3; обратите внимание, что по абсцисс тут уже не количество shot в промпте, а количество возможных вариантов в синтетическом датасете). Таким образом, QK-Score лучше выявляет знания тех моделей, которые не очень хорошо понимают данный формат.
Эти результаты многое говорят о нашем обществе об ограничениях MCQA-формата и о несовершенстве современных трансформерных архитектур, внутри которых не вся полезная информация доходит до финального слоя модели. Если вам интересно посмотреть результаты более подробно, рекомендую пройтись по статье, там у нас много дополнительного анализа и иллюстраций, над которыми все очень старались!
#объяснения_статей
В ноябре будет два года, как я на PhD в Queen Mary University of London. По этому поводу написала пост с моментами, на которые стоит обратить внимание, если вы задумываетесь над тем, чтобы сделать PhD в Лондоне/UK.
Тизер к статье: когда я выбирала место для PhD, я по личным причинам рассматривала только Лондон. Поэтому я не особо погружалась в нюансы и различия между PhD программами в UK и в других странах. А зря =( Общую идею поста, наверное, можно подвести так: если бы я заранее осознавала моменты, описанные ниже, я бы выбрала поехать куда-то еще.
atmyre/1dZUxGS4yag">Пост
Возможно, кто-то из читателей натыкался на старые книги, написанные в форме диалога учителя и ученика либо просто представителей разных точек зрения, в которых обстоятельно обсуждались различные философские и математические вопросы...
...ну а я сегодня наткнулась на видос, который является современным переосмыслением этого формата изложения научной мысли:
https://youtu.be/tuDACYvlZaY
Tl;Dr: две милые аниме-девочки обсуждают, что такое дуальные числа и как они связаны с понятием производной. Приятного просмотра!
P.S. На канале автора есть и другие видео в таком же жанре, так что продолжаю ознакомление 😺
#математика
Так, хватит хиханек-хаханек, пора возобновлять рубрику #книги . Сегодня я хочу рассказать про интересную книжку под названием "ГЕОМЕТРИИ" от А.Б. Сосинского 💅 (рис. 1).
Геометрия в ней понимается в смысле Клейна, т.е. как множество с действием группы на нем. В качестве множества обычно берется множество точек, а в качестве группы - множество допустимых в данной геометрии преобразований. Подобным образом автор задает "геометрии симметрий многогранников", а также знакомые нам обычную геометрию Евклида, Лобачевского, Римана и т.д. (см. оглавление книги - рис. 2). Это не совсем стандартный подход, и читать про него довольно интересно.
В частности, мне понравилась часть про платоновы тела (рис. 3-4), в которой автор доказывает с помощью методов теории групп, почему в трехмерном пространстве их существует всего пять; да и в целом часть про теорию групп в этой книге мне понравилась.
Книга сравнительно доступна: она рассчитана на студентов мехмата или другого похожего факультета 1-2 курсов. Еще из плюсов книги можно отметить то, что она снабжена большим количеством упражнений (рис. 5), многие из которых имеют ответы и указания к решению в конце.
Я сама пока что прочитала около трети книги. Из того, что на данный момент непонятно: не соображу, почему все-таки если задать Евклидову геометрию (и другие на рис. 6-7) множеством точек и действующим на нем преобразованием, то нам больше не обязательно использовать аксиомы Евклида? Чтобы это было правдой, аксиомы Евклида должны выводиться из этого нового определения, но как сделать этот вывод, мне пока не очевидно. 😌
UPD: в комментариях начали разбирать этот вопрос, заходите
Что-то у меня не получается найти исходник "передачи на РЕН-ТВ", в которой это показывали 🤭🤭🤭
Может быть, само существование этой передачи - тоже псиоп? 🤔
#генерация
Наконец-то вышла долгожданная третья часть видеоэссе про компанию-которую-нельзя называть: 3 часть (напомню, что первые две части можно увидеть здесь: 1 часть и здесь: 2 часть).
В новом видео автор рассказывает про создателей этой замечательной платформы (скажу всего два заветных слова: бизнес молодость 🥂), а также разбирает содержимое их курса по продвижению паблика ВК. Этот момент меня, конечно, несколько разочаровал, потому что я бы с большим интересом посмотрела разбор содержимого какого-нибудь курса по программированию, но автор честно сказал, что не имеет достаточной квалификации для такого разбора и вместо этого выбрал тему, в которой разбирается. Впрочем, честное признание своих компетенций тоже достойно уважения, да и разбор все равно в итоге получился весёлым.
Кроме этого, видео содержит обсуждение юридических моментов касательно возврата денег за курс и подозрительных отзывов (этот момент показался мне особенно забавным).
Ну и как вишенка на торте, объясняется, что -бокс, -фактори и -брейнс принадлежат одним и тем же людям. 👩🤵♂️
#ИИнфобизнес
Кидайте в комментарии самые базированные страницы на Google Scholar, которые вы когда-либо находили.
Я начну: https://scholar.google.com/citations?user=6tmn5WoAAAAJ