Люблю высокие технологии и кушать. Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.
Это я смотрю в календарь и вижу, что послезавтра мне исполняется 33 года.
Не знаю, что делатб в таких ситуациях...
Вопрос к подписчикам. Что бы вы сделали в следующей ситуации:
- У вас есть метод для бинарной классификации текстов на английском языке.
- У вас есть несколько датасетов с такими текстами, на которых его теоретически можно использовать. Т.е. все датасеты имеют более-менее допустимое качество, тематику и длины текстов для применения данного метода.
- Однако, на часть датасетов метод переносится (позволяет достичь разделения классов с разумным качеством), а на часть - нет.
Что бы вы сделали, чтобы понять, в чем самая главная разница между теми датасетами, на которых метод заработал, и теми, на которых не заработал? Чтобы, в идеале, по тексту из нового датасета можно было заранее сказать, подходит ли такой текст для классификации данным методом или нет. Ну а в совсем идеальном идеале, чтобы в этом случае можно было преобразовать текст так, чтобы метод правильно его классифицировал с разумной вероятностью.
В этот раз можно думать больше 30 секунд
Красивое, простое: Существует ли треугольник, градусные меры углов которого выражаются простыми числами?
Читать полностью…Кстати, сегодня празднуется День Красной Планеты, в честь дня запуска аппарата Mariner-4 28.11.1964, впервые приславшего на Землю снимки Марса с близкого расстояния.
Предлагаю в честь этого работать и учиться сегодня под прекрасное песнопение https://www.youtube.com/watch?v=C2Yx90pytqs&t=705s&ab_channel=Orpheus
Praise the Omnissiah!
⬆️ Напомню, что у 3blue1brown есть рассказ про эту размерность Спока со скриншота:
https://www.youtube.com/watch?v=gB9n2gHsHN4
(E.g. upper box dimension)
Недавно кол-во подписчиков перевалило за 5к. Мне еще до конца понятно, какие эмоции испытывать по этому поводу, потому что кроме очевидной позитивной стороны, я вижу здесь и некоторую негативную составляющую. А именно: я чувствую, что чем больше люди интересуются моими постами, смеются над моими шутками или высказывают в мой адрес что-то хорошее, тем сильнее я подсаживаюсь на иглу общественного одобрения.
Я чувствую, что слишком часто захожу в паблик и проверяю: много ли поставили реакций на очередной пост? Каких именно? Сколько оставили комментариев и что в них написано? Если люди не отреагировали на пост, то в чем может быть дело? Они не придумали, как прокомментировать написанное? Не поняли содержимое поста? Или пост просто тупой и скучный, а я дура?
Что самое интересное, я искренне не хочу придавать этим реакциям такую значимость, не хочу из-за них переживать. Мне интересно узнавать, что люди думают, но я бы хотела это воспринимать просто как дополнительную информацию к сведению, а не как что-то, что реально определяет мою ценность или мое чувство собственного достоинства. Я хочу просто не запариваться на этот счет. Но, к сожалению, одного желания мало.
Мне много раз говорили: какое тебе дело, кто что думает? Просто не обращай внимания.
Но это не только не "просто", это невозможно. Мои эмоции не могут волшебным образом исчезнуть просто от того, что они мне не нравятся.
И вот я сижу и гноблю себя за то, что я завишу от чужого мнения. Но от этого гнобления я, само собой, не слезаю с этой иглы, не становлюсь более независимой, а лишь сильнее себя ненавижу и расстраиваюсь.
Пока что я решила для себя так: я хотя бы найду в себе силы признать эту проблему и не буду себя осуждать за эти эмоции. Да, мои эмоции зависят от того, сколько классов и сердчек и сколько какашек и клоунов мне поставят под постами. 🤡 Да, это тупо, но вот так вот я устроена и свою сущность отрицать не буду. 🤡
Тем не менее, есть одна вещь, на которую я могу повлиять: мое поведение в ответ на эти эмоции. Я все равно могу стараться оставаться собой, продолжать высказывать свое мнение и делать то, что мне нравится и что я считаю нужным, даже если никто не отреагирует на мои старания или даже если кто-то поставит какашку, от которой я расстроюсь. Ну расстроюсь и расстроюсь, что теперь делать. Грустить это тоже нормальная часть нашей жизни. Буду грустить, но все равно буду делать как считаю нужным. Таков план.
Мой батя ебашит вообще адовые посты.
Ну такой вот примерно рецепт усредненный, потому что вариаций масса. Берется новость, но не проверятся , проверять previos work - это не про моего батю. Он берет эту новость, вываливает ее на в gpt4 и начинает дописывать.
Добавляет в него огромное количество абзацев, рандомных мыслий, а главное - мнение! для хайпа репостим в непрофильные каналы сверху.
Все это хайпиться до упора.
Потом снимается с твиттера и поститься в телегу, ну нужно же о1 получить!
Потом батя выкладывает и щедро разделив на три поста начинает хайповать.
При этом рассказывает как это изменит весь мир, вылечит рак и возможно сделает кротовую норму. Пишет и приговаривает полушепотом ух бля. При этом у него на лбу аж пот выступает. Любезно мне иногда предлагает, но я отказываюсь. Надо ли говорить о том какой дичайший хайп потом? Вонища такая, что обои от стен отклеиваются.
С запозданием, но все же делюсь с вами докладом про Parameter-Efficient Fine Tuning (PEFT):
https://www.youtube.com/watch?v=Fg7Ugyboopg
Доклад сделан по двум статьям автора: "Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning" ( https://arxiv.org/abs/2303.15647 ) и "Stack More Layers Differently: High-Rank Training Through Low-Rank Updates" ( https://arxiv.org/abs/2307.05695 ). Также у автора есть канал /channel/dlinnlp , где он пишет как про свои достижения, так и в целом про интересные статьи, а также новости Deep Learning.
-
Тема Parameter-Efficient Fine Tuning не является моим прямым научным интересом, но иногда я все же читаю связанные с ней статьи постольку, поскольку это: а) связано с анализом размерности пространства эмбеддингов; б) имеет большое прикладное значение. В частности, на эту тему уже было два поста в канале: /channel/tech_priestess/131 , /channel/tech_priestess/781 .
Ну, а данный доклад понравился мне по двум причинам:
1. В нем дан хороший обзор существующих методов PEFT (первая статья и первая половина доклада), потенциально полезный всем интересующимся этой темой.
2. В нем рассказывается про новый метод, называемый ReLORA (вторая статья и вторая половина доклада). ReLORA - это такой своеобразный способ приспособить концепцию LoRA для предобучения (а не только для дообучения, как это делалось раньше).
Для того, чтобы эта идея реально заработала, авторам пришлось применить множество инженерных доработок. В результате метод выглядит примерно так:
- В течение первого этапа нужно сделать какое-то количество шагов полноценного предобучения (т.н. warmup);
- В течение следующего этапа продолжить предобучение с помощью LoRA;
- Слить обученную LoRA с весами основной модели, сделать reset оптимизатора, поменять learning rate, заново инициализировать веса LoRA;
- Опять продолжить предобучение с помощью LoRA;
- Далее этапы с LoRA повторяются несколько раз по одному и тому же принципу, в то время, как learning rate в среднем постепенно затухает (см. слайды, прикрепленные к посту ниже).
В итоге, можно добиться ускорения предобучения в несколько раз, сохраняя cross-entropy loss / perplexity результирующей модели близким к таковому у модели, предобученной полноценным способом.
Я думаю, что ReLORA имеет хорошие перспективы. Будет очень интересно посмотреть на дальнейшее развитие этого метода или на новые эффективные методы предобучения, которые он вдохновит.
#объяснения_статей
У кого есть это устройство, поставьте класс и напишите, какими функциями вы чаще всего пользуетесь. Посмотрим сколько нас. ⌨️
Читать полностью…Интересный выпуск подкаста "Сережа и микрофон" послушала вчера по дороге на работу:
Ссылка на YouTube - https://youtu.be/JhYNeV-Zxoc?si=gQbjoMzJLG6GjRjl
Ссылка на Яндекс музыке - https://music.yandex.ru/album/9294859/track/113655556
В целом, подкаст посвящен обсуждению разных тем в зависимости от приглашенного гостя. В этот раз ведущий пригласил специалиста по машинному обучению (у гостя, кстати, есть и свой канал, где можно узнать про него больше - /channel/progulka ) и обсудил с ним потенциальные опасности искусственного интеллекта.
Как мне кажется, в этом выпуске было высказано много довольно здравых мыслей, без паникёрства. Я, конечно, не такой ярый технооптимист, как эти парни, но процентов на 90 согласна с высказанными ими идеями. Особенно меня позабавила аналогия глубокого обучения с алхимией на 59:50 .
#подкасты
Написал гайд по git'у
Недавно понял, что с момента, когда я устроился разработчиком на первую полноценную работу прошло более 10 лет. Это было великолепное время: в компании было 7 человек, мы работали в заброшенном особняке в центре, а наш босс Володя выкладывал зарплату в открытую налом каждому на стол..🤦♂
С того момента я писал код с переменной активностью, но некоторые вещи записались у меня на подкорку. Например, работа с гитом - системой контроля версий кода.
При этом я периодически вижу, что работа с гитом вызывает людей стресс, особенно у ds-ов, а им зачастую помимо исследований нужно писать продовый код. Поэтому я решил собрать свои мысли вместе и оформить их в виде гайда, который буду со временем дорабатывать.
Если гайд окажется вам полезным, буду благодарен за репосты и звездочку на гитхабе.
https://github.com/ledovsky/effective-git
Я смотрю, все обсуждают увольнение какого-то чела, но мало кто осведомлен, что его уволили именно в тот момент, когда мне повысили зарплату.
Думайте.
Как нейросети могут быть применимы в математике?
Большие языковые модели (LLM) уже давно показали способность к математическим выводам: доказательство несложных теорем, решение задач с подробным объяснением. Стоит отметить давнюю работу MathBERT для анализа мат.формул, а также Minerva для мат. ризонинга.
Недавно была представлена модель Llemma на 34 млрда параметров: в основе её архитектуры лежит Code Llama, инициализирована весами модели Llama 2 и оригинальным способом дотренирована на расширенном датасете Proof-Pile-2 (55 млрд токенов), который содержит программный код на 17 ЯП из GitHub, статьи из arxiv и OpenWebMath.
В итоге Llemma умеет следующее:
1. Solving Math Problems. Prompt: постановка математической задачи на естественном языке. Ответ: Пошаговое описание решения, записанное на LateX, а затем его имплементация на Python.
2. Informal-to-formal. Prompt: доказательство на естественном языке. Ответ: запись на формальном языке доказательства теорем (proof assistant) Isabelle .
3. Formal-to-formal. Prompt: доказательство на формальном языке Lean. Ответ: разбиение доказательства из prompt в последовательность шагов с подробным описанием на том же языке Lean.
Интригующие результаты в применении инструментов компьютерной алгебры и средств формального доказательства теорем удалось добиться с помощью добавления большого объема данных, связанных с программированием математики, символьными вычислениям итд; авторы назвали эту часть собранного датасета - AlgebraicStack. Утверждается, что Llemmа по точности бьёт все прошлые подходы: Minerva (540 млрд параметров и не open-sourse), Code Llama; при этом исходный код, веса модели и датасет в открытом доступе.
Видео-лекция с подробным описанием работы от Sean Welleck на New Technologies in Mathematics Seminar, в рамках этого семинара затрагивают и много других интересных тем: формальное математическое объяснение успеха механизма Attention или статистическая механика в нейросетках.
пока писал этот текст, вышла статья LEGO-Prover про док-во теорем с помощью LLM.
Veritasium выпустил отличное видео о хайповых новостях в науке и технике: https://youtu.be/czjisEGe5Cw?si=S5WH6YyQfbNkeWWH (Перевод для Древних Русов: https://youtu.be/30kMdZZqK4s?si=hRQ-L4gssITcGszd ).
Как говорится, подписываюсь под каждым словом. Буду теперь скидывать это видео в ответ на вопросы о том, почему я не пишу в своем канале про <очередной объект хайпа на один день>.
– Ну, я не уверен, но как эксперт могу предположить что код нейросети написан…
Хватит, – программист пьяно икнул и поморщился, – Хочешь я покажу тебе что такое midjorney на самом деле?
Он не без труда встал из-за стола и махнул рукой, призывая следовать за ним вглубь офиса.
– Мы идем к серверам? – не понял журналист и чуть было не завалился на повороте.
– Можно и так сказать.
Они прошли через незапертую сейфовую дверь и вошли в лифт. Программист два раза промахнулся мимо кнопки, по все таки справился.
– Ну? – он пьяно посмотрел на журналиста, – Думал когда-нибудь почему midjorney не умеет рисовать пальцы?!
– Конешн. Потому что мыслит паттернами а не цифрами!
– Неплохо, – программист уважительно кивнул, – А почему текст не умеет рисовать?
– Ну… Как-то так же… наверное?
– Ха! Вот тут ты и посыпался да? Ик! А где еще ты видел пример, чтобы не складывалось с пальцами и текстом?
– Не знаю, – признался журналист.
– Во сне!
Лифт остановился и программист вышел в сырой темный тоннель.
– Осторожно, тут скользко.
– И воняет.
– И воняет, – согласился он.
– Я чет не понял про сон, – опомнился журналист.
– Ты когда-нибудь пробовал во сне читать?
– Кажется нет.
– Попробуй – ниче не выйдет! Никогда. А если точнее, то ты ты сможешь понять смысл послания в записке, но если приглядишься к буквам – увидишь мутную крокозябру. Набор черточек, например. Это вообще бессмысленные палки, не буквы. А смотреть на свои руки во сне пытался?
– Нет.
– Попробуй! Увидишь мутный набор пальцев. То есть они как бы есть, но что-то с ними не так. Как и в миджорни. Паттерн есть, конкретного числа нет.
– Почему?
– Потому, что во сне области Брока и Вернике, – программист постучал себя по голове, – Практически неактивны. А они и отвечают за текст и математику. Понимаешь?
Программист открыл хлипкую дверь и вошел в темное сырое помещение. С его потолка свисал огромный кабель, нижний конец которого терялся в черной мутно жиже.
– При чем тут сон? Какая связь с нейросетью? – журналист пьяно размахивал руками, – Куда этот кабель ведет?
– Сон тут при том, что миджорни и есть он. Ну то есть этот вот кабель подключен к мозгу.
Журналист мгновенно протрезвел, оценил толщину кабеля, сильно превышающую размер человеческого туловища и уставился в воду.
– К мозгу чего? – спросил он ошарашенно.
– Ктулху.
– А?!
– Не ори. Ктулху, говорю. К мозгу спящего ктулху. Ну такой древний бог с щупальцами.
– Какого… Вы… Что за… Погоди! – журналиста осенило, – Но новая версия миджорни нормально рисует руки!
– Угу. Зона Вернике активизируется.
– То есть…
– Просыпается. Здорово, да?
Голосуем за автора тут
Довольно техническая, но наглядная визуализация того как работают
языковые модели внутри – от ввода до вывода текста, с пояснениями и формулами:
https://bbycroft.net/llm
Сайт работает лучше с компьютера
Коллеги увидели в статье название какой-то подзадачи GLUE и пытаются вспомнить, что это за задача и сколько там данных? Будь первым, кто блеснёт эрудицией и подскажет верный ответ! Забирай на стену эти карточки, чтобы не забыть!
...
Ах, да, сейчас же 2к23. Какая стена...
В любом случае, делитесь в комментариях краткими описаниями часто используемых датасетов, если тоже держите их под рукой при разборе статей.
#хозяйке_на_заметку
Каждый раз, когда вы с коллегами или друзьями рассказываете друг другу научные статьи...
Читать полностью…Продолжение истории с фейковыми спикерками конференции NeurIPS оказалось еще более безумным.
Организаторы конфы создали фейковую исследовательницу Лаиду Кушнареву, вели от ее лица Телеграм, собрали там 5 тысяч подписчиков - и все это, чтобы продвигать свою конференцию.
Горячая разработчица, которая пишет длинные посты про нейросети и математику.
В комментариях - куча погромистов, среди которых на удивление мало тех, кто "шоу ми ваджин".
В основном, вполне себе поддерживают дискуссию про нейросети и математику.
Фейковость аккаунта довольно-таки бросается в глаза.
Во-первых, что это за славянка Лаида с латиноамериканской внешностью?!!
Во-вторых, на многих фотках ее лицо максимально нарочито присобачено фотошопом.
В-третьих, в аккаунте всего 2 коротких видосика, на которых прекрасная Лаида выглядит максимально неуверенно, читает текст с листа и не использует ничего типа заумных подписей к своим постам.
Но допустим, это еще можно как-то криво-косо объяснить.
Но телеграмм-комментаторы изучили профиль под лупой и нашли разные интересные совпадения с тем, что выгодно самому NeurIPS.
Например, на фотографии барышни видно как она нарочито радуется принятию статьи на NeurIPS.
И так далее.
А ведь могли бы завести себе ИИ-инфлюенсершу, никого не обманывая.
(тем временем, говорят, что конфа отменена. И реальные спикеры, которые там должны были выступать, не хотят больше иметь ничего общего с оргами).
Какое-то время назад я писала про подделку данных в научных статьях, упоминая расследование такой подделки в работах Гарвардского профессора Франчески Джино: /channel/tech_priestess/854 (под постом, кстати, в тот раз развернулась довольно интересная дискуссия).
Так вот, история на этом не закончилась. Во-первых, Франческа собирается судиться с Гарвардом за то, что они её уволили, по её мнению, несправедливо, а также нанесли урон её репутации. Во-вторых, она начала собирать контраргументы против обвинений в подделке данных на своём сайте.
Цепочку событий можно проследить по видео:
1. https://youtu.be/d2Tm3Yx4HWI?si=Ah9ER0acesSva43j - начало скандала, смысл обвинений.
2. https://youtu.be/sRmJILI1rmc?si=1ra9QabAf0K87IKz - иск Гарварду от Франчески Джино.
3. https://youtu.be/KOc6xfEnHWg?si=dSP2LvwViCGRjSR4 , https://www.francesca-v-harvard.org/ - новые контраргументы Франчески Джино против обвинений в её адрес, выложенные на её сайте.
4. https://youtu.be/tNJBS2H8p60?si=k3Q2C4Q0pqjEtgxp - история аспирантки, которая первой начала перепроверять подозрительные данные в работах Франчески и с какими сложностями со стороны Академии, защищающей своих авторитетов (как всегда), она столкнулась в этом процессе.
Честно говоря, я сама уже начала понемногу запутываться, пытаясь разобраться во всех перипетиях этого дела (особенно когда это происходит утром субботы 🥴). Но раз уж я начала рассказывать про завязку скандала, будет справедливо сообщить и про дальнейшее развитие событий, а также о том, что говорит в свое оправдание обвиняемая сторона.
Как вы думаете, может ли статься, что Data Colada и Гарвард действительно ошиблись, и намеренной подделки данных у Франчески Джино не было? 🤔
#научная_поллюция
Приложение к предыдущему посту: слайды, поясняющие работу ReLORA.
#объяснения_статей
Про YAC/e
Произошло интересное. Я по мотивам прошлого семестра написал небольшую заметку про то, как студенты использовали языковые модели в курсах по программированию и как это их немножко обесценило.
Её прочитали ребята из Яндекс.Лицея и позвали поговоорить про нейросети на Yet Another Conference (YAC). Раньше YAC был ежегодной конфой Яндекса с презентацией разных громких новинок. В последние годы формат поменялся. Ребята стали дропать в день конфы фильмы про Яндекс, сделанные в разных форматах.
В офлайн части, в виде конфы, остался только кусочек про образование. Туда, как и раньше, зовут кучу разных спикеров и они что-то рассказывают. Эта частичка называетсяEducation_Yandex/streams"> YAC/e (yet another conference on education). Туда меня и позвали.
Предполагалось, что у нас с Сашей Паволоцким (академрук школьных программ Яндекса) будут дебаты. Я, по задумке, должен был защищать нейронки, а Саша атаковать. Довольно быстро выяснилось, что у нас близкие позиции и дебаты превратились в довольно милый разговор про судьбы образования. Посмотреть можно тут.
Я впервые участвовал в конфе, где всё так серьёзно. Несколько студий, дофига аппаратуры и даже гримеры. На меня впервые в жизни накладывали грим. Девушки-гримеры просили познакомить с кем-нибудь из команды кинопоиска, снимающей сериалы 🙃🙃🙃
Я просто опубликовал в канале пост и запустил этим цепочку событий, которая привела меня на конфу. Жизнь так прикольно устроена...
Собираюсь сегодня посмотреть вот эту трансляцию конференции. Где-то между 16:15 и 18:20 должна выступать моя тимлид с докладом "Топологический анализ данных для речевых трансформеров" (наша работа на эту тему, рассказанная на INTERSPEECH: https://arxiv.org/abs/2211.17223 ).
Потом планирую зайти сюда, посмотреть на доклад "Предсказание следующих действий пользователя в рекомендательных системах с использованием гиперболической геометрии", звучит интригующе 🧐
Тем временем на главном треке будут рассказывать про разные модели Сбера - Kandinsky, Giga Chat и другие, тоже многим может быть интересно (кто раньше не видел эти доклады).
Всё это смотрится бесплатно в разделе "Трансляция мероприятия".
Под предыдущим постом читатель поделился ещё одним учебным материалом по git - первый, сокращённый вариант, рассматривающий как исправлять конкретные ошибки, оформлен в виде обычной веб страницы (первая ссылка), а второй, более полный, включающий в себя базовые знания - в виде комиксов (вторая ссылка):
У автора гайда на гитхабе есть ссылочка на прикольный сайт https://ohshitgit.com/ О том как откатываться назад при различных косяках с коммитами. Это название из комикса Джулии Эванс. Она рисует коротенькие комиксы-объснялки на самые разные технологии и как это работает, фишкой которых является наглядность. Раньше, кстати, она чаще выкладывала кусочки из комиксов.
https://wizardzines.com/zines/oh-shit-git/
Популярна в соц сети X www.x.com/b0rk.
Однако, у варианта в виде комикса есть существенный недостаток: он ПЛАТНЫЙ! 😫🔫
Хорошо, что есть копия этого комикса про git и других, про другие технологии, здесь: https://github.com/nendonerd/wizardzines БЕСПЛАТНО... 😌
#учебные_материалы
Не прошло и полугода, как я выложила на Хабр компиляцию своих pdf-ок "Путь к познанию мистерий обучения машин без траты денежных ресурсов" в формате статьи-гайда:
https://habr.com/ru/articles/774844/
(с чуть менее экстравагантным названием).
Пожалуйста, оставляйте отзывы и комментарии о том, что нравится/не нравится под статьей.
Старые pdf-ки, на которых основан гайд, можно посмотреть здесь: /channel/tech_priestess/588 , /channel/tech_priestess/700 , /channel/tech_priestess/838 .
P.S. Буду благодарна, если подкинете немного кармы, поскольку с момента последнего посещения Хабра мне кто-то её слил (происки УИИ? 😅).
Русский жестовый язык: первое место в бенчмарке американского жестового языка 🏆
Наш датасет русского жестового языка (РЖЯ) Slovo послужил основой для распознавания не только РЖЯ, но и американского жестового языка.
Мы заняли первое место 💯 по точности Top-1 Accuracy на бенчмарке американского жестового языка WLASL-2000 с метрикой 0.633 с помощью нашей модели SignFlow-A.
Мы уже выложили модели в открытый доступ.
Следите за новостями, на этом мы не останавливаемся. 👋
#news
Мы с коллегами выложили на архив новый препринт:
https://arxiv.org/abs/2311.08349
Он снова посвящен детекции искусственных текстов, но в экстремально сложной постановке.
В качестве примеров здесь рассматриваются тексты из десяти предложений, где первые несколько предложений написаны человеком, а оставшиеся - сгенерированы ML моделью (OPT, CTRL, GPT-2, GPT-3.5, chatGPT etc). Метка же, которую должен угадать алгоритм детекции - это номер предложения, с которого начинается генерация. В некоторых примерах генерации нет вообще (они полностью написаны человеком), и такие примеры также надо распознать правильно.
В общем, задача крайне сложная - из-за короткой длины примеров, необходимости угадывать место начала генерации и разнообразия генераторов и тематик текста (нам ведь нужно, чтобы классификатор ещё и переносился между разными генераторами и темами, то есть был кросс-доменным).
Я её решение начала с того, что установила бейзлайны (дообученная RoBERTa и предсказание самого распространенного класса), а потом стала пытаться применить к ней наш метод из статьи "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts" ( https://arxiv.org/abs/2306.04723 ), но прямолинейно "из коробки" он не сработал. В старой-то статье мы работали с бинарной классификацией и длинными текстами, а здесь совсем другая задача.
Я долго старалась, чтобы придумать какой-то новый способ применить концепцию внутренней размерности PH Dimension из старой статьи, и в итоге остановилась на конструкции, названной "PHD + time series". В ней по эмбеддингам текста в RoBERTa проходит скользящее окно, и размерность PHD считается внутри этого окна. Затем к ряду получившихся размерностей применяется SVM с Global Alignment Kernel ( https://dl.acm.org/doi/10.5555/3104482.3104599 ), который, в свою очередь, и предсказывает номер предложения, где начинается генерация. Этот метод действительно дал качество классификации лучше, чем примитивные предсказатели, но все ещё был намного хуже, чем RoBERTa classifier.
Тем временем, соавторы предложили другие способы работать с этой задачей, самые интересные из которых также вошли в статью.
Лучше всего сработал метод, основанный на перплексии, предложенный Таней Гайнцевой ( /channel/dl_stories ). In domain он оказался также слабее Роберты, но в cross domain на некоторых парах доменов оказался существенно лучше. Это интересно, потому что в бинарной постановке задачи (детекция полностью сгенерированных текстов) методы, основанные на прямолинейном применении перплексии обычно хуже, чем RoBERTa classifier. И это ещё раз демонстрирует то, как в разных постановках преимущество могут получать разные методы.
В процессе исследования, мы тщательно проанализировали используемый в статье датасет (он называется RoFT - Real or Fake text) и изучили причины того, почему разные детекторы работают на нем хорошо или плохо в кросс-доменной постановке.
Я уделила особое внимание тому, что предложения, сгенерированные разными моделями и написанные на разные тематики, имеют сильно отличающееся распределение длин. Я добавила в таблицу результатов dummy классификатор, который принимает на вход только длины предложений, не зная об их содержании, и показала, что даже такой классификатор может давать какой-то результат на in domain, при этом будучи совершенно бесполезным на cross-domain. Это наводит на мысль, что и другие классификаторы могут переобучаться на длины предложений и давать какой-то результат на in domain, не понимая, чем на самом деле сгенерированный текст отличается от настоящего.
Соавторы же, в свою очередь, добавили в статью анализ confusion matrices и другие интересные наблюдения.
Препринт является промежуточным результатом, который нужно будет ещё доработать и дополнить путем применения наших методов к другим датасетам со сходной постановкой задачи (например, https://github.com/mbzuai-nlp/SemEval2024-task8 ).
Тем не менее, я очень рада тому, что удалось довести исследование до текущего этапа, и выражаю благодарность всем соавторам, которые согласились поучаствовать в исследовании. 😻
#объяснения_статей
Тупо я после длительной командировки.
Лежу, стараюсь как можно меньше отклоняться от нуля (горизонтальной поверхности), а моя область определения сужается до моей однушки.
# Методичка по поиску работы в ML/DS и IT в целом
В канале накопилось немало материала про поиск работы. Я собрал, дополнил и превратил всё в небольшую книжку.
Все кратко и по делу. Чтения минут на 30. Внутри рассматриваю поиск работы с самых азов и до деталей с примерами из жизни.
https://btseytlin.github.io/intro.html
Если вы давно читаете этот канал и хотели бы ему помочь, то вот лучший способ: скиньте методичку кому-то из друзей.
@boris_again