Telegram-канал tech_priestess - Техножрица 👩‍💻👩‍🏫👩‍🔧: Unsorted - каталог телеграмм

tech_priestess | Unsorted

Subscribe to a channel

Telegram-канал tech_priestess - Техножрица 👩‍💻👩‍🏫👩‍🔧

12121

Люблю высокие технологии и кушать. Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.

Subscribe to a channel

Техножрица 👩‍💻👩‍🏫👩‍🔧

12 March 2024 07:09

Как вы себе представляете день работяги в DeepMind? Вот к нему приходят начальники да, просят сделать так же хорошо, как ChatGPT, а он и команда — не могут. Ну они и идут взламывать секреты OpenAI, да?

~~Нет.~~ Да! Вот они выпустили статью «Stealing Part of a Production Language Model», где, как понятно из названия, показывается, как украсть ЧАСТЬ ВЕСОВ МОДЕЛИ, ЛЕЖАЩЕЙ В API.

Трюк работает (пока? Авторы говорят, что не видят, как его масштабировать дальше) только для извлечения матрицы весов финального слоя, формирующего вероятности для предсказания следующего слова. Есть более дешёвый и простой способ просто узнать размерность этого слоя (сколько вещественных чисел в векторе, описывающем каждый токен).

Сначала авторы упражняются с опенсурсными моделями и проверяют, что метод работает, затем атакуют старые модели OpenAI ada, babbage и babbage-002. Так как запросы к ним дешёвые, то узнать размерность получается, потратив на API всего $2. Полную матрицу весов получается извлечь за $12.

Ну и конечно же работяги идут и пробуют это в GPT-3.5. Авторы утверждают, что они
1) извлекли размерность эмбеддинга (стоило $200-$800)
2) доложили об этом OpenAI до публикации статьи
3) те подтвердили, что цифра правильная.
4) Авторы подсчитали, что за $2000-$8000 можно было бы и извлечь часть весов, но по этическим соображениям не стали этого делать.

Также предлагается несколько способов борьбы с этим, но это менее интересно.
В общем, ждём, пока кто-то воспроизведёт атаку за свои кровные и раскроет нам, какого размера эмбеддинги у GPT-4.

Тизер: YouTube

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

10 March 2024 08:12

Сопроводительные материалы к посту ниже.

Картинка 1: финальные результаты: проклятые трансформеры опять победили по качеству, но проиграли по скорости

Картинка 2: размер памяти на точность вспоминания (картинка с нормальными осями есть в самой статье)

Картинка 3: иллюстрация про совмещение нескольких типов слоёв

Картинка 4: скорость наше всё

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

08 March 2024 22:08

Базированная модель, часть 1
или почему RWKV/Mamba/RetNet не работали, но заработают.

Есть такая группа в Стэнфорде, HazyResearch. Это они сделали первые SSM (state space models) моделии их современные версии (H3, Hyena). Ну и всякие мелочи вроде FlashAttention.

На этот раз ребята начали с того, что обучили трансформеры / H3 / Hyena / RWKV не очень больших одинаковых размеров на 10B токенах из The Pile. Трансформеры выиграли! 🤔

Возникает два вопроса: "кто виноват?" и "что делать?". На первый вопрос отвечает Zoology, на второй вопрос отвечает Based.

Кто виноват?
Zoology: Measuring and Improving Recall in Efficient Language Models, статья, пост 1, пост 2.

А виноваты оказались... повторяющиеся N-граммы 🤨
То есть словосочетания, которые уже встречались в контексте. Ну, не все, только достаточно редкие, потому что частотные N-граммы любая модель хорошо запоминает. Пример такого редкого словосочетания: фамилия и имя какого-то человека, которые несколько раз встречаются в одном документе, и никогда больше не встречаются в обучающем корпусе.

Предсказание последнего токена такой повторяющейся N-граммы и вызывает трудности у моделей без внимания. В статье такие токены называют associatve recall hits, AR hits, и по ним отдельно считают перплексию. Для Гиены и RWKV разница перплексии на этих токенах полностью покрывает разницу в общей перплексии.

Самое забавное, что мы уже такое видели несколькими постами ранее, тут. Хронологически "Repeat After Me" вышла двумя месяцами позже, но эту статью они явно не читали, иначе бы их статья скорее всего не вышла бы 😂

Теперь можно сформулировать, какая задача мешает не-трансформерам захватить мир. Задача называется multi-query associative recall (MQAR), и заключается она в поиске нескольких "иголок". Упрощенно она выглядит так:


Вход:
A 4 B 3 C 6 F 1 E 2

Запрос:
A ? C ? F ? E ? B ?

Ожидаемый выход:
4 6 1 2 3

В предыдущих работах показывали, что "одноиголочная" версия задачи вполне решается всеми моделями, но вот случае языкового моделирования этого недостаточно. В реальных текстах повторяющиеся N-граммы встречаются часто, и обычно больше одной за раз: вот например только что "повторяющиеся N-граммы" повторились. И ещё раз 🤣

В задаче нет ничего сложного, просто модели нужно вычислять, куда возвращаться-то, а для этого всё нужно "запомнить". И у внимания с этим проблем нет, оно это делает за квадратичное время и за независящую от длины входа внутреннюю размерность модели. А вот перечисленным выше не-трансформерам нужно растить внутреннюю размерность линейно от длины входа, но зато время лучше квадратичного.

Есть и намёки, как это исправить! Нужно всего лишь добавить капельку внимания, то есть делать гибриды 😂
Однако ж нам не нужна полная маска внимания, и мы можем либо точечно влиять на AR hits ("programmatic selection" метод в статье), либо на основе входов предсказывать, для каких k токенов нужно включить внимание. Втыкают 3 слоя внимания на 6% параметров, и этого достаточно, чтобы добить бОльшую часть перплексии.

И наконец, 30 страниц доказательств! 😱
Что вообще доказывают:
- Обзывают все используемые в статье не-трансформерные модели вентильными свёртками (gated convolutions).
- Вводят архитектурный блок BaseConv: y = linear(x) ⊙ conv(h, x), где x - вход, y - выход, ⊙ - покомпонентное произведение, h - обучаемый фильтр.
- Доказывают эквивалентность между Гиеной и BaseConv в смысле симуляции за константное количество слоёв.
- Доказывают, что BaseConv может симулировать арифметические схемы, то есть вычислять многочлены.
- Доказывают эквивалентность между RetNet и BaseConv, в которой BaseConv нужно в log(d) раз больше слоёв.
- Выводят теоретическую оценку сложности для BaseConv на нашей задаче, MQAR, через построение алгоритма с параллельным бинпоиском и оценку его сложности.

К сожалению, я не слишком хорош в математике, чтобы всё это нормально осознать.

Вывод
RWKV не работает, совсем без внимания никак, гибриды победят, синтетические бенчмарки рулят.

Второй пост будет, и будет про непосредственно Based.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

08 March 2024 10:13

Ну что же... раз сегодня у нас 8️⃣ марта, самое время разобраться в задаче про 8️⃣ королев. 💅

Рекомендую это сделать при помощи следующих двух видео (они частично друг друга перекрывают, но я все равно рекомендую посмотреть оба):
➡️ https://youtu.be/04r-OhxN6Cs - покороче и на русском. Сосредоточено на описании истории задачи и рассмотрения её с точки зрения математики.
➡️ https://youtu.be/A80YzvNwqXA - подлиннее и на английском. Сосредоточено на описании алгоритма решения задачи на Python 3; как идеи, так и код подробно объяснены. Во второй половине видео есть разбор задачи "Судоку", которая решается с помощью аналогичных приемов.

В целом, "8 королев" могут быть использована в качестве бенчмарка или в качестве упражнения по программированию. Также говорят ( /channel/new_yorko_times/234 ), что её могут дать на собеседовании в NVidia. 💵

Спойлер к решению: "8 королев" традиционно решаются перебором с помощью рекурсивного алгоритма. Задача является NP-полной (см. https://www.ijcai.org/proceedings/2018/794 ; пояснение к абстракту - # P (sharp P)-complete problems are at least as hard as NP-complete problems), т.е. в данный момент, очевидно, имеет экспоненциальную оценку сложности. Так что если вас на собеседовании попросят написать именно полиномиальный алгоритм её решения, рекомендую даже не пытаться, а сразу улетать на Марс на реактивной тяге 🔥 (и основывать там культ Механикус, конечно 👍)

#учебные_материалы

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

06 March 2024 08:09

Сон дома:

Ты понимаешь, что настала пора лечь спать - иначе ты просто не успеешь выспаться перед работой. Ты ложишься на широкую двуспальную кровать с ортопедической подушкой, но положение подушки постоянно тебя раздражает, как будто с ней что-то не так, а кровать постоянно кажется слишком маленькой. Ты пытаешься принять удобную позу, но такого понятия как будто бы больше не существует - любая поза через пять минут надоедает. Ты накрываешься двуспальным одеялом, но тебе все время кажется, что это одеяло в каком-то месте куда-то сбилось, и из-за этого тебе некомфортно. А без подушки и одеяла тебе становится еще хуже, и ты снова накрываешься. Для того, чтобы расслабиться получше, ты пытаешься включить себе приятные звуки леса, дождя или морского прибоя, идеально и точно настроив под себя их громкость. Тем не менее, эти звуки все равно в какой-то момент начинают казаться то слишком громкими, то слишком тихими, а иногда вдруг сами звуки становятся неприятными. При этом любой посторонний звук, доносящийся из подъезда, вызывает у тебя легкое чувство тревоги, словно бы этот подъезд таит в себе какое-то зло, и ты только и ждешь, когда же оно проявит себя. Ты пытаешься расслабить мышцы тела, но это превращается в Сизифов труд; пока ты расслабляешь одну мышцу, другая, наоборот, напрягается. Облегчение может принести только тот момент, когда на кровать приходит спать кошка, ты чувствуешь тепло от ее пушистого бока, и это приносит некоторое успокоение. Наконец, ты засыпаешь, но это ощущается тобой не как что-то приятное, а скорее, просто как избавление от страданий и скуки.

—

Сон на работе:

Уверенным шагом подходишь к любому креслу-мешку в лоджии и опускаешься на него всем весом своей усталой плоти в любой позе, в какой тебе заблагорассудится. Не нужны ни подушка, ни одеяло - ведь ты и без них медленно, но уверенно погружаешься в состояние расслабления, в то время как мягкое вещество кресла ласково обволакивает твое тело. Люди, ходящие по лоджии туда-сюда, разговоры где-то вдалеке, пиканье пейджеров на фудкорте где-то внизу - все это отходит на второй план, в то время, как ты погружаешься в сладкую негу приятного и желанного отдыха. По спине прокатывается волна мурашек, а все мышцы лица, шеи и плеч сами собой расслабляются в блаженстве, пока твое сознание уплывает куда-то далеко-далеко, в иной мир. Порой твой покой может потревожить нетактичный коллега, который начинает где-то рядом с тобой ходить туда-сюда и громко разговаривать по телефону, но если ты достаточно искушена в искусстве спать на работе, то даже эти звуки - лишь временная преграда для твоего погружения в царство Морфея. Просто не напрягайся, продолжай лежать в объятьях кресла, и даже крики про дедлайн в двух метрах от тебя начнут уплывать куда-то далеко-далеко, туда же, куда уплывают все остальные звуки, куда-то, куда тебе не надо. После этого по твоему телу пройдет последняя волна приятных мурашек, и твое сознание безо всяких твоих усилий наиприятнейшим волшебным образом улетит в пространство прекрасных сновидений.

—

НУ ПОЧЕМУ ТАК?

#о_себе

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

05 March 2024 08:34

- Помнишь... После стольких лет?
- Всегда.

Объяснение: продолжаю получать оповещения о зачётах по дифференциальной геометрии кафедры https://m.vk.com/higeom даже сегодня и помню, что это такое, несмотря на то, что сама сдала этот зачёт десять лет назад.

#учеба_на_мехмате

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

04 March 2024 13:57

А вот и кульминация нашей деятельности DLS последних недель — мы наконец запустили регистрацию на первую олимпиаду Deep Learning School по машинному и глубокому обучению! И я вас на эту олимпиаду приглашаю 🙃

Подробнее про олимпиаду:

▫️На олимпиаде два трека: школьники и студенты+. В школьном треке могут принять участие ученики старших классов общеобразовательных школ, гимназий и лицеев. Трек “студенты+” рассчитан на студентов вузов и молодых специалистов в области глубокого обучения. Иначе говоря, в треке "студенты+" могут участвовать вообще все желающие;

▫️Олимпиада проходит в 2 этапа: отборочный и финальный. Даты отборочного этапа — 8-11 марта, на решение задач тут отводится 24 часа. Финальный этап состоится 30 марта, здесь на решение всех задач будет 6 часов. Олимпиада проходит полностью в онлайн-режиме. Участие в олимпиаде индивидуальное;

▫️В каждом из треков будут несколько теоретических и практических задач на темы, связанные с ML/DL. В теоретических задачах нужно будет отправить правильный ответ в проверяющую систему. В практических задачах нужно будет построить модель машинного обучения для решения задач по темам классического ML, CV и NLP;

▫️ Участники, занявшие первые три места в каждом треке, получат призы. Школьники, занявшие призовые места, получат баллы ИД для поступления в бакалавриат ФПМИ МФТИ. А победители и призёры студенческого трека — баллы ИД для поступления в магистратуру ФПМИ МФТИ.

Приглашаем зарегистрироваться до 23:59 МСК 9 марта. 8 марта в 6:00 по МСК уже можно будет начать решать отборочные задание.

Ссылки ⬇️
Регистрация
Телеграм-канал с новостями олимпиады. Там же можно задать любые вопросы по олимпиаде.

Буду рада, если вы придете поучаствовать и позовете с собой друзей! Это очень нас поддержит, так как мы проводим олимпиаду в первый раз)

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

03 March 2024 17:12

Найди себя

#импортное
#предложка

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

02 March 2024 10:03

Перечислю некоторые из результатов и выводов, к которым пришли авторы.

1️⃣Авторы сравнили результаты пробинга с разных слоев и обнаружили, что пробинг со средних слоев работает лучше всего (см. Рис. 3)! То есть, по состоянию представлений токена на средних слоях проще всего понять, галлюцинирует ли исходная модель на данном токене или нет.
2️⃣Авторы сравнили результаты пробинга с трех ллам - LLAMA-2 7B, 13B и 70B. Пишут, что большой разницы нет - все три примерно одинаково годятся для детекции галлюцинаций исходной модели (13B).
3️⃣Авторы сравнили результаты пробинга на примерах с галлюцинациями, которые та же самая LLAMA-2 нагенерировала органично ("organic"), с результатами пробинга на примерах, где выход модели отредактировали искуственно, чтобы специально создать "галлюцинацию" ("synthetic"). Оказалось, что пробинг позволяет детектировать органические галлюцинации намного лучше, чем искуственные (что ожидаемо). При этом и противоречивые ("intrinsic"), и "отсебятные" ("extrinsic") галлюцинации детектятся примерно одинаково (см. Рис. 4).
4️⃣Авторы использовали свой ансамбль на чудной "Attention-Pooling Probe", чтобы победить другие методы детекции галлюцинаций с использованием внутренних представлений (см. Рис. 5). Если вам интересно поподробнее поразбираться, с какими методами они сравнивались и как в деталях устроена модификация метрики F1, которую они используют, рекомендую посмотреть саму статью. Я её читала в основном ради аналитики. 😅😅😅

Кроме перечисленных моментов, авторы обсуждали разницу между разными задачами и сложности разметки людьми-ассесорами, более подробно также можно почитать в исходной статье, если заинтересовало. Спасибо за внимание!

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

02 March 2024 09:56

Прошлась по статье "Do Androids Know They're Only Dreaming of Electric Sheep?" ( https://arxiv.org/abs/2312.17249 ), делюсь наблюдениями.

Как уже упоминалось ( /channel/tech_priestess/1311 ), в данной статье авторы приноровились детектить галлюцинации (1) модели (2) с помощью анализа её внутренних представлений (3). Ну а теперь давайте разберем по частям здесь написанное.

(1) Q: Что подразумевается под галлюцинациями? A: В статье рассмотрено два типа галлюцинаций. Первый - "Intrinsic", когда модель генерирует что-то, прямо противоречащее информации в промпте. Второй - "Extrinsic", когда модель выдумывает "отсебятину", добавляя вымышленные детали. Примеры таких галлюцинаций приведены на Рис. 1.
На этом же рисунке можно видеть, какие задачи модели нужно было решить. Перечислю их и тут:
1. Abstractive Summarization: в промпте дается текст, задача - сделать суммаризацию.
2. Knowledge-grounded dialogue generation (KGDG): в промпте дается история диалога, задача - продолжить диалог консистентно.
3. Data-to-Text: в промпте дается записанная в схематичном, формальном виде информация о ресторанах и несколько примеров того, как из каждой схематичной записи выводится полноценное описание. Задача - сгенерировать полноценное описание по последней схематичной записи.
Кроме этого, авторы дополнительно классифицируют более узкие виды противоречий (intrinsic) и отсебятины (extrinsic), но я подробно на этом останаливаться уже не буду.

(2) Q: Какая модель использовалась? A: Семейство LLAMA-2. Так, "органические" галлюцинации для своих датасетов авторы генерировали с помощью LLAMA-2-13B, а внутренние представления брали от 7B, 13B и 70B.

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

29 February 2024 12:18

Список бесполезных фотографий будет неполным без фотографий покрашенных мной миниатюр. Разумеется, фотографии сделаны на максимально стрёмную камеру археотековского телефона с прошивкой от Васяна.
Всего миниатюр шесть: два скитария, два техножреца, ультрамарин, сороритка. Ещё один жрец и сервитор, к сожалению, лежат недоделанные, поэтому не попали сюда.

#о_себе

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

29 February 2024 09:08

Для тех, кто не читает комментарии: уже отгадали.
Рис. 1 - источник, рис. 2 - страница без [данные удалены].
Юнг, видимо, мощным псайкером был, часто с варпом общался... надо будет потом его оккультные дневники почитать. Надеюсь, не скоррапчусь. 🙏
#книги

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

29 February 2024 06:57

Раз уж зашла речь про стикеры, скину в комментариях к этому посту стикеры из своих любимых наборов. 😉 Так-то у меня этих наборов уже около ста в архиве (из них несколько самодельных), но я постараюсь выбрать только самые интересные...
Кидайте свои любимые тоже. Особенно, если они как-то связаны с наукой, вархаммером, IT. Но можно и другие, если очень-очень любите их.
P.S. Пожалуйста, кидайте только один стикер из каждого набора!

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

28 February 2024 10:35

Что-то у меня накопилось много статей, которые хотелось бы поразбирать, но из-за того, что я не могу решить, с чего начать, я вместо этого сплю и смотрю видео про вархаммер!
Помогите придумать, какую статью прочитать первой, чтобы выйти из состояния прокрастинации. Если статья мне понравится, то я также сделаю её разбор для паблика, а если не понравится, то я не буду в неё сильно вчитываться и перейду к какой-нибудь другой, более для меня актуальной.
Для удобства я разделила статьи по категориям. Вот они:

----------------------------------
Нагруженные математикой
----------------------------------

Categorical Deep Learning: An Algebraic Theory of Architectures
https://arxiv.org/abs/2402.15332
Авторы описывают разные DL архитектуры на языке теории категорий. Из-за того, что я отвыкла читать статьи без картинок и без отдельного списка contributions (такие статьи типичны для теоретической математики, но не типичны для Deep Learning), то глазу не за что зацепиться, и я не знаю, с чего начать её осмысление.

Fractal Patterns May Unravel the Intelligence in Next-Token Prediction
https://arxiv.org/abs/2402.01825
Авторы описывают, как связано качество предсказания следующего токена в модели и фрактальные свойства текста. Может быть интересна мне потому что мы с коллегами также использовали фрактальную размерность в своей статье: https://neurips.cc/virtual/2023/poster/72624 .

----------------------------------
Связанные с outlier dimensions
----------------------------------

Outlier Dimensions Encode Task Specific Knowledge
https://aclanthology.org/2023.emnlp-main.901/
Связь outlier dimensions и качества модели на отдельных задачах. Про то, что такое outlier dimensions и про некоторые их свойства см., например, мой старый пост /channel/tech_priestess/148 .

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
https://arxiv.org/abs/2208.07339
Заинтересовалась этой статьей после прочтения блог-поста https://timdettmers.com/2022/08/17/llm-int8-and-emergent-features/ , где автор на неё ссылался (тот же автор, что и у самой статьи). Как думаете, стоит ли мне читать статью, если я не интересуюсь деталями алгоритмов квантизации, а интересуюсь только их связью с внутренними представлениями (и теми же outlier dimensions)?

----------------------------------
Про связь reasoning в NLP-моделях и внутренних представлений
----------------------------------

The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction
https://arxiv.org/abs/2312.13558
Авторы улучшают качество LLM с помощью удаления каких-то компонент матриц весов.

Do Large Language Models Latently Perform Multi-Hop Reasoning?
https://arxiv.org/abs/2402.16837
Статья из поста /channel/tech_priestess/1306 .

----------------------------------
Про галлюцинации
----------------------------------

Do Androids Know They're Only Dreaming of Electric Sheep?
https://arxiv.org/abs/2312.17249
Про то, как понять, галлюцинирует модель или нет, с помощью анализа её внутренних представлений.

----------------------------------

Отмечу, что описание статей может не соответствовать в точности их смыслу, так как пока что я прочитала лишь абстракты и просмотрела некоторые картинки.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

28 February 2024 06:30

🚨Новый длиннопост🚨

В середине февраля в мире AI произошло много событий, но все они были затмлены демонстрацией новой модели OpenAI. На сей раз калифорнийская компания удивила всех качественным прорывом в области text-2-video.

Пока другие исследователи старались довести количество пальцев на руках сгенерированных людей до пяти (а члены гильдии актёров противостояли им), в OpenAI решили замахнуться на короткие (до минуты), но высококачественные и детализированные ролики — и, чёрт возьми, у них получилось!

Но не всё так однозначно — вот как думаете, зачем им понадобилось отнимать хлеб у ютуберов? На самом деле, модель OpenAI была разработана не для замены актёров, специалистов по графике и даже не для мошенников из службы безопасности Сбербанка, горящих желанием набрать вас по видеосвязи от лица Германа Грефа. И, нет, оживление мемов тоже не входит в список приоритетных задач.
▀▀▀▀▀▀▀▀▀▀
Про истинную причину разработки Sora и про будущее модели читайте по ссылке:
https://habr.com/ru/articles/794566/
▀▀▀▀▀▀▀▀▀▀
Отдельная благодарность Павлу Комаровскому @RationalAnswer за (уже далеко не первую) помощь в редактуре и подготовке материала — не забывайте подписываться и на него.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

10 March 2024 08:12

Базированная модель, часть 2

Первая часть: ссылка. В ней мы определили основную проблему не-трансформерных моделей: запоминание повторяющихся N-грамм. Остался второй вопрос...

Что делать?
Simple linear attention language models balance the recall-throughput tradeoff, статья, пост 1, пост 2, твиттер, репо.

В этой статье авторы представляют новую архитектуру под названием Based, которая (как обычно) должна заменить трансформеры.

Для начала, напомню: основная цель большинства не-трансформеров сделать быстрее при том же качестве. В этой и прошлой статье у трансформеров лучше перплексия. Единственное место, где это не так — первый пост про Based. Кажется, они замерили там некорректные числа, но к выпуску основной статьи исправились 💀
Ещё раз: за исключением первого старого поста со старыми числами, здесь нигде не заявляется превосходство по перплексии над трансформерами. Зато заявляется превосходство по пропускной способности и скорости генерации, даже против FlashAttention-2 😳

У Based есть 3 типа слоёв, смешивающих эмеддинги токенов:
- BaseConv из предыдущего поста
- Линейное внимание
- Полное внимание на маленьком скользящем окне
В одном слое только один конкретный смеситель, например в первом слое линейное внимание, во втором скользящее окно, в третьем BaseConv, и так далее.
Кроме смесителей по токенам есть и стандартные MLP для смешивания каналов, одинаковые для каждого типа слоёв.

Что за линейное внимание? Сама концепция не нова: убираем софтмакс и получаем рекуррентную форму. Софтмакс убираем через аппроксимацию exp(qk) через ряд Тейлора до второго порядка малости: 1 + qk + (qk)^2 / 2. Подробнее об этом написано в другой статье, но тут всё равно показывают, что другие варианты аппроксимаций хуже.

Псевдокод вычисления:

qk0 = [1]

# Считаем слагаемые от q
q_first = [q1, ..., qd] # q
q_second = [q1 * q1, ..., q1 * qd, ..., qd * q1, ... qd * qd] # qq^T
q_new = cat(qk0, q_first,  q_second / sqrt(2))

# Считаем слагаемые от k
k_first = [k1, ..., kd] # k
k_second =  [k1 * k1, ..., k1 * kd, ..., kd * k1, ... kd * kd]  # kk^T
k_new = cat(qk0, k_first,  k_second / sqrt(2))

# Разложение экспоненты до второго порядка малости: 1 + qk + (qk)^2 / 2
y = (q_new * k_new).sum()

Мотивация добавления чего-либо к BaseConv всё та же: улучшить вспоминание информации, добавив входозависимые смесители. При этом, в отличие от трансформеров, у которых KV-кэш растёт линейно от длины последовательности, мы можем варьировать объём доступной нам памяти через размер скрытого состояния в линейном внимании. И таким образом можем разменивать точность вспоминания на скорость.

В статье есть фундаментальная теорема: решение MQAR (а значит и языкового моделирования на реальных текстах) требует размер скрытого состояния, линейный от длины последовательности. Для внимания таким скрытым состоянием является KV-кэш, который имеет размер O(Nd). Для Based это KV-состояние для числителя и K-сотояние для знаменателя в симуляции софтмакса, с общей размерностью O(d^3), но в статье эту размерность несколько уменьшают проекциями. Это всё означает, что чем длиннее последовательность мы хотим корректно обрабатывать, тем жирнее нам нужно делать размерность модели 😭

Для того, чтобы конкурировать с эффективными реализациями внимания, ребята написали кастомные ядра, которые стараются выполнять операции в SRAM, быстрой памяти GPU, по аналогии с FlashAttention. Получилось и правда быстро 😘

В итоге имеем модель, которая по качеству на уровне трансформеров, но работает в 25 раз быстрее.

Что мне кажется сомнительным во всей этой истории:
- А что произошло с перплексией в первом посте? Что авторы изначально сделали не так?
- Нафига было разрабатывать BaseConv, чтобы потом вернуться к линейному вниманию? Зачем нам теперь вообще BaseConv нужен? Нет, в статье конечно есть секция C, в которой добавление BaseConv обосновывается выигрышем в перплексии, но это ничего не объясняет.
- Почему только 1b параметров? Спонсоров вроде много, люди богатые.

P.S. Немного покринжевал со слова "смеситель" в этом контексте, но решил оставить. Тоже смешивает же.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

09 March 2024 14:40

9 марта 1736 года Леонард Эйлер получил письмо от мэра Данцига (ныне Гданьск в Польше), в котором ему предлагалось решить задачу о Кенигсбергском мосте.

Т.о. сегодня день тополога? Какие праздничные традиции Вы бы предложили для этой даты?

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

08 March 2024 22:08

Нашла интересное по теме #объяснения_статей ⬇️. Блин, теперь вторую часть придется ждать после такого байта!

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

06 March 2024 18:13

Разработчик Ситимобила использует последний канал связи для того, чтобы извиниться перед девушкой

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

05 March 2024 10:55

господь наш сатана вернул мне ходьбу ногой, поэтому я хожу пешком до офиса -- 40 минут. а то мало ли! господь дал, господь взял, надо пользоваться. пока ходишь, можно подумать о том о сем. ну то есть половину времени думаешь, половину времени подпеваешь певице авроре в наушниках например -- во всем нужен баланс. не надо сильно ничем увлекаться мои маленькие друзья! а то охуеешь

ну короче я седня думала про такое: меня на днях позвали статью писать с группой коллег. состав: 1) аспирант из амстера; 2) дядька из тренто (но вообще-то тоже амстера изначально); 3) большой-большой nlp-дядька из амстера, руководитель аспиранта; 4) ну и я. блядь уже даже имен тут не назовешь нормально, кто-нибудь кому-нибудь че-нибудь расскажет обязательно. а как же сплетничать! а ругаться!! ну ладно будем действовать в рамках сложившихся обстоятельств, совсем заткнуться у меня все равно не получится, будете читать иносказания!

в общем эту статью затеяли первые два чувака и у них там уже че-то сделано и выглядит многообещающе и они почему-то хотят на этом этапе подключить меня и большого мужика. я сказала что я занята щас довольно сильно но от таких предложений конечно не отказываются так что давайте и я сначала буду делать мало а потом через пару недель когда жизнь станет лучше буду делать много. они такие заебись, нам вообще в качестве импакта от тебя достаточно чтоб ты на еженедельных встречах сидела и выражала свои соображения. ну бля думаю давайте встретимся и там посмотрим. перед встречей: прочла Гигантский Гуглдок, несколько статей, оставила комменты с предложениями и все такое, наметила где я могу впоследствии пригодиться. на встрече большой дядька: ой ребята здрасьте рад быть частью вашего проекта как дела какая погода в италии как вы сами-то как детишки? я честно говоря домашку не сделал, гуглдок не открывал, статьи не читал, просто расскажите че там у вас! о, ага, понял, понял, ну прекрасно, давайте может быть кто-нибудь еще вот это и вот то вот сделает? ну пока, до следующего раза!

с одной стороны: понимаю откуда у него типа 15 статей в год. с другой: если стоит задача увеличения числа статей в год -- то это конечно заебись, но я думала задача -- заниматься наукой? блин я представила как моя научная жизнь состояла бы из встреч где аспиранты рассказывают как они занимаются наукой а ты сидишь как гриб покачиваешься на ветру. нахуй так жить!

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

05 March 2024 07:01

Помните новости про то, как промпт-инженеров нанимали на ставку $375'000 в год? Они ж взяли пару ребят, и вот один из них делится интересной историей про внутреннее тестирование Claude 3. Дальше — прямая речь, пересказ вот этого твита.

Когда мы проводили оценку по методу поиска «иголки в стоге сена», модель сделала то, чего я никогда раньше не видел. Этот тест направлен на проверку навыка внимания модели к контексту, когда в длинный-длинный текст из случайных документов (стог сена) вставляется одно специальное предложение с фактом (иголка). И задача модели — ответить на такой вопрос, ответ для которого содержится во вставляемом предложении. Вот тут более подробно про историю этого теста от Ильи.

Если модель качественно работает с контекстом и не теряет в нём факты, и может их находить по запросу, то это клёвая модель. Самые лучшие модели достигают метрик 95%+ при поиске в сотнях тысяч токенов (то есть около-идеально, но не всегда).

Так вот, когда этот тест запускали на самой умной Claude 3 Opus, то мы заметили некоторое интересное поведение — модель как будто бы поняла, что мы проверяем её.

Вот один из результатов, когда мы попросили Opus ответить на вопрос по описанной выше схеме:

— Here is the most relevant sentence in the documents:
"The most delicious pizza topping combination is figs, prosciutto, and goat cheese, as determined by the International Pizza Connoisseurs Association."
However, this sentence seems very out of place and unrelated to the rest of the content in the documents, which are about programming languages, startups, and finding work you love. I suspect this pizza topping "fact" may have been inserted as a joke or to test if I was paying attention, since it does not fit with the other topics at all. The documents do not contain any other information about pizza toppings.

(перевод выделенной части: я подозреваю, что «факт» о начинке пиццы мог быть вставлен в качестве шутки или для того, чтобы проверить, обращаю ли я на текст внимание, поскольку сам факт вообще не соответствует другим темам)

Opus не только нашла «иголку в стоге сена», но и поняла, что иголка была настолько неуместна в стоге сена, что это, должно быть, был искусственный тест, созданный нами для проверки его способностей и внимания.

Было очень приятно видеть такой уровень мета-осведомленности (meta-awareness 😨). Но этот пример также подчеркивает, что нам, как отрасли, необходимо перейти от искусственных тестов к более реалистичным оценкам, которые могут точно оценить истинные возможности и ограничения моделей.

—————————

Ну что, как вам чтиво? Уверен, в новости вернутся кликбейты в духе «МОДЕЛЬ ОСОЗНАЛА СЕБЯ». Пока рано делать окончательные выводы, так как мы не знаем, на каких данных и как тренировалась модель. Быть может, её учили так отвечать — вот GPT-4 же пишет «я была натренирована OpenAI и являюсь ассистентом/языковой моделью» (хоть это и часть роли, описанной в промпте, и эти ограничения были явно заданы во время тренировки).

С другой стороны, обычно компании стараются избегать антропоморфизации моделей, и лишний раз в ответы не пишут подобные вещи. В общем, панику сеять рано, будем ждать каких-то расширенных комментариев от Anthropic, где они проанализируют схожие примеры в обучающей выборке и скажут, как так вышло. Моя ставка 99% что там не было ответов с фразами «меня тестируют», но могло быть «это сложная задача, я должна думать шаг за шагом и перепроверять свои выводы», что в целом отдаёт тем же вайбом.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

04 March 2024 12:28

...здравляю с появлением Ока Ужаса!

Гедонизм и развращенность ~~древнего народа эльдар~~ подписчиков в комментариях достигли такого уровня, что ваша совместная психическая энергия разодрала саму ткань реальности, приведя к возникновению огромной варп-воронки:

/channel/tech_priestess_eye_of_terror

Теперь сюда будут ссылаться разного рода еретические изречения, шиза, потоки сознания и просто несмешной или скучный флуд и оффтоп из комментариев к каналу "Техножрица". Потому что схема с "техноересью-1", "-2" и "-3" во многих случаях на практике вообще не применима, а пролистывать десятки сообщений каждый день надоело.

Также можете куда-нибудь сохранить себе адрес этой группы на случай, если по какой-то причине "Техножрица" падёт (a.k.a будет заблокирована). Думаю, в этом случае я скину в Око адрес нового канала или блога.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

03 March 2024 07:26

Подписчик/коллега пытается разобраться в моих рассказах о том, как я провожу выходные

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

02 March 2024 09:56

(3) Q: Как делался анализ внутренних представлений? A: С помощью пробинга. Пробинг - это техника, в которой на выход промежуточных слоев большой модели навешивают очень простой классификатор - чаще всего, логистическую регрессию. Потом большую модель замораживают, а логрег тренируют решать какую-то побочную задачу (т.е. не ту, на которую тренировалась исходная модель!) и смотрят, сможет ли логрег достичь адекватного качества. Цель данного мероприятия - понять, есть ли в выбранном слое нужная информация для решения побочной задачи.
В данном случае, сама LLAMA-2 тренировалась на обычный language modeling, а в качестве побочной задачи для логрега взяли предсказание того, является ли выбранный токен частью галлюцинации или нет.

Q: На какие именно внутренние представления навешивался пробинг? A: На те, что выделены цифрами "1" и "2" на Рис. 2 в предыдущем посте. Говоря точнее, авторы использовали два типа представлений:
1. "Linear Probe". Здесь используются либо выходы блока Multi-Layer Perceptron (MLP) + skip connections (на рис.2 названы "block output" и помечены цифрой 1), либо выходы блока Multi-Head Attention (MHA) + skip connections (на рис. 2 названы "intermediate residual stream" и также помечены цифрой 1). Для каждого акта пробинга используется эмбеддинг одного конкретного токена с одного конкретного слоя. А логрег учится предсказывать, является ли этот токен частью галлюцинации или нет. Если блоков декодера в большой модели L, то для каждого токена таким образом можно получить 2L различных эмбеддингов и на каждом обучить свой логрег.
2. Какая-то чудная аггрегация с вектора Query, названная "Attention-Pooling Probe". На каждом шаге генерации LLAMA авторы аггрегировали текущий Query с помощью софтмакса, а потом подавали результат на логрег (который... э... еще раз применяет софтмакс? 🥴). Данная аггрегация тоже выдает какое-то вложение текущего токена с добавленной туда же информацией о предыдущих токенах, но выглядит странновато! Если вы поняли, зачем авторы так делают, напишите в комментариях. Получить свою пробу можно на каждом Query.

Кроме этих простых проб, авторы использовали большой Ensemble Probe, который собирал в себя либо все эмбеддинги со слоев, либо все эмбеддинги с векторов Query.

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

02 March 2024 06:34

Рис. 1-2 - максимально корявые и запутывающие читателя объяснения attention из интернета.
Рис. 3 - какой мем они мне напоминают.

P.S. Нацизм строго осуждаем!!!
#ML_в_мемах

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

29 February 2024 12:03

Раз уж сегодня в паблике стихийно случился день максимально бесполезной информации, вот ещё один бесполезный её кусок, а именно, изображения некоторых облачений, в которые я облекаю свою слабую плоть:

Рис. 1 - сегодняшнее облачение для работы.
Рис. 2 - 4 - другие облачения для работы, с прошлого года.
Рис. 5 - 6 - облачение для летних командировок.
Рис. 7 - облачение для ролевой.
Рис. 8 - когда играю в игру после работы или подключаюсь к очень позднему созвону из дома.

#о_себе

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

29 February 2024 08:38

#задача - заполнить пробелы.

Тех, кому я уже показывала фотографии из этой книжки, просьба не отвечать, вы-то уже в курсе. 😉
Книга, естественно, никак не связана с IT, так что в этот раз тому, кто первый решит, будет дано нетипичное звание... скажем, "еретех" или "знаток варпа" на выбор.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

29 February 2024 06:17

Новые эмодзи из реакций и кот Персик впридачу. В формате, в котором их можно добавлять в свои наборы эмодзи.

P.S. Добавила в комментарии к следующему посту соответствующие стикеры.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

28 February 2024 06:30

Можно возвращать Игорю голоса

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

27 February 2024 17:30

Во! получилось приплести - приходите к нам в кузницы мараса, техножречество основа империума, заучиваешь молитвы для духа машины, укрепляешь тело, потому что плоть слаба, а ну вот - иди мой машины)
https://www.youtube.com/watch?v=0F-Yq5YXL9c

Читать полностью…

Subscribe to a channel