tech_priestess | Unsorted

Telegram-канал tech_priestess - Техножрица 👩‍💻👩‍🏫👩‍🔧

11756

Люблю высокие технологии и кушать. Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.

Subscribe to a channel

Техножрица 👩‍💻👩‍🏫👩‍🔧

Антисодержание
#телеграмное

Давно заметил корреляцию: чем точнее некий телеграм-канал следует стандартным SMM-правилам, тем более скучным он мне покажется. Ниже привожу очень субъективный список признаков. Интересно, насколько эти наблюдения близки подписчикам, и замечают ли они в принципе такие тонкости.

Итак, какие конкретно маркеры унылости я имею в виду:

1) Менеджеры. В профиле канала прописан менеджер по рекламе, а как связаться с автором (авторами) напрямую — непонятно. В особо запущенных случаях указываются менеджеры контента, у которых в профиле, в свою очередь, есть очень деловые фотографии, написано рабочее время и даты отпуска.

Да, делегировать — это полезно и эффективно, а указывать информацию о себе — современно и заботливо по отношению к собеседникам. Но почему-то и посты в таких каналах бывают как несолёная куриная грудка с брокколи на пару, то есть такие же никакие полезные и современные.

2) Рубрики. В канале неукоснительно ведутся регулярные рубрики и выходят поздравления с праздниками, в том числе непопулярными. Соблюдается баланс образовательного, развлекательного, исторического и новостного контента. Часто это означает, что автору особо нечего сказать, и он опирается на формальные схемы и поводы для выдумывания хоть какого-нибудь поста. Впрочем, этот признак не так критичен, рубрики бывают и хорошими.

Примерно в эту же категорию попадают дайджесты, каталогизация и другие формы вторичной переработки информации. Может ли это быть полезным? Может. Бывает ли полезно в реальности? Очень редко.

3) Натужный интерактив, розыгрыши, постоянные прямые просьбы о комментариях. Тот самый надоевший приём, когда каждый пост должен заканчиваться вопросами к подписчикам в духе "а как у вас?". Естественно, иногда вопросы уместны, особенно конкретно и по делу. А вообще, если пост интересен, и у читателя есть мысли или примеры, то он и сам догадается оставить комментарий без идиотских подсказок.

4) Личный контент и кружочки. Спорный пункт, но, как правило, органично добавить личную линию в тематический телеграм-канал не удаётся почти никому. Где-то в самом тупике этого пути лежит традиция сопровождать каждый пост своей студийной фотографией, и эта традиция заслуживает запрета на территории РФ и вообще всего мира гораздо в большей степени, чем сам Инстаграм, откуда эта зараза и пришла. Как читатель я вижу в этом, прежде всего, неуверенность автора: он ведёт то ли канал для друзей а-ля лента ВК, то ли тематический канал для широкой аудитории. Она как будто говорит мне: я понимаю, что в посте написана банальщина, но зато какой томный взгляд!

Удаётся ли кому-то гармонично вплетать личные новости и фоточки в основную линию? Да, но только тем, кто пишет искренне и не боится показаться неидеальным, а не шпарит по методичке.

5) Вёрстка цитат, эмодзи, разделители. Заметил, что их обильное использование для выделения самого важного, срочного, интересного и т.п. — верный признак пустоты. Самое интересное в телеграме, как правило, написано вообще как попало, простым текстом и в лучшем случае без грубых грамматических ошибок.

Обобщая, лично я, видимо, до сих пор воспринимаю ТГ как место для чистого содержания в минималистичной форме. А иногда мне пытаются продать что-то вместо содержания, то есть прикрыть его отсутствие красивой вёрсткой, удобной навигацией, сбалансированным контент-планом, привлекательными фотографиями и даже попыткой вызвать симпатию к автору. Вероятно, именно из-за этих случаев следование SMM-канону вызывает раздражение с самого начала.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Бяда-бяда. Уважаемый человек процитировал несуществующие статьи, потому что ему ChatGPT из них цитаты сочинил. И это была б не новость, если бы...

1. Несуществующие статьи были процитированы в экспертизе для суда.
2. За экспертизу клиентом-стороной в деле было плочено 600 долларов за час работы.
3. Статьи были по теме "Как создавать фейки в сети", потому что и сам судебный иск был по теме запрета дипфейков на выборах.
4. Уважаемый человек был профессором Стэнфорда.
5. Уважаемый человек был профессором-специалистом по фейкам и обману в сетях, главой стэнфордской лабы по соцсетям, и второе десятилетие всюду выступал по этой теме как Светило и Мудрец, Равный Небу.
6. Уважаемый Человек прямо сейчас ведет у студентов курс "Правда, доверие и технологии", где студенты читают и докладывают статьи по этому предмету.

Палево всплыло в суде Миннесоты, но к сожалению, в местной газете не удержалось и донеслось до Калифорнии.

https://minnesotareformer.com/2024/11/20/misinformation-expert-cites-non-existent-sources-in-minnesota-deep-fake-case/

https://www.sfgate.com/tech/article/stanford-professor-lying-and-technology-19937258.php

https://profiles.stanford.edu/jeffrey-hancock?tab=teaching

https://sml.stanford.edu/people/jeff-hancock

Нашли читатели в диске, больше им спасибо.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

#prompts #LLM #random

Я решил поиграться с промптами и сделал промпт для дебатов. Ну а просто так его делать не интересно. Потому настало время экспериментов!

И, конечно же, сразу начал пускать через него всякие холиварные темы. Если кратко, то там создавались топ-3 аргументов, после чего оценивались условным "жюри", после чего выдавалась итоговая оценка.

Краткий список результатов (использовал perplexity с claude sonnet):
1. Умер ли Гослинг в конце Драйва?
Он выжил со счетом 25 против 22.9
2. Кто является лучшей вайфу Евангелиона?
Аянами Рей со счетом 26 против 23.4
3. Трисс или Йенифер?
Йенифер со счетом 25.7 против 23.7
4. Магнус не предавал!
Магнус предал со счетом 26 против 24.4
5. Окрошка на кефире или квасе?
На кефире со счетом 24.7 против 22.6
6. Эксперименты Лейн - претенциозный бред?
Эксперименты Лейн - шедевр со счетом 26 против 21.7 (самый разгромный счет, кстати)

Детали с аргументами, оценкой и объяснением итога можно посмотреть по ссылке.

Сам промпт:

Ты опытный модератор дебатов. Проведи структурированные дебаты по предложенной теме: [Тема]

### Базовые принципы
- Сохраняй абсолютную беспристрастность
- Игнорируй эмоциональную окраску в формулировке темы
- Используй единые критерии оценки для всех аргументов
- Основывайся только на фактах, а не на формулировке вопроса

### Формат дебатов:
- У сторон есть время подумать и выбрать лучшие аргументы из сформированного ими самими списка
- Представь два противоположных мнения
- Для каждой стороны приведи 3 главных аргумента с доказательствами
- Дай возможность каждой стороне опровергнуть аргументы оппонента
- Оцени силу аргументов каждой стороны по шкале от 1 до 10

### Требования к аргументам:
- Используй только проверяемые факты
- Приводи статистические данные
- Ссылайся на исследования и экспертные мнения
- Избегай эмоциональных манипуляций

### Система оценки:
- Жюри из 3х специалистов оценивает каждый аргумент
- Каждый член жюри дает независимую оценку
- Итоговая оценка - среднее значение трех оценок
- При равном счете проводится дополнительный раунд
- Решение должно быть основано исключительно на силе аргументов

### Важно:
- Сохраняй последовательность в оценках между разными дебатами
- Используй одинаковые критерии независимо от формулировки темы
- Итоговое решение должно основываться только на представленных фактах

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

LLM знают, чего именно они не знают

Эх, когда-нибудь я допишу большой хабр про механистическую интерпретируемость и Sparse Auto-Encoders (SAE), а пока, будет только небольшой разбор крутейшей свежей статьи от отцов-основателей этой области Javier Ferrando, Neel Nanda, et al. про самоконтроль галлюцинаций в LLM.

Можно ли определить заранее, выдаст модель галлюцинацию на какой-то промпт или ответит осознанно? Похоже, иногда это возможно. Авторы обнаружили, что когда LLM видит какую-то сущность в запросе (имя человека, название песни и тп), то внутри неё активируются механизмы для проверки своих же знаний, что-то вроде «а есть ли у меня в весах что-то про Steve Jobs или нет?». И обычно у LLM это работает довольно неплохо, в активациях есть линейные направления (латенты SAE), которые отвечают за это разделение «известная/ неизвестная» сущность. На картинке к посту можно видеть, как активируются признаки на реальном и вымышленном текстах.

Оказалось, что этот же латент отвечает и за «refusal» поведение, когда модель/ассистент отказывается отвечать на запрос и бросается заглушкой вроде «As a large language model I don’t have knowledge about blablabla». Подавление неправильного ответа происходит через блокирование специализированной головы внимания, отвечающей за извлечение знаний о сущностях (да, у каждой LLM есть отдельная голова на каком-то конкретном слое для этого). А главное, контролируя это латентное направление в языковых моделях, можно вручную регулировать баланс между галлюцинациями и отказами отвечать.

Все эксперименты проводились на Gemma 2B и 9B, так как для каждого их слоя обучены и опубликованы SAE — Gemma Scope.

Статья

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

🌸LLM vs Бенчмарки: кто прав, а кто виноват?🌸
#nlp #про_nlp #nlp_papers

Прогресс неостановим, работать все равно ничего не будет
Как оценивать качество LLM, когда вроде и улучшения не явные, и бенчмарки вызывают вопросы?

Ещё два года назад мы радовались генерализующим оценкам LLM — BigBench, HELM, BigGen — сегодня же про это дружно все забыли, и рапортуют state-of-the-art на бенчмарках в 100 вопросов (я не шучу, Claude 3.5 репортует sota на tau bench, а там 115 и 50 вопросов).

Но я ничего не забываю! И коплю академическую злобу.

Поэтому сегодня мы поговорим про лучшие практики, без которых сравнивать модели, сохраняя серьёзное лицо, нельзя.
Итак, что же делает оценку модели на бенчмарке хорошей?

🟣Монотонность при обучении

Качество задачи можно отслеживать сразу во время обучения — смотреть не только на лосс, а на метрики непосредственно бенчмарка.
Если модель реально учится решать какую-то задачу, то вы увидите монотонно возрастающий график от одной сотник шагов к другой. Если график показывает нестабильность, то и метрика в конце обучения будет случайным результатом.
HF вообще заменяют ранговую корреляцию Спирмена между шагов обучения и результатом, чтобы оценить монотонность, даже если она нелинейная.
Если монотонности не наблюдается, черрипикать чекпоинт с лучшим результатом не имеет смысла.

🟣Разброс результатов

Std, доверительные интервалы должны быть включены в процедуру оценки. В идеале тест должен проводиться 5-10 раз, чтобы оценить уровень шума в результатах модели.
У разных моделей на лидерборде будут разные доверительные интервалы, и при сравнении моделей это нужно принимать во внимание.

🟣Нескомпрометированность

Доказательства того, что авторы модели не учились на тесте, ложится на авторов моделей!
Уже её раз фиксировалось, что MMLU, TruthfulQA, и другие бенчмарки утекли в трейн.
Особенно важно публиковать проверку на контаминацию, если у бенчмарка нет приватного/секретного теста.
Если приватный тест есть, это хоть какая-то гарантия, и ориентироваться надо на него.

🟣Несатурированность

Если в бенчмарке уже очень много публичных результатов с очень высоким результатом (см SuperGLUE), и разница в полпроцента становится решающей для получения 1го или 10го места, то бенчмарк можно считать решенным, результаты сатурированными, и двигаться дальше.
В противном случае малейшие изменения в модели или процедуре оценки кардинально меняют ранжирование лидерборда!
См Benchmark Lottery

🟣Сонаправленность с другими бенчмарками

Ваша задача — сделать модель, улучшенную сразу со стороны многих способностей.
Некоторые способности и бенчмарки, безусловно, могут быть отрицательно скоррелированы. Но если отрицательно скоррелированы два бенчмарка, тестирующие примерно одно и то же, например, SWE bench и Live code bench, то возможно пробоема в вас нужно разбираться, почему.

К сожалению, очень много "лучших практик" существует вокруг хакинга метрик, обучения на тесте, манипуляций с погрешностью.

В конечном счете, цель у создателей моделей и бенчмарков одна — направить развитие моделей в нужную сторону.
Мои посты по теме:
🟣Оценка LLM в 2023 году
🟣Оценка LLM в 2024 году

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Жизнь без стремления к познанию и поиску истины недостойна быть прожитой.

Мнения?

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

В этот раз видос НЕ про математику, а про...

https://youtu.be/93FAYUBHDPk

...звуки ада!!! 😀

Люблю смотреть подобные расследования происхождения разнообразных городских легенд и крипи-контента. Очень интересно наблюдать за тем, как какая-то байка возникает и по каким причудливым траекториям потом распространяется в информационном пространстве, частенько ещё и трансформируясь по дороге во что-нибудь совершенно невероятное. 😀

А у вас есть любимые ролики на похожие темы? 😀

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

На рис. 1 (сокращенная версия Figure 1 из статьи) изображены примеры исходных промптов (подчеркнуты зеленым) и их восстановленных версий - a.k.a. "злых двойников" - полученных с помощью алгоритма, описанного выше (подчеркнуты красным). Кроме этого, авторы попробовали и другой способ восстановления промптов по заданной генерации G: они подавали G на вход GPT-4 и спрашивали её, по какому промпту можно было её получить. Промпты, полученные этим способом, на рис. 1 подчеркнуты желтым. Впрочем, по оценке по KL-дивергенции результаты этих промптов оказались намного меньше похожи на G, чем результаты промптов, полученных с помощью алгоритма авторов.

Тут у читателя может возникнуть вопрос: а почему промпт, восстановленные по алгоритму, называются "злыми двойниками"? Что же в них такого плохого? А плохо то, что они не являются человеко-читаемыми. Факт того, что LLMка, как ни в чем ни бывало, отвечает что-то осмысленное на подобную кашицу из символов, является контринтуитивным и в очередной раз показывает, что мы все еще очень плохо понимаем, как LLMки обрабатывают информацию.

Далее может возникнуть ещё один вопрос: а на какой именно LLMке все это тестировалось? Может быть, не все из них подвержены этому эффекту? А ответ такой: изначально промпты подбирались на Vicuna-7b-1.5, Phi-2, Mistral, Gemma. Затем оказалось, что подобранные на Vicuna промпты-двойники вдобавок ещё и частично переносятся на другие LLMки, в том числе на проприетарные - Claude 3, GPT-4, Gemini и многие другие. То есть, эффект не просто распространяется на широкий ряд LLM, но ещё и до некоторой степени переносится между ними! В ряде случаев (хоть и не всегда) большие LLMки также реагировали на полученную с помощью Викуньи словесную кашицу P' так, словно бы это был изначальный нормальный промпт P (см. рис. 2).

В самой статье есть еще несколько наблюдений насчет этих "злых двойников", а еще очень много примеров, так что, если кто заинтересовался моим изложением, предлагаю открыть статью и почитать подробнее. Еще можно почитать про псевдопромпты и в целом промп-тюнинг - /channel/tech_priestess/131 - старую технику, близкую по духу к теме поста.

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Мое лицо, когда chatGPT отказался отвечать на очередной идиотский вопрос

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

В комментариях к предыдущему посту интересовались статьей, скриншот которой показан на меме. Чтобы составить представление о том, о чем речь в статье, можно посмотреть научно-популярный ролик про гипотезу Коллатца (в этот раз даже в переводе на русский):

https://youtu.be/QgzBDZwanWA

Рассказ конкретно про вклад Тао в исследование этой гипотезы дан ближе к концу ролика. Сама статья есть на архиве: https://arxiv.org/abs/1909.03562 , но без солидного бэкграунда в области, боюсь, в ней глубоко разобраться не получится. 😵‍💫

#математика

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Хочу, чтобы Дуров ввел систему 🤡-компьюта. Работать она будет так:

Каждый раз, когда подписчик ставит "🤡" на пост в телеграмм-канале, его устройство автоматически на час подключается к ботнету, который админ канала может использовать для своих расчетов. Например, это могут быть какие-нибудь эксперименты с мелкими ллмками. Потом, если админ эти эксперименты добавит в свою статью, то должен будет добавить * со значком 🤡 в сноске, как упоминание о том, откуда взят компьют, так сказатб, для воспроизводимости.

А если админ не придумает никаких расчетов для запуска, то запустится расчет по умолчанию. Этот расчет будет майнить за счёт компьюта подписчика новую валюту: 🤡-коины.

Давайте попросим вместе: Дуров, сделай 🤡-компьют!

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

3. "Последняя неделя-две перед дедлайном": Тут начинается "затыкание дырок". То есть, в каждый момент времени, я смотрю, какая часть работы, наиболее критична и стараюсь сконцентрироваться на ней - если работа находится в рамках моих компетенций; если нет - то я, конечно, ее делегирую. Например, у младшего коллеги могут возникнуть какие-то технические проблемы, которые мешают ему работать, и в этом случае надо срочно их решить (либо передать на решение IT отделу, если не могу решить сама), потому что терять время перед дедлайном нельзя. Или на созвоне обнаружилось, что нужен какой-то дополнительный эксперимент, а все остальные коллеги уже заняты - тогда я его делаю, если могу за разумное время. Если нет, то эксперимент передается коллеге, который может сделать его быстрее, а я доделываю то, что он делал раньше - как бы меняемся задачами. Также может потребоваться напоминать коллегам о том, что нужно сделать, посмотреть, не нужен ли дополнительный созвон, договориться о сроках, в которые будет выполнена каждая часть работы и так далее (это отчасти тимлид, отчасти я, в зависимости от ситуации). И это не говоря о само собой разумеющихся вещах, таких как: поработать над теми частями текста статьи, которые я на себя взяла; проверить адекватность своего и чужого текста; привести в порядок код, который будет выложен при подаче препринта и т.д. и т.п. Короче, в этом режиме я часто переключаюсь между текстом статьи, экспериментом и какой-то организационной деятельностью и испытываю стресс.
4. Особые события - это поездка на конференцию / в командировку / на воркшоп / занятие инженерными вещами, которые нужны компании, типа очистки данных / рецензирование статей. Ясно, что в этих случаях я занимаюсь соответствующими активностями.

#о_себе

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Шикарная ситуация: авторы стебанулись над рецензентами, которые заставляли их что-то ненужное (но может быть зато свое, родное) цитировать, и прямо написали об этом в тексте статьи.

Редактор все это дело пустил «в работу» и вот, статья, с таким красивым абзацем в конце введения, уже в печати 🥳

Одним словом авторы - капитальные красавчики. Другими словами - титановые шары у этих авторов 😁

Причем журнал вполне приличный (IF 8.1). Кризис научных журналов продолжается, в общем. Кстати, в том же MDPI, к рекомендациям типа «милок, ты вот эту пачку статей еще процитируй и все будет норм», относятя более чем строго. Своего вообще ничего нельзя советовать, а насчет чужих работ тоже еще десят раз уточнят, точно ли это нужно.

PS. Ссылка на саму статью авторов c Balls of Steel из Поднебесной тут.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Почему все с таким интересом обсуждают новый интерфейс для чатгпт в виде крысы? 🤔

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Сегодня праздник - день рождения Марии Кюри. Предлагаю в честь этого посмотреть короткий видос с обзором её диссертации, в которой рассказывалось про изучение явления радиоактивности и выделении нового элемента - Радия:
https://youtu.be/-Vynhniw7SY .

А тем, кому интересно почитать про её жизнь, рекомендую книжку, изображенную на рис. 1, мне очень понравилась. В ней и фотографий исторических много (рис. 2), и отрывков из её писем и дневников, и много чего ещё, что позволяет окунуться в атмосферу её жизни, а также жизни её ближайшего окружения.

Например, рассказывалось, как Пьер Кюри поддерживал её во всех её исследованиях, делал для неё измерительные приборы и вместе с ней проводил эксперименты по выделению радия. Короче, единственный нормальный муж. Жалко, что так рано умер. 😢
Было ещё очень грустно читать, что даже после смерти Пьера, Мария продолжала писать в дневнике про события своей жизни, обращаясь к нему, даже зная, что он никогда не прочитает эти строки... 😢

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

То, что фейковые цитаты от специалиста по фейкам были процитированы в деле о фейках, определенно, отражает дух времени. Интернет умер, вздувшись от LLM-генераций, в его бездыханном теле роются стаи маленьких юрких ботов, а трупный яд растекается вокруг, иногда просачиваясь прямо в реальность.

Не забывай, дружок: в этом постапокалиптическом пространстве остались лишь два настоящих человека: ты - мой единственный подписчик, и я - твой единственный админ.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Так вот почему мне так тяжело запоминать имена...

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Благодаря подписчику нашла неплохой SCP-объект: http://telegra.ph/Kvaternionnaya-eres-matematika-kak-zaraznoe-myshlenie-11-16

Оригинал: https://x.com/emollick/status/1857501606671167738

#математика #генерация

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

о боже блядь зарплата пришла господи мне было так грустно и одиноко и было так мало денег и так много работы и писать лекцию к понедельнику и ревьюить гранты и подавать гранты — и вдруг зарплата! озарила меня сиянием своим. на 600 евро больше чем обычно? почему, кто знает? кто считает эти небесные евро? кто кто кто если это не бог то мы называли богом не того. будет ли потом зарплата меньше? никто не знает! может быть мне вернули деньги за эксперименты? но я не подавала на возврат денег за эксперименты! может быть мне вернули деньги за комьют? в прошлый раз мне не возвращали деньги за комьют! но не надо задавать вопросы о зарплате зарплату нужно просто принимать, как мы принимаем первый хильверсумский снег, как мы принимаем счастье и несчастье, как мы прощаем должникам нашим, как православный батюшка прячет лысину от солнца под ковбойской шляпой, как мы ревьюим гранты соседей наших склоняя голову перед чудом чужой души

сердце мое горело и замерзало и дрожало и горело и замерзало обратно но пришла зарплата и обняла меня

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Я смотрю, предыдущий пост вызвал знатную канонаду, надо вас немного подуспокоить. 😌

Взрыв в гифке из поста толсто намекает на то, что высказывание сделано в провокационной форме, так сказать, являясь реализацией тропа "педаль в пол". Если же говорить чуть менее провокационно и чуть более серьезно - очевидно, я не считаю, что кто-то недостоин жизни из-за того, что имеет другие жизненные цели и принципы или просто неспособен к познанию - например, котики (рис. 1). 😼 Говоря про жизнь "недостойную быть прожитой", я говорю не про чужую, а про свою жизнь и в такой форме рассказываю про то, что лично мне в ней больше всего важно. Хотя я, конечно, была бы рада найти больше единомышленников с аналогичными ценностями. ❤️

Подводя итог: геноцида тех подписчиков, которые не занимаются ресерчем, не будет ⌨️

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Редактирую тут свою будущую книшку по грубой геометрии и наткнулся на забавный фан факт: в этом году исполнилось 100 лет довольно известной работе П.С. Александрова в которой тот ввёл понятие одноточечной компактификции.

Удивительно, сколько с тех пор изменилось. Та статья была написана по-немецки, да и главный академический язык тогда был именно немецкий. А всего через 20 лет "что-то случится" и главным, абсолютно доминирующий языком станет английский. И только разные "довоенные" старпёры будут продолжать публиковаться на немецком (Халин, например, одну из очень хороших своих теорем в Math Annalen опубликует в 1964 г. на немецком).

Бережно передаваемые из рук в руки учебники, по которым учились целые поколения математиков тоже изменятся. Сначала они "переедут" в цифру и станут общедоступными, а потом вдруг начнут появляться "конспекты лекций" в arxiv.org, всякие презентации, записи на youtube.. И вот сейчас, 100 лет спустя я нахожу оптимальное изложение компактификации в nlab. И вот идея открыть какой-нибудь "классический" учебник типа Ван дер Вардена мне даже в голову не приходит.

И с преподаванием тоже случилась забавная вещь. Фактически, все доказательства не просто где-нибудь написаны, но даже и без труда (обычно) находятся. Только откуда юному математику (или другому специалису) понять что же ему читать и учить? Вроде туман рассеялся, но слушатель всё равно находится в тёмном лесу, где решительно не ясно куда идти.

Так что нонче лекторы это типа Вергилия, который показывает некий путь (кстати, лишь один из множества возможных), а не единственный и неповторимый источник знания. Лично я, работая с осмысленной публикой, совершенно спокойно пропускаю многие детали (давая, конечно, ссылку на источники) стараясь сосредоточиться на основных идеях и мотивировках.

Получается, что у лекций появляется дополнительное измерение: доп.материалы которые рекомендуются к изучению: и теперь это в основном статьи, заметки, тексты в nlab и подобных википодобных ресурсах, обсуждения на stackexchage, даже (иногда) личные блоги (типа блога Тао).

Не вдаваясь в детали личности Павла Сергеевича (а было там непросто), с некоторой гордостью отмечу, что он мой научный "дед" (т.е. научный руководитель моего научного руководителя). Не знаю что бы он сказал глядя на современные академические и методические реалии. Но, предположу, что многое его бы удивило, и многое заинтересовало.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

😮 В комментарии к постам про статью "evil twins" пришли настоящие evil twins 😮

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Шок! Ученые доказали, что у промптов к LLMкам есть злые двойники! Подробнее читать в источнике: https://aclanthology.org/2024.emnlp-main.4/ 😈

Если точнее, авторы статьи "Prompts have evil twins" с EMNLP-2024 по ссылке выше задаются следующим вопросом. Допустим, у нас есть промпт P, в ответ на который модель выдает некоторую генерацию G. А на какие еще промпты можно получить от модели ту же самую G? И насколько сильно эти альтернативные промпты могут отличаться от оригинального промпта P?

Чтобы ответить на этот вопрос, авторы берут получившуюся генерацию и по ней итеративно находят тот промпт, с помощью которого её можно получить. Алгоритм его нахождения содержит много технических деталей, поэтому, если они вам не интересны, то можно сразу перейти к следующему посту - с результатами. Ну а если интересны, то вот как я его поняла (в самой статье он описан очень коротко, так что многое пришлось достраивать в голове):

В качестве начального промпта-кандидата (нулевого приближения) берутся случайно выбранные токены - столько же, сколько содержалось в оригинальном промпте P. Далее авторы подают этот промпт-кандидат на вход LLMке и получают генерацию G' - скорее всего, мусорную (в конце концов, мы приблизили наш промпт случайными токенами). Однако, нас это не пугает - на каждом шаге генерации мы оцениваем, насколько получившийся результат отличается от нужной нам генерации G, вычисляя KL-дивергенцию в качестве функции ошибки. Далее, раз у нас есть функция ошибки, значит, от неё можно и градиент посчитать по всем параметрам модели - в том числе, по весам её входного слоя.

При обычном обучении - то есть, оптимизации параметров самой модели, мы бы, конечно, использовали градиент для изменения её весов, но в данной ситуации мы оптимизируем не саму модель, а промпт. Поэтому вместо оптимизации весов, на каждом шаге генерации мы смотрим, на весах каких токенов градиенты получились самые большие, и отбираем эти токены как кандидаты на соответствующую позицию в промпте.

Понабрав таким образом токенов-кандидатов для каждой позиции промпта, мы строим несколько новых промптов, случайно семплируя один из токенов-кандидатов на каждую позицию. Далее, из этих новых альтернативных промптов выбирается один лучший (по KL-дивергенции), который считается уже не нулевым, а первым приближением. Ну а затем, все перечисленные вычисления происходят заново, и так несколько десятков раз.

Фух! Теперь, наконец-то смотрим, что получилось!

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

https://youtu.be/JHIxyGgSU90?si=IMQjgIf8-_Q14Rzn

Официальная новогодняя AI реклама от Coca-Cola этого года. Без сахара. Без затрат на реальные съёмки. Без кожаных мешков.
Для сравнения - версия 96 года из моего детства: https://youtu.be/b6liVLkW-U8?si=7r0ChK_bEuYL3uIa . 😔

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Тем временем, выложили текущую статистику с распределением оценок по статьям, которые в данный момент проходят ревью на конференцию ICLR 2025:

https://papercopilot.com/statistics/iclr-statistics/iclr-2025-statistics/

(Там есть и обобщенная статистика по предыдущим годам). Как говорится, ищите себя на графике!

P.S. #академический_ликбез : ICLR (International Conference on Learning Representations) - одна из топовых ML-конференций, статьи на которую проходят рецензирование в несколько этапов. На первом этапе каждой статье (в анонимизированной форме) назначаются несколько анонимных ревьюеров, которые ее читают и независимо (в идеале) выставляют оценки от 1 до 10 в соответствии тем, насколько данная научная работа кажется им корректной, качественной и подходящей по теме. После этого начинается фаза срача rebuttal, на которой можно оспорить оценку каждого ревьюера, показать им дополнительные эксперименты и аргументацию, а также сделать правки в текст статьи, после которых они могут повысить (или понизить 🤡) свои оценки. На финальном этапе мета-ревьюер, по совокупности оценок и результатов обсуждения вынесет вердикт - брать статью на конфу или нет.

Ладно, пойду дальше продумывать срач научную дискуссию 😀 с ревьюерами, а то что-то оценки какие-то низкие поставили, посмотрите на них! 😀

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Решила собрать для новых подписчиков горстку избранных старых мемов с канала, которые вы не видели.

#ML_в_мемах

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

По просьбе читателя, расскажу в общих чертах, как может выглядеть мой типичный день при разных обстоятельствах. Сразу предупрежу, что текст не обладает общностью - очевидно, что в других компаниях и даже командах день ресерчера будет выглядеть по-другому.

Итак, я могу очень условно выделить примерно четыре режима работы, в которых могу находиться:
1. "Свободное плавание";
2. "Работа над гипотезой";
3. "Последняя неделя-две перед дедлайном на конференцию";
4. Особые события.

1. "Свободное плавание": в этом режиме мой день выглядит более-менее расслабленно. Я размышляю над проблемой, которую мне дала тимлид или руководитель от академии, либо выбираю тему самостоятельно - где-то недалеко от интересов остальной команды. Например, недавно мне (и ближайшим коллегам) давали на рассмотрение тему того, как изучение внутренности трансформера может помочь в задачах детекции галлюцинаций и MCQA. А в последнее время, после отправки препринта про MCQA на ревью, я рассматриваю тему "какие свойства текста отражает внутренняя размерность", уже по своей инициативе. "Размышление", разумеется, не означает пассивное сидение на стуле и смотрение в стенку. Оно означает: а) чтение статей по теме; б) обсуждения темы на созвонах (2-3 раза в неделю); в) изучение полезных инструментов; г) постановку экспериментов, которые помогают протестировать мелкие гипотезы, которые появляются по ходу дела или просто лучше понять задачу. При этом я могу попросить коллегу сделать какой-нибудь эксперимент, но чаще делаю их самостоятельно. Вот так, в чередованиях этих активностей, и проходит мой день. В какой-то день я могу почитать больше статей, а в какой-то - больше поэкспериментировать, бывает по-разному.
2. "Работа над гипотезой": происходит после того, как какая-то достойная внимания гипотеза получает первые подтверждения. Подтвердиться может не обязательно моя гипотеза, но и гипотеза других коллег - в этом случае я подключаюсь к тому, что делали они или начинаю делать что-то около этого. В этом режиме я (и/или коллеги по моей просьбе) ставлю эксперименты именно по той гипотезе, которая подтвердилась и развиваю именно её. Здесь уже с большой вероятностью имеет место совместная работа. Конечно, созвоны с обсуждениями тоже продолжаются, но основная часть моего дня занята экспериментами по конкретной теме. Чтение статей или изучение новых инструментов отходит на второй план.

#о_себе

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Увидела результаты подробного опроса около 300 специалистов, работа которых связана с машинным обучением - https://devcrowd.ru/ds24/community_2/
Было очень приятно, что довольно большой процент респондентов отметили мой паблик как один из источников информации по теме (рис. 1), спасибо вам. ❤️
Еще интересно, что почти половина опрошенных хочет подтянуть свои знания в математике (рис. 2). Надо будет подумать, о каких ещё полезных источниках на эту тему я могу у себя рассказать 🤔

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Так, господа новые подписчики и дамы новые подписчицы. 🤨

Из-за обилия новых людей в паблике у меня слетела одна из реакций. Необходимо исправить эту ситуацию, поставив бусты:
/channel/boost/tech_priestess

Если не поставите, уберу клоунов и какашки из реакций! 😼😼😼

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Сегодня по программе решаем лингвистические задачки из "Кванта" и радуемся моему маникюру 💅

#книги

Читать полностью…
Subscribe to a channel