Люблю высокие технологии и кушать. Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.
https://youtu.be/-EayZBzlAI0?si=eZi62frOhxgwihl-
Понравилось это, довольно подобное и обстоятельное, видео про контент-фермы. Первые 20 минут рассказывается про фермы на основе ИИ... вторая буква "И" здесь, правда, выглядит лишней. 🤔
Интересно наблюдать, какими всратыми путями взаимодействуют технологии и общество.
#генерация
⚡️⚡️⚡️СРОЧНЫЕ НОВОСТИ! ⚡️⚡️⚡️
OpenAI достигла AGI!
...
...
Шучу, нас настигла более важная проблема. В канале пропала реакция 😠!
Если вы достойный служитель Бога-Машины, бустаните канал, чтобы она появилась снова:
/channel/boost/tech_priestess
Если вы техноеретик и боитесь обличения, так и быть, можете поставить клоуна
scully_int/5kL2IyDqFbn">Кейс про инфоцыганство
Читать полностью…Недавно мне удалось поучаствовать в создании модуля занятий для Deep Learning School по теме "Детекция сгенерированных текстов". Я записала лекцию и сделала юпитер ноутбук для семинара, а сегодня результаты трудов выложили на Степик и Ютуб! Спасибо Тане за ряд ценных указаний по улучшению юпитер ноутбука и за запись самого занятия. 😻
Вот ссылки на #учебные_материалы :
💅 Степик (1, 2)
💅 Ютуб (1, 2)
💅 Колаб
💅 PDF со слайдами
А еще ребята сделали домашнее задание к модулю в виде соревнования на Kaggle. Там можно самостоятельно попробовать свои силы в детекции искусственных текстов.
—
Запись лекции шла довольно тяжко: сначала я порепетировала её с другом и сделала некоторые доработки презентации по результатам этой репетиции; через пару дней с утра сделала пробную запись, которую несколько раз начинала сначала, так как сбивалась. После этого поехала в офис на работу, поработала там, вернулась поздно вечером и только тогда смогла записать лекцию нормально (именно поэтому я выгляжу на записи такой уставшей).
Честно говоря, сильно мешала сосредоточиться фоновая тревога по поводу того, что на записи я ляпну что-то не то или что-то забуду, и в интернете меня за это, как всегда, обосрут. И при этом умом-то я, конечно, понимаю, что:
1) Ошибки и неидеальности неизбежны всегда и во всем;
2) Обсирание также в принципе неизбежно при выкладывании видео на Ютубе на абсолютно любую тему и абсолютно любого качества - для этого достаточно самого факта того, что видео посмотрит больше трех анонимусов 😅
3) При всем при этом, обсирание не наносит мне никакого реального вреда, так что никакого объективного смысла тревожиться по его поводу нет.
Но, несмотря на понимание этого, до конца искоренить тревогу у меня все равно пока не выходит. Ну да ничего, надеюсь, что с опытом ситуация постепенно улучшится, и мне удастся меньше париться. 🦾
Вспомнила забавный эпизод из детства.
Однажды на уроке геометрии (не помню, в каком классе это было) нам объяснили, что такое прямая. Главным, что я вынесла для себя из этого объяснения было то, что прямая бесконечна в обе стороны. Разумеется, мой неокрепший межушный нервный узел был взбудоражен такими новостями. В результате зародившихся в нем размышлений над бесконечной природой этого объекта, я пришла к выводу, что раз прямая бесконечна, то и изображать её нужно настолько длинной, насколько хватит сил и насколько это позволит наш несовершенный мир, чтобы максимально отразить это её свойство...
Поэтому когда на следующем уроке нужно было делать чертежи в тетради, включающие в себя прямые, я чертила эти прямые до конца листа, а потом продолжала рисовать их прямо на парте, до конца парты. К концу урока вся парта была разрисована, и когда учительница это заметила, она, разумеется, заставила меня мыть парту, а также нажаловалась на мое поведение родителям (это, разумеется, происходило частенько 😏).
Родители, конечно, стали ругаться, но я наотрез отказывалась признать свою неправоту, ведь что я могу, если прямая должна продолжаться? Впрочем, в итоге отец все-таки придумал аргумент, который меня убедил больше не продолжать прямые на парте и не портить школьную собственность. Он сказал, что прямая всегда лежит в одной плоскости, а лист тетради и парта - это разные плоскости, поэтому продолжать прямую с листа на парту математически некорректно. Эти мудрые слова проникли в мою душу, и я перестала буянить.
Впрочем, я все равно до старшей школы продолжала рисовать все прямые до самых краев тетрадного листа, хоть парту уже и не портила. 🤭
#о_себе
⬆️ По многочисленным просьбам трудящихся, на Ютуб, наконец, выложили долгожданную запись open talks ✍️
Читать полностью…Блин, а ведь в суматохе дней я совсем забыла, что 21 марта у меня был юбилей - ровно 5 лет работы в Хуавей 🤓
В честь этого - несколько красивых кадров из Сучжоу, где я сейчас нахожусь в командировке.
#о_себе
Статья на нейрипсе для женщины честь, а репутация и у научпопера есть
Читать полностью…Вот и стриму конец, а кто слушал - молодец!
Обещали потом выложить запись. 👉
⬆️ Вышесказанное в основном касается работников университетов, но некоторые моменты могут быть полезными и для айтишников
Читать полностью…🧠 Open Talks Special: IQ & AI — деградация или развитие?
19 марта в 19:00 [МСК]
ведущие исследователи мозга встретятся с AI-экспертами, чтобы обсудить, как взаимодействие с LLM влияет на когнитивные способности человека.
➡️ Как ИИ влияет на древний и новый мозг человека?
➡️ Как трансформирует наши привычки и поведение?
➡️ Как стать эффективнее, быстрее, умнее с помощью ИИ?
Эксперты:
⭐️ Ирина Якутенко
— молекулярный биолог, научный журналист, автор книг «Воля и самоконтроль», «Вирус, который сломал планету». Автор Telegram-канала @kamenschiki
⭐️ Лаида Кушнарёва
— deep learning researcher в Huawei, исследует внутреннее устройство Large Language Models (LLM). Автор статей на NeurIPS, EMNLP и другие конференции. Автор Telegram-канала @tech_priestess
⭐️ dysphorra?si=-slqS1LJenc_PBEB">Владимир Алипов
— врач нейробиолог, преподаватель УЦ имени Бехтеревой, популяризатор науки. Изучает память, сознание, интеллект. Автор Telegram-канала @alipov_shorts
Ведущий: Павел Подкорытов
— сооснователь AI Talent Hub и CEO Napoleon IT
🧐 Не увидел важного вопроса в анонсе? ➡️ Регистрируйся и задай свой!
Приходи! Будет легендарно 🧠
#OpenTalks #AITalentHub #ITMO #NapoleonIT
QR алгоритм
🥸 Одна из жемчужин численных методов. Он используется для поиска собственных чисел матрицы.
🥰 Простой и стабильный, а при небольших модификациях ещё и быстрый.
Qₖ, Rₖ = qr(Aₖ) - Вычисляем QR-разложение матрицы
Aₖ₊₁ = RₖQₖ - Умножаем факторы в обратном порядке
😑 Для произвольной квадратной матрицы он сходится к верхнетреугольной матрице, на диагонали которой стоят её собственные числа (картинка слева)
👍 Если же матрица - симметричная, то он сходится вообще к диагональной матрице собственных чисел (картинка справа).
Идея анимации взята у Gabriel Peyré - один из лучших аккаунтов по красивым математическим визуализациям. По моим предварительным исследованиям, после этого поста отпишется наибольшее количество уважаемых подписчиков.👌
😐 Код
Ну что же, настало время очередной командировки в Китай! 🤓
Из-за того, что мы с коллегой опоздали на свой самолёт во время пересадки и пришлось долго ждать нового, дорога к месту назначения оказалась дольше и тернистее, чем планировалась... такси в Москве + самолёт из Москвы в Пекин + приключения в пекинском аэропорту + самолёт из Пекина в Шанхай + такси от Шанхая до Сучжоу = все вместе заняло более суток...
Как же хорошо теперь после этого пиз... удивительного путешествия наконец-то принять душ, завернуться в махровый халат, сделать масочку и лечб на настоящую кровать... 💅
🤓 НАСТОЯЩУЮ! 🤓 КРОВАТЬ! 🤓
#о_себе
Сегодня выступаю на воркшопе Preventing and Detecting LLM Misinformation AAAI с нашей статьей по анализу датасетов с искуственными текстами. Прикладываю слайды и кратко рассказываю про мотивацию статью:
Если сравнить результаты с соревнований по детекции искуственных текстов и с тем, какой результат выдают реальные детекторы, то мы увидим довольно сильное расхождение. На соревнованиях участники выбивают точность под 100%, да и в статьях про новые детекторы
авторы часто репортят схожие метрики.
Понятно, что реальные тексты чаще сложнее и длиннее тех, что встречаются в выборках, однако тем не менее, все текущие детекторы работают гораздо хуже, если вообще не на уровне рандома.
Еще одна проблема - то, что Интернет активно наполняется искуственными текстами. А знаете, где они потом используются? При обучении новых моделей ИИ. В нескольких работах было показано, что когда модели переходят на обучение на сгенерированных текстах, их качество заметно ухудшается. Поэтому, вопрос проверки качества сгенерированных данных касается еще и тех, кто учит новые модели.
В самой статье мы запускаем некоторые методы детекции на 17 выборках с соревнований и из статей, а также предлагаем новые методы анализа качества выборок с искуственными текстами.
Что мы выявили: почти для каждого датасета получилось так, что на каких-то методах он проявил себя плохо, а на каких-то хорошо - т.е в теории можно использовать ансамбль детекторов различной природы, чтобы находить аспект, по которому можно достаточно хорошо разделить искуственный текст от человеческого.
Надеемся нашей статьей развить какую-то дискуссию о качествах датасетов для детекции и об адаптации "теоретических" детекторов к реальным текстам
Статья на OpenReview
В последнее время в статьях про дообучение LLM на решение математических задач и прочий reasoning намечается тренд на экстремальное уменьшение размеров датасетов при экстремальном увеличении их качества. Так, в статье s1: Simple test-time scaling ( https://arxiv.org/abs/2501.19393 ) используется fine-tuning на 1000 примерах, в Less Is MOre for reasoning ( https://arxiv.org/abs/2502.03387 ) - на 817... куда же заведет эта дорожка? Сегодня утром я совершенно внезапно для себя нашла ответ: проснулась, потянулась, проверила список Huggingface Daily Papers за 30 апреля 😶 и увидела...
...Reinforcement Learning for Reasoning in Large Language Models with 😱 One 😱 Training Example ( https://arxiv.org/abs/2504.20571 )!
Авторы утверждают, что их RL на одном примере позволяет очень сильно улучшить качество решения математических датасетов маленькими моделями - Qwen2.5-Math-1.5B (результат см. на рис. 1), а также Qwen2.5-Math-7B, DeepSeek-R1-Distill-Qwen-1.5B и, в некоторой степени, Llama3.2-3B-Instruct. Но есть несколько нюансов:
Во-первых, для того, чтобы найти тот самый пример-бриллиант, от которого умственные способности моделей засветятся синими лучами 🧠, им пришлось все же провести предварительное обучение Qwen2.5-Math-1.5B с помощью GRPO (policy gradient loss + KL divergence loss + entropy loss) на 1209 примерах из DeepScaleR-Preview-Dataset в течении нескольких эпох, с целью ранжирования примеров. 📈 После этого, авторы отсортировали примеры в зависимости от того, какую вариацию качества на трейне давали шаги градиента на каждом примере в течении обучения, и обозначили каждый пример буквой π с индексом. Так, π₁ - это пример, обучение на котором максимально меняло качество на трейне, π₂ - пример, стоящий на втором месте по вариации качества и т.д. И только после этого авторы стали пробовать обучать исходные модели из исходных чекпоинтов - в первую очередь, на примере π₁, и вторую очередь, на других хороших.
Во-вторых, чтобы отобранный пример действительно улучшил качество модели, на нем придется сделать около 1000-2000 итераций (повторение - мать учения? ✍️).
В-третьих, чудо-пример, найденный с помощью Qwen2.5-Math-1.5B, хоть и более-менее переносит свои волшебные качества на два других квена, но не так хорошо переносится на Llama (у той увеличение качества в среднем оказалось всего около 2%, см. рис. 2 для подробностей).
Тем не менее, заявление авторов статьи звучит сильно, и будет очень интересно, если кто-нибудь сможет его независимо подтвердить. 😄 Благо, что код публично выложили на github: https://github.com/ypwang61/One-Shot-RLVR .
Сами волшебные примеры π номер 1 и 3, кстати, можно посмотреть на рис. 3, а в аппендиксе статьи - увидеть ещё несколько. А еще статья содержит довольно большой раздел с анализом и ablation study. 📃
#объяснения_статей
⬆️ Кайфовый пост. Очень понравились советы для неспециалистов по критическому осмыслению информации, связанной с медицинскими рекомендациями.
В самом деле, каждый человек не может разбираться во всем, и вот такой критический подход к информации из тех областей, в которых вы не специализируетесь, это база.
#наука #хозяйке_на_заметку
Зачем все LLM фокусируют attention на первом токене? (by DeepMind & Oxford)
Давно известно, что многие головы внимания у LLM упорно «смотрят» на самый первый токен последовательности (чаще всего это токен <bos>
). В моделях вроде GPT, LLaMA или Gemma такое внимание занимает до 80% от всех голов!
Авторы показывают, что такой «слив» внимания на первый токен — это не ошибка, а очень полезный механизм. Он работает примерно как «нулевая операция» (no-op), то есть помогает головам внимания эффективно ничего не делать и не вносить ненужных изменений в представления токенов, когда они не нужны.
Зачем это нужно? Постоянное активное перемешивание информации между токенами ведёт к трём серьёзным проблемам:
1. Rank collapse — представления всех токенов становятся линейно зависимыми.
2. Representational collapse — сильно растёт косинусная близость соседних токенов.
3. Over-squashing — дальние токены перестают эффективно обмениваться информацией.
Чем глубже модель и длиннее контекст, тем сильнее она нуждается в этом механизме. А если убрать первый токен <bos>
во время инференса, у модели, привыкшей к нему, качество генерации сильно падает.
P.S. Что-то оооочень похожее нам рассказывал профессор Вячеслав Дубынин на курсах химии мозга — у людей тоже есть механизм предотвращающий "смешивание" активаций. А, например, ЛСД его ослабляет, вызывая галлюцинации.
Статья
🔵🟠 Новое видео!!!
Оно про самое невероятное открытие в области порталов. Благодаря ему возникает карманное пространство, а ещё вся физика порталов переворачивается с ног на голову! (Да, там снова будет та самая картинка)
Приятного просмотра 🍿
https://youtu.be/s3vLAWHjyIY
🖥 Олимпиада DLS состоится уже через 4 дня!
До начала отборочного этапа олимпиады, который пройдет 5-6 апреля, осталось уже не так много времени! Если вы еще не зарегистрировались, то стоит поторопиться!
РЕГИСТРАЦИЯ
Чтобы освежить в голове знания и немного подготовиться, можно просмотреть варианты отборочного этапа и финала олимпиады прошлого года. Кроме самих условий, на сайте доступны также и решения 🏆
А если вы новичок, и хотите ускоренно повторить материл к олимпиаде, рекомендуем обратиться к нашему короткому-онлайн курсу. Потом можно будет пройти полноценное обучение в DLS 😉
📹 Как чувствует себя IQ в эпоху AI?
От голосовых ассистентов до алгоритмов соцсетей — ИИ всё активнее влияет на то, как мы живём, учимся и принимаем решения. И это только начало. Но как постоянное взаимодействие с ИИ отражается на наших привычках, критическом мышлении и когнитивных способностях в целом? 🧠
Разобрали вместе с популярными исследователями мозга и LLM
в новом выпуске Open Talks Special — уже на YouTube 🔽
▶️ CМОТРЕТЬ
Ставь 👍 в YouTube, чтобы ролик увидело больше талантов!
#AITalentHub #ITMO #NapoleonIT
Как же меня достали претензии к тому, что я не слежу за своей репутацией. Кому-то не нравится, что я участвую в мероприятии со спикерами, которые им кажутся "ненаучными" или не нравятся по другим причинам. Мол, из-за этого я теряю свою репутацию. Кому-то не нравится, что я не удаляю комментарии с чем-то "ненаучным", и из-за этого тоже теряю репутацию. Кому-то не нравятся, что я не убираю из реакций клоуна и какашку, потому что что? Правильно, так я тоже теряю репутацию.
Ну и нахуй тогда она нужна, эта репутация, если за неё надо трястись, бояться и сажать саму себя в тесную клетку, в которой ничего нельзя? Идите сами себе придумывайте ограничения, какие захотите, а от меня отстаньте - я шиз и (кибер)панк.
Слава Богу Машине!!! 🖕🖕🖕
#о_себе
Напоминаю, что через час, в 19:00 по Москве (и 00:00 по Сучжоу) начинается open talks с моим участием. Обсуждение будет в основном на тему того, поумнеет ли человечество от использования LLMок или, наоборот, отупеет, а также про то, как AI изменит науку и процесс научных исследований. Ожидается, что стрим можно будет посмотреть по ссылке:
/channel/aitalenthubnews?livestream (сейчас пока не работает, так как стрима нет; если не заработает, заходите в их канал, там будет понятно).
Жертвую своим режимом сна только ради вас и ваших клоунов, так что не забывайте подключаться. 😼
На дне образования: Трудовые договоры
В этом выпуске "На дне образования" мы расскажем о важнейшем документе, с которого начинается трудовой путь каждого.
Какими бывают трудовые договоры? Что должен в себя включать трудовой договор, а чего в нем быть не должно? Как защитить себя от манипуляций работодателя? И, наконец, что такое бессрочный договор, и как можно его заключить - об этом и многом другом в новом выпуске.
Знание своих прав и трудового законодательства - лучший способ защитить себя. Поделитесь этим видео с коллегами!
ВК видео
Запрещенная соцсеть
Запрещенный стриминг
Решила поучаствовать в Open Talks. Задавайте свои ответы:
Читать полностью…https://huggingface.co/papers/2503.03601
Пожалуйста, помогите нам попасть в daily papers 🥺 (для этого нужно зайти в аккаунт на huggingface и нажать upvote). Всех кто поможет, благословит Бог Машина
🎉 Тем временем, мы с коллегами выложили на arXiv новый 4-страничный препринт про применение Sparse AutoEncoders (SAE, разреженные автоэнкодеры) для детекции искусственно сгенерированных текстов 🎉 (чтобы подробно разобраться, как работают SAE, можно начать, например, отсюда: https://transformer-circuits.pub/2022/toy_model/index.html ; если же говорить вкратце, SAE - это один из способов извлечь более "распутанные" и интерпретируемые фичи с эмбеддингов LLM-ки). В процессе работы над исследованием к моим постоянным соавторам присоединились два новых: Антон ( /channel/abstractDL ) и его коллега Полина, которые очень помогли с экспериментами и текстом на финальных стадиях!
Сама же работа называется "Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders" ( https://arxiv.org/abs/2503.03601 ) 🤓 и заключается в следующем:
Мы взяли модель Gemma-2-2B, навесили на нее предобученный SAE (gemmascope-res-16k) и начали подавать на вход различные LLM-сгенерированные тексты. Далее мы:
а) Детектировали LLM-генерацию по фичам SAE (интересно, что качество такой детекции оказалось лучше, чем детекции по оригинальным эмбеддингам Gemma!);
б) Отобрали 20 наиболее важных для детекции фичей с помощью бустинга и проанализировали их смысл, чтобы разобраться, какие именно отличия человеческих текстов и LLM-сгенерированных были "пойманы" этими фичами.
Анализ фичей проводился тремя основными способами: ручной интерпретацией (вручную смотрели, чем отличаются те тексты, на которых значение фичи низкое, от тех, на которых оно высокое), авто-интерпретацией (то же самое делала LLMка) и steering-ом. В последнем способе, в отличие от предыдущих, мы подавали на вход Gemma-2-2B не весь пример из датасета, а только промпт. Продолжение же мы генерировали с помощью самой Gemma-2-2B и при этом вектор, соответствующий выбранной фиче в эмбеддинге модели искусственно увеличивали или уменьшали, чтобы посмотреть, как это влияет на результат генерации. Далее GPT-4o автоматически интерпретировала, чем тексты, сгенерированные при уменьшенном значении нужного вектора, отличаются от текстов, сгенерированных при увеличенном значении (также про steering см. посты /channel/tech_priestess/1966 и /channel/tech_priestess/1967 ).
Результаты интерпретации в целом вполне соответствуют тем интуитивным представлением о сгенерированных текстах, которое обычно формируется у людей, которые часто пользуются LLMками (см. /channel/abstractDL/320 ): согласно нашему анализу, сгенерированные тексты чаще оказывались водянистыми, заумными, чрезмерно формальными, чрезмерно самоуверенными, а также чаще содержали повторения, чем человеческие тексты. Также мы описали несколько легко интерпретируемых признаков сгенерированности для отдельных доменов и моделей и другие наблюдения (о которых подробнее можно почитать в тексте самого препринта).
#объяснения_статей
Очень интересная и важная тема, всячески поддерживаю. ⬆️
#объяснения_статей
В августе 2003 года в одном из автосалонов Лос-Анджелеса произошел эко-теракт, принесший суммарный ущерб в 2.3 миллиона долларов; здание салона было сожжено полностью и около 100 автомобилей SUV были уничтожены или сильно повреждены. На месте преступления были обнаружены граффити: "ПОЖИРАТЕЛИ БЕНЗИНА" и "УБИЙЦА". На одном автомобиле — Mitsubishi Montero — красовалась написанная преступником формула e^(pi*i) + 1 = 0. Пользуясь этой зацепкой, ФБР арестовало Уильяма Коттрелла, студента факультета теоретической физики Калифорнийского университета, и обвинило в восьми случаях поджога и заговоре с целью поджога. На суде в ноябре 2004, закончившемся признанием Коттрелла виновным, он признался в преступлении: "Думаю, я знал это уравнение еще с пяти лет. И вообще — все должны знать теорему Эйлера."
из книги Robert Crease, "A Brief Guide to Great Equations"