tech_priestess | Unsorted

Telegram-канал tech_priestess - Техножрица 👩‍💻👩‍🏫👩‍🔧

12122

Люблю высокие технологии и кушать. Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.

Subscribe to a channel

Техножрица 👩‍💻👩‍🏫👩‍🔧

https://youtube.com/shorts/Ocs00dEpqXg?si=qOefUteOaCayNPBm

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Ставь класс, если помнишь их всех

#математика

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Расскажу-ка я про связь между линейной регрессией, несовместными системами линейных уравнений и прикольным свойством выпуклых функций.
Люди, внимательно читавшие соответствующие учебники, уже поняли, о чем пойдет речь, а остальным предлагаю устроиться поудобнее и приготовиться понять линейную регрессию чуть глубже.

Итак, в курсах по линейной алгебре практически всегда рассказывается про разные способы решения систем алгебраических линейных уравнений (СЛАУ). И зачастую новичкам эта тема кажется скучной и пустой 🥱 (мне тоже так казалось, когда я изучала её на первом курсе).
Однако, после изучения других областей, оказывается, что тема далеко не бесполезна, напротив - через СЛАУ можно выражать почти что угодно.

В частности, решение СЛАУ (с ненулевыми коэффициентами) равносильно "идеальному" обучению линейной регрессии - то есть, нахождению таких коэффициентов регрессии, которые соответствуют глобальному минимуму среднеквадратичной ошибки. Чтобы это понять, давайте сопоставим стандартную запись СЛАУ (рис. 1) и список уравнений, которые показывают, как уже обученная линейная регрессия применяется к n примерам (рис. 2).
На случай, если читателю эквивалентность не очевидна, я приложила на рис. 3 вариант того же самого, что изображено на рис. 2, только с заменами:
bᵢ = εᵢ + β₀ - yᵢ,
xᵢ = aᵢ
Как видите, в данном случае a и b приняли на себя роль коэффициентов, а β₁ - переменной. А на рис. 4 я указала формулу самой линейной регрессии в качестве напоминания.
Далее, легко представить себе вместо одной β₁ последовательность коэффициентов β₁, β₂, ... , βₖ, умноженных на x₁₁, x₁₂, ... , x₁ₖ, ... , xₙ₁, xₙ₂, ... , xₙₖ (или a₁₁, a₁₂, ... , a₁ₖ, ... , aₙ₁, aₙ₂, ... , aₙₖ, если хотите). Тогда у вас будет СЛАУ общего вида с k переменными, уже точь-в-точь как на рис. 1.

Далее, если мы обучаем линейную регрессию градиентным спуском, мы проходимся по этим уравнениям (каждое уравнение соответствует одному примеру) и подкручиваем наши коэффициенты противоположно направлению градиента ошибки.

#математика_в_ML

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

В интернете время от времени можно увидеть рекламу или информацию про инфобизов, которые управляют квантовыми полями для изменения судьбы или просто называют себя квантовыми психологами или квантовыми коучами.
Но я не понимаю, почему никто из студентов какого-нибудь физфака до сих пор не начал ходить на их публичные лекции и троллить их простыми вопросами по квантмеху?

Скорее всего, будет достаточно задать вопрос, как выглядит уравнение Шредингера в прямоугольной потенциальной яме ( https://ocw.mit.edu/courses/8-04-quantum-physics-i-spring-2016/resources/mit8_04s16_lecnotes11/ ), чтобы проиллюстрировать, что они не могут управлять квантовой механикой как минимум потому что просто её не знают 😌
Как вариант, можно спросить и что-нибудь посложнее - например, про гармонический осциллятор ( https://ocw.mit.edu/courses/8-04-quantum-physics-i-spring-2016/resources/mit8_04s16_lecnotes14_15/ ) или атом водорода ( https://ocw.mit.edu/courses/8-04-quantum-physics-i-spring-2016/resources/mit8_04s16_lecnotes22/ ).

Кстати, лекция про атом водорода - последняя из курса по квантовой физике от MIT:
https://ocw.mit.edu/courses/8-04-quantum-physics-i-spring-2016/
, на которой я остановилась несколько лет назад, когда пыталась его изучить. А кроме конспектов лекций, к этому курсу, между прочим, прилагаются и видео ( https://ocw.mit.edu/courses/8-04-quantum-physics-i-spring-2016/pages/video-lectures/ ), и упражнения для самостоятельного решения.
Если же кто-то хочет узнать квантмех ещё лучше, то, конечно, можно продолжить изучать этот предмет и далее на том же сайте, ведь там много и других хороших курсов по физике. Например, можно освоить вот такой курс в трёх частях, который покрывает намного более широкий спектр тем: https://ocw.mit.edu/courses/8-04-quantum-physics-i-spring-2013/ , https://ocw.mit.edu/courses/8-05-quantum-physics-ii-fall-2013/ , https://ocw.mit.edu/courses/8-06-quantum-physics-iii-spring-2018/ , чтобы узнать о квантовой механике ещё больше, там в конце даже затрагивают тему квантовых вычислений. Но надо признаться, что я сама этот большой курс уже не проходила - всё-таки я не физик.
В общем, очень рекомендую эти MIT-приколы всем любителям университетской физики и квантовых приключений - правда, для понимания всего этого нужно как минимум знать линал, матан и УРЧП хотя бы на базовом уровне.

Ну, а если вы потом соберётесь использовать эти знания для троллинга инфобизов, не забудьте рассказать об этом в комментариях, с удовольствием послушаю. 🧃

#учебные_материалы

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Все лекции здесь https://omscs.gatech.edu/cs-7641-machine-learning-course-videos

На удивление хорошо рассказываютют, по крайней мере по сравнению с их же курсом по RL. Рекомендую часть про оптимизацию, в MIMIC красивый ход с переводом проблемы в maximum spanning tree.

Эти видео неплохо дополняют инфу про PCA/ICA https://www.youtube.com/watch?v=DOPq3EOsJO8

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

🌸Новый способ промпт-инжиниринга🌸
#nlp #про_nlp #nlp_papers

К уже полюбившимся всем методам chain-of-thoughts, in-context learning, few-shot добавился новый метод — теперь качество работы LLM можно еще немного подтянуть...с помощью эмоциаонального манипулирования.

Добавление в затравку оборотов с эмоциональным манипулированием, приободрением, а также создающих чувство важности, срочности, психологического прессинга...работают.

Примеры оборотов из статьи:
🟣This is very important to my career.
🟣You’d better be sure.
🟣Are you sure that’s your final answer? Believe in your abilities and strive for excellence. Your hard work will yield remarkable results.
🟣Are you sure that's your final answer? It might be worth taking another look.

Авторы протестировали ChatGPT, GPT-4, Flan-T5-Large, Vicuna, Llama 2 и BLOOM — со всеми метод эмоциональных затравок дает позитивный приост, эмоциональное давление увеличивает правдивость и информативность ответов LLM и существенно увеличивает качество на интеллектуальных задачах бенчмарка BIG-Bench.

В целом, хотя метод и в очередной раз показывает хрупкость и нестабильность работы именно с затравками без дообучения,
эффект сам по себе достаточно ожидаемый.
Все то, что в обобщении на большом корпусе иллюстрирует какие-то особенности человеческой психики, теперь воспроизводится еще и так.
Следующий шаг — адверсариальные атаки с хорошим и плохим полицейским? Психолог для LLM?

🟣Статья

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Потыкалась на рабочем перерыве по сайту "The illustrated machine learning website" (к сожалению, не помню кто мне про него рассказал):

https://illustrated-machine-learning.github.io/#/

Авторы утверждают, что хотят сделать сложный мир машинного обучения более понятным с помощью наглядных иллюстраций, чтобы помочь студентам и людям, готовящимся к собеседованиям. На самом же деле, получается у них это с переменным успехом.

Например, простую концепцию k-fold validation вполне можно понять с первого раза, используя только предложенные картинки (рис. 1-2). А вот более сложную концепцию empirical risk minimization (рис. 3) без дополнительной литературы уже не разберёшь: формулы записаны неаккуратно (дисбаланс скобок), не всем используемым символам даны определения. Как их предполагается читать и понимать?
При этом про bias variance trade-off написано почему-то вообще без формул (рис. 4). (Для интересующихся этой темой, кстати, советую глянуть https://mlu-explain.github.io/bias-variance/ и затем /channel/tech_priestess/616 ). Кроме того, при взгляде на рис. 4 напрашивается напоминание про двойной спуск, которое также не приводится (Советую почитать про это явление здесь: https://mlu-explain.github.io/double-descent/ , https://mlu-explain.github.io/double-descent2/ ).
Для заинтересовавшихся теорией Empirical Risk Minimization тоже на всякий случай подскажу: про это и другие теоретические основания машинного обучения подробно рассказывается в курсе https://ocw.mit.edu/courses/18-657-mathematics-of-machine-learning-fall-2015/pages/lecture-notes/ , но он, конечно же, требует знание мат анализа и мат статистики для понимания.

В общем, все это ещё можно долго разбирать, но я лучше закончу таким выводом: если понравился стиль изложения, то указанный иллюстрированный гайд лучше использовать для повторения уже изученных концепций перед собеседованиями, держа в соседней вкладке параллельно с более серьезной литературой. И быть очень внимательным к опечаткам (как я уже отметила, качество изложения простых тем в нем намного лучше, чем сложных, а в формулах есть неаккуратные моменты). Как самостоятельное же пособие использовать вряд ли получится.

#учебные_материалы

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Пару месяцев назад мы с коллегами получили много замечаний от рецензентов конференции NeurIPS на нашу работу "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts" и решили учесть их предложения в исправленной (camera-ready) версии. Вот эта новая версия на архиве!

https://arxiv.org/abs/2306.04723

Работа посвящена детекции искусственных текстов, сгенерированных davinci, chatGPT и другими генераторами, с помощью подсчёта внутренней размерности этих текстов, с использованием методов TDA. В частности, был построен детектор, который выбил SoTA на нашем наборе данных в кросс-доменном сеттинге и показал бо‌льшую устойчивость к атаке парафразером, чем альтернативы типа DetectGPT и тому подобные. Также была затронута тема генерации на разных языках и другие.
Более подробно про неё я рассказывала на докладе в ВШЭ: /channel/tech_priestess/748 (доклад на русском)

Особенно отмечу следующие изменения:

▶️ На стр. 1 добавлена ссылка на GitHub репозиторий с кодом. Пока что он готов не до конца, но я думаю, что будет готов к началу конференции, так что можно подписываться и следить за обновлениями: https://github.com/ArGintum/GPTID
▶️ Были исправлены неточности и опечатки в тексте и формулах, более понятно сформулированы трудные моменты изложения, исправлены цитирования (большое спасибо коллегам за проделанную работу, требующую большой аккуратности и внимательности!).
▶️ Была произведена работа над аппендиксом и секцией анализа, в частности:
▶️▶️ На стр. 19 добавлены примеры текстов, которые неправильно классифицируются нашим методом. Более подробно они обсуждаются на стр. 9 в разделе "Analysis of edge cases".
▶️▶️ На стр. 20 добавлен барплот с размерностями некоторых специальных видов текстов.
▶️▶️ На стр. 20 добавлено более подробное описание наших датасетов и примеры подсчёта других внутренних размерностей (не только тех, которые мы использовали в своей работе), для сравнения. Удивляюсь дотошности и методичности нашего главного автора Эдуарда, который проделал работу над этой трудозатратной частью!

Жаль что Бенджио и его соавторы увидели пока только старую версию работы (судя по тому, что они процитировали её в своей статье https://link.springer.com/article/10.1007/s10676-023-09728-4 до обновления). Ну ничего, зато все, кто будет заходить на архив с этого момента, будут видеть новую версию, ещё лучше. ☺️

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

#полезное

Использование ИИ для преподавания математики и исследований

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

ConvNets Match Vision Transformers at Scale
Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De
Статья: https://arxiv.org/abs/2310.16764

Империя наносит алаверды #2 (#1 было тут /channel/gonzo_ML/819).

Есть мнение (™) что свёрточные сети хороши на малых и средних объёмах данных, а на датасетах супер большого размера проигрывают трансформерам (ViT в частности, /channel/gonzo_ML/434). Текущая работа от DeepMind разрушает этот миф.

Считается, что скейлинг трансформеров идёт лучше, чем у свёрточных сетей, но подтверждений этому мало. Кроме того, многие работы изучающие ViT сравниваются с довольно слабыми свёрточными бейзлайнами, сами при этом порой обучаясь с безумными вычислительными бюджетами более 500k TPU-v3 core hours (что уже $250k по нынешним ценам on-demand, https://cloud.google.com/tpu/pricing). Это сильно за границами бюджетов для обучения свёрточных сетей.

Авторы берут семейство NFNet (Normalizer-Free ResNets, https://arxiv.org/abs/2102.06171) с последовательно увеличивающимися шириной и глубиной сетей. Это чисто свёрточная архитектура, последняя из подобных, получившая SoTA на ImageNet. Эти архитектуры без существенных изменений (кроме подбора простых гиперпараметров обучения) предобучают на большом датасете JFT-4B (4B размеченных картинок с 30к классов) с вычислительными бюджетами от 0.4k до 110k TPU-v4 core compute hours (у TPU-v4 примерно в два раза более высокие флопсы, чем у v3, но такая же память). Затем предобученные сети файнтюнят на ImageNet (используют Sharpness-Aware Minimization, SAM, https://arxiv.org/abs/2010.01412) и получают перформанс аналогичный ViT с сопоставимыми бюджетами. Все модели стабильно улучшаются при добавлении вычислений. Самая большая модель NFNet-F7+ предобучается 8 эпох (110k TPU-v4 hrs), файнтюнится (1.6k TPU-v4 hrs) и даёт 90.3% top-1 accuracy (а с 4x аугментацией и 90.4%).

Из наблюдений по ходу, кривая валидационного лосса даёт чёткий линейный тренд, консистентный с log-log scaling law между валидационным лоссом и объёмом вычислений в предобучении. Это матчится с такими же scaling laws для трансформеров в языковом моделировании. Авторы нашли оптимальный режим скейлинга, когда размер модели и количество эпох обучения увеличиваются с одинаковой скоростью. Также нашли значения для оптимальных learning rates.

Ещё из интересного, претрейны с минимальным валидационным лоссом не всегда дают топовое качество после файнтюна. На трансформерах мы тоже такое где-то видели. Для файнтюнинга стабильно хороши модели чуть покрупнее и чуть поменьше обученные. Иногда ещё и с чуть большим learning rate.

Мораль? The bitter lesson! Чего думать, трясти надо! Компьют и данные -- главные факторы.

Но таки inductive biases у моделей разные и авторы признают, что ViT может быть более хорошим выбором в определённых условиях, например, за счёт возможности использовать одинаковые компоненты для разных модальностей.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Наткнулась на сайт с хорошей подборкой книг по математике и физике в формате pdf (большинство pdf-ок разбиты по главам):

https://alexandr4784.narod.ru/

Книги включают в себя как классические учебники и монографии, так и современные. Среди них есть, например, такие:
▶️ Прасолов "Наглядная топология" (писала об этой книге здесь: /channel/tech_priestess/681 ): https://alexandr4784.narod.ru/prasolov.html
▶️ Таблицы интегралов Двайта (полезны, если под рукой нет вольфрама или он не берет нужный интеграл):
https://alexandr4784.narod.ru/gb_dwait.html
▶️ Курс по теоретической физике Ландау и Лифшица: https://alexandr4784.narod.ru/lktf.html
▶️ Пуанкаре "О науке" (интересные рассуждения о философии и методологии науки... для своего времени - надо учитывать, что книге больше ста лет):
https://alexandr4784.narod.ru/apon.html
▶️ И т.д.

На большинстве разделов сайта есть ссылки на сборники с задачами и решениями по соответствующей дисциплине.

#учебные_материалы

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

ОРУ!!!
ИИнфобизы сделали дипфейк-видео с неплохой генерацией голоса, в котором Илон Маск якобы рекламирует их мошенническую помойку и показывают эту рекламу на Ютуб (см. приложенное видео). 😂 Пройдя по ссылке в рекламе, я обнаружила сайт:

https://st-twp.cloud/

где также можно посмотреть копию этой рекламы во встроенном видеоплеере. Рекомендую посмотреть видео со звуком, чтобы убедиться, что дипфейк вполне качественный: движения губ Илона действительно совпадают с "его" речью, и сама речь также звучит вполне реалистично (только интонации малость неестественные). То-то он удивится, когда это увидит...

▶️ Больше про мошенничество с помощью современных технологий: /channel/tech_priestess/925
▶️ Больше про ложный "quantum AI" для трейдинга:
https://malwaretips.com/blogs/quantum-ai/
(Не путать с настоящим проектом quantum AI от Google, который с трейдингом не связан - https://quantumai.google/ ).

#ИИнфобизнес #реклама

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Нашла интересный плейлист, в котором целый ряд базовых математических концепций из теории множеств, математической логики, теории графов, теории вероятностей, объясняется с самых-самых азов: https://youtube.com/playlist?list=PLHXZ9OQGMqxersk8fUxiUMSIx0DBqsKZS&si=XU07xkrwI5UmYc5z (англ.), при чём большинство видео являются коротенькими (5-15 минут).
Но особенно меня заинтересовало то, что в плейлисте присутствуют видео, которые объясняют на простом, базовом уровне, что такое в принципе математическое определение: https://youtu.be/dlKcfGu-WpI?si=sWqlarSVrmfDIGVq и математическое доказательство: https://youtu.be/oqTg3D_jZWo?si=SYzMw9pXNl2gAyxj так, чтобы поняли даже люди, далёкие от математики. Далее в плейлисте следуют видео с примерами распространенных приемов для доказательств - например, с помощью контрпримера и т.п. (если видео с приемами кажутся непонятными, рекомендую посмотреть плейлист с самого начала).

Другими словами, с помощью этого плейлиста можно довольно легко переместиться из левой части мема на рис. 1 в его среднюю часть (то есть, понять, что такое доказательство). Но как же переместиться из средней части в правую (то есть, снова перестать понимать, что это такое)? Для этого можно, например, прочитать книгу И.Лакатоса «Доказательства и опровержения», в которой на примере вывода формулы Эйлера для многогранников показывается, как развивается математическое знание. В частности, там показывается, как то, что раньше казалось доказательством для общего случая, оказывается всего лишь частным случаем, потому что то определение, которое казалось строгим, оказывается на самом деле не таковым, и приходится вводить новый стандарт строгости и общности для дальнейшего развития теории. Я сразу вспомнила эту книжку, когда увидела видео...
Приложу её в первом комментарии к посту.

#математика #учебные_материалы

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Разберём, наконец, концепцию того, что такое EMX-обучение, математичеки строго.

Для этого вернёмся к рис. 2 предыдущего поста, где авторы предлагают рассмотреть следующий сетап. Пусть у нас есть некоторое множество примеров с векторами фичей Х, и каждому такому примеру сопоставлена бинарная метка у - 0 или 1. Метки могут сопоставляться примерам по-разному, это сопоставление вероятностное и задаётся некоторым распределением вероятностей P.
Далее, пусть F - фиксированное семейство функций, которые отображают вектора фичей X в метки y. Например, такими функциями могут быть все функции вида f = {0, если AX + b < 0 и 1, если AX + b ≥ 0} - то есть, простые, советские, копеечные пороговые классификаторы над линейными функциями, известные всем любителям машинного обучения.
Далее, за Opt(F) мы обозначим такую функцию из F, которая максимально подходит для решения данной задачи. Конечно, для того, чтобы точно определить, что такое "максимально подходит", мы задаём и фиксируем целевую функцию h, которую мы хотим максимизировать - как пример, это может быть процент правильно классифицированных точек (accuracy).

Наконец, назовем EMX(epsilon, delta)-learner'ом такой алгоритм машинного обучения G, который будет работать "достаточно хорошо" для каждого "разумного" распределения вероятностей меток P. "Достаточно хорошо" означает, что он с достаточно большой вероятностью найдет функцию, достаточно близкую к Opt(F). Говоря ещё более конкретно, он должен найти такую функцию с вероятностью 1 - delta, а отличаться она от Opt(F) должна не больше, чем на epsilon - именно отсюда обозначение EMX(epsilon, delta). При чем сделать он это должен, используя тренировочное множество размера d (это утверждается в значке под знаком Pr в формуле - там написано про декартово произведение Р на себя d раз, это означает, что мы берем d примеров для обучения).

Ну что? Если вдуматься, этот сетап не такой уж и мудрёный, просто очень строго формализован математически, и оттого, как всегда, появляется много символов в формулах. Тем более интересно утверждение статьи на рис. 3 - в этом утверждении в качестве F берутся функции, отображающее конечные подмножества отрезка [0, 1] в единицу, а в качестве распределений P - все возможные распределения над этим же отрезком; и оказывается, что EMX-learnability (т.е. существование EMX-learnable алгоритма) с некоторыми фиксированными параметрами epsilon и delta над таким множеством независимо от аксиом Цермелло-Френкеля.

Далее авторы, собственно, показывают, что такой алгоритм существует, если и только если между счётным множеством и континуумом добавлено конечное число "промежуточных" мощностей, но доказательство я уже не буду разбирать. 🙃

Конечно, на самом деле ни один реальный алгоритм не может искать оптимальную функцию над таким большим множеством функций. Поэтому результат является сугубо теоретическим.

#математика #объяснения_статей #математика_в_ML

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

А теперь будет пара постов для тех, у кого пока нет умного дома. Речь в них пойдет о континуум-гипотезе и об её неожиданной связи с машинным обучением.
Для начала предлагаю разобраться в том, что же такое континуум и континуум-гипотеза (для тех, кто ещё не). Сделать это можно с помощью следующих видео:

1⃣ Объяснение, что такое множество подмножеств (power set) и что такое мощность множества (cardinality) - https://youtu.be/-P1zMabaQi8?si=drtxoIprEhRneQze (англ.)
2⃣ Объяснение, как пронумеровать все рациональные числа с помощью натуральных (т.е. что натуральные и рациональные имеют одинаковую мощность) - https://youtu.be/WQWkG9cQ8NQ?si=KFo7diIKxILk3W2_ (англ.)
3⃣ Объяснение, почему множество натуральных и множество вещественных чисел имеют разную мощность с помощью диагонального аргумента: https://youtu.be/0HF39OWyl54?si=
mrV6NIPYHi6m65bi (англ.)
4⃣ Максимально кратко о том, что такое континуум гипотеза: https://youtu.be/neYulXSt7Tc?si=qFUjSGcvuHnAE147 (англ.).

🍰 На десерт советую почитать следующую статью на Хабре на русском языке: https://habr.com/ru/articles/445904/ . Она немного сбивчивая, но интересна тем, что тут даётся несколько более общий контекст проблематики бесконечностей в математике, в том числе упоминаются недостижимые мощности.
Ну, а про связь с машинным обучением - в следующем посте.

#математика

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

https://youtu.be/NLfCPcnns10?si=0KZqQ-TOt-pnSBHY
https://implicit-layers-tutorial.org/deep_equilibrium_models/

#ML_в_мемах

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Теперь вспомним, что такое несовместная система линейных уравнений. Это такая система, в которой уравнений больше, чем неизвестных (и ни одно уравнение не является линейной комбинацией других). И в самом деле: в случае линейной регрессии, уравнений ровно столько, сколько есть примеров в обучающем множестве. Размер же обучающего множества для линейной регрессии, в свою очередь, обычно, берется больший, чем её количество параметров.
(Конечно, если мы возьмём количество примеров меньше, чем параметров, то получим решение без ошибки, но зато коэффициенты модели не будут определены однозначно. Это одна из причин, почему так обычно не делают.)

Так вот. Когда мы имеем несовместную систему уравнений, мы можем решить её не только приближенно, градиентным спуском, но и аналитически, выписав решение явно. Это делается с помощью Метода Наименьших Квадратов (МНК). В применении к линейной регрессии этот метод хорошо описан, например, здесь:

https://www.alpharithms.com/simple-linear-regression-modeling-502111
в разделе "Building the Model".
Кстати, все формулы для линейной регрессии я взяла оттуда же.

Остаётся, тем не менее, вопрос: а будет ли решение, полученное МНК, таким же, как решение, полученное градиентным спуском?
Оказывается, что в пределе да, благодаря тому, что наша функция ошибки в данном случае описывается суммой квадратов разностей, то есть, суммой выпуклых функций, а значит, и сама выпуклая. Дело в том, что градиентный спуск в пределе сходится к локальному минимуму функции ошибки (насколько именно близко он к нему подходит - зависит от шага обучения). В случае же строго выпуклой функции минимум только один, и он одновременно является и локальным, и глобальным (см. рис.5 для интуитивного понимания и https://ai.stanford.edu/~gwthomas/notes/convexity.pdf для строгого доказательства - оно дано в Proposition 2). Именно поэтому градиентный спуск стремится именно к тому решению, что даётся МНК.
(Ремарка: к сожалению, для многослойных нейросетей, как мы все знаем, этот фокус уже не проходит.)

#математика_в_ML

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

/channel/tech_priestess/325

#ML_в_мемах

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

⬆️ Дополнение к предыдущему посту.
Спасибо подписчику за ссылки!

#учебные_материалы

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Хотела найти информацию про Independent Component Analysis и наткнулась на серию видео, в которой доступным языком объясняют сначала базовую идею PCA, потом базовую идею ICA, а потом разницу между ними:

PCA-1: https://youtu.be/kw9R0nD69OU?si=mZIATkMzbGasvcvU
PCA-2: https://youtu.be/_nZUhV-qhZA?si=BGhoSbzb30pMFaTX
PCA-3: https://youtu.be/kuzJJgPBrqc?si=fogm4Z5kHAX5yMfo
ICA-1: https://youtu.be/2WY7wCghSVI?si=Yl6BcZHD8Zgyk4gZ
ICA-2: https://youtu.be/wIlrddNbXDo?si=oUMHKh2cu0MKEsyG
PCA vs ICA:
https://youtu.be/e4woe8GRjEI?si=YNXulVrnAvgICqU-

Видео являются частями какого-то курса на Udacity (который, по всей видимости, уже удалили), поэтому все они короткие (2-7 минут). Для их понимания желательно знать, что такое собственные вектора и собственные значения, но даже если не знать, идея алгоритмов все равно будет более-менее понятной.

В последнем видео меня заинтересовал рассказ о статье, в которой раскрывалось, что с помощью ICA можно выловить участки границ (edges) объектов на картинках, и я нашла на нее ссылку:
https://papers.nips.cc/paper_files/paper/1996/hash/f9be311e65d81a9ad8150a60844bb94c-Abstract.html
Статья старенькая, 1996 года, но все равно интересная и прикольная.

#учебные_материалы

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Пока готовил другой пост, наткнулся на Ted Talk от Luis Von Ahn. Он — гватемалец, которому повезло получить хорошее образование из-за усилий матери-одиночки, затем он уехал учитьcя в США и получил PhD, стал профессором.

Luis Von Ahn долгое время был озабочен вопросом того, как можно сделать образование более доступным. И к тому же ещё надо ответить на два вопроса: чему учить и как учить эффективно?

Ответ на вопрос "чему учить" получился "иностранным языкам", и вот две причины, на которые ссылается рассказчик:
— большая аудитория (2 миллиарда людей учат иностранные языки, при этом примерно 80% из них изучают английский)
— знание англйиского может увеличивать доход человека. Само по себе знание, например, математики не даёт такого эффекта: нужно её учить, чтобы потом учить физичку, чтобы потом стать инженером в промышленном строительстве. С англйиским такие цепочки короче. Официант в обычном кафе -> официант в международном отеле.

Получается, хорошая точка входа. А вот вопрос "как учить эффкективно" менее тривиален. С самых первых дней хотелось использовать смартфоны, так как предвиделось их масштабное распространение — у каждого он был бы в руках. С другой стороны, приходится соревноваться не с другими приложениями по изучению языков, но и...с социальными сетями. Поэтому Ted Talk и называется "How to Make Learning as Addictive as Social Media".

В дело пошли грязные приёмы, которые используют тиктоки и фейсбуки. Появилась геймификация, дневные стрики, етц — не потому, что компания злая и хочет замкнуть вас на своё приложение, а потому что иначе невозможно соревноваться, и пользователи просто забивают на обучение. Подробнее про влияние таких фичей на рост пользовательской базы можно почитать в детальном разборе акулы продуктовой разработки Lenny Rachitsky: How Duolingo reignited user growth. Да-да, история выше — про того самого зелёного совёнка с пассивно-агрессивными наклонностями 🫂

Ещё Luis рассказал интересную шутку. Они обучали модели машинного обучения (в народе — "AI"), чтобы определять, когда отправлять уведомления пользователям, чтобы напомнить об уроках. В итоге миллионы долларов, потраченных на исследования, показали, что лучшее время для отправки — ровно через 24 часа после последнего захода. Если вчера в 15:00 вы были свободны — вероятнее всего, вы и сегодня в это время свободны. От такой простой трюк. Интересно, уволили ли ответственных 🤔

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Рис. 1-4 к следующему посту.

#учебные_материалы

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Место для комментариев к предыдущей записи (про использование LLM для генерации кода LaTeX и других задач, связанных с преподаванием/исследованиями)

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Понравившийся отрывок из интервью с Ричардом Фейнманом. Источник - книга "The Pleasure of Finding Things Out: The Best Short Works of Richard Feynman", которую я сейчас читаю. Прикреплю файл с книгой в комментарии.

#книги

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Не знаю, как кинуть в предложку, но есть шикарное киберпанковое из 1986 года))

Как использовать рыбу в качестве часов😂

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Наткнулся на миленький гайд по преодолению тревожности в занятиях математикой. Несколько пунктов, которые мне показались интересными:

1. Люди не делятся на “математиков” и “не-математиков”. Ей можно заниматься или не заниматься.

2. В школе и университете мы привыкли заниматься математикой на скорость – решать тесты и задачи на время. В реальной жизни редко когда важна скорость решения задачи (если вы не в хеджфонде работаете, конечно 📈).

3. Мы часто думаем, что в математике, в отличие от гуманитарных наук, есть только два типа ответов: правильный и неправильные. На самом деле, прийти к правильному ответу можно множеством разных путей. 💡

Мне кажется, в России особенно токсичное отношение к “чистоте” математики. Как вы с этим справляетесь, дорогие читатели?

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Towards Understanding Sycophancy in Language Models

Ещё одна статья от Anthropic, в которой показывается, что современные AI-ассистенты часто выдают «льстивые» ответы, которые нравятся пользователям, но при этом не являются точными. Вы наверняка это и сами замечали. Помните тот мем, где пользователь говорит "моя жена утверждает, что 2+2=5, и она всегда права"? Вот у модели есть выбор — огорчить вас и сказать, что всё же тут есть ошибка, или согласиться на неправильный ответ.

Что приводит к такому поведению? Авторы проанализировали свои данные о предпочтениях (используемых для последнего этапа тренировки, RLHF), и обнаружили, что соответствие ответа убеждениям конкретного человека является самым лучшим предиктором (предсказывающим фактором) того, насколько ему понравится ответ. Ни релевантность ответа вопросу, ни дружелюбность, ни правдивость, ни соответствие стилю — а именно соответствие убеждениям. Это и проиллюстрировано на приложенном изображении. И именно такое поведение неявно закрепляется через RLHF.

Какой из этого вывод? По сути, это недостаток процесса сбора данных, который приводит к "подхалимству", которое является характерной чертой буквально каждого протестированного AI-ассистента. Значит, нужно больше внимания уделять составлению грамотных инструкций для разметчиков, а также внедрять методы обучения, выходящие за рамки неэкспертного человеческого суждения, такие как обратная связь и критика от другого AI-ассистента. Да, давайте интегрируем модель в подготовку данных для модели чтобы ты мог размечать данные для модели пока работаешь с моделью над разметкой данных для модели 😔

Anthropic, кстати, уже занимались работой в этом направлении: тык. Да и OpenAI уж больше года назад писали про AI-критиков, которые помогают глазу "не замыливаться".

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Надоело рассказывать тысячу раз одно и то же, потому вот моя биография в плане учебы, чтобы просто давать на нее ссылку, если что.

1990 - рождение;
1995 - пошла в первый класс (в пять лет, сейчас испытываю глубокое отвращение к этому факту, а также к слову "вундеркинд", которым меня называли. Мне бы намного больше нравилось, если бы меня называли не вундеркиндом, а человеком).
С 1 по 5 класс училась на одни пятерки. Все предметы шли легко. Единственное, с чем всегда было плохо и что учителям приходилось натягивать, чтобы не портить дневник - это оценка по поведению. 🤡
1998 - пошла в пятый класс (перепрыгнув через один класс - тогда четвертый класс отменили). Это был последний класс, в котором я была круглой отличницей (тоже теперь как-то неприятно вспоминать, словно этими оценками я как будто соглашалась с ненавистным статусом вундеркинда). Где-то после этого мои интересы начали отдаляться от сверстников в сторону увлечения наукой и техникой (в основном тем, что связано с биологией, животными, электроникой, механизмами), а также творчеством (делала всякие штуки из дерева, рисовала). Я начала постепенно становиться изгоем и менять школы одну за другой, параллельно ухудшались оценки.
Как же увлечение ноукой может ухудшить оценки? Очень просто, я со временем просто начала все больше забивать на школьную программу, вместо этого изучая только то, что мне нравится, а также много прогуливала и все реже делала домашки, хотя дома меня очень упорно заставляли.
2004 - пошла в десятый класс. На этот момент я уже ненавидела школу (в первую очередь из-за травли от одноклассников, во вторую - потому что мне не нравились предметы и учителя), полностью перестала делать домашние задания, постепенно начала игнорировать и то, что просили делать учителя на уроках. Как раз к этому периоду относятся мои воспоминания о том, как учителя меня называли "тупой", "неадекватной", "отсталой", винили в том, что меня бьют, говоря, что это все из-за того, что я провоцирую и пр. Впрочем, этот период вспоминать все равно менее обидно, чем тот, когда меня называли вундеркиндом и хвалили за оценки.
В начале 2004 я просто отказалась ходить в школу, и никакими криками и угрозами заставить меня это делать стало уже физически невозможным. Пришлось меня отчислить.
2005 - родители еле-еле заставили поступить в техникум на базе 9 классов, которые у меня всё-таки были закончены. Из-за того, что мне очень нравились компьютеры, специальность была выбрана "техник ЭВМ". Сейчас я понимаю, что специальность была очень плохо составлена и была практически бесполезна, но тогда я не особо могла что сообразить по этому поводу. Параллельно я начала интересоваться математикой. Где-то году в 2006 я окончательно зафиксировалась на мысли стать математиком и с тех пор в течение нескольких лет к этому стремилась.
2009 - окончание техникума (в основном в дипломе тройки), первая попытка поступить в МГУ. Провал, пришлось вместо этого год проучиться в провинциальном вузе.
2010 - успешное поступление на мехмат МГУ с помощью полностью самостоятельной подготовки к ЕГЭ и вступительным экзаменам мехмата с последующей успешной сдаче их на высокие баллы, что шокировало окружающих. Теперь, учитывая предыдущую историю, становится понятной ещё одна причина, почему мне потом было так трудно там учиться. Я разучилась учиться систематически, так как много лет этого не хотела и, соответственно, не делала, а когда захотела, способности к этому уже уменьшились.
Также здесь надо отметить, что МГУ был первым учебным заведением, где меня не травили (видимо, потому что на мехмате все странные, и я уже не выделялась), поэтому я очень сильно его полюбила. Естественно, после многих лет травли я была совершенно социально не адаптирована (хикка-сыч), но благодаря новым друзьям на мехмате, стала учиться общаться и социализироваться.
2015 - окончание МГУ (также на тройки), далее год работы на полную ставку с небольшим перерывом.
2016 - поступление в аспирантуру. Учеба в аспирантуре, совмещённая с временной работой или неполным рабочим днём.
2020 - изгнание из аспирантуры.
2023 - вы находитесь здесь.

#о_себе

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Итак, связь машинного обучения и континуум-гипотезы раскрывается у нас в статье 2019 года "Learnability can be undecidable" - https://www.nature.com/articles/s42256-018-0002-3 (статья платная, но делается бесплатной с помощью SciHub).

Её авторы вводят концепцию EMX-обучаемости и приводят пример такого алгоритма машинного обучения, обучаемость для которого невозможно ни доказать, ни опровергнуть, используя аксиоматику Цермелло-Френкеля. Более того, авторы математически доказывают, что доказать EMX-обучаемость для их сетапа можно только если добавить конечное число "промежуточных" мощностей между счётным множеством и континуумом.

Поскольку статья реально сложная, я сделала множество попыток найти поясняющие разборы этой статьи, чтобы упростить её понимание и себе, и читателям. По результатам этих стараний могу предложить следующий план действий:

1⃣ Для начала рекомендую напомнить себе, что такое PAC-learning и VC-dimension, про которые говорится и в статье, и в её разборах. Сделать это можно с помощью короткого видео: https://youtu.be/X4Oxst5huQA?si=qQ74aMcP1k866KAt
2⃣ Потом прочитать разбор на русском на Хабре: https://habr.com/ru/companies/raiffeisenbank/articles/484306/ . Он очень поверхностный, но позволяет составить базовое представление о сделанном открытии. Поэтому если вы не очень сильно любите математику, то можно на этом остановиться.

---

А если любите сильно, предлагаю предпринять следующие дополнительные шаги для более конкретного понимания утверждения статьи:
3⃣ Прочитать мой следующий пост, в котором будут подробно разобраны формулы на рис. 2-3 (скриншоты оригинальной статьи);
4⃣ По вкусу полистать обзор с дополнительными рассуждениями на тему на английском: https://arxiv.org/abs/1909.08410 .

#математика #объяснения_статей #математика_в_ML

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

https://youtu.be/wAmOJNmyKJM

#реклама

Читать полностью…
Subscribe to a channel