Люблю высокие технологии и кушать. Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.
Общеобразовательный пост для тех, кто подзабыл логарифмы.
---
В результате общения с несколькими читателями, которые не используют математику в повседневной деятельности, я обратила внимание на следующую проблему. Из-за неиспользования математики со времен школы многие темы из школьной математики забываются. А из-за этого, в свою очередь, возникают сложности и с постижением тех тем, которые нужны для хорошего понимания ML. Поэтому я решила иногда рассказывать про те темы из школьной математики, которые редко используются в обычной жизни и потому могут легко забываться.
Сегодня я решила рассказать основные сведения про логарифмы. Я попробовала использовать как можно более простой язык изложения и привести много примеров, поэтому тем, кто хорошо знает математику, вряд ли будет интересно. Зато, надеюсь, что тем, кто знает плохо, будет более-менее понятно.
Больше сведений про логарифмы и работу с ними можно узнать, например, из этого длинного видео: https://www.youtube.com/live/cEvgcoyZvB4?feature=share
А про биты и теорию информации можно узнать чуть больше, например, в этом получасовом видео:
https://youtu.be/v68zYyaEmEA
P.S. В последнем видео я допустила небольшую ошибку, сказав, что аргумент логарифма может быть равен нулю. На самом деле нужно брать аргумент строго больше нуля (см. https://en.m.wikipedia.org/wiki/Logarithm ), иначе результат уйдет в минус бесконечность.
P.P.S. Также в паре мест был ошибочно написан диапазон значений 0..2^(n-1) вместо 0..2^n-1.
P.P.P.S. В рассказе рассматривался логарифм с вещественными аргументами и значениями.
#школьная_математика
Пятничное!✌️
🔥Подборка 10 интересных и бесплатных обучающих материалов по компьютерному зрению!🔥
👁 Computer Vision: Algorithms and Applications — библия обработки сигналов и компьютерного зрения от Richard Szeliski. Книга распространяется бесплатно!
👁 Digital image processing by Rafael C. Gonzalez — еще одна интересная книга по обработке изображений и классике.
👁 The Ancient Secrets of Computer Vision — курс от Joseph Redmon преимущественно по классическому зрению, в конце затрагивает нейронные сети. А еще у него забавное резюме.
👁 firstprinciplesofcomputerv3258">First Principles of Computer Vision — обучающий курс лекций от Shree Nayar. От классических алгоритмов компьютерного зрения и обработки изображний до глубокого обучения!
👁 CS231n: Deep Learning for Computer Vision — настоявшаяся классика, курс по глубокому обучению и компьютерному зрению. На youtube есть выпуски разных лет.
👁 Компьютерное зрение — отличный курс по классическому компьютерному зрению на youtube от Антона Конушина. Есть разные версии курса, даже от 2011 и 2015 года!
👁 OpenCV Tutorials — неплохие обучающие материалы на официальном сайте OpenCV. Также у них есть платные курсы.
👁 Курс от Deep Learning School — большая подборка лекций и семинаров от классического ML до глубокого обучения и компьютерного зрения от ребят из физтеха.
👁 Курсы лекций (часть 1, часть 2) на youtube от Алексея Артамонова. На канале CompscicenterRu">Computer Science Center есть также другие обучающие материалы!
👁 razinkov/playlists">Курсы лекций по глубокому обучению и компьютерному зрению от Евгения Разинкова на youtube.
#edu
Спать 11 часов подряд:
Плюсы: спишь 11 часов подряд;
Минусы: детекция искусственных текстов, outlier dimensions, офис и айпишники рабочих серверов также снятся 11 часов подряд.
Обнаружила статью, в которой дается неплохой обзор существующих детекторов нейросетевых текстов (Neural Text Detectors):
"Attribution and Obfuscation of Neural Text Authorship: A Data Mining Perspective" ( https://arxiv.org/abs/2210.10488 ).
Для начала перечисляются распространенные (на конец прошлого года) генераторы искусственных текстов (рис. 2). Затем авторы переходят к классификации детекторов и более подробному объяснению того, что из себя представляют детекторы каждого типа.
Как видно из рис. 1, авторы освещают в своем обзоре:
- "стилометрические" детекторы (основанные на классических подходах вычислительной лингвистики к выявлению стиля автора)
- детекторы, основанные на deep learning моделях (в основном трансформерах),
- статистические детекторы (основанные на статистическом анализе текста),
- гибридные детекторы,
- детекцию нейронного текста людьми. Да, мне очень понравилось, что они дают обзор статей, посвященных способности людей детектировать нейронные тексты, а также тому, как можно учить людей улучшать эту способность.
Рассматриваются и те детекторы, которые могут классифицировать несколько моделей-генераторов, и те детекторы, которые делают лишь бинарную классификацию.
Рассказ про каждый тип детекторов щедро снабжен примерами (каждый из известных детекторов, таких, как DetectGPT, удостаивается по абзацу отдельных объяснений) и ссылками на литературу.
Кроме всего вышеперечисленного, есть обзор и по проблеме обхода детекторов (authorship obfuscation).
Мне кажется, этот обзор является очень полезным справочным материалом по теме детекции текстов, сгенерированных нейросетями, с которым будет полезно ознакомиться всем, кто хочет заняться этой темой.
#объяснения_статей
Да что вы заладили - Марвел да Марвел. Очевидно же, что эти роборуки - это механодендриты, а jizai arms - просто один из орденов Адептус Механикус (см. Рис 1-4). 🙄 Не понимаю, почему такие очевидные вещи надо объяснять.
P.S. Миниатюрка моя.
P.P.S. Предмет обсуждения: https://vc.ru/u/1530119-bigdata/730724-jizai-arms-yaponcy-sozdali-roboryukzak-s-shestyu-mehanicheskimi-rukami
См. также: https://warhammer40k.fandom.com/ru/wiki/%D0%9C%D0%B5%D1%85%D0%B0%D0%BD%D0%BE%D0%B4%D0%B5%D0%BD%D0%B4%D1%80%D0%B8%D1%82
Очень интересное видео мне подсказал YouTube:
https://www.youtube.com/watch?v=DWzXF9B68nQ -
"Заполнение водой кривых, заполняющих пространство".
Конечно же, те кривые, которые автор видео распечатал на 3D принтере, не заполняют пространство в строгом смысле (т.к. кривую, заполняющую пространство в строгом смысле, физически невозможно смастерить из реальных материалов). Более правильно было бы сказать, что то, что называется "кривой Пеано" в видео является частью последовательности кривых, таких, что предел этой последовательности равен кривой Пеано. То же верно для кривой Госпера, также рассмотренной автором. Впрочем, это становится понятно, если внимательно посмотреть само видео и пройти по ссылкам в его описании (которые, в том числе, ведут на каналы 3blue1brown и Numberphile с обстоятельными объяснениями). Мне, кстати, в целом нравится, как основательно этот автор подходит к своим видео, сразу видно, что вкладывает в них много труда.
Также надо отметить, что кривая Пеано и другие кривые, заполняющие пространство, являются очень интересными математическими объектами по следующим причинам:
- Они являются фракталами с целой размерностью (см. также пост /channel/tech_priestess/703 про то, как мои коллеги и я применили концепцию дробной фрактальной размерности для детекции текстов, сгенерированных ChatGPT);
- Их существование тесно связано с тем фактом, что мощность множества точек и на прямой, и на плоскости (и в пространстве), одинаковая;
- Эти кривые при том являются еще и непрерывными.
Концепция мощности множеств занимала меня еще с первого курса университета. Грубо говоря, мощность бесконечного множества точек - это математическое выражение того, насколько "большая" или, может быть, "плотная" бесконечность точек содержится в этом множестве. Так, мощность множества точек с целыми координатами на прямой меньше, чем мощность всех точек на ней же, потому что мы не можем ввести взаимно однозначного соответствия между точками с целыми координатами и всеми точками (это следует из диагонального аргумента Кантора).
А вот мощность множества точек на прямой и на плоскости одинаковая, и существование кривой Пеано можно использовать для одного из вариантов доказательства этого утверждения.
В самом деле, с одной стороны, точек на прямой не может быть больше, чем на плоскости, так как прямая вкладывается в плоскость. С другой стороны, точек на прямой не может быть меньше, чем точек внутри квадрата конечного размера (это показывается как раз тем, что мы можем заполнить квадрат этой прямой, свернув ее в кривую Пеано). С третьей стороны, количество точек внутри квадрата такое же, как на плоскости (это можно проверить, построив взаимно однозначное отображение из квадрата в плоскость).
Правда, математически строгое определение того, что такое кривая Пеано и почему она заполняет плоскость, занимает девять страниц: https://www.mathnet.ru/links/9fd2a041ca6c655dc7aeeeaa8051c7fa/mp700.pdf , и чтобы мои рассуждения выше стали настоящим доказательством, их нужно дополнить этим строгим определением, отчего получается очень длинно. Кроме того, из-за того, что кривая Пеано задает однозначное, но не взаимооднозначное соответствие, и не с плоскостью, а с внутренностью квадратика, у нас получилось доказательство в три шага, а не в один.
Поэтому в курсах мат.анализа равномощность множества точек на прямой и на плоскости доказывают намного проще и короче, построив непосредственное взаимооднозначное соответствие. 😅
#математика
#ml #fun
Ахаха, вот это я понимаю, серьёзный подход к менторству. Аж прослезился!
Из текста работы:
"В настоящее время в ЦИМТе и сотрудничающих организациях разрабатываются усовершенствованные компьютерные интерфейсы для композиторов, желающих создавать произведения в генетических строях; нарабатывается библиотека музыкальных произведений в них; создаются новые музыкальные инструменты под генетические строи (клавишные синтезаторы, гитары и др.); анализируются проблемы многомерности музыкального творчества и возможности ее математического моделирования на основе многомерных чисел и матричных операторов [25-28]; ведётся обучение желающих приобщиться к работам по генетической музыке; совместно с медиками и психологами исследуются вопросы применения генетической музыки в музыкальной терапии и методиках раскрытия скрытых способностей и потенций у людей, и так далее."
#псевдонаука
Ох с какими шикарными конференцией и семинаром я познакомилась благодаря вот этому посту в одном из моих любимых пабликов: /channel/rlabrats/3340
В посте рассказывается про конференцию Российской Академии Наук по т.н. "алгебраической биологии" (не путать с алгебраической топологией) с просто-таки поразительной программой - что ни доклад, то открытие... особенно мне понравилось название "фрактальный рак". Я думаю, это словосочетание нужно было вынести в название самой конференции, очень уж оно хорошо ей подходит.
Пошерстив комментарии к посту, я узнала еще и о семинаре на ту же тему, отчасти с теми же персонажами.
Вот сам семинар: user-xg7cs6ge8m" rel="nofollow">https://www.youtube.com/@user-xg7cs6ge8m
А вот один из докладов на этом семинаре, очень показательный:
https://youtu.be/lo126T_to38?t=374
Доклад ведет высокопоставленный доктор физ.-мат. наук, получивший множество наград, главный редактор научного журнала, председатель ученых советов и т.д.: https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%82%D1%83%D1%85%D0%BE%D0%B2,_%D0%A1%D0%B5%D1%80%D0%B3%D0%B5%D0%B9_%D0%92%D0%B0%D0%BB%D0%B5%D0%BD%D1%82%D0%B8%D0%BD%D0%BE%D0%B2%D0%B8%D1%87
И что же мы видим в этом докладе?
Если перейти по ссылке на YouTube на момент 6:14, то откроется самая мякотка доклада - "гиперболический закон", с помощью которого автор обосновывает связь генома всего живого с гармоническими числами...
Конечно же, я не смогла пройти мимо. Я немедленно воспроизвела результат автора в простом советском копеечном Google Colab, даже не пользуясь никакой базой ДНК, а просто сгенерировав "нуклеотиды" случайным образом. Вот этот результат:
https://colab.research.google.com/drive/1yJAfG1Hcd3CNX8iKfu8mbXXNnnBYjB5D?usp=sharing
Быстро выяснилось, что его "гиперболический закон" никак не относится к свойствам живых организмов, а является лишь следствием простой математической статистики и комбинаторики.
Вы спросите меня: но может быть, доктор наук просто ошибся? Не заметил, что его "гиперболический закон" выводится из таких простых посылок? Может быть, потом он исправился и после доклада больше не упоминал данного результата? Нельзя же человека обижать за простую ошибку.
Но нет.
Это не простая ошибка.
На этой "ошибке" была построена целая псевдонаучная теория о связи генома с "гармониками" и музыкой, которую "доктор" продолжает развивать в своих дальнейших работах. См. например следующую работу с его официального сайта:
http://petoukhov.com/%D0%9F%D0%95%D0%A2%D0%A3%D0%A5%D0%9E%D0%92%20%D0%96%D0%A3%D0%A0%D0%9D%D0%90%D0%9B%20%D0%9C%D0%95%D0%A2%D0%90%D0%A4%D0%98%D0%97%D0%98%D0%9A%D0%90%202021.pdf
Я уже молчу про то, что кроме "гиперболического закона" в его работах есть и множество других утверждений, еще хуже обоснованных и имеющих лишь внешний вид наукообразия, но на самом деле наукой не являющихся.
Вначале я хотела прислать ему лично Google Colab с экспериментом и объяснением, которые показывают, что его выводы неверны, но посмотрев на благоухающий псевдонаучный цветник в остальных его работах, я быстро лишилась надежды - такие люди к фактам обычно не прислушиваются.
#псевдонаука
Часть II, развлекательные:
3. Несложные научно-популярные:
a) MIHAILLIDIN" rel="nofollow">https://www.youtube.com/@MIHAILLIDIN (рус.) - видео с критическими разборами деятельности различных сект, оккультных течений и около-оккультных инфобизов. Иногда встречаются чуть более серьезные ролики - например, касающиеся темы религиоведения.
b) poetische" rel="nofollow">https://www.youtube.com/@poetische (рус.) - канал филолога с разбором различных тем, касающихся художественной литературы, жизни классиков, иногда затрагиваются темы из лингвистики. Разбираются различные связанные с этим фейки.
4. Про компьютерные игры и пародии на них:
а) buldjat" rel="nofollow">https://www.youtube.com/@buldjat (рус.) - разнообразные видео с рассказами и обзорами на игры - при чем не только новые, но и старые; также ролики с объяснениями разных терминов и явлений, связанных с миром гейминга. Например, отсюда я узнала, что такое чизинг в играх.
b) strannoemestechko" rel="nofollow">https://www.youtube.com/@strannoemestechko (рус.) - зарисовки, в которых актеры отыгрывают нелепые ситуации, возникающие в играх наподобие ведьмака и скайрима, баги, пародируют поведение NPC и т.д.
c) KommanderKarl" rel="nofollow">https://youtube.com/@KommanderKarl (англ.) - то же, что и в предыдущем случае, но актер один и больше сосредоточен на изображении отдельных аспектов: его любимые темы - жизнь NPC и анимации перезарядки.
5. Мультипликации:
a) ToBinge" rel="nofollow">https://youtube.com/@ToBinge (англ.) - отсюда мне больше всего нравятся сюжеты про фонд SCP на минималках под названием Pandora's cubicle. Часть мультиков также посвящена персонажам из игры overwatch, но их я не понимаю.
b) oopsoopsism" rel="nofollow">https://youtube.com/@oopsoopsism (рус.) - ШКЯ - соединение "жизненных" сюжетов из повседневной жизни на постсоветском пространстве и юмора абсурда. И все это с абсолютно уникальным визуальным стилем. Эти мультфильмы, кстати, делает автор старого мемного видео про Скайп (и на канале оно тоже есть).
c) LavaLamp" rel="nofollow">https://youtube.com/@LavaLamp (рус.) - то же самое, но ещё более укуренное и безумное. Ряд мультфильмов связаны общим сюжетом - так сказать, мультсериал.
6. Про книги и инфобизов:
a) UncleShurik" rel="nofollow">https://youtube.com/@UncleShurik (рус.) - очень много роликов про хорошие и про плохие книги, а также про приключения незадачливых инфобизов, попадающих в разные переделки или просто делающих смешные и нелепые вещи. Каждый раз проигрываю с этих роликов.
b) denis_chuzhoy" rel="nofollow">https://youtube.com/@denis_chuzhoy (рус.) - с этого канала мне тоже наиболее интересны обзоры плохих книг, поэтому поместила в эту категорию. На самом деле большую часть канала занимают стендапы автора, но их я смотрю редко, так как не являюсь поклонницей жанра.
Делитесь своими любимыми каналами в комментариях.
#рекомендации
Про grid search и тюнинг алгоритмов
При создании новых алгоритов почти всегда приходится искать, какие параметры дадут лучшее качество на разных задачах. Почему-то многие коллеги для этого используют grid search (поиска по заданной сетке). Коллег я потихоньку разубеждаю спорами на бонус (~100$), а вам придётся просто поверить на слово и прочитать пост. ⌨️
Поиск по сетке – особенно плохая идея для новых алгоритмов, потому что интуиции для выбора корректной сетки на них почти нет. Картинка из старой статьи Бенджио, на мой взгляд, отлично иллюстрирует проблему поиска по сетке: мы тратим d^k
чтобы посмотреть на d
значений для каждого из k
параметров. При случайном поиске же для d^k
поисков мы отсмотрим d^k
значений для каждого из k
параметров.
У меня в практике было несколько случаев, когда случайный поиск находил неожиданные значения для гиперпараметров, которые никто бы не попробовал добавлять в сетку. Так, в статье про кластеризацию графов именно случайный поиск позволил мне понять, что в методе конкурентов всю работу делает регуляризатор вместо собственно целевой функции. А наша статья про бенчмаркинг графовых нейросетей GraphWorld – это вообще ода случайному поиску – там мы его используем буквально для всего. 🤴
Надо заметить, что для более ресурсозатратных поисков стоит смотреть в сторону околоэволюционных алгоритмов – Vizier от гугла или Nevergrad от меты. Последний я успешно использовал для генерации цветовых палитр с учётом особенностей цветового восприятия и дальтонизма.
Всем успешного поиска! 😏
Судя по географическому положению мой съемной квартиры, у меня скоро могут быть проблемы с интернетом 😎
Постарайтесь хорошо себя вести в комментариях и не баловаться, пока меня не будет 🫡
Хом, экстовый, торушка, тензорушка, представушка, монадушка, предельчок, копредельчок, топос на воротничок, квазикогерентный пучок.
#предложка
Ладно, напишу пару слов о том, почему у меня так бомбит с реакции людей на Перельмана.
Дело в том, что меня саму другие люди тоже много раз осуждали за отказ от того, что считается безусловным благом (хотя, разумеется, и в намного меньшем масштабе - миллион мне никто не предлагал). В результате, в конце концов мне это так надоело, что меня начал триггерить сам факт такого осуждения, даже если оно со мной лично уже не связано.
Например, в промежутке между 2020-2022 мне 3-4 раза писали HR из Google с новыми предложениями full-time вакансий разработчика; в других временных промежутках приходили аналогичные приглашения от HR Amazon, Apple, NVidia и т.п. Я читала описания вакансий, которые мне предлагались; они либо не соответствовали моим текущим научным интересам, либо мне не нравилась сама компания; в результате я решала, что не буду тратить время и усилия на подготовку к собеседованиям на вакансии, которые мне не нужны и писала отказ. По мне так, все логично.
Но нет, у многих из тех людей, которым я рассказывала про эти ситуации, возникало возмущение. У них не укладывалось в голове, как можно игнорировать призывы FAANG'а. Они начинали спорить, убеждать меня в том, что я идиотка, если не прихожу на эти собеседования, обвинять в снобизме и гордыне, спрашивать с издевкой "Тебе что, вообще деньги не нужны? Считаешь себя выше этого, да?".
Иногда вызывал возмущение даже мой рассказ про собеседование в Huawei. Дело в том, что я также несколько раз игнорировала их HR, прежде чем все-таки ответить, а потом, придя на собеседование, сказала, что, честно говоря, даже не знаю, хочу ли у них работать и хочу ли вообще работать в области машинного обучения... (у меня тогда был депрессивный эпизод). Тем не менее после непосредственного общения с будущими коллегами мне начала нравиться идея у них работать, и теперь я работаю у них уже три года. Кто-то из знакомых в ответ на этот рассказ просто смеялись вместе со мной над этой историей. А кто-то злился: "Так им еще и уговаривать тебя пришлось?!!".
Еще одна ситуация, которая вызывала зависть и злость, заключалась в следующем. В Лондоне я познакомилась с итальянцем, который приехал туда учиться, и у нас завязались какие-то отношения. После того, как я вернулась в Москву, он начал мне написывать и звать съездить в Италию за его счет. Я оформила Шенгенскую визу, чтобы поехать, но потом в итоге все-таки не поехала, потому что мне не удалось достичь с ним взаимопонимания по важным для меня вопросам, и общение с ним начало меня утомлять. Знакомые, с которыми я пыталась поделиться данной ситуацией, не понимали этого решения - они начинали спрашивать "Он что, для тебя недостаточно красивый? Или недостаточно умный?", на что я отвечала - мол, нет, он достаточно умный и красивый, просто мне перестало быть с ним интересно. И каждый раз начиналось одно и то же... собеседник смотрел на меня, как на сумасшедшую и спрашивал в разных формулировках: "Так если он умный и красивый, почему бы тебе не дать ему второй шанс? Тем более, что можно бесплатно в Италию слетать!", на что мне не оставалось ответить ничего, кроме как "Не хочу". Просто не хочу и, по-большому-то счету, не обязана никак это объяснять.
Самое неприятное для меня в этих ситуациях было не то, что люди озвучивали свое мнение, отличное от моего; это-то я как раз считаю абсолютно нормальным. Нет, мне было неприятно то, что они вели себя так, как будто я не имела морального права поступать так, как поступала и заслуживаю всяческого осуждения и порицания. Хотя как справедливо отметил один комментатор к ролику про Преображенского:
"Мне кажется Булгаков хотел показать, что в свободном обществе человек что-то делает или не делает из своего желания или нежелания, а не из-за призывов, агитаций и т.д. Эта женщина шокирована. Профессор говорит, что ему не жалко денег, но просто не хочет покупать. Её забитая лозунгами, песнями, призывами к свершениям голова не может понять такого простого аргумента, как "не хочу"."
#о_себе
Вдумайтесь: Техножрица репостит сообщение Дата-шрушера про нейрохищника...
What a time to be alive!
https://habr.com/ru/companies/ascon/articles/745594/
Читательница сделала статью на habr про то, как обычным разработчикам иметь дело с современными нейросетями, и как их можно использовать в своем карьерном развитии.
Мне понравилась статья, за исключением цитаты Карпатого. Мне показалось, что термины, которые он предлагает, вносят только ещё больше путаницы в итак запутанный мир ML-related специализаций и вакансий. Но это претензия, конечно же, не к автору статьи, а к автору цитаты.
Автор будет рада комментариям здесь и на Хабре, потому что это ее первая статья на данную тему.
Особенно было бы интересно получить комментарии и дополнения от специалистов, которые занимаются решением более прикладных ML задач, чем я, в частности, занимаются деплоем моделей.
Коллега по Хуавею попросил рассказать про маленькую однодневную онлайн-конференцию по исследованиям в области нейросетей, которую он организовал.
Мне понравились некоторые из анонсов докладов, представленных на сайте на текущий момент: https://neuro-set.ru/ , поэтому я согласилась.
Так, мне бы хотелось послушать доклад про Parameter-Efficient Fine-Tuning и позадавать вопросы, тем более, что ранее мне очень понравилась одна из статей докладчика, которого зовут Владислав Лялин (я даже написала про эту статью в канале - /channel/tech_priestess/172 ), и после прочтения у меня сложилось очень хорошее впечатление. 👍 Также с удовольствием послушаю (если будет возможность) про архитектуру модели Kandinsky 2.1, про то, как детектировать дипфейки, а также, что там придумали за сопоставительное обучение.
Главный недостаток конференции заключается в том, что она платная (сейчас цена на сайте 670 рублей; написано, что будет повышаться ближе к дате конференции). Тем не менее, можно применить промокод (рис.1), чтобы купить более дешевый билет, либо подождать до сентября. Автор утверждает, что в районе сентября месяца записи будут выложены в открытый доступ, и тогда их можно будет посмотреть и послушать за ноль рублей.
Кстати, ещё раз напомню, что про мощность множеств, континуум, заполняющие кривые и многое другое интересное, написано в этой старой книжке - /channel/tech_priestess/110
Не устану ее рекламировать ☺️
Что вообще происходит в этом канале?! 😂😂😂
/channel/Gewissta/478
/channel/Gewissta/523
Как появился attention
#coolstorybob #ml
Причины, по которым я порой смотрю доклады крутых чуваков даже на уже известные темы – это, во-первых, посмотреть, как люди презентуют, во-вторых, можно услышать всякие байки. И вообще эрудированных людей приятно слушать.
В этом вводном видео про трансформеры Andrej Karpathy упоминает статью 2015 года ”Neural Machine Translation by Jointly Learning to Align and Translate”, с которой все началось, и рассказывает про свою переписку с Dzmitry Bahdanau – первым автором. Дима написал Андрею длинный имейл с предысторией того, как он пришел к идее attention (вот этот момент в видео Karpathy). Про bottleneck между энкодером и декодером уже все знали, было много не самых удачных экспериментов. Потом Dzmitry задумался, а как же он сам переводит с одного языка на другой, и понял, что он постоянно прыгает взглядом между source-языком и target-языком. То есть чтоб произвести очередное слово в переводе (или понять, почему именно это слово стоит в готовом переводе), надо посмотреть на несколько слов в исходном предложении. Так Dzmitry смоделировал soft search через softmax – и это заработало прям с первой попытки. Что было дальше, вы знаете.
Кстати, сам термин “attention” предложил Bengio в одной из финальных правок статьи. Кто знает, как взлетела бы идея, если б не крутое запоминающееся название. Вот она мудрость отцов. Так и представляю: «так, Дима, покажи, что там навертел. О, так это ж Внимание!»
Еще немного про концепцию "генетической музыки", разработанной тем же самым Петуховым С.В. и его товарищами Кобляковым А.А. и Степаняном И.В. в работе https://www.elibrary.ru/item.asp?id=41421485 (см. также рис. 1 в следующем посте), а затем исполняемой на конференции про фрактальный рак: /channel/rlabrats/3340 .
Главная идея работы заключается буквально в следующем.
Авторы отмечают, что соединение нуклеотидов А и Т в ДНК имеет две водородные связи, а соединение нуклеотидов C и G - три. Поэтому они рассматривают сначала символьную матрицу:
((C, T),
.(A, G)),
а потом числовую:
((3, 2)
.(2, 3)),
в которой каждый нуклеотид заменяется на число связей, которые он образует со своим напарником.
Затем они совершают над второй, числовой матрицей ряд преобразований (извлечение корней, возведение в тензорные степени и так далее). То, что получается в результате данных преобразований они называют "семейством генетических матриц" и вводят на основе чисел, которые они получают в этих матрицах, музыкальный строй, очень похожий на пифагорейский. Далее, вся музыка, исполняемая в этом музыкальном строе как раз и называется "генетической музыкой".
Т.е. буквально вся связь с генетикой, которая здесь есть - это использование квадратной матрицы (3, 2, 2, 3) и все. Дальше идет полет фантазии с кучей никак не обоснованных математических преобразований, мудрыми цитатами математиков, а также отсылками к учению пифагорейцев. Никаких теорем не доказано, никаких опытов не поставлено - даже критиковать дальше уже нечего.
В общем, вся работа - просто один большой фанфик с пейрингом Пифагора и маленькой квадратной матрицы.
Это то же самое, как если бы я взяла свой фанфик по вахе, где сравнивала пространство эмбеддингов с варпом ( /channel/tech_priestess/426 , /channel/tech_priestess/427 ) и начала бы делать вид, что это не художественное сравнение, придуманное ради развлечения, а настоящая научная теория. 🤡
Главная разница между нами в том, что мой фанфик по вахе имеет хоть какую-то художественную ценность, а их фанфики по Пифагору - просто духота. 🤡
А, ну еще и в том, что я потратила на свой фанфик час, и мне даже в голову не пришло отправлять его в научный журнал, а на написание скучных и унылых фанфиков по генетическим матрицам уходят годы, ими засоряется научная литература, да ещё и при этом тратятся человеческие и финансовые ресурсы (вполне возможно, что на это даже идет часть налогов читателей).
А итоговой вердикт таков: этот лор нужно существенно переработать, результат отправить в журнал "мир фантастики", а научные журналы и конференции оставить в покое.
#псевдонаука
Курьеры регулярно кладут мне в почтовый ящик идиотскую газету "Про здоровье". В итоге я не выдержала и сделала по мотивам этой газеты такие же идиотские мемы.
Читать полностью…Мои любимые YouTube каналы по темам.
Часть I, образовательные:
1. Математика (каналы перечислены в порядке от простого к сложному):
a) 3blue1brown" rel="nofollow">https://www.youtube.com/@3blue1brown (англ.) - 3blue1brown - максимально качественный канал. Есть объяснения отдельных концепций, разборы задач, плейлисты с теорией по мат.анализу, лин.алгебре и др. Подавляющее большинство видео требуют для понимания лишь знаний школьной математики, но есть и посложнее, рассчитанные больше на студентов.
b) numberphile" rel="nofollow">https://www.youtube.com/@numberphile (англ.) - канал с огромным количеством очень разнородных видео по математике. Большинство видео являют собой объяснения различных концепций; некоторые больше похожи на интервью. Уровень сложности видео также разнороден, для понимания некоторых видео достаточно школьной математики, некоторые рассчитаны на студентов.
c) MichaelPennMath" rel="nofollow">https://www.youtube.com/@MichaelPennMath (англ.) - канал преподавателя математики, в котором изначально разбирались решения сложных задач по математическому анализу для студентов колледжа, а затем появился более широкий спектр тем. Большинство видео по-прежнему рассчитано на студентов.
d) RichardSouthwell" rel="nofollow">https://www.youtube.com/@RichardSouthwell (англ.) - у этого автора я смотрю в основном видео про теорию категорий. Можно сказать, что видео рассчитаны на студентов, но могут быть довольно сложны для них.
e) aatrn1" rel="nofollow">https://www.youtube.com/@aatrn1 (англ.) - канал с докладами и объяснениями по различным темам и задачам из прикладной (вычислительной) алгебраической топологии и геометрии. Часть видео будет понятна студентам, часть - только специалистам.
2. Машинное обучение (также от простого к сложному):
a) TwoMinutePapers" rel="nofollow">https://www.youtube.com/@TwoMinutePapers (англ.) - канал с демонстрациями к различным статьям по глубокому обучению. Объяснения самих алгоритмов даются простыми словами, без особых технических деталей, поэтому будут понятны широкому кругу зрителей.
b) YannicKilcher" rel="nofollow">https://www.youtube.com/@YannicKilcher (англ.) - канал с более подробными разъяснениями научных статей. Для понимания многих таких разъяснений требуются знания основ Deep Learning и большая внимательность, так как статьи часто бывают сложные. Есть и просто новостные видеоролики, рассчитанные на широкий круг зрителей.
c) mohitiyyer9667" rel="nofollow">https://www.youtube.com/@mohitiyyer9667 (англ.) - на этом канале я смотрела цикл лекций по Advanced Natural Language Processing. Для понимания этих лекций требуется знание основ Deep Learning.
d) user-th3jq9rw7b" rel="nofollow">https://www.youtube.com/@user-th3jq9rw7b (рус.) - канал Школы Анализа Данных. На нем я в основном смотрела лекции Воронцова, но канал содержит и множество других лекций и роликов. Рассчитаны лекции в основном на сильных студентов, не боящихся математики.
#рекомендации
Малкадор Сигиллит провел переговоры с примархом Сынов Вагнера Иосифом Луперкалем.
Выработан выгодный и приемлемый вариант развязки ситуации, с гарантиями безопасности для бывших Лунных Волков. Переговоры Малкадора и Хоруса длились в течение всей осады Терры.
Астропаты Империума передают, что Хорус принял предложение Малкадора об остановке движения легионов предателей и о шагах по деэскалации.
«Мы разворачиваем астартес и уходим в обратном направлении в Око Ужаса», — сообщил первый капитан Сынов Вагнера Абаддон Разоритель.
В честь 3000 подписчиков расскажу про наш новый препринт, в котором тексты, сгенерированные ChatGPT, детектируются с помощью анализа их внутренней размерности:
https://arxiv.org/abs/2306.04723
Итак, здесь мои коллеги и я продолжили заниматься полюбившейся с 2021 года темой - детекцией сгенерированного контента. Особое внимание, конечно, уделили детекции текста, сгенерированного моделями семейства GPT-3.5 (davinci, chatgpt). А делали мы это с помощью такой интересной штуки, как дробная размерность. Первое знакомство с ней можно осуществить, посмотрев видео 3blue1brown: https://www.youtube.com/watch?v=gB9n2gHsHN4 (рассказ про размерность начинается со второй половины видео).
Хоть введенная в видео размерность и называется "фрактальной", на деле можно получать приближенные оценки такой размерности не только для фракталов, но и просто для облаков точек, если формы облаков достаточно сложные. И вот возник вопрос: а почему бы не построить облако точек по тексту на естественном языке и не посмотреть, какой будет его размерность?
Далее последовательность действий была такая:
1) Брался достаточно длинный текст (написанный человеком либо сгенерированный ChatGPT/другой моделью) с большим количеством токенов;
2) Текст подавался на вход модели RoBERTa;
3) С последнего слоя RoBERTы извлекались эмбеддинги каждого токена текста;
4) Эти эмбеддинги рассматривались как точки в многомерном пространстве - получалось облако точек;
5) С помощью нескольких довольно технически сложных процедур ( вдохновленных https://arxiv.org/abs/1808.01079 ) оценивалась дробная размерность этого облака точек.
Таким образом, каждому тексту сопоставлялось число - эта самая размерность. И - о чудо! - оказывалось, что средняя размерность текстов, сгенерированных с помощью GPT-3.5 (ChatGPT или davinci), была в среднем существенно меньше, чем размерность текстов, написанных человеком. Эта средняя размерность практически не менялась при смене домена и при замене GPT-3.5 на large GPT-2 или OPT (со стандартными параметрами генерации); даже при применении парафразера DIPPER, специально созданного для избегания детекции, размерность менялась не сильно - в среднем примерно на 3%. Благодаря этому нам удалось сделать пороговый детектор по этой размерности, неожиданно устойчивый к атакам.
Теперь любители генерировать тексты могут менять промпты, тематику или даже модель, но наш детектор не проведешь! 😈
При смене домена и модели точность детекции (true positive) по один раз зафиксированному порогу не опускалась ниже 75% при условии, что false positive rate (FPR) оставался не более 1%. При применении DIPPER к генерации GPT-3.5 точность падала до 40%, снова при FPR 1%. Но даже этот результат оказался лучше всех остальных существующих детекторов - в том числе, и от самих OpenAI. 🫡
(Пояснение: мы зафиксировали низкий FPR потому что хотели как можно меньше дискриминировать настоящих людей при детекции).
Кроме прочего, при использовании мультиязычной RoBERTы можно было получать аналогичный детектор не только для английского, но и для других языков. Средняя внутренняя размерность эмбеддингов, соответствующих текстам на других языках, менялась от языка к языку, но размерность искусственных текстов все равно оставалась в среднем ниже, чем человеческих, для каждого конкретного языка по отдельности.
Главной же слабостью нашего детектора является неустойчивость к большим температурам генерации и к примитивным генераторным моделям. У генераторов с высокой температурой (так сказать, бредящих) внутренняя размерность текстов может быть и выше человеческой, поэтому на них этот детектор сломается. С другой стороны, такие генераторы и так детектятся другими методами. Также остается открытым вопрос, является ли RoBERTa оптимальным средством для извлечения эмбеддингов текстов, ведь их можно получать и с помощью других моделей тоже.
#объяснения_статей
Кое-как доделала вторую часть презентации с планом обучения Machine Learning с нуля, за ноль рублей.
Первую часть, где рассказано про то, где можно получить базу в плане математики и программирования, можно увидеть здесь. Ну, а в только что дописанной второй части (см. вложение) мы уже, наконец, познакомимся с тем, какие бесплатные курсы, лекции и дополнительные материалы можно использовать, чтобы изучить классические алгоритмы машинного обучения (Classic ML) и глубокое обучение (DL).
#учебные_материалы
Возобновляем портал в ад, мне в личку накидали новую порцию всратой рекламы DS-курсов. Вы готовы стать НЕЙРОХИЩНИКАМИ?
Читать полностью…