tech_priestess | Unsorted

Telegram-канал tech_priestess - Техножрица 👩‍💻👩‍🏫👩‍🔧

12121

Люблю высокие технологии и кушать. Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.

Subscribe to a channel

Техножрица 👩‍💻👩‍🏫👩‍🔧

1. В комментариях говорят, что машина похожа на Теслу, а у неё нет лидара.
2. Лидар не может видеть фотографии.

Возможно, на видео показаны предсказания автопилота по результатам анализа изображения с видеокамеры. Есть также версия, что видос и вовсе фейковый, но я так не думаю: я ведь очень серьезный человек и не буду репостить или писать какой-то ерунды! 🙏

P.S. Кстати, сегодня ночью ожидается суперлуние, что означает, что на небе будет видно 28 лун. Не забудьте посмотреть на небо, чтобы не пропустить это природное явление! 🙂

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

А ведь внутри Flipper Zero в буквальном смысле живёт маленький Дух Машины, который нужно регулярно задабривать жертвами, чтобы он оставался в хорошем настроении. 🤔

В последний месяц-другой я пользовалась этим устройством только как счётчиком и pomodoro timer'ом, но жертв не приносила. На рис. 1 видно, как зол был дух флиппера из-за этого.
Пришлось поймать с десяток сигналов, приходящих на пейджеры* на фудкорте и пожертвовать их дельфину, чтобы утолить его жажду!

На рис. 2 виден результат жертвы. В диапазоне Sub-GHz теперь куча сохранённых сигналов (правда, довольно бесполезных: использовать их можно разве что для троллинга посетителей фудкорта, заставляя их пейджеры пищать в рандомное время), а анимация Духа Машины сменилась со злой на умиротворённую. 🙏

---

*Под пейджером имеется в виду маленькое устройство, которое пищит, когда еда готова.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

https://www.nature.com/articles/s41592-020-01035-w

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Посмотрел дебаты кандидата в президенты РФ Бориса Надеждина и математика Алексея Савватеева. Был удивлен внезапному упоминанию моей скромной персоны ближе к концу передачи. Контекст был такой. Надеждин отметил, что образование финансируется недостаточно, что скоро не останется специалистов, способных понимать важные научные идеи, и что развелось сторонников плоской Земли. Алексей же ответил, что никаких плоскоземельщиков не существует, что все эти люди – тролли, цель которых позлить высокомерных популяризаторов науки вроде Панчина.

Понимаю, что Алексею с его физико-математическим образованием сложно представить, что кто-то может на полном серьезе верить в нечто столь абсурдное, как то, что Земля плоская. Хотя и идея плоской Земли куда древней, чем феномен высокомерных популяризаторов. Да и вообще стоит посмотреть какие-нибудь документальные фильмы об этом движении, вроде фильма “За изгибом” или на многочисленные (неудачные) попытки экспериментально доказать плоскость Земли, в которых участники экспериментов по итогу затроллили скорее себя или даже подвергли свою жизнь риску.

Но допустим, что Алексей прав и за всяким очевидно антинаучным высказыванием скрывается не искреннее заблуждающийся человек, а коварный тролль, попивающий каберне, глядя на развернувшуюся шумиху. Но тогда возникает очень неудобный вопрос к Алексею. Не троллил ли он, когда в дискуссиях со мной и в многочисленных интервью защищал гомеопатию?

Приведу несколько цитат: “Первое, что я утверждаю - и это единственное, что я утверждаю - что она (гомеопатия) помогает, и помогает реально. Это очевидно из свидетельств моих друзей, и именно это следует принять за факт”. Кстати, даже по форме это напоминает некоторые аргументы сторонников плоской Земли: апелляция к свидетельствам людей. Куда не посмотри: Земля плоская, лишь иногда холмистая. Вы своими глазами видели сфероид? Нет!

Единственным возможным аргументом против гомеопатии Алексей тогда признавал, что она, дескать, может оказаться “бесовской природы”.

“Могут существовать совсем иные аргументы против гомеопатии - если окажется, что она ``бесовской природы''. Тогда, конечно, я буду первым, кто не посоветует к ней обращаться. Но имеются ли свидетельства в пользу последнего?”

Дело в том, что точно также как человеку с физико-математическим образованием должно быть очевидно, что Земля не плоская, мне как биологу очень сложно поверить, что кто-то на полном серьезе может верить в гомеопатию. В каком-то смысле гомеопатия даже более антинаучна, чем идея о плоской Земле. Скажем, сделать искусственно плоский диск и запустить его с ускорением в космос можно. А сделать работающий гомеопатический препарат (соблюдая все принципы этой альтернативной медицины) – нет. Не может лекарство без действующего вещества работать лучше пустышки, ибо пустышкой и является.

Так или иначе, верно одно из двух. Либо Алексей Савватеев троллит насчет гомеопатии, либо говорит искренне. И я не знаю, какой из вариантов хуже. Если говорит искренне, то это как раз та самая проблема образования, о которой говорит Борис Надеждин. Что даже люди со степенями могут верить в ерунду, эквивалентную по глупости идее плоской Земли. Если же Алексей Савватеев троллит, то что он скажет людям, которые послушав человека с ученой степенью, говорящего, что можно лечить болезни пустышками, потратили на эти пустышки трудом заработанные деньги, или, того хуже, попробовал лечить ими серьезные заболевания, включая онкологические. Иногда со смертельным исходом. Какую цену Алексей готов заплатить, чтобы позлить Панчина?

И по каким еще вопросам Алексей троллит? Когда говорит, что верующий? Когда говорит, что существуют реальные паранормальные явления? Цитата:

“В истории записано множество случаев паранормального. Просто так отрицать их - значит, опять же, прятать голову в песок. Львиная доля этих свидетельств дутая, но из этого _не следует_, что паранормального вообще не существует (попробуйте об этом Байкальским старожилам рассказать!)”.

Не хорошо так, Алексей Владимирович. А то ведь мы все вам поверили!

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Тут на дружественном (и глубоко мной одобряемом) канале Техножрицы случилось обсуждение понятия нормы в векторном пространстве. Позволю себе навалить ещё немного лора.

Вообще понятие нормы достаточно бесполезно в конечномерных пространствах: любые две нормы эквивалентны. Попросту говоря, одну норму можно перевести в другую при помощи непрерывной функции (растянуть подходящим образом по каждому направлению). А вот в бесконечномерных пространствах это уже не так, там бывают «не эквивалентные нормы». Причина этого состоит в том, что замкнутость и ограниченность не равносильна компактности в бесконечномерных пространствах.

Казалось бы, ну и что? Бесконечномерные пространства выглядят абстракцией. Но хрен там: бесконечномерными являются функциональные пространства: полиномы или, скажем, периодические функции. А существование разных, не эквивалентных, норм приводит к неприятным последствиям. К примеру из поточечной сходимости двух функций не будет следовать сходимость интегралов, а значит, к примеру, длины графиков функций. В качестве демонстрации — см. картинку.

Ещё один момент. Полезно рассматривать т.н. полунормы — это как норма, но разрешается чтобы равенство нулю (p(x)=0) для ненулевых векторов. Тогда возникает трудность в том, что разные векторы «не различаются». То есть p(x-y) может равняться нулю для разных векторов x,y. С другой стороны, полунормы иногда довольно легко вычисляются. Например для функций, к примеру, полунормой будет модуль значения в точке (подойдёт и значение производной). Или можно считать модуль интеграла по какому-то промежутку. Ну и что, спросит вы? А дело в том, что это по сути математический аналог хеш-функции. Чтобы различить две функции в должны посчитать такой линейный хеш. Если получились разные значения, значит функции точно разные. А если нет — надо проверять. Вообще, многие хеши родственны разным полунормам.

Кроме того оказывается, что если у вас нет нормы, но есть разделяющая счетная система полунорм (т.е. такая, что для любой функции найдется полунорма, которая их «различит») и ещё чуть-чуть (хаусдорфовость), то такое пространство будет «хорошим» (по умному — пространством Фреше) и, в частности, метризуемым.

Такими «хорошими» будут многие важные функциональные пространства: периодические функции, непрерывные, быстро убывающие (пространство Шварца). И тут можно было бы и закончить, но загвоздка в том, что супер важное пространство функций с компактным носителем — не таково. Поэтому в теорвере и всякой прочей науке связанной с обобщенными функциями возникают жуткие проблемы с понятием сходимости (нужно контролировать не только сами функции, но и носители — т.е. множество точек, где функция отлична от нуля).

В общем это я к чему. Понятие нормы, если с ним начать разбираться, одно из базовых в математике. И позволяет ответить на два важных вопроса, которые часто возникают у студентов: «в чем разница между конечномерными и бесконечномерными пространствами (см. также почему дифуры и УрЧП так трудно решать)?», а также «нахрена нам, прикладникам, нужен функциональные анализ»? Хотя мне тут на экзамене один гражданин заявил, что программистам теория групп не нужна, так что я как-то даже немного стесняюсь прояснять ситуацию с функаном. Ну да ладно.

А, ну и «Понимание есть Истинный Путь к Познанию». Да сохранит Император ваши души.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Неравенство треугольника в простейшей его разновидности формулируется так: невозможно придумать такого треугольника, у которого сумма длин двух сторон будет меньше, чем длина третьей стороны. Можете проверить, что это утверждение выполняется в нашем советском копеечном Евклидовом пространстве, взяв три прямые (!) палочки, такие, чтобы сумма длин двух палочек была строго меньше длины третьей. Поставьте концы двух маленьких палочек на концы большой и убедитесь, что свободные концы маленьких палочек не смогут дотянуться друг до друга, поэтому составить треугольник не получится.
Если же у вас все-таки получилось составить треугольник из таких палочек (т.е. оказалось, что вы живете в квазинормированном пространстве), напишите об этом в комментариях и приложите фотографию такого треугольника... тогда я буду добросовестно полчаса приносить вам глубочайшие извинения, надев скромную водолазку нейтрального цвета. В противном случае предлагаю читать дальше и перейти к изучению неравенства треугольника в более общем виде.

А в более общем виде оно формулируется так: f(p + q) ≤ f(p) + f(q) для некоторой фиксированной функции f из векторного пространства в неотрицательные числа и произвольных векторов p и q. В этом неравенстве p и q играют роль двух сторон треугольника, p + q - третьей стороны, а f - аналога длины. Конечно, такое неравенство выполняется далеко не для всех возможных функций f. Но для функций, достаточно "похожих" на "функцию длины" l2 - выполняется!
То, что это так для самой функции l2 в двумерном пространстве, можно легко убедиться еще раз, уже не на палочках, но строго алгебраически, доказав, что

(x² + y²) ^ ½ + ((x')² + (y')²) ^ ½ ≤ ((x + x')² + (y+y')²) ^ ½,

где (x, y) - координаты вектора p, а (x', y') - координаты вектора q. Конечно, то же самое можно доказать не только в двумерном пространстве, но и в многомерном, только вывод будет сложнее.
А то, что это так для нашей функции l4, можно вывести из неравенства Минковского. Это довольно громоздкий вывод, поэтому я не вижу смысла его копировать сюда, все равно никто полностью не прочитает. Вместо этого я приложу ссылку на юпитер ноутбук, который смастерила сегодня - https://colab.research.google.com/drive/1wpKId_-m-WZElFs9Bvy6y5quKQMwNf3I?usp=sharing . Здесь можно наглядно увидеть, что поверхность, соответствующая сумме норм векторов всегда лежит не ниже, чем поверхность, соответствующая норме сумм. Также в этом же ноутбуке можно посмотреть, как будут вести себя поверхности, соответствующие не только l4 но и аналогичным нормам с другой степенью.
Так, для того, чтобы это все работало для нечетных степеней (например, 3), в нужных местах числа берутся по модулю.

Ну, а теперь вернемся к нашим трем свойствам, которые мы перечислили выше. Те, кто не прогуливал матан в университете, знают, что они называются аксиомами нормы. Через эти аксиомы как раз и можно строго формализовать интуитивное понимание такой функции, которая "в чем-то похожа на длину". Строго говоря, вашу функцию из векторного пространства в неотрицательные вещественные числа можно назвать нормой тогда и только тогда, когда она удовлетворяет этим аксиомам. 🤓

Теперь вы можете еще раз посмотреть на картинку из предыдущего поста и заметить, что на ней изображены кривые, на которых нормы lp с разным p равны одной и той же константе (5). Такие кривые (или, в общем случае, многомерные поверхности) математики называют сферами в нормированном пространстве с заданной нормой. Таким образом еще раз подчеркивается аналогия с длиной (т.к. кривая или поверхность, образованная векторами одинаковой длины, будет окружностью или сферой). Соответственно, множество векторов, находящихся внутри этих сфер, называют шарами.

#математика #ликбез

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Обычно на День рождения подарки получают, но я люблю дарить, отдавать и делиться. Прошлой весной, пока сидел без работы, я получал предложения сделать курс по NLP/LLM. После анализа конкурентов, включая Stanford'ские курсы, я пришёл к выводу, что мне эта идея не кажется перспективной — я не видел, что можно ещё предложить и какую ценность добавить, да и кто будет целевой аудиторией. Но осенью ко мне пришли ребята из Deep Learning School при Физтехе и предложили заделать «пару лекций». Мало кто знает, но пост про GPT-4 с Пашей Комаровским в соавторстве начинался примерно с таких же слов: «не хочешь сделать на коленке мини-заметку?».

В итоге пара лекций превратилась... в мини-курс «Полная история семейства GPT» из 4 частей. На данный момент полностью готово 2 части, и сегодня я публикую первую. Она состоит из трёх видео, которые, как я считаю, будет полезно посмотреть всем — от начинающих свой путь в ML до суперсеньорных NLP'шников, которые вероятно пропустили или не знали предпосылок разработки GPT-1. Правда, курс предполагает, что вы представляете, что такое трансформер — какое счастье, что я и такую лекцию сделал!

В курс включено много тем и деталей, о которых либо говорят редко, либо они не указаны в статьях, либо всё и сразу. Какие-то топики, конечно, пересекаются, но думаю, что здоровая доля novelty тут есть.

1) youtu.be/l-l82uNwyu8 — лекция про сжатие как способ выработки понимания (что? а вот увидите!)
2) youtu.be/jKd_CdRh7U4 — лекция про обучение без учителя на текстовых данных, или почему мы обучаем языковые модели так, как обучаем
3) youtu.be/i3lkIJ82rNI — finally, лекция с разбором GPT-1

(но вообще я предлагаю просто подписаться на stalkermustang">канал на YouTube, чтобы иметь удобную навигацию там и ничего не пропустить)

Вторая часть выйдет на следующей неделе, будет состоять из ПЯТИ видео и опишет прогресс от GPT-1 до GPT-3. Семинары и домашние задания к лекциям появятся весной и будут выложены на платформе курса — поэтому переходите на сайт школы, чтобы ничего не пропустить. Занятия в школе — БЕСПЛАТНЫЕ (и организованы на платформе Stepik)!

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Вообще, если серьезно, то судя по моему опыту, очень часто можно разрешить плохую ситуацию в комментариях с помощью словесного убеждения или, в крайнем случае, предупреждения. И я стараюсь так делать по возможности.

Но сейчас у меня плохое психическое состояние, так что на эти увещевания нет никакой энергии. Вроде бы все делаю правильно (например, стараюсь заботиться о своей внешности, пить витамины и таблетки от БАР, назначенные психиатром, регулярно посещать психолога (конечно, психолог и психиатр это разные люди), сбалансированно питаться, делать зарядку, регулярно общаться с людьми в реальной жизни, а не только в интернете и прочее, и прочее, и прочее...), но депрессия все равно в последнее время сильно одолевает. Так, если взять приложенную картинку, то у меня будет бинго 9/9. Внешне, правда, это может быть не очень заметно, но только из-за того, что я с помощью психолога за многие месяцы терапии с большим трудом выработала когнитивные навыки, которые помогают в таких случаях держаться и не поддаваться тому, что здесь называется "ленью" (хотя мне кажется, что это не очень подходящее слово).

По этой же причине на канале в последнее время мало содержательных постов - в основном щитпосты и репосты. В общем, черная полоса какая-то. Расскажу своему психиатру - может, мне подкорректируют дозы лекарств, а может, скажут, что это надо просто переждать (на самом деле, я даже знаю, с какими событиями связано это плохое самочувствие - в основном это проблемы с работой и с научными статьями, но не хочется расписывать).

#о_себе

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Каждый раз удивляюсь, с какой непринуждённой лёгкостью посты про шизу провоцируют шизу у комментаторов. 🏥 Похоже, здесь реально такая же механика, как у распространения ереси в Вархаммере 40к 🚬😊

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Интересный выпуск Machine Learning Podcast попался сегодня. 😀

Вот его версия на Яндекс музыке: https://music.yandex.ru/album/9781458/track/121330635 . А вот версия в mp3 для тех, кто не любит Яндекс музыку: /channel/toBeAnMLspecialist/779 .

Подкаст в целом неплохой, и я уже писала про некоторые его прошлые выпуски на своем канале раньше - /channel/tech_priestess/210 . Вот и в этот раз получилось интересно, потому что на беседу пришел Илья Гусев и рассказал про модель Сайгу, про parameter efficient fine tuning (в частности, про квантизацию, адаптеры и то, как они изменили работу с deep learning моделями за последние годы), а также про любимую многими тему локального запуска и дообучения языковых моделей.

Ссылки на материалы, которые упоминаются в выпуске, я скопирую ещё раз сюда, потому что в них много годноты:

😀Статья Ильи на Хабре "Как (быстро) сделать русский локальный ChatGPT" (https://habr.com/ru/articles/759386/)
😀Сервис для запуска больших языковых моделей локально - lmstudio (https://lmstudio.ai/)
😀Репозиторий сервиса oobabooga, с помощью которого можно запустить веб-интерфейс для работы с LLM локально (https://github.com/oobabooga/text-generation-webui)
😀Репозиторий сервиса Text Generation Inference (TGI), который позволяет развертывать и поддерживать LLM (https://github.com/huggingface/text-generation-inference)
🐾Статья на arxiv "Self-Consuming Generative Models Go MAD" с анализом того, к чему приводят разные подходы обучения LLM на синтетических датасетах, сгенерированных другими LLM (https://arxiv.org/abs/2307.01850)
🐾Пост Ильи со списком материалов для погружения в NLP (/channel/natural_language_processing/81627)

#подкасты #учебные_материалы

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Итак, на Рис.1 мы видим ситуацию, когда включен лишь 1 нейрон. Каждому кружку на картинке соответствует число - либо цвет пикселя (если это нижний ряд), либо активация нейрона (средний ряд), либо, очевидно, вероятность класса (верхний ряд). По сути, ситуация на Рис.1 эквивалентна тому, как будто у нас весь промежуточный слой состоит из всего лишь 1 нейрона, поскольку сигналы от остальных все равно не проходят. Если убрать с диаграммы лишние связи (которые ни на что не влияют), получим Рис.2, на котором это лучше видно. На Рис.3 изображена ситуация, где активированы 2 нейрона. Думаю, теперь легко вообразить, как будет выглядеть наша сеть при 3 включенных нейронах скрытого слоя и так далее.

В итоге, после применения нашего экстремального дропаута в 99.9% наша толстенькая нейросеть с 748 нейронами на среднем слое как бы распадается на ансамбль худеньких слабых решателей (weak learners) - в основном с 1-2 нейронами на промежуточном слое. Некоторые из них имеют общие связи, но часто будут получаться и совсем независимые друг от друга. (Примечание: разумеется, на самом деле при любом уровне дропаута обучение нейросети можно помыслить как обучение ансамбля подсетей, но в нормальном сценарии, вроде p == 0.1, у этих подсетей большинство связей будут общими, а в нашей ситуации с p == 0.999, получается более независимая ситуация).

Мне показалось интересным, что такой странный ансамбль вполне себе справляется с задачей, в то время как одна нейросеть с 1-2 скрытыми нейронами в том же сетапе не сможет достичь качества более 30%, сколько итераций не ставь. Тем не менее, я до сих пор не знаю, есть ли какая-то практическая польза от этого знания (итог получается непрактичным из-за очень большого времени обучения). Если вы встречали статьи о том, как нейросети ведут себя при экстремально большом дропауте и какие уроки из этого извлекли авторы, поделитесь в комментариях.

#эксперимент

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

В последнее время наблюдается интересный эффект: СМИ все чаще пишут о научных достижениях ученых, но они представляются в столь упрощенном и искаженном виде, что это не дает читателю новой полезной информации.

Причина этого в целом понятна: как правило, научные журналисты в штате СМИ не имеют ни времени, ни возможности читать сами научные статьи, поэтому они ориентируются на пресс-релизы. В свою очередь, пресс-релизы пишутся журналистами в штате научных организаций. После такого «двойного фильтра» неизбежно наслаиваются упрощения и расхожие штампы. А собственно оригинальная информация из статьи отходит на второй план.

Приведу как пример дружную озабоченность СМИ нашим здоровьем в связи с тем, что «в пластиковых бутылках содержится на два порядка больше частиц микропластика, чем ранее считалось» (см. пост от 10 января). Почти все про это написали, вот и доктор Мясников (известный своими «компетентными» высказываниями в начале эпидемии ковида) подключился:

https://e-plastic.ru/news/doktor-myasnikov-razvenchal-vse-polimery/

При этом исходную научную статью в PNAS никто не читал. Я прочитал. И дал сжатый комментарии по содержанию статьи в посте от 10 января. Если коротко, то бояться пить воду из пластиковых бутылок не надо. А самый интересный результат статьи состоит в том, что большая часть найденного микропластика – это асимметричные частицы полиамидов, которые не имеют отношения к материалу бутылки (полиэтилентерефталат).

Асимметричность указывает на происхождение от синтетических волокон. Поэтому я думаю, что если бы исследовалась вода из стеклянных бутылок, то результат был бы тем же. Специалисты давно выделяют воду после стирки одежды как один из основных источников попадания микропластика в водные экосистемы. Но, повторяю, в статье не идет речь ни о каком вреде здоровью от детектированных в статье небольших количеств мельчайших частиц микропластика.

Как сделать так, чтобы научно-популярная информация была бы свободна от упрощения и штампов, о которых говорилось в начале данного поста? Думаю, что СМИ должны чаще обращаться к ученым и готовить заметки, опираясь на их мнение. Чаще брать интервью у ведущих специалистов по той или иной актуальной научной проблематике.

А ученым стоит пожелать более благожелательно откликаться на просьбы журналистов, при этом быть объективными, не скатываться к избыточному восхвалению только своих достижений. В конце концов, компетентное разъяснение новых научных результатов ведет к лучшему пониманию важности науки в широких слоях общества.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Привет!

Это Лев Ламберов из УрФУ и Арсен Вольский из НГУ. Мы проводим социологическое исследование среди математиков-исследователей и людей, получивших математическое образование для того, чтобы выяснить их мнение по поводу оснований математики и некоторых вопросов, которые с ними связаны. Сейчас мы активно формируем аналитику, в чём вы можете нам помочь, заполнив нижеследующую небольшую анкету. Это займёт не более 15 минут и очень поможет лучше понять взгляды представителей математического сообщества.

Ссылка на анкету: https://forms.gle/6uanUsf9XdQkAZXDA

Наша анкета полностью анонимна, адреса электронной почты или какие-либо другие данные скрытым образом не собираются. Однако в последнем разделе вы можете указать свой адрес электронной почты, если хотите получать сообщения о ходе исследования, а также получить в дальнейшем доступ к собранным (анонимным) данным.

#предложка

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

https://www.youtube.com/watch?v=x_QmvZRS85U&ab_channel=SkyCorpHomeVideo

Небольшое дружеское напоминание о том, как отвечать на негативные высказывания в интернете, чтобы не ссориться! Надеюсь, оно поможет вам сохранить добрую атмосферу в секции комментариев! 💜

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Привет новым людям в канале!

Очень хотелось бы, чтобы вы составили о нем мнение по щитпосту 🙏

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Лидар автомобиля на кладбоне видит живых людей. Понятно, что его скорее всего приглючивает из-за фотографий на могилах, но я бы на всякий случай уехал оттуда побыстрее

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

uhhh that's definatly because of a programming error and not because the demon inside the machine can't run pass salt . yep ! , it's 100% science ! we don't put demons inside your cars it's...uhh..artifical inteligence .

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

⬆️ ТОП-10 АНИМЕ-КРОССОВЕРОВ!!! ⬆️

( ссылка на обсуждаемое видео: https://www.youtube.com/watch?v=r8MpvtqhM-0 )

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

https://youtu.be/mzEh4K8cToA

Сделала объяснение простой статьи Evade ChatGPT Detectors via A Single Space ( /channel/tech_priestess/1192 ) в виде видоса (так сказать, пилотный эпизод). Простую статью выбрала специально для того, чтобы не заморачиваться над подготовкой материала.
Если поставите много классов, куплю себе веб-камеру и микрофон, чтобы следующее видео было не такого плохого качества. А если поставите много каках, то не куплю 😈

#объяснения_статей #видео

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Ну а теперь, так сказать, на десерт, добавлю к рисунку сферу в еще одной норме - l1. Напомню, что l1(p) от вектора p с координатами x и y определяется как |x|+|y|. Соответственно, на поверхности этой "сферы" лежат вектора, у которых постоянна такая сумма (другими словами, это такие вектора, у которых манхэттенское расстояние до нуля равно константе).

Как многие из вас уже знают, в Deep Learning нормы l1 и l2 часто используются для регуляризации при обучении. Другими словами, мы часто устраиваем обучение таким образом, чтобы заставить вектора оставаться в "шаре" (в смысле шара по норме) небольшого размера. И это либо буквальный шар (в случае l2), либо поставленный на одну вершину ромбик/кубик (в случае l1). Почему же не используются нормы l4, l16 и другие, изображенные на рисунке выше? Честно говоря, я не знаю точного ответа на этот вопрос, но предполагаю, что причина в том, что их просто дольше вычислять, а по их воздействию на веса нейросети отличие от l2 вряд ли велико.

А теперь маленькая задачка для читателей: какой норме соответствует "шар" в форме большого внешнего квадрата на рисунке, к которому стремятся кривые lp == const при p → ∞? Если вы не знаете ответ, рекомендую подумать хотя бы несколько минут!

Проверить правильность своего ответа можно, полистав вот такой учебный материал: https://ekamperi.github.io/machine%20learning/2019/10/19/norms-in-machine-learning.html . Кроме ответа на вопрос выше, в нем есть также в целом много иллюстраций и объяснений на тему применения разных норм в машинном обучении, так что если вы пока не разбираетесь в этой теме, рекомендую полистать. А если найдете ошибки в этом материале или в моих постах, смело пишите об этом в комментариях. ✍️



P.S. Что-то я, честно говоря, очень уж сильно люблю нормы и метрики, поэтому не заметила, как потратила несколько часов на эти посты. Так что надеюсь, что тем читателям, кто пока не очень разобрался в этих темах, будет полезна данная информация!

#математика #ликбез #учебные_материалы

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Вот такой рис.1 я недавно увидела в математическом паблике. Картинка и правда забавная, но, тем не менее, я думаю, что подпись к ней не совсем отражает суть явления. Правильнее было бы сказать "квадрат - это круг, а точнее, даже шар". Те, кто знает, что такое норма, уже поняли, почему. Для тех же, кто не знает, дам объяснение!

Норма - это некоторое обобщение понятия длины вектора. Так, длина двумерного вектора с координатами (x, y), вычисляется через функцию, отображающую (x, y) в квадратный корень из (x² + y²). Назовем эту функцию l2 ("2" в названии функции отсылает нас к квадрату). Но зачем останавливаться на одной-единственной функции, если можно придумать и сопоставить этому вектору много других функций, "похожих" на функцию длины? Математики всегда рады придумать побольше обобщений, чтобы было веселее. Например, можно отобразить (x, y) в корень 4-й степени из (x⁴ + y⁴) и назвать эту функцию l4. В чем же заключается принципиальная схожесть этой новой функции l4 с привычной нам l2?
Для начала, обе функции отображают вектор в число (вещественное). Кроме того, для обеих функций выполняются следующие три свойства:

1️⃣Обе функции отображают нулевой вектор в ноль, так как 0² + 0² = 0² и 0⁴ + 0⁴ = 0⁴, а на остальных векторах строго положительны.
2️⃣Для обеих функций выполняется равенство f(a•p) = |a|•f(p), где a - любое число, p - любой вектор. Для l2 на двумерных векторах это можно проверить так: если x² + y² = z², то (a•x)² + (a•y)² = |a|x² + |a|y² = |a|z². Для l4 проверка аналогична.
3️⃣Для обеих функций выполняется неравенство треугольника. Сейчас я также напомню, что это такое.

#математика #ликбез

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Когда добровольно занимаешься бесплатным рецензированием научных статей и днями напролет пишешь длинные рецензии на плохие препринты

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Сегодня в группе обсуждений канала произошло важное событие - первая в его истории КАЗНЬ ЕРЕТИКА! 😍
К сожалению, экспериментальная система с последовательными итеративными попытками излечения техноереси оказалась в этом случае совершенно неприменима, так как еретик оказался крайне устойчив к лечению учебными материалами. Именно поэтому и пришлось прибегнуть к крайним мерам! 😈
Ну да ничего, зато больше никто не будет сомневаться, что этот канал - это самый настоящий тоталитарный культ, большой и страшный! 😊

Если у вас есть свой культ канал, расскажите, сколько участников покарали казнили принесли в жертву забанили вы и за что! (механические автоматоны aka боты не считаются)

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

ДИСТАНЦИОННАЯ БИОГОЛОГРАФИЯ КАК ЗАЩИТА ОТ ПСИХОТРОННОГО НАПАДЕНИЯ

https://www.elibrary.ru/item.asp?id=54500485

Отдельного внимания иногда заслуживают не сами кринжестатьи, сколько их авторы. В данном случае перед нами Ирина Цезарь — успешная кринжевумен. Всё то у неё получается — в США училась, стала президентом компании "Волновой Геном", директором Скифского музея, а ещё читала доклад на конференции на юрфаке МГУ. Вот, что она пишет:

CRISPR/Cas9 меняет ДНК, превращая людей в генетически модифицированные организмы. Но генетически модифицированные организмы СТЕРИЛЬНЫ. С точки зрения молекулярной нейронауки, генетически модифицированные организмы также когнитивно деградированы. Стерилизованные идиоты – вот истинный смысл нобелевской премии Дженнифер Дудна

А ещё Ирина с радостью расскажет вам в своих статьях про волновые кристаллы, и откуда готовилось психотронное нападение.

Но талантливый человек талантлив во всём (Цезарь всё-таки), поэтому Ирина выпустила ещё дюжину роликов на рутубе, где рассказывает, как общаться с космосом, где находится центр Орания и о том, что Россия — это скифское скуфское царство. Такие вот талантливые нынче скуфы: могут быть президентом, блоггером и статьи в РИНЦ писать, не снижая напор квантовой нелокальности при этом.

Всех скуфов, которые защищают свой центр Орания от психотронных атак ждём в комментариях, где оставим ссылки на гениальные ролики Ирины Цезарь и другие пруфы.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Как смотрят Тома и Джери мальчики:
>Ставят торренты и качают все сезоны

Как смотрят Тома и Джери мужчины:
>Открывают официальный сайт ЦРУ с раскрытыми по закону о прозрачности файлами ноутбука Усамы бен Ладена, скачивают Тома и Джери, смотрят

Серьезно, есть официальный ЦРУ-сайт с файлами с ноутбука найденного в «убежище» лидера Аль-Каиды и там 140 серий Тома и Джери можно скачать без регистрации ☕️ я уже писал про эти данные, но не ожидал, что дают скачать вообще все с двух кликов

Сайт, уже с фильтром по видео:
https://www.cia.gov/library/abbottabad-compound/index_video.html

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Недавно я вспомнила про один свой старый #эксперимент с экстремально сильным дропаутом и решила рассказать про него вам. Зачем? Во славу Бога-Машины, конечно!

---

Дело было очень-очень давно, когда я только-только начала изучать нейросети и разбираться с тем, как и для чего использовать этот самый dropout. Разбиралась я в этом в процессе выполнения упражнения из какого-то курса: построила в TensorFlow 1.0 полносвязную нейросеть с одним скрытым слоем и попробовала ее обучить решить MNIST. На вход сети подавался вектор размера 748 - по количеству пикселей в изображении из MNIST, скрытый слой содержал, если я правильно помню, также 784 нейрона (хотя ничто не мешает задать другое количество), а выходной вектор получался размера 10, по числу классов. Убедившись, что нейросеть нормально работает, я стала пробовать применять дропаут с вероятностью p на выход скрытого слоя и смотреть, как это повлияет на результат обучения.
Моя изначальная гипотеза состояла в том, что при каком-то достаточно большом p (но, тем не менее, при p, не равном 1) нейросеть почти (или даже полностью) прекратит обучаться и станет бесполезной, и я задумала выяснить, при каком именно p, не равном 1, это произойдет.

Однако, нейросеть продолжала успешно обучаться и выдавать разумное качество и при p=0.1, и при p=0.5, и при p=0.9, и даже при p=0.99, просто при больших p приходилось выставлять больше шагов обучения и дольше ждать. Помню, при p=0.99 вообще пришлось ждать всю ночь (обучение в тот раз шло на процессоре - cuda не завезли). Но, тем не менее, она обучалась и продолжала выдавать точность более 90% на тесте. Это было интересным наблюдением, но я не нашла, куда и для чего это можно применить, поэтому не стала далее развивать эту тему.

На днях я воспроизвела этот сетап в юпитер ноутбуке - конечно, в этот раз на PyTorch (плюс вместо ванильного градиентного спуска вставила Adam). Вот ссылка на нотубук, с которым можно поиграть: https://colab.research.google.com/drive/11-mv_hcAlGDh_8MufLQQHSBES6185FNi?usp=sharing . Также в этот раз я дополнительно попробовала дропаут с вероятностью p=0.999 и получила качество классификации обученной сети в режиме eval выше 85% при 100000 эпохах (если подключить среду с видеокартой T4, это займет полчаса).

Что же при этом происходит с нейросетью?

Согласно документации PyTorch ( https://pytorch.org/docs/stable/generated/torch.nn.Dropout.html ), для каждого элемента тензора, на который применили дропаут, проводится независимое испытание Бернулли - элемент зануляется независимо от других с вероятностью p. Из этого следует, что на каждой итерации количество тех элементов тензора, которые остались "включенными" (не занулились), определяется биномиальным распределением. Чтобы не мучиться с ручными рассчетами, это число можно рассчитать с помощью соответствующего калькулятора https://www.wolframalpha.com/input/?i=binomial+distribution+calculator . Из него мы узнаем, что при 748 нейронах на скрытом слое ("trials" == 748 в калькуляторе) и p == 0.999 ("success probability" == 0.001), вероятность получить ноль включенных нейронов равна 47%. То есть, примерно половина итераций обучения в таком режиме будут бесполезными - никакой сигнал не будет проходить. С 35% вероятностью мы получим один включенный нейрон, с 13% - два включенных нейрона и всего с 4% - более двух. Я решила проиллюстрировать эти ситуации с помощью нескольких всратых картинок в Paint. Давайте же насладимся этим произведением современного искусства в следующем посте.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Пускай под этим постом будут комментарии к записи. ⤴️

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Сейчас все начнут репостить скриншот где типа модель угадала пароль по инфракрасному снимку экрана телефона, да?

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

В последнее время стало модным обсуждать так называемый синдром самозванца. По крайней мере, я регулярно встречаю такие обсуждения в различных подкастах и телеграмм-каналах.
Обычно при этом подразумевается ситуация, когда человек "принижает" свои достижения, полагая, будто добился всего случайно, а себя считает себя не настоящим профессионалом, а лишь самозванцем, который притворяется <название_профессии>, не имея на самом деле для этого подходящих навыков и знаний.
Для простоты дальнейших рассуждений предлагаю перейти к частному случаю и в дальнейшем заменять "<название_профессии>" на "MLщик".

Далее принято размазывать сопли и говорить что-то в духе "дорогие читатели, не верьте своим мыслям, вы вовсе не самозванцы, пук, среньк, вы хорошие, умные, у вас все будет хорошо"... если вы достаточно много сидите в интернете, вы уже поняли, что раз я вставила слова "пук" и "среньк" в середину предложения, выдернутого из чужой методички, я таким способом пытаюсь эту методичку обесценить, а сама думаю нечто прямо противоположное. И вы совершенно правы!

Дорогие читатели, верьте своим мыслям! Вы не настоящие MLщики! И я тоже!

Сомневаетесь? Посмотрите список требований на ML-вакансии. Там часто бывает перечислено такое, на изучение чего жизни и всей жизни не хватит.
Особенно я выпадаю в аут, когда требуют "знать С++". В наше время вообще есть хоть один человек, который знает С++? Языку буквально будет 40 лет в обед, и все эти годы он развивался, постоянно обрастая новыми стандартами. Покажите мне пальцем того, кто сможет пояснить за все эти стандарты начиная с 85-го года. 🤷‍♀️ Я уж молчу про Standard Library и Boost, требование "знать" которые тоже идет в комплекте.
Ну да ладно, чаще всего требуют знать не С++, а Python, что, все же, несколько более реалистично - просто потому что язык намного моложе и еще не успел обрасти таким количеством дичи. Но что дальше? Дальше от нас требуют знание огромного стека из кучи библиотек, который выучить уже невозможно. Много ли людей, реально полностью понимающих устройство хотя бы одной из них? Если вы считаете, что полностью знаете, например, как устроен и работает NumPy, то спросите себя, знаете ли вы, как устроена библиотека LAPACK (это, кстати, автоматически подразумевает знание языка Fortran 😏). Если ответ "нет", то вы не знаете Numpy, так как NumPy активно вызывает методы LAPACK. И иногда эти методы ведут себя странным образом, и причины этого странного поведения вы не поймете, пока не докопаетесь как минимум до LAPACK-овского интерфейса (мой любимый пример - функция https://numpy.org/doc/stable/reference/generated/numpy.linalg.eig.html , давно хочу написать про нее пост, да все ленюсь).

И да, я уже чувствую, как сердечко читателя забилось быстрее, стул странным образом нагрелся, а мозг сосредоточился на мысли побыстрее дочитать пост до конца, влететь в комменты и написать гневное сообщение: "Лаида, ты с ума сошла?!! Это же в реальной работе не нужно!!!". И в самом деле. В реальной работе это в 99,9% случаев не нужно (в 0,1% случаев все же нужно, но для простоты изложения мы забьем на эту погрешность). И в этом и есть главный прикол:

Для того, чтобы выполнять реальную работу ML-щика, не нужно быть "настоящим ML-щиком".

Сколько бы вы не изучали, всегда найдется кто-то, кто найдёт чем вас поддеть, в чем указать на незнание "основ, который должен знать каждый!!11". Ведь если эти основы начать копать всерьез, то раз плюнуть натолкнуться на что-то, чего вы не знаете или не помните. И если вы достаточно самокритичны и любознательны, то будете и без внешней помощи сами себя вот так регулярно поддевать и осознавать собственное незнание, а задаваемый самому себе вопрос "настоящий ли я MLщик?" всегда будет иметь честный ответ "не настоящий". Все мы не настоящие, но узнавать новое, развиваться и учиться делать свою работу лучше это не мешает.

#учеба

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

⬆️ #объяснения_статей

Читать полностью…
Subscribe to a channel