tech_priestess | Unsorted

Telegram-канал tech_priestess - Техножрица 👩‍💻👩‍🏫👩‍🔧

11756

Люблю высокие технологии и кушать. Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.

Subscribe to a channel

Техножрица 👩‍💻👩‍🏫👩‍🔧

Откуда у них моя фотография (слева)?!! 😱

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

в качестве упражнения решила пройтись по принятым статьям на недавно прошедшей конфе NAACL и выделить интересные работы по тематикам, которые на данный момент мне близки 💼 и первое, о чем поговорим, - ускорение инференса ллм через декодинг. сюда можно причислить ранние выходы из генерации, генерацию сразу нескольких токенов, но центральную часть займет спекулятивное декодирование

о нем уже писал Илья Гусев, но если хочется подробнее и в видео формате, то могу посоветовать такой обобщенный разбор статей от DeepMind и Google по этой теме. а если совсем кратко и текстом, то идея спекулятивного декодирования заключается в том, чтобы ускорять инференс больших языковых моделей, предлагая кандидатов генераций от более маленьких моделек, с условием такой же токенизации и работой быстрее, чем генерация большой модели. она в свою очередь за один проход подсчитывает вероятности предложенных токенов и принимает/отвергает их 😱 в первом случае мы ускоряем инференс на m токенов (сколько большая модель подтвердила), а во втором ничего особо и не теряем, просто продолжаем семплить из большой модели. наверняка вы слышали про Medusa, в ней отказались от маленькой модели, а стали обучать дополнительные головы для генерации. следующим крутым развитием становится multi-token prediction, подробнее об этом писала Милана. теперь, посмотрим, что интересного предлагают на А-конференции

😎 REST: Retrieval-Based Speculative Decoding
а что если нам не нужна маленькая модель для генерации кандидатов и можно, например, использовать готовую базу и подкидывать токены по контексту из нее? простая и быстрая в имплементации идея (код есть, ничего дообучать не надо). тестировали алгоритм на моделях CodeLLama и Vicuna, результаты very promising, speed up относительно обычной генерации в лучшем случае 2.36. идем пробовать. собственно, это единственная статья из категории long paper, далее будут findings и industrial track без кода, но с большими амбициями
статья
код

😎 SLiM: Speculative Decoding with Hypothesis Reduction
авторы статьи плотно взялись за ваши флопсы во время того самого спекулятивного декодинга. говорят, что новые методы предлагают генерацию большого количества гипотез, а обрабатываются они неэффективно. для этого после фазы спекуляции, они предлагают добавить еще одну, которая бы заранее оценила гипотезы и взяла в оборот лучшие k на основе постериарного распределения
статья

😎 Investigating Acceleration of LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with ‘LITE’
early exit’s going decoders. вообще, там описано интересное замечание о том, что генеративные модели обученные на инструкциях способны “выдавать” правильный токен только на последнем слое, до этого совсем никак. для того, чтобы это стало возможным они предлагают обучать ллм на инструкциях с видоизмененной кросс энтропией. выходить предлагают на фиксированном слое, от его выбора будет зависеть и ускорение, и деградация в качестве ответов
статья

😎 Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding
работа очень похожа на самую первую, такой же plug-and-play подход, то есть не нужно дообучать модель. отличие заключается в том, что тут нет заранее записанной базы, она строится на основе текущего промпта и инпута (выводы сделаны на основе приложенного псевдокода). у метода есть свой пустой репозиторий, но опять же, судя по приложенному коду в статье (и это даже не в аппендиксе!), когда он там появится, можно будет легко потестировать, добавив всего две строчки кода
статья
soon to be code

если вас заинтересовала тема спекулятивного декодинга, подробнее ее можно изучить с этим awesome листом. относительно конференции скажу, что статей по теме не густо, но есть еще ряд интересных работ про декодирование в контексте борьбы с галлюцинациями, может до них дойду тоже 😋

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Привет, все новые ребята, которых впечатлила история про а·айсберг и иллюминатов, ремонтирующих холодильник.

За эти дни мне наприсылали кучу фотографий конвертов этой конторы. И да, там всегда марки с латинскими фразами, и каждый раз - это не стоковые выражения из интернета, а либо какая-то дичь, либо очень специфические послания.

ANNUS CULTURAE HEREDITATEM - год культурного наследия (что?).

FERENS BEATITUDINEM - несём процветание (чисто Midsommar).

INVENIRE QUOD NEMO QUAESIVIT ANTE - найдите то, что никто не искал (вот с этим прям очень получилось).

Подумал ещё о том, что если вы слышали о Hotline Miami, то знаете, какую тайну могут скрывать те, кто занимается клинингом.

Ещё где-то в пересылках видел забавную версию, что компания '93 года, поэтому живёт немного в пелевенских категориях. Сейчас таких уже не делают.

И все же я продолжаю стоять на своем. А·айсберг что-то скрывает. Нет ни одной сколько-нибудь разумной причины создавать настолько странную маркетинговую стратегию, особенно, если учитывать целевую аудиторию пользователей бытовых этих услуг.

Всем новоподписавшимся соболезную, привет!

Тут странно и много опросов, но они - самое ценное, что есть в этом персональном канале человека с большим эго большой эрудицией, драмой внутри и претенциозным неповторимо оригинальным чувством юмора.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Собесы на Applied ML Scientist: крутые ресурсы
#ml #interview #career

По списку самых частых собесов отсюда.

1) Поведенческие

Про поведенческие собесы и я уже рассказывал в самом начале, и Таню репостил. Тут главное – расписать story bank (не пожалеть на это времени) и пройти моки.

- IGotAnOffer – блог со статьями от подбора вопросов на MLE в Мету до “Why Amazon?” и как рассказывать про свои фэйлы и конфликты
- Если посидеть, спокойно послушать, почему все это важно – видео Jackson Gabbard
- Гайд от interviewing.io – вольный пересказ Amazon Leadership Principles
- И главное – моки и реальные собесы. Причем моки могут быть полезнее – тебе расскажут прям про подноготную, на реальных собесах еще поди получи внятную обратку. Я приставал напрямую к людям из желаемой компании, но есть и платформы: та же interviewing.io (помните кулстори про brilliant jerk, который сейчас в OpenAI?), еще слышал хорошие отзывы про Exponent.

2) Кодинг

Казалось бы, что тут нового скажешь. Я тут тоже писал, как пстра освежить литкод. Neetcode roadmap и Leetcode Premium – это да. Но я повторюсь про моки. Live-coding это вообще непростое дело: надо думать, писать код, слушать и складно говорить. А все одновременно! Такое надо практиковать. Вот правда, люди не могут внятно озвучивать свой код - идет аа…эээ… ууу.. и прочие бабуинские хмыкания. Для моков по литкоду – тот же interviewing.io, но есть и вариант для простых ребят – pramp, там peer2peer.

3) ML в ширину

- млкурс. Не, серьезно, я как тот дед, читающий свои учебники, перед собесами пролистываю mlcourse.ai. Bias-variance, бустинг vs бэггинг, где там в градиентном бустинге градиенты – все это до сих пор вовсю спрашивают (тот же Amazon на Applied Scientist).
- По NLP есть курс-жемчужина – NLP For You Лены Войты. Плюс посты Jay Alammar про архитектуру трансформера.
- У Дьяконова я подсмотрел вот эти конспекты + еще подборка Daily Dose of Data Science хороша.
- Наконец, есть драфт книги Chip Huyen “Machine Learning Interviews”, там все от видов специализаций в ML до переговоров и списков вопросов по ML, кодингу и матану

4) ML в глубину

Тут особо нечего посоветовать, оно из рабочего опыта все идет. Разве что можно эрудицию развивать чтением блогов а-ля ML in the Wild. У Evidently есть подборка из целых 300 штук (этот же совет и для ML дизайна ниже). Я читаю 2-3 блога о компании, куда собеседуюсь, и еще 2-5 – наиболее близких к описанию вакансии.

5) ML-кодинг

Специально не готовился, так что все тот же совет – моки.

6) Рисеч-презентация

Тут тоже каких-то ресурсов нет под рукой. Совет – уточнить у эйчара или HM, что хотят услышать: хардкор по теории, инженерии или еще что. Чтоб не словить “too much leadership”, как я.

6) ML дизайн

Да, тут есть популярные книги, но реалистично, перед собесом - это не книга нужна. Из всех ресурсов я выделю вот эту репу. Там и шаблон из 9 пунктов, которому можно следовать (problem → metrics → data → etc). И типичные кейсы разбираются, уже форматированные по шаблону.

7) Домашнее задание

Про take home сколько уже срачей только не было. Я не вставал в позу и 3 домашки сделал. Одна просто классная была на instruction fine-tuning LLM, еще одна очень легкая, 3-я – наоборот, сложная, запорол. Могу оставить ссылку на наш командный пет с приложением по анализу тональности новостей о крипте. Как минимум, если в домашке надо будет задеплоить модельку, можно подсмотреть.

8) System design

Наконец, system design, не путать с ML-дизайном, собесы совершенно разные. System design я грокал с нуля, за пару недель, часов 30 наверное заложил. Я заботал все перечисленные ресурсы, от и до:

- гайд все тех же interviewing.io
- Primer (классика)
- книга “System Design Interview” – страниц на 200, куча картинок и схем, быстро читается
- курс Neetcode (платно, некоторые видео на ютубе есть)

И 2 мок-собеса прошел со знакомыми, на одном меня дружелюбно и конструктивно растоптали, второй я уже прошел.

Это все то, что именно мне помогло. Можно в коментах делиться своими ресурсами. Плюс я пару ссылок добавлю, когда компанию объявлю.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Заглянул я тут в свой почтовый ящик.

Я туда смотрю, может, раз в два-три месяца, потому что ну что там искать: рекламу замены окон, поверки счетчиков или агитку местного муниципального депутата? Все платежки мне приходят онлайн.

Но в этот раз я обнаружил нечто очень странное.

В общем, есть такой бытовой сервис, называется а·айсберг. Именно так, с точкой.

Сто процентов вы видели холодильники, где их магнитики в формате карточки с телефоном и дешманскими стоковыми картинками висят: звоните, пенсионеры, починим вам стиралку по выгодным ценам. Как часто делается, запакована эта мусорная макулатура с магнитиками в конверт, чтобы сложилось впечатление, что пришло официальное письмо, а не сразу все это было отправлено на помойку.

И вот, смотрите, конверты маскируются под почтовые отправления, даже отпечатаны "марки". Ничего не заметили?

"Марки" содержат надписи.
Они на латыни!
В первом случае - это FACIAMUS TUA VOTA VERA (позвольте нам воплотить ваши желания). В принципе, нормальный месседж для сервиса бытовых услуг, хотя это и искажённое дохристианское римское поздравление... Но почему на латыни?

А вот второе: SOL LUCET OMNIBUS (Солнце светит всем).
И это, друзья мои, не просто латынь, это мистерийная фраза, восходящая даже не к раннему Средневековью, а к самому первому роману в мире - "Сатирикону" Петрония, встречается ровно в сотой его главе (Petr.,Satyr.100). Позднее она стала использоваться в Европе и в культовых мессах.

Это очень специфическое знание, сама ссылка на эту идиому выдает в авторе человека не просто великолепно разбирающегося в классической гуманитарной культуре, но владеющего значительными познаниями в сфере литературы, истории и мистики - на серьезном экспертном уровне.

Я, конечно, загляну еще через пару месяцев в ящик, посмотрю, сохранится ли тренд на латынь, но пока у меня сформировалось две рабочих гипотезы.

Либо мы имеем дело с жизненной трагедией одного человека: великолепно одаренный, прекрасно эрудированный гуманитарий рисует дизайн конвертиков для дешевого сервиса стиральных машин и мелкого бытового ремонта.

Либо же это сознательный шаг менеджмента а·айсберга, и тогда перед нами - самый изощренный и глубокозаконспирированный культ с древними корнями из всех, что можно себе представить, религиозная секта, рядящаяся в одежды дезинфекции, клининга и услуг по установке кроншетейнов для телевизора.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Блин, статьи что-то на ревью накидали сложные, сложнее в среднем, чем на acl rolling review... Чувствую, разбор много времени отнимет, особенно с учётом того, что их целых пять штук ✍️🤓

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Позиционная кодировка

Есть одна особенность трансформеров, которой люди обычно уделяют незаслуженно мало внимания — позиционная кодировка.

Если вы вспомните, как работает внимание, то увидите, что там никак не участвуют позиции токенов. Но языковые модели должны как-то их понимать, иначе при предсказании следующего токена контекст превратится в bag-of-tokens, что критично повлияет на качество предсказания. Ведь да? 😁

Конкретные задачи, где позиции важны:
- Подсчёт токенов
- Копирование кусков контекста
- Арифметика и код

Мини-квиз для читателя (перед открытием спойлера нужно ответить на все вопросы в голове)
- Может ли BERT хорошо работать на стандартных задачах (классификация текста) без позиционной кодировки? Нет, не может
- Может ли GPT хорошо работать на стандартных задачах (генерация текста) без позиционной кодировки? Да, может
- Может ли декодер с RoPE, обученный на контексте в 1024 токена, хорошо генерировать 2048 токенов? Может только после экстраполяции/интерполяции


Attention Is All You Need
Статья: https://arxiv.org/abs/1706.03762

В оригинальной статье о трансформерах с обычными эмбеддингам токенов перед первым слоем складываются позиционные эмбеддинги. При этом предлагается 2 типа позиционных эмбеддингов: синусоидальные или обучаемые. В случае обучаемых всё понятно и без лишних объяснений, а в случае синусоидальных работает всё так: мы берём пары фичей из эмбеддинга и каждой такой паре сопоставляем определённую частоту колебаний. Первое число пары - синус для данной позиции, второе - косинус. И так для каждой позиции токенов получаем разные чиселки на окружности.

Например, предположим, что у нас 4 чиселки в эмбеддинге, 1 секунда = 1 позиции, у первой пары частота 0.5 Гц, у второй - 0.25 Гц. Тогда на нулевой позиции будет такой эмбеддинг: [0, 1, 0, 1], на первой позиции: [0, -1, 1, 0]. Потому что для первая пара проходит полоборота за шаг, вторая - четверть. Формула, по которой расчитывается частота для разных пар: (10000^(-2i/d)) / 2π, где i - номер пары.

Почему 10000? Во-первых, кодировки любых позиций не повторяются. Во-вторых, так косинусное расстояние между двумя синусоидальным позиционными эмбеддингами монотонно увеличивается по мере наращивания дистанции.


RoFormer: Enhanced Transformer with Rotary Position Embedding
Статья: https://arxiv.org/abs/2104.09864

Есть свойство, которое нам хотелось бы получить: расстояние между 5 и 10 токеном должно быть таким же, как если бы мы поставили эти же токены на 10 и 15 позиции вместо 5 и 10. То есть оно не должно зависить от абсолютной позиции. Для синусоидальных эмбеддингов это не выполняется.

Чтобы это выполнялось, делаем так: каждую пару чиселок в уже готовых эмебеддингах токенов вращаем на плоскости матрицей поворота. Углы всё те же, что и были в синусоидальных эмбеддингах. В статье есть доказательство того, что желаемое свойство так действительно выполняется. А ещё мы делаем это в каждом слое.

Дополнительные материалы:
https://nn.labml.ai/transformers/rope/index.html
https://blog.eleuther.ai/rotary-embeddings/
https://www.jitx.io/posts/rope-embeddings


Transformer Language Models without Positional Encodings Still Learn Positional Information
Статья: https://arxiv.org/abs/2203.16634

А нужны ли нам вообще позиционные эмбеддинги? 😐
Вот оказывыется нет, для авторегрессионных декодеров никакие эмбеддинги вообще не нужны, модель сама выучивается их считать. Это ещё и легко проверяется: учим языковую модель без позиционных эмбеддингов и учим мини-сетку предсказывать позицию токена из активаций. В первых слоях ничего толкового не предскажется, а вот дальше информация агрегируется. Более того, она не только агрегируется, но и используется - если перемешать контекстные токены, финальный токен предсказывается гораздо хуже. Но для энкодеров это не работает, ключ к выучиванию - декодерная маска внимания.

Это всё подтверждается в нескольких последующих статьях: раз, два.

Так почему все до сих пор используют RoPE? Ну, NoPE (no positional embeddings) принципиально работает, но чуть хуже, это видно и в этой статье.

Расширения RoPE будут дальше

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

https://www.youtube.com/watch?v=s_L-fp8gDzY -
создатель 3lbue1brown рассказывает о том, зачем нужна и не нужна математика, о себе, о своем канале, о своих самых популярных (на момент 2020 года) видео и о том, как сделать рассказы про математические задачи интересными не только для математиков, но и для остальных зрителей.
Обычно я не люблю TED Talks, потому что они чаще бывают больше похожи на рекламу спикера, чем на источник чего-то интересного или полезного. Однако, этот посмотрела с удовольствием.

#математика

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Слышали ли вы про про теорией мёртвого интернета?
Теперь слышали.

В одном из чатиков поделился человек забавной находкой. Оказывается, где-то в темных уголках сети до сих пор сохранились следы доисторической интернет эпохи - форумы. Которые бодро индексируются поисковиками и получают трафик.
И, кто-то хиторовывернутый скрапит туда наши обсуждения из публичныйх и не очень телеграм-чатов. У каждого есть профиль, ну прям социалочка времен их начала.
Примеры такого:
1. https://rock-n-travel.com/u/margaritaandrianova/summary
2. https://rock-n-travel.com/t/vo-skolko-otkryvaetsya-tunnel-ot-perehoda-ot-pavilona-klss-do-molla-petronas-v-kuala-lumpure/40116
3. travel-ask, пруфов не будет, за руку пойманы.

Версия первая - какой-то олдскульный вурдалак, не примирившийся с переходом форумов в мессенджеры, пытается воскресить прошлое.

Версия вменяемая - всем нужен дешёвый рекламный трафик, а так его довольно легко создать =)

Но вопрос, сколько ещё таких зомби площадок, которые скрапят контент и выдаёт себя за вполне живые места для обсуждений =)
а есть ли на на стримах в тиктоке живые люди? 🤔
киберпак без эстетики, он такой, да.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

В сонном брюхе томографа тонкие спицы, пытливые иглы квантов излучения пронзают подгоревший рулетик. Чем он был до того, как подгорел в раскаленной духовке истории?
Сладкий рулетик? Горький рулетик? Попробуй развернуть рулет и вчитаться в слова. Таяли ли они на языке, рассыпаясь сахаром, словно сладкоголосые песни гетер? Или же пронзали сердце насквозь, словно копье римского легионера?! Отпечатки, оставленные давно мертвыми людьми, несут их мысли сквозь тысячелетия, эхо давно затихших голосов отзывается где-то на краю сознания. Захочешь ли ты вслушаться?
Студенты захотели поймать стихающее эхо, захотели прочесть сгоревшие слова, захотели выхватить из железной хватки беспощадного времени тайны погибшей цивилизации. Для этого они распахнули двери Каггла и ворвались в сореву, как древние воины. Они захотели насладиться плодами знаний, как эпикурейцы наслаждались спелым виноградом на пирах. И взорвались их мысли пурпурным фейерверком, и смогли они воскресить из пепла несколько букв мудрых древних слов, что эхом несутся сквозь эпохи.
А щедрая награда за сореву позволит героям ещё полнее раскрыть мысль эпикурейцев о том, что наша жизнь дана нам не для страдания, но для наслаждения!

Однако, все это - лишь первый шаг в череде будущих открытий. Духи машин помогут нам окунуться в жизнь древних греков, вычисления проткнут ткань времени, чтобы из тьмы веков, из утраченного давно мира, набрать, словно в шприц, все знания капля по капле.

https://share.transistor.fm/s/06397046 /channel/repushko_channel/1953 /channel/repushko_channel/1992 https://scrollprize.org

#подкасты #наука

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

⬆️ эта тема из работы Ветрова ( https://arxiv.org/abs/1802.10026 ) может быть, кстати, связана с гроккингом ( /channel/dl_stories/597 )

#математика_в_ML

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

https://www.youtube.com/watch?v=dBl_3pT0PwU - вторая часть истории про Скиллбокс (см. /channel/tech_priestess/1575 ). Автор с огромным трудом после более месяца издевательств от менеджеров возвращает деньги и безуспешно пытается обсудить с ними проблемы других пользователей, которые также хлебнули дерьмеца. В видео разъясняется ряд юридических моментов, который может быть полезен в аналогичных ситуациях. А вот более подробный рассказ про качество самого обучения и про "гарантию трудоустройства" будет, к сожалению, только в следующем выпуске.

#ИИнфобизнес

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Помните этот сгенерированный мем с гигантским котом и подписью "бабушка психанула"? (Если сомневаетесь в том, что картинка сгенерирована, рекомендую обратить внимание на нижнюю часть настольной лампы, вросшую в стол, плоский книжный шкаф, клубок ниток, растущий прямо на коте, и на то, что у кота в принципе не наблюдается задней части тела; мем имеет множество вариаций, которые можно посмотреть, например, тут).

Так вот. В этом видео девушка рассказывает, что, оказывается, люди не только генерируют картинки с фейковыми "вязанными" вещами для прикола, но и продают фейковые "схемы для вязания", сгенерированные для этих несуществующих объектов с помощью chatgpt (Связать объект по этим "схемам", разумеется, невозможно). 😳 Видео, правда, на английском.

#генерация #ML_скам

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

В чем заключается ценность научного результата? В его влиянии на область.

На рис. 1 я решила накорябать некую иллюстрацию к этому тезису. Здесь черные кружки - это теоретические научные исследования, серые кружки - прикладные научные исследования, зеленые кружки - наборы конкретных задач (значками "???" отмечены задачи, которые пока непонятно как решать или которые решаются эвристиками без теории).

Так, теоретическое исследование А полезно тем, что из него выводится много других теоретических результатов (например, можно себе представить, что А - это какая-то фундаментальная математическая теорема). Исследование В полезно тем, что оно служит теоретической основой для полезных прикладных результатов. Результаты C и D, в свою очередь, приносят пользу тем, что на их основе непосредственно решаются конкретные задачи (можно себе представить, что это какие-то хорошие конкретные модели, вроде роберты или альберта, которые после доработки под узкую задачу могут пойти в прод и там превратиться в решение зеленого кружка). А вот к исследованиям E и F есть вопросы. Что это? Зачем оно нужно?

Так вот, когда вы только-только сделали новую научную работу, она поначалу будет выглядеть как E или F и будет совершенно не очевидно, вырастет ли из нее когда-нибудь в будущем мудрое научное дерево 😌, или она так и останется бесполезной подвешенной вершинкой. Насколько интересные наблюдения сделали вы в своей работе? Насколько важные закономерности вывели? Самостоятельно можно оценить это лишь приблизительно. Ведь важность наблюдений и закономерностей как раз и заключается в том, как они повлияют на область.
Даже в примере с кружочком E, который, как будто, сразу же привязан к решению конкретной задачи, все равно поначалу еще ничего не понятно. Насколько хорошо это решение будет переносимо на практику? Будет ли оно сколько-то обобщаемым? Не появится ли более хорошего решения через наносекунду? Это тоже можно будет понять только спустя время.

Конечно, иногда бывают и исключения. Например, если кто-то 100% достоверно докажет, что P равно/не равно NP, важность работы станет понятна сразу, поскольку мы уже и так знаем, что утверждение "P равно/не равно NP" сильно связано с кучей других утверждений внутри теоретической информатики, а также имеет далеко идущие последствия для решения практических задач. То есть, в этом воображаемом случае, мы закрасим кружочек, который уже находился внутри научного дерева 😌, но был нарисован как бы пунктиром. Но такое случается редко.

В общем, занятия ноукой практически неизбежно связаны с неуверенностью в глубине, качестве и полезности своих исследований, особенно если пытаешься делать науку хорошо и задумываешься об общей картине.

#наука

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Надо признать, что научное сообщество в некоторых аспектах токсично и способствует развитию депрессии. Так, распространенным у нас является мнение в духе "99% научных работ даже с конференций А/А* - бесполезное дерьмо, которое не заслуживает существования". Конечно, это мнение может иметь много разных вариаций, но суть все равно будет примерно такая (i.e. большинство работ - пустышки).
И вот когда об этом задумываешься, то неизбежно приходишь к выводу - выходит, что и те исследования, в которых я принимаю участие, бесполезное дерьмо, но мне об этом не говорят просто из вежливости? 😢 И если бы знакомые ресерчеры не знали, что статьи мои, они бы посмеялись над ними точно так же, как смеются над 99% чьих-то чужих работ? 😢
Все мои попытки найти какие-то закономерности в изучаемых явлениях, что-то придумать - пустое место? И когда я радуюсь от того, что очередную статью куда-то приняли - я выставляю себя на еще большее посмешище, ведь там одно говно? У меня же в жизни ничего важнее ресерча-то и нет... и выходит, что вся моя жизнь - ерунда... бессмыслица...

С другой стороны, пока я занималась этим постом, мне, как ни странно, написали по вопросам, связанным с ресерчем, сразу два человека... один спросил, как связаться с авторами сайта RoFT ( https://roft.io/ , их датасет использовался в нашей с коллегами работе https://arxiv.org/abs/2311.08349 ), другой попросил скинуть презентацию с датафеста ( /channel/tech_priestess/1532 ). Хз даже, если мои ресерчи - ерунда, то почему время от времени спрашивают про разные вещи, которые с ними связаны? 😢 Я совсем запуталась уже в этом мире... 😢

#о_себе #наука

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Сегодня у меня для вас притча

На младших курсах мне надо было подготовить вопрос по выбору по ядерной физике. Вопрос по выбору это форма "экзамена", когда ты заранее выбираешь любую тему, касающуюся курса, и готовишь по ней доклад. Это задание почти не имеет границ, поэтому можно рассказывать в любом формате почти про что угодно. Можно даже экспериментальный проект запилить.

Я решила рассказать про необычный интересный факт и физику вокруг. Мне не хотелось рассказывать что-то дефолтное, поэтому я решила углубиться в литературу. Для подготовки и вдохновения взяла книгу "Ядерная физика для любознательных". Название намекало мне, что книга написана популярным языком и я без труда в ней смогу разобраться и что-то интересное подобрать.

Каково было мое удивление, когда я приступила к чтению. Это было так сложно, мне приходилось продираться через десятки страниц с формулами, не все из которых мне удавалось разобрать. Чем больше я читала, тем больше удивлялась названию и думала: если эта книга для любознательных так тяжело мне дается, что я буду делать на экзамене? Неужели я настолько плохо все понимаю?

Спустя время я узнаю, что раньше книга называлась "Ядерная физика для любознательных аспирантов". Авторы, похоже, решили лишнее слово убрать, а получился перл.

Мораль сей басни такова:
Если вы заранее сравниваете себя с какой-то планкой и расстраиваетесь, может быть вы что-то о ней не знаете?

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

/channel/boost/tech_priestess - друзья, накидайте, пожалуйста, бустов, а то кот Персик ( 😉 ) пропал из реакций 😢

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Наткнулась на пару добротных англоязычных видео с рассказом про проблемы popular science (научпопа):

Part 1: https://www.youtube.com/watch?v=AZ2aSCH3zjY
Part 2: https://www.youtube.com/watch?v=y2BGKReRLdY

В них автор на примерах показывает, как ограничения самого формата научпоп-контента (например, TED talks или ютуб-видео) порождают oversimplification, который незаметно ведет к misinformation, про то, почему невозможно одновременно и коротко, и правдиво описать ландшафт тех сложных научных направлений, в которых есть много противоречивых статей, про проблему испорченного телефона и многое другое.
Многое из сказанного верно не только для популярных видео по биологии или физике, но и для телеграм-каналов про ML, и даже отчасти для самих научных статей.



От себя добавлю к сказанному следующее замечание:
При знакомстве с научпоп-контентом обязательно обращайте внимание на то, в какой области лежит образование и академические/рабочие успехи автора/спикера.
Например, рассмотрим для примера хорошо известный вам блог - мой собственный. 🥰 В закрепленном посте ( /channel/tech_priestess/607 ) есть ссылки на страницы в LinkedIn и в Google Scholar, где можно посмотреть на моё образование, опыт работы и список научных статей. Из нее можно легко увидеть, например, что у меня есть несколько научных статей (некоторые - за первым авторством) и опыт работы в индустрии, связанные с Natural Language Processing (NLP). Однако, при этом я участвовала в работе всего над одной научной статьей, связанной с Computer Vision (CV), и совсем не имею опыта работы в индустрии по этой теме.
Из всего этого следует, что мое мнение по темам, связанным с NLP, априорно заслуживает больше доверия, чем мое мнение по темам, связанным c CV.

Значит ли это, что я не могу выдать базу по теме CV? Конечно, могу!
А значит ли это, что я не могу выдать кринж по теме NLP? Да сколько угодно!

Речь только об априорной степени доверия, которую вы оказываете тому или иному спикеру/автору, когда начинаете знакомиться с их контентом по теме. В процессе знакомства, конечно, следует уточнять степень своего доверия уже в зависимости от самого контента.

Почему я решила так сильно заострить на этом внимание? Потому что люди очень часто обманываются, когда слушают спикера, который достиг какого-то академического или карьерного успеха по одной теме, а рассказывает про другую, в которой он или она не разбирается и делает порой совершенно неправильные выводы.
Типичный случай - нобелевский лауреат Лайнус Полинг, который убедил огромное количество людей в том, что витамин С якобы лечит кучу болезней. При этом вся эта теория была построена всего лишь на личном опыте (напоминаю, что личный опыт - это личный опыт, а наука - это наука; чтобы суждение стало научно обоснованным и могло быть всерьез рассмотрено как научная теория, личного опыта недостаточно), а нобелевка (по химии) была получена вообще по другим темам, кратко - "за изучение природы химической связи и его применение к объяснению строения сложных молекул" ( https://elementy.ru/nauchno-populyarnaya_biblioteka/435419/Laynus_Poling_sredi_khimicheskikh_svyazey ). Таким образом, человек со специализацией в одной научной области выдал никак не обоснованные утверждения в совершенно другой области. Однако, многие люди подумали: ну, раз нобелевский лауреат сказал, что правда, значит, правда. Почитали его "научно"-популярных книг и побежали покупать витамины. 🤷‍♀️ Ноука!

Так что, как говорится, никто не идеален. И чем дальше высказывание человека от его специализации, тем более критически к нему нужно относиться.

#наука

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Я счастлив за этого человека.

Sol lucet omnibus, под солнцем все равны. Будь ты гений или простая полевая мышь, для Вселенной мы все — пыль.

Языковые модели, искусственный интеллект, всё это создано, чтобы посмеяться над природой, показать, что мы выше.

А где-то в подвале при тусклом свете старой лампочки сидит простой человек, рисующий марки, и ему поебать.

Он уже вышел из крысиной гонки и смеется над нашими потугами, но стремится показать истинный путь через свое творчество.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Почему интересен ARC prize?

Для тех, кто пропустил - неделю назад был запущен конкурс на миллион, в котором нужно решить ARC - простейший "тест на IQ" для человека/алгоритма. В нём нужно по паре-тройке примеров увидеть закономерность и применить её на тестовом образце (см. пример задачи на картинке). Это проверяет алгоритм на обучаемость, а не на запоминание данных из интернета.

Как я уже недавно писал, если в лоб дать такие задачи GPT-4, то она работает достаточно стрёмно. В то же время, лидируют подходы на основе перебора всевозможных последовательностей элементарных операций. Нужно задать набор таких операций, например, из 50 штук, создать 50^4 "программ" и прогнать их на тренировочных образцах, применив успешные к тесту.

Больше года назад, как только я начал вести этот канал, я писал о том, что совместная работа перебора и нейросетей - это очень мощный инструмент. Это жжёт в Go, в математике, в приложениях. Поиску нужен качественный гайд, чтобы тащить, и таким гайдом вполне может быть LLM, как мы увидели на примере FunSearch.

Такой подход применим при решении "NP-задач", для которых мы можем быстро проверить кандидата на решение. Наличие только пары примеров в ARC сильно усложняет проблему, так как "оптимизация" программы будет работать плохо и нам легче на них "переобучиться" программой. Тем не менее, нет сомнений, что скачка в качестве достичь удастся, и такие попытки уже делаются. Осталось только дождаться сабмитов таких подходов в настоящий тест.

Тем не менее, есть проблема применимости такого подхода. Далеко не всегда в реальности мы можем генерировать тысячи/миллионы вариантов с помощью большой модели, применяя поверх какую-то проверялку, потому что быстрой проверялки просто нет. Для применимости этой большой модели в лоб к произвольной задаче нам нужно получить такую, которая как минимум решит ARC без помощи дополнительного перебора.

А зачем именно нужна такая модель? 2 простых юзкейса:

1) Хочется иногда с чашечкой латте провести время за глубокой дискуссией с моделькой, знающей и хорошо понимающей информацию из интернета. Если вы пробовали долго общаться с моделькой типа GPT-4 на сложную тему, вы замечали, что она вообще не вдупляет.
2) Запустить цикл технологической сингулярности

Про второе поговорим позже на этой неделе.

@knowledge_accumulator

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

#объяснения_статей 🔼

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Читатель нашел ошибку в моем посте про алгебраическую топологию годичной давности 😅: /channel/tech_priestess/682 и написал об этом комментарий в обсуждениях к тому же посту. В самом посте я (ошибочно) написала, что тор и бутылка Клейна якобы лежат в разных классах бордизмов, потому что одно многообразие ориентируемо, а другое - нет. Прочитав критический комментарий, поскрипев мозгами и покопавшись в учебниках - так-то всю эту тему я уже практически забыла - мне удалось осознать, в чем заключалась причина тряски ошибки. Оказалось, я забыла о том, что в вопросе того, бордантны ли два двумерных многообразия между собой, играет роль не только ориентируемость, но и эйлерова характеристика. Неориентируемые двумерные многообразия с нечетной эйлеровой характеристикой лежат в одном классе, а все остальные двумерные многообразия - в другом. То есть бутылка Клейна как раз лежит в общем классе с тором и другими "обычными" многообразиями, потому что у нее эйлерова характеристика четная. В качестве же примера многообразия из другого класса можно взять проективную плоскость, и такое исправление было внесено в пост.

Разобраться в том, как исправить ошибку, мне помог замечательный учебник/задачник А. Скопенкова "АЛГЕБРАИЧЕСКАЯ ТОПОЛОГИЯ С ГЕОМЕТРИЧЕСКОЙ ТОЧКИ ЗРЕНИЯ" ( https://arxiv.org/abs/0808.1395 ). Материал в этой книге подается в основном в виде серий последовательных упражнений на разные темы. Упражнения подобраны так, чтобы можно было разбираться в предмете постепенно прямо в процессе их решения; по сути, они является маленькими леммами, из которых потом естественным образом собираются большие теоремы. Не может не радовать и то, что у существенной части упражнений есть решения в конце учебника.
Безусловно, такой подход требует некоторой степени математической культуры от читателя, и с нуля подобное изучать сложно. Но студентам-математикам или даже мат.школьникам из сильных школ может зайти!

Ответ на конкретно свои затруднения я нашла, обратившись к упражнению 17.2. Обращу внимание на то, что в данном простом случае бордизм и кобордизм являются синонимами, чтобы вы не путались в терминологии ( https://math.stackexchange.com/questions/2891085/difference-between-bordism-and-cobordism ).

А вот вся серия постов, посвященных (не)наглядности и популяризации алг.топологии:

/channel/tech_priestess/682
/channel/tech_priestess/683
/channel/tech_priestess/684

P.S. Пользуясь случаем, порекомендую всем любителям алгебраической топологии канал "Сладко стянул" - /channel/sweet_homotopy - просто потому что автор того канала продолжает активно заниматься этой наукой, а значит, будет более компетентным и актуальным источником информации по теме, чем я. Других таких авторов я просто не знаю. Но если вдруг (ну мало ли!) вы знаете ещё каналы по алг.топу, не забудьте поделиться в комментариях.

#математика #книги

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Рис. 1: когда Nvidia не продает твоей компании H100 из-за санкций.

Appendix A

Прилагаю к мему ссылку на технический отчёт: https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T.pdf

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

https://www.youtube.com/watch?v=HNLFlCV_VhU

Интернет умер! †† Интернет не воскреснет! И мы его убили! Как утешимся мы, убийцы из убийц! Самое святое и могущественное Существо, какое только было в мире, истекло кровью под нашими алгоритмами — кто смоет с нас эту кровь? Пожалуйста, примите с Аминь.

† #генерация
†† Dead Internet Theory: https://www.youtube.com/watch?v=Z3a3lrVMd-Y

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Дорогие мои любители отправлять статьи на NeurIPS, ресерчеры комнатные!)) Ну давайте разберем по частям, вами написанное )) Складывается впечатление что...
...
...продолжение читать в источнике 2 августа 😁

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Топология бассейна притяжения
Lets switch gears

Есть очень красивый чисто топологический сюжет, описанный Ветровым.

Вот есть машобуч. В нем как правило надо подогнать какие-то параметры, так чтобы функция, заданная с помощью этих параметров хорошо интерполировала/экстраполировала обучающую выборку. Как правило это решается введением лосса - функции потерь, и минимизации этой функции методом градиентного спуска (или какими-нибудь инженерными свистелками, вроде стохастического градиента).

С одной стороны, градиентный спуск - это превосходная вещь, интерпретируемая, легко прогается, связана с хорошей математикой вроде теории Морса. С другой стороны, мы учим студентов быть осторожными: если стоит задача найти глобальный минимум, то градиентный спуск может быть плохим помощником - вдруг мы свалимся в неправильный локальный минимум?

И тут приходят машинщики и такие говорят "Мы применяем градиентный спуск, и он прямо очень хорошо работает, лучше, чем ожидается. Мы не сваливаемся в плохие локальные минимумы (где лосс маленький на трейне, и большой на тесте), а те, в которые сваливаемся - они прямо очень похожи на глобальные." Почему так? Полного ответа нет, но есть интересное наблюдение.

Для функции f:R^d-->R (стремящейся к +∞ при x-->∞ и с глобальным минимумом 0 для простоты) рассмотрим фильтрацию подуровня
LS(t)={x|f(x)<t},
lower set filtration, прямо как в топологическом анализе данных. Затапливаем график функции водой грубо говоря.

И вот интуиция из матана, теории Морса и т.д. нам говорит, что при увеличении t вначале - в момент t=0 - возникнет озеро вокруг точки глобального минимума, потом возникнет озеро где-то в другом месте - в неправильном локальном минимуме, возникнут еще сколько-то озер. Потом, когда параметр t начнет проходить через критические значения в седловых точках, наши озера начнут объединяться в озера побольше и т.д.

Однако, если размерность d равна 100500 триллионов, то картинка происходящего будет другой. При затоплении за очень малое время возникнут гуголы локальных минимумов, которые в это же самое время слипнутся в связный кластер. Концептуально это довольно понятно: морсовских значений должно быть настолько дохрена, что любой отрезок [0,ε] содержит как кучу значений индекса 0, так и кучу значений индекса 1, перестройки на которых сразу же соединяют болота в минимумах.

Математически - есть про это интересные работы, например вот тут https://arxiv.org/abs/1110.5872 злой матан. Обсуждают про связь этих эффектов со спиновыми стёклами.

Практически, есть работа Ветрова https://arxiv.org/abs/1802.10026 где показано, что если взять два случайных минимума функции потерь большой модели, то между ними можно проложить путь, целиком проходящий "по минимумам". Говоря иначе, множество LS(ε) при малых ε - связно. Более того, в качестве пути можно тупо взять двузвенную ломаную.

Это всё, конечно, не означает, что теория Морса не работает. Но это означает, что на больших размерностях и "компьютерных" порядках малости теория Морса может дать неверные интуиции о происходящем.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Сдав в первые же месяцы экзамены за первый курс, я, как студент второго курса, получил право на 16 кг хлеба и 1 кг масла в месяц, что, по представлениям того времени, обозначало уже полное материальное благополучие.
Одежда у меня была, а туфли на деревянной подошве я изготовил себе сам.
Впрочем, в 1922-1925 гг. потребность в дополнительном заработке к весьма маловесомой в то время стипендии привела меня в среднюю школу. Работу в Потылихинской опытно-показательной школе Наркомпроса РСФСР я вспоминаю теперь с большим удовольствием. Я преподавал математику и физику (тогда не боялись поручать преподавание двух предметов сразу девятнадцатилетним учителям) и принимал самое активное участие в жизни школы (был секретарем школьного совета и воспитателем в интернате).


воспоминания А.Н. Колмогорова

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

https://www.youtube.com/watch?v=GjWUYkzB8lg

Посмеялась сегодня с этого видео. 😄 Тема та же, что и у моих старых постов про #ИИнфобизнес , но акцент делается больше на отношении к клиенту (и, разумеется, анимешных вставках), чем на содержании учебных материалов (хотя и про это немного есть).
Показалось интригующим, что качество связи автора видео с менеджерами Скиллбокса испортилось именно тогда, когда пошел разговор про возврат средств за курс. Интересно, существует ли практика делать такие вещи специально? Или же это все-таки случайность? Поделитесь, если знаете.
Также можете поделиться своим опытом, если были преподавателем / учеником в этой или похожей конторе, будет интересно почитать. 😄

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Пишут, что умер Сергей Петрович Новиков. Был Сергей Петрович не добр характер, любителем рассказывать нехорошие вещи про других коллег. Но был и замечательным математиком (филдсовская медаль — не хухры мухры!).

В основе моей кандидатской была одна его идея по отождествлению квазипериодический функций с быстро убывающими. Сейчас я разбираюсь для книжки по грубой геометрии с "гипотезой Новикова", которая оказался очень серьёзное влияние на современную алгебраическую топологию. А в контексте ГГ — была главным мотиватором для Джона Роу и Гаоляна Ю.

Вживую я его видел один раз. Зашёл к своему шефу на кафедру, и увидел Сергея Петровича, который сидючи на диване активно проповедвал, не помню уж что. Постоял, посмотрел, и ушёл восвояси.

В общем, как и многие математические "старики" старого поколения (Адян, Гельфанд, Арнольд и проч.) человеком Сергей Петрович был весьма не простым. Но об этом забудут. А вот его вклад в современную математику — это навсегда.

RIP

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Помните, писала, что мы в DLS проводим первую олимпиаду по ML? Так вот, мы ее успешно провели в марте, а сейчас выложили на сайт все задания с решениями. Они вот тут ➡️ https://dls.samcs.ru/olympics. Если хотите попрактиковаться, welcome)

На олимпиаде было два этапа (отборочный и финальный), и два трека: для школьников и для студентов+ (т.е. для всех желающих всех возрастов). Получается, всего 4 набора задач (хотя некоторые у школьников и студентов пересекаются). В каждом наборе задач несколько теоретических задач на ML/DL, в которых нужно отправить ответ, и три практических, где нужно построить модель машинного обучения на основе датасета. Мы сделали так, что теорзадачи — они не просто на математику, а именно на ML, т.е. в них нужно знать концепты машинного обучения.

По кнопке "задания" на сатйте открывается Яндекс.Контест, где есть условия и можно отправлять решения на проверку. А по кнопке "решения" откроется google colab с решениями задач.

Если будете решать, делитесь, какие задачи вам понравились больше всего)

Читать полностью…
Subscribe to a channel