tech_priestess | Unsorted

Telegram-канал tech_priestess - Техножрица 👩‍💻👩‍🏫👩‍🔧

12121

Люблю высокие технологии и кушать. Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.

Subscribe to a channel

Техножрица 👩‍💻👩‍🏫👩‍🔧

Итак, теперь настало время рассказа о том, что же происходит, если принять вызов!

Для начала отмечу то, что напрягло меня в ревью на ARR сильнее всего: на само ревью дается всего около 15-20 дней плюс около 5 дней на дискуссию. За это время надо отреценизровать от 3-4 статей (таково рекомендованное число; в февральском цикле вообще почему-то меньше четырех взять не получалось), и это очень мало. Особенно учитывая, что ревьюер обычно параллельно работает фулл-тайм и предполагается, что он будет заниматься рецензированием только в свободное время и на выходных (впрочем, мне все же пришлось откусывать на данную активность и часть рабочего времени, иначе я не успевала).
А устроено это так потому что в мире NLP всё устаревает настолько стремительно, что мы просто не можем себе позволить ждать ревью так же долго, как специалисты в других областях. Почему же фаза ревью занимает всего 1/4-1/3 от всего цикла? Думаю, так происходит потому что кроме самого ревью и дискуссии, довольно много времени уходит на разные проверки, написание метаревью, дописывание недоделанных ревью ревьюерами "на подхвате" и многое другое.

Конечно, этого времени, как правило, недостаточно для воспроизведения результатов экспериментов, да никто этого от ревьюеров и не ждёт (так что если вы видите, что статью опубликовали на крутой конференции, из этого вовсе не следует, что хоть кто-то, кроме авторов, достоверно подтвердил правильность результатов). Достаточно просто внимательно разобрать саму статью и оценить то, что можно оценить на основе того, что написано внутри статьи. Для более подробного объяснения того, как конкретно должна разбираться и оцениваться статья в идеальном мире см. официальный туториал: https://aclrollingreview.org/reviewertutorial . Однако, в реальном мире это, разумеется, происходит как попало. Я вот, например, оба цикла честно пыталась следовать туториалу, однако, на практике получалось нечто, напоминающее рис. 1. Особенно во второй раз - четыре работы для меня все-таки оказалось многовато.

#наука #академический_ликбез

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Типичная рецензия на научную статью на open review.

P.S. Ставьте 👍, если хотите, чтобы я перестала прокрастинировать и подробнее описала свои новые впечатления и мысли касательно рецензирования и получения рецензий на ARR.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Как же, блин, меня раздражает фраза "объяснить так, чтобы даже твоя мама поняла" и её производные. По сути, фраза имеет смысл "объяснить на пальцах" или "объяснить по-простому" и периодически встречается в видеороликах и текстах на темы, связанные с IT.

Во-первых, я сама по возрасту вполне могла бы быть мамой какого-нибудь старшеклассника, который все это смотрит. 🙂
Во-вторых, почему не говорят "чтобы даже твой папа понял"? Вот чем объективно папа лучше мамы? 🙂

В общем, я понимаю, что, скорее всего, люди говорят эти фразы без злого умысла и даже не задумываются над их смыслом, но по сути-то это квинтэссенция стереотипов про пол и возраст людей. Разумеется, ничего хорошего в подобных стереотипах нет. Они заставляют меня злиться и индуцируют у меня кризис среднего возраста. 👎

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

⬆️🧐 Всем обязательно к прослушиванию сегодня по дороге с работы домой.
Не забудьте поделиться своими мыслями в комментариях!

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Электрорецензенты

Последнее время довольно часто обсуждаются научные статьи, сгененированные языковыми моделями, см. хотя бы этот пост. Самих статей на эту тему тоже хватает. Но это можно рассмотреть и с другой стороны — насколько часто люди пишут рецензии на статьи с помощью языковых моделей? И не где-то там, а на топовых ML конференциях: ICLR, NeurIPS, EMNLP 🔥

Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews
Статья: https://arxiv.org/abs/2403.07183

Прежде всего, для данного конкретного текста зачастую невозможно определить, сгенерирован он языковой моделью или человеком. Это задача глобально неразрешимая. Если кто-то предлагает 90%+ точности определения таких текстов — это обман. Всё ещё и усложняется тем, что языковых моделей вообще-то довольно много, и если для какой-то конкретной ещё можно попытаться построить классификатор, то объять необъятное точно не получится 😳

Однако! На уровне больших наборов текстов использование языковых моделей вполне можно отследить. У языковых моделей есть специфические предвзятости, будь то этические ограничения или определенные выборы слов. Эта статья ровно это и делает на корпусе рецензий топовых конференций.

Сам метод прост: берем словарь из всех прилагательных и считаем два распределения: одно для "чистых" текстов, второе для сгенерированных текстов. "Чистые" тексты берём из эпохи до ChatGPT, сгенерированные... генерируем. Для каждого прилагательного считаем, в какой доле документов из корпуса оно встретилось (df из tf-idf), и потом считаем вероятность каждого документа исходя из этого. Теперь у нас есть два распределения (одно для человеческих текстов и одно для машинных), и мы предполагаем, что новый корпус — это смесь этих двух распределений. Вес распределений в смеси оцениваем через метод максимального правдоподобия. Это всё тренируется и валидируется на 4 годах до ChatGPT, там доля машинных текстов получается меньше 2%.

Но вот в 2023 оценка вырастает до 6-16% для разных площадок 😱
Особенно резкий скачок у EMNLP, и это как раз не удивительно, потому что рецензенты оттуда первыми и узнают о прогрессе в языковых моделях. Авторы честно предположили: а может люди просто вычитывают отзывы и исправляют опечатки языковыми моделями? Но нет, такие изменения слабо влияют на оценку.

А вот что могло повлиять на оценку — это написание краткого черновика отзыва с последующим запросом к языковой модели о расширении этого черновика до полноценной рецензии. Такой сценарий просимулировали, и действительно: детектор на такое агрится. Так что всё может не так уж и плохо. Есть ещё исследования разных эффектов, типа даты дедлайна, которые тоже вполне ожидаемы.

Выводы? Когда в следующий раз вам напишут странную рецензию на статью, помните: рецензент тоже (не) человек.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Помните магазины от Амазон, где можно было покупать продукты просто выходя с ними из магазина? Там камеры и AI распознающий товары.

А помните шутки, что за ChatGPT на самом деле сидят тысячи индусов и пишут ответы?

Так вот, мы не про то шутили. Эти тысячи индусов работали удаленными кассирами в магазинах Амазон.

По-видимому, идея была со временем перейти на автоматизацию, засчет сбора данных и реально тренировки computer vision систем. Но не срослось 😃

Это, конечно, эпично.

https://futurism.com/the-byte/amazon-abandons-ai-stores

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

А в чем заключается ваше маленькое женское счастье (ну или мужское)? 💅 Пишите ответы в комментариях.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Как же хорошо, что теперь машинный дух Ubuntu может не только рассказать нам о процессе загрузки системы в виде лога, но и спеть об этом песню...

Хардбасс версия для бодрых машинных духов: https://app.suno.ai/song/4b3a4000-ce95-4126-8410-4d796861cb91/
Органная литания для настроенных лирически: https://app.suno.ai/song/2a2ebff9-e5fe-4908-a3d8-b617fb1c361c/

А как поет машинный дух вашего компьютера при загрузке? Варианты скидывайте в комментарии. #генерация

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Ссылка на аккаунт:

https://www.instagram.com/reel/C4FeDN-vC9O/?igsh=MXA4cTVka3EzeDR1Yw==

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Раз уж вы приоткрыли в комментариях выше дверку в бездну, связанную с японской анимацией, так и быть, поделюсь своим опытом и на этот счет.
Итак, прежде чем кидать мне рекомендации аниме в комментариях, проверьте сначала этот аниме лист:
https://myanimelist.net/animelist/Laida
с большой вероятностью ваши рекомендации там уже есть и им поставлена почти рандомная оценка, добавляющяя к сиденью функцию подогрева 😀
И еще: если рекомендация - это действительно хорошее аниме из 90х или 00х, и его нет в моем листе, то я с вероятностью процентов 80 просто забыла его добавить. 🌚🤓🤓🤓

#о_себе

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Рис. 1-3 - топовое AI-железо 60х годов.

#ретро #ML_отцов

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

РЕШАЕШЬ ДОБРОВОЛЬНО РЕЦЕНЗИРОВАТЬ НАУЧНЫЕ РАБОТЫ НА ARR
@
РАДУЕШЬСЯ, ЧТО ВНОСИШЬ ВКЛАД В НАУКУ, ЧУВСТВУЕШЬ ОТВЕТСТВЕННОСТЬ И ГОРДОСТЬ
@
ПУСТЬ ВРЕМЕНИ НА РЕЦЕНЗИРОВАНИЕ ДАЕТСЯ ОЧЕНЬ МАЛО (УЧИТЫВАЯ, ЧТО ТЫ ЕЩЕ И РАБОТАЕШЬ НА ПОЛНУЮ СТАВКУ), И ОНО, РАЗУМЕЕТСЯ, НИКАК НЕ ОПЛАЧИВАЕТСЯ, НО ТЫ ВСЕ РАВНО ОЧЕНЬ СТАРАЕШЬСЯ, ВНИМАТЕЛЬНЕЙШИМ ОБРАЗОМ ЧИТАЕШЬ СТАТЬИ, ДЕЛАЕШЬ СЕБЕ ЗАМЕТКИ В ТЕТРАДИ, А ПОТОМ ПИШЕШЬ ПРОСТЫНИ С ПОДРОБНЫМ РАЗБОРОМ
@
ОДНАКО, С КАЖДОЙ НОВОЙ РЕЦЕНЗИЕЙ ЭНТУЗИАЗМ ОСЛАБЕВАЕТ
@
ВЕДЬ ТЫ ПРЕКРАСНО ПОМНИШЬ СЛУЧАИ НА ПРЕДЫДУЩЕМ ЦИКЛЕ, КОГДА АВТОР НИКАК НЕ ОТРЕАГИРОВАЛ НА ТВОЮ ПРОСТЫНЮ, НА КОТОРУЮ ТЫ ПОТРАТИЛ НЕСКОЛЬКО ДНЕЙ СВОЕЙ ЖИЗНИ, А МЕТА-РЕВЬЮЕР ПОХОЖЕ ВООБЩЕ ЕЕ НЕ ПРОЧИТАЛ И ПОСТАВИЛ ОЦЕНКУ ОТ БАЛДЫ
@
ДА И В ЦЕЛОМ ВИДИШЬ, КАК НА ТВОИХ ГЛАЗАХ СИСТЕМА РЕЦЕНЗИРОВАНИЯ ДЕГРАДИРУЕТ ВСЕ БОЛЬШЕ И БОЛЬШЕ ИЗ-ЗА ТОГО, ЧТО НЕ СПРАВЛЯЕТСЯ С ОГРОМНЕЙШИМ ПОТОКОМ СТАТЕЙ, КОТОРЫЙ С КАЖДЫМ ГОДОМ УВЕЛИЧИВАЕТСЯ. ДА, ТЕКУЩАЯ СИСТЕМА НЕИЗБЕЖНО ПАДЕТ И БУДЕТ ЗАМЕНЕНА НА ЧТО-ТО ДРУГОЕ, ЕЙ ОСТАЛОСЬ НЕДОЛГО
@
ОДНАКО, ПОТОМ ТЫ ВСПОМИНАЕШЬ, КАК ДВА ДРУГИХ АВТОРА В ПРОШЛОМ ЦИКЛЕ ПОДРОБНО ОТВЕТИЛИ НА ТВОИ АРГУМЕНТЫ И ПОНИМАЕШЬ, ЧТО ПОКА СИСТЕМА ЕЩЕ ХОТЬ КАК-ТО ПРОДОЛЖАЕТ ФУНКЦИОНИРОВАТЬ, ВСЕ ЕЩЕ СУЩЕСТВУЕТ ВЕРОЯТНОСТЬ, ЧТО ТВОИ ТРУДЫ ПРИНЕСУТ ПОЛЬЗУ. А РАЗ ТАКОЙ ШАНС ЕСТЬ, ТО НАДО ПОПРОБОВАТЬ ДОДЕЛАТЬ ИХ КАЧЕСТВЕННО
@
СОБИРАЕШЬСЯ С ПОСЛЕДНИМИ СИЛАМИ ДОДЕЛАТЬ РЕЦЕНЗИИ НА ДВЕ ОСТАВШИЕСЯ СТАТЬИ В ЭТОМ ЦИКЛЕ, НЕСМОТРЯ НА УЖАСНОЕ САМОЧУВСТВИЕ, РАЗБИТОСТЬ И УСТАЛОСТЬ
@
БУДЕТ ЛИ ОКОНЧАНИЕ СКАЗА О ФЕВРАЛЬСКОМ ЦИКЛЕ ARR БУГУРТОМ ИЛИ АНТИ-БУГУРТОМ, УЗНАЕМ ПОСЛЕ ДИСКУССИЙ С АВТОРАМИ И ПРОСТАВЛЕНИЯ ОЦЕНОК МЕТА-РЕВЬЮЕРАМИ.

#наука

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

На ACL это находится в абстракте доклада - https://aclanthology.org/2023.ldk-1.2/
Надо попросить их убрать

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Я думаю, что у теоремы Байеса (рис. 1) есть большой нереализованный потенциал для троллинга, ведь при должной ловкости рук она должна позволить вывести из трех оценок вероятностей (правая часть равенства), с которыми собеседник согласится, четвертую оценку (левая часть равенства), которая его удивит и вызовет недоумение, а то и бугурт - если, конечно, собеседник недостаточно прошарен.
Но это все в теории. На практике все способы потроллить с помощью этой теоремы, которые мне приходили на ум до данного момента, на поверку оказывались какими-то душными и несмешными.

Вот, например, какая байесовская подколка пришла мне на ум сегодня утром:
Допустим, парень сказал подруге, что у нее самые красивые глаза в мире. А мы ей: "Ну давай разберем это утверждение с точки зрения науки. Будем считать, что на Земле 4 миллиарда женщин, и у каждой из них равные шансы иметь самые красивые глаза среди всех. Таким образом, вероятность, что самые красивые глаза завалялись у случайно выбранной женщины, равна 1/(4 * 10^9). Далее, допустим, что если самые красивые глаза у тебя, твой парень обязательно об этом скажет (P = 1). А как часто вообще парни делают такой комплимент своим девушкам? Дай ответ в процентах."
Допустим, что в ответ на последний вопрос мы получили от нее значение от 1% до 100%. После этого быстро считаем в голове P(A|B) по формуле с рис. 1, заменяя "А" на "иметь самые красивые глаза в мире", а "В" на "парень сказал, что у тебя самые красивые глаза в мире".
А потом говорим: "Ой, не хочу тебя расстраивать, но по теореме Байеса вероятность того, что парень сказал тебе правду, меньше, чем один на сорок миллионов! Ха-ха! УЧЁНЫЕ ДОКАЗАЛИ, что тебя обманули!"

Главный недостаток этого рассуждения заключается в том, что оно, несмотря на математическую точность, получилось максимально душным и несмешным. Большинство собеседниц в ответ на такое просто молча откроют форточку и посмотрят с сочувствием.
Пожалуйста, дорогие подписчики, исправьте ситуацию. Помогите придумать по-настоящему смешной Байесовский троллинг!

#математика

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

# Devin: AI не может собрать себе лендос

Компания Cognition Labs вчера выпустила демо-видео, в котором продемонстрировала AI агента, способного заменить программиста. Инструмент способен планировать исполнение сложной задачи. Например, сравнить выводы LLAMA от разных провайдеров, подключившись к их API. Оно умеет использовать консоль, гуглить и изучать документацию, пишет код в нескольких файлах, структурирует проект, дебажить проблемы и деплоить результаты.

Посмотреть можно здесь.

А вот и сайт, который Devin склепал за пару минут.

Говоря более конкретно Devin достигает 13.86% решенных проблем на SWE-Bench, бенчмарке, состоящем из реальных задач программиста. Предыдущий лидер Claude-2 достигал 4.80%. Получается Devin способен без помощи человека закрыть 1 джира тикет из 7.

Уже представили сингулярность? Отлично, а теперь время реалити чека. Все это звучит невероятно круто, если не принимать во внимание один факт: всё это согласно одному промо-видео создателей.

Реалити чек 1:

Посмотрим на превью. Авторы предлагают опробовать Devin здесь.

Во-первых, интерфейс абсолютно не такой, как на видео. При любой попытке сделать какое-либо действие нам предлагают оставить свой email и попасть в wait list.

Вспомнили мантру всех стартаперов “сначала продай, потом делай?”.

Реалити чек 2:

Итак, люди создали ИИ программиста, который способен делать простые сайты. Наверное у них хорошо сделан собственный сайт?

Для начала https://preview.devin.ai/ это react app, который был запущен в dev режиме. Но сейчас кажется поправили, так что Devin молодец, постарался.

Вот какие сервисы используют авторы для своего лендоса:
Hotjar для аналитики.
Clerk для логинов.
Ashby для вакансий.
Google docs для waitlist.

То есть из всего, что на нём есть, сами они сделали только текст на страницах. Так же у них куча разных косяков в HTML и JS.

Но ладно, ребята делают foundational LLM, им наверное не до пиления лендосов (хотя Devin мог бы помочь?)

Наконец, недавно на их превью можно было загружать файлы. Файлы отправлялись прямо на S3. Никакой проверки на размер файла или логин не было. Добрые реддиторы сразу загрузили им гигабайты интересного контента, так что ребята наверное пошли поднимать новый раунд на оплату счетов AWS. Сейчас уже пофиксили. Devin наверное в этом квартале получит плохую оценку на перфоманс ревью.

Реалити чек 3:

Наверное, люди которые это делают крутые ученые, да?

Посмотрим на страничку фаундера. Чем он занимался раньше?

Прогал в какой-то конторе. Затем делал Lunchclub. Звучит как-то не про ИИ, но давайте посмотрим. Нашел описание этого ланчклаба:


Lunchclub uses Al technology to create in-person lunch and coffee meetings to boost networking opportunities for the world's professionals. The invite-only service exists in various cities including the San Francisco Bay Area, New York City, Los Angeles and London, and has helped thousands of people get new jobs, meet investors and find a cofounder. Founded by Hayley Leibson, the founder of Lady in Tech, and Scott Wu, a former engineer at Addepar, Lunchclub has raised $5 million from investors like Andreessen Horowitz.


Ах да, знаменитое применение ИИ для организации обедов. Ребята однако имели какой-то колоссальный волюейшн.

Его кофаундер по тому стартапу это Hayley Leibson с таким био:

Bestselling Author of "Raise Early Stage Venture Capital" | Forbes Under 30 Consumer Tech | Y Combinator Alum

Буквально профессиональный подниматор денег из периода, когда деньги давали на что угодно под презентацию.

Для обоих это абсолютно ок, но не демонстрирует никакой экспертизы в ИИ.

Реалити чек 4:

Ребята подняли Series-A имея только демо видос который выглядит подозрительно как чудеса монтажа. Не сид раунд, а имено Series-A. Обычно Series-A это для компаний с доказанным product market fit и достаточно большим MRR. Что тут происходит? Я не знаю.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Очень рада видеть огромное количество "👍", которые показывают, что вам интересна тема рецензирования статей! 😍
Однако, поскольку не все читатели погружены в систему рецензирования, о которой пойдет речь (а ведь в разных научных областях и на разных venue процесс рецензирования может очень сильно отличаться!), то, прежде, чем написать свои впечатления, я решила начать с краткой справки по теме.

Что такое ACL:

Если очень коротко - ассоциация, владеющая главными журналами и конференциями по темам Computational Linguistics / Natural Language Processing. Подробное объяснение написано здесь - /channel/tech_priestess/829 .

Что такое ACL Rolling Review (ARR):

ARR - централизованная система рецензирования (ревью), используемая ACL для отбора научных статей (и докладов по ним) на свои мероприятия (конференции, дополнительные тома конференций, воркшопы). Система функционирует по двухмесячным циклам: в начале каждого цикла вы можете отправить туда свою научную статью (с пометкой, на какую именно конференцию вы бы хотели попасть), а где-то ближе к концу цикла - получить набор рецензий и оценку. Если у вас уже есть какое-то количество публикаций на топовые конференции/журналы по ML и/или CL/NLP, то при отправке вашей статьи вас могут добровольно-принудительно отправить рецензировать чужие статьи из этого же цикла (это как раз произошло со мной в декабре - см. /channel/tech_priestess/1148 ). В тех же циклах, в которых вы не участвуете как автор, можно заниматься или не заниматься рецензированием по желанию (например, я захотела поучаствовать в февральском цикле, но не захотела участвовать в апрельском). Ну, а если нужных компетенций нет, то вы в любом случае ничего не рецензируете, а просто молча ждете рецензии на свои творения. Отправляются все работы, конечно же, через систему Open Review (парочка постов с обсуждением дискуссий на Open Review: /channel/tech_priestess/915 , /channel/tech_priestess/1157 ).

Основные этапы, которые препринт проходит после отправки на ARR:

- Первичная оценка препринта на соответствие шаблону ACL. При несоответствии, работа отвергается без рецензирования (desk reject).
- Отправка препринта трем ревьюерам, которые по идее должны разбираться в соответствующей тематике (честно говоря, не в курсе, по какому конкретно алгоритму определяется best match; знаю только, что на это влияет то, в какую тематическую категорию авторы помещают свой препринт и на какие темы писал статьи ревьюер).
- Фаза ревью - каждый из трех ревьюеров пишет свою рецензию и проставляет оценку.
- Фаза дискуссии (rebuttal) - авторам показывают эти три ревью и дают возможность ответить на претензии. Ревьюеры также могут писать авторам сообщения в ответ.
- Фаза мета-ревью - мета-ревьюер смотрит на всю эту писанину, пишет на её основе окончательную рецензию и выставляет окончательную оценку.
- Затем, chairs (по сути, администрация) конкретной конференции отбирает на свое мероприятие статьи с наилучшими оценками.
- В случае, если статью приняли, все рецензии и дискуссия между авторами и ревьюерами становятся публичными, их может прочитать любой желающий. В противном случае рецензии и дискуссии не публикуются.

Можете дополнять или исправлять эту информацию в комментах по необходимости.

#академический_ликбез

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Объясни так, чтобы даже сервитор всё понял

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Я слышал кучу склеек, но мне как-то побоку было, а насчет скорости 1.5х — так дефолтно говорят все мехматяне после 6 лет дурки

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Рад представить очередной выпуск подкаста!

В гостях Лаида Кушнарева - Старший Академический Консультант, Huawei, которую в мире Data Science больше знают как Техножрицу. Общаемся про то, как обстоят дела в мире исследований вокруг машинного обучения. Как поменять математику на программирование, но продолжить заниматься математикой. Почему вычисления квадратного корня на калькуляторе необратимы и причем здесь головастики. Плюсы и минусы в работе современного ученого. Как проходит день исследователя. Докатился ли кризис воспроизводимости научных исследований до DS. Почему культура проведения эксперимента не менее важна, чем математическая обоснованность его предпосылок. Обо всем этом и многом другом в эпизоде!

https://mlpodcast.mave.digital/ep-59

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Минлос всегда поражал меня своей техникой вычислений. Если между условием и ответом были две страницы выкладок, то он никогда не ошибался, как будто видел ответ сразу. Может быть, поэтому он объяснял только идейную сторону задачи. Хорошо помню такой его монолог. «Вообще, если не знать, что Риман был очень умный человек, а посмотреть только на интеграл Римана, то это кажется сомнительным. Вот Вы идете вдоль забора из реек одинаковой ширины, но разной длины, и хотите посчитать площадь забора. Что делает Риман? Измеряет длину каждой рейки, умножает на ширину и складывает. Кто же так делает? Надо пойти в прорабскую и узнать, сколько реек каждой длины пошло на забор. Это то, что делает Лебег».

воспоминания И.Д. Новикова

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Рис. 1. - пояснение прикола про ТФКП+. Таких "флагов", кстати, можно найти сколько угодно в календариках "Complex beauties", которые легко скачиваются с https://www.researchgate.net/ по запросу "complex beauties <год>". Самый первый календарь, кажется, вышел в 2011: https://www.researchgate.net/publication/268152830_Complex_Beauties_2011 , и в нем как раз можно посмотреть график из мема выше - это комплексный косинус (см. страницу 10).
Как видно из фотографии, раньше можно было купить бумажный перевод такого календаря на русский и повесить себе на стену, что я и делала (не знаю, продолжают ли делать эти переводы в наши дни или нет).

#математика

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Настало время правильного ответа!

Но его не будет, потому что я его не знаю.

Однако в комментариях предложили много хороших версий. Мне самой вероятной кажется та, что изначально модель сходилась к локальному минимуму и для большого уменьшения лосса требовался маленький шаг, поэтому норма градиентов была небольшой. Подробнее от автора: /channel/boris_again/2373?comment=12903

Дело так и останется нераскрытым, так как у меня нет времени препарировать модель, ведь работает нормально. Но если бы я это изучал, то начал бы с логгирования норм градиентов по слоям.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Загадка для подписчиков.

Seq2Seq трансформер не очень большого размера файнтюнится на небольшом датасете. Оптимайзер AdamW, LR scheduler просто линейное снижение начиная с 2e-05. Батч сайз 40. Все настройки обучения это стандартные Seq2SeqTrainingArguments из Huggingface.

Норма градиента снижается, но на шаге 2000 вырастает с 0.6 до 0.88 и далее остается на этом уровне. Лосс на этом шаге и далее уменьшается как раньше. Метрики качества на валидации на этом шаге и после тоже никак не отличаются в своем поведении.

Что случилось и что это говорит об обучении модели?

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Тем временем нашел целый аккаунт в IG с «православными» нейрорилзами, самые популярные — где надо потрогать хлеб — набирают по миллиону просмотров и тысячи комментариев.

Выводов не будет, но вот пайплайн (не знаю, зачем вам, но вдруг пригодится) — Dalle-3 + Heygen.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

В честь вечера пятницы мне захотелось обсудить мультики, которые мне понравились и не понравились в последние годы. ✍️ Сконцентрируюсь в первую очередь на мультиках из 21 века и не японских (там отдельная большая тема).

Итак, мультики, которые понравились:

1. Молот и Болтер (Hammer and Bolter, 2021) - разнообразные истории, происходящие в мире Warhammer 40k, с приключениями людей, орков, эльдар, тиранидов, хаоситов, лоялистов и кого только не. Единственный мультсериал в таком роде, про сюжет писала тут - /channel/tech_priestess/322 .
2. Царство Падальщиков (Scavengers Reign, 2023) - очень проработанный, оригинальный sci-fi про чужую планету. По упоротости местной флоры и фауны напомнил старый мультик "Дикая планета" (1973), но все же менее упорот, чем советский мультфильм "Перевал" (1988) . Кстати, про "Перевал" тоже написала отдельный пост - /channel/tech_priestess/99 . Если знаете что-то еще на эту тему, не стесняйтесь кидать в комментарии.
3. Отель Хазбин (Hazbin Hotel, 2024) - зацепил интересным дизайном персонажей и очень запоминающимися песнями - по паре новых песен поют каждую серию. Крайне рекомендую смотреть с оригинальной английской озвучкой.
4. Часто нравятся небольшие мультфильмы, созданные независимыми авторами, которые время от времени попадаются на YouTube. Отдельно среди них выделяю Lackadaisy (2023) - очень зажигательный мультфильм про котов-гангстеров в стиле 20х. К сожалению, пока существует только пилотный выпуск, очень хотелось бы, чтобы по нему дорисовали полноценный сериал, как это было с Хазбином... 😩
5. Анимация коллег на сайте https://topohubert.github.io/speech-topology-webpages/ про построение баркода по облаку точек. Я лично считаю, что это тоже топовый мультик, не пытайтесь переубедить. 😎

Категория "сомнительно, но окей":

1. "Любовь, смерть и роботы" (Love Death + Robots, 2019). Мульсериал с сериями про разные sci-fi сюжеты, с довольно разнообразной рисовкой. Некоторые серии очень понравились, а некоторые показались скучноватыми.
2. "Аркейн" (Arcane, 2021). Качественный мультик с приключениями и драмой, стиль и атмосфера мне понравились, могу советовать к просмотру. Но есть проблема: персонажи и сеттинг взяты из игры Лига Легенд, в которой я не разбираюсь, поэтому не смогла полностью проникнуться.
3. "Киберпанк: Бегущие по краю" (Cyberpunk: Edgerunners, 2022). Драматичное сражение героев-изгоев против злодейских корпораций с бешенным экшном, понятно в каком сеттинге. Очень понравился визуал и стиль, но повествование очень рваное, и персонажам не дали раскрыться, поэтому осталось какое-то ощущение неудовлетворенности.
4. "Звёздная принцесса и силы зла" (Star vs. the Forces of Evil, 2015). Еще одна комедия, на этот раз про упоротые приключения в разных мирах. Первые пару сезонов были хоть и не блестящими, но довольно забавными, потом мультик скатился.
5. "Харли Квинн" (Harley Quinn, 2019). Аналогично - вначале было задорно, потом покатился вниз, как круглый тензор по градиенту. 🥴

Категория "не нравятся" (сейчас от меня отпишется 90% подписчиков, потому что это те мультики, которые вы любите):

Рик и Морти, Футурама, Южный Парк, Американский папаша, а также пони. 🌚

Категория "бесит" (сейчас отпишутся оставшиеся 10% подписчиков):

Гравити Фолз, Время приключений, Симпсоны, Гриффины, Адский Босс (да, я в курсе, что у последнего авторы те же, что у Хазбина 🌚).



P.S. Я честно просматривала лучшие (по мнению друзей и знакомых) серии мультиков из двух последних категорий и пыталась их полюбить, но не могу и все тут. 😭
P.P.S. Жду гневных отзывов и предложений в комментариях. 🤜

#о_себе

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

С интересом обнаружила, что IJCAI ( International Joint Conference on Artificial Intelligence ), оказывается, является старейшей существующей по сей день конференцией по искусственному интеллекту - в первый раз она состоялась в мае 1969 года, то есть более полувека назад: https://www.ijcai.org/all_proceedings .

Для сравнения:
- Первую коммерческую схему RAM-памяти выпустили только через год - в 1970;
- Первый процесор Intel (4004) вышел в 1971;
- Первый коммерческий ПК стали продавать в 1975;
- LaTeX изобрели в 1984 (поэтому все формулы в старых статьях являют собой смесь печатной машинки и рисунков от руки);
- Первая конференция NIPS/NeurIPS (старейшая по нейросетям) состоялась в 1986;
- Метод обратного распространения ошибки (backprop) также оформился в современном виде и начал популяризовываться в 1986.

Очевидно, все статьи с вычислениями, написанные до появления ПК, использовали программы на мейнфреймах. Например, в статье от 73 года ( https://www.ijcai.org/Proceedings/73/Papers/008a.pdf ) предложенная авторами автоматическая система доказательств крутилась на мейнфрейме серии CDC 6600 (см. рис. 1-3), который стоил 7 миллионов долларов, занимал целую комнату и, судя по информации из википедии, регулярно перегревался и выключался. 🥴 Тем не менее, когда устройство работало, система, по заявлениям авторов, могла доказывать простые утверждения из общей топологии.

Еще забавно, что на первой же конференции в 1969 уже была статья про распознавание цифр с фотографий: https://www.ijcai.org/Proceedings/69/Papers/018.pdf с использованием мудреного метода со скользящим окном и небольшим количеством обучающихся весов - правда, точность этого метода была от 30% (out of domain) до 70% (in domain). К сожалению, целиком массив, соответствующий всей картинке, в своем компьютерике авторы обработать не могли, поэтому о применении логрега по всей картинке речи не шло, и фичи могли извлекаться только из маленького окошка.
Еще интересно заметить, что рассматриваемая задача была более сложной, чем появившийся много позже MNIST, так как содержала фотографии большего разрешения, сделанные, судя по всему, не очень хорошей камерой, а также содержала разные подмножества: фотографии цифр с диска телефона и цифр, написанных разными людьми от руки и, как уже было сказано выше, включала ood постановки (в духе обучить на цифрах с диска и протестировать на цифрах, написанных человеком; или обучить на цифрах, написанных одним человеком, а тестировать на цифрах, написанных другим человеком).

В целом, судя по тому, что я выхватила беглым осмотром, в статьях 1969 года и начала 70х годов часто встречались темы разработки систем автоматического доказательства теорем, улучшения методов прикладной математики, распознавания образов, диалоговых систем (rule-based, конечно), очень простых (по современным меркам) агентов и роботов, а также улучшения компиляторов и языков программирования (даже не знаю, почему последний пункт тоже относили к AI; сейчас это обсуждают на конференциях по Computer Science). Нечто напоминающее нейросети встречалось (как в статье про цифры), но не часто.

#ретро #ML_отцов

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Красивая кривая? Мне тоже нравится, а ещё она нравится менеджерам инвесторам и прочим. Но она неверная, правильная кривая - та что я нарисовал красным.

а100 - 640tflops bf16
h100 - 1500tflops bf16
B100 - 3600tflops bf16

Не, фактически она верна, прирост в fp4 действительно есть, но есть нюанс - модели даже в fp8 никто не учит, максимум - инференс.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Предложение о том, как провести сегодняшний вечер, если у вас много свободного времени.

Просто вводите запрос:

"as an AI language model" -chatgpt -GPT

(обязательно сохранив кавычки) в поисковую строку https://scholar.google.com/ и наслаждаетесь творчеством chatGPT в научных статьях и абстрактах докладов с множества научных сайтов, включая IEEE XPlore - https://ieeexplore.ieee.org/ , ACL - https://aclanthology.org/ и, конечно, многих других.

Если свободного времени совсем много, можно попробовать написать письма в эти ассоциации с просьбой удалить данные артефакты - разумеется, вежливым тоном и с конкретными ссылками.

#научная_поллюция

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Вспомнил случай, который серьёзно повлиял на мое мировоззрение. Было это на математическом бое. Один добролюб, который оппонировал, вдруг решил, что он гениальный оппонент и стал допариваться до каждого предложения. К примеру, потребовал доказательства признаков делимости на 3 и на 9. Формально он был прав - в учебнике их нет и нужно доказывать, но так, разумеется, никто не делает. Он продолжал в том же духе и затрахал и докладчика, и, самое главное, жюри. А вот в конце задачи у докладчика в решении реально была дырка, которую он, прикрыл словами "очевидно, что". Разумеется, горе-оппонент схватился, что это совсем неочевидно. Но к тому времени уже утомленное жюри сказало - нет, тут все очевидно, ты надоел со своими придирками и засчитало задачу полностью.

Вывод который я сделал для себя. Мана - она не бесконечная, если расходовать на всякую дичь, то на босса не останется.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Время от времени вижу заголовки новостей в рекламе газеты "метро": "турист спас детей", "кот спас котят". По мне так звучит довольно банально. 🥱 Когда уже появится заголовок в духе "LLaMA2 70B спасла Phi2"?

Читать полностью…
Subscribe to a channel