tech_priestess | Unsorted

Telegram-канал tech_priestess - Техножрица 👩‍💻👩‍🏫👩‍🔧

12122

Люблю высокие технологии и кушать. Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.

Subscribe to a channel

Техножрица 👩‍💻👩‍🏫👩‍🔧

Ёжик в матане ( https://m.vk.com/mathhedgehog ) выпустил первую версию конспектов к своим лекциям по трем семестрам математического анализа, которые читал на ВМК МГУ (см. вложение). Я полистала эти конспекты и была впечатлена тем, как красиво и вдумчиво они оформлены. Сразу видно, что человек вложил душу в данный учебный материал!

Однако, надо заметить, что самостоятельно с нуля освоить данный предмет по одним только конспектам не получится. Их более разумно использовать, например, параллельно с просмотром лекций автора (Никитина А.А.), ссылку на которые он сам же и подсказал - https://youtube.com/playlist?list=PLhe7c-LCgl4JPoKMTthxF07KIUqH06XTx - или любыми другими лекциями с похожей структурой. Также такие конспекты могут пригодиться для повторения предмета.

Автор будет рад комментариям и замечаниям по конспектам для дальнейшего улучшения здесь:
https://m.vk.com/wall-186208863_29283

P.S. Кроме самого документа, прикрепляю отдельно оглавление - на случай, если ваша pdf-читалка по какой-то причине его не отображает.

#учебные_материалы

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Приглашаем на стрим о философии сознания с автором канала /channel/philostalker Матвеем Сысоевым!
Вторник, 15 августа, 20-00, здесь

Пишите свои вопросы к гостю в комментарии ✍️

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Ура! Наконец-то третья часть рассказа. 🕺
Да, при высокой температуре гпт наш метод на работает. Надо думать, что тут можно ещё сделать. Как надо думать и про обобщение на сгенерированные научные статьи, и на генерацию gpt4.
Но я всё же не разделяю пессимизма.
Для коротких текстов распознать генерацию может и невозможно, но для длинных, как мне кажется, есть шанс придумать что-то хорошее и хорошо обобщающееся (по крайней мере на генераторы текущего уровня; какие свойства будут у гпт5 и более поздних генераторов, вообще никто пока не знает)
-
Спасибо за упоминание статьи.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Generative AI & Research Integrity. Часть 3. Детекторы
#science #ml #chatgpt

Наконец третья часть расширенной версии моего доклада на DataFest 2023 (первая часть была про Paper Mills и некоторые истории из области Research Integrity, связанные с Generative AI; вторая часть – про соревнование при COLING 2022, которое я организовывал, и подвохи про 99% в детекции ML-генерированного текста).

С детекторами текста, написанного chatGPT, все плохо. Лучшая тому иллюстрация – то как OpenAI тихо прикрыл демку с их классификатором. Конечно, бонус им в карму за то, что често описали, что задача сложная и детекторы плохо обобщаются на новые LM и домены (OpenAI репортит 26% полноты, и 58.5% верных ответов в задаче бинарной классификации). Но все же эта честность, видимо, стала вредить репутации. Да и кеки про сонеты Шекспира с метками “likely AI-generated” вряд ли вдохновляли. Но все же можно было не тихо закрывать сервис, а описать в блоге/статье, что задача сложная, надежных решений пока нет. В итоге приходится предполагать, что самим OpenAI такой детектор не нужен.

В посте про undetectable.ai я также рассказывал про борьбу брони и пушки. Вроде как сервис помогает обмануть детекторы, но его тоже можно обмануть, если попросить chatGPT написать текст, похожий на человеческий. В итоге undetectable.ai обманывает еще и вас (не запутались?). Классификатор OpenAI прикрылся, а они все еще рисуют зеленые галочки с подписью “OpenAI”, хорошая работа фронтендеров. Ну а что, хайп, куй пока горячо.

Да в целом и большинство детекторов, обещающих 99% качества - туда же, куют пока горячо. ZeroGPT, GPRZero, DetectGPT и иже с ними, как правило, не раскрывают know-how, пишут только что-то в стиле “we use sophisticated algorithms to analyze statistical properties if the text”. 99%, есть апи, давай сюда кредитку.

Из подходов к построению детекторов самый очевидный – натренировать классификатор на большой выборке человеческих текстов и машинно-генерированных. Про проблемы такого подхода я писал во 2-ой части, в целом детекторы очень плохо обобщаются. Если в трейне были тексты, написанные GPT3, то обобщение на тексты, сгенерированные BLOOM, будет очень плохим. И наоборот. Если про научные статьи, это показал победитель моего соревнования Domenic Rosati. Также есть свежая статья “Distinguishing Fact from Fiction: A Benchmark Dataset for Identifying Machine-Generated Scientific Papers in the LLM Era” с неплохим открытый бенчмарком IDMGSP, результаты там весьма печальные, много ablation studies, и никакой метод в итоге не обобщается надежно на все датасеты. И в целом кажется, что практика это подтверждает, судя по участившимся скандалам, что некий детектор обвинил студента в том, что работа написана chatGPT.

Есть папирус с обзором существующих методов детекции (спасибо Лаиде за ссылку). Помимо бинарных классификаторов на базе нейронок, есть еще классические методы стилометрии (stylometric attribution), по которым определяют авторство текста. Впрочем, там как правило тоже ML, с признаками от общих энграм и частей речи до более специфичных (Linguistic Inquiry & Word Count), Readability score и т.д.). Впрочем, на бенчмарке TuringBench олдскульные стилометрические методы проигрывают бертам.

Продолжение ⬇️

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

⬆️ Внезапно паблик про экономику разразился неплохими учебными материалами по математической статистике: большая их часть стоит ноль рублей; платные, похоже, только бумажные книги.
Мне понравилась, например, интерактивная визуализация популярных распределений:
https://gallery.shinyapps.io/dist_calc/ , не видела её раньше. Новичкам будет интересно.

#учебные_материалы

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Как говорится, поступай так, как тебе комфортно, главное быть самой собой и радовать своих подписчиков своим творчеством!

/channel/doomgrad/433

P.S. В комментариях подсказывают, что в посте изначально был только запрос, а стихи скопировали из ответов ботов на этот запрос.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Ребят, заходите в комментарии к посту:
/channel/ai_newz/2105
Там автор рекламы про вложения в квартиры в Дубае отвечает на вопросы)
Вот уж поистине "читай пока не удалили"))

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Наконец-то появился видос с докладом к статье коллег, сделанной с моим небольшим участием. Статья называется "Acceptability Judgements via Examining the Topology of Attention Maps" и хранится на ACL Anthology: https://aclanthology.org/2022.findings-emnlp.7/ (видос - зеленая кнопка на странице со статьей). На видео можно лицезреть, как я, опухшая, с температурой и больным горлом героически рассказываю про связь лингвистических свойств предложений и топологии графов внимания BERT/RoBERTa, а потом коллеги помогают закончить рассказ. 🥴🤕

Вообще, статья сложная, междисциплинарная, так как совмещает в себе работу специалистов по Machine Learning, лингвистике и топологическому анализу данных. Но мы постарались изо всех сил сделать более-менее понятно и снабдить её хорошими иллюстрациями и примерами. 😳
Более подробно про содержимое статьи можно прочитать в LinkedIn-посте с небольшим объяснением:
https://www.linkedin.com/posts/laida-kushnareva_acceptability-judgements-via-examining-the-activity-7093875779247243265-UhfN
который я написала в честь видоса.

P.S. Если вам понравился видос с докладом по статье или сама статья, большая просьба поставить лайк посту на LinkedIn.

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Сегодня днём я хорошо поработала и вечером заслужила некоторый киберпанк, прогуливаясь по Новому Арбату мимо дома номер 17

#генерация

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

До последнего не знала, дадут мне ирландскую визу или нет... 😳
Но сегодня на этот вопрос был получен ответ, и теперь, наконец-то, можно поехать на Interspeech ( https://interspeech2023.org/ )! 😵

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

С вашего позволения накидаю по английскому языку полезные вещи:
1. Сайт wordsfromtext.com. Бесплатной части сайта лично мне с головой хватает. Коротко: весь кайф этого сайта в том, что можно загружать туда книгу и выделять для себя именно те слова, которые вам неизвестны, затем вы можете этот список экспортировать в Anki https://en.m.wikipedia.org/wiki/Anki_(software)
и изучать через интервальное повторение. Это очень быстрый и хороший результат даёт. Чем больше таким образом читаете книги, тем быстрее у вас заполниться активный словарный запас.
2. https://www.englishdom.com/
Очень полезен раздел "Онлайн тренажер" -->"Тренировки". Там все бесплатно. Особенно хочется отметить "Словари", там классно сделали тематическое разбиение и ассоциации с картинками и интервальным повторением, плюс есть "Видеопрактика", например перевод какой-нибудь песни из клипа или кусочка фильма. Очень хорошо прокачивает аудирование. Есть и много других полезных разделов
3. Мой любимый подкаст на английском языке https://teacherluke.co.uk/
Если хотите повысить уровень аудирования, т.е. понимания английского – просто лучший подкаст. Препод – британец. Говорит на RP-received pronunciation (нормативный британский английский, проще говоря самый "правильный"). Говор приятный, профессиональный без "э"-каний, "м"-эканий. Я его слушаю с 2016г. Очень рекомендую. Препод, помимо английского еще и комик и даже выступал когда-то на сцене. С чувством юмора у него просто ну очень всё хорошо. Подкаст очень интересный, на разные темы, очень актуальные темы раскрывает: от британских комедийных сериалов, Битлз, до политических тем, часто приглашает гостей. Помимо этого на сайте есть к каждому полкасту текст расшифровки всего того, что говориться (кстати его тоже можно экспортировать в Anki), также можно общаться на его сайте в комментариях, он довольно активен и там. Очень рекомендую.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Илья ( https://github.com/IlyaGusev ) хорошо разложил по полочкам в комментах к предыдущему посту ( /channel/tech_priestess/839 ), что именно авторы статьи "“Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors" сделали неправильно в подсчете accuracy, за что ему большое спасибо 👍
Я рекомендую ознакомиться с теми комментами, но для тех, кому лень, вот мое краткое изложение:

Использование (инференс) алгоритма К ближайших соседей, т.е. KNN (см. напр. https://habr.com/ru/articles/149693/ ) для задач классификации происходит так. Пример, который надо классифицировать, представляется как точка в многомерном пространстве, и алгоритм предсказывает ей ту метку, которую имеет большинство из k ближайших "соседей" этой точки, для которых метка уже известна. Так, при k = 1 все просто: предсказывается та метка, которую имеет ближайший сосед. А вот начиная с k = 2 и дальше могут возникать неоднозначности: у одного соседа может быть, например, метка 0, а у другого - 1. Это называется "tie" - "ничья".
При параметре rand=True в алгоритме авторов статьи (рис. 1) в случае ничьи для установки метки выбирается 1 ближайший сосед, и точность оценивается по такому выбору. Однако, по умолчанию в экспериментах используется rand=False, и в этом случае происходит техноересь: авторы засчитывают своему алгоритму правильный ответ в случае, если хотя бы одна из меток, набравших максимальное количество "голосов" среди k соседей, является верной.
В случае, например, бинарной классификации и k=2 это означает, что если у двух ближайших соседей нашей точки разные метки, то предсказание алгоритма будет автоматически засчитано как правильное (см. рис. 2). А единственным случаем, когда ответ будет засчитываться как неправильный, будет являться тот, когда обе метки неверные.

Немудрено, что у авторов получился завышенный accuracy, и, как показал https://kenschutte.com/gzip-knn-paper/ , при нормальном подсчете accuracy классификатор на gzip уже не лучше BERTа.

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Заключительный учебный материал в серии "ПУТЬ К ПОЗНАНИЮ МИСТЕРИЙ ОБУЧЕНИЯ МАШИН БЕЗ ТРАТЫ ДЕНЕЖНЫХ РЕСУРСОВ" a.k.a. "Изучаем Machine Learning за ноль рублей".
Эта презенташка посвящена некоторым прикладным инструментам, которые могут пригодиться ML-щику и поиску работы в этой области (предыдущие части см. здесь: /channel/tech_priestess/588 и здесь: /channel/tech_priestess/700 ).

#учебные_материалы

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

ЗОЛОТЫЕ МОЗГИ И АЛЮМИНИЕВЫЕ ШАПОЧКИ: ЛЖЕНАУЧНЫЕ ДОКЛАДЫ В ПРЕЗИДИУМЕ РАН

В здании Президиума РАН 26-30 июня 2023 года прошел "Всемирный конгресс "Теория систем, алгебраическая биология, искусственный интеллект: математические основы и приложение" с С.В.Петуховым в качестве ключевого докладчика и организатора. Скрины в посте с записи конгресса, таймкоды: 3:20:00-3:50:00, 6:00:56.

Видимо в мире академиков стало совсем грустно без альтернативных теорий, если нормой стало рассказывать в президиуме РАН про Инь-Ян и показывать ссылки на Википедию как авторитетный источник.

На конгрессе были в том числе представлены следующие доклады:

Фрактальный геном - фрактальный рак - наука для клинических последствий реального мира: анализ генома для спасения древнеиндийского мастерства в математике и информатике
(знаете ту самую великую древнеиндийскую информатику?)

Нумерация двадцати протеиногенных аминокислот

Матричная генетика и алгебраическая биология (привет С.В.Петухову!)

Проверка гипотезы о резонансах ДНК при помощи вычислительной геномики. Подходы к моделированию водной оболочки ДНК.

— Структурирование водных растворов под влиянием олигомеров ДНК и влияние электромагнитных полей на живые структуры

А завершался день "Конгресса" трансляцией концерта генетической музыки из Московской государственной консерватории им П.И.Чайковского.

Докладов с такой жестью в названии мы в КРИНЖе не встречали даже в самых псевдонаучных журналах. Господин Петухов выступал между академиками и удосужился рассказать аж 7 докладов, а господин Степанян подготовил 4 доклада.

РАН, все в порядке?

Благодарим Labrats и академика А.Р.Хохлова за предоставленный материал.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Кликая на года выпуска, можно посмотреть статьи с журнала или конференции кокретно выбранного года. А кликая на название venue (журнала или конференции), можно посмотреть все выпуски этого venue. Также название venue можно вводить в поиск и также находить подборки материалов с него - это удобно, когда вы интересуетесь исследованиями по более узкому направлению с какого-то воркшопа или маленькой конференции. Конечно же, в поиске можно находить и отдельные статьи. Для каждой статьи имеется абстракт, pdf самой статьи, информация для цитирования в формате bibtex, которую легко скопировать в свою статью, а иногда даже видеозапись с докладом (люблю их смотреть).
На рис. 2 и 3 я приложила фрагменты скриншота с показателями цитируемости различных venue по компьютерной лингвистике с наукометрического сайта Google Scholar ( https://scholar.google.com/citations?view_op=top_venues&hl=en&vq=eng_computationallinguistics ). Показатели цитируемости, очевидно, показывают обобщенный индекс того, насколько часто статьи с данного venue цитируются в других источниках. На этих фрагментах можно видеть, что ACL, EMNLP и NAACL лидируют по цитируемости, что как бы отражает интерес сообщества к ним. Также на рис. 2 я отметила конференцию COLING - это старейшая конференция по компьютерной лингвистике, имеющая публикации, начиная аж с 65 года (!), на которую также стоит обращать внимание. Ее материалы также представлены на ACL Anthology, просто не попали на скриншот.

Но если какое-то venue меньше цитируется, обязательно ли это значит, что оно плохое? Вовсе нет. На рис. 3 я, например, отметила свой любимый воркшоп BlackBox NLP (воркшоп - это мини-конференция по какой-то узкой теме, приуроченная к какой-нибудь более крупной конференции и обычно проходящая совместно с ней). BlackBox NLP хоть и не престижный, и не индексируется Scopus и WoS, но отражает мое любимое направление исследований в CL/NLP - исследование внутренних представлений моделей и поиск объяснения того, как они работают. Мне кажется, это очень важное и интересное направление. Материалы воркшопа: https://aclanthology.org/venues/blackboxnlp/ .
Также хотелось бы, пользуясь случаем, упомянуть и другой, еще менее известный, но интересный воркшоп - Insights from Negative Results in NLP ( https://aclanthology.org/venues/insights/ ). Он посвящен негативным результатам - то есть таким, когда какое-то направление исследования или какой-то метод не дал желаемого результата - например, не помог решить какую-то задачу с желаемым качеством и т.д. Ведь очень важно в науке анализировать не только успехи, но и ошибки, чтобы потом не тратить время на подходы, которые не работают, и вместе углублять наше понимание языка и того, как строить хорошие модели машинного обучения для работы с ним.

#академический_ликбез

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

https://youtu.be/IxXaizglscw
Великая Тайна Воды...

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

В прошлом я довольно долго увлекалась физикой. Это увлечение началось с научно-популярной литературы и образовательных роликов, продолжилось изучением учебника Ландсберга, прорешиванием задачника "КВАНТа", а затем - прохождением университетских курсов - в основном по классической и квантовой механике.
Но кроме физики самой по себе, меня всегда занимала история её развития и смены парадигм внутри этой науки. И сейчас, когда я занимаюсь машинным обучением в кросс-доменном сетапе, мне нравится думать об аналогии между тем, как физики-люди изучали законы бытия и тем, как хорошая кросс-доменная модель доходит до извлечения все более и более общих закономерностей из данных по мере обучения.

Так, Кеплер и Галлилей изучали законы движения и небесных тел (вроде Луны и планет), и земных (вроде шариков на наклонной плоскости) под воздействием, как мы сейчас знаем, одной и той же силы тяжести, но не замечали связи между одним и другим. В итоге, они вывели хорошие частные формулы для планет и для шариков, но не смогли придумать общей закономерности из которой бы выводилось и то, и это. Эти частные формулы были словно предсказаниями отдельных моделей, натренированных на данных из узких доменов и не переносимых между доменами (разве что здесь формулы были выучены естественными нейросетями, а не искуственными).
Достичь кросс-доменности удалось только Ньютону, когда он показал, что и те, и другие формулы выводятся из более общего закона - закона всемирного тяготения, который, таким образом, можно использовать для предсказания движения и небесных тел, и земных.
Однако Ньютон не имел доступа к двум другим, так сказать, ортогональным доменам - сверхвысоких скоростей и сверхмалых масштабов. И когда законы Ньютона стали применять к этим случаям, они стали ломаться. Это похоже на то, когда модель, натренированную на одном типе данных, начинают применять на других, которые она прежде не видела, и от этого качество резко проседает.
Тут уж делать нечего, пришлось подключить новые нейросети - из голов Эйнштейна, Бора, Шредингера, Гейзенберга и многих других. Правда, до конца подружить домены сверхвысоких скоростей и сверхмалых масштабов до сих пор пока не удается - слишком уж сложные и контринтуитивные там работают законы и, соответственно, слишком сложно стало понимать, как их правильно обобщать. Воображаемая финальная максимально кросс-доменная модель, работающая на всех доменах, которые нам известны и при этом обладающая хорошей предсказательной силой на новых тестовых множествах, называлась бы "Теорией Всего" и является как бы священным Граалем физической науки.
Во второй половине ХХ века появился кандидат на роль "Теории Всего" - красивое направление под названием "теория струн" (получившая дальнейшее развитие в виде теории суперструн, а затем М-теории), но многими физиками она считается чем-то вроде переобучения - у теории слишком много параметров, которые подгоняются под наблюдения, и слишком мало предсказательной силы.

Так и живем, складывая картину мира как будто огромную мозаику и пытаясь состыковать детальки с помощью новых обобщений с переменным успехом.

#рассуждения

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Generative AI & Research Integrity. Часть 3. Детекторы (продолжение)
#science #ml #chatgpt

Наконец есть методы, обозванные в обзоре статистическим (а то как будто стилометрия и дип лернинг – не статистика). Они смотрят на вероятности появления слов, перплексию, KL-дивергенцию между распределениями слов у людей и моделей и т.п. Работали, может, и неплохо, но только до GPT-3. DetectGPT здесь же. Он предполагает, что синтетические тексты обитают на неком многообразии, которое можно выделить с помощью простой формулы (”The hypothesis of this statistics-based detector is that neural texts tend to lie in areas of negative curvature of the log probability function”, статья). Вроде zero-shot, интересно, но в упомянутом выше свежем бенчмарке IDMGSP DetectGPT очень плох. Наконец, сюда же попадает статья с участием Лаиды Кушнаревой, Сергея Николенко и Евгения Бурнаева (обзор Лаиды тут). Я даже не буду пытаться пересказать, какой матаппарат там накрутили, но нашли магическую функцию, отделяющую синтетические тексты от человеческих. Но, как и сами авторы писали, есть проблемы (например, в случае высокой температуры GPT), да и у меня на бенчмарке IDMGSP метод как-то не очень завелся.

Есть еще всякие fingerprints/watermarks, которые могут быть как чисто статистическими, так и гибридными, если в какой-то части используют эмбеддинги берта. Одна из идей – искусственно завышать вероятность появления некоторых слов из белого списка (был пост про это и в сиолошной). Но опять же, прям надежно это не работает, умельцы смогут хакнуть. Так что мечта о том, что OpenAI & Co. сами будут помечать синтетические тексты ватермарками, пока не очень работает.

В-общем, детекторов разных куча. Кажется, по точности побеждают берты. Но не хватает обширных бенчмарков (у меня даже была идея о GLUE-подобного лидерборда для этой задачи). Ну а с качеством in the wild совсем беда.

Напоследок порассуждаю, как такие детекторы могут применяться в реальности, на площадках типа реддита и StackOverflow, или в интересах научных издателей, желающих распознать chatGPT-генерированные статьи. Ответ прост: да почти никак. Детекторы все плохи. Кто это уже понял, не запрещает chatGPT . Кто не понял, выступает клоуном и пытается запретить chatGPT. Пхахах, берем попкорн и смотрим, как StackOverflow будет банит GPT-ботов.

Научный издатель Эльсивир не запрещает chatGPT при написании текстов, правда, только для пруфридинга и коррекции грамматики. То есть на совести автора признаться, что chatGPT использовался, но типа как Grammarly. На самом деле если провести небольшой мыслительный эксперимент, можно понять, что научным издателям не поможет даже оракул со 100% точностью детекции. Вот перед тобой 2 статьи, одна с нуля написана chatGPT и не имеет смысла, вторая – осмысленная, нормальная статья, у которой каждый абзац переписан с помощью chatGPT, чтоб улучшить язык и формулировки. Оракул скажет, что обе статьи синтетические и будет прав. Не очень полезно.

Все это весело. Пока задача плохо решается. Уже живем в мире, в котором нельзя дать гарантии, что какой-либо текст написан человеком. Делать надежные детекторы тем не менее надо. Как минимум для того, чтоб в GPT-N подсовывать тексты, реально написанные людьми (как известно, обучать LLM на текстах, написанных LLM, не очень продуктивно). Интересно понаблюдать, как chad компании будут исчерпывать интернет в поисках данных для новых LLM и как они будут отфильтровывать синтетику.

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Таня плачет у кустов
Лопнул мяч на пять кусков
Банах с Тарским сгоряча
Соберут ей два мяча!

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Как изучить статистику с нуля?

Такой запрос в комментариях был не раз и не два, поэтому делюсь своим опытом и источниками. Все источники будут бесплатные и, на мой взгляд, их более чем достаточно, чтобы разобраться в основах анализа данных.

Начать рекомендую с курса «Основы статистики» на платформе Stepik. Для меня это лучший курс по вводу в тему. Материал подан просто, понятно и наглядно. Есть вторая и третья часть.

Так как с первого захода статистика может показаться сложной, поэтому рекомендую после «Основ статистики» закрепить материал курсом «Знакомство с R и базовая статистика» от Санкт-Петербургского государственного университета.

Наконец, есть ультимативный открытый видеокурс по статистике с упражнениями на любой вкус. Единственный нюанс — курс на английском языке.

Теперь к книгам. Учебников по статистике много, но для начального уровня я порекомендую всего два: В.Савельев «Статистика и котики» и П.Волкова, А.Шипунов «Статистическая обработка данных в учебно-исследовательских работах». Обе книги прекрасно дополнят материал курсов.

Также посоветую великолепные ресурсы, которые своей наглядностью помогут вам постичь абстрактную статистическую теорию: визуализация распределений, визуализация основных понятий статистики, визуализация кластерного анализа.

Дополню, что как и с визуализацией данных, для их анализа можно использовать несколько групп инструментов:

1. Excel всемогущий — универсальный способ для расчетов, в котором однако не проведешь редкие статистические тесты.
2. Статистические программы (JASP, SPSS, Gretl и др.) — специализированные приложения для анализа данных, которые помогают провести практически любые тесты.
3. R и (или) Python — на мой взгляд, лучшие инструменты для статистических исследований. Они бесплатны, а возможности — безграничны. Единственный минус — они не юзерфрендли, и вам придется разобраться в основах программирования.

P.S. если вы тоже знаете хорошие источники по теме, напишите их в комментарии. Ну и конечно, тыкайте на хештэг #статистика — на канале уже есть несколько постов по этой теме, и со временем их будет еще больше.

P.P.S. а еще тыкайте на хештэг #полезнаяподборка — найдете много интересного

Простая экономика

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Даже Ёжик в матане уже не выдержал и внес свой вклад в золотой фонд сатиры:

https://m.vk.com/wall-186208863_28885?from=feed45_-154455665_14612/2

Хотя, казалось бы, паблик вообще про математический анализ... Но что делать, если эту рекламу развесили по всему метро уже?

P.S. Если кто-то не знает, что за университет: https://youtu.be/eq8CO9jeaQ4

#ИИнфобизнес

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Всё! Нет больше сил жить за хуавеевскую зарплату. Поэтому с сегодняшнего дня на канале будет РЕКЛАМА.



Сравните 2 квартиры в Москве и Верхней Губахе.

👉На первой фотке - московский объект в старом фонде 1820 года за 34 млн ₽, который при покупке даже без учета вложений в ремонт и налогов вы отобьете за 31 год при цене на аренду в 90.000 ₽/мес (объект для примера мы нашли на Циане).

👉На второй фотке - квартира 80м² в Верхней Губахе за 0 ₽ рядом с парком (рис.3) и водой, с террасой (рис.4), ремонтом со всей техникой (рис.5) «под ключ», панорамным видом (рис. 6) и доходностью от бесконечного % годовых в долларах, которая окупится всего за 0 лет и будет приносить 240.000 ₽/мес (в долларах). И при этом нет налога. А еще вы можете получить ВНЖ Верхней Губахи после покупки (квартира с канала https://clck.ru/Vmr3g ).

Что выгоднее?

В закрытом блоге аналитика Губатова Раскаталуса ( https://clck.ru/Vmr3g ) 4 раза в неделю появляется новые варианты редких объектов сразу со стоимостью. Подписывайтесь и выбирайте.

#реклама

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Нашла на YouTube интересные рассказы про подделку данных в научных статьях:

1. https://youtu.be/d2Tm3Yx4HWI - посвящено подделкам данных в работах на стыке социологии и психологии Гарвардского профессора Franchesco Jina - таблицы с результатами экспериментов, "блестяще" подтверждающих различные ее гипотезы, как оказалось, имеют следы грубых манипуляций с данными. В результате расследования данных поделий Франческе пришлось уйти в бессрочный неоплачиваемый отпуск (надеюсь, торт отпуска увенчается в будущем вишенкой увольнения).

2. https://youtu.be/olh08Co8NIM - видеоответ на комментарии к видео 1. Дело в том, что в секции комментов возник большой резонанс: так, кроме комментариев по делу, оно почему-то индуцировало приплетание коронавируса и приступы снобизма у техносойджеков по отношению к гуманитариям (англ. "soft science"). Автор же очень достойно ответил на эти тейки.

3. https://youtu.be/OHfVZ5rvxqA - посвящено подделкам в статьях ректора Стэнфордского Университета Marc Tessier-Lavigne. Тут уж и техносойджекам пришлось приуныть: ведь на этот раз речь пошла о статьях не по какой-то там "гуманитарщине", а по нейробиологии. В этих статьях авторы просто брали фотографии результатов экспериментов и копипастили одни куски картинок в другие так, чтобы результирующие картинки подтверждали нужную гипотезу. И все это спокойно висело в научных журналах около двадцати (!) лет, пока только в 2к23 какой-то первокурсник не обратил внимание на данные кекусы. Теперь Марк покидает должность ректора.

В общем, несмотря на высочайший статус авторов, "научность" результатов оказалась примерно на уровне старой доброй диаграммы с рис. 1, которая уже стала мемом (про судьбу статьи-источника см.: https://retractionwatch.com/2022/12/22/that-paper-with-the-t-error-bars-was-just-retracted/ , спасибо автору /channel/rlabrats за ссылку).
Ну, а я надеюсь, что анусы всех любителей строить научную карьеру на фотошопе претерпели резкое сокращение после ознакомления с данными материалами. 😈

#научная_поллюция

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

​​Guardian раскрывает темную сторону обучения ChatGPT.

В центре внимания - контент-модераторы, работающие над обучением LLMок. Разметчики просматривают и анализируют сотни текстовых фрагментов в день, многие из которых изображают сексуальное насилие и другие шокирующие сцены.

Модераторов набирают вдали от Силиконовой долины: в Африке, Индии, Филиппинах, в том числе и из лагерей беженцев. Прайс очень скромный - от $1.46 до $3.74 в час, к тому же контракт временный.

В мае этого года был образован первый профсоюз контент-модераторов в Найроби. Пока в нем всего 150 пролетариев контент-индустрии от TikTok, YouTube, Facebook и ChatGPT. Пожелаем им удачи.

Больше новостей про AI можно прочитать еще в одном моем бложике

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

⬆️ подписчик дополнил обучающие материалы из серии "изучаем Machine learning за ноль рублей" ссылками на ресурсы, где можно подтягивать знания английского за ту же сумму ☺️

#учебные_материалы

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Тем временем атаки на статью про gzip ( https://aclanthology.org/2023.findings-acl.426/ ) продолжаются.
Теперь её атакуют не только танки, авиация, корабли... простите, не только GitHub issues и блог посты, но и тролльские препринты на архиве 😏
Смотрите сами:

https://arxiv.org/abs/2307.15002

Авторы этого препринта сделали KNN на простом советском копеечном bag of words. Согласно их результатам, при подсчёте "accuracy" по некорректному алгоритму из статьи, иронически названному здесь "optimistic", KNN на bag of words работает лучше, чем KNN на gzip, на большинстве используемых датасетов.
В случае нормального accuracy, чаще всего побеждает либо BERT, либо снова bag of words (реже), а gzip в этом сетапе не побеждает ни по одному датасету ни в одном сетапе: ни few-shot, ни full train. (!)
При этом, как иронично отмечено авторами, недостаточная информативность репрезентации на bag of words компенсируется высокой вычислительной эффективность данного алгоритма. 😎

Алгоритм и ключевые результаты препринта изображены на приложенных скринах из него же.

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Некоторое время назад была популярна статья "“Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors", которая, между прочим, даже была опубликована на ACL Anthology среди Findings of ACL:
https://aclanthology.org/2023.findings-acl.426/
( Для новичков я постаралась доступно объяснять, что это такое, в следующих постах: /channel/tech_priestess/828 , /channel/tech_priestess/829 и /channel/tech_priestess/830 )

Краткое содержание статьи в принципе уже понятно из абстракта:

"In this paper, we propose a non-parametric alternative to DNNs that’s easy, lightweight, and universal in text classification: a combination of a simple compressor like gzip with a k-nearest-neighbor classifier. Without any training parameters, our method achieves results that are competitive with non-pretrained deep learning methods on six in-distribution datasets.It even outperforms BERT on all five OOD datasets, including four low-resource languages."
Другими словами, авторы использовали результаты сжатия с помощью компрессора gzip в качестве своеобразного эмбеддинга, а потом обучали на нем классификатор KNN. И утверждают, что такой способ классификации превосходит BERT на нескольких датасетах.

Однако, исследователь по имени Ken Schutte нашел в коде экспериментов из этой статьи целый ряд ошибок и написал про них заметки:
https://kenschutte.com/gzip-knn-paper/
и
https://kenschutte.com/gzip-knn-paper2/ .

О первой найденной ошибке вы, возможно, даже слышали: в этой статье точность классификатора KNN подсчитывалась каким-то очень странным образом, и от того сравнение с BERT и другими бейзлайнами получалось нечестным.
Автор заметки и другие интересующиеся долго дискутировали об этом с автором статьи в github issues: https://github.com/bazingagin/npc_gzip/issues/3 .

Но это оказалось не единственной проблемой.
Так, по словам автора заметки, крайней мере, один из датасетов, скачанных авторами статьи с HuggingFace ( DengueFilipino ) оказался, по сути, негодным из-за пересечения теста с трейном и путаницы в метках.
Другими словами, коварные силы Хаоса овладели не только рукой автора, который писал оценку качества KNN, но и заставили дрогнуть длань того несчастного, который разделял датасет на трейн и тест и заливал его HuggingFace 😨

Заключение Ken Schutte выдал такое:

Between the accuracy calculation and contaminated datasets, I believe that many of the key results (and thus also the conclusions) in the paper are not valid.
The paper touts kNN + gzip as computationally simpler than language-model-based methods, but beware that it is slow for the datasets with large amount of training samples.
Nevertheless, using ideas from text compression for text classification tasks is an interesting idea and may lead to other interesting research."


Если честно, у меня так и не хватило сил и времени внимательно собственноручно проверить все утверждения Ken Schutte из этих заметок. Но если он окажется прав, то статью придется отзывать или очень сильно переделывать. Посмотрим, произойдет ли это.
Берегите от порчи Хаоса свои эксперименты и эксперименты своих близких! 🙏

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Открыла сейчас диалог с Бинг АИ ( https://www.bing.com/ ), а там...

#генерация

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Вспомнила, что давно хотела скинуть сюда ссылку на старый сайт https://www.tylervigen.com/spurious-correlations , где собраны примеры смешных корреляций между не связанными между собой временными рядами, которые до сих пор гуляют по всему интернету. Один из примеров прикреплен на рисунке.

Кстати, репостеры этих примеров часто забывают добавить важную деталь - на сайте есть ещё и страница со ссылками на источники, из которых взяты данные:
https://www.tylervigen.com/sources
Правда, не всегда данные в этих источниках представлены в доступном виде. Было бы неплохо, если бы можно было скачать их в виде CSV, а не скрапить самостоятельно с этих сайтов.

Также интересно, что с этими временными рядами стало после 2010 года, но этой информации на сайте нет.

#учебные_материалы

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Ладно, пора бы поговорить и о чем-то хорошем - например, об ACL Anthology, о которой меня недавно спрашивали в комментах. Для людей, которые и так регулярно и помногу знакомятся с ведущими исследованиями в мире Компьютерной Лингвистики (Computational Linguistics, CL) сказанное будет капитаном очевидность, но для всех остальных (например, вкатывальщиков или специалистов из других областей) может быть интересно узнать, что же это такое и зачем нужно.

Для начала - что такое компьютерная лингвистика. Википедия подсказывает, что это наука, которая разрабатывает и использует математические модели для изучения естественных языков. Часто этот термин используется как синоним к более популярному - "Обработка Естественного Языка" (Natural Language Processing, NLP), хотя об NLP обычно говорят, когда хотят сделать смысловой акцент на разработке прикладных технологий, связанных с языком, а не на изучении самого языка с помощью этих технологий.
Теперь что такое ACL. ACL - это Ассоциация Компьютерной Лингвистики - крупнейшая международная организация, которая курирует самые престижные и популярные журналы и конференции по теме CL/NLP и некоторым смежным - таким, как анализ искуственных языков (например, языков программирования), анализ самих моделей машинного обучения, которые используются в NLP и другим.

Теперь мы, наконец-то готовы разобраться, что из себя представляет ACL Anthology: ACL Anthology - крупнейшее собрание научных статей по тематике CL/NLP в мире на текущий момент, созданное ACL и содержащее подавляющее большинство качественных статей по этой теме.
На рис. 1 виден фрагмент скриншота заглавной страницы ( https://aclanthology.org/ ) . Страница содержит таблицу с различными venue (то есть, журналами и материалами конференций). Я подчеркнула самые важные конференции в мире CL/NLP красным, а рядом указала их ранг престижности по метрике core 2021: ранг А* - максимально возможный, А - чуть пониже. Это конференции ACL, EMNLP, NAACL - крупнейшие и самые знаменитые ежегодные события в мире компьютерной лингвистики. Если вы видите, что статья опубликована на одной из этих конференций, это значит, что она прошла через довольно жесткий процесс рецензирования и признана как сответствующая некоторым стандартам, а также заслуживающая внимания научного сообщества. Конечно, из этого не следует, что все утверждения из статей с этих конференций надо воспринимать как истину (Ученые доказали!). Лучше воспринимать это как некий признак, коррелирующий с хорошим качеством статьи. Также я подчеркнула оранжевым два самых важных журнала в мире компьютерной лингвистики - CL и TACL. На них тоже стоит обращать внимание - там публикуется намного меньше статей, чем на конференциях, но при этом они более длинные и обстоятельные.

#академический_ликбез

Читать полностью…
Subscribe to a channel