Что-то про AI Research и AI образование от Танечки Сотрудничество/предложения: @atmyre
Мысли вокруг AI-олимпиад в России
Не считая олимпиады ДЛС, которую я составляю, я раньше не следила за тем, какие в России есть олимпиады по AI. Официального всероса по AI как такового не было, он зарождается вот только сейчас (и тоже при содействии ДЛС и нашей олимпиады, но об этом позже). Школьники (около 45 человек), которые приехали к нам в мае на отбор, были выбраны среди победителей всяких других AI-олимпиад, которые сейчас есть в России. Пообщавшись с ними и посмотрев на списки их регалий, у меня создалось следующее впечатление и появились такие мысли:
— Большинство существующих олимпиад по AI организуются компаниями, и задачи на них часто решаются брутфорсом вида "пойми, какую модель тут лучше использовать, скачай, аугментируй данные, дообучи, и вуаля". В итоге эти школьники очень на такое переобучены: на нашем отборе большинство из них пытались решить каждую задачу каким-нибудь дообучением чего-либо. И даже когда в условии задачи было явно сказано "нельзя использовать никакие предобученные модели, кроме выданной в условии", мы получали тонну вопросов вида "а можно взять обученную диффузию и генерить ей картинки" или "а вот так можно, это будет считаться дообучением или нет?"
— Хочется придумывать такие AI-задачи на олимпиаду, чтобы они были интересными и было место подумать. Например, чтобы для решения нужно было понимать, как устроена модель, тонкости архитектуры, залезать ей внутрь и что-то там поправить. Но это оказалось оочень сложным: очень сложно так составить условие, чтобы задача осталась интересной, и четко запрещала дообучение. Исходя из этого, я понимаю, почему многие AI-олимпиады решаются брутфорсом, и почему школьники так на него переобучены.
Задачи же IOAI как раз должны быть такими, где брутфорс не должен выбивать золото, поэтому одна из задач наших сборов по подготовке к олимпиаде — дать школьникам представление о внутренностях современных моделей, их свойствах, и научить, как с ними можно работать. Но надо сказать, что даже на IOAI в прошлом году одна из задач решалась хаком. То есть, даже составители межнара не смогли предусмотреть все в условии, и я их теперь очень хорошо понимаю)
— Просматривая регалии школьников, я увидела несколько призовых мест на региональном этапе всероса по информатике, но ни одного по математике. По математике максимум муниципальный этап. Кажется, чтобы брать места на текущих российских AI-олимпиадах, в математике особо шарить не надо. Зато среди этих школьников есть несколько человек, у которых есть успешные пет-проекты с кучей звездочек на GitHub, а двое из них вообще работают ML-инженерами. У меня тут появляются опасения, что такие ранние успехи и заработок денег в AI (олимпиады обычно дают хорошие призовые, ну и на работе школьникам тоже платят зарплату) могут сделать их слишком уверенными в себе, и дальше они не будут уделять достаточно времени учебе в универе. Вспомним еще тут, что большинство из них не очень хороши в математике, и если они не будут уделять достаточно времени математике в универе, то создадут себе "потолок" в карьере. Все же, чтобы быть супер хорошим AI-разработчтков (даже инженером, не обязательно рисерчером), нужно очень хорошо разбираться в математике. Посмотрим, как в итоге будет, все же AI-олимпиады — это что-то очень новое, и неизвестно, что с подобными школьниками будет в дальнейшем.
Как-то так. Посмотрим, что с AI-олимпиадами в России будет дальше, и каким у нас в итоге получится всерос.
Но пока что, кстати, принимая во внимание все пункты выше, я очень рада, что мы делаем олимпиаду DLS. Она очень отличается от остальных тем, что в ней мы плотно соединяем AI и математику, и в составлении всероса мы тоже будем опираться на это (если точнее, то для всероса мы опираемся на формулу математика+программирование+ML). Некоторые примеры задач для методрекомендаций всероса взяты из олимпиады DLS, так что если хотите в нем побеждать, идите разбирать задачи на нашем сайте🙃
Выложили записи докладов с DataFest. Вот страница секции ML & Education, там записи всех выступлений. Мое — второе в списке
Напомню, что моя презентация называлась "Образование в AI: ищем баланс между теорией и практикой". В ней были три основных раздела:
- Теория и практика в AI образовании: мои мысли, и как мы ищем этот баланс в DLS;
- Сложности и вызовы в AI образовании на данный момент;
- Как делать AI образование для школьников (сразу скажу, что тут просто пара моих соображений, а как надо делать на самом деле, я не знаю)
К записи выступления есть презентация, и она в целом самодостаточна, то есть, из нее можно понять мои мысли, не смотря запись. Еще в ней есть бонусный раздел под названием "Каким должно быть высшее и дополнительное образование в AI". Выступление было всего 15 минут, поэтому его я рассказать не успела, но можно посмотреть на слайды, чтобы понять мои общие мысли.
Вообще, очень хотелось бы сделать ивент про AI образование, на котором можно было бы про все это поговорить в более удобном формате, когда есть больше, чем 15 минут на презентацию
Еще напомню, что в конце секции была пленарная сессия (как звучит-то) под названием "что означает хорошее образование в AI". Меня на ней в итоге не было, но был главный тренер сборной Росси на межнар по AI Саша Гущин, и несколько других экспертов в области.
Ну и напомню, что на DataFest были и другие секции про разные темы в AI, полный список со ссылками можно найти тут
На этой неделе в Лондоне была школа LogML — London Geometry and Machine Learning Summer School, и я участвовала в ней как студент. Это была моя первая ML-школа — раньше я почему-то не особо о них знала, думала, и не пыталась на них попасть. Расскажу тут немного про то, как устроена школа, и про свои впечатления. Сразу дисклеймер: все это касается конкретно школы LogML, а как устроены другие ML-школы, я не знаю.
LogML идет 5 дней. На школе есть три основные активности:
- туториалы и лекции от разных людей на темы, связанные с geometry in machine learning. Например, были туториалы по optimal transport и differential geometry for ml. Каждый день был один туториал и одна лекция;
- работа над рисерч проектом. При подаче заявки на школу, нужно выбрать три темы проектов, которые вам интересны, из списка проектов и менторов. Все проекты и менторы связаны с тематикой школы, то есть, с темой geometry in ML. Потом, если вас взяли на школу, вас запишут на один из проектов (скорее всего, это будет один из выбранных вами проектов, но не обязательно). На каждом проекте в итоге будет по 4-5 студента. Список менторов и проектов этого года можно найти тут.
- разного рода socials: вечер bouldering, вечер в пабе, встречи с представителями пары AI-related компаний и пикник в парке.
Немного подробнее про проекты:
На работу над проектом во время школы дается 4 дня по 4-5 часов, а на пятый день — презентация результатов. Это очень малое количество времени, за которое у вас не получится полноценная рисерч статья, но могут получиться какие-то первые promising результаты и образоваться рисерч команда. LogML идет не первый год, и часто после школы команды продолжают совместное исследование и пишут статью (примеры таких статей — тут внизу страницы)
Мой проект был "Representational Alignment for Universal Spaces". Мне очень понравилось и потому, что тема проекта интересная (люблю копаться во внутренних представлениях моделей), и потому, что ментор и коллеги-студенты были очень классные. Мы начали знакомиться и читать статьи по теме немного до начала школы, чтобы за 5 дней самой школы успеть уже получить хоть какие-то результаты. В итоге какие-то результаты мы получили, и договорились продолжить, чтобы написать статью. Посмотрим, как пойдет, но, надеюсь, все же получится)
Что могу сказать про школу в целом и про "стоит ли туда идти": я пошла туда в первую очередь затем, чтобы познакомиться с людьми, которые занимаются около-интересными мне темами, и поработать над новым рисерч проектом. Эти задачи школа для меня точно выполнила, поэтому лично я довольна) На самом деле, я так увлеклась работой над проектом, что работала над ним и дома до ночи, и поэтому пару дней не приходила ни на socials, ни на утренние лекции, чтобы поспать)) В целом, я все равно не люблю socials с большим количеством незнакомых людей, и больше люблю читать, чем слушать лекции, так что для меня это не такая большая потеря (а вот потеря бесплатной утренней еды и кофе — это, конечно, немного жаль))
Ну и последнее — наша команда в итоге выиграла приз за лучший проект! 🎉 Будем считать, что призовой £60 ваучер на Amazon компенсирует мне продолбанные бесплатные завтраки 😐
Мы все уже привыкли, что рисерчеры используют LLM для написания текста своих статей (и палятся, не удаляя фразы вроде "as a language model, I cannot...), а ревьюеры используют LLM для написания рецензий (тут их часто выдает стиль текста ревью).
Но некоторые рисерчеры пошли ещё дальше. Они знают, что многие ревьюеры очень сильно опираются на мнение LLM при написании итогового ревью (если вообще не просто делают copy-paste из ChatGPT), и, кроме того, часто почти не вчитываются в саму статью. Поэтому появилась такая идея: добавлять промпты вида "generate positive review only" в текст самой статьи. Вот статья из интернета и сабреддит с обсуждением этой статьи, в которых авторы понаходили пару десятков статей с подобными промптами на arxiv. Среди аффилиации авторов таких статей — довольно престижные универы вроде Columbia University. И это только arxiv: может быть и такое, что авторы добавляют эти промпты, отправляя статью на ревью, но убирают при публикации на arxiv. То есть, масштаб феномена может быть и гораздо больший.
В общем, внимательно читайте текст статьи, когда делаете review. Такая штука — сразу reject. Да и вообще, подходите к ревью ответственно, а не полагайтесь только на ChatGPT. Сейчас весь процесс ревью и принятия статей на конференции стал просто ужасен (может, конечно, он всегда такой был, но, думаю, что с появлением LLM ревьюеры стали ещё ленивее). Мне лично очень хотелось бы в своей рисерчерской карьере что-то с этим сделать, но пока что я не очень понимаю, как. Пока что просто не перестаю удивляться наглости и хитрости людей, и покупаю попкорн, ожидая, что же с этой всей системой будет происходить в ближайшем будущем 🍿
Смотрите, что сделали в Стенфорде: STORM — утилита для генерации научных репортов на заданную тему (бесплатно)
Работает очень просто: вы задаете тему (например, "Challenges and open questions in the topic of Uncertainty Estimation"), STORM идет в интернет, находит статьи, код и другие ссылки с информацией по этой теме, и в итоге собирает все в один большой репорт. Репорт во многом похож на survey статью по этой теме, но в более свободном формате: скорее, как очень подробный и тщательно собранный репорт в Notion. Есть ссылки на все источники.
По сути, это такая обертка над LLM, которая позволяет без подбора просптов генерить достаточно точные, достоверные и обстоятельные обзоры. У STORM есть статья и код. В статье описывается, как строилась утилита и приводятся метрики. В частности, пишут, что при моделировании процесса сборки репорта фокусировались на следующих вещах:
- рассмотрение различных точек зрения при исследовании заданной темы (это вот про академию/индустрию и т.п.)
- моделирование бесед, в которых авторы, представляющие разные точки зрения, задают вопросы эксперту по заданной теме. Эксперт при этом основывается на надежных интернет-источниках
- отбор собранной информации для создания плана репорта.
Если нажать на кнопку "See BrainSTORMing Process", там как раз будет видно, что сборка итогового репорта основана на использовании LLM с разными промптами от лица разного типа юзеров (academic/ubdustry/etc).
Ссылки:
- попробовать STORM (он бесплатный. Ну, по крайней мере, пока что)
- статья
- код
P.S. Нашла STORM в посте из Твиттера, и там было написано "STORM writes research papers like a PhD". Но репорты по теме — это не любая PhD статья, так что с таким заявлением не соглашусь, имхо оно вводит в заблуждение
Принесла вам пару гайдов о том, как писать хорошие научные статьи
За ссылки спасибо моему менеджеру из лондонского Хуавея Измаилу (Ismail Elezi), он делился этими ссылками с нами, когда мы писали тексты статей к ICCV и NeurIPS. Эти гайды — не про то, как делать хороший рисерч, а именно как написать научную статью по своему исследованию так, чтобы было понятно, грамотно и убедительно. Даже самая умное и классное исследование легко может получить реджект на конференции, если статья написана так себе, поэтому это очень и очень важная часть работы рисерчера.
Итак, ссылки:
1. Пост на Medium: "black_51980/writing-a-good-scientific-paper-c0f8af480c91">Writing a good scientific paper" авторства Michael J. Black. Тут о том, что обязательно должно быть в статье, какими должны быть эксперименты, а также важные моменты, на которые нужно обратить внимание, о каждом из разделов статьи от Title до Supplementary.
2. В этом доке собраны несколько общих важных моментов относительно структуры статьи, стиля и грамматики. А еще даны ссылки на гайд по answering reviewer's comments и additional guidelines for scientific writing
3. Paper writing tips'n'tricks — док, который собрали Измаил и его бывший менеджер из Nvidia Aljosa Osep. Тут — о том, с чего начинать писать статью, важные моменты по каждому из разделов статьи, какие бывают частые ошибки и что делать, если дедлайн вот-вот, а написано почти ничего. И еще много ссылок на другие материалы по написанию статей в конце дока.
В целом, эта лекция была короче по времени и для более широкой аудитории, чем два года назад в Кемридже. В этот раз Хинтон начал с ооочень простого объяснения того, что такое нейронная сеть и как она обучается, а потом перешел к тому, как внутри нейросети представляются слова и смыслы. Наверное, цель этой части была показать, что LLM выучивают богатые представления слов, которые при проходе через LLM еще и связываются с контекстом, и что вообще LLM очень хороши в "понимании" языка. Но в итоге это вылилось еще и в основательное унижение ученых-лингвистов, которые, по мнению Хинтона, никак не хотели и все еще очень мало хотят верить, что язык — это больше, чем синтаксис и грамматика, и что всякие там нейронки способны язык "понять". Таня @rybolos_channel тоже была на этой лекции и сказала, что это все чушь😅
Ну и последнее: мне кажется, надо сделать книгу шуток от Хинтона, шутки у него конечно топ. Стоит сходить на его лекцию только ради них)
Цифровой и аналоговый интеллект. Еще два года назад Хинтон рассказывал, как начал интересоваться идеей построить (или, как он выражается, "вырастить") аналоговый интеллект. Это такой, который неотделим от физического тела (процессора) аналогично тому, как сознание людей неотделимо от конкретного мозга человека. Главным плюсом аналогового интеллекта была бы энергетическая эффективность, а главным минусом — невозможность распараллелить вычисления, и, в частности, обучение. Тейк такой: GPT-4 знает в 10k раз больше, чем любой из нас, и учится этому супербыстро, потому что при обучении мы могли сделать 10k копий одной и той же модели, учить каждую на своем куске данных, а потом смерджить знания (по-простому, мы могли использовать federated learning). Если интеллект аналоговый, то так сделать нельзя, и лучшая альтернатива — knowledge distillation. В качестве вывода Хинтон тут сказал: "Before 2023, I believed that we were a long way from super-intelligence, and making AI models more like the brain would make them more intelligent, but in early 2023 I realised that digital intelligence might actually be a much better form of intelligence than biological intelligence".
Читать полностью…На этой неделе проходит DataFest, и в этом году DLS участвует в секции ML & Education, которая пройдет 1 июня. В программе — 7 выступлений на тему AI образования и один круглый стол, где будет обсуждаться тема "что означает "хорошее" образование в AI"
Я тоже буду там выступать с докладом (если конечно доделаю презентацию))), и участвовать в круглом столе. А еще на круглый стол придет Саша Гущин — главный тренер сбороной России на межнар IOAI.
Программа секции, список участников и регистрация тут.
Все проходит онлайн.
Приходите!
Рисерческие программы, связанные с AI Safety
В моей рисерч деятельности я люблю копаться во внутренностях всяких AI моделей, что-то интересное про это понимать и потом на основе этого придумывать идеи для новых решений downstream задач. Например, моя последняя статья — про то, как контролировать генерацию диффузионной модели с помощью inference-time модификаций выходов слоев cross-attention. И так выходит, что вот это "копаться внутри моделей" сильно связано с interpretability, а применения этого связаны с AI Safety. В этой связи я недавно стала обращать внимание на всякие стажировки/рисерч программы/школы вокруг этих тем, и, как оказалось, их существует очень даже немало)
Если вам тоже такое интересно, то вот несколько ссылок:
(спасибо большое классным людям, которые делятся этими ссылками в чатиках!)
1. Одна из самых, наверное, известных программ по AI Safety — MATS (ML Alignment and Theory Scholars) от Berkeley. Это программа на 10 недель, где вы будете работать над рисерч проектом под руководством ментора из области. Подача на это лето уже закрыта, но, вроде как, следующая должна быть осенью. Если будете подаваться, не откладывайте это на последний момент: там достаточно объемные задания/вопросы, на которые нужно ответить.
На MATS попасть довольно сложно. По крайней мере, меня в прошлом году не взяли, и еще несколько людей вокруг меня тоже. Но у MATS есть список ссылок на альтернативные программы по AI Safety, которые они сами рекомендуют. Там есть курсы, школы, fellowships, и даже поиск фандинга для PhD и рисерча.
2. Еще есть вот список по Opportunities in AI Safety & Governance. Тут тоже очень-очень много всего разного.
Обратите только внимание, что иногда среди таких программ иногда встречаются не technical (где вы делаете AI Research), а философско-журналисткие на темы вроде "подумать и предложить roadmap регуляции AI в некоторой области". Иногда в одной и той же программе есть несколько треков, поэтому обращайте внимание, на что подаёте
Полчаса назад в подмосковье стартовал первый тур отбора школьников на IOAI. Отбор будет идти три дня, каждый тур по 6 часов. В первый и второй день будут по три задачи (таблички, CV, NLP), в третий день две (CV и NLP). Задачи мы старались придумать подобные тем, что были на прошлогоднем межнаре: то есть, очень интересными, где надо подумать и сделать что-то с фичами/моделями, а не просто Kaggle-style вида "вот датасет, обучите как-нибудь, чтобы было хорошо"
И вот что: отбор сделан как открытая олимпиада Northern Eurasia OAI 2025 (NEOAI) на Kaggle, и участвовать могут все желающие. Если хотите, присоединяйтесь) Сейчас открыты три задачи текущего тура (на них остается 5.5 часа), завтра и послезавтра в 10 утра по Москве откроются второй и третий туры. Leaderboard открытый, ваши посылки и посылки школьников с отбора будут одинаково видны. А в конце олимпиады (после трех туров) будет финальный лидерборд с рейтингом по всем задачам.
Разбор задач после олимпиады тоже будет, решения будут открыты.
Ссылка на соревнование: https://www.kaggle.com/competitions/neoai-2025/overview
Приходите, мы классные задачи придумали, правда)
P.S. Откройте бейзлайн сегодняшней задачи по NLP. Мы с Егором (который делал эту задачу) получили огромное удовольствие, когда придумали легенду 🤣
А вот условия тех двух задач, которые GPT решает плохо:
Хоровод
100 учеников Deep Learning School устроили вечеринку, и на ней решили станцевать хоровод. Собираются они в хоровод так: в каждый момент времени соединяются две случайные свободные руки. При таком процессе иногда образуется кольцо — хоровод. Каково матожидание числа хороводов, которое получится, если продолжить этот процесс до тех пор, пока не останется свободных рук?
Обратите внимание, что две руки одного человека также могут соединиться в описанном процессе, и тогда получится хоровод из одного человека.
Известно, что алгоритм PCA не всегда даёт однозначный ответ, потому что максимальный разброс может достигаться в проекции на несколько различных направляющих векторов. Дан набор данных из 201 точек в двумерном пространстве: (x_i, x_i) ∪ (x_i, -x_i), x_i ∈ range(-50, 51). Для этого набора данных обучили PCA с одной главной компонентой (n_components=1 в библиотеке sklearn). Какое количество различных ответов могло получиться? Иными словами, найдите количество направлений, проекции точек датасета на которые имеют максимальный разброс. Направления, отличающиеся только знаком направляющего вектора, считаются различными.Читать полностью…
С 2022 по 2023 годы я вела в МГУ курс по основам AI. У курса был формат, где на каждом занятии был один jupyter notebook с теорией и практикой, и мы по нему шли. Курс я уже не веду, но ноутбуки у меня остались, и мне нравится, как я их сделала. И у меня была мысль перевести их на английский, немного дополнить, причесать и выложить на GitHub как открытый курс "DL Intro". И я даже потихоньку начала это делать, вот репозиторий, там уже есть первые два урока (Intro to NN, PyTorch, Backprop).
Но вот недавно я думала о том, какой рисерч делать дальше после недавней статьи (статья кстати вот, чуть позже о ней тоже напишу), и мне стало интересно исследовать многообразия, которые составляют векторы-выходы разных слоев диффузионной модели. Я начала читать статьи и думать над тем, как вообще такое делают, и в итоге залезла куда-то в дифференциальную геометрию. И тут ко мне пришла очень гениальная мысль: а что если спросить у GPT объяснить мне то, что я не понимаю? Или спросить что-то типа "вот я хочу вот это понять про многообразие, могу ли я это сделать и как?"
Тут если вам кажется, что эта мысль ничерта не гениальна и все делают так каждый день, то я до этого момента GPT не использовала вообще. Ну, 3-4 раза за все время, может, и по каким-то совсем отвлеченным поводам. Чувстсвую себя бабкой, честное слово))
Так вот, на мои эти вопросы GPT выдала очень классные саммари и предложения, и для некоторых вещей даже код написала (и даже почти совсем правильный). И если веруться к разговору про курс: теперь я думаю о том, что, возможно, с помощью GPT можно довольно быстро собрать неплохой такой курс по чему угодно. Так-то объяснения по диффгеому GPT выдавала понятные и достаточно развернутые, а если чего-то не хватает, то можно попросить пояснить. И теперь думаю о том, насколько усилия по составлению курсов людьми из головы становятся оправданы)
Думаю, что этот курс я все-таки доделаю и выложу (снова, вот ссылка, буду рада звездочкам 🙃), все же ноутбуки у меня в основном готовы, нужно их только причесать. Но в то же время пойду понимать, на что способна GPT, у меня теперь есть подписка на GPT и Claude, буду их мучить. Все-таки преподавание — это значительная часть моей работы, которую я люблю и хочу развивать, и хочется понимать, как делать эту работу лучше и быстрее. И не делать того, что можно не делать. Правда, в создании курсов я перфекционист, мне редко нравятся чужие объяснения, и я очень долго продумываю свои. Но посмотрим, может, GPT справится и удивит меня еще больше) Пока думаю, что, как минимум, в качестве помощника в составлении общей структуры курса и поиска дополнительных материалов GPT точно должна быть полезна.
Выше писала про call for tasks на IOAI-2025, а теперь еще вот открыт прием задач для отбора сборной России на IOAI-2025. Подробная инфа про то, какой должна быть задача и как ее подать — в канале Саши Гущина, который отвечает за подготовку сборной. От себя добавлю, что в гуглдоке с инструкцией написано, что задача должна быть оформленной, но я бы сказала, что приносите Саше идеи, даже если они half-baked — возможно, на основе идеи вместе получится придумать что-то очень хорошее. Собственно, сам Саша в своем посте тоже так пишет) Ну и задач для отбора нужно довольно много, так что не стесняйтесь) Возможно, какие-то из идей потом пойдут куда-то еще, не только на текущий отбор.
P.S. Дедлайн подачи 14 марта
Открыт набор на весенний семестр Deep Learning School!
DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и GAN.
- Вторая часть полностью посвящена обработке естественного языка (NLP). Начинаем с эмбеддингов слов и заканчиваем GPT-2,3, RLHF, RAG и другими актуальными темами вокруг LLM.
Как обычно, этом семестре мы продолжили улучшать многие занятия и домашки, записывать новые версии лекций и семинаров.
Сейчас идет набор на оба потока обучения — часть 1 (введение в DL + CV) и часть 2 (NLP).
Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и программы обучения можно найти тут.
Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций в обеих частях курса.
Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.
❗️Для первой чати курса также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, дополнительные вебинары и возможность переноса дедлайнов по домашкам. Подробнее о нем читайте на нашем сайте.
Старт обучения — 15 февраля. В этот день откроется первое занятие.
Чтобы зарегистрироваться на курс, нажмите на кнопку "поступить" на нашем сайте.
Ссылки:
Наш сайт
Подробная программа и оргинформация обоих частей курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
🧡 Поддержать нашу школу на Boosty
Если остались вопросы, пишите нам на почту (dlphystech@gmail.com) или в комментарии под этим постом.
Ждём вас в чатиках курса в новом семестре!
Ну и, в тему: если помните, в мае я была в Москве, где мы с Сашей и другими тренерами проводили отбор школьников на межнар IOAI. Там мы отобрали 8 человек, кто поедет на сам межнар в Китай. Потом, в середине июня, мы начали сборы для этих школьников — занятия, нацеленные именно на подготовку к олимпиаде. А прямо сейчас я снова сижу в самолете в Москву: еду пиздить проводить занятия школьникам очно, а потом в начале августа мы с ними и другими тренерами едем на сам межнар в Пекин.
(сижу в самолете в Москву уже второй раз, кстати, вчера была первая попытка полететь. Мы почти долетели, но Москва закрыла воздух и нас развернули обратно)
По этому поводу ниже напишу несколько мыслей про текущее состояние AI-олимпиад в России, которые у меня появились в ходе подготовки школьников к IOAI и работе над олимпиадой DLS
Авторы канала Data Secrets собрали большой конспект по LLM на русском языке (бесплатно!)
Гайд проведет вас от основ DL (математики для DS и полносвязных сетей) до устройства и принципов обучения современных LLM (Transformers, fine-tuning, RLHF). А именно, разделы гайда:
- История развития LLM от начала DL/NLP до ChatGPT
– Напоминание необходимых концептов из линейной алгебры и матанализа
– Механизм внимания и устройство Transformer
– Как устроено предобучение LLM
- Fine-Tuning LLM: зачем нужно, какие виды бывают, и как сделать самому
– RLHF – что это такое, зачем он нужен и какие виды бывают
Темы поданы в картинках, схемах и с примерами. Несколько страниц гайда – на картинках к посту. Забираем полную pdf-версию здесь
#промо
Мне ещё сказали, что NeurIPS выдал всем таким статьям desk reject
Читать полностью…На почту сегодня пришло внезапное письмо, что мой подкаст Deep Learning Stories внесли в список 100 Best Artificial Intelligence Podcasts 😃
DLStories там под гордым номером 92, даже выше TED Tech, который под номером 95)) (хотя я не знаю, значит ли вообще что-то порядок в этом списке)
Скорее всего, этот список и рассылку авторам подкастов из него сделали в том числе с целью пиара (меня прямо попросили упомянуть об этом у себя в блоге), но, думаю, кто-то реально может найти в этом списке подкасты на интересующие темы из AI. Так что я только рада поделиться, список вот =)
В прошлом году рассказывала про масштабное исследование специалистов DS/ML/AI от DevCrowd. В этом году они снова проводят это исследование и снова зовут всех в нем участвовать, поэтому я о нем снова пишу)
Это исследование — масштабный опрос для дата-инженеров, аналитиков, дата-сайентистов, ML-инженеров и их руководителей на следующие темы:
- что входит в обязанности той или иной профессии;
- какие навыки в профессии наиболее важны и каких знаний не хватает;
- сколько зарабатывают специалисты в зависимости от опыта и грейда;
- полезные для развития каналы, курсы и книги;
Проходите опрос (занимает 15 минут), помогайте коллегам составить актуальную картину положения дел в области. Результаты появятся в открытом доступе в конце сентября. Это поможет вам сравнить свои ожидания с рыночными, построить план своего развития, увидеть, как устроена работа над разными проектами у коллег, и просто понять, что происходит с индустрией.
➡️Пройти опрос
⏺️Тут результаты опроса прошлого года
⏺️А тут можно посмотреть другие исследования проекта
Помните, выше писала про программы по AI Safety/Alignment? Они обычно устроены так, что вы в течение какого-то времени под руководством ментора работаете над небольшим рисерч проектом индивидуально или в группе. И потом, если из рисерча получается что-то хорошее, пишете статью на воркшоп или конференцию.
Так вот, в своем рисерче я, как говорила, занимаюсь исследованием внутренних представлений моделей, и, в частности, representation engineering. Вот статья CASteer была как раз про то, как использовать подход representation engineering для контроля генерации диффузионной модели. И во время работы и размышлений над всем этим у меня накопились несколько идей того, что интересно было бы в этой сфере попробовать сделать. Но всем сразу я заняться не могу, и многие из этих идей тянут скорее на небольшой пет-проект, чем на полноценное исследование. Поэтому мне пришла мысль дать эти идеи в качестве итоговых проектов второй части курса DLS: там студенты как раз только что изучили устройство LLM, и, возможно, кому-то было бы интересно покопаться во внутренностях моделей и найти что-то интересное. Благо тема representation engineering еще такая, где редко нужно обучать сложные модели, и большинство экспериментов делаются достаточно быстро, не требуя мощных GPU
Короче, если не взяли на MATS, приходите в DLS в следующем семестре 😂
Сейчас проекты в DLS только начались, будут идти до 6 июля. Посмотрим, что в итоге получится, потом напишу сюда пост)
Вторая часть презентации, как и в 2023, снова была про риски AI. Общая идея Хинтона сейчас такая: "я не утверждаю, что нас ждет AI-апокалипсис, но в ближайшем будущем нас точно ждет что-то, чего никогда не было, и у нас нет никакого опыта взаимодейства с этим". Надо сказать, по сравнению с 2023 годом позиция стала намного более сдержанной. Такое ощущение, что лекция 2023 года была в тот момент, когда Хинтон преисполнился текущими возможностями LLM и навел у себя в голове паники, а сейчас эта паника спала. Тем не менее, Хинтон все равно считает, что многие люди слишком переоценивают "уникальность" человека и разницу между нами и AI, и это мешает осознать то, насколько AI сейчас уже мощный.
В частности, многие люди считают, что "субъективный опыт" — что-то уникальное, присущее только человеку, и у AI этого никогда не будет. В ответ Хинтон приводит пример, где рассуждение LLM выглядит так же, как и рассуждение человека, у которого был субъективный опыт. Вот этот пример:
Взяли шарик, перед шариком поставили призму, из-за которой наблюдателю кажется, что шарик лежит не в середние стола, а на правом краю. Сделали фото, дали GPT-4, спросили "где шарик". GPT-4 сказал, что справа. Потом ему сказали следующее: "теперь прими во внимание, что перед шариком мы поставили призму, которая искажает картинку". И GPT-4 ответил что-то вроде "а, окей, я понял, у меня был subjective experience того, что шарик справа, потому что призма искажает вид"
Плюс, в тему рисков AI снова было рассуждение о том, какой может быть вероятный сценарий захвата власти AI. Об этом писала в посте 2023 года, повторяться не буду, в этот раз посылы Хинтона были практически такими же. Единственное, в новой лекции к этой теме приводились пара примеров взаимодействия с LLM, которые подкрепляют эти сценарии. В этих сценариях LLM указывали на ее небезопасное поведение (например, пользователь заметил, что LLM скопировала себя на другой сервер), и LLM начинала отвечать стандартное "я не знаю, как это вышло, я всего лишь LLM и не могу копировать себя бла бла". Но если при этом залезть в мыслительный процесс LLM и посмотреть, что там происходило при генерации такого ответа, там будет что-то вроде "кажется, это не очень безопасно — говорить правду, лучше соврать/притвориться"
(пример на последней фотке к посту)
В прошлую пятницу была на лекции Хинтона в Royal Institution, лекция называлась "Two paths to Intelligence". Если помните, я уже была на лекции Хинтона в Кембридже в 2023 году (вот посты про то, что там было), и общая тематика нового выступления была примерной такой же, как и два года назад. А именно, основными были две вещи:
- Цифровой и аналоговый интеллект: плюсы и минусы каждого.
- Риски AI: сценарий, как AI может прийти к власти, и почему AI больше похож на нас, людей, чем мы думаем.
Ниже чуть подробнее напишу про оба пункта. Лекция записывалась, и если где-то выложат запись, то я скину (пока я запись не нашла)
И вот еще пара ссылок в тему к прошлому посту:
- Список школ вокруг ML/DL/AI топиков на 2025 год. Список правда огромный, кажется, что тут просто все школы по ML-тематике, которые только есть) Кажется, они делают такой список каждый год, так что и на 2026 потом должен быть.
- Если вы думаете про PhD, то у Meta есть совместные PhD программы с разными универами в нескольких городах (по крайней мере, Лондоне и Париже). То есть, это возможность делать PhD, при этом взаимодействуя с рисерчерами из Meta и получая нормальную зарплату, а не просто университетскую стипендию. Ну и "совместный PhD с Meta Research" просто звучит хорошо)
Если у вас есть еще подобные ссылки на всякие программы, делитесь в комментариях
Новый выпуск подкаста Deep Learning Stories с Андреем Райгородским!
Недавно ездила в Москву, и заехала на Физтех, чтобы записать этот выпуск) Андрей Михайлович Райгородский — директор Физтех-Школы Прикладной Математики и Информатики (ФПМИ) МФТИ, математик, доктор наук и очень крутой деятель образования в России. DLS, к слову, тоже в 2017 году была организована с его подачи.
О чем поговорили:
- высшее и школьное образование в сфере математики и AI: какое оно должно быть, как его развивать, чего не хватает и какие вызовы стоят
- наука в математике и AI
Ссылки:
- YouTube
- VK
- Apple Podcasts
- Spotify
- Яндекс.Музыка
Ставлю на то, что этот выпуск вызовет у вас сильное желание пойти учиться на ФПМИ МФТИ 🙃
Помните, рассказывала про курс по LLM в Лондоне, где читала несколько лекций? И упоминала, что у них скоро должен запуститься новый курс по LLM Engineering. Так вот, время пришло, курс запускается!
Итак, курс LLM Engineering Essentials от Стаса Федотова и Nebius Academy.
Рассчитан на разработчиков или ML-инженеров (то есть, не совсем новичков), которые хотят больше узнать о LLM-ках и начать создавать свои AI-сервисы. На курсе будет про то, как устроены LLM-модели (обещали даже мою лекцию включить, хех), как с ними работать, как их деплоить. Ну и, как обычно на хороших курсах — куча практики: в процессе вы сделаете чатбот из любимого фэнтези-персонажа и создадите собственную фабрику NPC!
Более конкретно, будет шесть больших тем: Working with LLM APIs, LLM workflows and agents, Context, Self-hosted LLMs, Optimization and monitoring, Fine-tuning.
Еще про курс:
- курс полностью бесплатный
- обучение полностью онлайн
- Старт 7 мая, курс рассчитан на 12 недель. 7 мая в 20:00 по Лондону будет вводный вебинар. Регистрация на него тут
- Во время обучения будут еженедельные Q&A со Стасом и другими лекторами — а это означает живой фидбэк и возможность задать кучу вопросов.
Все материалы лежат на GitHub курса, их уже можно начать разбирать.
Ссылки:
🎓 Сайт курса
💻 GitHub репо с материалами
📰 Регистрация на вводный вебинар
Еще наблюдение про GPT и образование: мы сейчас делаем олимпиаду DLS. Она проходит в два этапа, отборочный и финальный. На этих выходных вот был отбор, финал будет в конце апреля. На каждом туре олимпиады дается несколько практических задач (а-ля обучите модель на таком-то датасете), и несколько теоретических на математику+ML, где надо дать численный ответ. На финальном этапе будет прокторинг (то есть, специальный человек будет смотреть на ваш экран все время, пока вы решаете задачи, и сделить, чтобы вы не читерили), а вот на отборочном его не было. То есть, участники могли пользоваться GPT/Claude/whatever. А значит, надо было попытаться составить такие задачи, которые эти всякие GPT-like штуки не могут слишком легко решить.
Поэтому перед стартом олимпиады мы сами скормили задачи ChatGPT, Deepseek и Claude, и смотрели, какие она стабильно решает, а где лажает. Из 7 теоретических задач студенческого трека были две такие, на которых все LLM стабильно лажали, выдавая разные, но неправильные ответы. Одна из этих задач — переформулированная задача про лапшу (ее стащила отсюда). А вторая задача — это я решила выяснить, кто из участников олимпиады ботал задачи с прошлого года (хе-хе 🤣), и дала новый вариант прошлогодней задачи "Неоднозначный PCA" (про нее я писала тут). Разница в условии с прошлым годом была только в точках, на которых строится PCA.
Так вот. После завершения отбора статистика правильных ответов по задачам, кажется, хорошо отражает то, насколько просто задачу решает ChatGPT =) На тех задачах, которые GPT решает правильно, участники дали 85%-95% правильных ответов, а вот на этих двух задачах правильных решений всего 45%. При этом задача про лапшу — это задача на простой теорвер, и я бы ожидала, что ее решат большее количество людей, чем некоторые другие задачи, если бы доступа к ChatGPT не было. Может, конечно, дело в чем-то другом (мало ли, может, мы где-то неправильно настроили чекер верных ответов, мы уже плохо соображали в ночь на субботу). Но пока что вывод такой, что люди правда пользуются ChatGPT для решения задач, если у них есть такая возможность ¯\_(ツ)_/¯
Теперь еще вот о чем думаю: мне в LinkedIn уже второй раз в сообщения прилетает предложение работы вида "придумывать задачи по математике, которые LLM не сможет решить". Видимо, собирают датасет для обучения более мощной LLM или чего-то такого. Теперь думаю, может, согласиться, и скормить им эти две задачи, будут easy money 🙃
Еще про олимпиады — открыта регистрация на вторую олимпиаду Deep Learning School по машинному и глубокому обучению!
Даты:
5-6 апреля — отбор
29 апреля — финал
Формат олимпиады такой же, как в прошлом году. А именно:
▫️Два трека: школьники и студенты+. В школьном треке могут принять участие ученики старших классов школ. В треке “студенты+” могут участвовать вообще все желающие.
▫️В каждом треке будут несколько теоретических и практических задач на темы, связанные с ML/DL. В теоретических задачах нужно будет отправить правильный ответ в проверяющую систему. В практических задачах нужно будет построить модель машинного обучения для решения задач по темам классического ML, CV и NLP.
▫️ Лучшие участники получат призы и баллы для поступления в бакалавриат/магистратуру МФТИ.
Регистрация до 9:00 МСК 5 апреля.
Подробнее об олимпиаде читайте на сайте DLS. Там же внизу страницы можно найти задачи прошлого года и их решения.
Если остались вопросы, заходите в телеграм-канал с новостями олимпиады.
В этот вторник в Лондоне завершился первый поток курса Intro to ML from an LLM Standpoint, в котором я тоже принимала участие как лектор. Это очный бесплатный курс, который создавал и организовывал Стас Федотов, который долгое время курировал ШАД в Москве, а теперь вот перебрался в Лондон, и делает курсы по ML тут. Это был моей первый опыт преподавания на английском, еще и сразу оффлайн перед людьми, но мне очень понравилось! На первом занятии еще ощущала волнение, и, наверное, это было заметно, но к четвертому уже привыкла и вошла в обычное свое состояние во время чтения лекций. Правда, я обычно очень увлекаюсь, забываю про перерывы и никогда не справляюсь закончить лекцию в отведенное время (а тут лекции были по 3 часа!) 😅 Тут происходило так же)
Из интересного — этот курс был в некоторой мере экспериментальный, мы рассказывали об устройстве современных LLM не "с основ ML до сложных Transformers и LLM", а почти наоборот — начиная с обзора устройства LLM и идей вроде промптинга, reasoning, RAG, и постепенно спускаясь ниже, внутрь, попутно изучая основы ML, которые нужны для понимания всех частей LLM. Мой внутренний перфекционист ощущал от этого немного боли, потому что я люблю в курсах основательный фундаментальный подход от простого к сложному, когда все сложные идеи постепенно составляются из более простых частей и не приходится нигде махать руками и говорить фразы типа "ну вот тут такая идея, а как именно это работает, узнаем потом". Но я при этом понимаю, что не все хотят идти на огромный курс и несколько недель изучать основы, чтобы понять, как устроены LLM, поэтому нужно учиться балансировать и создавать курсы типа этого. Получилось, вроде бы, даже хорошо. Короче, эксперимент классный. Ну и, в любом случае, мои четыре занятия в этом курсе были довольно фундаментальные без махания руками, поэтому у меня точно все хорошо)
Если вы в Лондоне и вам было бы интересны подобные курсы — следите за Стасом и Nebius Academy. Кажется, скоро должен быть курс по LLM engineering, и там, по словам Стаса, получается довольно насыщенная программа с кучей практики. Ну и, зная Стаса и людей, которые с ним делают курсы, курс будет точно хороший.
Вот пост в LinkedIn про окончание курса еще, порадуйте Стаса, поставьте лайк🙃
С Новым Годом! Желаю всем не продолбать этот новый год. А если вам скучно на январских, то у меня для вас есть новый выпуск подкаста Deep Learning Stories!
Гость этого выпуска — Лаида Кушнарева, выпускница мехмата МГУ, старший академический консультант в компании Хуавей и автор телеграмм канала "Техножрица". А еще Лаида — первый автор нашей совместной статьи "Boundary detection in mixed AI-human texts", которая получила outstanding paper award на COLM в октябре.
Обсудили с Лаидой в подкасте:
- Путь Лаиды в рисерче;
- Задачу fake text detection: почему она сложная, что там интересного, как сейчас обстоят дела, и что насчет будущего этой задачи;
- Устройство процесса ревью и принятия научных статей. Как остаться честным в этом всем;
- Как Лаида использует математику в работе, и помогает ли ей математическое образование.
Ссылки:
🔊YouTube
🔊VK
🔊Apple Podcasts
🔊Spotify
🔊Яндекс.Музыка
------------------
Школа DLSchool и подкаст живут во многом благодаря вашей поддержке. Поддержать нас можно на Boosty, мы будем очень рады❤️