sberlogabig | Unsorted

Telegram-канал sberlogabig - (sci)Berloga Всех Наук и Технологий

7600

Мультидисциплинарный канал о науке и технологиях. Data Science, Bioinformatics, Biology, Mathematics, Physics, IT, Computer Science. @sberlogabio био и дата сайнс @sberlogasci математика, физика и ДС https://www.youtube.com/c/SciBerloga

Subscribe to a channel

(sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGASCI webinar on data science:
👨‍🔬 Сергей Лыткин (к.ф.-м.н.) "Введение в Reinforcement Learning методы на графах»
⌚️ Пятница 26 июля, 18.00 (по Москве)

Add to Google Calendar

Будет рассказано применение методов RL к задачам теории графов. Дистанция на графе (до выделенной вершины или множества вершин) - удовлетворяет очень простому варианту уравнения Беллмана d(g) = 1 + min_{neigbours of g} d(neigbour) . Тем самым методы RL дают возможность искать решения уравнения Беллмана, а значит в частности находить метрику на графе, стартуя с произвольной инициализации. Как быстро будут сходиться алгоритмы RL ? Можно ли улучшить сходимость сделав правильную инициализацию ? Эти вопросы будут рассмотрены в докладе, ответы на них не так очевидны.
Будут рассмотрены примеры графа состояний (Кэли) маленького кубика Рубика размера 2×2×2 ( больше 3 миллионов состояний). Данный граф достаточно мал, для того чтобы было удобно и быстро проводить эксперименты, но уже нетривиален и можно видеть общие феномены.

Более общо методы Deep-Q-learning - нейронные сети совмещенные c RL позволяют работать с графами сверх больших размеров - 10^100. По аналогии с работами, где обучение с подкреплением с успехом применяется для нахождения оптимальных решений в играх с очень большим числом состояний, таких как шахматы или го (вспомним AlphaGo, AlphaZero, MuZero).

Notebooks: https://www.kaggle.com/code/fedmug/bellman-rc2
Notebooks: https://www.kaggle.com/code/fedmug/bellman-convergence-for-rc2
(Апвоуты - приветствуются ! )

Приходите на доклад ! А, также, если Вам интересно машинное обучение и/или математика - приглашаем Вас принять участие в проекте по применению методов МЛ/RL к теории групп/графов Кэли - напишите @alexander_v_c - если хотите принять участие.

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

Читать полностью…

(sci)Berloga Всех Наук и Технологий

‼️Друзья, с радостью анонсирую курс «Основы временных рядов»!

На этом курсе вы научитесь работать с временными рядами, а также понимать их природу и преобразовывать таким образом, чтобы эффективно решать задачи.

😎 Для кого этот курс?
- Специалистам DataScience и Анализа данных, которые хотят получить более глубокое понимание работы с временными рядами
- Менеджерам, которые хотят говорить со своими специалистами на одном языке и понимать особенности в решении задач временных рядов

📰 Состав курса:
- 4 блока
- 16 занятий (12 лекций, 4 практики)
- 8 домашний заданий
- Уютное и обогащающее комьюнити
- Живое общение с преподавателем и однокурсниками
- Легкая и добрая атмосфера с юмором :)
- Доступ к материалам и видео к занятиям - НАВСЕГДА!

⏰ Как долго?
Длительность курса - 4 месяца, по 1 занятию в неделю.

🏃‍♂️ Старт курса запланирован на начало августа этого года.

А для ответов на все ваши вопросы и просто оценить атмосферу, приглашаю вас на ознакомительный вебинар курса 23.07 в 20:00 по Москве.

Буду рад встречам ☀️

Читать полностью…

(sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨‍🔬 Влад Виноградов ( @ BIOPTIC.io ) "Решение GOLD в соревновании Leash Bio (BELKA) на Kaggle"
⌚️ Четверг, 19.00 (по Москве), 25 июля 2024

Add to Google Calendar

Решение GOLD в соревновании Leash Bio (BELKA) на Kaggle от Влада Виноградова @ BIOPTIC.io — модель на основе SMILES-трансформера и правильный бенчмаркинг — все, что нам нужно

См. конкурс, который закончился две недели назад: https://www.kaggle.com/competitions/leash-BELKA

Помимо описания выигравшего решения, мы поговорим о:
🔘 Современных ligand-based моделях для предсказания молекулярных свойств (GPS++, MPNN++, Transformers и другие)
🔘 Жёстких разделениях молекулярных данных на основе сходства для преодоления проблемы обобщаемости (и разрушения 95% заявленных в литературе результатов по предсказанию молекулярных свойств)
🔘 Широкомасштабной настройке гиперпараметров в облаке

P.S. Доклад будет на английском

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

📹 Video: https://youtu.be/DucJWdc7Ww4

Читать полностью…

(sci)Berloga Всех Наук и Технологий

Дружеская рекомендация отличного канала: /channel/artificial_stupid
и интересных постов на нем :

Читать полностью…

(sci)Berloga Всех Наук и Технологий

Мы ищем стажеров!

👩‍🌾 shorties — это персональная программа, в которой мы выращиваем таланты до полноценных Research Engineer’ов или Research Scientist’ов в зависимости от ваших интересов.

🔭 Intern Research Scientist

Вы будете заниматься написанием статей на top-tier ИИ конференции (NeurIPS, ICLR, ICML) и участием в научном дискурсе: проведение экспериментов, проверка и генерация исследовательских идей, которые направлены на развитие научного знания.


🧪 Intern Research Engineer

Вы будете заниматься созданием новых frontier-технологий и применением Reinforcement Learning в реальных задачах.


Тестовые задания и подробные описания позиций можно найти по ссылкам выше, дедлайн подачи заявки — 15 августа.

- - —
@dunnolab

Читать полностью…

(sci)Berloga Всех Наук и Технологий

Почему ты теряешь деньги и время на вкат в Data Science

При вкате в Data Science ребята допускают кучу ошибок на своём пути, например:

1️⃣ Я не знаю какую область мне выбрать? 🎮
2️⃣ Где и как мне учить материалы по Data Science? 🇺🇸
3️⃣ Допустим я учусь, но как мои знания будут применяться на работе ?  🙈
4️⃣ А где и как нужно искать вакансии ? А что учить на собесах ? А почему мне не пишут HR`ы ? А что спрашивают на собесах ? Мне страшно ходить на собесы, вдруг я обсренькаюсь и что дальше ??? 🎮

Можно бесконечно продолжать список вопросов, поэтому и существуют менторы, чтобы их решить. Ментор - это человек, который будет наставлять тебя на твоём пути развития, постоянно корректируя твой процесс обучения для более эффективного достижения цели.

Как менторство может помочь именно тебе?
Отвечая на этот вопрос, буду приводить основываться на данных из своей практики ментора.

1️⃣ Экономия времени и денег.
Средняя зп джуна ~110к, без ментора вы будете заниматься около года-полтора (12-18 месяцев), а с ментором около (6-8 месяцев, по личному опыту знаю). Простая математика: вы экономите 6-10 месяцев, а как следствие 6 * 110 - 10* * 110= 660к - 1100к. А если вы ещё и сразу на мидла идёте, то экономия около 1200к - 2200к... 🍑

2️⃣ Вы приобретёте более глубокие навыки, если будете учиться с ментором.
Ментор, как человек опытный, даёт вам всю свою накопленную экспертизу: как получить первый оффер, как уничтожать собеседования, как правильно торговаться, как правильно себя показывать на собесах и тд. Самим вам придётся кровью и потом выбивать эти навыки и опыт, поэтому для сокращения пути ментор - самый лучший вариант. 📞

3️⃣ Сообщество единомышленников
У меня есть группа, в которой я ребят довожу вплоть до оффера, на данный момент там около 20 человек. Мы регулярно устраиваем созвоны, на которых я разбираю основные ошибки, пробелы и затыки ребят на пути приобретения оффера. Также ребята активно переписываются и проводят МОКи между собой. 🎲

4️⃣ Кукухология.
Зачастую так бывает, что основным затыком являются страхи. Именно это и прорабатывается на менторстве, чтобы вы смогли идти и уничтожать собесы 💪

Итог:
Если вы хотите получить оффер, или вам необходимо сделать продающее резюме, роадмап, накинуть материалов, то приглашаю к себе на менторство
Вот видео, в котором я рассказываю про себя и свои услуги.

Читать полностью…

(sci)Berloga Всех Наук и Технологий

#работа

# Методичка по поиску работы в ML/DS и IT в целом

В канале накопилось немало материала про поиск работы. Я собрал, дополнил и превратил всё в небольшую книжку.

Все кратко и по делу. Чтения минут на 30. Внутри рассматриваю поиск работы с самых азов и до деталей с примерами из жизни.

https://btseytlin.github.io/intro.html

Если вы давно читаете этот канал и хотели бы ему помочь, то вот лучший способ: скиньте методичку кому-то из друзей.

@boris_again

Читать полностью…

(sci)Berloga Всех Наук и Технологий

Игра была придумана Г. Бальбо в 1974 году и впервые описана в французском шахматном журнале Le Courrier des Echecs в сентябре того же года.

Игра следует стандартным шахматным правилам, с некоторыми отличиями из-за новой доски. Поскольку король начинает игру не на обычном месте, рокировка невозможна.

Правила для пешек (их всего семь) также были изменены в соответствии с новой геометрией доски:

Пешка, достигшая дальнего конца d-, e-, f-, g- или h-колонки, может превратиться в ферзя, ладью, слона или коня.
Пешка, достигшая дальнего конца c- или i-колонки, может превратиться только в слона или коня.
Пешка, достигшая дальнего конца a-, b-, j- или k-колонки, не может превращаться и остается на месте как препятствие, пока её не захватят или не появится возможность захвата, который уберёт её с этой клетки, после чего она может продвигаться дальше.

Читать полностью…

(sci)Berloga Всех Наук и Технологий

Всем привет!

На прошедшем вчера третьем этапе AutoML Grand Prix на Kaggle команде Лаборатории AI "LightAutoML testers" удалось занять 3-е место, уступив только командам из H2O с решениями на базе платного решения Driveless AI и опередив коллег из Amazon, Microsoft, MLJAR и других компаний.

Полное решение с описанием будет выложено в ближайшие дни (следите за обновлениями 🤓), однако уже сейчас публично доступно сверхбыстрое решение на основе одной табличной нейронной сети из LightAutoML, способное занять 5-ое место: https://www.kaggle.com/code/simakov/lightautoml-denselight (вы знаете, что делать ⭐️)

Happy Kaggling 🦙

Читать полностью…

(sci)Berloga Всех Наук и Технологий

3 июля - пройдёт бесплатная онлайн-конференция DataStart по Data Science, машинному обучению и нейросетям. Вас ждут увлекательные доклады, море дискуссий и нетворкинга. Скорей регистрируйтесь - clck.ru/kPirN

Более 1000 участников, крутой состав спикеров, возможность задавать вопросы, найти ментора и многое другое. 🔥

Что будет:
- 2 трека, 16 часов докладов;
- годнота от талантливых практиков;
- нетворкинг;
- высокий уровень программы;
- бесплатная онлайн-трансляция;
- видеозаписи и презентации;
- высокий уровень программы.

Для кого:
- Data Scientist, Data Analyst и Data Engineer.
- Computer Vision Engineer и NLP Engineer.
- Machine Learning Engineer.
- Руководителям бизнеса.

Кейсы, практика и четкие схемы, которые вы можете применить уже сегодня. То, что актуально прямо сейчас. Знания, которые можно внедрить в любой бизнес, и при возможности масштабировать.

Встречаемся 3 июля - https://clck.ru/kPirN. Трансляция будет бесплатной, но если вы хотите купить видеозаписи, то воспользуйтесь промокодом специально для наших подписчиков: Sberloga500

Читать полностью…

(sci)Berloga Всех Наук и Технологий

🚀 Хотите стать экспертом в Qlik Sense?
👨‍🔬 Тогда подпишитесь на канал нашего знакомого - @chernovdev!

Станислав уже более 11 лет работает с продуктами компании QlikTech и продолжает развиваться в этом направлении каждый день. Здесь вы найдёте всё о скриптах, архитектуре, API, визуализациях и прочих секретах продукта.

А если вам не достаточно просто канала, то есть библиотека по Qlik расположенная по адресу https://chernovdev.ru/docs в наполнении которой вы тоже можете принимать участие, пишите @chernov за подробностями, сайт находится в open source проекте на GitHub - https://github.com/bintocher/chernovdev-site

Читать полностью…

(sci)Berloga Всех Наук и Технологий

Коллеги из ИТМО организуют интересное комьюнити: присоединяйтесь:

🚀 Всех, кто интересуется разработкой и использованием наукоёмких решений с отрытым кодом - приглашаем присоединяться и участвовать в нашем сообществе ITMO.OpenSource - https://ods.ai/hubs/opensource_itmo + чат /channel/itmo_opensource

Проводят онлайн- и оффлайн- митапы, представляем площадку для популяризации интересных академических открытых проектов, помогаем рекомендациями и менторством. Специализируемся в области AI/ML, но ей не ограничиваемся. Результаты из своих публикаций также активно опенсорсим.

👨‍🔬 По всем вопросам - Николай Никитин @nicl_nno (к.т.н, руководитель научной группы в NSS Lab ИТМО)

Читать полностью…

(sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGASCI webinar on data science:
👨‍🔬 Н. Бухал "Алгоритм MCTS, Monte Carlo Tree Search".
⌚️ Четверг 20 июня 19.00 по Москве

Алгоритм MCTS одна из основных составляющих АльфаГо. В данном докладе будет разобрана имплементация.

Попробуем шаг за шагом реализовать MCTS для крестиков ноликов.

Код который будем разбирать/переписывать: https://www.kaggle.com/code/tttzof351/alphazerotictac

Ожидаемый результат: https://youtu.be/F7qOV8xonfY?si=MXQgN-kwHD9D8oqd

Напоминание: мы организуем активность применить машинное обучение к математическим задачам теории групп. MCTS один из рассматриваемых методов. Если вам интересна активность - добавляйтесь в /channel/sberlogasci/10989 и напишите @Alexander_v_c , если вы хотите поучаствовать - требование - знать Питон - остальное научим.

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

Читать полностью…

(sci)Berloga Всех Наук и Технологий

#HMS #акакстакать
Поступил вопрос про пункт 3 и заявление, что там ничего не ясно. А там с одной стороны классика, с другой не совсем интуитивно:
Допустим у нас есть 150 моделей на одинаковых OOF и мы по ним хотим построить какой-то ансамбль, который будет лучше каждой индивидуальной.
1. Возьмем оптимизатор L-BFGS-B (знаю, в подписчиках есть фанаты) и на OOF построим оптимум заданной лосс функции. Это для нас будет линейная комбинация с положительными весами. Ну например [0.0001, 0.95, 0.003 ..., 0.0]
2. У какой-то доли моделей веса будут близкими к нулю, потому что они не слишком хорошо перформят относительно прочих. Так давайте установим трешхолд, например 0.01, и все модели с весом меньше этого из списка выкинем и пользоваться ими не будем
3. На оставшихся повторим процедуру и будем делать до тех пор, пока у всех моделей веса не будут больше, чем заданный наперед трешхолд
4. ...
5. Profit! У нас остались только уверенные и разнообразные модели

В этом смысле прием похож на совсем уж античную классику: отобрать фичи с помощью L1-регрессии и на выбраных фичах обучить уже обычную линейную/гребневую регрессию

Читать полностью…

(sci)Berloga Всех Наук и Технологий

Опять что-то дипмаинды наресерчили (им платят за это?)

Хотят улучшать трансформеры на графовых задачках описанных текстом и сделали TransNAR архитектуру, которая вроде как хороша in out-of-distribution reasoning.
Только нам нужно иметь текстовую задачку на вход трансформера и граф на вход NAR.

По сути трансформер + графовые нейроночки. Такая графовая нейронка - это neural algorithmic reasoner (NAR), про который написано в статье DeepMind в 2021. Такая штука комбинирует натуральный вход + абстрактный вход (нейронок) для решения какой-то задачи. В статье ниже можно посмотреть идею на примере алгоритма Дейкстры.

Neural Algorithmic Reasoning
https://arxiv.org/abs/2105.02761

В данном случае natural input это текстовое описание задачи + соответствующий граф (abstract input), на выходе текст с решением. При этом графовая нейронка претрейнена на множестве алгоритмических задачек. Тренировались на маленьких задачках а тестились на больших.
Трансформер тоже претрейнен, на MassiveText.
Во время forward pass трансформер получает доступ к ембедингам из NAR через cross-attention. queries идут из токенов, а keys and values из NAR.

Так понял.

В общем если подобное интересует, то статью читаем

Transformers meet Neural Algorithmic Reasoners
https://arxiv.org/abs/2406.09308

тот самый датасет с графами, из которого получили текстовую версию и на ней тестились
https://github.com/google-deepmind/clrs

Читать полностью…

(sci)Berloga Всех Наук и Технологий

Не enkodechka'й едины – ruMTEB бенчмарк для оценки эмбеддеров на ру языке.

Тут конечно не техрепорт на 71 страницу, но тоже интересное.

Мы завезли превью русского бенчмарка эмбеддеров ruMTEB.

P.S. Кстати, уже можно найти замеры моделек deepvk/USER от VK в карточках моделей этого семейства на HF.

Читать полностью…

(sci)Berloga Всех Наук и Технологий

Анонс движа по Kaggle!

Как вы, возможно, знаете, я терпеть не могу такое явление, как инфопродукты, курсы как стать программистом за месяц и прочее. А значит надо запустить свой курс)

Я уже давно хотел сделать такой движ, но не хватало времени, но сейчас объединился с Артемом, так что должно быть попроще. Состоять он будет из двух частей. Сначала будет публичная часть - теория ML+советы по kaggle(где-то 6-8 лекций по 1-2 часа). Дальше мы разобьемся на команды по 5 человек и каждая команда возьмет одно уникальное актуальное соревнование с Kaggle. Мы с Артемом будет тоже в командах, направлять и помогать. В каждом соревновании строго одна команда, так что шаринга быть не должно. Это уникальная возможность поучаствовать с нами в одном соревновании(между прочим, мне за такое предлагали до 5тыс евро) и, надеюсь, узнать что-то для себя новое.

Если вам такое интересно, до добавляйтесь в группу /channel/ml_boost_camp и проходите опрос. Участие бесплатное

Делитесь этим постом, чтобы больше желающих могло поучаствовать. Если такой формат зайдет, то дальше будет больше. Идей очень много, да и оффлайн тоже хочется провести. Пишите в комментариях свои пожелания и мнения.

Также, напишите мне, если вы хотите помочь в организации bootcamp от своего лица, или от лица компании

Читать полностью…

(sci)Berloga Всех Наук и Технологий

#LLM

Парад клевых материалов продолжается!

Теперь вышла уже моя статья (я бы даже сказал, что методичка) по промт-инжинирингу простыми словами.

Как обычно, читайте, ставьте плюсики, делитесь материалом с теми, кто еще не знает премудростей prompt engineering'а.

Читать полностью…

(sci)Berloga Всех Наук и Технологий

🚀 Если Вам интересно машинное обучение и/или математика - приглашаем Вас принять участие в проекте по применению методов МЛ/RL к теории групп/графов Кэли - напишите @alexander_v_c - если хотите принять участие, а также заходите на вводный вебинар (знаний теории групп не требуется):

👨‍🔬 Александр Червов (к.ф.-м.н) "Методы МЛ в теории групп - введение и обзор достигнутого"
⌚️ Понедельник 22 июля, 18.00 (по Москве)

Методы машинного обучения могут быть применены к ряду классических задач теории групп - разложение элемента по образующим, оценки диаметра. Мы приглашаем принять всех участие в данном проекте. Предварительное требование - знание Питона и наличие нескольких свободных часов в неделю. Если вы хотите улучшить свои знания по МЛ/RL и внести вклад в развитие науки - это отличный шанс .

В данном докладе мы простым языком объясним формулировки основных задач, и как задачи теории групп переводятся на язык машинного обучения. Предварительных знаний не требуется. Также, мы дадим обзор уже достигнутых результатов - в частности для группы порядка 4*10^19 (Rubik cube) нам уже удается находить решение задачи за минуты , а не 40 часов ГПУ как было в предыдущей работе "DeepCube".

План доклада:

1 Переформулировка основной задачи на простом языке матриц

2 Матрицы перестановок и группы типа кубика Рубика (см. ноутбук "Visualize allowed moves": https://www.kaggle.com/code/marksix/visualize-allowed-moves )

3 Графы Кэли и переформулировка основной задачи как поиск пути на графе

4 Случайные блуждания по графам - создание трейн сета для МЛ-модели

5 Подход к решению задач теории групп через машинное обучение. Оценка дистанции до цели через МЛ-модель и проблема наличия множественных локальных минимумов у этой оценки

6 Beam search. (Один из вариантов борьбы с застреваниями в локальных минимумах. Альтернативы - Метрополис, отжиг, A^* алгоритмы)

7 Бейзлайн реализация: МЛ+ Beam search - ноутбук: https://www.kaggle.com/code/alexandervc/baseline-1-for-permutations - решение кубика Рубика за пару минут

8 Cледующие шаги: RL-часть, улучшение нейросеток, улучшение трейн сета, улучшение beam search

Добавляйтесь в группу проекта: /channel/sberlogasci/10989 и пишите @alexander_v_c - если Вам интересно !

PS

См. также предыдущий вводный доклад:
/channel/sberlogasci/10989/15283 "Введение в методы поиска короткого пути на больших графах" (Кирилл Хоружий )

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

📖 Presentation: https://docs.google.com/presentation/d/1WFH9FmsPjFYvmLIbe6QrU4dYF8p7uk0EY746t_DlZHY/edit?usp=sharing
📹 Video: https://youtu.be/Ra7kAIzcIl0

Читать полностью…

(sci)Berloga Всех Наук и Технологий

Про функторы и кластеризацию

В работе "An Impossibility Theorem for Clustering" (2002) Jon Kleinberg определяет три простых свойства, которым должна удовлетворять любая кластеризация, а затем доказывает, что ни один алгоритм кластеризации не может обладать всеми тремя свойствами одномоментно. Пусть дано множество S, состоящие из n ≥ 2 точек и некоторая полуметрика (без неравенства треугольника) на нем d:S×S→R. Пусть D(S) — множество полуметрик на S, а Π(S) — множество разбиений S на дизъюнктные подмножества. Тогда кластеризацией назовем функцию f: D(S) → Π(S), которая каждой полуметрике на S ставит в соответствие некоторое диз.разбиение. Kleinberg предложил следующие три свойства, которым должна отвечать каждая такая функция f:

1. Инвариантность относительно гомотетии (scale invariance): f(d) = f(alpha * d) для любых d из D(S) и alpha > 0 из R;
2. Насыщенность (?) или richness: f сюръекция;
3. Непротиворечивость или consistency: пусть есть две полуметрики d и d', а Г некоторое разбиение S. d' это Г-трансформация d, если d'(i,j)≤d(i,j) для всех пар из одного кластера в Г, аналогично d'(i,j) ≥ d(i,j) для всех пар в различных кластерах, тогда d и d' не противоречат друг друг, если d' это f(d) трансформация d, то f(d) = f(d'), т.е. кластеры уплотняются и расползаются при замене метрики d на d';

Существуют алгоритмы кластеризации, которые сочетают в себе любые 2 из 3 перечисленных свойств. Допустим S — множество вершина графа, а d(i,j) — вес ребра. Рассмотрим три функции кластеризации, которые находят подграфы, выбирая некоторое подмножество ребер:

1. выберем произвольное 1<k<n и упорядочим ребра по весу, будем добавлять ребра в подграф из упорядоченного списка ребер, пока он не будет иметь ровно k связных компонент;
2. выберем произвольное r и будем добавлять ребра с весом не меньшим r, полученные компоненты связности и назовем кластерами;
3. выберем произвольное 1 > alpha > 0 и пусть R это max(d). Будем сохранять ребра с весом не более alpha * d;

Утверждение: Функция 1 удовлетворяет 1 и 3 (число кластеров ограничено k сверху), функция 2 удовлетворяет 2 и 3 (варьируем r, получаем разные разбиения и теряем инвариантность относительно гомотетии), а функция 3 удовлетворяет 1 и 2.

И тут в дело врывается топологический анализ данных, с уже классической статьей "Classifying Clustering Schemes" (2013) by Gunnar Carlsson & Facundo Memoli. Ключевая идея их работы заключается в том, что эти свойства кластеризации могут быть закодированы как морфизмы в категории конечных метрических пространств таким образом, что ответом будет не функция кластеризации, а функтор кластеризации в подходящую категорию и он будет обладать уже всеми желанными свойствами.

Читать полностью…

(sci)Berloga Всех Наук и Технологий

The ultimate docker compose cheat sheet

Хорошая статья, охватывающая основные аспекты docker compose. Автор начинает с базовых концепций, но будет полезна даже тем, кто хорошо знаком с компоузом.

Из интересного:
– параметр, позволяющий рестартить сервис, если он завалился
– как одному сервису дождаться запуска другого сервиса с использованием определенных условий. Бывает полезно, когда веб-сервис дожидается старта базы данных
– как задавать healthcheck сервисов с различными параметрами
– также автор разжёвывает тему volumes и networks

У нас был отдельный пост с практическими советами по докеру.

#skills #docker

Читать полностью…

(sci)Berloga Всех Наук и Технологий

Недавно BM25, алгоритм поиска из 80-х, победил нейросетевой поиск на LLM.

Мне стало очень интересно разобраться, как это работает, и я написал статью на Хабр, где этот алгоритм реализуется с нуля.

https://habr.com/ru/articles/823568/

Материал подойдет начинающим: ничего кроме знания Python не нужно.

Просьба читать, лайкать и кричать об этой статье на улицах. 😇

Читать полностью…

(sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGASCI webinar on data science:
👨‍🔬 Кирилл Хоружий "Введение в методы поиска короткого пути на больших графах"
⌚️ Четверг 4 июня, 19.00 (по Москве)

Мы с коллегами организуем проект по применению методов МЛ/RL к задачам теории групп и графов Кэли - если Вы хотите присоединиться - напишите - @alexander_v_c. В четверг Кирилл Хоружий сделает вводный доклад по этой теме - приходите ! (А также подписывайтесь на замечательный канал Кирилла - @diagrams_every_day ).

Если вы только присоединились к задаче поиска пути на графах, или что-то в описание покажется незнакомым, то этот вебинар для вас должен быть в самый раз.

На вебинаре мы рассмотрим методы решения задачи поиска пути в крупных перестановочных графах, таких как Кубик Рубика или Пятнашки, где задача поиска пути становится весьма сложной. Мы обсудим state-of-art подходы, показанные в работах DeepCubeA (2019) (Nature) и Self-Supervision methods (2023) (arXiv).

Возможные варианты решения задачи о поиске пути:
1. Оценка дистанции случайными блужданиями. Из целевой вершины делаем K шагов и обучаем модель предсказывать K, которое хорошо коррелирует с реальной дистанцией (d). Используем эту модель как эвристику для алгоритма A*.
2. DQ-learning. Предсказывать моделью реальную дистанцию, в лучших традициях DQN основываясь на уравнение Беллмана улучшать после обучения предсказанные расстояния и обучаться заново. Затем также на А* искать путь.
3. Обратная диффузия. Делая случайные шаги, мы почти гарантировано отдаляемся от целевой вершины. Научимся по вершине, предсказывать откуда в неё мы пришли, случайно блуждая. Затем через beam search находим наиболее вероятный путь в целевую вершину (самый короткий ~ самый вероятный).

Также обсудим возможные упрощения жизни для модели через алгоритм Метрополиса и существующие эвристики.

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

📖 Presentation: /channel/sberlogasci/10989/15283
📹 Video: https://youtu.be/2J3eGGH-uiM?si=9xgHtcCpBj0wKXC0

Читать полностью…

(sci)Berloga Всех Наук и Технологий

🗓 Программа пройдет в Санкт-Петербурге с 20 по 30 августа. Подать заявку можно по ссылке до 23:59 14 июля 2024 года.
Питание, обучение и проживание бесплатное, оплатить самим нужно будет только проезд.

Подавайте заявки и делитесь постом с друзьями и коллегами!

Читать полностью…

(sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGASCI webinar on data science:
👨‍🔬 Евгений Дурыманов "Cayley2vec - эмбединги для бесконечных графов"
⌚️ Cреда, 26 июня, 19.00 (по Москве). (Среда - нестандартный день!)

Рассказ основан на паре ноутбуков:

https://www.kaggle.com/code/eugenedurymanov/the-permutohedron-node-embeddings-distance-distr

https://www.kaggle.com/code/eugenedurymanov/heizenberg-embeddings-with-generators-perspective

В докладе будет рассказано об идее получения эмбеддингов вершин бесконечных графов Кэли с помощью MLP на случайных блужданиях. За основу взята Node2vec, модель обучающаяся на случайных блужданиях по графу, она разобрана в первом ноутбуке — показана ее пригодность для задачи получения хороших ембеддингов с точки зрения сохранения расстояний. На докладе также более подробно поглядим на ее код в пакете pytorch geometric (https://causalai.github.io/pytorch_geometric/_modules/torch_geometric/nn/models/node2vec.html)

Для оценки бесконечных (или просто больших) графов Кэли такая модель непригодна, так как требует уже построенный граф как входные данные (на личной машине H_3(Z/20) — циклическая целая трехмерная группа Гейзенберга порядка 20 уже не считается), поэтому было решено перейти к собственной модели, которая получает на вход только координаты случайных блужданий на графе Кэли группы. Модель в основном повторяет Node2Vec, но работает только с вектором длины размерности группы, а не с целым графом (координаты вершины). Случайные блуждания для такого концепта работы генерируются через генераторы группы (по имеющимся координатам знаем, куда блуждание может пойти дальше, зная образующие).

Во втором ноутбуке разобрана модель, получены эмбеддинги для группы Гейнзенберга больших размерностей, обоснована их хорошесть с точки зрения сохранения состояний (в том числе показана их польза для задачи нахождения пути в графе).

📹 Video: https://youtu.be/pjrea6Hat9U?si=8HbhlasmIRwbfp_s

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

Читать полностью…

(sci)Berloga Всех Наук и Технологий

Воскресная загадка )

Какой самый искрометный и остроумный телеграм канал о науке ?)

Кто расскажет вам всё - от последних статей в Nature , до событий в самой глубинке ?

Все, наверно, и так знают, но мы рады порекомендовать - @ivoryzoo - подписывайтесь!

Ваше руководство по выживанию в науке: /channel/ivoryzoo

Читать полностью…

(sci)Berloga Всех Наук и Технологий

Когда я учился в Институте биоинформатики, в домашних заданиях по статистике встречались курьёзные распределения необычной формы. Они были созданы преподавателем искусственно, чтобы подсветить особенности разных методов. Я как-то заметил, что было бы странно увидеть такое в реальных данных, а преподаватель ответил, что всякое бывает

За время работы я насмотрелся на этакое всякое сполна. Реальные данные бывают страннее, чем может придумать любой преподаватель. Вот пример распределения площади жилья во Франции построенного в 2010 году. Угадайте, с какого количества квадратных метров закон обязует нанимать лицензированного архитектора для построения плана?

Но самая неприятная ситуация – когда неизвестны объясняющие картину факты, а на руках только странные данные

#статистика

Читать полностью…

(sci)Berloga Всех Наук и Технологий

хм, классные ребята из OpenDILab (которые ведут много awesome листиков по RLю и делают либу LightZero) начали делать библиотеку с алгоритмами на диффузионках и flow моделях для принятия решений:

GenerativeRL
https://github.com/opendilab/GenerativeRL

и сразу awesome по диффузионкам в RLе

https://github.com/opendilab/awesome-diffusion-model-in-rl

(сохранять)

Читать полностью…

(sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGASCI webinar on data science:
👨‍🔬 А.Фаворов "Markov Chain Monte-Carlo (MCMC). What for is it and what does it look like?"
⌚️ Понедельник 17 июня 19.00 (по Москве)

Simple MCMC zoo: basics, termonology, principles, examples.

Контекст:

Алгоритм Метрополиса — Гастингса (https://en.wikipedia.org/wiki/Metropolis%E2%80%93Hastings_algorithm) — алгоритм семплирования, использующийся, в основном, для сложных функций распределения. Также подобные алгоритмы можно использовать для поиска глобальных минимумов функций. Это то, что нам нужно в проекте применения машинного обучения к группам.
Вот тут ноутбук Кирилла Хоружего по применению Метрополиса к решению 15-шки https://www.kaggle.com/code/ka1242/puzzle15-fastmetropolis, а тут аналог для кубиков (DZMITRY PIHULSKI ): https://www.kaggle.com/code/dzmitrypihulski/metropolis-1-for-permutations?scriptVersionId=183503701&amp;cellId=9 . Апвоуты - приветствуются.

Семплирование по Гиббсу является частным случаем алгоритма Метрополиса — Гастингса и более популярно за счёт простоты и скорости, хотя и реже применимо

Также будет полезна предыдущая лекция: /channel/sberlogabig/199

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

Читать полностью…

(sci)Berloga Всех Наук и Технологий

#HMS

8 место, мастер-класс от Криса Дейота:

Самое первое, на чем акцентирует внимание Крисс: нам в соревновании не надо поставить диагноз, нам надо угадать мнения разметчиков. Казалось бы так всегда, но конкретно в этом соревновании из-за разнородности разметчиков это решало сильнее, чем обычно.
Крис прочитал статью организаторов и выяснил, что аннотаторов было всего 119 в трейне и 20 в тесте. А еще он вычитал, что судороги в трейне предсказывали в 18.8% случаев, а в тесте- 1.5%. И вот именно вычистку этих самых малоушмных экспертов из теста и делал хак с разделением трейна

train.loc[train.vote_count>=10]

Он так же посмотрел на то, как проходил процесс разметки данных и увидел там, что разметка проходила и по спектрограммам и по обычным графикам формы волны одновременно. Значит это и надо подавать как инпут моделей.

И того у него было три модели:
1. По сырым сигналам, a-la WaveNet
2. Трансформемер по спектрограммам
3. Трансформемер по plt.plot форм волны В СМЫСЛЕ ОН ВЗЯЛ И ИСПОЛЬЗОВАЛ МАТПЛОТЛИБ ДЛЯ ИНПУТА, НУ ГЕНИЙ

Используя уже эти три модели он псевдолейблил кусочки трейна, в которых было меньше 10 размечающих.

Ну и все, 0.29 на приватном лидерборде.

Так же Крис заботливо выделил для нас лайфхаки:
1. Все сырые данные обработал с помощью библиотеки MNE. Она как раз специализированна для работы с ЭЭГ
2. Для перфоманса можно было все сырые ЭЭГ загрузить в RAM и формировать спектрограмы используя torchaudio.transforms
3. На каждой эпохе показывать одну ЭЭГ один раз, но семплировать каждый раз случайно.
4. Пользоваться его гайдом по подбору ЛР для модели

Скажу, что читать райтапы Криса- сплошной кайф. Однажды он прочитает моей райтап и скажет то же самое

Читать полностью…
Subscribe to a channel