Мультидисциплинарный канал о науке и технологиях. Data Science, Bioinformatics, Biology, Mathematics, Physics, IT, Computer Science. @sberlogabio био и дата сайнс @sberlogasci математика, физика и ДС https://www.youtube.com/c/SciBerloga
#HMS
HMS - Harmful Brain Activity Classification
Последнее время решал медицину.
Данные:
Уважаемые люди из Harvard Medical School (на секундочку лидер рейтингов лучших ресерчерских медицинских школ) собрали нам датасет ЭЭГ и кардиограмм своих пациентов и даже разметили их.
У данных есть иерархическая структура:
Для одного и того же пациента могут быть записаны несколько ЭЭГ произвольной длины.
Из этих ЭЭГ могут быть выбраны участки по 50 секунд, из которых разметчиков попросили оценить центральные 10 секунд. Разметчиков для одного такого семпла обычно более одного (может быть больше двадцати)
Каждый такой семпл разметчиков попросили отнести к одному из 6 классов:
1. Судороги (SZ)
2. Генерализованные эпилептические разряды (LPD)
3. Латеризованные эпилептические разряды (GPD)
4. Латерализованнная ритмическая дельта-активность (LRDA)
5. Генерализованная ритмическая дельта-активность (GRDA)
6. Прочее
Как метрику выбрали KL-div. В силу того, что по разным семплам могло пройтись несколько разметчиков, голоса разметчиков нормировали на число проверяющих и именно это великолепие стали рассматривать как вероятности, которые нам надо учить.
По ощущениям- там еще и качество разметчиков страдало. Там, где перекрестной проверки больше поведение сильно отличалось от участков с малой перекрестностью. Это прямо на ЭЭГ видно- идут пару минут с 1-3 голосами и преобладает класс other по-русски назовем его "я не знаю", а за ним сразу идет уверенное SZ от 16 из 17 размечающих. Странное совпадение, но пока организаторы не признались- не правда.
В этот раз хочу пройтись по большему числу топовых решений, потому что сил в сореву было какое-то невыносимое количество потрачено.
Как решать будете?
Думайте. Подписаться
👋🏻 Всем привет. Меня зовут Вадим, я бывший дата саентист, и сейчас веду телеграм канал, где рассказываю про удалёнку из различных мест, айти, бизнес и путешествия!
❤️ Также, у меня есть gernar228/">YouTube канал, где раньше я снимал как прохожу DS собеседования, а сейчас буду пробовать travel-формат.
🐳 Предлагаю вам заценить моё творчество, а кому зайдёт — подписаться. Скоро будет происходить много интересного!
Всем хорошего дня ☀️
Повторенье - мать ученья. Или почему DPO, а не reward+ppo.
Крч, на днях, дядя обнаружил, что запамятовал суть DPO, да и наркоз стал отпускать. Самое время пойти на архив в папир.
Знаете, PPO в RLHF - это как подростковый секс, все о нем говорят, что завели и все круто летит, но мало кто знает и умеет.
Так вот - DPO, шкет, это твое спасение на пути в RLHF. Оказывается от этих 4ех буков, останется ток две последние, и то из human feedback оно превращается в preferences tuning без всякого RL.
Как это происходит?
Давай вспомним, как заводят первый роман PPO:
1. Сначало собирают предпочтения кожаных мешков на генерациях с LLM.
2. Далее размечают попарно какие генерации лучше какие хуже для одной и той же затравки.
3. Потом учат reward модельку этому ранжированию, те проксируют предпочтения человеков, через модельку.
Для этого, важно, юзают loss = -E{log(sigmoid[ rank(yi/x) -rank(yj/x)]))} , yi - предпочитаемая yj-му генерация для каждого промпта из x.
И вот тут - стоп. Далее не пойдем. Там будет после обучения процедура PPO, а ты еще молодой, у тебя вся жизнь впереди, не надо оно тебе Там эта модель награды используется для получения оценок генерации, мы максимизируем мат ожидание оценок на батче и прочий нестабильный изврат.
Вот тут на сцену выйдет DPO. Челики авторы умные сели подумали, а зачем нам эти прокси модельки награды, нестабильный РРО. Когда можно сразу в этап файнтюна закинуть предпочтения как +1ый шаг и главное дифференцируемое е2е.
Следим за руками, объясняю на пальцах: вот у нас есть P(x)-вероятность следующего токена порождаемое моделью LLM при промпте Х. И мы хотим, чтобы при генерации у нас было максимальное правдопобие P(yi/x). Те мы хотим, чтобы вероятнее был токен Yi, чем Yj. Значит, мы просто хотим напрямую от модели выполнить адаптацию к нашим предпочтениям. А как это можно сделать без этих наград и тп, но с оглядкой на хинты PPO и reward?
Да просто, давайте, возьмём loss такой, что он будет давать предпочтение распределению вероятостей над Yi по отношению к Yj. Как это сделать? Да также как с рангами оценки в reward.
Так мы получим loss=-E log(sigmoid[P(yi/x) - P(yj/x)]), но нам чет не хватает. В процедуре РРО для RLHF еще была важная фича. Это регуляризация на reference модель, т.е. на поведение предка (LLM на предыдущем шаге обучения). И выглядело это как вот такая компонента в лоссе: lambda*KLD(P/Pref). Ну один момент, давайте тоже красиво это вставим в промежуточный лосс DPO:
Loss=-E log(sigm[Betta*log(Pi/Pi-ref)-Betta*log(Pj/Pj-ref)]), где Pi, j-ref это это вероятности токенов i,j для референсной модели при промпте X.
Всë, мы получили искомый DPO лось, с штрафом/оглядкой на поведение референс модели и даже коэфициентик переняли. Зачем нам это? Для того, чтобы наследовать поведение модели предка в некоторой доле по связности изложения, знаниям и тп. Почему для обеих компонент лосса, так это ж оценка на одной и тойже модели, значит и штраф в обоих случаях.
Конечно, это пояснение на пальцах, в статье есть целая выкладка в аппендиксе, которая доказывает, что такая функция ошибок действительно является дифференцируемой аппроксимацией над предпочтениями и вообще эквивалентна тому же что и в PPO+reward. Но это вы уже сами почитаете.
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Сергей Фиронов "Обзор идей АльфаГо, АльфаЗеро"
⌚️ Понедельник, 10 июня, 19.00 (по Москве)
АльфаГо, АльфаЗеро революционизировали подходы на основе машинного обучения к сложным комбинаторным задачам. То, что казалось недостижимым в ближайшие десятилетия - было достигнуто DeepMind. В данном докладе один лучших дата-сайнтистов, Каггл грагдмастер Сергей Фиронов, расскажет обзор этих работ.
Разберем репозиторий и практическое применение AlphaZero от DeepMind к своим задачам на конкретном примере, как и что надо имплементировать и учесть, а так же попробуем подумать на тему применения к сборке рубиков.
В работах АльфаГо, АльфаЗеро произошел отказ от идей Q-алгоритма, и происходит прямое обучение сетки предсказывающей ходы и позиции. Однако, таргеты для сетки рассчитываются на основе MCTS алгоритма, что является принципиально новым подходом в области. Тот же MCTS используется и для инференса , в сочетании с расчетом сетки. В исходной работе использовалась сверточная сетка из 40 слоев. Обучение в АльфаЗеро идет только на основе игры с собой, без использования каких-либо внешних знаний.
AlphaGo: "To efficiently combine MCTS with deep neural networks, AlphaGo uses an asynchronous multi-threaded search that executes simulations on CPUs, and
computes policy and value networks in parallel on GPUs. The final version of AlphaGo used 40 search threads, 48 CPUs, and 8 GPUs. We also implemented a distributed version of AlphaGo that exploited multiple machines, 40 search threads, 1202 CPUs and 176 GPUs. The Methods section provides full details of asynchronous and distributed MCTS."
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📹 Video: https://youtu.be/NpeGnu7F5lo?si=vbdQiLIyW3kTOb9A
🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨🔬 Robert Hoehndorf, Maxat Kulmanov, "DeepGO-SE - Protein function prediction as approximate semantic entailment"
⌚️ Thursday 6 June, 18.30 (Moscow time). Unusual time - pay attention.
Add to Google Calendar
The talk is based on Nature Machine Intelligence paper: https://www.nature.com/articles/s42256-024-00795-w#Sec1 presenting a beautiful, original approach to the task to predict protein properties (Gene Ontology terms) based on the protein sequence (like CAFA5 Kaggle challenge). From leading experts in the field.
The Gene Ontology (GO) is a formal, axiomatic theory with over 100,000 axioms that describe the molecular functions, biological processes and cellular locations of proteins in three subontologies. Predicting the functions of proteins using the GO requires both learning and reasoning capabilities in order to maintain consistency and exploit the background knowledge in the GO. Many methods have been developed to automatically predict protein functions, but effectively exploiting all the axioms in the GO for knowledge-enhanced learning has remained a challenge.
In this webinar, I will present DeepGO-SE, the latest version of DeepGO methods, that predicts GO functions from protein sequences using a pretrained large language model. DeepGO-SE incorporates the knowledge in GO by learning multiple approximate models of GO using an ontology embedding method. Furthermore, it uses a neural network to predict the truth values of statements about protein functions in these approximate models. We aggregate the truth values over multiple models so that DeepGO-SE approximates semantic entailment when predicting protein functions. We show, using several benchmarks, that the approach effectively exploits background knowledge in the GO and improves protein function prediction compared to state-of-the-art methods.
📹 Video: https://youtu.be/vhnD4SR8cWI?si=000BSzLtjsvc_bvC
📖 Presentation: /channel/sberlogabio/74962
⚡️ Дорогие коллеги! В ближайший четверг, 30 мая, состоится очередная ОЧНАЯ лекция в рамках лектория Нейрокампуса!
📌 Алексей Васильевич Семьянов, доктор биологических наук, член-корреспондент РАН, один из ведущих российских специалистов по нейроглии, выступит с лекцией на тему "Различие между ответами нейронов и астроцитов на локомоцию у мышей".
📆 Когда: 30 мая, 18:00.
📍 Где: Федеральный центр мозга и нейротехнологий, улица Островитянова, 1, стр. 10.
❗️Для участия в мероприятии необходима регистрация по ссылке: https://neurocampus.timepad.ru/event/2901469/. Регистрация закрывается в 12:00 30 мая! Для прохода в здание не забудьте взять паспорт!
Также будет вестись трансляция мероприятия по neurocampus?list=da082b2d58f511aea4&preview=&screen=&webcast=&z=video-216180485_456239110">ссылке.
🎬 Как обычно, запись лекции будет доступна и опубликована на странице Нейрокампуса в VK, а также в канале Нейрокампуса в Rutube.
Коллеги, всем доброго дня!
Если вы еще не успели ткнуть ⭐️ на гитхабе на https://github.com/sb-ai-lab/LightAutoML, то самое время это сделать.
Наша глобальная текущая цель - собрать 1000 звезд и попасть в окружение Kaggle на постоянной основе!
Будем рады, если вы нас в этом поддержите ❤️
Поздравляем Всех с Праздником Великой Победы!! 🎉🎉🎉
Читать полностью…🚀 @SBERLOGASCI webinar on data science:
👨🔬 Богдан Булатов "Часть 2 . Deep-Q algorithm and autodidactic iteration algorithm for Cube Rube"
⌚️ Понедельник, 22 Апреля, 19.00 (по Москве)
Будет рассказано о применении Deep Q-algorithm и autodidactic iteration algorithm для решения задачи о нахождении короткого пути на графах Кэли (другими словами - решение Кубика Рубика).
Презентация доклада доступна по ссылке: https://docs.google.com/presentation/d/1JmvIHvAYjv1xxBcCPmiTWJ1PbFOi0XITfbv8yKGALzQ/edit?usp=sharing
Ноутбук: https://www.kaggle.com/code/bagdan/autodidactic-iteration-algorithm-for-cube-rube (апвоуты приветствуются).
Также будет дан разбор алгоритма Deep Q Network (DQN) на примере задачи по посадке лунного модуля (https://www.gymlibrary.dev/environments/box2d/lunar_lander/
см. ноутбук: https://www.kaggle.com/code/bagdan/dqn-lunar-rider
Часть 1: доступна:
📖 Presentation: https://docs.google.com/presentation/d/1JmvIHvAYjv1xxBcCPmiTWJ1PbFOi0XITfbv8yKGALzQ/edit?usp=sharing
📹 Video: https://youtu.be/Xo9SAgkGDR0?si=Q_MJyYK45ieaH2n9
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Богдан Булатов "Deep-Q algorithm and autodidactic iteration algorithm for Cube Rube"
⌚️ Понедельник, 8 Апреля, 19.00 (по Москве)
Add to Google Calendar
Будет рассказано о применении Deep Q-algorithm и autodidactic iteration algorithm для решения задачи о нахождении короткого пути на графах Кэли (другими словами - решение Кубика Рубика).
Презентация доклада доступна по ссылке: https://docs.google.com/presentation/d/1JmvIHvAYjv1xxBcCPmiTWJ1PbFOi0XITfbv8yKGALzQ/edit?usp=sharing
Ноутбук: https://www.kaggle.com/code/bagdan/autodidactic-iteration-algorithm-for-cube-rube (апвоуты приветствуются).
Также будет дан разбор алгоритма Deep Q Network (DQN) на примере задачи по посадке лунного модуля (https://www.gymlibrary.dev/environments/box2d/lunar_lander/
см. ноутбук: https://www.kaggle.com/code/bagdan/dqn-lunar-rider
📖 Presentation: https://docs.google.com/presentation/d/1JmvIHvAYjv1xxBcCPmiTWJ1PbFOi0XITfbv8yKGALzQ/edit?usp=sharing
📹 Video: https://youtu.be/Xo9SAgkGDR0?si=Q_MJyYK45ieaH2n9
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
Передовая инженерная школа ИТМО объявляет о старте регистрации на Школу РЕ 2024!
Ты инженер или молодой ученый? Хочешь запускать на рынок прибыльные и перспективные проекты? Хочешь выйти из фундаментальной истории в индустрию?
Школа РЕ — это экспертный буст от лидеров рынка и успешных предпринимателей, нетворкинг с коллегами из профессиональной сферы и построение своей карьерной траектории при поддержке ПАО «Татнефть».
Горишь идеей, но не знаешь, как ее упаковать? Ищи все подробности мероприятия на сайте и подавай заявку на участие в интенсиве до 17 апреля включительно.
Чья бы это не была грязная партия, погибли и пострадали люди. Террору нет места нигде.
Соболезнования пострадавшим и их родным.
Сейчас, если вы хотите помочь, нужна донорская кровь, инфо тут.
Берегите себя и близких, надеюсь с вами все хорошо.
🚀 @SBERLOGASCI вебинар/обсуждение :
👨🔬 Богдан Булатов, Ульяна Князюк, Михаил Ураков "Применение Q-learning и SARSA к задаче короткого пути на графах. Разбор ноутбуков"
⌚️ Вторник, 19 Марта, 19.00 по Москве
Add to Google Calendar
Вводное обсуждение по методам RL (reinforcement learning) - Q-learning and SARSA. С разбором ноутбуков, которые применяют эти методы к задаче поиска короткого пути на графах. Нам желательно освоить детально эти простые методы, чтобы эффективней двигаться дальше. Желательно понять насколько эти методы плохо/хорошо масштабируются на большие графы, и как эффективность методов зависит от самой структуры графов (графы попроще - типа решеток, графы посложнее - скажем граф состояний кубика Рубика, или любой случайной группы). Дальнейший шаг - как улучшить методы, чтобы было возможно решать задачу короткого пути на огромных графов - большие кубики и подобные группы.
Ноутбуки:
Богдан , Ульяна , Михаил
(Апвоуты - приветствуются ! )
Исходный ноутбук: https://www.kaggle.com/code/prabhakarkalaiselvan/shortest-path-in-undirected-graph-using-rl-methods
В ноутбуке Богдана:
"+ реализовал метод Cross Entropy
+ изменил методику назначения reward. Автор оригинального поста присуждает 0 всем возможным граням. Мне кажется, что лучше присуждать -1. Так траектории с более коротким маршрутом получат больше итоговой награды, чем более длинные траектории (штрафуем за лишние шаги). Это может сыграть роль на более сложных примерах, а так же поможет сравнивать работу различных алгоритмов
"
Zoom link: @sberlogabig at start.
Videos: https://www.youtube.com/c/SciBerloga - subscribe !
📖 Presentation
📹 Video
—————————-
Мы организуем активность по изучению методов ML/RL и применению их к математическим задачам теории групп/графов, если Вам интересно присоединиться - отметьтесь в голосовалке : /channel/sberlogasci/7794 . Более подробная инфа тут: /channel/sberlogabig/374.
🚀 Что это за графы ? Это примеры графов Кэли для группы перестановок и стандартных образующих.
Напомним, что графы Кэли - краеугольной камень современной математики, и о них есть много нерешенных математических гипотез, которые мы надеемся продвинуть с помощью методов машинного обучения. Если Вам интересно присоединиться - отметьтесь в голосовалке : /channel/sberlogasci/7794
🚀 Графы Кэли/Шрейра определяются довольно просто - берем набор векторов (элементов группы/ее представления) и набор матриц (образующих группы). Вершины - вектора , ребро есть между x,y - если существует матрица из набора, что x = M y. И все ! Понятно - ребенку.
🚀 Владимир (автор замечательного канала @chelovek_nauk ) сделал ноутбук https://www.kaggle.com/code/shitovvladimir/visualization-of-cayley-graphs с визуализацией примеров этих графов. Апвоуты Каггл ноутбука - приветствуются , а также рекомендуем подписаться на его канал @chelovek_nauk!
🚀 Но при всей простоте, понимание свойств этих графов - например, оценка диаметра или гипотеза Ловаса о существовании гамильтонова пути - не поддаются усилиям лучших умов математики, включая Филсовдких медалистов Т. Тао, Т. Говерс, Ж. Бурген ... Но может быть именно Вы сможете решить эти проблема ? ) Присоединяйтесь - к нашей активности: /channel/sberlogasci/7794 .
Всем поклонникам биологии рекомендуем замечательный канал "Liza loves biology" @liza_loves_biology от Лизы Мининой:
Читать полностью…🚀 @SBERLOGASCI webinar on data science:
👨🔬 Obozov M.A. "Proximal Policy Optimization. От графов Кэли до RLHF."
⌚️ Пятница 14 июня 19.00 по Москве
PPO - достаточно современный и интересный Policy Gradient метод, который базируется на идее клиппинга и обучение policy network с специальной целевой функцией. Концептуально алгоритм решает проблему больших policy обновлений, что значительно улучшает сходимость. При этом его применение часто очень нетривиально, а понимание алгоритма к сожалению нередко заканчивается абстрактными идеями и просто знанием об его существование. Данная лекция ориентирована на исправление этой проблемы.
Всего лекция состоит из четырёх частей:
1. Пользовательское понимание PPO, концепции и основные идеи, отличие от REINFORCE и других PGM.
2. Более глубокое понимание и описание математики стоящей за этим алгоритмом.
3. Применение к реальным задачам в том числе и к графовым.
4. RLHF с PPO. Эта часть ориентирована именно на LLM инженеров.
📖 Presentation: /channel/sberlogasci/11995/14677
📹 Video: https://youtu.be/CN72nLjpmuk?si=ue-te9oh8VyFOqhP
Доп материалы:
https://arxiv.org/abs/1707.06347
https://arxiv.org/abs/2307.04964
https://arxiv.org/abs/2401.06080
https://github.com/OpenLLMAI/OpenRLHF
https://openai.com/index/openai-baselines-ppo/
https://www.arxiv.org/abs/2405.04664
https://huggingface.co/blog/the_n_implementation_details_of_rlhf_with_ppo
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe
Наш старый знакомый и активный участник Сберлоги - Вадим Новоселов, завел отличный канал, который мы Вам искренне рекомендуем - подписывайтесь:
Читать полностью…Кучу наших любимых ллмок потестили на вопросиках вида:
"Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?"
Ответ С = 1+M (Алиса + её сестры)
Назвали такую задачку AIW Problem.
Всего выделили 4 варианта задачи AIW:
AIW Variation 1, N = 3, M = 6, C = 7;
AIW Variation 2, N = 4, M = 2, C = 3;
AIW Variation 3, N = 1, M = 4, C = 5;
AIW Variation 4, N = 4, M = 1, C = 2
Еще сделали 3 варианта промтов: STANDARD, THINKING, RESTRICTED (в статейке)
Также сформулировали задачку в более сложном виде:
Alice has 3 sisters. Her mother has 1 sister who does not have
children - she has 7 nephews and nieces and also 2 brothers.
Alice’s father has a brother who has 5 nephews and nieces in
total, and who has also 1 son. How many cousins does Alice’s
sister have?
🚀 @SBERLOGASCI webinar on mathematics:
👨🔬 А.Червов (к.ф.-м.н) "Базовые понятия теории представлений групп"
⌚️Пятница 7 июня 19.00 (по Москве)
Последние годы в машинном обучении - стали появляться, так называемые, эквивариантные нейронные сети. (См. M.Welling: "Group equivariant convolutional networks", или лекции - https://www.youtube.com/playlist?list=PL8FnQMH2k7jzPrxqdYufoiYVHim8PyZWd ).
Для тех кто интересуется этой темой в данной лекции мы рассмотрим на пальцах основные понятия теории представлений групп.
Поясним следующие вещи - неприводимые представления (это блоки из которые все строится, разбиение на неприводимые - похоже на кластеризацию), операции с ними.
Полезно понимать - аналогии: если группа совсем простая - коммутативная - то теория представлений - это про ряды/интегралы Фурье. То есть для общих групп представления в некотором высшем смысле обобщают ряды Фурье.
С представлениями можно делать следующие - брать прямую сумму, и можно тензорно множить. Тензорное (кронекерово) произведение - можно думать так - функции от одной переменной тензорно умножить на себя - это рассмотреть функции от двух переменных.
Что такое группа - можно думать так - просто набор матриц, такой, что произведение матриц из набора лежит снова в наборе, обратная тоже в наборе ну единичная в нем. А смысл в этом какой ? Смысл - описывать разные симметрии - вращения, сдвиги и так далее.
Если есть две группы G,H можно рассмотреть их произведение GxH , как устроены представления GxH ? Ответ - V tensor W - тензорные произвдения представлений одной на другое.
Регулярное представление - то есть представления когда группа действует сама на себе. Важно понимать - что там живут вообще все представления - и как они там живут - каждое непривод. представление живет там в виде V tensor V^* (само на себя ну почти) - почему так ? ну потому что GxG действует на самом деле на G и см. пункт выше.
📹 Video: https://youtu.be/DQNQowfj_Ws?si=br0K_-2NDO4dglyK
📖 Presentation
🚀 @SBERLOGASCI - рабочий семинар по проекту применения ML к теории групп (нахождения короткого пути на графах Кэли)
👨🔬 Н. Бухал "Посмотрим на актульаный код DeepCube"
⌚️ Понедельник 3 Июня 19.00 по Москве
В 2019 появились несколько работ "DeepCube" которые применили идеи АльфаГо/АльфаЗеро к задаче теории групп - решение кубика Рубика. Одна из целей нашего проекта сделать аналогичную систему для ВСЕХ групп, не только Рубиков. Поэтому полезно обсудить и DeepCube: https://deepcube.igb.uci.edu/
Eсли у Вас есть желание поучаствовать в проекте - отметьтесь в голосовалке тут .
- Моделька (ResNet): https://github.com/forestagostinelli/DeepCubeA/blob/master/utils/pytorch_models.py#L5
- Loss (MSELoss): https://github.com/forestagostinelli/DeepCubeA/blob/master/utils/nnet_utils.py#L57
- Формирование датасета (GBFS - Greedy Best-First Search): https://github.com/forestagostinelli/DeepCubeA/blob/master/updaters/updater.py#L11
- Немого на инференс (A*) - https://github.com/forestagostinelli/DeepCubeA/blob/master/cpp/parallel_weighted_astar.cpp#L138
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📹 Video: https://youtu.be/5IiOcRjo86M?si=C3Dltos8QC8VNste
Всем привет, коллеги!
Буквально сегодня ночью на Kaggle завершилось соревнование Home Credit - Credit Risk Model Stability на почти 4к команд, сутью которого было предсказать, какие клиенты с большей вероятностью не выплатят свои кредиты. Отдельным челленджем являлась задача сделать свою модель максимально стабильной во времени. По итогу это была задача кредитного скоринга на табличках (что в текущих реалиях довольно большая редкость для Kaggle).
🤖 LightAutoML показал себя в нем максимально достойно:
- Благодаря усилиям Андрея Нестерова и его ноутбуку с использованием моделей Denselight из LightAutoML можно было получить серебряную медаль и занять 40 место из 3885
- Если же использовать ноутбук с большим количеством моделей в композиции (включающим модели из LightAutoML), то можно было забраться в призы (заработать $10к 💸) и финишировать на 4-ом месте 🔥
👀(И это пока что результаты без учета решений победителей, которые еще не опубликованы)
Happy Kaggling with LightAutoML 🦙
P.S. Большое спасибо всем тем, кто помог дотолкать наш GitHub репозиторий до важной планки ⭐️1к+ - эта история позволила нам создать запрос на добавление LightAutoML в официальный Kaggle Kernel environment. При желании его тоже можно поддержать, как это уже успел сделать Самвел 🥹
🎙 Большая бесплатная трёхдневная конференция WOMEN TALK 2024 - сообщества для поддержки и развития женщин-специалистов в области больших данных и аналитики, помощи в построении карьеры в динамичной и конкурентной ИТ-сфере.
Будет факап вечер, выступления в стиле TED, мастер-классы, панельные дискуссии по трекам:
1️⃣ 17 мая 18:00 Факап-вечер: учимся на чужих ошибках, онлайн и очно в Москве на ВДНХ.
2️⃣ 18 мая 11:00 Рост в лидеры, онлайн
3️⃣ 19 мая 11:00 Практики и техники работы с данными, истории входа в профессию, онлайн
✔️ Регистрация обязательна везде.
Записи будут!
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Никита Бухал "Уравнение Беллмана и (А*) - алгоритм поиска путь в графе"
⌚️ Четверг 2 мая 19.00 по Москве
📓 Notebook: https://www.kaggle.com/code/tttzof351/a-star?scriptVersionId=174356800
Уравнение Беллмана - это основа для динамического программирования, которое используется для нахождения оптимальных решений в различных задачах, включая поиск кратчайшего пути в графе.
Алгоритм A* используется для поиска кратчайшего пути в графе, комбинируя эвристическую оценку и стоимость пути.
Связь между ними заключается в том, что A* использует эвристику для приближенного оценивания оптимального значения, а уравнение Беллмана обеспечивает формальную основу для оптимизации этого значения.
📹 Video: https://youtu.be/oli-8SPhsSI?si=Hrp6GDByEm5HwE9d
📖 Presentation: https://docs.google.com/presentation/d/1phFZf8NZgNHchhj67LNcbLPwa39vKlKLELoXS_ES9Jk/edit?usp=sharing
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Александр Червов, Никита Бухал "Задача короткого пути на графе Кэли как задача перевода с "Пермутляндского" на "Кэлиляндский" - первый пример".
⌚️ 18 Апреля , Четверг, 19.00 по Москве
Задача нахождения пути на графах Кэли может быть переформулирована как задача секвенс-то-секвенс ("перевода" с одного "языка" на другой). Специфика графов Кэли - что любой путь на графе - задаётся как секвенс ребер/"мувов"/образующих группы ("Кэлиляндский"). С другой стороны любая вершина - просто перестановка чисел (1,2,3,...n) ("Пермутляндский"). Тем самым задача поиска пути из заданной перестановки в "стандартное/собранное" состояние - это задача перевода сиквенса длины "n" описывающего перестановку в сиквенс неизвестной длины описывающий последовательность "мувов" которые приводят заданную перестановку в "собранный"/стандартный вид (1,2,3,4,...).
В данном докладе мы обсудим эти формулировки задач, а потом разберем первый пример - граф Кэли пермутохедрона , "мувы" = транспозиции соседей (i, i+1). То есть "сортировка пузырьком".
Решение на основе трансформера.
Исходная последовательность длинна N=8 s0 = [0, 1, 2, 3, 4, 5, 6, 7]
Tgt последовательность длинны N-1=7 [1, 2, 6, 0, 3, 4, 5]
Действуем последовательностью tgt на S0 так чтобы j = tgt[i] означает переставноку соседних элементов: s0[j] <-> s0[j+1].
В итоге получим последовательность src = tgt(s0) = [2, 0, 3, 4, 5, 7, 1, 6].
При этом tgt и tgt' считаются эквивалентными если tgt(s0) = tgt'(s0)
Задача: восстановить tgt из src
Алгоритм известен: записать в обратном порядке индексы соседних перестановок выполняя сориторвку пузырьеком:
0: [0, 2, 3, 4, 5, 7, 1, 6]
5: [0, 2, 3, 4, 5, 1, 7, 6]
6: [0, 2, 3, 4, 5, 1, 6, 7]
4: [0, 2, 3, 4, 1, 4, 6, 7]
3: [0, 2, 3, 1, 4, 4, 6, 7]
2: [0, 2, 1, 3, 4, 4, 6, 7]
1: [0, 1, 2, 3, 4, 4, 6, 7]
tgt' = [1, 2, 3, 4, 6, 5, 0] //<- То что хотим найти так как эквивалентна tgt [1, 2, 6, 0, 3, 4, 5]
Zoom link @sberlogabig before start. Videos: https://www.youtube.com/c/SciBerloga - subscribe !
🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨🔬 Д. Пензар, И. Кулаковский, "Старт соревнования IBIS - Inference of Binding Specificities - биоинформатика и машинное обучение для предсказания ДНК-паттернов, узнаваемых регуляторными белками человека".
⌚️ 5 Апреля, пятница, 19.00 по Москве
Add to Google Calendar
В марте мы запустили международное соревнование IBIS по предсказанию ДНК-паттернов, узнаваемых регуляторными белками человека. Соревнование продлится до середины лета, в ближайшие недели самое время присоединиться, а итоги подведем осенью.
Победители станут соавторами публикации в престижном научном журнале, а лучшие методы определят стандарт поиска и представления новых ДНК-паттернов на годы вперед.
Для проведения IBIS организаторы соревнования - международный консорциум лабораторий из Канады-Швейцарии-Германии-России - подобрали новые ранее не публиковавшиеся экспериментальные данные по ДНК-белковым взаимодействиям для 40 белков-регуляторов активности генов человека. Для каждого белка сделано 3 и более различных вида экспериментов. Вишенка на торте: ДНК-специфичность для большинства белков в IBIS ранее не изучалась, и для всех исследователей это один из последних шансов внести свой вклад в кодовую книгу регуляторных паттернов генома человека.
Соревнование пройдет полностью онлайн, подробности на сайте ibis.autosome.org. В презентации мы расскажем о постановке задачи (почему это важно и очень интересно изучать), об особенностях экспериментальных данных и метриках, которые мы используем для оценки моделей.
Подробнее об области исследований и лишь немного похожем соревновании, в котором мы достойно выступили почти 10 лет назад, можно почитать на биомолекуле: https://biomolecula.ru/articles/mechtu-vyzyvali
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📖 Presentation: /channel/sberlogabio/71749
📹 Video: https://youtu.be/xJqlAtvycKA?si=CcRFurTuO5Gl8ZB8
📓 Telegram discussion group: /channel/ibischallenge
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Евгений Дурыманов "Использование пакета node2vec для вложения графов"
⌚️ Вторник, 26 Марта, 19.00, по Москве
Add to Google Calendar
Доклад основан на Каггл ноутбуке: https://www.kaggle.com/code/eugenedurymanov/the-permutohedron-node-embeddings-distance-distr (апвоты - приветсвуются ! ).
Будет рассмотрен граф Кэли симметрической группы со стандартным выбором образующих (транспозиции соседних элементов). Permutohedron - это выпуклый многогранник, ребра которого в точности задают этот граф. Тем самым сам многогранник задает некоторое "правильное" вложение графа. Можно рассмотреть как распределены расстояния между вершинами в таком эмбединге - ожидается и хороший фит нормальным распределением - что и наблюдается.
Будет также рассмотрен пакет node2vec для вложений графов и его применение к этому конкретному графу и сравнение с Permutohedron.
Если время позволит - будет рассказано как работает пакет:
Строятся случайные блуждания по графу - набор вершин - это предложения, а сами вершины - это слова. После этого применяется word2vec, который и дает эмбединги. Реализация word2vec в Pytorch-geometric отличается от исходной и следует статье https://arxiv.org/abs/1402.3722 .
Код:
https://causalai.github.io/pytorch_geometric/_modules/torch_geometric/nn/models/node2vec.html
См. также: https://www.baeldung.com/cs/nlps-word2vec-negative-sampling
Подумайте какой предложен лосс и чем он отличается от исходного лосса в ворд2век.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
—————————-
Мы организуем активность по изучению методов ML/RL и применению их к математическим задачам теории групп/графов, если Вам интересно присоединиться - отметьтесь в голосовалке : /channel/sberlogasci/7794 . Более подробная инфа тут: /channel/sberlogabig/374.
⚡️Уважаемые коллеги ! Сообщество админов научно-технических каналов, во главе с админами замечательного телеграм-канал «Наука и университеты» (@naukauniver) подготовило тематическую папку каналов, связанных с наукой и технологиями. Уверены, в ней Вы найдете, что-то Вам интересное - изучайте, подписывайтесь, пересылайте коллегам.
❗️Ссылка на папку:
/channel/addlist/aeVXsZF02UY2ZDUy
Продолжаю играться с графами после соревнования по сборке кубиков Рубика и других головоломок. Так выглядит граф группы перестановок последовательности из 8 элементов. Начинаем с упорядоченных цифр от 0 до 7 и переставляем пары соседних цифр (здесь выбраны только 3 возможных перестановки). Соединяем новую последовательность с предыдущей. Применяем такие перестановки несколько раз и визуализируем граф: получается такая красота
Если сделать меньше шагов, выходит что-то вроде шестиугольника. Если сделать больше – выходит тарелка с лапшой. Примеры будут в комментариях
#математика
Знаете, вот бывают люди, которые бесконечно генерят вокруг себя срач творческий беспорядок и при этом чувствуют себя в этом бардаке абсолютно комфортно. Бывают и люди, которые ежедневно моют полы и гоняются с тряпкой за каждой соринкой. Как бы то ни было, мусор, даже мельчайшие крошки, в обычной жизни не представляют серьезной опасности для человека. А вот в операционной любая пылинка — настоящая угроза. Это я все к чему. Среди клеток, похоже, есть те, которые более-менее спокойно относятся к клеточному мусору, а есть те, для которых неуложенные белки, собранные в нерастворимые агрегаты, и другие дефектные молекулы просто недопустимы. Как правило, клетки, на дух не переносящие кавардак из биомолекул в цитоплазме, — очень долгоживущие клетки, в частности, ооциты. Быстроделящиеся клетки теряют часть своего мусора при делении. С ооцитами ситуация иная: поскольку из ооцита после оплодотворения будет развиваться целый организм, наличие в цитоплазме всякого хлама вроде белковых агрегатов совершенно недопустимо. Конечно, опции поделиться для того, чтобы разбавить концентрацию хлама, у ооцитов нет. Да, есть, конечно, универсальные методы для устранения в клетке растворимых и нерастворимых белков — убиквитин-протеасомная система и аутофагия соответственно, но ооцитам их явно не хватает. Как оказалось, внутри ооцитов есть особые немембранные компартменты, которые назвали ELVA (от endolysosomal vesicular assemblies). Состав ELVA непрост: там есть мембранные органеллы, которые удерживаются вместе при участии белка RUF1. В отсутствие RUF1 ELVA не могут формироваться, так что, похоже, именно он образует белковый матрикс ELVA. По мере созревания ооцита RUF1 оттесняется к периферии клетки при участии актинового цитоскелета. Что же касается функций ELVA, то входящие в его состав лизосомы, загруженные всякой гадостью, при участии RUF1 отходят к периферии и выбрасывают мусор из клетки посредством экзоцитоза. Именно в лизосомах ELVA накапливаются вредные белковые агрегаты, и работа лизосом в ELVA критически необходима для развития будущего эмбриона. Возможно, ELVA или подобные им компартменты есть и в других клетках, которым особенно необходима чистая цитоплазма. Что же до нас с вами, согласитесь, сидеть в чистоте и порядке гораздо приятнее, чем в хламовнике.
🚀 Коллеги из Harvard Medical School сделают замечательный доклад и рассмотрят возможность коллаборации с заинтерсованными участниками - в том числе дата-сайнтистами (для начинающих это отличная возможность попробовать себя). Если Вы заинтересованы откликнитесь в голосовалке: /channel/sberlogabio/70205
🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨🔬 Speakers: William Trim, Leon Peshkin, Kseniya Petrova (Harvard Medical School)
🧬 Title: "Understanding Tissue Biology using Normalised Raman Imaging (NoRI)"
🗣 Language: English
⌚️ When: March 15, Friday, 19:00 Moscow time
Add to Google Calendar
Histopathology reflects the health, aging, and eventual failure of tissues, yet histopathology remains qualitative, subjective, and thus hard to study. In our lab, we have developed a form of NoRI that provides quantitative readouts of protein and lipid content of biological samples at sub-cellular resolution. We have employed this approach to explore the biology of the kidney in health and disease, namely ischemic injury models, and intend to broaden our scope to multiple organs in aged rats. We are looking for a collaborator to help us with image analysis. Our ultimate aim is to generate a workflow combining these reproducible and quantitative images with ML approaches to both segment structures of interest as well as identify novel hallmarks of disease and ageing that would otherwise be missed by qualitative analysis.
Более подробную информацию и пример данных Вы можете посмотреть на Каггл, по ссылке:
https://www.kaggle.com/competitions/kidney-segmentation-of-novel-microscopy-images
Zoom link will be in @sberlogabig just before start.
Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📹 Video: https://youtu.be/CNYULstxn6A?si=ZoKQrL3D_KzxenOd