Мультидисциплинарный канал о науке и технологиях. Data Science, Bioinformatics, Biology, Mathematics, Physics, IT, Computer Science. @sberlogabio био и дата сайнс @sberlogasci математика, физика и ДС https://www.youtube.com/c/SciBerloga
⚡️ Полезное объявление для молодых ученых и тех, кто начинает строить карьеру в биоинфе!
Постоянные дедлайны грантовых отчетов, нехватка финансирования, конкуренция, скучные проекты и рутина, «зависимость» от лабы и научника, нескончаемый стресс... Вы еще спрашиваете, откуда берется токсичность в научной среде? 😅
Действительно, всё перечисленное демотивирует и приводит к превращению в вечного ворчуна.
Ученому важно зарабатывать достойно. Однако, многие научные сотрудники чувствуют себя неуверенно и редко отваживаются требовать должного вознаграждения за свои труды. К счастью, в условиях быстро меняющегося мира, появляются возможности обеспечивать себя хорошим заработком и не стыдиться этого.
Добавить к своему багажу знаний релевантные и востребованные навыки — вот стратегия развития современной карьеры. Такие навыки сегодня: статистика и анализ данных. Big Data проникает практически во все области науки, и ученым, владеющим биоинформатикой, открываются широкие перспективы для проведения качественных исследований, работы с интересными задачами, в том числе дистанционно.
Хотите обогатить свою научную жизнь, но не знаете как? В Blastim расскажут и покажут. Совсем скоро стартует курс «Статистика, R и анализ данных» — отличный старт для погружения в датасайнс.
На курсе вы:
▫️ освоите инструменты R для обработки и визуализации
▫️ научитесь дизайнерить и анализировать эксперименты
▫️ отрепетируете процесс анализа на своих собственных данных!
▫️ увидите применение статистических методов на практике для получения воспроизводимых результатов
❗️Важно. С Blastim вы не просто учитесь, а становитесь частью дружной биоинформатической семьи. В чате выпускников можно обмениваться идеями и опытом, создавать новые связи в мире науки. Если возникают вопросы, преподаватели всегда придут на помощь и подскажут, какой статистический тест выбрать, или напомнят, что такое p-value 😉
Не становитесь «токсиками», а берите всё в свои руки!
Промокод SBERLOGA специально для нашей группы
🚀Коллеги, напоминаем, что мы организуем активность - применить методы машинного обучения к задачам теории групп/графов.
🚀 В теме есть вопросы от совсем простых до сложных - если у Вас есть желание поучаствовать - отметьтесь в голосовалке тут. Будем рады всем - не важно сколько у вас опыта - часть вопросов простые - доступны всем.
🚀 Примерный список направлений
1) Задача поиска короткого пути на графах Кэли (сборка кубика - аналог Каггл Санта23 - но для произвольных групп)
2) Оценки диаметра ("числа бога") для графов (то есть расстояние между самыми дальними точками на графах)
3) Бенчмарк эмбедингов графов на основе математических результатов о графах
4) Многое другое, что тесно связано - случайные блуждания, гипотеза Ловаса о обязательном существовании гамильтонова пути на любом графе Кэли,
Обсуждение части направлений можно найти на вебинаре тут: /channel/sberlogabig/370
Обсуждение Каггл соревнования Санта23 - /channel/sberlogabig/361
🚀А теперь позвольте представить Вам интересные результаты полученные одним из участников - Kirill Khoruzhii - автором замечательного канала - @diagrams_every_day - обязательно подписывайтесь:
👨🔬 Александр Червов "МЛ/РЛ подходы к задачам теории групп/графов"
⌚️ Пятница, 1 марта, 19.00 (по Москве)
По любой группе (набору матриц или перестановок) легко строится граф (Кэли) - вершины вектора, между v,w есть ребро, если существует "M" из нашего набора, такое что v = Mw . Такие графы краеугольный камень современной математики - известная теорема Громова - о том, что если "рост" (то есть набор чисел $g_i$ - количество вершин на расстоянии "i") - растет экспоненциально по i - то группа далека от коммутативной, а если полиномиально - то группа близка к коммутативной, то есть граф близок к решетке.
Возможно, это имеет прямое отношение к эмбедингам графов - графы с экпоненциальным ростом лучше вкладывать в гиперболические пространства, а с полиномиальным ростом - в обычное R^n. Но правда ли это ? и что значит "лучше" ?
Но, Громов - бесконечные группы, нужны конечные. В ситуации "попроще" (там где рост НЕ экспоненциален) - "рост" иногда хорошо приближается нормальным гауссовым "колокольчиком" (см. мои гипотезы на матоферлоу). "Хороший" эмбединг - должен "уважать" метрики - метрика на графе - длина кратчайшего пути - метрика в эмбединге - расстояние евликдово или гиперболическое. "Хороший" эмбединг должен не сильно искажать эти метрики. А значит гауссово распределение должно сохраняться и после эмбедингов. А сохраняют ли его современные пакеты эмбедингов - node2vec, DeepWalk ... ? Науке не известно, но мы можем это поизучать - сделать бенчмарк эмебедингов графов. А как правильно думать об эмбедингах графов с экспоенциальным ростом - вот вопрос - пока не понятно - но что-ть придумаем.
Другая тема - всем интересна оценка диаметров ("числа Бога") - где крайняя точка на графике роста ? или какое самое большое расстояние на графе , или на языке кубиков - за сколько шагов можно точно собрать кубик из любого положения ? Науке тут тоже многое не известно.
О докладчике: к.ф.-м.н А.Червов, Институт Кюри, Париж. Scholar, Kaggle, попутно создатель Сберлог)
📖 Presentation
📹 Video
Новые программы обучения по биоинформатике от учебного центра biomedschool.ru!
➡️ Вебинар «Анализ качества Fast Q-файлов и исправление ошибок»
Дата проведения: 29 февраля в 19:00
Формат: Онлайн
Поймете, как пользоваться программами fastQC, сutadapt и prinseqlite. Вы научитесь проводить оценку качества секвенирования и фильтровать сырые прочтения секвенатора по качеству и длине, отрезать адаптеры и праймерные последовательности. Практика во время вебинара на реальных данных секвенирования с платформы Illumina.
➡️ Курс «Введение в технологии NGS. Работа с данными секвенирования»
Дата проведения: 15 — 20 марта
Формат: Очно (Москва) / Онлайн
Вы изучите работу с базами данных, проведёте анализ результатов секвенирования и самостоятельно соберете геном, аннотируете мутации и начнёте пополнять свое портфолио реальными кейсами!
➡️ Курс «Python для анализа данных»
Дата проведения: 26 — 27 апреля
Формат: Очно (Москва) / Онлайн
В отличии от его бесплатных аналогов, во время обучения вы получите структурированную информацию по основам языка и работе с библиотеками, обратную связь от преподавателей и❗️практику на примере биологических проектов.
Подробности на сайте — biomedschool.ru
Молекулярные микрочипы, передовое образование и тесная связь с бизнесом. Передовая инженерная школа ИТМО поделилась результатами защит и выиграла грант на 634,5 миллиона рублей!
На прошлой неделе прошли ежегодные защиты в рамках федерального проекта Передовых инженерных школ в 2023 году. Университеты представили результаты научных работ, достижения, наиболее значимые для экономики и общества результаты разработок, а также — планы развития и задачи 2024 год.
В ПИШ ИТМО реализуется креативный подход к образованию студентов, которые во время обучения участвуют в создании высокотехнологичных разработок или создают свои стартапы. Смотрите видео и подписывайтесь на их канал, чтобы не пропустить интересные новости!
На гифе - процесс сборки многослойного кубика Рубика за 2869 ходов.
🚀 @SBERLOGACOMPETE webinar on mathematics and data science:
👨🔬 V. Shitov, P.Snopov, A.Chervov "Теория групп, пазлы Рубика и Каггл соревнование Санта23"
⌚️ Пятница 16 февраля 2024, 19.00 (по Москве)
Add to Google Calendar
Постановка задачи.
На задачу можно смотреть как минимум четырьмя способами 1) даны разобранные состояние пазлов типа многомерного кубика Рубика - надо предъявить последовательность ходов сборки - у кого меньше тот и выиграет 2) Даны два вектора v1, v2 - предъявить последовательность матриц из фиксированного набора так чтобы v2 = M_1M_2M_3 .. M_n v1 ( у кого короче - тот и выиграл) 3) Аналогично с заменой матриц на перестановки 4) Поиск наиболее короткого пути на графе между двумя вершинами - только граф может быть такой, что число вершин в нем больше чем атомов во вселенной.
Теория групп. И подходы к решениям.
Мы обсудим разные взгляды на эту задачу и разные способы ее решать.
Поговорим о простых трюках из теории групп, которые позволили написать хороший оптимизатор публичных решений. Обсудим идею в основе топовых решений и как её можно улучшить
Подходы через MILP ( смешенное целочисленно-линейное программирование) и реинфорсмент ленинг.
Расскажем про постановку задачи как задачи целочисленного программирования и (если останется время, немного расскажу про RL подход в соревновании)
Нерешенные математические проблемы .
В теории групп много гипотез над которыми думают лучшие умы такие как Т.Тао (См. например обзор Хельфгота Growth and expansion in algebraic groups over finite fields https://arxiv.org/abs/1902.06308) - на языке пазлов - эти гипотезы содержат оценки для "числа Бога" - наименьшего количества ходов сборки пазла, отметим что это число неизвестно науке уже для кубика 4х4х4. Мы планируем обсудить подходы к подобным вопросам через машин ленинг на этом и последующих вебинарах.
📖 Presentations: /channel/sberlogacompete/14423
📹 Video: https://youtu.be/aoKzd8snKLE?si=47QZqtP85JsxkfTL
Привет, Друзья!!
Мы рады сообщить вам, что у нас есть специальный канал, где вы можете найти актуальные вакансии, а также разместить своё резюме.
Присылай свои CV с указанием области интересов, попробуем помочь Вам найти интересную работу.
Уважаемый HR-ы, также ожидаем и вашего активного участия 😊
Контакт @Zabis13
Уважаемые коллеги !
🚀 Сообщество админов научно-образовательных каналов во главе с админами каналов: «Наука и университеты» и «Кипящий МИФИ» сформировали папку каналов о науке и образовании.
❗️Собраны отличные каналы ! Вам остается только перейти по ссылке и сохранить папку или её часть себе.
/channel/addlist/tmcQOBSpVmo4MzU6
💻 Джи-пи-ти... Уже все наслышаны про модели-трансформеры, прекрасно генерирующие текст. Но сверх классического применения, версия GPT4, как говорят, хорошо помогает в задачах кодинга. Бластим решил это проверить.
19 января 19:00 мск мы проведем эксперимент в реальном времени и посмотрим, сможет ли чат-бот воспроизвести или в точности повторить результат труда биоинформатика. Рабочий кейс — сингл селл колоректального рака. Попробуем цикл от контроля качества до оценки лиганд-рецепторных взаимодействий! Настоящая импровизация шаг за шагом.
Наш спикер Дмитрий Тычинин будет модерировать работу чата и экспертно оценивать преимущества и недостатки ответов на вопросы, возникающие у людей, которые работают с single cell данными. Кроме того, на мастер-классе любые вопросы аудитории получат ответы в двойном объеме: и от ИИ, и от человека!
🚩Онлайн-встреча будет интересна всем: уже знакомым с нашумевшим чат-ботом, тем, кто никогда не прибегал к помощи GPT, работодателям, которые хотят посмотреть на навыки биоинформатика за 10$/месяц 😉
👉 Регистрируйтесь на мастер-класс по ссылке: bit.ly/3TVqOny
И с нетерпением ждем следующую пятницу!
🚀 NIPS Workshop on Challenge "Open Problems – Single-Cell Perturbations"
"Predict how small molecules change gene expression in different cell types"
⌚️ 16 December 2023 at 13:30-16:30 CST (GMT-6). You can find the schedule and Zoom link on Google Sheets here: https://docs.google.com/spreadsheets/d/19VF9s9jDVE76Hg4wJDi9S8Dg3ZC1E1SAS4sdUazuTWI/edit?usp=sharing
Everyone is invited to attend. Link to information post: https://www.kaggle.com/competitions/open-problems-single-cell-perturbations/discussion/461113
NIPS workshop посвященный челенджу "Open Problems – Single-Cell Perturbations" - уже завтра - Суббота.
Наш тим U900 (Антонина Долгорукова, Дмитрий Руденко, Дмитрий Ершов, Антон Вахрушев, Александр Червов)
тоже приглашен и презентует наше решение "PYBOOST - is what you need"
Присоединяйтесь послушать топовых спецов в теме (ну и нас тоже).
🚀 @SBERLOGACOMPETE webinar on data science:
👨🔬 Anton Vakhrushev "SketchBoost: Fast Gradient Boosted Decision Tree for Multioutput Problems"
⌚️ Monday 11 December 19.00 (Moscow time)
Add to Google Calendar
Gradient Boosted Decision Tree (GBDT) is a widely-used machine learning algorithm that has been shown to achieve state-of-the-art results on many standard data science problems. We are interested in its application to multioutput problems when the output is highly multidimensional. Although there are highly effective GBDT implementations, their scalability to such problems is still unsatisfactory. In this paper, we propose novel methods aiming to accelerate the training process of GBDT in the multioutput scenario. The idea behind these methods lies in the approximate computation of a scoring function used to find the best split of decision trees. These methods are implemented in SketchBoost, which itself is integrated into our easily customizable Python-based GPU implementation of GBDT called Py-Boost. Our numerical study demonstrates that SketchBoost speeds up the training process of GBDT by up to over 40 times while achieving comparable or even better performance.
It easy to install: pip install py-boost
It easy to use - see tutorial notebooks: Kaggle Open problems notebook, Tutorial_1_Basics, Tutorial_2_Advanced_multioutput, Tutorial_3_Custom_features
Github
Paper: Iosipoi, Leonid, and Anton Vakhrushev. "SketchBoost: Fast Gradient Boosted Decision Tree for Multioutput Problems." Advances in Neural Information Processing Systems 35 (2022): 25422-25435.
Gold medals on Kaggle: CAFA5 , Open problems - single cell perturbations 2023, Open problems 2022,
Lots of silver/bronze medals in recent Open problems 2023 were based on Pyboost.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📖 Presentation: /channel/sberlogacompete/10211, Poster: /channel/sberlogacompete/10215
📹 Video: https://youtu.be/5xRxuDh_cGk
🚀 @SBERLOGACOMPETE webinar on data science:
👨🔬 Aлександр Рыжков, Ольга Цымбой "Почти золото “Kaggle - LLM Science Exam”: retrieval is almost all you need"
⌚️ Четверг 7 Декабря 19.00 (по Москве)
Add to Google Calendar
В этом докладе мы представим разбор нашего итогового решения, занявшего 21е место с 0.916 MAP@3 на приватном лидерборде соревнования “Kaggle - LLM Science Exam”. В ходе рассказа затронем основные моменты в данных или зачем мы использовали дополнительные данные, стратегии поиска контекстов для задачи multiple choice QA, а также как подбирали параметры итогового ансамбля. В конце нашего доклада рассмотрим и сравним другие решения из топа лидерборда.
Описание решения на Каггл: https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/447589
О докладчиках: Александр Рыжков - тройной Каггл грандмастер, тим-лид авто-мл "LAMA" (LightAutoML) в Сбер АИ Лаб,
Ольга Цымбой - исследователь в центре инструментов машинного обучения, Cбер АИ Лаб
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe out youtube channel !
📖 Presentation: /channel/sberlogacompete/10196
📹 Video: https://youtu.be/RWV2cYHRUqU?si=dolyowmtfQLaMeDp
🚀 @SBERLOGACOMPETE webinar on data science:
👨🔬 "Review of the Kaggle competition 'H2o.ai Predict the LLM' "
⌚️ Thursday 16 November, 19.00 (Moscow)
The review of the recent NLP competition will be given. The speakers include Kaggle Grandmaster Dmitry Larko who is one of the organizers of the competition. The objective of this competition is to detect which out of 7 possible LLM models produced a particular output. With each model having its unique subtleties and quirks, can you identify which one generated the response?
Add to Google Calendar
Speakers / Спикеры
1. "Dataset preparation and H2O LLM Studio" Dmitry Larko, Kaggle Grandmaster, AutoML & GenAI research at H2O.ai, Competition Organizer
2. "To Catch-up Log-Loss 1 and Philipp Singer's baseline… " Samvel Kocharyan, Aleksey Schukin, 8th Place Solution (Chuk & Gek team)
3. "Winning solutions review", Rashmi Banthia, Harward University, 3rd Place
19:05 - 19:20 - Dmitry Larko
19:20 - 19:40 - Samvel Kocharyan, Aleksey Schukin
19.40 - 20.00 - Rashmi Banthia
20.00 - 20.20 - Q&A
Announcement on Kaggle
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
🚀 @SBERLOGABIO webinar on bioinformatics:
👨🔬 Семен Стешин “Lo-Hi: Practical ML Drug Discovery Benchmark”
⌚️ Четверг 19 Октября, 18.00 (Moscow time)
Add to Google Calendar
ML модели сложно сравнить по качеству между собой. Особенно сложно сравнивать молекулярные модели, в которых проверка одного предсказания может стоить несколько тысяч долларов и занимает несколько месяцев.
Семен расскажет про свою новую работу с NeurIPS 2023 “Lo-Hi: Practical ML Drug Discovery Benchmark” в которой он рассматривает две задачи — Hit Identification и Lead Optimization — и сравнивает ML модели для предсказания молекулярных свойств. Он расскажет как разделять датасеты с помощью линейного программирования, чтобы избежать утечек теста, и расскажет про простую библиотеку для сплитинга.
Вы узнаете:
- Работает ли ML в химии или он просто заучивает трейн.
- Умеет ли ML различать небольшие модификации молекул.
- Какие модели лучше подходят для поиска новых молекул. Какие лучше подходят для оптимизации (это разные модели).
- Почему существующие бенчмарки не позволяют выбрать модели для реальных задач.
- Где граница между модификацией существующего лекарства и по-настоящему новой молекулой.
Приглашаются все причастные к разработке лекарств и все фрустрированные утечками теста в биохимическом ML. Доклад ~30 минут.
Тред в Твиттере: https://twitter.com/ZdarovaAll/status/1712085059073605929
Статья: https://arxiv.org/abs/2310.06399
Библиотека: https://github.com/SteshinSS/lohi_splitter
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📖 Presentation: /channel/sberlogabio/63561
📹 Video: https://youtu.be/1IUHAtiyPso?si=zq4Lad-I5RUXq4w8
Ловите крутейший data-форум сезона — Loginom Day 2023!
Уже 5 лет мы собираем руководителей, специалистов по данным и IT-шников на наш форум экспертов по low-code аналитике
Реальные кейсы, экспертиза и прямой диалог со спикерами, которые успешно используют платформу Loginom для задач бизнеса. Это событие для людей, которые хотят обогатить свой опыт в анализе данных и получить множество классных идей и новых знакомств
Когда? 2 ноября 2023 года в 13:00 гибрид (Москва, ВДНХ + онлайн-трансляция). Участие бесплатное
И если вы хотите узнать, почему мигрировать с SAS Marketing Automation нужно именно на Loginom, за счет чего retail-компании удалось повысить лояльность клиентов, а также как силами нескольких аналитиков построить систему поддержки принятия решений крупного банка, ждем по ссылке.
О том как нейросеть кубик Рубика собирает
(или случайные блуждания на графе в поисках кратчайшего пути)
Возьмём кубик Рубика 2x2x2, от собранного состояния ■ делая всевозможные шаги найдём расстояние до всех состояний, таким образом получим граф с N=3.7М вершин степени 6. По пути мы нашли, что достаточно 14 шагов, чтобы дойти до ■ из любой позиции. Если блуждать случайно, то в среднем нужно будет сделать порядка N шагов, это явно не наш путь. Можно ли не запоминая все вершины научиться искать короткий путь до ■? Конечно да!
Например, возьмём 1М вершин и научим полносвязную трёхслойную нейронную сеть (40k параметров) понимать какое из рёбер уменьшает расстояние до ■. У меня модель даёт правильный ответ в 60% (на тестовых вершинах), чего уже оказывается достаточно! На графике приведены случайные блуждания в соответствие с предсказаниями модели. В среднем получается найти путь длиной 30 (если без поиска кратчайшего пути по посещенным вершинам, то 50), что по-моему замечательно)
Воскресный нетворкинг. Коллеги, позвольте порекомендовать Вам замечательные каналы:
@boilingmephi - канал о жизни, науке и образовании с акцентом на НИЯУ МИФИ.
@chernovdev разработка в направлении big data.
@efmchannel - автор канала Полина (жила 13 лет за границей, работала в ООН, работала с IT-компаниями) рассказывает про тонкости международной карьеры и английского, а также в предпоследнем закрепе развенчивает мифы о получении оффера за рубежом 🚀
@AGI_and_RL Искусственный интеллект и reinforcement learning
@botka_chronics интересные вещи, с которыми автор сталкивается по работе над диссером (обобщение keypoints detection с помощью дифференциальной геометрии) и работой над работой (ML и матстат в основном)
@chelovek_nauk Канал о науке и учёбе. Здесь вы найдёте объяснение сложных научных вещей простым языком.
@mathematics_not_for_you о математике - простым языком. Думаете, канал не для Вас? Постойте, Вы это зря. Математика - царица наук, окружающая нас с рождения до самой смерти.
@sberlogabig Дата-сайнс, биоинформатика, биология, математика
Если у Вас есть интересный канал, блог, или проект - не стесняйтесь - напишите нам - @alexander_v_c @zabis13
Все каналы подборки в одной папке: /channel/addlist/0z9tiI3orEJhNjA6 (добавляйте ее к себе).
🚀 @SBERLOGASCI webinar on data science and mathematics:
👨🔬 Mark Obozov "Применение стандартных методов RL и Alpha-подобных методов к сложным графовым задачам."
⌚️ Четверг, 29 февраля, 19.00 (по Москве)
Add to Google Calendar
Контекст: Коллеги, мы планируем начать активность по применению методов РЛ, МЛ к задачам на стыке теории групп/графов, где много нерешенных проблем над которыми бьются лучшие умы математики типа Терранса Тао. Иллюстрация задачи - оценки "числа Бога" (диаметра) для групп - см. пример гипотез в посте И. Пака и Х.Хельфгота , а , по-простому, - даже для кубиков Рубика задача не решена. В теме есть вопросы от совсем простых до сложных - если у Вас есть желание поучаствовать - отметьтесь в голосовалке тут. Будем рады всем - не важно сколько у вас опыта - часть вопросов простые - доступны всем. Примерный список вопросов-направлений тут (будет обновлен). Cтартовый митинг активности планируем на пятнцу 1 марта - анонс позднее.
А начнем мы с доклада - который даст введение в один из аспектов этой темы - РЛ (реинфорсмент ленинг).
Абстракт: В рамках данной лекции мы разберём как множество стандартных методов RL(Q-learning, SARSA, etc.) так и различные Alpha модели, включая их применения к большому классу задач - от каких-либо "игровых", до достаточно серьёзных биологических проблем. Одним из возможных интересных продолжений этой темы, является применение полученных знаний и идей в рамках "Каггл Соревнования Санта23" и различных задачах теории групп, которые сводятся к графам. Как более приземленный пример применения RL к графам, будут рассмотрены 3 примера:
1) Решению оптимизационной задачи поиска равновесия в двухстадийной модели транспортной сети с помощью RL
2) Поиск кратчайших расстояний с помощью RL
3) Различные игры на графе, раскраски, тоже с помощью RL
О докладчике: Mark Obozov - CTO, Stanford, Berkeley Research, лектор в ШАДе
📖 Presentation: /channel/sberlogasci/8048
📹 Video: https://youtu.be/lIvq8zFvTx0?si=qt2Z13h7zofYKamp
🚀 @SBERLOGABIO :
👨🔬 Д.Пензар, В.Вяльцев, "Предсказание реактивностей нуклеотидов РНК по ее последовательности при помощи ArmNet — Ribonanza competition 1st place solution"
⌚️ Пятница 23 февраля 2024, 19.00 (по Москве)
Команда VIGG ( Vavilov Institute of General Genetics (Д.Пензар, В.Вяльцев, А.Бакулин, А.Зинкевич, Е.Носкова ) заняла первое место в научном конкурсе по предсказанию свойств РНК, опередив 700+ команд и даже команду грандмастеров NVIDIA во главе с легендарным "Dieter" (топ1 в общем рейтинге Кагггл). Заходите на их доклад:
Add to Google Calendar
Точное предсказание структуры РНК может помочь совершить революцию в науке и медицине, облегчив исследователям процесс выявления уникальных РНК мишеней для лекарств и разработки лекарств на основе РНК. С целью создания модели, эффективно предсказывающей структурные характеристики молекул РНК, был создан международный конкурс Stanford Ribonanza RNA Folding на платформе Kaggle, в котором решение нашей команды заняло первое место, значительно опередив остальные команды со всего мира и известные SOTA-решения.
В основе нашего подхода лежит трансформерная encoder-only архитектура, показавшая себя намного лучше сверточных нейросетей. Значительно качество сети улучшило добавление BPPM (Base Pair Probability Matrix), а также отказ от абсолютного позиционного кодирования в пользу относительного. В качестве финальной модели мы использовали ансамбль из 28 одиночных моделей, который показал лучшее качество в конкурсе.
В ходе дальнейшего исследования, мы смогли ещё больше улучшить качество нашей модели, использовав идеи из SqueezeFormer. В новую модель - ArmNet - мы добавили возможность двусторонней коммуникации между признаками, основными на BPPM и матрицами внимания.
Zoom link will be in @sberlogabig just before start.
Video records: https://www.youtube.com/c/SciBerloga - subscribe !
Write-up на Каггл.
📖 Presentation: /channel/sberlogabio/69195
📹 Video: https://youtu.be/YGRHoj-sris?si=7o3YSBhaVAtoQpYH
🚀 Субботний нетворкинг.
Позвольте порекомендовать Вам замечательные каналы, которые мы сами читаем сами и рекомендуем Вам:
@ivoryzoo - легендарный канал - "Зоопарк" держит руку на пульсе всего, что происходит в науке и образовании. Как им вообще удается отслеживать столько информации ?
@dealerAI - от одного из лучших специалистов в дата-сайнс и natural language processing - вы узнаете ключевые новости по этим темам
@datastorieslanguages - от не менее замечательного специалиста по дата сайнс, каггл грандмастера и полиглота Андрея Лукьяненко, вы узнаете все не только о дата сайнс, но и о том как изучать иностранные языки и о некоторых аспектах жизни за границей
@smart_lab_news @Nano_by_Nano @Polymer_scientists - Новости биотеха: научные события, конкурсы, конференции, гранты, вакансии и др. От научной группы ИБХФ РАН под руководством Елены Никольской
@finitely_presented - Теория групп, дата-сайнс и все вокгруг от нашего докладчика П.Снопова.
@diagrams_every_day - совершенно замечательный молодой канал - интереснейшие визуализации и объяснения простыми словами современных концепций в физике и математике - кто любит эти науки - обязательно подписывайтесь !
Подписывайтесь на эти замечательные каналы (и не забывайте о нас, Ваша @sberlogabig ) !
🚀 @SBERLOGABIO:
👨🔬 А.Вахрушев, С.Фиронов, А.Червов "Предсказание свойств белков - топ2 в CAFA5"
⌚️ Четверг 15 Февраля 19.00 (по Москве)
Как известно, Альфафолд от Гугл Дипмайнд совершил прорыв в биологии , сумев решить задачу , которая 50 лет не поддавалась решению - предсказание пространственной структуры белка по последовательности аминокислот, выиграв конкурс CASP15. Наша команда почти как Дипмайнд 😃 . Мы почти выиграли схожий конкурс - CAFA5 - заняв второе место и опередив 1500+ других команд.
Задача CAFA ( Critical Assessment of Function Annotation ) - предсказать функции и локализации белков, используя последовательность аминокислот белка - как основную входную информацию. Наиболее полная информация о функциях/локализации белков собрана в базе Gene Ontology , которая содержит около 40 000 всевозможных характеристик белка, которые организованы в иерархическую структуру. Охватываются белки всего - от вирусов до эукариот. Тем самым результат работы модели - для каждого белка должны выдаваться 40 000 нулей или единиц - есть данное свойство у данного белка или нет.
Решение
Идея 1. Использование инновационного градиентного бустинга Pyboost разработанного лидером команды А. Вахрушевым. При наличии тысяч таргетов другие бустинги будут работать в сотни раз медленней чем Pyboost, и часто уступят ему по качеству.
Идея 2. Использование современных "protein language models". Поразительные способности ChatGPT известны всем. Актуальный подход к изучению свойств белковых последовательностей - состоит в переносе мощных моделей идейно (но не буквально) схожих с ChatGPT в биоинформатику. В данном конкурсе наиболее хорошо себя показала модель типа "T5" (Text-To-Text Transfer Transformer). Мы использовали "эмбединги", которые данные модели создают из белков. И далее обучали бустинги и нейросети на этих эмбедингах.
И еще множество других идей (см. write-up).
📖 Presentations: /channel/sberlogabio/68835
📹 Video: https://youtu.be/FJThflSagQY
🚀 @SBERLOGACOMPETE webinar on data science:
👨🔬 Dmitrii Rudenko "Introduction to the Kaggle competition 'HMS - Harmful Brain Activity Classification'"
⌚️Friday, 2 Febraury, 20.00 (Moscow time)
Add to Google Calendar. (The talk will be in English). Announcement on Kaggle
Вкатываемся в новое соревнование по определению патернов работы мозга: HMS - Harmful Brain Activity Classification
Цель соревнования- по данным ЭЭГ пациентов понять, что иэ мозг работает некорректно. В этом соревновании доступно целых две модальности: спектрограммы работы и сырые сигналы, на которые вполне себе тоже можно учить нейросетки. Самих данных 26 гб, что тоже не мало.
Разметка таких снимков работы мозга требует дорогого обучения специалистов и их напряженной работы, так что если удастся хорошо решать задачу- то и пропускная способность специалистов вырастет. В датасете отрывки каждого снимка показывали множеству экспертов, и каждый эксперт голосовал за тип аномальной активности. Кстати их тут всего 6:
1. seizure (SZ). На русский корректнее всего переводится как 'припадок'
2. generalized periodic discharges (GPD) и lateralized periodic discharges (LPD)- регулярные конвульсии
3. ateralized rhythmic delta activity (LRDA) и generalized rhythmic delta activity (GRDA) - дельта активность. Обычно она максимально выражена во время сна и если у человека высокая дельта-активность во время бодрствования- что-то идет не так.
4. И вполне себе привычные каглерам 'прочее'
Метрика- KL-дивергенция, т.к. по отрывкам голосвали разные эксперты и у нас есть целое распределение таргетов.
Соревнование Kernel Only, так что придется азпихивать инференс внутрь пайплайна на каггле. Но результаты будут сразу после конца соревнования, так что интрига быстро разрешится.
На соревнование еще два месяца, так что лб не плотный: с топового паблик кернела можно залететь аж в серебро. Многое еще изменится и Крис Дейот уже присоединился к сореве
Подписывайтесь на канал докладчика - /channel/pseudolabeling - о дата сайнс.
📖 Presentation
📹 Video
Ваш шанс воплотить научные амбиции в жизнь вместе с ИТМО!
Передовая инженерная школа ИТМО объявляет уникальный набор научных коллективов для получения грантов на открытие собственных магистратур, лабораторий, а также развитие продуктов и их интеграцию в компании.
— Мечтаете о собственной магистратуре?
— Планируете основать научную лабораторию?
— Мыслите масштабно и хотите создать научно-образовательный центр?
— Хотите выйти в индустрию и работать с бизнесом?
ПИШ ИТМО готов системно поддерживать и инвестировать в вас до 50 миллионов рублей!
Подавайте заявку до 30 января включительно 👉🏻 https://pish.itmo.ru/domen
🚀 Дорогие коллеги, поздравляем всех Вас с наступающим Новым Годом, желаем огромных успехов, здоровья, счастья, удачи во всех начинаниях !
💰 Новый год - время подарков - вот, например, Каггл подарит 50 000$$ тем, кто соберет Кубики Рубика за меньшее число ходов, чем другие участники ежегодного новогоднего соревнования "Santa 2023 - The Polytope Permutation Puzzle - Solve twisty puzzles in the fewest moves".
👛 А мы предлагаем приз в 5000 р тому, кто опубликует публичный ноутбук с решением, который превосходит текущий лучший публичный ноутбук на 5% и расскажет решение на нашем вебинаре. (Если Ваш ноутбук будет лучше на 1% - приз 1000р, 2% - 2000р, 3%-3000р, 4%-4000р. Условия действительны до 7 января). Каггл - лучший способ изучать практический дата-сайнс, именно потому, что люди делятся там своим кодом, идеями. Мы всячески хотели бы поощрять эту активность, надеемся, что наш приз будет этому способствовать.
Комментарии, обсуждения постановки задачи - вы можете найти в нашем чате. Если кратко - то предложен набор позиций многомерных кубиков Рубиков и задача - предъявить наиболее короткую последовательность ходов для их сборки. С точки зрения математики это задача поиска кратчайшего пути на графе Кэли группы движений кубика. Хотя задача и выглядит игровой - она является модельной для многих серьезных проблем в комбинаторной оптимизации, и методы выработанные для ее решения будут полезны для многих практических задач.
🚀 @SBERLOGACOMPETE webinar on bionformatics and data science:
👨🔬 Дмитрий Руденко, Александр Червов "Обзор прошедшего соревнования "Open Problems – Single-Cell Perturbations""
⌚️ Четверг 20.00 (по Москве) 14 Декабря
Добавить в Гугл календарь
В соревнование требовалось предсказать как под действием лекарств (146 разных) меняются экспрессии генов. Было только две фичи и они категорные - название клеточного типа (6 типов клеток крови) и название лекарств. Это реальные экспериментальные данные полученные по топовым технологиям и стоящие огромных денег (200 тысяч клеток секвинировали мультимодально) - реально cutting-edge research questions. Семплов мало - 600+ в трейне, 255 в тесте, но таргетов было много 18211 (все гены). Удивительно, но особого шейкапа не было, хотя СВ-ЛБ билось плохо и семплов мало. Основные решения строились на PYBOOST и нейронках (удивительно, но нейронки хорошо работают даже при таком малом числе семплов).
Наша команда (Антонина Долгорукова, Дмитрий Руденко, Дмитрий Ершов, Антон Вахрушев, Александр Червов) заняла "счастливое" 13 место - ровно на 1 ниже золота (((((
Но у нас есть шанс еще на приз от экспертов - и ваши апвоуты - нам не помешают:
"U900 team - PYBOOST is what you need"
https://www.kaggle.com/competitions/open-problems-single-cell-perturbations/discussion/460858 описание решения и ответы на вопросы оргов. (Ваш альтруизм не будет забыт!)
В данном докладе мы напомним в чем была задача, немного расскажем о подходе на PYBOOST и перейдем к обзору решений других команд.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
PS
Подписывайтесь на канал Дмитрия о дата сайнс и Каггл: /channel/pseudolabeling
📹 Video: https://youtu.be/NvH0tQ4wVxA
📖 Presentations: /channel/sberlogacompete/10469
Девчонки, будьте осторожны!
🤯 Кажется, парни пронюхали, что можно не только для резюме использовать... поэтому уже скоро во всех тиндер профилях)
🧑🔬 На входе очень некачественные разноформатные фотки, но на выходе AI магия 🧙♂️
@avatar_resume_bot
Следующая остановка — аннотация генетических вариантов!
Но чтобы до нее добраться, нужно знать путь 😉 Мы разработали интенсив, который за 2 дня поможет научиться применять современные методы аннотации и интерпретации вариантов для анализа генетических данных в медицинских и биологических исследованиях.
Например, вы научитесь:
— Идентифицировать и фильтровать генетические варианты
— Применять на практике инструменты аннотации и интерпретации вариантов
— Работать с базами данных и литературными источниками для проведения аннотации вариантов
— Интерпретировать наследственные и соматические варианты с использованием ген-специфических рекомендаций
Программа построена от теории к практике таким образом, чтобы студенты научились применять знания в реальных условиях, что является важным навыком для любого специалиста!
🚀 @SBERLOGABio webinar on bioinformatics and data science:
👨🔬 Antonina Dolgorukova "Bioinformatics analysis for the Kaggle Single Cell Perturbations data challenge"
⌚️ Monday 06 November, 19.00 (Moscow Time)
Add to Google Calendar
The bioinformatics analysis with Seurat package for single-cell data RNA sequencing data from the Kaggle challenge "Single-cell perturbations" will be presented.
- Calculation of Mitochondrial/ribosomal contamination (all cells), what percentage of all genes copies comes from the single most observed gene in each cell (10% of cells)
- Identification of highly variable features, followed by PCA, selection of principles components (10% of cells)
- Clustering cells based on main PC for the highly variable features
- Running non-linear dimensional reduction (UMAP/tSNE)
The talk will be based on the notebook: https://www.kaggle.com/code/antoninadolgorukova/op2-adata-analysis-with-seurat
Announcement on Kaggle
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📹 Video: https://youtu.be/lcc5vY-Pycs?si=NDz8KEarMFN8Llka
🚀 @SBERLOGACOMPETE informal webinar on data science:
👨🔬 Brainstorm on "Kaggle: Open Problems - Single-Cell Perturbations."
⌚️ Tuesday 17 October, 18.30 (Moscow time)
Add to Google Calendar
Let us discuss what's up on Kaggle challenge - Open Problems - Single-Cell Perturbations: overview proposed public solutions, CV-schemes, features constructions, some insights from biological data and so on. It is planned to be pretty informal - a kind of discussion and opinions exchange - everybody welcome. Some notes can be found link1, link2, link3.
Announcement on Kaggle
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📹 Video: https://youtu.be/6ySKxnjHX8Y?si=ICiv26d7j1LbYaKn
🚀 @SBERLOGACOMPETE webinar on data science:
👨🔬 Oleg Khudyakov "Introduction to Kaggle competition - Detect sleep states."
⌚️ Thursday 12 October, 19.00 (Moscow time)
Add to Google Calendar
Introduction and overview of the competition will be given. Parsing the raw data, including data labeling errors. Basic feature engineering. Application of gradient boosting and neural networks. Assumptions for postprocessing.
Announcement on Kaggle
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📹 Video: https://youtu.be/RDnz9QASwaQ?si=KijFwYk94pAwYCk1
📖 Materials: Link