Мультидисциплинарный канал о науке и технологиях. Data Science, Bioinformatics, Biology, Mathematics, Physics, IT, Computer Science. @sberlogabio био и дата сайнс @sberlogasci математика, физика и ДС https://www.youtube.com/c/SciBerloga
🤑 Хотите увидеть зарплатные вилки в биотехе, которые скрывают компании? А научиться программировать и анализировать данные?
🤩 Комбо! Уже в этот вторник 29 апреля @blastim устраивает беспрецедентный воркшоп «От сырой таблицы до инсайтов: твоя первая обработка данных на R за один вечер». На бесплатной онлайн-встрече опытный статистик Иван Поздняков научит анализировать данные на примере реального датасета с зарплатами, выгруженными из карьерного портала blastim.ru
На вебинаре:
📌 Вы получите доступ к эксклюзивным данным о зп в российском биотехе, которых нет в открытом доступе
📌 Вы с нуля выучите синтаксис базового R и познакомитесь с tidyverse
📌 Вы проведете своими руками анализ зарплатных трендов под руководством Ивана, даже если никогдашеньки не кодили
📌 Вы построите свои первые графики с помощью ggplot2 и научитесь делать волшебные отчёты в Quarto
📌 Вы узнаете все скрытые тенденции рынка биотеха и полезные приемы от Ивана Позднякова
На выходе: знания о реальных зарплатах в сфере лайфсайенс и навыки программирования и анализа данных на R
❓Почему R, а не Python? R — популярнейший язык программирования, специально заточенный под анализ данных в науке. В нем широкие возможности для визуализации данных и непревзойденный инструментарий для проведения стат-тестов. Это те навыки, который полезно иметь при себе любому ученому
🗓 Когда? 29 апреля, 19:00 мск
🆓 Вход: бесплатный
🔗 Регистрация: /channel/BlastimR_bot?start=222577
🕖 Длительность: около 3 часов
Поспешите зарегистрироваться, пока все места не заняли эйчары 😏
⚡️Анализируем продажи на Wildberries с помощью Python
С каждым днем все больше бизнесов выходят на маркетплейсы, а значит еще более ценными становятся аналитики, которые умеют с ними работать. Хотите за несколько часов собрать интересный кейс для своего портфолио?
Андрон Алексанян - эксперт по аналитике с 8 летним опытом и по совместительству CEO Simulative в прямом эфире проанализирует продажи на Wildberries с помощью Python.
Что будет на вебинаре:
🟠Напишем скрипт на Python, который каждый час собирает статистику о ранжировании карточки на WB по ключевым запросам;
🟠Построим наглядные визуализации для отслеживания динамики ранжирования.
Важно досмотреть вебинар до конца, чтобы узнать как упаковать этот кейс в портфолио своих проектов.
😶Зарегистрироваться на бесплатный вебинар
🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨🔬 L. Peshkin (Harvard Medical School) "Principal Compounds: A scalable Pharmaco-biology + Machine Learning approach to Reverse Engineering of Molecular Circuits underlying Macro-Phenotypes"
⌚️ 19 Марта Среда, 19.00 по Москве (17.00 CET)
Add to Google Calendar
Доклад будет посвящен некоторой задаче на стыке фармакологии, машинного обучения, теории информации и кодирования , решение которой будет иметь практические применения для тестирования и понимания эффекта компаундов.
Следующие публикации рекомендуются к прочтению:
https://pubmed.ncbi.nlm.nih.gov/24707051/
https://www.biorxiv.org/content/10.1101/2020.09.26.312348v1
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
Добрые и мудрые, нежные и прекрасные, весёлые и надёжные — дорогие наши девушки!
Поздравляю вас с Международным женским днём! ✨💐
Вы — настоящее украшение этого мира!
Пусть крепкое здоровье, искренние улыбки и весеннее настроение сопровождают вас каждый день! 🌸🌼💖
В 2005 году Джон Иоаннидис опубликовал статью "Why Most Published Research Findings Are False", в которой представил аргументированное обоснование того, почему большая часть научных результатов не является истинной. Эта работа вызвала значительный резонанс в научном сообществе, так как поставила под сомнение надежность большого числа исследований.
Факторы риска
Автор утверждает, что вероятность ложных результатов в научных публикациях можно доказать математически. Он рассматривает ключевые факторы, которые влияют на истинность исследовательских данных. Одним из важнейших параметров является статистическая мощность исследования: чем меньше выборка, тем выше вероятность того, что результаты окажутся случайными. В свою очередь, маленький размер эффекта также снижает вероятность того, что исследование отразит реальную зависимость.
Еще одним важным фактором является соотношение истинных и ложных гипотез в конкретной научной области. Если в данной области большинство исследуемых гипотез ложны, вероятность получения ложноположительного результата возрастает. Кроме того, гибкость в дизайне исследования, выборе методики анализа и интерпретации данных также способствует получению предвзятых результатов. Изменение методик на ходу или манипуляции с анализом данных могут приводить к тому, что отрицательные результаты превращаются в положительные. Это особенно актуально в условиях конкуренции, когда публикации с "интересными" результатами получают больше внимания.
Финансовые и другие предвзятости также оказывают значительное влияние на научные исследования. Автор подчеркивает, что чем больше финансовых или иных заинтересованных сторон в научной области, тем выше вероятность того, что результаты исследований будут искажены. Этот эффект усиливается в областях с высокой конкуренцией, где ученые стремятся публиковать наиболее "сенсационные" результаты, даже если их достоверность сомнительна.
Иоаннидис вводит понятие bias, определяя его как совокупность факторов, приводящих к появлению научных результатов там, где их быть не должно. Это может включать не только методологические ошибки, но и сознательную или подсознательную предвзятость исследователей. В таких условиях положительное прогностическое значение (PPV), то есть вероятность того, что опубликованный результат действительно отражает истину, оказывается низким. Автор подчеркивает, что во многих научных областях PPV настолько мало, что заявленные эффекты могут просто отражать уровень предвзятости, а не реальную связь между переменными.
Конкретные примеры
Примеры ложных или сомнительных исследований можно найти во многих научных областях. Например, в исследованиях молекулярных предикторов размер выборки часто оказывается слишком малым, что делает их результаты ненадежными. В кардиологии, напротив, проводятся крупные рандомизированные контролируемые исследования, включающие тысячи пациентов, что увеличивает вероятность истинности их выводов. Исследования связи генетических факторов с мультигенными заболеваниями, такими как диабет или шизофрения, часто показывают относительный риск 1,1–1,5, что значительно ниже, чем в исследованиях, посвященных влиянию курения на рак (относительный риск 3–20). Это говорит о том, что небольшие эффекты сложнее подтвердить, а вероятность случайных находок выше.
Еще одним важным аспектом является количество проверенных связей. В подтверждающих исследованиях, таких как метаанализы или крупные клинические испытания фазы III, вероятность истинности результатов выше. В экспериментах, направленных на генерацию гипотез, напротив, часто проверяется множество возможных взаимосвязей, что увеличивает вероятность ложноположительных результатов. Например, если ученые тестируют сотни различных гипотез без строгого отбора, большинство их находок будут случайными.
Приносим извинения, у докладчика форс мажор, доклад сегодня не состоится.
Читать полностью…🎓 Дорогие ученые и студенты МГУ!
270 лет – это не просто цифра, это целая эпоха российского образования и науки! Московский университет – сердце интеллектуальной России, кузница талантов и генератор передовых идей. Вы продолжаете великую традицию, заложенную Ломоносовым, и двигаете науку вперед.
С юбилеем, alma mater! 🇷🇺✨
Пусть ваши исследования будут смелыми, открытия – революционными, а дух науки – непобедимым!
🚀 @SBERLOGACOMPETE webinar on data science:
👨🔬 Никита Бухал "Введение в ДПО"
⌚️ Cреда 19.00 (по Москве), 15 Января
Обсудим Direct Preference Optimization - метод, который выступает в качестве альтернативы RLHF / PPO в задачах алаймента языковых моделей.
Суть работы достаточно проста:
- Берем датасет попарных сравниений ответов (плохой/хороший)
- Берем модель Bradley–Terry (BT) в качестве "рейтиговой" модели.
- Хотим написать такую loss функцию которая бы увеличивала "рейтинги" ответов нашей модели
Последний пункт ключевой - в отличии от PPO это НЕ RL-вый метод, а просто Loss.
Утверждается кстати что этот DPO "победитель" NeurIPS 2023 (не знаю правда на сколько это важно и какие там у них критерии отбора):
https://the-decoder.com/neurips-2023-these-are-the-top-papers-and-award-winners-at-the-largest-ai-conference/
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
🪐💞🐍 Космограф виджет для Python!
Предновогодний сюрприз для дата-сайентистов работащих с Python. Мы аносируем публичный бета релиз Cosmograph Jupyter Widget для визуализации больших графов и AI эмбеддингов! Виджет еще умеет не все, что умеет приложение и JavaScript библиотека, но он обязательно научится!
О том как работать с виджетом можно узнать в документации на нашем сайте. Или просто посмотрите эти Colab ноутбуки:
- Сosmograph Widget
- Mobius in Cosmograph Widget
- Clusters in Cosmograph
🛸 Не забывайте — это бета-релиз и в нем наверняка есть баги (я уже нашел). Не стесняйтесь, пишите в https://github.com/cosmograph-org/py_cosmograph/issues, мы поправим!
🎄 И, напоследок, поделитесь, пожалуйста, этой новостью с вашим дата-сайенс другом. Кто знает, может быть ему нечем заняться в праздники...
@dataviznews
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Obozov M.A. "PPO и не только в приложении к графам"
⌚️ Четверг 12 декабря 19.30 по Москве
Продолжим цикл докладов по RL методам в приложении к графам, а в особенности к графам Кэли!
Первая часть доклада посвящена краткому, но как обычно формальному напоминанию актуальных для нас методов. Затем мы начиная с более классических приложений затронем их применение к графовым задачам, к задачам с большими дискретными пространствами. Наконец, оценим их потенциальную эффективность в фреймворке перестановок, обсудим моменты реализации и поговорим о стохастичных вариантах методов с возможностью "раздувания" изначального пространства. В конце, для особенно заинтересованных слушателей, мы обсудим подобные RL методы в реальности LLM.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe
🎉Анонс IV Математической студенческой школы НИЯУ МИФИ 2024!
С 9-го по 20-ое декабря Национальный исследовательский ядерный университет "МИФИ" проводит IV Математическую студенческую школу под названием
"Математическая кейс-лаборатория 2024"!
В рамках тематики Школы “Математика в действии: концепции, методы и их применение” перед участниками выступят известные популяризаторы и математики страны.
В частности, 9 декабря Школу откроет доктор физико-математических наук, профессор МФТИ и директор Физтех-школы прикладной математики и информатики Райгородский Андрей Михайлович с лекцией "Комбинаторика и теория чисел"!)
А 16 декабря с лекцией "Теория игр вокруг нас: искусство стратегического мышления" выступит доктор физико-математических наук, профессор МФТИ, член-корреспондент РАН Савватеев Алексей Владимирович!
Формат школы смешанный, занятия планируются очные, но будет доступна трансляция занятий.
Даты проведения Школы: 09.12.2024-20.12.2024
Начало занятий: 16:00
По итогам обучения в секции участники получат сертификат.
Регистрация доступна по ссылке https://it.mephi.ru/webform/2211 и продлится до 08.12.2024.
Мы ждём всех желающих, вне зависимости от курса обучения!
Вам тоже трудно решать такие задачи?
🤔 Как быстро отрисовать графики, чтобы вставить их в отчет для босса
🤔 Как одновременно препроцессировать 20 эксель-табличек с данными?
🤔 Стоит ли сразу дропать все NA?
🤔 Сколько надо сделать повторностей, чтобы уловить различия между группами?
Мы тоже сталкивались с этими проблемами, поэтому мы Blastim создали курс по статистике и R
💎 Этот курс выкристаллизовался из реальных запросов ученых, делается учеными и для ученых. Мы собрали обалденную команду R-щиков — биоинформатиков, физиков, когнитивных психологов. Каждый поделится опытом, как решает задачи в своем домене с помощью кода.
А еще на курсе мы:
📌 объясним, как пользоваться GitHub
📌 расскажем о лучших научных практиках и стандартах в индустриальных DS-проектах
📌 поделимся пайплайном на R для обработки NGS-данных
📌 поможем проанализировать ваши данные, которые вы принесете!
Формат курса: 9 дней, очно в Москве и онлайн.
👉 Заинтересовало? Переходите по этой ссылке, чтобы познакомиться с программой курса подробнее
🚀 @SBERLOGASCI webinar on data science:
👨🔬 "Прогресс в применение МЛ к теории групп" А.Червов, Е. Урванов, И. Кольцов, В. Замковой, Д. Нагиев, В. Гордей, Р. Гордеев
⌚️ Среда 25 Сентября, 19.00 (по Москве)
Мы достигли стабильной решаемости для группы размера 10ˆ40 (кубик 444) несколькими вариантами нейро-сеток. Главные герои недели - Иван Кольцов и Джалал Нагиев - Иван закодил продвинутый алгоритм beam-seach использующий десяток дополнительных улучшений к классическому beam-search , а также придумал модификацию метрики Хемминга, такую, что она позволяет собирать кубик 333 без МЛ моделек. Джалал написал сетку которая собирает кубик 444 и имеет меньше параметров чем сетка Кирилла Хоружего, а также заметил, что надо исправить в ноутбуке с наиболее простыми вариантом сетки (Алексея Романова) , и теперь у нас есть три сетки которые стабильно собирают кубик 444.
Направление работ - какая архитектура сеток - наиболее оптимальна для данной задачи ? Какое минимальное время тренинга позволит решать кубик 444 - сейчас это 2 часа. Какое минимальное время инференса мы можем достичь для кубика 444 - сейчас это 28.7 секунд. Как качество масштабируется при увеличении а) числа парметров б) размера трейн сета в) измнение архитектуры г) изменение режима обучения - ленинг рейт, его режим изменения д) замена простого beam-search на продвинутые варианты и тд. е) какую наименьшую длину решения можно достигнуть - текущий рекорд 55.1 (Кирилл Хоружий, луч - 1 миллион, 8 миллионов параметров модель). Текущие результаты анализа собраны в таблице в скриншоте.
Другие направления - работа с группами размера 10ˆ75, анализ параметров бим-серча - какие наиболее важны.
========
Мы продолжаем проект по применению МЛ к теории групп, кому интересно присоединиться - пишите @Alexander_v_c
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
Небольшой анонс от коллег из сообщества ITMO.OpenSource. Они продолжили свой цикл опенсорс-исследований новым материалом под названием «Использование ML/Data-опенсорса в России»: https://opensource.itmo.ru.
Кратко об исследовании от авторов:
Внутри ― мнения экспертов из бигтеха и не только, анализ открытых данных в GitHub и смежных сервисов, рейтинги и топы, графики и таблицы, советы и рекомендации. Авторы исследования ― сотрудники исследовательского центра «Сильный ИИ в промышленности», студенты и аспиранты ИТМО.
Надеемся, будет полезно и интересно. Обратную связь можно дать в нашем чате, а следить за анонсами - в канале Научный опенсорс.
День рождения Семашко!
Сегодня особенная дата, которую стоит отмечать, как день современного медработника. И я уверен, что если бы кофаундер или сооснователь советского здравоохранения Николай Александрович Семашко был бы жив, то к нему бы пришли на день рождения следующие каналы (на которые рекомендую подписаться):
Поясни за мед рассказал бы Николаю Александровичу, как сейчас отклонились в Минздраве от его вектора. Где кому не доплачивают, а кто и сам может содержать 2-3 врачебных кабинета с 15 операций, а кто бренды врачам делает.
Анча Баранова рассказала бы, как хорошо в США: как там капиталисты то болезнями обезьян болеют, то как лихорадка Денге топчет Лос Анджелес. А мы бы послушали профессора!
ФармАналитика пояснила бы, каких препаратов не хватает, какие хорошо продаются, а какие — плохо. Помогла бы сориентироваться в рынке. Всё-таки аналитика про фармацевтику №1 в телеграме — подписка обязательна.
Независимая Национальная Академия Доказательной Медицины поразила бы своим существованием, длиннейшим названием и эффективностью подходов. Вот кто-то, а Семашко бы заценил концепт. Данные — актуальные, мероприятия — полезные, подписка.
Наука и университеты опишут инфраструктуры лучших вузов и провалы — худших. Админы подпишут на себя Николая Александровича, чтобы тоже был в теме и всегда на университетской новостной волне.
Флеболог Астафьева проверила бы, всё ли в порядке с венами на ногах и разъяснила, что с ними так/не так. Подпишитесь, чтобы тоже быть в курсе, а ещё подпишите своих родственников, чтобы обращались к знающему специалисту.
Ночная охота пояснила за анестезиологию, реаниматологию, феминизм и подарила бы свою книгу "Мой телефон 03" с автографом. Чтобы было понятно, к чему пришло здравоохранение в художественном эквиваленте.
Алло, это фарма? записала бы подкаст с НА Семашко, хотя обычно пишется с людьми из фармацевтической индустрии. Контент — на канале.
(sci)Berloga Всех Наук и Технологий расскажет обо всех науках и технологиях и о вакансиях в лабораториях и R&D. Всё-таки Семашко многое пропустил в sci, надо нагнать за пару часиков.
Орфанное радио расскажет Семашке о льготных программах на миллионные препараты, которые действуют в России, а самое главное — в чьих интересах. Расскажет, конечно же, с горящим сердцем и глазами.
Уроки истории медицины взяли бы у Семашко открытый урок о том, как на самом деле они строили здравоохранение. Расстреливали ли больничных бухгалтеров, главных врачей, например. Тоже интересно.
НЕВОЛИН тоже запишет подкаст с Николаем Семашко, где они будут ругать людей на местах или журналистов, весело, с интонацией уставших от практики докторов.
Икона Фармы — я, фарм-доказательно-троллинговый канал про политику здравоохранения, буду просто стоять с рацией и координировать действия окружающих и раздавать всем шампанское и метформин за 150 рублей — и удовольствие, и долгую жизнь, так сказать, как и всем моим подписчикам.
Всех с Днём Рождения отца-основателя!
Cancer 3D — это открытая научная инициатива по изучению и моделированию процессов опухолевой инвазии, миграции и метастазирования. Проект основан админами и редакторами Медача, совместно работавшими над недавней статьей в Cancers. По сути – это масштабное продолжение той статьи и её переосмысление.
Наша миссия заключается в разработке цифровых двойников опухолей и анализе детальных микротомографических и гистологических изображений. На основе этих данных в рамках данного проекта будет выполнено моделирование процессов инвазии, метастазирования и коллективной миграции опухолевых клеток.
Проект не является коммерческим и использует открытые данные, предоставляемые его участниками.
Все участники проекта, внесшие достаточный вклад в разработку, анализ или написание статей, становятся равноправными соавторами научных публикаций и патентов.
White paper проекта
Подать заявку
Ты когда-нибудь замечал, как директор смотрит на твой график и говорит: «А можно попроще?»
Мы знаем, как это бывает! Поэтому собрали для тебя топ материалов по BI-аналитике, которые помогут не только визуализировать данные, но и объяснить их даже котику. Ну или директору 🤭
📕Сохраняй карточки с подборкой лучших книг: от подготовки данных до дашбордов, крутой визуализации, сторителлинга, секретах управления компанией и бизнес-аналитиками. Кстати, на «Оконные функции в T-SQL» дарим скидку 15 и 25% (оставили в комментариях!)
📎Ну и парочка SQL тренажеров(must-have навык для любого аналитика!):
• Интерактивный тренажер на создание SQL-запросов от Stepik
• Короткий тренажер с интересными сценариями от Stepik
• Всесторонний курс, который навсегда изменит твое отношение к SQL от SQL Academy
• Упражнения от sql-ex для тех, кто хочет стать мастером запросов
• Здачи по Python, SQL, программированию и Data Science от IT Resume
• Master Coding for Data Science от StrataScratch (напоминает leetCode, есть бесплатная версия)
⚡️У президента США рассеянный склероз. На пресс-конференции журналистка спрашивает, будет ли он вновь баллотироваться. Глава государства кладет руки в карманы и улыбается. Он идет на выборы…
📰 Нет-нет, это не очередная утка из новостной ленты. Это окончание второго сезона культового американского телесериала «Западное крыло». Его пилотный эпизод вышел аж четверть века назад. Сериал повествует о повседневной рутине администрации вымышленного президента Джеда Бартлета (на фото слева). Экранные герои работают на вершине власти, а параллельно в сюжете разворачиваются их личные перипетии. Одно из центральных лиц первых сезонов — замдиректора по коммуникациям Белого Дома, Сэм Сиборн (справа). Сэм пишет речи для президента, он из числа его основных советников. Он идеалист и перфекционист. Из-за переписывания текста поздравительной открытки министру Сэм даже отменяет свидание с девушкой 🤯
Подождите, Сиборн? Что-то знакомое? И вы не ошиблись: одна крутая библиотека в Python названа в честь героя саги. Выпускник Стэнфорда, нейросаейентист и машинлернер Майкл Вэскoм был поклонником политической драмы и назвал свой тул для визуализации в честь киногероя — Seaborn! А многие программисты ломают голову, почему при импорте библиотеки import seaborn as sns
название нелогично сокращается до sns? Оказывается, это просто инициалы персонажа — Samuel Norman Seaborn. Ну, питонисты, ну, шутники.
📈 Несмотря на весь юмор, Seaborn — реально удобный инструмент для датавиза: с его помощью в одну строчку кода можно построить вполне сносный график, а при желании довести его до эстетического совершенства самостоятельно или воспользовавшись множеством готовых шаблонов. Идеальное для науки. Наверное, это передался перфекционизм киношного персонажа. Эх, сколько свиданий можно отменить, завязнув в улучшайзинге графиков для статьи 🤓
🐍 А вы кодите на Python? Питон — полезный, а еще и прикольный язык, который интересно ботать и каждый день узнавать что-то новое [ведь папа питона Гвидо Ван Россум тоже «прикольнулся» и нарек язык программирования в честь любимой комик-группы «Монти Пайтон»]. Сегодня питон становится невероятно популярен среди биоинформатиков, в нем найдется ПО под любые нужды: анализ NGS, сингл-селл, молекулярное моделирование, AI в биологии…
🧬 Если вы хотите начать вкатываться в питон и датасайенс нескучно и с уклоном в лайфсайенс, то обратите внимание на образовательную программу @blastim «Python для анализа данных в науке». Это необходимый и достаточный курс для биологов, медиков и всех новичков. За 1,5 месяца вы познаете синтаксис и семантику языка, освоите популярные библиотеки, выполните первые проекты в портфолио, познакомитесь с комьюнити. Преподаватель: Александр Ильин, биоинформатик, машинлернщик, выпускник Сколтеха. Подробности по ссылке: clck.ru/3HaTvm
🎁 Спецпредложение: скидка 15% по промокоду BERLOGAPYTHON действует до 20 марта
Make Bioinformatics Great Again
Гибкость в дизайне исследований также играет ключевую роль. Например, если в клиническом испытании можно менять критерии включения и исключения пациентов или анализировать данные разными способами, то вероятность получения "положительного" результата возрастает, даже если эффект отсутствует. Это особенно заметно в области исследований новых лекарственных препаратов, где компании могут выбирать методики анализа, которые показывают их продукт в наилучшем свете.
Финансовые интересы оказывают мощное влияние на результаты научных исследований. Например, фармацевтические компании заинтересованы в том, чтобы их препараты демонстрировали положительные результаты, что может приводить к предвзятости в выборе данных или методов анализа. Аналогичная ситуация наблюдается и в пищевой промышленности: исследования, финансируемые производителями сахара, часто приходят к выводу, что жиры вреднее сахара, тогда как независимые исследования показывают обратное.
В "горячих" научных областях с большим числом исследовательских групп конкуренция за публикации также ведет к снижению надежности результатов. Например, в области геномных исследований шизофрении десятки групп работают над выявлением генов, связанных с заболеванием. Даже если отдельное исследование демонстрирует статистически значимую ассоциацию, вероятность ее истинности остается низкой. Если десять групп независимо проведут такие же эксперименты, вероятность того, что хотя бы одна из них найдет "значимый" результат, высока просто из-за случайности.
Что делать?
Для решения этой проблемы Иоаннидис предлагает несколько подходов. Важно увеличивать мощность исследований за счет проведения крупных выборок или мета-анализов с низким уровнем предвзятости. Регистрация исследований до их проведения позволит снизить вероятность избирательной публикации только "интересных" результатов. Также необходимо более осмысленно подходить к оценке гипотез перед началом исследования и повышать стандарты научных работ.
Основной вывод статьи заключается в том, что современная научная практика требует пересмотра. Одного лишь достижения статистической значимости недостаточно для подтверждения гипотезы. Необходимо учитывать вероятность истинности результатов и критически относиться к опубликованным данным. Иоаннидис призывает научное сообщество к более строгим стандартам исследований и отказу от слепой погони за сенсациями, чтобы наука могла выполнять свою основную функцию — поиск объективной истины.
Наши коллеги по Сберлоге запустили новый проект - удобные вещи для айтишников. Где еще вы найдет толстовки "Модель худи C#" и "Модель худи Python" - только у наших коллег - подписывайтесь на их канал: /channel/rybe_store и заходите на их веб-сайт .
Их цель - получить не просто "мерч с принтами", а что-то реально лучше. Они вслепую сравнивали образцы тканей, чтобы выбрать ту самую (плотную, как шкура дракона), они 4 раза просили перешить тестовый образец и раз за разом перепридумывали детали.
Люверсы для пропуска — бейдж больше не будет болтаться на шнурке.
Отсек для наушников — чтобы не искать их по всей сумке.
Салфетка для экрана/очков — встроена в карман, потому что ну а чем ещё их протирать?
Сейчас это альфа — первая маленькая серия, всего 21 штука. Каждая толстовка со своим уникальным номером.
Если вам интересно
Заходите на сайт: https://rybe.store/?utm_medium=tg&utm_content=sciberloga
Подписывайтесь на канал: /channel/rybe_store
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Алексей Трепецкий "Введение в RL алгоритм Actor-Critic"
⌚️ Среда (29 января 2025) 19.00 (по Москве)
Actor-Critic — популярная концепция в обучении с подкреплением, позволяющая увеличить эффективность получаемых данных и сократить время обучения политике, основанная на объединении policy и value подходов.
На семинаре мы подробно разберем, как устроен метод Actor-Critic, зачем необходимо совместное обучение политики и функции ценности и как это улучшает алгоритм REINFORCE.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
Стать ML-щиком в биотехе за неделю… нереально, но можно пройти бесплатный 🔥 ML Bootcamp от OpenBio! 🔥
С 3 по 9 февраля канал проекта «Машинное обучение в биологии и биомедицине» превратится в тренировочную площадку, где ваши умы будут кипеть, а клавиатуры — дымиться. ;)
В течение недели на канале будут опубликованы фрагменты материалов из курса «Машинное обучение в биологии и биомедицине», один день — один модуль.
Используйте возможность изучить часть материалов платного курса, пока они в открытом доступе! 😱
Курс «Машинное обучение в биологии и биомедицине» стартует 25 февраля.Читать полностью…
А для тех, кто хочет записаться на программу уже сейчас, мы подготовили скидку 15% по промокоду SBERLOGA.
Оставьте заявку на сайте, и наши менеджеры проконсультируют вас. Подробнее о сроках обучения, программе и спикерах по ссылке.
Поздравляем с Новым 2025 годом🎉
Пусть он принесет радость и исполнение желаний! 💫
А мы как всегда, будем стараться поддерживать теплую и дружескую атмосферу, а также ваши исследовательские начинания. 🚀
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Obozov M.A. "PPO и не только в приложении к графам (продолжение)"
⌚️ Четверг 19 декабря 19.30 по Москве
В прошлый раз мы вспомнили PPO и поговорили о приложениях RL алгоритмов к NP-полным графовым задачам.
В качестве продолжения серии докладов мы пополним наш арсенал методов! Рассмотрим actor-critic(A2C) и его вариации, сравним их с PPO, а затем обсудим новые примеры NP-полных графовых задач и их решения RL методами. В конце разберемся с моментами реализации и затронем потенциальные применения в рамках графов Кэли и нашей задачи про кубики!
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe
https://arxiv.org/abs/2412.04529
Саша с Антоном опубликовали классную статью про CAFA5! А я в соавторах. Много умных слов и понятных картинок. Год назад мы участвовали в соревновании на kaggle, в котором надо было определить функции белка по его аминокислотному составу и таксономии. Соревнование отличалось высоким порогом входа, поскольку таргеты, коих было десятки тысяч, были организованы иерархически и метрика расчитывалась пропагацией по этому дереву. Отдельно стоит отметить разметку, где 1 означала наличие функции у белка, но 0 не означал, что функции нет, она просто еще не была обнаружена, возможно.
Мы заняли 2 место 🎉, уступив профессионалам в области, которые в том числе парсили выходящие во время соревнования статьи про новые экспериментально обнаруженные функции белков. Последующее тестирование решений на еще более свежих данных подтвердило, что распределение мест не было случайностью. Организаторы соревнования настоящие ученые, измерили множество метрик и провели полноценное исследование полученных решений.
В статье показываем подход ProtBoost, в основе которого Py-Boost, линейки и mlp, а так же графовые нейросетки в качестве умного ансамбля (помните про иерархические таргеты?). В качестве признаков эмбединги последовательностей и мета-информация о происхождении белка. Обнаружили, что не все эмбединги одинаково полезно и хайпово не значит лучше.
Соревнования шло 3 месяца, а статья выходит спустя год. Это вам не бустинги стекать 🙈
Из каггл-выводов:
* pyboost хорош, особо хорош, когда таргетов много и бустинги в принципе можно успешно применять на эмбедингах.
* GCN стекер можно применять не только здесь.
* иногда ошибки приводят к интересным открытиям, перепутав айдишники моделей, получили интересную аугментацию.
* если соревнование про науку, то где-то в интернете хранятся разные полезные датасеты и код, но коду организаторов слепо верить не стоить
#обозревая_происходящее
Участники первого чемпионата мира среди шахматных программ встретились 50 лет спустя
Когда-то давным-давно в Стокгольме произошло историческое событие - первый чемпионат мира по шахматам среди компьютерных программ. В нем приняли участие 13 программ из 8 стран, и победила советская команда под руководством Владимира Арлазарова со своим детищем "Каисса".
Прошло 50 лет, и герои былых ИИ-сражений встретились в Испании на XXVII Европейской конференции по искусственному интеллекту (ECAI). Джонатан Шеффер, создатель Chinook - первой компьютерной программы, завоевавшей титул чемпиона мира в состязании с человеком; Дейвид Леви, шахматный журналист, международный мастер по шахматам и один из организаторов чемпионата мира в Стогкольме; Тони Марслэнд, исследователь игр и разработчик программы Awit/Wita, участвовавшей в нескольких чемпионатах Северной Америки и мира по компьютерным шахматам, и Монти Ньюборн, бывший президент Международной ассоциации компьютерных шахмат и соавтор шахматной программы Ostrich. Ну, а Россию все так же представляет Владимир Арлазаров. В 74м ему было 35, и он был молодым кандидатом наук, а сейчас это членкор РАН и директор по науке компании Smart Engines (и завкафедрой на Физтехе, между прочим).
Комментарий проф. Арлазарова:
"На заре искусственного интеллекта шахматные программы разрабатывались учеными по всему миру. Поэтому нами руководил в первую очередь научный интерес, а не конкуренция. Мы были коллегами и друзьями со многими членами сообщества компьютерных шахмат и воспринимали первый чемпионат мира как площадку для обмена опытом. Разумеется, мы достигли значительных успехов в задаче, над которой тогда работали многие ученые. Этот успех тогда был признан мировым научным сообществом - и остается таковым сегодня"
🐍 А вы готовы научиться укрощать питона?
Вы знали, что Python - второй по популярности язык программирования в мире? На нем можно делать почти что-угодно в программировании: писать нейросетки, обрабатывать большие массивы данных и писать бэкенд и фронтенд программ, если потребуется.
Освоить этот универсальный инструмент можно на нашем курсе «Машинное обучение на Python для решения биоинформатических задач». Он пройдет с 15 октября по 30 ноября!
🍋Зачем стоит идти на курс:
- Вы увеличите свою конкурентоспособность на рынке труда, ведь вы узнаете, как на практике обращаться с новым инструментом.
- Откроете новые варианты развития карьеры, ведь Python можно применять в огромном количестве сфер.
- Сможете продолжать заниматься любимой наукой, только с более прокачанными навыками.
⭐️Что будем изучать:
- Научимся работать с библиотеками для анализа данных в Python: Pandas и Numpy
- Освоим классические инструменты машинного обучения и азы работы с нейросетками
- Научимся подбирать гиперпараметры и оценивать качество моделей
- Пройдем методы кластеризации и снижения размерности
- Поймем, зачем брать производную и что такое градиентный спуск
- Повторим статистику, но в этот раз на питоне.
🕸 Но это еще не все. Вот, что останется с вами после курса Blastim:
- Постоянные встречи в формате рандом-кофе с такими же студентами, как и вы. Вы узнаете, кто учился вместе с вами и заведете несколько полезных знакомств. Кто знает, может это ваш будущий коллега?
- Устроим онлайн-встречу с преподавателями курса.
- Встреча с карьерным консультантом. Он обьяснит, где можно наиболее выгодно применить новые полученные навыки.
- Онлайн-сообщество в Telegram. Если будут трудности, то сразу можно задать вопрос в беседе и у кого-нибудь обязательно найдется ответ.
Кстати, по промокоду 📌PYTHON5
📌 вам доступна скидка 5000 рублей при оплате до 10 октября.
👉 Переходите по ссылке. Здесь будет самая подробная информация о курсе. Ждем всех :)
Третий закон мертв: математики показали, что экстремальные черные дыры реальны
В изучении Вселенной ученые часто обращаются к ее самым экстремальным проявлениям, стремясь раскрыть фундаментальные законы природы. Черные дыры, одни из самых загадочных объектов во Вселенной, уже десятилетиями служат инструментом для исследования границ наших представлений о гравитации, пространстве и времени. Согласно общей теории относительности Эйнштейна, внутри черной дыры материя сжата настолько плотно, что ничто не может покинуть ее пределы.
Однако даже среди черных дыр существуют экстремальные случаи. Экстремальные черные дыры - это особый класс объектов, достигающих максимально возможного заряда или скорости вращения для своей массы. Их уникальное свойство заключается в том, что их поверхностная гравитация на горизонте событий равна нулю. Это означает, что объекты на поверхности такой черной дыры не испытывают гравитационного притяжения, но малейший импульс в направлении центра приведет к их падению внутрь.
Читать материал на моем блоге на HABR
По просьбам подписчиков появилось ещё несколько каналов с ежедневными подборками статей. Если кому-то ещё пригодится – пользуйтесь на здоровье 🙂
• Computational methods for single-cell data
• Computational structural biology
• Antibody design
• Protein Design and ML in proteomics
• Immune repertoires, AI for drug discovery, Personalized medicine and immunotherapy
• Image-based cell profiling
• Epigenetic clock algorithms
• Brain transcriptomic and epigenetics
• Population genomics
• Ancient DNA and ancient metagenomics
• Microbiome and virome of ixodid ticks and malaria mosquitoes
• Chromaffin tumors and Adrenocortical cancer
• Extracellular vesicles, exosomes, and microvesicles
• Neurofibromatosis and genotype-phenotype correlation
• Cattle selection
• Quantum chemistry, DFT, coacervate catalysis, and ML in chemistry
А также всегда можно написать админу, чтобы заказать подборку по своим интересам. Поддержка ботов требует денег, а настройка – времени, поэтому буду благодарен поддержке. Пока не знаю как это организовать, но можно присылать звёзды в телеграме
Пост будет обновляться. Также работаем над тем, чтобы сделать код открытым
Современная наука оперирует такими объемами данных, которые невозможно обработать вручную в разумные сроки. (Страшный сон: делать вручную регрессионный анализ на стотысячную выборку.) Массивы информации требуют не только математических знаний, но и инструментов, при помощи которых можно эффективно работать с данными и автоматизировать рутинные задачи.
Для подростков и молодых людей 13-20 лет Яндекс Лицей запустил бесплатные курсы, где можно научиться анализу данных, работе с большими данными, основам машинного обучения и другим специализациям. Интенсивное обучение продлится три месяца: будут лекции, домашние задания и защита проекта.
Курсы подходят тем, кто уже знаком с основами программирования и хочет углубить свои знания. Заявки на обучение принимаются до 24 сентября.