pseudolabeling | Unsorted

Telegram-канал pseudolabeling - Запрети мне псевдолейблить

3348

Канал о пути к Kaggle competitions (теперь уже) GrandMaster и поте, которым обливаешься в процессе Последний авторский канал про мл, претендующий на искренность и позволяющий ставить клоунов Для контакта пишите в сообщения канала, они бесплатные

Subscribe to a channel

Запрети мне псевдолейблить

Summary of the year for the channel "Запрети мне псевдолейблить" from @TGStat

Читать полностью…

Запрети мне псевдолейблить

Однажды я убил два месяца, пытаясь понять, как писать из Spark, который управляется Airflow в Redis Cluster (101) и в итоге справился. Смешно, но я видимо был первым и последним человеком, который столкнулся с этой проблемой на всем stack overflow.

В итоге, через 23 дня я просто руками перебрал все варианты и сам себе ответил. Проект тот кстати помер, так и не дойдя до релиза, так что о эффективности связки я так и не узнал.

С тех пор я совершенно не перестал дружить разные инструменты в очень странных конфигурациях и встречайте:
Я взял коннектор датадога для Dagster и расширил его функционал так, чтобы он работал ну хотя бы так же гибко, как оригинальный Datadog.
Вы тоже так можете.

Dagster — это оркестратор дата-процессов: штука, которая превращает «кучу джобов/скриптов» в нормальную систему с графом зависимостей, ретраями, расписаниями, параметрами и понятным UI. Нужен, чтобы пайплайны не были магией на кронах: быстро понять, что упало, что именно пересчитать, и чтобы прод не держался на вере и одном человеке. А, ну или если коротко- это Airflow здорового человека и сразу на стерройдах

Datadog — это наблюдаемость “всё в одном”: метрики, логи, трейсы, алерты и дашборды, которые склеивают картину от «почему сервис тормозит» до «вот конкретный запрос и вот строчка лога». Нужен, чтобы дебажить и мониторить прод не по ощущениям, а по телеметрии. Вот мы его и используем, чтобы понять, что какие-то важные продовые джобы померли.

Это наверно не самая горячая связка из двух инструментов, но надеюсь кому-то кроме меня будет полезна. Опять же, изи вклад в популярный инструмент. У меня кстати есть бывший коллега, который в дагстере успел поработать: @nadya_nafig

Делитесь своими изи-контрибьюшнами в комментах. А я пойду убежу 5 немцев подписать петицию о признании вклада в open source как службу обществу.

Читать полностью…

Запрети мне псевдолейблить

Backing Up Spotify (🔥 Score: 151+ in 2 hours)

Link: https://readhacker.news/s/6HSgm
Comments: https://readhacker.news/c/6HSgm

Читать полностью…

Запрети мне псевдолейблить

Подпишись на @pseudolabeling плз
Мы там кагл решаем, сабмитами делимся

Читать полностью…

Запрети мне псевдолейблить

Кажется каггл вас заметил и активно решает, что с вами делать. Ну негоже, что люди делятся топ сабами в чате! Надо делиться на секретных не-русскоязычных форумах

https://www.kaggle.com/competitions/santa-2025/discussion/653383

Читать полностью…

Запрети мне псевдолейблить

Я же обещал вам, что скелетрон вернется?

Прочитал книжку Филипа Котлера: Marketing Insights from A to Z
Книжка старая, из 2003 и потому позволяет оценить, насколько прозорливым был этот уже 94-х летний автор.

Моя любимая часть- это конечно про выжимание всех соков из своих подчиненных:

Скажем, ставьте задачу снижения себестоимости не на 10, а на 50%, увеличения производительности не на 10%, а в десять раз

Так что вот вам еще один паттерн, которому беззаветно следуют даже в мгу. Этому просто учат в книжках для управленцев! Самое забавное, что ожидать он учит как раз улучшения на 10%

Но золотая цитата- это конечно вот это:
Найти общий язык со специалистами в области информационных технологий (ИТ) не проще, чем с инженерами. Маркетолог пытается говорить с ними про сделки, долю рынка и скидки, а они понимают лишь такие слова, как COBOL, Java, Linux или терабайт.

После этого следует еще очень длинное объяснение, что статистический анализ данных и дата майнинг- это очень перспективно и может сильно помочь маркетингу. А это почти сразу после падения доткомов и молодой и голодный стартап «Google» стоил всего 23 млрд долларов целиком.

А вообще книжка забавная. Особенно если делать скидку на то, что ей так много лет.
Прошло 23 года, кобол похоронили, а вот теерабайт и линукс живее всех живых.

Читать полностью…

Запрети мне псевдолейблить

Оптимальное замощение 155 елками.

Кажется паттерн эффективный, потому что текущий лучший паблик имеет ту же структуру примерно, что и моя прошлая находка.
Думаю заруба через какое-то время перейдет на уровень, когда будут сражения за всякие нерегулярные паззлы большого размера.
Например за большие простые числа:
191, 173, 163 и тд

А еще паблик кернелы дошли до того, что считаются на плюсах

Читать полностью…

Запрети мне псевдолейблить

Для всех страдающих окр:

Вот так сейчас выглядит топ паблик в санте 2025.
Уже достаточно плотно и руками уже не поправишь
https://www.kaggle.com/competitions/santa-2025

У этого паблика скор- 74
Топ лб- это 70

Окружность выше- это примерно скор в 140

Читать полностью…

Запрети мне псевдолейблить

На днях решил сделать небольшую игрушку для анализа связей между телеграм каналами.

Вышло интересно. Можно таким образом найти что-то новое для себя и подписаться на интересующие темы

Интересно как форматы каналов "плывут" от одной к другому: блоги компаний, конкретных людей из ML, о количественных финансах, мемные каналы

Сама тулза, конечно, не была задумана как что-то более чем на 1 вечер, но если захотите поиграть, то вот ссылка:
https://github.com/VladKochetov007/TelegramNetwork

Читать полностью…

Запрети мне псевдолейблить

Считаю шейкап паблик-прайват недостатком подготовки соревнования. Даже если он произошел по вине взламывателей лидербордов. Вот, например, классная статья со взломом лидерборда на kaggle с метрикой logloss: We demonstrate this attack on the first stage of a recent Kaggle competition (Intel & MobileODT Cancer Screening) and use it to achieve a log-loss of 0.00000 (and thus attain a rank of #4 out of 848 contestants), without
ever training a classifier
to solve the actual task. Надо брать хорошие метрики!

Кстати, в Yandex Cup метрику пока не взломали, осталось 11 часов. Будет смешно, если в последний момент будет взрыв лидерборда, но пока к тому нет намеков.

Читать полностью…

Запрети мне псевдолейблить

Python Steering Council unanimously accepts "PEP 810, Explicit lazy imports" (Score: 150+ in 13 hours)

Link: https://readhacker.news/s/6ENUr
Comments: https://readhacker.news/c/6ENUr

Читать полностью…

Запрети мне псевдолейблить

Мои друзья из White Circle делают единственный в мире прибыльный стартап по AI safety и ищут инженеров.

Ребята, вероятно, лучшие в мире по RL-ингу, чтобы одни модели редтимили (ломали) другие.

Фан факт: их СЕО когда-то учился в ФКН ВШЭ на курсе где я преподавал. Оказалось хорошей нетворкинговой стратегией переподавать там где студенты умнее тебя. В общем, лично знаю ребят и могу ручаться.

Важно: нужно много работать. Зато готовы платить 80 - 150k USD.

Вакансии:
1. FullStack Engineer
Typescript, React, Nextjs, Nodejs, Tailwind, GraphQL, ClickHouse

2. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton

3. AI Engineer
Redteaming, agents, rlhf - если у вас нет опыта на mle, но есть опыт swe и построения всякого промптового - позиция для вас

📨 CV → https://docs.google.com/forms/d/e/1FAIpQLSftxgbzzz2xz5ng0tYqiuGfuMtTRJYX0W2IgL8dhu9RHgBBhw/viewform

(текст в скобках удалить, репост ваших мемов про доту и 15 рублей поступят на указанный счет)

Читать полностью…

Запрети мне псевдолейблить

Челлендж для тру гранд-мастеров- влететь в золото с решением на COBOL
Думаю под силу только @abacabadabacaba404

Вообще пока видел золотые решения с кодом на:
Python 2/3
R
Rust
C
Кажется что-то когда-то видел на Matlab

Мб кто-то еще вспомнит экзотику?

Читать полностью…

Запрети мне псевдолейблить

9 место в NeurIPS - Ariel Data Challenge 2025

Два грандмастера, а именно Dieter и CPMP. Два чела, которые получают зп за то, что решают кагл. СPMP буквально Director competitive ML, а Dieter это текущий топ 2 на платформе и бывший топ 1.

Прерпроцессинг довольно обычный:
1. Взяли топ паблик препроцессинг, сделанный на основе кода организаторов
2. Добавили к нему фильтр на космические лучи (выборсы по сигналу сразу на нескольких частотах), тоже из паблик кернела. Кстати паблик кернела победителя этой соревы.
3. Починили баг, который допустили организаторы во время кодирования данных из 3D (высота x ширина x время) в 2D (сигнал x время)
4. Отцентрировали сигнал, откинув 'бесполезные' края транзитов экзопланет
5. У оригинального детектора, который снимал 3D данные было большое разрешение, но из-за того, что звезда всегда в центре, почти все выкидывали 'темные' пиксели, потому что в них мало информации да и организаторы в своем бейзлайне так делают. Грандмастера хитро посмотрели на распределение того, где есть светимость, а где нет, и сделали чуть более умное маскирование (схема на картинке)

Дальше уже был дата саенс:
1. Взяли детектор транзитов из паблик кернела и им разделили данные на фазы транзита
2. Для краев транзита использовали полином второй степени, чтобы предсказать тренд светимости звезды отдельно от планеты и его вычитать как offset
3. Использовали Бетмен-модель Bad-Ass Transit Model cAlculatioN, чтобы с помощью нее определить размер планет и звезд
4. Ту же модель зафитили на данные только с FGS детектора
5. Ту же модель зафитили для бинаризованных на 18 частот данных
6. На бинаризованных данных зафитили еще и Gaussian Process, чтобы шум пофильтровать и дополнительно сгладить выбросы

Ну и постпроцессинг:
1. MLP, который все это дело приводил к единой размерности и стакал
2. Еще один MLP, который калибровал результаты

И все, вот оно 9 место. Судя по активности на лб, которую мы наблюдали- мужчины не особо кранчили, зашли отметились просто.

Читать полностью…

Запрети мне псевдолейблить

Кстати, Lux 4 быть. Есть желающие начать готовиться заранее и настраиваться на победу? В прошлый раз эксперименты топ 1 команды занимали по 12 дней обучения, так что соревнование ML-Heavy.
План подготовки примерно такой:
1. Рекапнем вместе курс Stanford по RL
2. Поразбираем глубоко решения прошлого года и попишем свои
Цель: лейт сабмишн бота, который побьет топ 1 прошлого года. Мб даже железо проспонсирую на тренировку.

Пишите в лс канала, если хотите поучаствовать, ставтье клоунов если нет

Разбор и сетап прошлого Lux 3 стоит смотреть примерно отсюда

Читать полностью…

Запрети мне псевдолейблить

С Новым годом, подписчики! Благодаря вам могу гордо занимать топ-1 в тг каналах про софт в Германии

Читать полностью…

Запрети мне псевдолейблить

Жестокая правда о моих вайб-код привычках

Читать полностью…

Запрети мне псевдолейблить

На этих данных можно устроить величайшее кагл-соревнование.
В датасете вообще есть MC Greshnik, так что и правда там подавляющая часть треков

Читать полностью…

Запрети мне псевдолейблить

Кажется там еще и кнопку даунвоута в топике отключили

Читать полностью…

Запрети мне псевдолейблить

Если вы ждете посты с новыми сабмитами- то их комьюнити постит в группе обсуждений канала. Вы туда заходите и забирайте. Превосходство или хотя бы паритет с японским коллективным разумом гарантирован

Читать полностью…

Запрети мне псевдолейблить

What? Cris Deotte читает канал?
https://www.kaggle.com/competitions/santa-2025/discussion/642347

Читать полностью…

Запрети мне псевдолейблить

Продолжая эксплуатировать ваш окр:

А если взять все 200 паззлов из топ сабмита и посмотреть самый эффективный по минимальному избыточному пространству в квадрате на одну ёлку, то можно найти один очень эффективный паттерн.
наверно и сабмит соберу

Считаем площадь елки, и делим площадь лучшего решения на то, сколько всего теоретически занимают елки такой конфигурации. Получаем соотношение 'избыточного места'. Оказывается оптимум лежит на пазле размером 63 и если его посмотреть глазами- там какой-то очень воспроизводимый паттерн. Думаете он скейлится на паззлы размеро больше?

Читать полностью…

Запрети мне псевдолейблить

https://www.kaggle.com/competitions/santa-2025

Всех желающих призываю участвовать в ежегодном челлендже по оптимизации. Я за этот год знания с прошлого санты применял аж дважды (это много)

А еще у санты традиционно нет прайвета, так что влезать на лб еще веселее

В этот раз надо запаковать блоки в квадрат наименьшей длины стороны. Т.е. для набора 'деталей' найти куб наименьшего размера и координаты каждой детали и ее угол поворота. Детали- конечно же ёлки

Читать полностью…

Запрети мне псевдолейблить

/channel/seeallochnaya/3069
Видимо поэтому чат гпт не может загрузить мне историю чатов стабильно каждый день как раз с момента, когда просыпается Индия и до момента, когда Индия уснет. Видимо свои двадцать баксов я отдам гроку, который даже за бесплатно отвечает стабильно, хотя кажется немножко тупее

Читать полностью…

Запрети мне псевдолейблить

Пытался вывести как-то атаку на другой лосс в каггле для соревнования, где бало мало примеров. Не хватило усидчивости к соажлению. Мб прочтение этой статьи меня вдохновит на то, как можно напасть на другие лоссы

Читать полностью…

Запрети мне псевдолейблить

Дождались. Теперь нужно импортить код прямо в функциях и не волноваться о сишных кодстайлах

Читать полностью…

Запрети мне псевдолейблить

1! (ОДИН САБМИТ)

Читать полностью…

Запрети мне псевдолейблить

Пожалуйста подпишитесь на меня, пожалуйста пожалуйста пожалуйста

(Текст не редактировать, информацию в скобках удалить. От имени своего канала опубликовать в каналах Сиолошная, Борис Опять, Денис секси айти, ОБЯЗАТЕЛЬНО ДАТА СИКРЕТС, Время Валеры. 2 подписчика будут зачислены на ваш счет в течение двух часов)

Читать полностью…

Запрети мне псевдолейблить

Кагл прогрессия для самых маленьких

Читать полностью…

Запрети мне псевдолейблить

Звезды, экзопланеты, два детектора и сетап недавно прошедшего соревнования #ArielDataChallenge2025

Челлендж посвящен поиску экзопланет у звезд которые мы в состоянии наблюдать почти напрямую и определению состава атмосферы этих экзопланет. По атмосфере планеты можно начать подозревать наличие там жизни и вообще оценить ее пригодность для переселений туда людей. Организатором является Имперский колледж Лондона, так что переселение кого-нибудь куда-нибудь подальше стоит довольно остро и является актуальной.

В этом году сетап соревнования похож на предыдущий:
0. Все данные симулированы физической моделью.
1. Есть звезда и у нее гарантировано есть экзопланета.
2. Есть два детектора, каждый из которых направлен на звезду и измеряет спектр этой звезды во времени. Звезда далеко, так что до нас долетают считанные фотоны. Из срабатывания ячеек детекторов мы можем сформировать картинку звезды 30x30 пикселей в каждый момент времени (на картинке). Иногда долетает слишком много фотонов и пикcели перегреваются. Суммарно наши детекторы дают нам 283 канала наблюдения звезды по 900 пикселям каждый.
3. Когда экзопланета ‘загораживает’ нам звезду, мы наблюдаем (или не особо) падение светимости звезды. По этому изменению светимости надо определить спектрограмму состава планеты, которая, сюрприз-сюрприз составляет 283 значения.

Из отличий этого года:
1. Теперь у нас у каждой планеты уникальная звезда. В прошлый раз у нас на все планеты были даны всего две уникальные звезды с уникальными спектрами светимости.
2. Физическую модель привели еще больше к реальной физике. Если в прошлый раз у нас затмение иммитировалось как ‘мимо круга пролетает квадрат’, то теперь у нас теперь симмуляция строится на двух кругах. Это отражается в данных как скругленное дно транзита (на картинке). А еще добавили новых видов шума, которые делают симуляцию более похожей на реальные данные.
3. Добавили новых атмосферных прототипов. Это условные коричневые карлики, газовые/ледяные гиганты, каменистые планеты почти без атмосферы и тд.
4. Теперь для некоторых планет доступны несколько наблюдений транзитов, которые возможно хитро предобработать и уточнить свои предикты

Как решать будете?
Ответы как всегда на @pseudolabeling

Читать полностью…
Subscribe to a channel