boris_again | Unsorted

Telegram-канал boris_again - Борис опять

12937

life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin

Subscribe to a channel

Борис опять

#партнерство

Многим сейчас тяжело с поиском работы, рынок вакансий в исторической яме. Отклики на вакансии в нишевых сообществах в среднем работают сильно лучше, чем HH/LinkedIn/Indeed.

Мои знакомые в канале Dev & ML Connectable Jobs размещают вакансии в стартапы с русскоговорящими фаундерами или командами. Например в Neon, InDrive, 1inch, Chatfuel.

Вот пример актуальных позиций: 
– ML Engineer в Aviasales (remote)
Principal Data Scientist в InDrive (Лондон)
Senior Backend Engineer в Databricks (Амстердам)
Frontend Developer в Plata Card (ребята из Тинькофф строят необанк в Мексике, но работают remote или на Кипре)
Senior QA Engineer в JetBrains

Читать полностью…

Борис опять

Как иногда хорошо отдохнуть от бесконечных вычислений на работе и в свободное время спокойно вычислять время возврата инвестиций козлиной фермы в постапокалиптической деревне.

Когда я советую игры или книги, я стараюсь показать вам что-то, что не так просто откопать.

Сегодня это Caravaneer 2. Симулятор караванщика в постапокалипсисе.

Это типа Fallout 2, если бы он был про торговлю и с реалистичной симуляцией экономики спроса/предложения.

Игра из каких-то лохматых годов, изначально вообще была на Flash (зумерам не понять), но потом её кто-то реанимировал и принес в Steam. Поэтому вы точно о ней не слышали.

Основной цикл игры простой: вы перемещаетесь по пустыне, торгуете в городах, воюете с бандитами. Иногда с кем-то общаетесь и выполняете квесты.

Внутри очень много интересных механик.

Главная — это торговля. Покупаем дешево, продаем дорого. Можно изучать, что производят поселения и понимать, где покупать, а где продавать. Ваш и другие караваны влияют на спрос и предложение. Рынки могут перенасыщаться, так что часто бывает ситуация, что ты везешь тонну козлиного сыра, но некому его продать, потому что все уже сыты по горло твоим ебучим сыром. Считать всё нужно самому, поэтому я натурально играл с блокнотиком.

Караван потребляет еду, воду и некоторые другие ресурсы, вам нужно их закупать, чтобы совершить путешествие куда-то.

Нужно нанимать людей, экипировать их, поддерживать их мораль, при желании обучать. Есть много опций для передовых HR практик, например, всегда можно оставить плохого работника в пустыне с одним ножом и набредренной повязкой.

Тактическая боевка очень похожа на Fallout 2, довольно интересная поначалу, но к концу превращается в простую экономику: главное выпускать в три раза больше патронов 7.62, чем противник.

Наконец, под конец игры можно покупать и развивать свои бизнесы, меняя экономику пустоши.

Так же есть неплохой сюжет, но достаточно короткий и вообще игра не об этом.

В целом у игры отличная прогрессия. Начинаешь с того, что букально на своем горбу тащишь на продажу 10 кг тараканов и прячешься от рейдеров. В середине делаешь бросок через пустыню на ослах, чтобы продать 500 кг кожи, попутно отстреливаясь из мосинок. Под конец у тебя за сто лошадей с повозками (или верблюды, или грузовики, в зависимости от стиля игры), 15 человек с гранатометами, все живое разбегается видя вашу армаду на горизонте, но вы не знаете кому ещё продать 50 тонн цемента, потому что выкачали из пустоши весь кеш. Эндгейм это когда ты скупаеешь и закрываешь в городке всю пищевую промышленность, чтобы задрать спрос на продукты и завозить их с маржой х10.

Но главное, чем цепляет игра, это детали. Очень много проработанных мелких механик. Можно решать такие увлекательные вопросы как:
* Продать эту ткань с меньшей маржой сейчас, чтобы получить кеш в моменте, или обменять на лубрикант и продать его позже с ещё большей маржой? Какова для меня сейчас ценность денег относительно будущих доходов?
* Сколько козлов мне надо возить с собой в повозках, чтобы мои люди питались только их молоком?
* Собирать сено по пути, замедляясь ради этого, или покупать его в городах и ездить быстрее?
* Какого хрена обувная фабрика не зарабатывает денег и когда она окупится?
* Где бы мне поймать с десяток бандитов, чтобы загнать их в город и нанять на своё производство?
* Выгодно ли разводить лошадей и продавать их на рынке скота?
* Мы заблудились в чертовой пустыне, кого мне бросить (или съесть?), чтобы выжить?
И так далее.

При этом во все детальное задротство можно погружаться настолько, насколько хочется. Соптимизировав всё поумнее можно быстрее подзаработать деньжат, но в целом можно в расслабленном темпе покупать/продавать чуть подольше с тем же эффектом. Это означает, что вначале можно закопаться, а позднее перестать микроменеджить рационы козлиного молока и сосредоточиться на предотвращении ядерной войны, сюжет ведь надо допройти.

Читать полностью…

Борис опять

#лабораторный_журнал

Собеседовал N-ного претендента на позицию дата инженера. У человека 20 лет опыта в IT и 10 лет в DE. Работал со всем от DWH на Oracle до +- архитектуры как у нас на Airflow, DBT, BigQuery.

И снова кандидат не может ответить мне на два вопроса:
1. Что такое индекс в базе данных?
2. В чем разница между реляционными и колоночными БД? Уточняющий вопрос: расчет среднего значения в колонке будет быстрее у реляционной бд или у колоночной, если игнорировать железо и другие не относящиеся к делу детали?

Причем меня вообще любой вразумительный ответ устроит. “Индекс это дополнительная инфа, которую мы храним, чтобы быстрее делать запросы к колонке” - вполне ок. “Индекс это типа бинарное дерево” - ваще ответ на пятерку. “Колочные БД хранят данные на диске кусками колонок, а реляционные базы набором строк” - все, чего я прошу. Кажется можно даже из названия догадаться.

Но люди начинают рассказывать, что “в бигквери есть партишены…” и “бигдата сделана, чтобы обрабатывать большие объемы данных и поэтому запрос к бигквери быстрее…”, что-то там про star schema, чето-то про parquet, хранение файов на S3, data lake, зачем-то про map reduce. Все это вообще к вопросам не относится. Как будто меня пытаются закидать базвордами.

При этом я не сомневаюсь в их компетенциях, т.е. верю, что они правда десять лет успешно пилили пайплайны и все у них было хорошо. Поэтому я в недоумении.

Создается впечатление, будто люди работали со всеми этими космическими технологиями как с абсолютными черными ящиками. Все мы так делаем, я тоже никогда не закапывался в какие-нибудь детали реализаций индексов в постгрессе, но я хотя бы знаю что такое индекс, читал кабанчика и видел там умные слова типа B-tree. В конце концов решал литкод и знаю, что можно ускорить что-то потратив немного памяти. Хотя это не я тут дата инженер с 10 годами опыта, я просто рядом постоял.

BigQuery и другие современные штуки конечно развращают. Реально можно пользоваться и не знать, колоночная это бд или нет. Если ты налажал в своем постгрессе на бекенде, то все заглохнет. Если ты налажал в BigQuery, то просто потеряешь больше денег. А потом можешь все исправить и показать начальству, как сократил расходы вдвое!

Читать полностью…

Борис опять

👨🏻‍💻 История друга-ресёрчера

Недавно созвонился со своим старым другом с ФУПМа (ныне часть ФПМИ МФТИ), который когда-то ещё и вёл у меня теорвер. Был приятно удивлён, его путём по жизни и тем, где он сейчас — хочу поделиться.

Друга зовут Эдуард. Познакомились на моём факультете, он был на пару курсов старше. Помню, что ему удавалось не только успевать по учебе, работе, но и вести студенческую жизнь, не запираясь в комнате от людей, а наоборот часто с ними общаясь. Вместе с ним мы проводили дни открытых дверей, а после Эдуард стал моим семинаристом.

👀 Меня впечатляло, как легко он дошёл от статуса студента до преподавателя, без ущерба внеучебной жизни и не закапываясь в гору учебников)

Эдуард шёл именно по пути ученого, который разбирается в своей области и недавно защитился — уважаемо.

🗣️ После выпуска потеряли связь, но недавно узнаю, что мой старый друг теперь делает науку и преподаёт в зарубежном университете в Арабских Эмиратах, и это очень круто, что сейчас он обменивается опытом и знаниями с людьми из разных стран.

Сейчас он постдок по математической оптимизации в группах двух профессоров в университете MBZUAI, в Абу-Даби. Университет — быстроразвивающийся арабский аналог Сколтеха.

🧠 Интересно наблюдать, как сверхприбыли страны грамотно распределяются на развитие фундаментальной науки и образования с целью создавать технологические кластеры. У нас тоже планируются большие изменения на МФТИ, но про них расскажу отдельно)

В науке полезно получать международный опыт и потом применять его в своей стране и области знаний, обмениваться с коллегами, коллаборироваться. И не смотря ни на что, научный обмен продолжается и идёт на пользу вообще всем.

🌎 Всё таки наука — это open-source вне географии и политики, а опубликованными на топовых конференциях результатами могут пользоваться вообще все. Да и учёные из разных стран продолжают общаться и работать над общими для всего человечества задачами. И мой друг не исключение — он продолжает активно публиковаться с одной из наших научных групп.

🔍 Кроме исследований, написания статей и научного руководства, Эдик преподаёт, как teaching assistant, выращивая будущих молодых учёных, как и во времена, когда был в МФТИ.

Если вам тоже интересен международный опыт, предлагаю изучить университет MBZUAI в Абу-Даби. Как раз сейчас у них проходит конкурс на получение полного гранта на магистратуру или докторантуру, в том числе в команду Эдуарда по оптимизации.

🇦🇪 Mohamed bin Zayed University of Artificial Intelligence (MBZUAI) - первый в мире англоязычный, исследовательский университет искусственного интеллекта в Абу-Даби, ОАЭ. Студенты с имеющимся образованием STEM (технические специальности) могут получить 100% стипендию, которая покрывает стоимость обучения, проживание, авиабилеты, страховку и приятную ежемесячную стипендию.

📋 Вступительная заявка - бесплатная

Дедлайн:
31 марта 2024 (тест на английский можно сдать до июля)
Начало учебы: сентябрь 2024

По всем вопросам обращайтесь к Айгерим
🧩 @al_aigerim
📧 aigerim.alibek@mbzuai.ac.ae

Подробности в запретграм аккаунте MBZUAI

Ставьте 👍🏼 на пост, если интересно больше узнавать про науку, в том числе и международную!

Читать полностью…

Борис опять

https://www.goody2.ai/goody2-modelcard.pdf

Читать полностью…

Борис опять

На мой канал подписано немало начинающих, но как правило мой контент ориентирован не на них. Советую вот эту серию постов про поиск стажировки

Читать полностью…

Борис опять

ML это просто fit() predict(), говорили они.

Тем временем fit() predict():

Статья

Читать полностью…

Борис опять

Статья в мейле:
https://health.mail.ru/news/989496-rossiyskiy-uchenyy-vychislil-pik-tretey-volny/

Туториал на хабре:
https://habr.com/ru/companies/otus/articles/553638/

Туториал на медиуме:
https://towardsdatascience.com/how-to-actually-forecast-covid-19-778cce27b9d6

Исходный код:
https://github.com/btseytlin/covid_peak_sir_modelling

Читать полностью…

Борис опять

AIRI запустили классный конкурс, в котором исследователи рассказывают про свои первые научные статьи. Хочу поддержать ребят и рассказать про свою первую (серьезную) публикацию.

Epidemic Modeling of Multiple Virus Strains: A Case Study of SARS-CoV-2 B.1.1.7 In Moscow

Забавно, но благодаря ей я когда-то получил оффер в AIRI.

Моя история будет самая отшибленная. Строго говоря я буду читерить, потому что статья осталась препринтом, но зато история классная.

В начале 2021 года первые волны ковида уже отгремели и эпидемия ушла на второй план. В России всем уже было в целом пофиг. Однако я прочитал о том, что в других странах начал творить хаос новый штамм коронавируса: B.1.1.7. Его basic reproduction number R0 был на 40% - 90% больше, чем у обычного ковида. Проще говоря зараженные передавали вирус гораздо большему количеству людей. Новый штамм уже распространился на 130 стран, но пока не задел Россию.

Я наткнулся на некоторые хоббистские расчеты потенциального импакта нового штамма и подумал: было бы круто оценить, что случится в России. Но если считать, то не просто в стол. Было бы круто написать научную статью, предупредить общественность, с некоторой маленькой вероятностью натурально спасти жизни людей, если вдруг кто-то прислушается и примет меры, а так же заработать себе репутацию крутого дата-пацана и вселенскую славу.

Я прикинул, что могу управится за пару месяцев. Была только одна проблема: мои знания об эпидемиологии заканчивались одним курсом из магистратуры где это даже не было основной темой. Но я решил, что надо двигать свои горизонты и верить в себя.

Идея была такая. В первую очередь надо сделать модель, которая принимает на вход параметры одного или нескольких штаммов в популяции (количество зараженных, размер популяции, R0, смертность, итд) и симулирует происходящее. Известные параметры можно взять из статей про ковид. Неизвестные можно подобрать через оптимизацию: обучить модель на прошлых данных. То есть сделать модель, которая хорошо описывает все происходившее до сих пор, а затем подставить в неё параметры нового штамма и посмотреть, что будет. Чтобы такой модели можно было доверять надо проверить её предсказательную способность. Скользим по всем датам и делаем предсказание на даты вперед, сравниваем результаты. Обычный time series train-test split из первого курса по ML. Если модель хорошо предсказывает, значит алгоритм обучения подбирает адекватные параметры, а значит её экстраполяциям можно доверять в какой-то степени. Цель была не сделать лучшую предиктивную модель, а сделай окей-левел предиктивную модель и подставить в неё два штамма вместо одного, посмотреть какой эффект может оказать новый штамм. То есть это типа про интерпретабилити, а не про побить sota.

По всем параметрам подходила эпидемиологическая модель SIR (susceptible infectious recovered). Она очень просто моделирует развитие болезни. Есть какое-то количество susceptible, infectious, recovered людей в момент времени t. Каждый тик t каждый infectious человек заражает сколько-то susceptible людей в зависимости от параметров штамма, сколько-то infectious переходят в recovered. Всю модель можно описать одним for циклом, но удобнее все это делать через дифуры. Дифуры это не типичная ML моделька, что было для меня новым. Но она простая, её параметры можно относительно несложно подобрать оптимизацией через OLS, её можно расширять и модифицировать как хочется (что например позволило учесть наличие незадокументированных зараженных). Главное, что она позволяет “подставить” второй штамм в любой момент и полностью интерпретируется.

Читать полностью…

Борис опять

Мы с коллегами из Yandex Research сделали новый метод квантизации LLM’ок - AQLM. Он позволяет сжимать модели вплоть до 2 бит на параметр, что открывает тонну возможностей от запуска Llama 2 70b на RTX 3090 до, потенциально, меньших моделей на мобилках. Статья доступна на arXiv, код лежит на GitHub.

Про качество: AQLM бьет по качеству все существующие методы в диапазоне 2-3 бит на параметр: AQLM 2 бита лучше чем QuIP# 2 бита и даже мощнее GPTQ 3 бита.

Про готовые модели: мы выложили готовые квантизованные модели на хаб. Лламы от 7b до 70b и Mixtral в разных конфигурациях. Для быстрого инференса мы написали несколько кернелов на CUDA, Triton и Numba. Они оптимизированы под различные сетапы квантизации, и либо немного уступают, либо заметно превосходят fp16 по скорости генерации.

Про использование: весь продвинутый код инференса завернут в одну либу, и устанавливается просто через pip install aqlm. После этого можно смело подгружать любые модели с хаба через .from_pretrained(..., trust_remote_code=True), и оптимальные кернелы будут выбираться и компилироваться на ходу за кулисами.

Про метод: мы применяем квантизацию групп соседних весов для эффективного использования их взаимной информации. Более конкретно, мы представляем все блоки весов (размером около 1x8) в матрице суммой некоторого количества векторов из небольшого обучаемого списка (Additive Quantization). Детали и бэкграунд подробно описаны в статье.

Читать полностью…

Борис опять

Наткнулся на то, как наткнулся Борис на объяснение алгоритмов работы шазам.
При этом а то же время читал книгу по цифровой обработке сигналов.
Попробовал адаптировать сигналы от некоторых наших сенсоров, чтобы их можно было использовать как музыку в Шазаме. И о чудо, всё вышло.
Сегодня порадовал отдел исскуственного интелекта новым, занятным подходом к анализу наших данных

Читать полностью…

Борис опять

https://jovex.substack.com/p/how-many-people-are-just-like-you

Читать полностью…

Борис опять

Решила нарисовать то, как могут выглядеть Precision, Recall, F1 и MCC при одном и том же фиксированном accuracy, но разных False Positive и True Positive в задаче бинарной классификации. В курсах по машинному обучению, конечно, рассказывается про эти метрики, но подобных визуализаций я пока что не видела, поэтому мне стало интересно их сделать и посмотреть на них. В результате я получила довольно прикольные двумерные поверхности, которые показывают, как эти метрики могут различаться при одном и том же accuracy. Все, разумеется, зависит от того, сколько примеров положительного класса находится в датасете и к предсказанию какого класса склоняется модель. В общем, интересно бывает иногда вернуться к простым вещам и посмотреть на них под новым углом.

Картинки прикрепляю к посту, а код можно посмотреть здесь: https://colab.research.google.com/drive/10YfGNtIDSSBauMiWnuqcBhQgFYpFLeJC?usp=sharing

Если найдете ошибку в вычислениях, пишите об этом в комментариях. 🥤

Краткие учебные материальчики для тех, кто пока не разобрался:
🎀 Precision and Recall: https://developers.google.com/machine-learning/crash-course/classification/precision-and-recall?hl=en (англ.)
🎀 F1 score: https://en.m.wikipedia.org/wiki/F-score (англ.)
🎀 Все вместе в маленьком видео: https://www.youtube.com/watch?v=8d3JbbSj-I8&ab_channel=Scarlett%27sLog (англ.)
🎀 MCC: https://safjan.com/difference-between-matthews-and-f1/ (англ.)

#эксперимент #ликбез #учебные_материалы

Читать полностью…

Борис опять

Вклад в науку:
🙅 Публикация на нипсе
🧠 Пост на реддите

Читать полностью…

Борис опять

Всегда кажется будто у меня карликовый канал. Но тусовка в DS/ML реально тесная. Одногруппница из магистратуры позвала проконсультировать их компанию по построению ML модельки (диплом пригодился!) и оказалось, что их DS читает мой канал. Приятно!

Читать полностью…

Борис опять

Да, ещё игра достаточно гибкая, так что вы можете вообще переметнуться на другую сторону и зарабатывать грабя караваны, торговать рабами, жить на всю катушку. Или можно стать скотоводом-кочевником и на чилле просто разводить коров, иногда отстреливаясь.

Мне лично не хватило какого-нибудь хардкора типа налогов, кредитов, ещё более сложной симуляции экономики, черного рынка, возможности нанимать другие караваны и на поздних этапах играть в игру как в стратегию. И я даже перешел на игру, где все это есть, но об этом позже.

Читать полностью…

Борис опять

#партнерство

Про варианты иммиграции в 🇫🇮 Финляндию. Почему-то про финские возможности не так много говорят, а они есть, причем довольно привлекательные! И страна комфортная, если не пугает морозец и высокий уровень самоубийств 🙂

Эту заметку мне помогли написать ребята из канала @itfinland, там уютное сообщество переезжающих в Финляднию, 500+ человек уже переехали. Еще я попросил их поотвечать на вопросы по теме в комментах, так что смело задавайте!

1️⃣ Стартап-внж. Я чуток изучал таких вариантах, и скажу, что финский стартап-пермит - один из самых понятных и главное и быстрых. Все процессы происходят онлайн. Внезапно не нужны апостили и даже справка о несудимости.

Требования: 2+ кофаундера, около 12к евро на счету на годовой пермит или 24к на двухгодовой, бизнес-план в виде простой формы с адекватными вопросами, нужно грамотно описать масштабируемость и инновационность. Из особенностей - после аппрува нужно за въездной визой идти в финское консульство в стране резидентства или гражданства, но можно как в Испании заехать по шенгену и подать сразу на карточку. Удобно!

2️⃣ EoR: своеобразная альтернатива номад-внж! Как я понимаю, немного похоже на польский PBH. Получаете контракт от финской компании Nerdsbay, которая заключает договор с заказчиком/работодателем. Продолжаете работать над тем же проектом, но совершенно легально переезжаете жить в Финляндию.

Требования: постоянный контракт с иностранной команией не РФ/РБ, минимальный счет для работодателя должен быть 5000 евро, тогда при выплате всех отчислений ЗП будет 3500 - и можно переезжать в Финляндию как специалист.

Подробнее про EoR + Личный опыт переезда через EoR.

3️⃣ Предприниматель. Понятный вариант, как во многих других развитых странах. Требования стандартные - бизнес-план, финпрогноз на два года, PnL, средства на жизнь как для стартап-внж (около 1k евро на месяц), пруфы, что бизнес существует. Личный опыт переезда по визе предпринимателя

4️⃣ Специалист. Еще понятнее: есть оффер от финской компании на 3473 евро в мес - есть внж. Ну и немного обычных требований вроде разумного опыта работы и др. Дают внж на два года, продление на четыре. Процесс получения ВНЖ.

Добавлю, что из опросов про стоимость жизни в кириллике (и не только) мы знаем, что в Финляндии приемлемая стоимость жизни, что не совсем очевидно - Скандинавия же!

Вот сравнение финских внж от ребят из @itfinland - прошу подписаться за такие полезности. У них скоро будет онлайн-встреча с более подробным разбором - приходите: ссылка. Ну и задавайте вопросы в комментариях, они обещали отвечать!

Читать полностью…

Борис опять

Понимаю, что репостнул вероятную рекламу (мне не заплатят 🙁), но думаю кому-то из подписчиков может быть интересно, какие варианты дает MBZUAI.

Сам когда-то изучал их программы.

Читать полностью…

Борис опять

#ml
# Классические сюжеты научных статей

Хот тейк: большинство статей про ML строятся на одном трюке из небольшого списка. Почти все наши любимые статьи это один из классических сюжетов.

При этом действительно оригинальные статьи (аля мы изобрели новый вид нейросетей, который обучается вообще без бекпропа) как правило быстро уходят в небытие, хотя и имеют мизерный шанс перевернуть всю область.

Вот какие сюжеты повторяются в статьях раз за разом.

1️⃣ Уберем inductive bias. Возьмем что-то построенное на костылях (эвристиках) и сделаем это end-to-end обучаемым. Добавим данных и параметров, пусть делает Brrr.

Раньше мы обрабатывали изображения фильтрами, думали как там надо расставить числа в матрице 3x3, чтобы выделять линии и все такое. Потом изобрели CNN, чтобы учить эти фильтры end-to-end, закинули побольше данных и все полетело.

Наверное это самый важный трюк в DL.

2️⃣ Добавим inductive bias. Обратный первому прием.

Например, можно обрабатывать изображения с помощью MLP и при достаточном количестве параметров и данных рано или поздно оно выучит всё необходимое. Однако мы знаем, что обращать внимание на локальную структуру изображения полезно. Поэтому мы делаем CNN, чтобы нейронка учила фильтры и ей не пришлось изучать этот подход с нуля. Это про оптимизацию компьюта.

Делая пейпер на такой основе будьте готовы, что рано или поздно кто-то применит трюк номер 1 и обойдет ваш метод.

3️⃣ Найдем краевой случай, в котором лосс функция дает плохой результат, модифицируем, чтобы это исправить.

Кросс-энтропия плохо справляется с дисбалансом классов? Получите Focal loss.

4️⃣ Возьмем что-то supervised и сделаем его unsupervised.

Например, Segment Anything существует благодаря тому, что придумали как сделать псевдолейблы из кучи неразмеченных изображений. Скрейпинг интернета делает бррр.

Masked Language Modelling конечно из той же серии.

5️⃣ Возьмем что-то недифференцируемое и сделаем его мягкую дифференцируемую версию.

Есть max, будет softmax.

6️⃣ Возьмем что-то линейное и добавим нелинейности. Возьмем что-то нелинейное и сделаем линейным.

7️⃣ Вместо оптимизации неприятной функции будем оптимизировать её lower bound.

8️⃣ Найдем нежелательное поведение у нейросетки и добавим регуляризацию, чтобы она так не делала.

9️⃣ Найдем способ прокидывать глобальный контекст к локальному.

Это конечно про UNET, но не только. Трансформер это предельный случай: эмбеддинг каждого токена обогащается эмбеддингами всех остальных токенов, то есть учитывается весь контекст.

🔟 Покажем почему все неправильно бенчмаркают и сделаем свой бенчмарк.

Моя любимая статья A Metric Learning Reality Check.

1️⃣1️⃣ Если мы в CV, возьмем идею из NLP. Если мы в NLP, возьмем идею из CV. Аналогично с другими областями.

Список не исчерпывающий, кидайте в комменты свои варианты.

Читать полностью…

Борис опять

Вот и подошёл к концу первый месяц стажировки.

Этот период пролетел как-то незаметно, словно только вчера я потерялся в офисе и не мог найти нужную дверь...изи

Пора подвести итоги:

💻 За это время много чему научился, стал более уверено подходить к рабочим задачам Да... Конечно, рабочие задачи точно не сравнятся с курсами и учебой, тут чувствуешь некую ответственность за то, что ты отдаёшь в результате своей работы 😞 Наконец-то добил dwh, над которым мучался две недели, осталось подключить его, чтобы оно обновлялось каждый день

😊 Познакомился с разными классными людьми из разных команд. Я искренне рад, что мне попалась классная команда, начиная от руководителя и ментора и заканчивая коллегами, которые всегда готовы помочь, если что-то не получается, и никогда не принижают меня за мою не профессиональность. Послушав истории подруги-разработчика оказывается это не во всех командах так 🫣

🏀Вернулся в баскетбол после 3х лет перерыва. Очень непривычно, как все друг за друга переживают: при малейшем касании соперника сразу говорят о фолах, хотя я даже не особо чувствую эти касания

🗒 Собрал серию постов со стажировки:
1. Первый день
2. Как проходил период отбора?
3. Как я готовился к стажировке (Часть 1)
4. Как я готовился к стажировке (Часть 2)
5. Как я готовился к стажировке (Часть 3)
6. Как я готовился к стажировке (Часть 4)
7. Как я готовился к стажировке (Часть 5)

@obsessive_analyst

Читать полностью…

Борис опять

Сейчас будет совсем не про ML, внезапная политология (не путать с полилотой) в канале.

Помните моего друга Андрея, с которым мы ходили на подкаст и писали статью? Он выпустил книгу, о том как авторитарные режимы превращаются в демократические: «Демократический транзит: траектория и модели политической трансформации».

В исследовании подробно разбираются основные пути построения устойчивого демократического режима и, на примере государств Восточной Европы, приводятся главные ошибки, которые были допущены в странах, вернувшихся к авторитарному правлению.

Сам я уже прочитал монографию и остался крайне доволен содержанием и формой изложения - всё объясняется доходчиво и понятно даже для неспециалиста.

Можно поддержать молодого ученого и купить здесь: ссылка.

Читать полностью…

Борис опять

Выложу то, что не показывал раньше: ту самую презентацию для СМИ

Состарилось неплохо

Читать полностью…

Борис опять

Первым делом я перелопатил существующие статьи по теме и ужаснулся. Куча статей от умных ученых, но никто не делает трейн-тест сплит. Люди фитят что-то от простого полинома до нейронок к имеющимся time series данным, видят хороший фит (модель красиво провела кривую через все точки в исторических данных) и пишут статью. Никто не проверяет, как поведет себя модель, если спросить её, что будет завтра. В ML это вдалбливают на первых зантях: если твоя модель красиво обвела точки это ещё не значит, что она хорошо предскажет что-то на новых данных. То есть у именитых ученых 100% переобучение и всем плевать. К тому же никто не сравнивался ни с какими бейзлайнами: ваш метод вообще предсказывает лучше чем “предсказываем на завтра столько же, сколько было сегодня”? Лютый треш.

Далее я долго и муторно писал статью. По ощущениям это как жевать стекло. Все оказалось в сто раз сложнее, чем я думал. Ничего не работало и не было понятно почему. Практически никаких туториалов по теме не существует, а все статьи хреновые и ничто никогда не подходит под именно твой случай. Когда появились результаты они были бредовыми. В какой-то момент модель предсказывала, что мы все уже мертвы. Главное, что это деятельность без видимого реального профита и я знал, что почти наверняка она ни к чему не приведет. Мне тысячу раз хотелось бросить, но меня очень поддерживали друзья и мой научный руководитель из магистратуры, я продолжал.

На определенном этапе у меня был затык. Я стал искать помощи у знакомых, кто был хоть каким-то боком связан с эпидемиологией. Предлагал соавторство. Несколько людей подключились, но потом пропали. Наконец, мне дали контакт настоящих эпидемиологов из Института Гамалеи. Это те самые ребята, что делали Sputnik V. Я подумал, что они-то мне и нужны: настоящие профессионалы разнесут мои поделки и покажут как надо!

Около двух месяцев они не могли организовать со мной встречу. К моменту когда она случилась я уже сам разобрался и все починил, но решил всё равно показать им результаты. Думал, что будет лайтовый созвон с одним человеком. На встрече было пять дядечек и тетушек в костюмах. Я рассказал им все, показал код и графики, указал на проблемы. Мне ответили: “Ну мы примерно так все и делаем”, на чем встреча закончилась. Моё доверие к некоторым институциям упало ниже плинтуса, потому что если какой-то хрен с горы может за три месяца с нуля сделать что-то близкое к тому, что делают они…

Эксперименты были закончены, статья написана, выложена на arxiv и отправлена в журнал по теме. С помощью своих друзей журналистов я составил презентацию и заспамил ей множество СМИ. Написал статьи на хабр и на медиум.

Желанного выхлопа не случилось. Все похвалили мой контент, но ковид был настолько неактуальной темой в СМИ, что я попал лишь в СМИ-прикол под названием мейл ру новости, да ещё и с кликбейтным заголовком.

Новая волна ковида действительно случилась, но был ли тот самый штамм её единственной причиной или нет останется загадкой.

Я не довел статью до публикации в журнале, т.к. от меня потребовали две тыщи миллионов новых экспериментов, а все профиты я уже получил от препринта.

Позднее эта статья позволила мне получить офферы в рисерч тогда-ещё-Яндекс Толоки и AIRI, попасть на позицию Research Scientist.

Была ли это хорошая статья? Настоящие ученые оценят (скорее всего невысоко). Однако я считаю, что для первой самостоятельной статьи и в абсолютно новой для меня теме это очень хороший результат.

Ни о чем не жалею. Этот опыт убедил меня, что я способен разобраться в чем угодно, создавать нечто из ничего, творить. Что у меня хватает мозгов и упорства на науку. Очень сильно добавилось уверенности в себе.

Читать полностью…

Борис опять

🌸Небольшое дополнение к посту про бесплатные курсы по NLP/LLM🌸
#nlp #про_nlp

Серия из 8 лекций на русском языке от Игоря Котенкова (Сиолошная):
"Полная история семейства GPT"
— история и мотивация создания GPT-моделей
— подробный разбор архитектур
— метрики оценки
— законы масштабирования и emergent properties

🟣Плейлист на Youtube

Читать полностью…

Борис опять

https://www.quora.com/Is-Toloka-halal

Читать полностью…

Борис опять

Наткнулся на то, как мой одногруппник из бакалавриата наткнулся на мой пост про то, как я наткнулся на пост про Шазам.

И неожиданно узнал, что мой проходной пост/комментарий помог ему в работе. Вот это неожиданный эффект от ведения канала

Читать полностью…

Борис опять

Как нейросети развивались в 2023? Спросили об этом Константина Лахмана, руководителя отдела компьютерного зрения и ML-приложений Яндекса.

«Основным трендом 2023-го стал прорыв в качестве всех генеративных моделей: звуковых, текстовых, визуальных. Например, в марте OpenAI сменила "движок" ChatGPT на языковую модель GPT-4, что сильно повлияло на качество работы чат-бота. Теперь на её базе многие стартапы строят свои продукты, а в гонку генеративных моделей включились все крупные компании — Meta*, Google, Apple, Baidu.
*
Компания Meta признана экстремистской организацией и запрещена в РФ

Всё это было бы невозможно без алгоритмов Reinforcement Learning. За счёт небольшой экспертной разметки они позволяют превратить модель из закрытой базы знаний в инструмент, готовый следовать пользовательским инструкциям, а также помочь справиться с
галлюцинациями.

Еще один рубеж 2023-го — появление мультимодальных моделей.
Они умеют анализировать изображения согласно инструкциям на естественном языке, например, оценивать дорожные ситуации. Многие из них пока работают нестабильно, но очевидно, что они будут быстро улучшаться.

Не отставала и область генерации изображений и видео. За прошедший год мы увидели релизы нескольких версий Midjourney, выход DALL-E 3 и Stable Video Diffusion. Важно, что это работает не только в узких доменах, а для всего многообразия визуальных образов.

Крупным направлением стала разработка подходов к сжатию и ускорению моделей. Раньше многим из них нужны были кластеры GPU, но сейчас появились
легковесные нейросети которые можно запускать на телефоне или ноутбуке.

Яндекс не отстает от лидеров индустрии: за прошедший год мы выпустили несколько релизов генеративных нейросетей. Так, YandexGPT заработала в Поиске и в Алисе, а YandexART — в Шедевруме и других сервисах.

Сервисы на основе генеративных нейросетей прочно входят в нашу жизнь и осваивать этот инструмент стоит уже сейчас. В том числе и разработчикам, ведь функции генерации кода становятся всё лучше».


@techno_yandex

Читать полностью…

Борис опять

Ребята из Tinkoff Research рассказали про поездку на NeurIPS. Послушал с интересом. Единственный шанс для меня узнать каково на нипсе 🥲. Кстати не знал про историю с переименованием NIPS в NeurIPS

Читать полностью…

Борис опять

The VAE Used for Stable Diffusion Is Flawed (🔥 Score: 152+ in 3 hours)

Link: https://readhacker.news/s/5ZiSc
Comments: https://readhacker.news/c/5ZiSc

Читать полностью…

Борис опять

Вторая часть ревью (первая тут) на книгу Вацлава Смила "Как устроен мир на самом деле".

В целом, с плотностью изложения вполне можно справиться – меня же вы как-то читаете. Сложнее управиться с неявно-пессимистичными прогнозами автора – в отличие от Сан-Хранцисковых "эффективных" аккселерационистов (кто Ланда понял, в цирке не смеётся), Смил верит в логистическую кривую экономического роста. Имеет право, физику мы взламывать пока не научились. 💥

Смил постоянно повторяет, что он учёный, и прогнозы делать ему не с руки. Тем не менее, значительная часть книги посвящена сдержанному высмеиванию несбывшихся прогнозов техно-оптимистов. Наверное, такое полезно читать оголтелым венчурным капиталистам, у которых стартап по отправке картофелин по почте завтра решит проблему мирового голода. Мне кажется, стоит воспринимать пессимистичные настроения автора со здоровой долей скепсиса – всё-таки за последние годы мы стали жить лучше и веселее.

Стоит ли вообще читать книгу? Мне кажется, однозначно стоит, чтобы заземлить (зумер. потрогать траву) своё восприятие реальности. Ещё и спорить ⚔️ с людьми в интернете станет проще. Особенно эта щепотка realekonomik показана людям, работающим в далёком отрыве от настоящей экономики, то есть нам с вами 👋.

Читать полностью…
Subscribe to a channel