cryptovalerii | Cryptocurrency

Telegram-канал cryptovalerii - Время Валеры

24993

Мне платят за то, что я говорю другим людям что им делать. Автор книги https://www.manning.com/books/machine-learning-system-design https://venheads.io https://www.linkedin.com/in/venheads

Subscribe to a channel

Время Валеры

Подоспело видео с недавнего выступления о метриках

Валерий Бабушкин - Метрики: от офлайна до иерархии (видео, презентация)

Читать полностью…

Время Валеры

Каждый раз когда я говорю, какая прекрасная погода в Лондоне, местные и приезжие с Индии/Пакистана/Непала и тп очень удивляются. Они не знают, что в то время как в Москве и Подмосковье -20/-30, местные пацаны играют в футбол в +13

Читать полностью…

Время Валеры

В новый год пришла пора раскрыть главный секрет ведения телеграм канала. Подписчиков становится больше в те дни, когда я не пишу в канал и меньше в те дни, когда пишу.

Читать полностью…

Время Валеры

Вчера был на встрече рускоговорящего клуба global talent в Лондоне.

Я привык думать о себе, как о недавно переехавшем. Однако мой третий год в Лондоне оказался просто таки мега ветеранским.

Подавляющее большинство переехало в последнее время, около 6 месяцев и лишь один человек из 20, с кем я поговорил, переехал 5 лет назад, все остальные - менее года

Как будто бы что-то случилось

Читать полностью…

Время Валеры

Новый эпизод! Валерий Бабушкин,
вице-президент по Data Science в Blockchain.com, в прошлом успевший поработать в Meta, X5 RG, Alibaba и Яндексе.

В выпуске Валерий расскажет о приватности мессенджера WhatsApp, а также о работе в http://Blockchain.com

Читать полностью…

Время Валеры

На этот раз поведенческое интервью прошёл Артур Кузин, Kaggle Grandmaster, Head of Deep Learning в компании Eqvilent. В прошлом – Head of Computer Vision Platform в SberDevices.

Смотреть

Читать полностью…

Время Валеры

Валерий Бабушкин - Метрики: от офлайна до иерархии
17 декабря - митап ODS Reliable ML по AB-тестированию и Causal Inference

В 15:15 на нашем митапе выступит Валерий Бабушкин, VP, Data Science @ Blockchain.com.

Валера расскажет про онлайн, офлайн и прокси метрики, а также про иерархию метрик в АБ-тестах.

Регистрация на мероприятие тут.
Полное расписание мероприятия тут.

Читать полностью…

Время Валеры

Вышла запись подкаста запуск завтра (альтернатива на apple)

В этом эпизоде мы снова говорим о данных и о том, что с ними можно сделать. Раньше машина не всегда могла отличить коня от человека, а теперь мы доверяем ей в определении оптимальной цены в магазинах, поимке кибер-преступников и даже этических вопросах. Как индустрия прошла этот путь — разбираемся с Валерием Бабушкиным, экспертом по Data Science в компании BlockChain.

Читать полностью…

Время Валеры

Обрабатывал комментарии ревьюеров по книге.

Они попросили предоставить ссылки на дополнительные материалы по поводу consistency metrics и lipschitzness.

Я решил проверить на что способен прогресс и обратился к chatGPT.

Provide some literature references about consistency metrics and lipschitzness.

"Consistency Metrics: A New Approach to Evaluating and Comparing Machine Learning Algorithms" by Zhi-Hua Zhou and Ji-Rong Wen (2013)
"Consistency of Nearest Neighbor Classifiers" by S. V. N. Vishwanathan, N. S. Nagaraj, and C. S. R. Murthy (2006)
"Consistency of Random Forests" by Luis Enrique Trejo and Luis Alejandro Correa (2013)
"On the Lipschitz Continuity of Neural Networks" by Q. Zhang, L. Zhang, and H. Zhang (2019)
"Estimating the Lipschitz Constant for Feedforward Neural Networks" by S. G. Tucker and J. D. Maitra (2017)

Все статьи оказались фейковыми. То есть их не существует в принципе, при этом указанные авторы вроде как настоящие люди, по крайне мере те несколько, что я проверил.
После дополнения запроса просьбой предоставить ссылки на статьи, они были предоставлены и действительно вели на статьи, только на совершенно рандомные и не имеющие никакого отношения к делу.

Кажется что до смерти Гугла ещё далековато.

Читать полностью…

Время Валеры

Карпов Курсес привез меня в Москву и заставляет гладить людей по голове

Читать полностью…

Время Валеры

Потребовались уволить 11 тысяч человек в Мете, чтобы комп, который они отказались забирать год назад, когда я увольнялся, перестал работать.

Читать полностью…

Время Валеры

Вышла запись пробного behavioral интервью, проведенного между мной и техническим директором Карпов Курсес.

Читать полностью…

Время Валеры

Интересные вещи происходят в крипто мире

FTX - 3-я по размеру крипто биржа в мире (объем около 20 млрд в день) призналась в отсутствии достаточного количества активов, чтобы покрыть свои обязательства и сейчас находится в процессе поглощения Binance (крупнейшей в мире крипто биржей и одним из первых инвесторов FTX), как же это случилось?

8 дней назад, 2 ноября, на Coindesk была опубликована информация про текущий баланс компании Alameda Research. Оказалось что между Хэдж Фондом, коим является Alameda и FTX есть очень прочная связь. Кроме того, корректность информации была подтверждена СЕО Alameda Кesearch.

В чем суть? Alameda Research основана тем же челом, что и FTX. Alameda была основана раньше и являлась крайнем успешным Хэдж Фондом, который заработал много денег на арбитраже Japanese Bitcoin premium. Затем они пивотнулись в Маркет Мейкеры, как только арбитраж пропал и заработали много денег на различных стратегиях, приобрели репутаци чуваков, которые делают отличную прибыль, но так себе работают с retail client.

Изначально FTX была создана как платформа for traders by traders, где Alameda стала первым Маркет Мейкером на FTX, предоставляя обменнику ликвидность. Их отношения на этом не закончились. Alameda также получила приоритет в своих ордерах, что по факту превращает тебя в идеальную машину по зарабатыванию денег, когда в твоем распоряжении одна из крупнейших бирж.

Это уже плохо, но дальше хуже. FTX стал для Alameda не только источником данных, но и банком. Сложно устоять, если у тебя есть мега выигрышные стратегии, но не хватает денег, а тут рядом крайне прибыльная биржа, которая тоже принадлежит тебе

Опубликованный баланс Alameda показал следующее: 5.8 млрд долларов из 14.6 лежали в токенах FTT, которые принадлежат FTX, практически все остальное лежало в токенах Solana. FTT токены давали следующие преимущества: уменьшение комиссией на торговлю, вывод денег без комиссий, вип доступ и всякие другие плюшки.

1/3 Дохода FTX использовались для покупки и сжигания токенов FTT, при этом ликвидность FTT была очень низкой. То есть, если бы Alameda понадобилось продать FTT на 5.8 млрд, они бы не смогли этого сделать, так у них токенов в 2-3 раза больше, чем их циркулирует суммарно в продаже. Интересно, что и с другими их активами творится тоже самое. Самое забавное, что основатель FTX и Alameda в одном из подкастов цинично описал такую скам стратегию как способо заработка.

Также это позволяет при аудите показать что у нас все хорошо, мы работаем порознь друг от друга, это вполне себе легальные отношения кредитор-заемщик. Единственное что может сломать эту схему, это если вдруг кто то начнет продавать огромное количество FTT и его цена пойдет вниз. Именно это и сделал владелец Binance, CZ.

6 ноября CZ заявил что продаст все FTT что у него есть, а это 500+ млн долларов.

Alameda публично предложили купить FTT over the counter по цене 22 доллара. Довольно странно так делать публично, учитывая что могли бы купить и дешевле. На что CZ отказался, что тоже довольно странно, учитывая что он в итоге продаст за меньшую цену. Очевидно это было сделано, чтобы понизить стоимость активов, что и случилось

Начались продажи, уровень в 22 доллара держался какое то время, но пал в 8 вечера по Нью Йорку, 7 ноября. Утром 8 ноября FTX остановила вывод всех средств с биржи. Alameda и сообщtство вокруг FTX пытались удержать доверие, вкидываю ликвидность в вывод денег, а энергию и силы в мемы.

Опасения что FTX и Alameda повязаны привели к кризису ликвидности и предложению о покупке FTX. Однако зачем было пытаться защищать отметку в 22 доллара? Alameda были должны не только FTX, которые бы простили им все что угодно, но кроме были Voyager и Blockfi. Теперь понятно почему летом они выкупали неудачливых крипто заемщиков, им было необходимо поддержать собственные структуры и у них было достаточно ликвидности чтобы это сделать

Теперь, с дыркой в миллиарды долларов FTX вынуждены были побежать к Binance за помощью и теперь у нас есть император крипты
Больше подробностей здесь

Читать полностью…

Время Валеры

Оказывается, недавно вышло вот такое видео, как раз после конференции на Кипре

Читать полностью…

Время Валеры

Как раз планировал сегодня выложить небольшой разбор статьи про рекомендации от Тик Тока, как наткнулся на пост от директора из Гугла. Зато теперь знаю что статьи он не читает

Читать полностью…

Время Валеры

Вышла запись подкаста со мной. На мой взгляд поговорили отлично, хотя возможно цензура не пропустила многое, но на заголовок поставили кажется не самое интересное

Читать полностью…

Время Валеры

Не в первый раз заметил, что меня пытаются поправить, когда я пишу римскую цифру четыре как IIII. Однако, стоит отметить, что с давних времен четыре пишется как IIII, а IV это все либеральные нововведения. Дарю вам ссылку на печально известный VIIII Легион, который судя по всему сгинул где-то в Британии и о котором сняли кучу фильмов. Он же послужил прототипов для Потерянного Примарха 9 легиона из Warhammer 40000

Читать полностью…

Время Валеры

Недавно купил себе новую кровать и что особенно важно, первый раз в жизни - новый матрас

Выбор Матраса - вещь непростая
и зависит от кучи факторов: собственного веса, общего веса, положения во время сна (на спине, на боку, на животе), особенностей терморегуляции и тп. Кроме того - пойти в магазин и полежать на матрасе не поможет, по хорошему, чтобы понять матрас, на нем нужно поспать месяц и потом оценить. Здесь все как у людей

В итоге матрас и кровать я выбрал еще в августе, но купил в ноябре, на черную пятницу, сэкономив примерно 1500 фунтов. По итогам месяца могу сказать что покупка себя полностью оправдала. Показатели восстановления и качества сна, согласно Oura Ring (приложу в комментариях) - самые лучшие что у меня были за все три года и улучшения начались ровно в момент замены матраса (сравнил так же год к году). Так что судя по всему, trial period в год мне не пригодится - возвращаться матрас не планирую, а вот вечная гарантия - вполне себе

На очереди, если дойдут руки, попробовать накладку на матрас, которая регулирует температуру и может как охлаждать(водяное охлаждение) так и нагревать, отслеживать фазу сна и менять температуру так, чтобы подводить человека к максимальному лёгкому и полезному просыпанию, а если надо разбудить - включить вибрацию! При этом есть еще и зонирование, если одному партнеру хочется потеплее, а другому похолоднее

Читать полностью…

Время Валеры

Прочитал очередную статью от пацанов из Тик-Тока: Deep Retrieval: Learning A Retrievable Structure forLarge-Scale Recommendations

Идея следующая -> для рекомендательных систем важно уметь быстро получать относительно релевантных кандидатов, которые затем идут на reranking

Обычно делают inner-product model (например metric learning), а затем запускают поверх ANN (approximate nearest neighbour). В статье же хотят показать как можно делать retrieval напрямую через интеракции товар-пользователь, без предположений о Евклидности пространства и близости сущностей в нем (что на мой взгляд не так чтобы и проблема, учитывая что в metric learning мы специально обучаем именно такую репрезентацию).

Обучают модель в D слоев, каждый слой это MLP + softmax поверх K Нод (лейбл - кластер товара по которому был клик/покупка), выдает вероятность принадлежности к одному из К кластеров (обсудим их дальше). На вход D1 подается эмбединг пользователя, на выходе получаем распределение вероятностей K1. На вход в D2 подается конкатенация эмбединга пользователя и K1, получаем распределение вероятностей K2. На вход в D3 подается конкатенация эмбединга пользователя, K1 и K2, получаем распределение вероятностей K3 и тп.

Следовательно пользователь имеет потенциально K^D разных путей. Например если у нас 30 кластеров, 3 слоя, модель может выдать для пользователя Х следующий путь 1-10-15, означающий кластер 1 среди первых 30, кластер 10 среди следующих 30 и кластер 15 среди следующих 30. Так как мы имеем распределение - можем пойти глубже и взять например топ-3 с каждого слоя, получая таким образом n^D (27 в нашем случае) различных путей вместо изначального 1-го. Так как мы учим на связки интеракций пользователь-товар, то мы можем получить пути как для пользователя, так и для товара.

Возникает вопрос, как же товар может принадлежать к разным кластерам?
For example, an item related to kebab could belong to a “food” cluster. An item related to flowers could belong to a “gift” cluster. However, an item related to chocolate or cakes could belong to both clusters in order to be recommended to users interested in either food or gifts.

Это кстати указывается как одно из преимуществ над tree-based deep models, которые так не умеют

Резонный вопрос, а как определить начальные кластеры? Хорошо, у нас есть эмбединги пользователей, интеракции пользователей с товарами, но откуда взять лейблы для K? Раскидаем случайно и включим EM машину. Первая итерация, раскидали - обучили модель, затем переобучаем мапинг товара в кластер, чтобы он максимизировал выдачу модели

Как это применяется во время Инференса?
1. Подаем эмбединг пользователя -> получаем N путей ( жадный алгоритм выдает 1 путь)
2. Собираем все товары, находящиеся в этих путях
3. Прогоняем их через промежуточный реранкер

Есть несколько дополнительных моментов
I. Несмотря на то, что DR (Deep Retrieval) выдает сабсет товаров, их все еще много, поэтому попутно с ним учится еще реранкер, чтобы затем выдавать топ (это все еще не финальный реранкер!)
II. Мапинг в кластера - дискретный, поэтому градиентными методами его не обновить (отсюда и EM)
III. Добавляют штраф за попадание еще одного айтема ( прохождение того же пути) в путь, иначе есть риск что все айтемы упадут в один путь, использовали штраф в виде c^4/4 где c - количество айтемов попаших в путь
IIII. Обновляли модель от входящего потока данных - это повлияло на некоторые вещи, например M шаг в EM. Также использовали экспоненциальное затухание с коэффициентом 0.999

Метрики
Конечно по всем показывают что они лучше, что в офлайне, что в онлайне но, почему то везде низкий recall. Например Recall@200 около 13% - что вызывает вопросы, Sota Recall@200 - 28%
Результаты АБ теста показали как point estimate - что странно, на офлайн показывали ДИ

В целом попробовать можно. Хотелось бы увидеть более подробный abblation study и тесты
Удивляет сравнение на датасете movie lens и amazon books, а затем один А/Б тест в Тиктоке без доверительных интервалов (в офлайне были!) и отсутствие понимания с чем сравнивали
#ArticleReview

Читать полностью…

Время Валеры

Выступал недавно перед ребятам
Даже не знал что будут выкладывать
Можно посмотреть здесь

Понравился комментарий
Интесно что здесь практически нечего не сказано конкретно про МЛ, но это лучшее выступление Бабушкина что мне попадалось. Поменяло мое отношение сильно. Спасибо.

Читать полностью…

Время Валеры

Прочитал довольно большую статью на medium о том что prophet работает почти всегда хуже Arima и часто даже хуже, чем просто экспоненциально сглаживание в задаче предсказания временных рядов

Особо откомментировать нечего - одна за другой приведены истории брюзжания и даже есть предложения как это пофиксить, кроме момента что кажется там где данных становится побольше - prophet работает весьма неплохо

Из интересного:

1. I guess nobody gets to be a famous Prophet by making mundane safe predictions, but at minimum, one should be aware of some Prophet mechanics. For instance, the last 20% of data points are not used to estimate the trend component. Did you know that? Did you expect that? I didn’t. Let it sink in.

2. A paper considering Prophet by Jung, Kim, Kwak and Park comes with the title A Worrying Analysis of Probabilistic Time-series Models for Sales Forecasting (pdf). As the spoiler suggests, things aren’t looking rosy. The authors list Facebook’s Prophet as the worst performing of all algorithms tested. Oh boy.

Ah, you object, but under what metric? Maybe the scoring rule used was unfair and not well suited to sales of Facebook portals? That may be, but according to those authors Prophet was the worst uniformly across all metrics — last in every race. Those criteria included RMSE and MAPE as you would expect, but also mean normalized quantile loss where (one might have hoped) the Bayesian approach could yield better distributional prediction than alternatives. The author’s explanation is, I think, worth reproducing in full.

3. Yes you can imagine my disappointment when, out-of-the-box, Prophet was beaten soundly by a “take the last value” forecast but probably that was a tad unlucky (even if it did send me scurrying to google, to see if anyone else had a similar experience).

Хотя мой опыт использования prophet в целом скорее схож - если хорошо настроить (S)ARIMA - то она будет как минимум не хуже, стало интересно узнать как было у других, пишите в коментах, с интересом прочитаю

Читать полностью…

Время Валеры

Пролистывал канал kaggle crackers в чатике ODS в слаке

Наткнулся на сообщение Вадима, которому недавно исполнилось 17 лет, где он описывает свои достижения. Оно произвело на меня впечателние и я решил его привести ниже

К сожалению, для меня, а также для всех украинцев, этот год был самый тяжелый за всю жизнь, но это не означает, что нужно сложить руки и ничего не делать.

В общем, у меня не такие крутые достижения нежели у других людей, которые писали выше, но почему бы и не написать?

Первое достижение этого года стало - Kaggle Discussion Grandmaster. Это конечно достаточно бесполезное достижение, но тем не менее, это достаточно хорошо развивает социальные сети и позволяет получать дополнительные плюшки о которых речь пойдет дальше. После пары месяцев болтовни я вошел в топ 10 в мировом рейтинге.

Думаю все знакомы с библиотекой Weights & Biases, так вот, благодаря, то что я где-то на форуме kaggle (уже был Discussion Grandmaster) предложил как лучше использовать возможности Weights & Biases они мне написали и предложили стать их Амбассадором, что очень сильно удивило (и да, условия у них были просто космические). Параллельно с тем, что мы обсуждали контракт они решили отправить мерч (футболку) с их логотипом. В итоге со мной не захотели подписывать контракт из-за того, что я несоверешенолетний (мне 17), потому что это запрещено юридически. Быть ребенком - иногда очень не выгодно.

Во время летних каникул, я набирался опыта участием на Kaggle соревнованиях, в итоге 2е бронзовые медали и 2е серебренные медали (в одной вылетели из золотой медали). К огромному сожалению, в последнем соревновании не получилось усердно принимать участие, так как в Украине был blackout, и у нас не было электричества и воды на протяжение нескольких дней. Однако, мы с командой выиграли мерч от Kaggle (футболка)

Также стал Kaggle Notebooks Master
. Сейчас в арсенале имеются 2 золотые медали (в одном ноутбуке >450 лайков) и 14 серебряных.
В заключение, хочу сказать, что этот год, для меня прошел очень странно, было мало радостных моментов (обучения почти не было, гребанные бомбежки и т.п), хотя достижения достаточно неплохие. Цель на следующий год: стать Kaggle Competitions Master.

Всем удачи! Мирного неба над головой!

Если вы хотите связаться с Вадимом и предложить ему работу/поддержку, а кажется что мотивации и навыков у него с лихвой - вот его профиль на LinkedIn и почта vadimirtlach@gmail.com

Читать полностью…

Время Валеры

В понедельник вечером общался с еще одним преподавателем-логопедом (английский язык), по имени Кейт Мидлтон. Она мне понравилась и я решил с ней заниматься по серьезному.

На мой вопрос: Какое количество занятий в неделю ты считаешь оптимальным? она ответила, что большинство людей с ней занимаются один раз в неделю.
Пришлось повторить вопрос, какое количество занятий в неделю ты считаешь оптимальным.
Со второй попытки пошло лучше - ва-три раза, но это может быть тяжело, выдержу ли я?

Это вызвало у меня некое удивление, так как урок с кейт был четвертым уроком за день из двенадцати на неделю. Логопед, школа актерского мастерства и постановки акцента, логопед-преподаватель и, наконец Кейт. Пришлось ее успокоить что два занятия в неделю я как-нибудь да выдержу

Таким образом на текущий момент у меня есть: логопед, преподаватель английского, два преподователя-логопеда и два человека с курсов актерского мастерства, которые работают со мной над акцентом. Думаю что к январю уменьшу количество преподавателей до двух-трех, а количество часов до шести-десяти.

Буду надеяться что к следующей осени результаты будт на лицо и на ухо, да и время на канал, с учетом графика в январе, будет оставаться

Читать полностью…

Время Валеры

Ходил в американское посольство, за визой.
Встреча была назначена в 10-30, поэтому я пришел к десяти
Из-за этого 70 минут пришлось стоять в очереди на контроль, благо в конце ноябре в Лондоне достаточно тепло для этого.

Проверяют документы, сумки и всё прочее, примерно как в аэропорту, люди с автоматами и в бронежилетах.

Запустили в здание посольства.
Дальше уже не стоишь, но сидишь в очереди, удобно.
В этой очереди просидел ещё час.

Вызвали к окошку, посмотрели документы, отсканировали id, отправили в другую очередь, ждать интервью.

Там уже совсем хорошо, удобные кресла.
Сижу - жду, в трёх метрах от меня проходит интервью. Молодой чел, судя по внешности и акценту из Индии, рассказывает историю своей жизни.

Где учился, кто за него платит, кто родители, зачем едет в США, кто его там ждёт, зачем ждёт и так примерно 15 минут.

В конце ему отказывают и он ещё минуты три расстраивается. Возможно отказали из за того, что он никогда в жизни не работал. Офицер за стойкой ему сочувствует, но в конце отправляет его куда подальше, ведь пришла моя очередь.

Зачем едешь, кем работаешь, как давно. Три вопроса, тридцать секунд и мне одобрена виза.

Вот что значит, уважают биткойн

Еду я, понятное дело, на конференцию по новым компьютерным технологиям и защите компьютерных программ.
#CoolStory

Читать полностью…

Время Валеры

Кто-то забирает, а кто-то дает. Король и его правительство выделили мне субсидию в 500 фунтов на оплату счетов за электричество. Что при моих затратах на 4-х комнатную квартиру, хватит примерно на 7 месяцев.

Впрочем, за прошлую зиму я не включал отопление. На текущий момент, в середине ноябре, мысли скорее о включении кондиционера на ночь, чем отопления. Так что возможно все повторится вновь

Читать полностью…

Время Валеры

В этом твиттер треде Dan Luu рассказывает про мудрых руководителей Майкрософта, которые доносили всегда ровно одно сообщение до своих сотрудников. Даже если им была нужна скорость и надежность, они сначала давили на скорость, затем спустя некоторое время давили на надежность. Если просить сразу и то и то, ничего не будет сделано. Отсутствие надежности будут объяснять необходимостью делать быстро, а медленную разработку - необходимостью надежности.

Meanwhile, the only message VPs communicated was the need for high velocity. When I asked why there was no communication about the thing considered the highest risk to the business, the answer was if they sent out a mixed message that included reliability, nothing would get done.

Затем он делает вывод, с которым я согласен полностью и который в очередной раз подтвердился на прошлой неделе - большинство комментаторов в интернете не способны понять конструкцию включающую И. Если в конструкции присутствует XOR (исключающее ИЛИ) - дело 100% гиблое

As noted previously, most internet commenters can't follow constructions as simple as an AND, and I don't want to be in the business of trying to convey what I'd like to convey to people who won't bother to understand an AND since I'd rather convey nuance

На прошлой неделе я выложил очень простое объявление:

We are hiring Data Engineers, Data Scientists and Machine Learning Engineers in the UK, EU, US, and Argentina. Please write to me.

Unfortunately, we do not provide any visa support at the moment.
You can work remotely, but the we can employ people only from country where we have an entity

За 12 часов написало примерно человек 300. Подавляющее большинство из них, безусловно, никакого права на работу не имеет.
- Право на работу есть?
- Нет, но ведь написано Remote
- Работать можно Remote, но ведь куда-то тебя надо нанять. Нанимать мы можем только там, где у нас есть Юр Лицо, список я приложил
- Понял, спасибо.

Кто то после этого еще писал, но у меня есть шенген, или что то подобное

Еще одна категория людей спрашивала есть ли visa support - и если мы наймем человека, это ведь достаточно чтобы получить визу?
Существенная часть людей писала по тем вакансиям, которых не было в посте, например - Data Analyst

Или
- Hi XXX, is it correct to assume that you have a right to work in US/UK/EU?
- No I need visa sponsorship.

С другой стороны, это отличное тестовое задание, не смог прочитать и понять пять строчек - не прошел.
А если смог написать сообщение из разряда: Я Петян, имею право на работу в месте из списка, вот мое резюме - то ты уже прошел первый этап, который отсеял 99% кандидатов

Читать полностью…

Время Валеры

Вышла небольшая статья-интервью по результатам общения

Читать полностью…

Время Валеры

Ходят слухи что у тик тока хорошие рекомендации контента.

Прочитал статью от пацанов из tik-tok Monolith: Real Time Recommendation System WithCollisionless Embedding Table. Как мы знаем, прочитать статью - задача посильная не каждому директору

Решают две проблемы: Первая - разреженность признаков, то есть огромное число комбинацией(интеракции пользователи/видео) и соотвественно относительная редкость появления каждой конкретной комбинации.Вторая - динамичность среды, быстрая смена интересов, трендов и паттернов

Первая проблема часто приводит к коллизиями, так как комбинации путем хитрых манипуляций представляется в виде эмбедингов, а эмбединги хранятся в таблице конечного размера, соответсвенно будут коллизии и не все комбинации получат уникальные эмбединги. Следовательно надо создать collisionless hash table, которая поддерживала бы удаление неактуальных фичей.

Для того чтобы избежать коллизий используется Сuckoo Hashmap - сложность O(1) для просмотров/удалений и средняя амортизация до O(1) на вставку. Для того чтобы снизить размер таблицы - исключают редко встречаемые сущности, кроме того очищают от устаревших сущностей (что такое часто и что такое старый - настраиваемые параметры)

Обучение модели идет в две стадии.
1. Batch - всего 1 проход!
2. Online - ловят на лету, обновляют модель, обновленную модель переодически пушат в лайв

Вот пожалуй и все. Из интересного следующие тонкости:

Online Joiner - признаки и конечный результат действий - несихнронны. Пользователь может купить товар через несколько дней после его показа. Если фичи держать в памяти и ждать результата, никакого железа не хватит, поэтому большую часть грузим на диск, что то держим в памяти, когда приходит результат - смотрим и в диск и в память, затем джойним.

Negative Sampling - очень большой дисбаланс классов приводит к тому что нет смысла брать все негативные семплы. Но если брать не все - пойдет смещение в модели, чтобы это избежать, используют поправку из Nonuniform Negative Sampling and Log Odds Correction with Rare Events Data (хотя можно и проще калибровать, так мне кажется)

Модель тяжелая, весит террабайты, перекидывать всю модель после пары онлайн обновлений - довольно непрактично. К счастью, как мы помним, очень много разреженных признаков, соответсвенно обновлять нужно в каждый отдельный момент времени лишь небольшие их количество, а не всю модель. Те признаки, которые разреженными не являются - часто обновлять не надо, там дрифт происходит медленно

Результаты

Хэши проверяли
офлайн, хэш без коллизий победил везде
Data sparsity caused by collisionless embedding table will
not lead to model overfitting
Обновление модели
раз в час лучше, чем раз в 5 часов и даже чуть лучше, чем раз в 30 минут (правда не стат значимо) и всегда лучше чем без обновления, на горизонте в 50 часов
Онлайн обновление побило Batch training на 14-18% AUC в аб тесте (странная метрика для аб)

Хорошая инженерная статья и видимо именно поэтому рекомендаци Тик Тока хороши, не поленились и сделали онлайн обновления

Обучали DeepFM - DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

P.S. лично для меня пару Фейсбук - Инстаграм побить тяжело. Но не по контенту, а по рекламе, сложно оценить сколько классных вещей я купил, увидев рекламу на этих площадках

Читать полностью…

Время Валеры

Исправился. Заменил any на only, может и статью прочитал?

Читать полностью…

Время Валеры

Я люблю читать и слушать различные вещи, связанные с историей.

Регулярно делаю это на ночь, потому что первые 30-60 минут все равно не могу заснуть

На русском языке мне больше всего понравились подкасты от Bushwacker

В какой-то момент я заметил, что слушаю их по десятому разу. Прослушал я не только его: Родину Слонов, Все Так на Эхо Москвы, Час Истории и т.д., поэтому решил посмотреть, может есть что-то интересное на английском языке.

Сказать что там оказалось гораздо больше материала, это ничего не сказать. Количество, детализированность и разнообразие - несравнимы.

После краткой разведки, выбор пал на Дэна Карлина и его Hardcore History Series. Вообще его подкаст платный, но всегда есть 5-7 бесплатных выпусков. Сейчас слушаю 13-часовой (3 эпизода) экскурс в персидскую империю, затем будет 25 часов (6 эпизодов) про Японию в 37-45 годах.

Затем попробую British History Podcast, 400 эпизодов по 30-60 минут. Начинают с того, что было 70 000 лет назад и уже подбираются ко временам нормандского завоевания. Про них пока ничего не знаю, а Дэна Карлина советую

Читать полностью…
Subscribe to a channel