cryptovalerii | Cryptocurrency

Telegram-канал cryptovalerii - Время Валеры

25262

Мне платят за то, что я говорю другим людям что им делать. Автор книги https://www.manning.com/books/machine-learning-system-design https://venheads.io https://www.linkedin.com/in/venheads

Subscribe to a channel

Время Валеры

Оказывается, первый раз мы обсуждали deepseek (мимолетно) с Игорем (кто-бы мог подумать) еще в декабре 2023 года

Читать полностью…

Время Валеры

Небольшая заметка от Рони Кохави - P-values and Bayes Factors in A/B Testing: Frequentist or Bayesian A/B

Многие критикуют A/B тесты за то, что им непонятно, что такое P-value, и вместо этого хочется видеть какую-то вероятность успеха.
Отсюда люди начинают прибегать ко всякому: гаданию, Таро, баесовским приорам.

Рони говорит: всё здорово, но почему бы просто не использовать False Positive Risk?

In this document, I show that mapping from p-values to minimum and calibrated Bayes Factors, which can then be mapped to probabilities, seem to give values close to the FPR (False Positive Risk), or the probability that a statistically significant result is a false positive. This is an important empirical confirmation that I have not seen before.


Классическая история: если у вас 15% A/B тестов действительно успешны, вероятность ошибки первого рода составляет 5%, а второго рода — 20%, то какой у вас False Positive Rate? А False Positive Rate в нужную сторону? Все это довольно легко посчитать, безо всяких чудес.

А вот баесовские методы, требующие различных приоров и онлайн-калькуляторы, предлагающие их, почему-то либо не дают дополнительной информации, либо завышают положительную вероятность.
If all we are doing is providing a different mapping from four parameters (sample size of control, sample size of treatment, successes in control, successes in treatment) to probabilities using non-informative priors, then I find the Bayesian exercise losing much of the promise. Worse, the online Bayesian A/B calculators not only require fewer parameters than FPR does, but the “Chance to beat Control” seems highly exaggerated.

Рекомендую просматривать заметку каждый раз, когда рука будет тянуться к Баесу

Читать полностью…

Время Валеры

Пообщались с Викой Бородиной — родилась идея Мета Курса

Говорили о том, как строить карьеру (и почему это может быть скамом), оставаться в профессии и продолжать любить свою работу. А в процессе придумали концепт: какие навыки прокачивать, чтобы стать частью самых востребованных специалистов и топ 5% перформеров компании.

Приходите в комментарии и пишите, имеет ли смысл делать такой курс. Если интерес есть — превратим эту идею в реальность и покажем(попробуем), как вывести свою карьеру на уровень мечты.

Читать полностью…

Время Валеры

В продолжение этого поста /channel/cryptovalerii/735

Сравнение двух рекламных систем

Telegram - 1 доллар на 1000 просмотров - 16000 просмотров - 22 клика - 72 цента за клик

Facebook - 5.1 доллара на 1000 просмотров - 30550 просмотров - 1393 клика - 10 центов за клик

Выводы делайте сами

Читать полностью…

Время Валеры

Решил протестировать рекламную систему телеграма, нада же куда-то тратить звезды. Обнаружил, что реклама канала показывется подписчикам канала. Понял, что системе телеграма предстоит еще долгий путь и говорить о какой-то серьезной рекламной выручке кажется еще рано. Тем более, что ревью рекламы заняло три дня и кажется было ручным.

Для сравнения, у Меты/ФБ процесс занимает несколько минут в автоматическим режиме, со сбором всех статистик и возможностью детальной настройки.

Читать полностью…

Время Валеры

А вот и видео со стримом, получилсь скорее от Канта до Хайдеггера, чем от завода до магазина

Читать полностью…

Время Валеры

В AI департамент X5 Group ищут СТО, который сможет возглавить разработку ключевых ML based продуктов компании. Это роль для человека, который решал сложные задачи, понимает, как работают крупные платформы, и хочет создавать действительно масштабные продукты, которые влияют на миллионы пользователей.

Основные задачи:
• Определение технологической стратегии и ее интеграция в бизнес-процессы компании.
• Развитие платформенных решений для высоконагруженных систем.
• Руководство командами разработчиков, обеспечение их эффективности и взаимодействия со смежными командами.
• Построение систем рекомендаций, аналитических платформ и масштабируемых ML/AI решений.

Идеальный кандидат:
• Опыт работы в роли СТО платформенных решений, знание процессов управления продуктами.
• Умение работать с высоконагруженными системами, масштабировать их под большие объемы данных и пользователей.
Технический стек: Kubernetes, Kafka, RabbitMQ, PyTorch/TensorFlow, SQL/NoSQL базы данных.
• Успешный опыт внедрения и эксплуатации AI/ML решений в продакшн.
• Навыки работы с data-driven подходом, agile-методологиями и DevOps инструментами.

Компенсация соответствует задачам, деньги - есть.

Резюме можно отправлять Алине Alina.Zudina@x5.ru, вопросы в личку.

Читать полностью…

Время Валеры

Начал читать книгу Стиглица - Road to freedom, которую мне подарили после его визита в Лондон.

Стиглиц оказался леваком, какое разочарование.

Впрочем, кто знает, может как дочитаю, леваком окажусь уже я.

Читать полностью…

Время Валеры

Решил закупить умных книжек и просветиться

Читать полностью…

Время Валеры

Жаль что ChatGPT не может справиться с простым вопросом по AWS и выдает абсолютно разные ответы, при использовании двух флагманских моделей

Читать полностью…

Время Валеры

Вышел подкаст со мной, который записали в понедельник

Читать полностью…

Время Валеры

На Хабре вышла статья, в которой упомянули мое имя - мимо такого я пройти не смог. Статья неплохая, однако я вижу минимум три важных момента, которые надо учитывать:

1. Статистика и распределения
Мы легко можем адаптировать t-статистику или любую другую метрику под наше распределение. Это значит, что p-value всё равно будет равномерным для широкого класса данных, просто статистики будут другими. Например, в статье была выбрана "магазино-дневная" грануляция, что позволило получить равномерное распределение p-value. Это логичный выбор, но могли бы выбрать любую другую (например, "магазино-час" или "магазино-секунда"). Для таких случаев рекомендую ознакомиться с этой статьёй от Х5. Выбрали грануляцию, обеспечивающую равномерное распределение p-value и наилучшее соотношение роста данных и дисперсии. Кроме того, можно посмотреть сюда - Dealing With Ratio Metrics in A/B Testing at the Presence of Intra-User Correlation and Segments.
2. Зачем нужен CUPED?
CUPED помогает нормировать данные и устранять зависимости. Если в данных есть корреляции, то с помощью CUPED и ML-моделей можно минимизировать этот эффект и сгладить дисперсии.
3. A/A-тесты — основа основ
В статье справедливо упомянуто, что перед запуском всегда проводился дизайн теста и проверка на A/A. Это базовый шаг, без которого нельзя судить об адекватности методологии. Мы делаем то же самое с первых итераций наших A/B тестов, чтобы быть уверенными в корректности инструментов.

Выводы:
Статья адекватная, но видно, что это не работа гранда: где-то упрощения, где-то ошибки
Важен не факт наличия зависимости в данных, а то, насколько хорошо мы контролируем распределение p-value
Нужен модуль валидации для получения распределений А/А и синтетических А/Б

Читать полностью…

Время Валеры

Хочу открыть миру репозиторий по ML System Design

Идея — создать open-source репозиторий, в котором размещены инструкции по созданию корректных дизайн-документов для ML-систем. В репозитории также представлены примеры реальных и мок дизайнов. Каждый желающий может поревьюить документы других, опубликовать свои, а также оценить уже существующие документы.

На данный момент доступно два документа в качестве примеров, краткое описание требований к каждому разделу дизайн-документа, а также шесть дизайнов, находящихся на стадии ревью через пулл-реквесты.

Приветствуются участие в виде звёздочек, а также вклад в создание контента или проведение ревью

Читать полностью…

Время Валеры

Живу в гостинице в КЛ.

К сожалению, охлаждающей мега-простыни подо мной нет, поэтому приходится ставить кондиционер на максимум и спать под обычной простынкой. Впрочем, я всегда сплю под простынкой.

Очевидно, чтобы спать под простыней, нужно ее иметь. Поэтому каждый вечер я звоню и прошу принести мне extra bedsheet.

Сегодня запросил в очередной раз, возникла неожиданная пауза, поставили на удержание, потом сказали: да, конечно, сейчас принесем.

Через десять минут звонят в дверь и приносят: халат, тапочки, зубную щетку и просят зайти на пять минут, чтобы установить экстра кровать с матрасом, которую они с собой привезли.

Простынку я так и не получил.

Читать полностью…

Время Валеры

Нашел зал по ММА в Куала-Лумпуре.

Зал довольно неплохой, его сделали выступающие в ONE FC бойцы. Например, тренер по борьбе — парень из Ирана, а по джиу-джитсу выписывают специалистов из Бразилии.

Сегодня моим тренером был бразилец, который всего 15 дней как переехал в КЛ. После спарринга спрашиваю: как думаешь, какой у меня пояс? Он говорит: белый? Правда, по-английски он почти не понимает, не знает, как будет «пятнадцать», и часто отвечает «Si».

Поэтому я сказал «Si», и он с уважением пожал мне руку.

Читать полностью…

Время Валеры

Немного удивляют комментарии вокруг DeepSeek, особенно относительно заявленной эффективности тренировки.

Как будто люди забыли, что GPT-2 сейчас можно обучить уже на ноутбуке, в то время как изначально требовался кластер GPU.

В целом в машинном обучении всегда так: сначала нужно много вычислительных ресурсов, чтобы найти правильный путь, а повторить его затем значительно проще.

На сколько инференс чат гпт подешевел за год? А за два ?

Не говоря уже про многое другое, что, конечно, не отменяет того, что китайцы - крутые пацаны

Статья в тему - The Rise of DeepSeek: What the Headlines Miss

Читать полностью…

Время Валеры

Перезапустил рекламу (/channel/cryptovalerii/737), чтобы сравнивать яблоки с яблоками

Рекламирую свой канал - текст одинаковый (практически, в ФБ добавлена пара слов, так как в ТГ уперся в лимит)

Реклама ТГ канала в ТГ - 20 000 просмотров, 29 кликов, 2 юзера добавились в канал, потрачено 20 долларов

Реклама ТГ канала в Мете - 134 790 просмотров, 1674 клика, ~ 200 юзеров добавились в канал, потрачено 29.64 доллара

Читать полностью…

Время Валеры

В течение длительного времени читал разные статьи, и кажется, что токенизация в моделях — это то, где сейчас большая проблема.

Это все как-то напоминает bag of words до изобретения word2vec.

С интересом смотрю в сторону работ, которые напрямую экспериментируют с байтами и их латентным представлением.

Особенно забавно и одновременно элегантно будет, если это окажется наложено поверх тритовой/байтовой логики весов.

Ссылка для ознакомления

Читать полностью…

Время Валеры

Продолжаю читать Стиглица, Road to Freedom.

Приводит пример, что в финансовый кризис 2008 года, государство всех спасло за счет налогоплательщиков, то есть получается капиталисты говорят, что прибыль наша, а расходы общие. Сегодня случайно нактнулся в видео на следующую информацию, оказывается bailout package принес 100+ млрд прибыли государству.

В том числе помогло снижение налогов, для привлечения инвестиций. Все больше и больше разочаровываюсь в Стиглице

Читать полностью…

Время Валеры

Вопрос для собеседования в связи с последними событиями

Ваш портфель из инвестиций включает 5% вложений в различную крипту

В связи с ростом крипты, ее доля в долларовом эквиваленте портфеля теперь составляет 50%

Ваши действия:
Ребалансировать портфель, продавая крипту
Ребалансировать портфель, докупая со временем все остальное
Продолжать аллоцирровать деньги в прежней пропорции

Читать полностью…

Время Валеры

В субботу, в 17 по Лондону, проведем стрим с Андрюсом Румшей, магистрантом Трирского университета (Германия) по направлению Natural Language Processing. Человеком максимально готовым к AGI, ведь раньше он работал на заводе, а затем перешел в DA&AI департамент Lidl International. В свободное от работы время увлекается спортом, музыкой, философией и поэзией. Обсудим его путь от завода, до магазина продуктов

Читать полностью…

Время Валеры

Хорошая статья из Financial Times - Britain should stop pretending it wants more economic growth

На словах, вы конечно хотите роста, но не так, чтобы кому-то стало некомфортно


This week, Sir Keir Starmer set out a plan to exploit artificial intelligence to enrich the UK. The moment it was clear that he wasn’t serious was when he said he would make AI “work for everyone”. Almost no government reform that is worth a damn works for everyone. His line all but concedes that, once AI upsets an interest group, he is liable to cave.

If AI is half as transformative as the hype suggests, it implies public sector job losses: in the diagnostic phase of healthcare, for example. Unions want economic growth. But not that much. AI also has colossal energy needs. Even with existing levels of electricity usage, the government’s target to decarbonise the grid by 2030 is at the outer bounds of achievability. To accommodate the new demand from data centres, those targets might have to slip. Sensible environmentalists want growth. But not that much.

И что всякие стратегии роста это хорошо, но главное, это твой фокус, что ты выбираешь в каждый момент времени

Let me come at the point from another angle. What was America’s growth strategy this past couple of decades? Under which administration was it published? Can someone send me a link? Whenever I put these questions to “strategy” mongers, the best answer I get is some vague bluffing about the role of Darpa. In the end, the most successful of all economies didn’t have a plan. What it had, besides shale and other advantages, was an extremely strong growth preference. When growth bumped up against another imperative — tax cuts against income equality, corporate expansion against antitrust concerns, fracking against local sensitivities — the American bias was for growth, at least compared with the western European average. A culture that doesn’t expect so much as statutory paid leave can make dynamic choices that Britain can’t, or won’t.


Напомнило интервью с Rory Stewart - Rory Stewart: “We’re Living in a World of Fairy Tales”

Тоже рекомендую, в целом мы часто врем сами себе, что хотим чего-то, но чаще мы хотим чего-то не в ущерб другому.

Читать полностью…

Время Валеры

Интересная заметка Attention Is Off By One от Легендарного Evan Miller, хотя и довольно старая ( Июль 2023 года)

Если кратко, Эван говорит следующее:
1. Хочется, чтобы веса моделей были меньше, тогда их можно использовать в большем количестве приложений, мест и т.д.
2. Для этого применяются различные методы, такие как квантование и другие хитрости.
3. Этому мешают веса-аутлайеры, которые на несколько порядков больше остальных весов.
4. Избавиться от них не удаётся, так как они оказываются критически важными для производительности, что противоречит нашим ожиданиям.
5. На тот момент, лучший анализ был сделан в статье Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing от Qualcomm AI Research, где во всем обвинили softmax и предложили clipped Softmax
6. Эван отметил, что причина была определена, вероятно, правильно, а вот предложенное решение кажется странным (с чем трудно не согласиться).

The researchers came this close to finding the off-by-one error, like killer-in-the-closet close, but they must all be on summer vacation in Italy as none of them are responding to my email overtures, and so I must appeal to the international community of scholars the old-fashioned way.

If you read the linked paper, just ignore their proposals. Sounds harsh, but hear me out. The clipped softmax comes with a wheel-spinning zero gradient, and their gated attention proposal, while workable, introduces millions of new parameters to solve what is really just a failure to increment. There’s a simple and hindsight-obvious solution here that, from all of my reading, no one has thought to try.

7. Проблема в том, что Softmax всегда выдаёт значения, которые суммируются в единицу, и никогда не "отказывается" от выбора. В этот момент я подумал, что можно просто добавить вспомогательный вектор из нулей, чтобы, если Softmax захочет "уйти в несознанку", он мог бы выбрать этот вектор.
Here’s the core mechanic of softmax: it forces a choice among competing alternatives, whether it’s particles picking an energy state or consumers choosing a car. That is, if a softmax mechanism doesn’t want to choose anything at all, softmax will require modification, or else we would expect the softmax to produce distortions once it encounters actual data.
8. Эван предложил, другое, более элегантное решение, но я не уверен что оно всегда будет работать. Добавить +1 в знаменатель
Bit of a let-down, eh? All I did was added one to the denominator. This lets the vector as a whole tend to zero if it wants, but otherwise just shrinks the values by a small amount, a shrinkage which will be made up for during normalization, which happens right after attention.


В конце он сказал, что собирается экспериментировать и ищет соавторов (я уже собирался написать Игорю, пока не посмотрел на дату статьи). Результаты его работы мне быстро найти не удалось (я использовал Deep Research от Google), но уже в ноябре он стал сотрудником Anthropic.

Читать полностью…

Время Валеры

Жду когда Linkedin откроет параллельный бизнес по шантажу. Мы не сдадим твоему работодателю, как ты начинаешь рабочий день, если купишь премиум подписку!

Читать полностью…

Время Валеры

Ну как вы там прожили год? Нормально, сойдет? Есть план, которого придерживаетесь, чтобы все в жизни было на своих местах.

И для ответа Да, и для ответа Нет — мы записали универсально подходящий выпуск.

Если вы на пути к оптимизации всего в своей жизни, пожалуйста, вдохновляйтесь об нашего гостя. Валера Бабушкин, большая айтишная шишка в Бритиш Петролеум, прямиком из Лондона, блистает эрудицией, рассказывает умные вещи про трейдинг, большие миллиардные деньги, большую аналитику и большие корпорации.

Если у вас все разваливается — мы вам расскажем, почему вся эта оптимизация жизни и приведение всего подряд в лучшую форму — это чушь собачья, которая убивает фан и эстетику.

В общем, заходите смотрите, последний выпуск в году, хороший душевный и толковый
Youtube | VK-видео | Rutube | Аудиоверсия

Читать полностью…

Время Валеры

Сегодня прочитал статью, описывающую архетипы принципал инженеров. Является хорошим дополнени к архетипам стафф инженеров (см /channel/cryptovalerii/120)

Если кратко, то вот роли принципал инженеров, но в целом - рекомендую прочитать оригинал.

Sponsor:
Является лидером проекта или программы, охватывающей несколько команд.
Обеспечивает принятие решений, устраняет препятствия и продвигает проект.
Фокусируется на определении продукта, организационном выравнивании и delivery проекта.
Требует значительных временных затрат, обычно ограничивая участие до 1-2 проектов одновременно.

Guide:
Эксперт в своей области, глубоко вовлечённый в архитектуру и проектирование.
Производит примеры артефактов (например, проектные документы, код) и работает через других.
Основное внимание уделяется техническому направлению проекта, а не общему delivery.
Обычно ограничен участием в 1-2 проектах из-за большой временной нагрузки.

Catalyst:
Инициирует и продвигает новые идеи или проекты, часто амбициозные или сложные.
Разрабатывает концепции, добивается согласования и организует команды для выполнения.
Это временная роль, которая заканчивается, как только проект запускается.
Ключевая роль для амбициозных проектов, требующих импульса.

Tie-Breaker:
Разрешает затруднения в принятии решений, делая чёткие и обоснованные выборы.
Включает в себя погружение в детали, понимание различных позиций и донесение логики принятия решения.
Роль временная, используемая только для критических решений, чтобы избежать блоков.

Catcher:
Возвращает проекты на правильнве рельсы в условиях жёстких сроков.
Анализирует проблемы, приоритизирует задачи и разрабатывает реалистчные планы восстановления.
Обучает лидерству в сложных ситуациях, но не должен быть использован слишком часто.
Лучше распределить эту роль между большим количеством инженеров, чтобы избежать перегрузки.

Participant:
Участвует в проекте без явных лидерских ролей, активно или пассивно.
Активное участие (например, обсуждения дизайна, задачи по коду) приветствуется.
Следует избегать чрезмерного участия в роли Participant, чтобы сосредоточиться на других ролях.

Читать полностью…

Время Валеры

Интересные времена, оказывается разбивать данные на партиции в момент их заливки уже немодно, согласно Progressive Partitioning for Parallelized Query Execution in Google’s Napa

Внедрили динамическое партицирование для каждого запроса, потому что:
* Гранулярность партиций сильно зависит от конкретного запроса.
* Фиксированные партиции не справляются с перекошенным распределением данных и динамическими нагрузками.

Система использует прогрессивное партицирование, уточняя границы партиций итеративно до тех пор, пока не будет достигнута оптимальная гранулярность для запроса. Это позволяет балансировать между качеством разбиения и производительностью.

Как это работает?
1. Данные хранятся в LSM деревьях, где каждый апдейт добавляется в виде дельты (таких дельт в системе может быть тысячи).
2. Дельта - это иммутабельные (неизменяемые) снапшоты, и они образуются, когда данные из памяти (memtable) сбрасываются на диск. Вдобавок они отсортированы по ключам. Дельты попадают сначала в Level 0, где данные остаются отсортированными, но разные дельты могут перекрываться по ключам. Компактизация со временем переносит данные на следующий уровень, устраняя дублирование и перекрытия.
3. В каждой дельте есть свой B Tree индекс, позволяющий эффективно работать с широкими диапазонами ключей и выбирать нужную гранулярность в рамках дельты.
4. Min/max информация о ключах хранится как отдельные метаданные, позволяя быстро отфильтровать ненужные дельты еще до обхода B Tree.
5. Вместо того чтобы полагаться на статическое разбиение, система динамически партицирует данные в момент выполнения запроса.

В чем плюсы?
Быстрая запись: данные просто записываются в неизменяемые файлы (дельты), без затрат на реструктуризацию.
Эффективное чтение: запросы динамически получают оптимальные партиции, что минимизирует перекос нагрузки.
Масштабируемость: иерархическая структура B-деревьев и организация дельт позволяют LSM-деревьям работать с петабайтами данных и миллиардами запросов.

Этот подход помогает Google масштабировать свои хранилища, оставаясь гибкими и эффективными даже под нагрузкой в миллиарды запросов в день.

Интересно и неожиданно - не думал что партицирование будет динамическим, но логично.

Читать полностью…

Время Валеры

Прилетел в Индию
Встретили по царски
Но Трамп почему-то назначил AI и крипто царем другого человека

Читать полностью…

Время Валеры

Кофаундер датабрикса, помимо работы СТО в компании, еще и статьи пишет - WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH BLOCKWISE RINGATTENTION

Выглядит как отчёт о работе нормальных инженеров, которые решили попробовать что-то новое и описали результаты на arXiv.

Берут Blockwise Ring Attention, аннотируют данные (включая видео и текст) по-разном, постепенно скармливают всё это в модель, увеличивают контекст до миллиона токенов и радуются.

Из интересного – используют Masked Sequence Packing.

Предположим, у нас есть текст длиной 500 токенов, видео длиной 1 000 токенов и книга длиной 10 000 токенов. Вместо того чтобы обрабатывать каждую последовательность отдельно (с огромным количеством padding), модель объединяет их в один батч и добавляет маску, чтобы в каждый момент времени была видна только соответствующая часть каждой последовательности.

Затем лосс от каждого токена перевзвешивают по длине секции. Без этого самая длинная последовательность перевесила бы всё остальное. И радуются жизни.

В целом прорыва нет, просто разумная инструкция

Читать полностью…

Время Валеры

Forbes did it again

An AI startup CEO on a Forbes '30 Under 30' list has been charged with defrauding investors out of $10 million

Читать полностью…
Subscribe to a channel