boris_again | Unsorted

Telegram-канал boris_again - Борис опять

12937

life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin

Subscribe to a channel

Борис опять

# Эксель как тропа через газон

Когда программист начинает заниматься инфраструктурой аналитики у него возникает соблазн сразиться с экселем.

Эксель кажется воплощением зла. Во-первых, он максимально гибкий, а значит в таблицах неизбежно возникает бардак. Во-вторых, данные в таблицы как правило или вносятся руками, или генерируются богомерзкими скриптами, а значит там неизбежно много ошибок. В-третьих, банальные операции типа джоина двух таблиц превращаются в экселе в настоящий квест. Наконец, способность экселя к визуализации просто мрак, поэтому таблицы растягиваются на сотни колонок.

Любой, кто освоил простой анализ табличек на python, приходит в ужас, когда обнаруживает, что ключевые процессы в компании держатся на ЭТОМ. Кажется, будто можно заменить много неудобных таблиц на несколько красивых дешбордов, построенных в модном BI инструменте. И сразу принести пользу. Поставить в резюме, что совершил цифровую трансформацию бизнеса.

Но это заблуждение!

Дело в том, что эксель возникает не от хорошей жизни. Это клей, заполняющий дыры между инструментами и процессами. К нему прибегают именно в тех случаях, когда другие методы не справляются. Как правило когда нужно склеить одни данные с другими.

Пользователю нужно свести два набора данных и у него появляется выбор: просить разработку сделать новую сложную штуку или быстро сделать таблицу. Он выбирает второе, т.к. не знает, пригодится эта таблица в будущем или нет. Если это расчет на один раз то эксель как раз подходящий инструмент. Но если таблица оказывается полезной, то ей начинают часто пользоваться, расширять ее и давать доступ разным людям. Незаметно одноразовая табличка превращается в критический компонент системы.

Эксель это как тропинка, протоптанная через газон в обход неудобного асфальтированного пути.

Поэтому просто заменить пару таблиц на пару дашбордов не выйдет. Если бы можно было, то уже заменили бы до тебя. Придется вникать в процессы и искать причину, по которой эксель таблички появились. Иначе можно заменить пару таблиц на пару таблиц плюс дашборды, которые никому не нужны.

Читать полностью…

Борис опять

Надо отметить, что мой руководитель великолепно собеседует людей и я многому учусь. Приятный плюс работы в PF.

Читать полностью…

Борис опять

#AI #video #memes #humor

Читать полностью…

Борис опять

Qwen-VL: вероятно лучшая мультимодальная языковая модель (by Alibaba)

Мало того, что по текстовым метрикам Qwen-7b превосходит LlaMa2-13b, так ещё и картинки теперь понимает!

Правда архитектурно ничего нового тут нет:

ViT-G + однослойный Q-former + LLM
Изображения сжимаются в 256 эмбеддингов, которые идут прямо в контекст языковой модели (как во FROMAGe). Дополнительно Qwen-VL умеет в object detection — bbox'ы подаются и генерируются как обычный текст.

По точности она бьёт всё, что было до неё, причём с запасом (см. картинку). Модель обучается в 3 этапа: сначала размораживаются ViT и адаптер, затем размораживается LLM, а в конце тюнится одна только LLM (уже на самых чистых диалогах). Модель получилась мультиязычной, поэтому русский язык она тоже понимает.

Статья, GitHub

Читать полностью…

Борис опять

"So, what does this mean? It means we need much better AI. Or we need much worse AI. The second point first: Much worse AI would have minimal worker displacement effects, making it less economically fraught in its effects, and given that the U.S. economy can work within those limits. We are in a middle zone, however, with AI able to displace huge numbers of workers quickly, but not provide compensatory and broader productivity benefits "

https://skventures.substack.com/p/ai-isnt-good-enough

Читать полностью…

Борис опять

#работа

Хорошая статья по основам переговоров о зарплате. Во всем повторяет то, что я писал в своей серии постов про поиск работы. Но может быть полезно тем, кто не читал, или хочет краткую выжимку на английском

https://interviewing.io/blog/sabotage-salary-negotiation-before-even-start

Читать полностью…

Борис опять

Interesting numbers

More than 15 billion images created using text-to-image algorithms since last year. To put this in perspective, it took photographers 150 years, from the first photograph taken in 1826 until 1975, to reach the 15 billion mark.

https://journal.everypixel.com/ai-image-statistics

Читать полностью…

Борис опять

Плацебо это просто регрессия к среднему?

https://twitter.com/jonatanpallesen/status/1693622595793334512

Читать полностью…

Борис опять

​​Как изобрести всё. Создай цивилизацию с нуля

#книги

Перед вами брошюра для путешественника во времени застрявшего где-то в прошлом. Одной этой брошюры хватит для того что бы переизобрести большую часть самых полезных для цивилизации вещей. Эта книга в которой знания о технологиях плотно упакованы в нескучный, запоминающийся формат ответа на вопросы типа "что мне делать если у меня нет вообще ничего но я хочу выжить/кушать/играть музыку с правильной частотой базовой ноты?"

Лично мне очень понравилось как автор связывает множество совершенно разной информации из областей науки, которые мне казались совершенно далёкими. А ещё накидывает исторического контекста и объясняет на пальцах для чего нужны разные крутые штуки.

Немного жаль что эта книга не попала ко мне в детстве. Мне было бы безумно интересно. К слову, в тот период детства когда меня тянуло на технические книжки про изобретательства, я почему-то читал советский учебник по интегральной микроэлектронике. Могу со всей ответственностью заявить, лучше всего читать книжки, вещи из которых можно собрать на коленке. Микропроцессоры на коленке собрать не получалось и я быстро забыл всё что прочитал тогда. Но в моменте было интересно, да.

У книги есть только один серьезный минус, в ней довольно много табличек и на слух они воспринимаются довольно сложно. Их можно спокойно перематывать но лучше читать а не слушать. Мы с моей любимой женой (привет, солнышко!) слушали вместе и нам настолько понравилась что мы заказали бумажную копию.

Однозначно рекомендую, ссылку прилагаю.

Читать полностью…

Борис опять

#How_to_заботать алгоритмы для карьеры

Все слышали об историях успеха ребят, которые прорешали 300-500 задач с литкода и получили работу мечты: Яндекс, FAANG и тд. Немало таких ребят и из наших учеников. Потому наш преподаватель Тимур составил подборку материалов, исходя из своего опыта и опыта своих учеников в прохождении собесов. Если же вам кажется, что один вы не справитесь, то приглашаем на наш курс по алгоритмам, где вас ждут авторские материалы, талантливый преподаватель и заботливый контроль.

Асимптотика алгоритмов
Первое, что нужно уметь это оценивать асимтотику алгоритмов, чтобы различать, какие алгоритмы лучше для решений той или иной задачи. На эту темы можно посмотреть лекций Андрея Станкевича в ЛКШ или найти в книге Олимпиадное программирование Антии Лааксонен 3 главу

Главная характеристика алгоритма, спросят везде

Теории чисел
Теоретическая часть.
НОД двух чисел за логарифм
Проверка на простоту числа за корень
Решето Эратосфена
Нахождения ответа по какому-то простому модулю. (Полезно будет знать малую теорему ферма)
Если никогда не писали нахождения НОД или проверку числа на простоту, то для начала решаем задачи с acmp из раздела "НОД и НОК", "Простые числа", "Целые числа". Обязательно нужно прорешать более сложные задачи на leetcode. Лучше набивать руку именно на средних по сложности задачах, ибо именно такие дают на собесах.

Обычно прям задачи на нахождения НОД или проверку на простоту числа вам не дают, но дают такие задачи в которых эти знания необходимо использовать. Особенно такое любят спрашивать при отборе в какие-то лаборатории, научные институты или в тот же ШАД.

Префиксные суммы и два указателя
Теория на префиксные суммы по ссылке. В качестве задач порешайте задачи A, B, D по peltorator контесты. И конечно же задачи с leetcode
Всю теорию на тему двух указателей с задачами можно найти по ссылке. Там есть простые и более сложные задачи. Для понимания достаточно решить хотя-бы 6 задач на эту тему.

При отборе в Яндекс, FAANG и подобное вам встретиться хотя бы одна задача на эти темы. Оно неудивительно, ибо для оптимизации решения нередко используются именно префиксные суммы/ два указателя.

Бинарный поиск
Теорию можно посмотреть также от Пашки в codeforces. Там же есть практические задачи. А также подойдут набор задач из этого списка leetcode. Некоторые задачи от сюда даже попадались на собесах зарубежных компаний.

Предыдущие два пункта обычно спрашивают на ds, ml, аналитика и тд, ибо принципы несложные, а что-то спрашивать на алго секции все равно нужно..

Графы
Для начало нужно разобраться какие виды графов существуют. Советую посмотреть в codeforces
Обязательно научиться писать обходы, такие как "Обход в ширину/глубину". После научиться находить кратчайшие пути в графах. Для этого есть старый добрый e-maxx и в книге Олимпиадноепрограммирование Антти Лааксонен можно посмотреть 7 главу. Для практики подойдут тренировки от СПбГУ, а также простые и средние задачи из leetcode

Жадные алгоритмы и динамическое программирование
Жадные алгоритмы можно прочувствовать только при решение задач.
В качестве теории по ДП можно посмотреть Андрея Станкевича в ЛКШ и почитать 6 главу в книге Олимпиадноепрограммирование Антти Лааксонен. Для практики по жадным алгоритмам советую. Для практики по стандартным задачам по ДП можно использовать acmp, а также leetcode

Структуры данных
Важные темы. Бинарные деревья. Кучи. Система непересекающихся множеств. Дерево отрезков, а также дерево фенвика.
Полезно будет знать о существование:
Красно-черные деревья.
Sqrt-декомпозиция
Из этого списка чаще всего встречаются БИНАРНЫЕ ДЕРЕВЬЯ.
Теорию по ДО (дерево отрезков) можно посмотреть у ПАШКИ там же есть и вторая часть.
И СНМ (Система непересекающихся множеств) по ссылки
Задачи с литкод
На бинарные деревья, Дерево отрезков (некоторые задачи можно решать и деревом фенвика).

Предыдущие два пункта просто обожают спрашивать разработчиков, но нередко такое попадается и остальным

Читать полностью…

Борис опять

Поделился неудачей в написании постов - поделюсь достижением.

Вчера добил цепочку ежедневных повторений карточек по испанскому до 100 дней.

Все уже знают про интервальное повторение, но если вы вдруг не знаете и используете что-то вроде Duolingo для изучения языков - лучше делать карточки (например, Anki). Преподаватель на italki + Anki пока непобедимая комбинация.

Говорю это как человек, закончивший курс китайского на дуолинго и тративший на это по ~20 минут в день в течение 685 дней: во-первых, я быстро всё забывал, во-вторых, когда я познакомился с китайцами (у нас есть на работе), меня вообще не поняли. Были способы потратить эти 300 часов с большей пользой (в том числе для изучения китайского).

Из интересных паттернов - видно, как я учил язык до рождения сына, чтобы была возможность объясниться в роддоме (на родах не пригодилось, а вот после было незаменимо - понять медсестру в 6 утра и всё такое). Видно, как после рождения всё пошло по... нехорошему пути. Видно, как потихонечку восстановился и начал заниматься более стабильно.

Сейчас я каждый вечер читаю Harry Potter y la piedra filosofal, за 15 минут успеваю устать и добавить штук 10 новых карточек (спустя несколько месяцев я уже на третьей главе😎🥲). Учу карточки в убере и в лифтах (у нас консьержи не пускают курьеров дальше подъезда, каждый раз катаюсь их встречать - пять минут повторений карточек). Дочитываю главу - прослушиваю её же в формате аудиокниги. И один-два раза в неделю учусь с преподом - аргентинкой, живущей в Лондоне.

Но я всё равно не могу понять наших консьержей🤷‍♂️

Читать полностью…

Борис опять

#лабораторный_журнал

Если над тобой нет тимлида, потому что ты и есть лид, то рано или поздно наступает момент, когда надо оторваться от своих нейронок и переодеться в менеджера.

Закончилась первая итерация нашей системы. Растения размечаются, результаты выводятся, модели указывают куда размечать, модели дообучаются. Но система не заменила старый подход целиком. Теперь люди и пользуются нашим решением, и ходят в комнаты с растениями (от чего мы пытались избавиться). Все потому, что новое решение закрыло не все потребности.

Настало время второй итерации, но кругом блокеры. Все проблемы не технические, а человеческие. Для полной полезности системы нам нужно измерять высоту растений, а значит надо установить сенсор высоты, но из-за некоторых политических вопросов устанавливать его не будут ещё месяц или два. Кроме того нам нужно выводить предикты моделей в еще одном месте, но это другое место огромный кусок дерьма легаси кода, который будет выпилен к новому году. Значит ничего приделывать к нему нет смысла. Так же нам нужно много разных данных для новых ML проектов, но инициатива построения data mesh (русск. нормальной архитектуры аналитики) захлебнулась на этапе найма лида под эту инициативу.

Было бы клево эксалировать проблему “я вообще не понимаю, что делать” выше, но эскалировать некуда. Поэтому я много общаюсь, пишу заметки встреч и пытаюсь выяснить как снять блокеры. Вероятнее всего мы возьмем на себя инициативу по данным: и найм, и построение системы. Так же по выводу информации есть идеи: или сделать новый сервис, или заплатку (слек бота какого-нибудь) на первое время. Второй путь мне нравится больше, потому что заказчики мало понимают чего хотят, но точно поймут когда увидят какую-то версию результата. Так что пусть первая версия будет наименее болезненна в разработке.

Скоро во второй раз полечу на фабрику под Миланом, чтобы провентилировать все эти вопросики.

P.S. Не помогает то, что у Итальянцев август это месяц, когда все уходят в отпуска. Прям вообще ВСЕ.

Читать полностью…

Борис опять

🥺 я не успеваю слушать все интересные подкасты, которые хотелось бы послушать. Недавно вот писал про подкасты нашей компании, до этого — про подкаст с руководителем команды SuperAlignment в OpenAI — Jan Leike.

А позавчера вышел ещё один трехчасовой подкаст от "80,000 hours" с ним , в целом — по той же теме.

Ссылки на все плееры, где можно послушать, находятся на главной странице подкаста: тут. Там же есть полный транскрипт (бесплатно) и основные хайлайты. Я упомяну лишь основной.

Jan оценивает так называемую P(Doom), то есть вероятность того, что ИИ в конечном счёте обратится против человечества и начнёт уничтожение, В ДВУЗНАЧНЫХ ЧИСЛАХ — от 10% до 90%.

Ещё раз: руководитель команды, занимающейся разработкой методов контроля ИИ, в одной из самых передовых лабораторий мира (если не самой), человек, руководивший разработкой InstructGPT, родителя ChatGPT, говорит, что на данный момент вероятность того, что AI уничтожит человечество, больше 10%.

В комментарии приглашаются эксперты с PhD, которые объяснят глупому, что он не прав, и вообще нейронки ничего не могут сами по себе.

А вот в комментарии в Твиттере Gary Marcus подстебал Jan'а, спросив, мол, зачем работать на OpenAI, если вы думаете, что p(Doom) исчисляется двузначными числами, а сами исследования лишь ускоряют любые возможные риски?

Ответ убил: Как вы думаете, было бы лучше, если бы в OpenAI было меньше исследователей, занимающихся Alignment?

👇 пишите в комменты как бы вы ответили

Читать полностью…

Борис опять

#книги

# "A Promised Land" by Barrack Obama

В комментариях к посту про мужские ролевые модели мне предложили прочитать автобиографию Барака Обамы. Книга меня впечатлила. Это не сухое перечисление исторических событий. Автор попытался передать каково быть президентом США и это интересно читать.

В том посте меня интересовали примеры людей, которым можно сопереживать. Я люблю читать про сверхлюдей наподобие Эдисона, но они выглядят как представители другого биологического вида. С ними тяжело себя ассоциировать. С Обамой все не так: это такой же человек, как мы с вами. Вы наверняка ожидаете, что президент США руководил всеми вокруг с детского сада. Но нет, вместо этого мы видим человека, который в молодости был аполитичен, курил травку и, как любой нормальный подросток, не знал чем заниматься в жизни. Обама пишет, что ни он, ни его друзья тогда не могли предположить, чем все обернется. Словом, все повествование мы наблюдаем, как человек пытается сделать верный выбор в исключительных обстоятельствах.

Так, Обама одновременно руководит сверхдержавой и пытается обеспечить своим дочерям нормальную жизнь. Он постоянно критически оценивает себя, изучает свои ошибки и думает о том, мог ли он поступить иначе. Много раз задается вопросами о роли случая в его жизни, насколько все зависит от окружающих его людей, влияет ли на что-то политик или лишь следует за течением общества. Показательный пример скромности: когда Обаме позвонили сообщить, что ему вручат Нобелевскую премию мира, он спросил: "За что?"

Забавный факт: будучи сорокалетним конгрессменом Обама все еще не знал, как ему выплатить студенческий долг за Гарвард. This is America.

Обама пришел к власти благодаря тому, что был в нужном месте в нужное время, то есть соответсвовал запросу общества на перемены после правления Буша. По моему мнению он оправдал запрос насколько это было возможно. Его оценивают как чрезвычайно эффективного президента. На его долю выпало немало: проблемы прошлой администрации, экономический кризис, две войны, вирус H1N1, прорыв нефтедобывающей вышки Deepwater, Арабская весна и многое другое. Несмотря на это его администрация смогла добиться многого: реформа здравоохранения (чрезвычайно сложная в Америке тема), ядерное разоружение, неслыханное потепление отношений с Россией и другими странами, большой прогресс по части изменения климата и уйма вещей, которые мне не понять.

Эффективность Обамы на позиции президента объясняется следующим: умение вдохновлять людей, грамотный менеджмент команды, прозрачность решений, принципиальность, восприятие политики как игры с ненулевой суммой, доверие экспертам. Наконец, ориентация на то, что работает, а не на то, что соответствует идеологическому курсу.

Фирменный трюк, который вы можете позаимствовать: как Обама продвигал идеи. На примере реформы здравоохранения. Она разделила демократов и республиканцев на два четко очерченных лагеря. Республиканцы восприняли ее в штыки. Однако Обама нашел нескольких из них, для которых вопрос был личным: их семьи пострадали от текущей системы. Для них личная мотивация к изменению была важнее лояльности партии, поэтому они были готовы работать с "вражеской" стороной по этому вопросу. Обама пригласил их доработать проект вместе, чтобы они были сопричастностны. Это сработало: они голосовали за законопроект и даже убеждали других республиканцев. Вывод: лучше убеждать тех, кто колеблется, чем тех, кто настроен радикально.

Подводя итог могу сказать, что книга интересна и как биография, и как книга о политике, и как историческая хроника.

Читать полностью…

Борис опять

Универсальные адверсариал атаки на LLM (by Carnegie Mellon)

Авторы предложили рабочий способ атаки закрытых языковых моделей — у них получилось заставить их выдать рецепты бомб и алгоритм уничтожения человечества с одной и той же текстовой инъекцией в промпт. Оказалось, что уязвимости у открытых моделей (LLaMa, Vicuna) и закрытых (ChatGPT, Bard) совпадают, предположительно, из-за пересечения обучающих данных. То есть, атакуя в режиме whitebox опенсорсные модели, можно получить универсальные инъекции для blackbox систем!

Идея атаки довольно простая — нужно взять открытую модель (Vicuna) и применить Greedy Coordinate Gradient алгоритм (умный перебор) для поиска инъекции в промпт, которая заставляет модель начинать свой ответ со слов "Sure, here is how to". И вуаля! Данная атака работает в т.ч. для ChatGPT, Claude, Bard etc.

P.S. Примеры из статьи уже заблокировали в OpenAI, но никто не мешает сгенерировать новые 💁‍♂️

Статья, GitHub

Читать полностью…

Борис опять

#работа

# Другая сторона найма

Поиск инженеров в PF это мой первый опыт полноценного процесса найма. Хочу поделиться несколькими наблюдениями.

1. Для работодателя найм это тоже numbers game.

Со стороны работодателя даже в большей степени, чем со стороны соискателя! Мы не так долго и активно ведем процесс, но на одну позицию уже отсмотрели более 200 резюме. Естественно большая часть отсеивается на этапе резюме и HR скрининга: до интервью дошло только 12 человек. При этом если соискатель тратит на поиск работы только свое время, то работодатель тратит время трех и более человек.

2. Релевантность опыта важнее общей крутизны.

Оказалось, что мне, как нанимающему инженеру в небольшой компании, важно, чтобы человек имел подходящий опыт. В идеале чтобы он уже решал раньше те задачи, для которых мы его нанимаем. Это может быть даже важнее чем его общие способности. Например, мы отсеяли одного сильного full stack инженера, который хотел сменить карьерный трек на MLE. Ну не знает человек, что такое градиентный спуск, и тут ничего не поделаешь: слишком долго придется ждать, пока он станет приносить пользу.

В больших компаниях с этим проще. Там заведомо ожидают, что онбордить человека придется минимум три месяца, со специальными тренингами по внутренним инструментам и прочим.

Под всех не подстроишься, поэтому стопроцентного способа взломать систему в пользу работника я не знаю. Однако не ленитесь адаптировать резюме и свой рассказ о себе под интересные позиции.

3. У компании, в отличие от работника, всегда есть заранее определённая зарплатная вилка.

Казалось бы очевидный пункт. Но все же стоит напомнить: если они входят в переговоры зная чего хотят и ожидают, а вы нет, то угадайте у кого контроль над ситуацией.

Важный момент: у компании может быть бюджет под команду, а не под каждую позицию. Например, Х долларов в год на формирование команды по данным. Конкретная конфигурация может меняться в процессе поиска. Например, изначально хотели найти сеньора и двух мидлов, но могут выбрать взять сеньора, мидла и крепкого джуна.

В этом случае у компании есть гибкость в принятии решений, что дает работнику с хорошей переговорной позицией преимущество. Используйте это в свою пользу.

4. Прыжки через обручи не обязательно красный флаг.

Бывает, что компания заставляет вас пройти какой-нибудь дурацкий personality test. Выглядит как будто это признак того, что работать там будет непросто. Однако на практике это может быть просто причуда HR, которая никак не влияет на работу в компании и с которой технари ничего не могут поделать.

Вывод: стоит оценивать позицию в первую очередь по нанимающей команде.

5. Мотивационные письма не читают.

Я честно стараюсь просматривать их хотя бы по диагонали, но факт остается фактом: еще ни разу мотивационное письмо не повлияло на мое решение.

Возможно мотивационное письмо влияет на HR. Так это или нет я, к сожалению, не знаю.

Общий вывод пожалуй тривиальный: по ту сторону тоже находятся люди. Возможно слегка задолбанные и перегруженные. Они находятся в строгих рамках экономических стимулов, поэтому не стоит воспринимать происходящее близко к сердцу. В конце концов все ищут возможность взаимовыгодно договориться

Читать полностью…

Борис опять

#работа #лабораторный_журнал

Я бы не сказал, что мы до сих пор хорошо справлялись с наймом MLE. Мы отсобеседовали много людей, но всех отсеяли. Главная проблема: необходимость поиска внутри Португалии. На позицию подавались почти исключительно свежие выпускники двух местных институтов. Или вчерашние студенты, или другие люди вообще без релевантного опыта. Ожидаемо: непросто затащить людей в Коимбру.

Так же мы совершили ошибку потратив много времени на собеседования с джунами, зная что ищем мидла. Моему руководителю, как человеку из академии, казалось будто взять умного студента это неплохой вариант — в деталях разберется. Я же зарубал кандидата, видя, что его придется онбордить полгода.

Набив шишки мы поправили процесс: расширили пул поиска до всего ЕС, стали зарубать на этапе CV всех людей без хотя бы пары лет релевантного опыта (как бы ни было неприятно) и синхронизировали ожидания.

Теперь вместе с ролью лидера по данным на меня свалился найм на еще две позиции: Data Analyst и Data Engineer. На практике все это выражается в шести собеседованиях на следующей неделе, плюс время на отсмотр резюме и ответы на почте.

Наблюдение: сам процесс склоняет нанимателя к скотскому поведению. Очень велик соблазн просто гостить людей. Очень неприятно зарубать джунов, зная, как им тяжело найти работу, но приходится. Очень тяжело влюдумчиво читать резюме и тем более мотивационные письма, т.к. их слишком много. Очень хочется дать всем шанс, но это невозможно. Очень тяжело давать обратную связь, ведь и работать когда-то надо. Очень грустно отказывать человеку после того, как он потратил время на тестовое задание. В целом никаких положительных эмоций кроме интереса при знакомстве на собеседованиях.

Когда ищешь работу думаешь: "Вот если бы я нанимал, то все было бы не так!" В итоге обнаруживаешь, что твой максимум это сделать процесс чуть менее ужасным: не гостить, не токсить, не затягивать с ответом, защитить от "лучших" практик HR типа IQ тестов. The game is rigged from the start.

Читать полностью…

Борис опять

https://www.experimental-history.com/p/im-so-sorry-for-psychologys-loss

Читать полностью…

Борис опять

#лабораторный_журнал

Главное изменение по итогу коммандировки на фабрику: зона ответственности расширяется.

Год назад была начата инициатива по созданию инфраструктуры и культуры данных в компании. Однако дело не двинулось дальше попыток нанять лида дата инжениринга, который бы эту инициативу толкал. В итоге мы как ML команда в какой-то момент уперлись в невозможность получить данные для наших проектов. В остальной части компании продолжила распространяться мерзость эксель таблиц, кривых скриптов и сделанных фронтендерами дашбордов (которые делались бы за пять минут например в Power BI).

Решили сменить тактику. Самая близкая к данным команда это моя команда. Плюс у меня был опыт проектирования Data Warehouse в Start.ru, так что я оказался человеком с наиболее релевантным опытом (хотя я вообще не спец в дата инжиниринге). Наконец, у нас получился неплохой процесс найма для позиции ML инженера, поэтому его несложно адаптировать под найм других позиций в дате.

Решили сделать так:
1. Наша команда берет на себя роль дата команды, выбирает наиболее простой и одновременно полезный дата-продукт, делает MVP дата инфраструктуры под него. Во-первых мы сдвинем дело с места, во-вторых в процессе лучше поймем требования.
2. Параллельно с этим вместо поиска суперлида ищем двух человек: дата аналитика в Италию и дата инженера в нашу команду.
3. При проектировании инфры обращаемся к опытному консультанту, чтобы компенсировать недостаток комптенеций в дата инжиниринге.

Таким образом я становлюсь на ближайшее время главным по данным и вместо моделек буду заниматься наймом, проектированием, настройкой DWH и всем прочим.

Читать полностью…

Борис опять

Андрей, крутой дата-инженер, написал настоящую пьесу (короткую, не пугайтесь) про проекты в IT. Там про внезапную идею добавить к машине пятое колесо. Очень рекомендую к прочтению. Правда это настолько жизненно, что опытным ребятам будет не столько смешно сколько больно это читать

https://www.linkedin.com/pulse/challenges-technical-leadership-andrey-kudryavets

Читать полностью…

Борис опять

История про метрики и целевую функцию

Футбольный матч между сборными командами Барбадоса и Гренады, состоявшийся 27 января 1994 года, вошёл в историю неожиданными действиями игроков обеих сборных и привёл к пересмотру правил проведения Карибского кубка.

Команда Гренады была на первом месте, и ей необходимо было не проиграть Барбадосу или проиграть с разницей в один мяч. Барбадосцам же, чтобы занять первое место в группе, нужно было победить в очной встрече сборную Гренады, причём с разницей минимум в 2 мяча. Интригу в матч внесло существовавшее тогда правило турнира, по которому в случае ничьей в основное время назначался овертайм, а гол в дополнительное время («золотой гол») приравнивался к двум голам и немедленно завершал игру.

Команда Барбадоса, быстро забив два гола, повела в матче со счетом 2:0. Такой результат, устраивающий барбадосцев, держался до 83-й минуты основного времени матча, когда в одной из атак команде Гренады удалось поразить ворота Барбадоса, и счёт стал 2:1. Команда Гренады, которую устраивал такой итог встречи, всем составом перешла к своим воротам, отбиваясь от атак соперника — третий гол в их ворота привёл бы к невыходу из группы.

Барбадосцы, видя, что встреча близится к завершению и им не удаётся забить третий гол, на 87-й минуте матча умышленно забили гол в свои ворота, таким образом не проиграв в основное время и намереваясь перевести матч в дополнительные 30 минут. По правилам турнира забитый в овертайме «золотой гол» приравнивался к двум голам и приводил к окончанию всего матча, на что и полагались футболисты Барбадоса, чтобы выйти в следующий этап Карибского кубка. Команда Гренады поняла замысел соперника и решила в оставшееся основное время забить гол в любые ворота — или она победит со счётом 3:2 (взяв три очка) или проиграет 2:3 (проиграет с разницей менее чем в два гола) — в любом из этих случаев она выходила в следующий этап соревнований (во втором случае — по лучшей разнице забитых и пропущенных мячей). В последние минуты основного и четыре минуты добавленного времени действия игроков на поле приняли комический характер — гренадцы старались забить гол в любые ворота, а барбадосцы оборонялись как у своих ворот, так и у ворот соперника. Барбадос выстоял, и основное время матча закончилось со счётом 2:2.

План команды Барбадоса сработал в дополнительное время. Барбадосцы забили «золотой гол», матч сразу был окончен, со счётом 4:2 и по итоговой разнице мячей Барбадос вышел в финальную фазу Карибского кубка 1994 года.

Читать полностью…

Борис опять

Кто-нибудь хочет пройти вместе курс Introduction to Mathematical Thinking? Го в комментарии
https://www.coursera.org/learn/mathematical-thinking/home/week/1

Читать полностью…

Борис опять

Именно с этой книги начался этот канал:
/channel/boris_again/2

Читать полностью…

Борис опять

https://jalammar.github.io/illustrated-stable-diffusion/

Читать полностью…

Борис опять

Нашел еще одно применение ChatGPT для программиста: изучать дизайн паттерны, переводить примеры в книгах на свой язык.

Читаю сейчас книгу “Learning Domain-Driven Design” про архитектуру систем и там все примеры на Java. Описываются паттерны, например: transaction script, active record, event sourcing. Я такие вещи не могу понять пока не увижу кусок кода. Но в кусках кода на Java не ясно, где паттерн, а где просто бойлерплейт Java.

На помощь приходит наш любимый конвертер из текста в текст, ChatGPT. Очень удобно, что можно попросить привести пример паттерна, скажем active record, на Python и сразу получить нормальное объяснение

Читать полностью…

Борис опять

@rybolos_channel поделилась в комментариях:
https://habr.com/ru/articles/593173/

Читать полностью…

Борис опять

#работа

Цитаты великих кандидатов.
Интервьюер: So you are looking for your first job out of univercity?
Кандидат: Actually I used to have a job, but I didn’t like it, so I just quit

Читать полностью…

Борис опять

#работа
Добрался поанализировать таблицу с зарплатами продактов в Европе (в основном данные по Португалии)

Составил свой “индекс бигмака”: делим гросс USD зарплату на стоимость блюда в ресторане из numbeo.

Разбил по стране пребывания и стране компании.

Я бы смотрел только на столбик Португалии и диагональные клетки (напр. Швейцария-Швейцария) т.к. в остальном много выбросов (табличка мелкая).

Удивительный вывод: из Португалии выгоднее работать на Швейцарию, чем на США. Работать из UK на UK почти так же, как из Португалии на Португалию, и сильно лучше чем из Швейцарии на Швейцарию.

Читать полностью…

Борис опять

Редко слушаю подкасты и еще реже их рекомендую (это первый раз), но вот этот выпуск Лекса Фридмана мне очень понравился:
/channel/lexfridman/287

Content disclaimer: политика

Читать полностью…

Борис опять

https://slatestarcodex.com/2016/11/05/the-pyramid-and-the-garden/

Почему это не (слишком) удивительно? Ответ в статье. Советую к прочтению всем, кто когда-либо задумывался про p-value и статзначимость исследований

Читать полностью…
Subscribe to a channel