new_yorko_times | Unsorted

Telegram-канал new_yorko_times - New Yorko Times

9749

Юрий Кашницкий (Yorko, тут @yurycorn) – про машинное обучение, науку, галеры, матан, фэйлы и прочие интересности. Рекламы нет. https://www.linkedin.com/in/kashnitskiy

Subscribe to a channel

New Yorko Times

Чего может не хватать топовому технарю, чтоб попасть в OpenAI
#coolstory #career #interviews

Так себе заголовок, очевидно, софт-скилов, но куда-то ведь надо было воткнуть OpenAI. К тому же, это история успеха, пересказываю (со своими эпитетами) в том виде, в каком услышал от Анны, стаффа в долинном Гугле:

У меня есть знакомый - монстр, технически, закодит все что движется и не движется. Любой литкод хард раскидает за 2 минуты, код сразу заработает. И так же точно работу работает. Но с бихейвом совсем беда, просто фэйлил такие собеседования с треском. С любой компанией, на любом уровне.

Пошел на известный сервис проходить мок-собеседования с топами из долинного бигтеха. Надо признать, много денег на это потратил, пару тысяч точно. Зато после ~12 моков собрал 8 офферов и сейчас на L5 в OpenAI, получает как L7 гугла.

Читать полностью…

New Yorko Times

#shitpost

Что надо: как ставить OKR, как делегировать, как репортить стейкхолдерам, как укрощать неопределенность

Что я делаю: перед собесом надо наконец разобраться в RL/RLHF/DPO/alignment, зачитался сначала статьями, потом сиолошной, затем и вовсе завис на классике – как научить RL играть в змейку (не, не прокрастинация; видео, GitHub). Как же это все-таки охуенно!

пс. ну и да, легендарный мем всех времен и народов

пс2. на IJCAI 2015 в Буэнос-Айресе вживую наблюдал, как DeepMind впервые представлял успехи в Atari (2min papers тех времен с уровнем Бог в арканоиде; вот это уже прокрастинация)

Читать полностью…

New Yorko Times

#promo

Новый мини-батч инициатив от знакомых + просто полезные ссылки. Первые два канала перекликаются с моими попытками пореферить крутых спецов в нидерландские компании (кстати, тут, в отличие от менторства, успешных историй не слышал, если кто получил оффер – откликнитесь плз)

- @agilefluent — канал онлайн-сервиса по поиску работы за рубежом для IT и Digital специалистов с полезными постами для тех, кто задумывается о международной карьере или уже в поисках. Например, чек-лист "как дойти до оффера на международке" или советы по прокачке LinkedIn, а также подборки вакансий и эфиры с разборами резюме

- И конкретно по Финляндии, вдруг кому актуально: @itfinland – канал про жизнь IT специалистов в Финляндии. Какие есть способы переезда, сколько зарабатывают и тратят на жизнь в Финляндии IT специалисты, что дает ВНЖ Финляндии и т.д.

- Вы наверняка уже видели, но лекции Игоря Котенкова @seeallochnaya про историю GPT-моделей – прям топ. Я пока взахлеб посмотрел первый модуль, не сомневаюсь, что второй тоже стоит потраченного времени. Плейлист на ютубе

- Пока продолжаю суетиться с собесами, попадаются очень неплохие ссылки. Методичку Бориса @boris_again про поиск работы еще раз упомяну (как мне надо отменторить самого себя, так Борису надо просто следовать своей методичке, кеке). Заметки по общему ML "Illustrated Machine Learning" утащил у А.Г. Дьяконова @smalldatascience, по system design Арсений @partially_unsupervised подсказал вот этот длиннющий и годный тьюториал

Читать полностью…

New Yorko Times

Как я публиковался в q1-журнале
#projects #science

Dear Dr. Kashnitsky,

It is a pleasure to accept your manuscript entitled "Evaluating approaches to identifying research supporting the United Nations Sustainable Development Goals" for publication in Quantitative Science Studies.


Что ж, после 3 лет барахтанья фултайм в академии у меня наконец первая нормальная статья. Quantitative Science Studies – топ-тир журнал про scientometrics (”science of science”), библиометрии и прочие количественные исследования науки.

Статья выросла из проекта по классификации научных статей по вкладу в Sustainable Development Goals. SDGs были предложены ООН как благородные цели, достижение которых к 2030 году было бы для человечества успехом. 17 верхнеуровневых целей охватывают борьбу с голодом и бедностью, обеспечение чистой воды и энергии каждому жителю Земли, борьбу с глобальным потеплением и т.д. Стоит ли говорить, как чума да война отбросили все человечество на несколько лет почти по каждой из целей.

У Эльсивира куча научных данных и неплохо бы понять, как именно наука вносит вклад в SDGs. Наш классификатор навешивает SDG-метки примерно на 20 миллионов статей (вот пример) и используется в куче продуктов (Scopus, ScienceDirect, SciVal и т.д.), а также Times Higher Education использует наши маппинги в Social Impact рейтинге университетов. Идея в том, чтоб поощрять университеты за вклад в SDG, а не только за традиционные фичи типа кол-ва Нобелевских лауреатов или отношение числа профессоров к числу студентов. Поэтому в топе можно увидеть универы Сиднея, Манчестера и даже Малайзии, а не только MIT и Гарвард. С рейтингами универов, конечно же, осень много проблем и про них можно поговорить, но я пока тут про импакт.

Про ML-сторону проекта я напишу позже #todo – там много нетривиальных моментов (”вклад” – тоже громкое слово, на само деле там просто topic classifcation). Тут расскажу про саму статью.

Активная фаза проекта пришлась на 2021-2022, мы валидировали нашу модель с сотрудниками 3 универов – Auckland University (Новая Зеландия), Aurora University Alliance (Германия-Нидерланды) и South Denmark University (Дания). Митинги были веселые, я порой подключался в 8 вечера, когда в Окланде было около 8 утра. Мы собрали фидбек с рисечеров, запустили решение в прод, я скатался в SDU, в Оденсе на родину Андерсена, получил фидбек от брата Ильи (”очень слабо!”) и дальше решил таки написать статью, с идеей, что никто еще толком не валидировал подходы к классифкации статей по SDG, так чтоб сразу с кучей датасетов.

Про боль первого автора тут не буду распространяться (кто знает, тот поймет), где-то к середине 2023-го в ленивом темпе написали статью, получили отказ в PLOS ONE с чудесными коментами рецензентов в стиле “а че не BERT?” и претензией, что мы не делимся прямо всеми данными сразу. И вот так спустя несколько ревизий все же пробились в QSS. Конечно, на момент финальных ревизий уже вышла почти такая же статья, только лучше. И конечно, у не только лишь всех авторов статья уже давно упала по приоритету на дно, но я все же решил затащить. После типичных приколов в стиле “в коде баг, надо пересчитать все бенчмарки” и уже очень адекватных комментариев рецензентов статью приняли. Да уж... с конференциями куда бодрее.

Для самых упорных – вот препринт.

Читать полностью…

New Yorko Times

Свинотиндер
#ml #projects #random

Один из кейсов, который мы прорабатывали с Владимиром @zolodya из поста про менторство: «Определение наилучшего периода осеменения свиней».

Обычно ветеринары определяют наилучший период охоты (овуляции) у свиней вручную. Специалисты водят рядом с животными хряка-пробника, наблюдают за их поведением и изучают реакцию свиноматок.

Для автоматизации процесса ребята создали на одной из площадок систему видео-аналитики. Алгоритмы в режиме реального времени определяют:
1. В какой позе находится свинья
2. В какой части загона стоит
3. Есть ли рядом хряк-пробник

Почему определяем именно эти параметры:
1. Знание позы необходимо для оценки активности животного. Чем больше свиноматка стоит или сидит, тем выше шанс, что она находится в возбужденном состоянии и готова к осеменению
2. Положение свиноматки в загоне позволяет установить заинтересованность в проходящем мимо хряке
3. Еще один характерный признак охоты: свинья начинает чесаться задней частью туловища (попой) об ограждение в конце загона

Уже представил это все на английском в STAR-формате на собесе с Амазоном.

Запоздалое пожелание: интересных вам проектов в 2024!

Читать полностью…

New Yorko Times

"Она в Мистрале, а ты – нет". Итоги менторства, батч 1
#career #mentor #interviews

В августе 2023 писал, как лучше продать свой опыт, и набрал первый батч из 9 ребят. Тогда в коментах справедливо заметили, что в посте не хватало изюминки – продажи себя как ментора 😳 Нужно было время, вот истории подоспели. Перечисляю в порядке возрастания вау-эффекта (субъективно):

- Вадим Кислинский @vadimfbk (LinkedIn) – MLE в Яндексе, сейчас, как и я, пытается перескочить на еще более крутую работу, а заодно перебраться с Кипра куда-то в Европу. Пока в поиске.

- Друх Вадим Полищук @sakujoonline (LinkedIn) получил оффер на solutions architect и переезжает из Турции в Нидерланды. С ним мы как-то даже жили вместе (и смотрели “500 дней лета”, пацаны не поняли), было необычно его менторить. Прошлись по полной программе из 4 занятий, описанных в первом посте про менторство (Вадим, торчишь 2 кило голландского хрючева).

- Евгений Арефьев @evgen8323 (LinkedIn) из Екатеринбурга – менеджер-экономист, последние пару лет работал бэкендером в небольшой региональной кустарной компании, захотел в бигтех. В сентябре 2023, сразу после единственного нашего занятия, устроился на MLE в российский бигтех. Тут, конечно, больше помог курс одс по MLOps, но вроде как занятие со мной вселило в Евгения уверенность в себе.

- Один кэггл грандмастер посреди наших занятий устроился в стартап и потом даже собеседовал меня. Я рассказывал об этом в посте про свои фэйлы, не называя стартап, т.к. отзыв мой про них получился не очень. Так что не буду и самого грандмастера называть, но ему все нравится на новой работе, LLM, медицина, куча всего интересного.

- Снова друг Вова Захаров @zolodya – после наших занятий нашел вторую работу, в испанском стартапе. Теперь он ML лид аж 2 команд (правда, в каждой по одному человеку 😂) Занимаются CV в медицине, диагностикой рака молочных желез и головного мозга. В формате STAR репетировали истории про проекты, одна из них – до слёз просто: AGI, который мы заслужили. Повешу тут cliff hanger, отдельно опишу #todo

- Друг детства Саша Миронов @i2mironov (LinkedIn) на момент начала наших занятий уже был в Аргентине, стал новоиспеченным отцом, потерял работу на российский стартап на удаленке (колл на 10 минут – “до свидания, ребята, мы закрываемся”). Благо, финансово грамотен, подуха на пару лет жизни есть. Искал работу месяца 3 фул-тайм, устроился в дубайский стартап шатать LLM, по компенсации прекрасно, если только разобраться с аргентинскими приколами, как это все дело выводить.

- Майк Арбузов @DaSibmike (LinkedIn) из Долины устроился на Chief AI Officer в стартап, занимающийся VC fund management. TC – характерная для US, даже скорее для Кремниевой Долины. Как положено, включая sign-on бонус + % компании.

- Косте Кравченко @kcostya (LinkedIn) я перекинул приглашение пособеседоваться на Senior Data Scientist в Amazon Generative AI Innovations Center в Лондоне (я отказался, т.к. удаленно нельзя, а на переезд в Британию пока не готов, мне несколько месяцев до нидерландского паспорта). Мы довольно плотно позанимались, в том числе друг другу проводили моки. В начале случилось то же, что у меня с Амазоном в 2022 – “ты прошел, команда есть, но сейчас уже нет открытых позиций”. Но наш герой не только получил оффер от модного американского маркетплейса, но еще через месяц получил оффер от Амазона, с чуть меньшим бейзом. Так что удалось еще вдоволь потешиться, отклонив оффер из бигтеха.

Продолжение ⬇️

Читать полностью…

New Yorko Times

#meme #diy

Когда на понедельник закинул семинар с братьями, бизнес-ланч с друзьями и 3 собеса.

Читать полностью…

New Yorko Times

Да будет мемотред #meme Обещал как-то задротских таких, математических🤓 – кидайте такие в тред. В мини-батче есть баяны, не обессудьте (не баян, а проверенный временем шедевр)

Читать полностью…

New Yorko Times

Мои книги в 2023
#books

Читал я не очень много, скоро уже замедлюсь до 1 книги в месяц. Да и рецензии мои будут не так многогранны, как у литературных критиков. Но все же поделюсь своим чтивом, надеюсь, уж о пяти достойных книгах в любой год можно будет написать.

Rise (Goodreads)

Чуть ли не единственная нехудожка за год, зато “Rise: 3 Practical Steps for Advancing Your Career, Standing Out as a Leader, and Liking Your Life”. А.к.а Райз. Закрыл гештальт недокарьериста. По многочисленным отзывам – одна из важнейших книг для построения карьеры. Rise надо воспринимать больше не как “взлететь по карьерной лестнице” (хотя и это тоже), а “возвыситься над своей рутиной” (rise above your work). Основная мысль: do better (харды), look better (видимость твоей работы, пиар в лучшем смыле слова) & connect better (софт скилы). Много вещей, которые потом будешь обдумывать. Например, как бы крут ты ни был, тебе нужен ментор, который выведет тебя на новый уровень.

Неудобное прошлое (Goodreads)

В качестве рецензии приведу одун цитату: «Публиковать имена палачей нужно, чтоб в будущем участники таких преступлений понимали, чтоб рано или поздно их внукам придется прятать глаза» (сотрудник Мемориала).

Архипелаг ГУЛАГ (Goodreads)

Это маст-рид, из того набора книг, не прочитав которые ты не можешь назвать себя полноценно образованным человеком.

День опричника (Goodreads)

Первая для меня книга Сорокина (стыдно даже говорить). Нашел переклички со “Скотным Двором”, хотя у Оруэлла это гениальная вещь, а “День опричника” - “всего лишь” блестящая.

Сумерки (Goodreads)

Как обычно у Глуховского – взахлеб (было только одно исключение “Будущее”, не дочитал и половины). Опять же, не “Пост” (про него писал в прошлогоднем обзоре), конечно, но очень увлекательно, и помимо приключенческой линии про майя есть переклички и с современной Россией. Концовка вызывает противоречивые отзывы, но она совершенно эпична, переворачивает все с ног на голову (примерно как в фильме “Адвокат Дьявола”).

Читать полностью…

New Yorko Times

Поскольку сам тут порой рассказываю про фэйлы (см. тег #fail), не могу не поделиться постом Тани Савельевой, она целый подкаст про фэйлы запускает.

Читать полностью…

New Yorko Times

Как взлетает мой проект с Research Integrity (продолжение)
#career #projects #research_integrity

WebOfScience начал “отменять” (тормозить индексацию) журналы, в которых видит большой процент фрода. Так поляну покинуло большинство Special Issues Hindawi, далее дошло до MDPI,  который и так давно был известен своей подозрительно высокой скоростью рецензирования и низким качеством статей. Всего в марте 2023 WoS выкинул 82 журнала, а финансовые потери Wiley/Hindawi и MDPI в этом году оцениваются в 35-40 лямов. Тут, ясное дело, и крупные паблишеры зачесались, у нас тут же это все дошло до уровня CEO, чему я тоже во многом поспособствовал.

В итоге это будет не просто выкатка в прод нашей либы, а очень крупный проект, на много лет и с огромными бюджетами. Либа будет проверять 25 сигналов (в какой-то момент и ML подключится, пока хватало креативного фича-инжиниринга) на разных стадиях проверки статьи (сабмит автором, рецензирование, принятие решения издателем и т.д.). Самые подозрительные будут отправляться на ручную проверку на предмет наличия еще 55 признаков research misconduct. Для этой цели отдел Research Integrity стремительно расширяется, там просто взрывной рост штата.

У меня сейчас три репорта, на проект Research Integrity в 2024 году откроются еще 2-3 DS-вакансии, одна точно в Амстердаме. Бэклог длиннющий и очень интересный, одних только применений теории графов (примерно как тут для поиска citation cartels) – около десятка.

Злые языки, конечно, скажут, что если б во всей истории не было финансового интереса, издатели бы и не парились. Но лично я для себя нашел миссию (как бы пафосно это ни звучало) и буду продолжать отстаивать это как проект №1, пусть он пока и без ML толком. А также определился с мучившим меня вопросом ты как блять додумался на корпорацию зла работать??

Читать полностью…

New Yorko Times

Про изучение нидерландского
#life #netherlands #links_with_intro

https://vas3k.club/post/22126/

Описал, как вкатился в изучение этого непростого языка, сдал интеграционные экзамены (пререквезит ПМЖ или паспорта), как учу язык сейчас. Кое-что обобщается и на другие языки (подкасты, разговорные клубы), но пост все же больше для нидерландской диаспоры.

По теме ML – где-то в посте описываю идею приложения для “языкового караоке” – чтоб слушать подкаст/аудиокнигу и читать подсвечиваемую в нужном месте транскрипцию (upd: в коментах посоветовали Lingq, и это топ, спасибо @art_tem)

Читать полностью…

New Yorko Times

Soviet Era Mathematics
#random #math #links_with_intro

https://youtu.be/LlsA7hygaVo?si=Av2Ojm_XqDFnbycb

Посмотрите, как англоязычный популяризатор математики с трепетом и бережностью нумизмата листает учебник профессоров МГУ по интегралам и теории поля. Сколько уважения, восхищения плотностью материала.

На физтехе в начале года мы получали ботанскую стопку книг, так что сам едва унесешь. Почти по каждой из них можно было бы снять такое видео. А цена книги – $3 в переводе.

Комментариями тоже можно зачитаться, например

I'm from Russia, all my math teachers from school or university were just sick in the head (in a good way). They all loved their subject very much and were real enthusiasts of their work. When you talk to them, you get the feeling that they don't really pay attention to you, but all the time they are thinking about math in their heads, dreaming in the clouds. Russian teachers in other subjects are primarily teachers, and math teachers are primarily mathematicians.

Читать полностью…

New Yorko Times

картинка в исполнении Бори @BobaZooba

Читать полностью…

New Yorko Times

Чего не говорят адвайзеры из YC

Все материалы / книги / лекции по стартапам и прочей вакханалии обычно покрывают следующие этапы:
1. Подбор команды и квалификаций
2. Поиск проблем, интервьюирование людей, определение размера рынка проблемы, поиск проблем за решение которых готовы платить, понимание чего хочет юзер, кто этот юзер, и тд
3. Что-то несущественное с поиском решения, пропускаем
4. Проверка решения через прототипы и МВП
5. Представление продукта и привлечение юзеров, их удержание
6. Поднятие денег, питчинг, нетворкинг, дележка долей, венчурные фонды, яхты, и тд
7. ...

Замечаете изъян? (Конечно, он ведь курсивом выделен). Общепринято считать что любую проблему фаундер может решить, главное найти эту проблему, что-то такое, что реально нужно людям, и уметь донести (продать) свое решение юзерам и инвесторам. Добавьте к этому преимущество, которое другие не имеют, и все — увозите единорога.

Но это не так.

Я могу назвать миллион проблем, их не нужно долго искать: лечение рака, жизнь до 200 лет, дешевая добыча ресурсов на луне, трансатлантические перелеты за 10 мин, что угодно. За решение каждой из них готовы платить миллиарды. Значит ли это, что теперь можно открывать вольер со стартаперам и наблюдать создание мега-корпораций?

Нет блять.
На то это, сука, и проблемы, что их никто не может решить, ни лучше эксперты области, ни даже Вася-стартапер. А то что могли решить (guess what?) уже решили, блять, да и довольно неплохо, что даже повторить не факт что удастся.

Уникальное решение — это и есть та самая ценность за которое люди платят деньги, и на которой строится бизнес, и если ты знаешь как произвести квантовый компьютер по цене ноутбука, то не важно сколько у тебя знаний про юнит экономику или маркетинг, у тебя будут заказы, и будут деньги, и рост будет идти сам, а не через хитровыебанные техники growth-hacking'a.

Так почему же люди удаляют так мало внимания обучению нахождения уникальных решений и генерации инновационных идей? А хуй его знает! Выглядит так, будто все пытаются лечить симптомы (фандрейзинг, мвп, ретеншн), а не саму, блять, болезнь — создание ебаной ценности из ебаного ничего.

// В связи с этим, кстати, создание продукта из решения для меня выглядит намного более логичным чем из проблемы. Зная как получить 3D модель по фото, кодеру намного легче найти где это применить, например в примерке, чем швее, которая знает, что у нее проблемы с замерами, придумать алгоритм который будет генерировать 3D по фото.

Кгхм, так вот, ситуация плачевна, но не критична. Некоторые люди все-таки об этом задумываются. Один из главных советов который дал мне Федор Соколов, и который перекликается с Павлом Черкашеным, это становление экспертом в одной узкой области. Человеку с опытом и пониманием процессов намного проще найти пробелы и придумать чем их заполнить, чем повару придумать как нам летать на Луну дешевле. Также об этом написаны книги и есть целые методики по тому как достигать "эврики", я уверен их можно найти если поискать, из того что мне советовали: How to Get Ideas by Foster и тот-самый ТРИЗ. Если у вас есть свои рекомендации — с радостью их приму.
Вопрос, пока, оставим открытым.

Читать полностью…

New Yorko Times

#shitpost

Рассказывал знакомой не из мира ML про все, что происходит с эй-яй, почему это навсегда изменит нашу жизнь, про гугл vs. OpenAI и новшества Gemini 1.5 vs SORA. Про небывалый масштаб инвестиций и философские аспекты AI. Чутка возбудился, пришлось про себя же сказать, что я на vLLM с квантизацией - выдаю 40 токенов в секунду (пошутил в пустоту, для себя; обращайтесь за советом по пикапу).

И что ж отвечает знакомая после 8 минут молчания?

Вот ведь повезло мужу Альтмана

Читать полностью…

New Yorko Times

ML-упражнения NeetCode
#links_with_intro #ml #interviews

Светлая наша голова NeetCode (автор вот этого роудмэпа по литкоду и ютуб-канала NeetCode?si=CWbVb3JZORDaiWap">NeetCode) выложил практические упражнения по ML - от градиентного спуска через основы PyTorch и до GPT с нуля и разговоров с ней.

Читать полностью…

New Yorko Times

Гюйгенс, Галилей и Эльсивир
#random #science

Сходил к соседу Кристиану Гюйгенсу (по-голландски, конечно же, что-то ближе к Хяухенсу). Великий физик родился в Гааге, а дом для отдыха, который спроектировал его отец – прямо в Форбурге, деревне возле Гааги, в которой я живу. Сказать, что Гюйгенс гений, это ничего не сказать. Пожалуй, только Ньютон общепризнанно более великий физик и математик 17-го века. Но мое внимание привлек другой рандомный факт, который удалось понять из рассказа экскурсовода на голландском. Издатель Эльсивир (который тогда еще Луи, а не корпорация) опубликовал революционный труд Галилея “Dialogues Concerning Two New Sciences”, несмотря на гонения со стороны церкви и включение книги в список забаненных. Эльсивир пошел на риск (Нидерланды всегда славились своей свободой и развитым книгопечатанием), но зато опубликовал бестселлер, который внес поистине огромный вклад в развитие человеческой мысли. Среди прочего Галилей утверждал, что без воздействия сил тела не теряют скорость – то есть дерзнул противоречить самому Аристотелю и вдохновил Ньютона на его первый закон.

А как красиво начиналась история Эльсивира…

Читать полностью…

New Yorko Times

По научной статье в день
#research_integrity

В рамках проекта по Research Integrity мы наконец добираемся и до отдельных авторов. До этого редакторы (editors) и ревьюеры были в приоритете. Например, если поймать за руку одного единственного Editor in Chief, можно тормознуть фрод сразу в целом журнале.

Простейший анализ числа публикаций за 2023 довольно много интересного раскрывает. По одним только данным Scopus почти 1700 авторов опубликовали больше 72 статей. Этот порог был намечен довольно известным ученым John Ioannidis – автором шедевров “Why most published research findings are false” (Plos One, 2005 год), “The scientists who publish a paper every five days” (Nature comment, 2018) и недавнего продолжения “Surge in number of ‘extremely productive’ authors concerns scientists” (Nature News, Dec. 2023, за пэйволом, сраные паблишеры).

Топ-5 продуктивных авторов за 2023 год, по данным скопуса (рассматриваются только журнальные статьи, статьи с конференций и data papers):

- Eldin, Sayed Mohamed M. (Scopus) – 362
- Taniguchi, Takashi (Scopus) – 351
- Harris, Emily (Scopus) – 317
- Cao, Jinde (Scopus) – 291
- Du, Xiuli (Scopus) – 272

  Кеков хоть отбавляй:

- У первого в списке резкий скачок числа публикаций и цитирований: в 2022 61 статья и 15 цитирований, в 2023 – 380 и 3454 цитирования. Также у него много статей в журналах, которые у нас уже на карандаше;
- Второй персонаж любит самоцитирования, например, в его последней статье 64 статьи в списке литературы (references),  из них 31 – за авторством себя любимого;
- Эмили опубликовала 3 статьи в 2022 и 363 – в 2023. (Upd. она менеджер в Nature England, публикует новостные заметки; FP, такое надо будет отфильтровывать).

Также были найдены редакторы, публикающиеся исключительно в своих журналах. Передаем это в команду Research Integrity & Publication Ethics и дальше пилим автоматизацию, чтоб сообщать о таких казусах на регулярной основе.

пс. спасибо брату Илье, с которым это все активно обсуждаем и даже планируем наконец поработать вместе.

Читать полностью…

New Yorko Times

"Она в Мистрале, а ты – нет". Итоги менторства, батч 1 (продолжение)
#career #mentor #interviews

- наконец, наша героиня дня из парижского гугла пришла ко мне с жалобой, что засиделась, Гугл ей осточертел, а на кону собес с дрим-тим. Сопоставив “гугл”, “Париж” и “дрим-тим где-то еще”, я понял, что речь о Мистрале. Мы позанимались всего один раз (поведенческие собесы, какие red flags бывают), вдогонку я покидал полезных ссылок. И вот вчера она получила оффер от Мистраля да с таким бейзом, что на 50% перекрывает ее TC в гугле (то есть бейз + бонусы + стоки). А еще стоки. Ну это, конечно, девушка такая крутая 💪, нужно нехилое упражнение в causal inference, чтоб понять, каков мой вклад в этот успех, но по отзыву, я помог “жесть вообще как”. Довольно необычно читать это со стороны, учитывая, что для меня самого эта позиция AI Scientist в Мистрале (LLM training / fine-tuning) выглядит недостижимым пока идеалом. Начали мы общение с того, что я признался, что сам подался на эту позицию 🙂 Имя нашей героини раскроем в марте, а пока Гуглу лучше не знать.

Слегка сюром выглядит этот список в совокупности с моей историей фэйлов, но, как говорил Гомер Симпсон, разрази меня гром, если тут хоть одно слово – неправда. Или если я пропустил хоть одного, с кем занимался за эти полгода.

Я пока возьму паузу (надо бы самому себя отменторить и устроиться на крутую работу), но где-то с апреля-мая (тут Б-г и рекрутеры такие: yeah, sure) готов взяться за второй мини-батч. Так что можно вставать в очередь – прислать мне резюме и описать, чего хочется. Как и раньше, это 3-4 занятия про поведенческие интервью, “продажу” своего опыта и всякие подводные камни в процессе прохождения интервью. Тут подробнее.

К плохим новостям: это будет недешево, в $/€ стоимость часа – заметно трехзначная, а если в рублях, то заметно пятизначная. Либо вместо этого буду брать процент от первой зп на новом месте, тоже годная схема.

Мелким шрифтом: не является инвестиционным советом. Успех первой когорты не гарантирует немедленный успех лично Вам. Самостоятельно взвешивайте успехи менти на собесах с неуспехом самого ментора.

Читать полностью…

New Yorko Times

О ведении телеграм-канала
#tips

Не так много видел случаев публичной рефлексии на тему того, зачем вообще вести канал. Я веду канал по фану, раньше писал много всего в слэке одс, потом это стухло, а мыслей всегда много (бэклог - постов на 40 и все время пополняется).

Философия моих постов очень схожа с тем что описал @kyrillic вот тут: довольно длинные посты про уникальный опыт (такое сложно загуглить), развивающие эмпатию между автором и читателем. По-минимуму новостей, мемов и прочего одноразового контента (хотя в праздники слегка увлекся мемасами).

Есть несколько советов другим авторам каналов:

- Каналов всяких много, хорошо, если название канала перекликается с личностью автора. Положительные примеры: «Время Валеры», «Сиолошная», те же Кириллик и New Yorko Times. Отрицательные примеры: epsilon correct, Записки СРЗО и т.д. Видя эти каналы в списке, постоянно задаешься вопросом «кто это?», пусть даже там материал действительно очень достойный.

- Комментарии все же должны быть включены. Ну как бы если ты пишешь осознанный текст, направленный на нанесение пользы читателю, довольно странно не дать читателю высказаться. Я сам не сразу до этого дошел (опасался, что комментарии будут слишком много времени отнимать)

- Конкретно про ML/науку: при всем уважении к каналам с разборами статей, таких слишком много и в целом они не уникальны. Куда интереснее тру-стори применения ML в реальных проектах, как развивать карьеру, личный опыт автора и т.д.

- Не бойтесь завести канал. Даже если посты будут выходить не часто, если они годные - аудитория найдется.

- Благодаря каналу можно обзавестись неплохим нетворком. Во-первых, могут позвать во всякие чатики «инфлюенсеров», во-вторых, аудитория собственного канала - тоже некий социальный капитал, в минуту жизни трудную может помочь. В-третьих, тебя могут знать именно как хорошего автора, что тоже может порой насыпать в карму.

- может, еще чем смогу поделиться позже, всегда полно идей, как еще поэкспериментировать (например, задавать вопросы подписчикам, устраивать AMA, баннерокрутилки, в которых можно рассказать народу о своих активностях/продуктах и т.д.)

У упомянутого кириллика, кстати, целая серия из 7 постов «Что я понял про ведение тг-канала», в том числе про рекламу и пиар. Я не со всем согласен (например, что заява «у меня нет рекламы» - нарциссизм, или что нельзя вести канал просто по фану, не как аналог b2c-проекта), но почитать начинающим авторам точно будет полезно.

Читать полностью…

New Yorko Times

Work-life balance
#life #career

Про WLB только ленивый не писал. Я не ленивый, так что напишу тоже. Когда как не в последний день отдыха перед тяжелейшим первым рабочим днем в пятницу (нет), после которого поеду на выходные в Бельгию. Сам при этом сейчас также еду из Бельгии после кипишной встречи с братьями (про личку редко пишу в инсте, там хэндл yurycorn. а вообще самый большой цифровой след моей жизни где? верно, в сторис жены).

Про WLB полно дискуссий. Помню еще твит Брокмана ковидных времен с тайм-трекером, показывающим 90-часовую рабочую неделю. Потом некто Игорь Котенков описал эту историю в сиолошной. Также Таня Савельева высказывала позицию в стиле “херачь пока молодой, превратись в биоробота и добейся успеха”. Хватит гиперссылок на уже существующий срачики, начнем новый (”Срачи прилетели”) – выскажу свою позицию по вопросу.

Насчет впахивания по 50+ часов она неизменна: если это твое дело, в которое веришь и готов сыграть в лотерею (стартап) – мое уважение, полный вперед. Думаю, я бы даже сам был бы готов пахать по 50-60 часов (но все же не ноулайфить) в коллективе уровня OpenAI или Mistral. То есть когда чувствуешь, что делаешь значимое дело и параллельно нон-стопом получаешь новые знания.

Хотя все равно моя любимая цитата про это:
После первого года упорной и беспорядочной работы пришел к выводу, что как бы ты ни вкалывал, ты не должен жертвовать двумя вещами: семьей и спортом. Если не уделять время семье, то можно стать человеком успешным, но несчастным. А если не заниматься спортом, то просто неоткуда будет черпать силы. На друзей, конечно, времени не хватает, но все-таки они есть.
(Алексей Зинин, фаундер в долине)

Но если же ты линейный менеджер, херачащий всего лишь за зп так, что личка страдает, ты скорее всего что-то не так понял в этой жизни. Ну либо проблемы в жизни, от которых уходишь в работу. Понятно, что все не так категорично и может быть и промежуточный сценарий, в котором ты пашешь в бигтехе, чтоб потом пахать в стартапе, озолотиться и курить бамбук в 40 лет после FIRE. Но все же я вижу немало людей вокруг себя, которые пашут, ноулайфят и, кажется, не очень четко могут себе ответить на вопрос “а зачем?”. Ну примерно как на физтехе – “зачем любить? зачем страдать? тащи матан, давай решать!”

Лично у меня сейчас период, в который доминирует лайф. После периода в мэйле, когда я параллельно тащил диссер и млкурс – то что надо. Да и Нидерланды прекрасно подходят для этого life-life balance. Но полноценно тему не получится раскрыть, не касаясь двух других – стартапов и детей. Так что на очереди “Почему я не делаю стартап” и “Отцовство vs. Карьера” #todo

Читать полностью…

New Yorko Times

Один из потенциальных вариантов развития AGI
#meme

Читать полностью…

New Yorko Times

Делюсь своими самыми большими ошибками и запускаю подкаст про фэйлы Learning machine

В прошлом посте я написала про то, как важно осмыслять свои ошибки и учится на них. И про то, что ваши ошибки определяют ваш масштаб и то, чем вы реально занимаетесь чуть ли не лучше всех других признаков. И пообещала, что если пост соберет 200 огонечков - запостить свои 3 самые большие ошибки. Пост набрал 500. Я если честно офигела от такого интереса.

Как истинный продуктовик я села анализировать причины. Это самый популярный пост у меня в канале из всех моих десятков постов. В чем причина?
И тут я поняла, что в моем инфопространстве почти нет рассказов об ошибках и фейлах на пути к результатам!!
Кажется, что у всех все сразу получается, деньги сыпятся с неба в легкости, все фичи стреляют, экономика сразу сходятся, клиенты ко всем стучаться сами со дня первого запуска. Но по моему опыту общения с фаундерами, предпринимателями, бизнесменами, топ менеджерами - это вообще не так. И открою вам страшную тайну - так не бывает.
Люди, которые пришли к классным результатам - это не люди у которых все получается с первого раза. Это люди, которые сталкиваясь с огромным количеством трудностей, ошибок встают, отряхиваются и продолжают, становясь все лучше и все крепче после каждого вызова. Это не идеальные эксперты, которые все знают сразу. Это learning machines.

Я помню как в прошлом году мне очень отрезонировала мысль одного опытного инвестора, с которым обсуждали проект. “Experts who claim to know how users should or shouldn't behave actually don't know shit. Nobody does. The world is changing, and there are an infinite number of details in every case. So, I don't care about the rules for doing things. All I care about when I look at founders is: who among you is a learning machine?”
Если коротко - никто ничего не знает заранее, самое главное - смотреть на ваши конкретные данные и ваш конкретный кейс и быстро делать выводы, ставить эксперименты и учится на ошибках. И навык быстрого обучения на экспериментах и ошибках и является самым ценным. Более того в машинном обучении этот скилл называется металернингом и по мнению некоторых экспертов лучше всего определяет то, насколько ИИ близок к AGI. Но об этом потом.

А сейчас я прихожу к вам с очень важной новостью!
Я запускаю подкаст Learning machine.
Это подкаст про фэйлы на пути к успеху и как мы на них учимся. Я считаю, что в публичном поле очень нужен такой контент. И учиться на чужих ошибках даже продуктивнее, чем на чужих успехах.
В первом выпуске, который можно посмотреть по ссылке, я рассказываю про свои ошибки.
В следующих выпусках буду выкладывать интервью с разными крутыми людьми и их опытом обучения на ошибках на пути к своей крутости. Через неделю выложу следующее видео с очень интересным гостем и сделаю короткую текстовую расшифровку тут в канале.
Обязательно подписывайтесь на мой канал и следите за подкастом.
Давайте вместе перейдем от парадигмы успешного успеха и денег в легкости к парадигме толерантности и обучения на ошибках.

В комментариях предлагайте, про чьи фэйлы и уроки из низ вы бы хотели послушать - кого еще звать гостем подкаста.

Читать полностью…

New Yorko Times

Нидерланды: рандомные наблюдения
#life #netherlands #random

Таких постов много, но этот моой («mooi» - «красивый» по-голландски).

⁃ можно бодро поздороваться выкриком «Хуй!», и тебе улыбнутся в ответ и тоже поздороваются
⁃ В Нидерландах проходят соревнования по езде на велосипеде против ветра. Выглядит это зрелищно: спортсмены во всю дурь крутят педали и почти стоят на месте
⁃ Тут есть попугаи! И пальмы тоже приживаются. У меня напротив дома общественный сад, постоянно попугаи прилетают. Про происхождение попугаев есть несколько легенд, но скорее всего просто чей-то домашний попугай улетел, взял да прижился на улице
⁃ Также в Голландии полно чаек, что менее удивительно. Но если чайки ассоциируются с закатом на море, тут опыт общения с ними может поменяться. Чайки - те еще мрази! Орут сранья так, будто кому-то яйца пилят ржавым серпом. Разносят мусор, могут и пакеты разворошить. Буллят и жрут всяких мелких, например, утят
⁃ Да, голландцы правда высокие. Правда. Очень. Высокие. Я 186 ростом и ощущаю себя среднячком. Часто можно увидеть компанию, в которой все за 190. А если я самый высокий в компании - могу не проверять, точно понаехи, как я
⁃ Снять штаны на улице или в поезде - обычное дело. Поскольку на великах ездят в любую погоду (ибо goedkoop), всегда при себе имеют regenbroek - непромокаемые штаны. И так вполне можно увидеть, как дама на улице их стягивает, пихает в сумку на веле и в юбке-колготках идет в офис
⁃ Нидерландский, конечно, очень не похож на русский (больше всего похож на немецкий, потом на английский), но благодаря Петруше в русском много заимствований. Причем не только на корабельную тему. Кран - kraan, попугай - papegaai, ананас - ananas, рюкзак - rugzak, суп - soep, стул - stoel и т.д. Иногда это неожиданно помогает.

Читать полностью…

New Yorko Times

Как взлетает мой проект с Research Integrity
#career #projects #research_integrity

Я тут писал про работу в Elsevier, и как это может и не быть зашкваром, например, если сказать примерно следующее:

ребята, окститесь, давайте кое-что халтурное из опубликованного отзовем, да и вообще поработаем над тем, чтоб такой халтуры меньше публиковалось.

Научный анти-фрод, в-общем. Добавил тег #research_integrity для предыдущих постов по теме.

Предыстория: в 2023 году отозвано более 10к статей (Nature News). Из них 8000 издательством Hindawi и 1000 – Elsevier. Не знаю, правда, источник статы, но у нас число retractions выросло вдвое, c 500 до 1000, во многом благодаря усилиям моей команды.

В августе 2022 года издатель Hindawi, купленный более крупным Wiley, отозвал около 500 статей, в основном из-за манипуляций с рецензированием. Неплохо, но стало понятно, что это только верхушка айсберга. Hindawi поделился с нами имейлами подозрительных издателей и рецензентов, и мы посмотрели на тех же деятелей в наших журналах, пометили еще около 500 статей как подозрительные. Попутно, посчитали еще несколько признаков, таких как невалидные имейлы рецензентов, подозрительно продуктивные рецензенты (слишком много рецензий в единицу времени или слишком быстрые рецензии) и наличие tortured phrases (а-ля “profound brain organization” вместо “deep neural network”) в тексте статьи. Первый репорт, конечно же, сопровождался быдлокодом в Databricks-ноутбуках, но потом я залидил разработку полноценной библиотеки.

Сейчас мы считаем около 20 сигналов - признаков подозрительной активности авторов/рецензентов/издателей. Все их перечислять, пожалуй, грешновато. Не то чтобы NDA, но рассказывать публично, как вы боретесь с читерами – так себе идея. Но из самых сильных признаков – добавление авторов после принятия (accept) драфта статьи. Но есть статья принята, а потом вдруг в соавторах – пара десятков китайцев/русских/иранцев/etc. Хз почему такая возможность еще есть в журналах. На нормальных конференциях уровня  NeurIPS уже вроде давно запретили менять список авторов после того, как статья принята. Сигнал сильный, т.к. это намек на продажу авторства (бизнес оценивается в миллионы; Nature News; в масштабах всего мира – копье, конечно, но неприятно, еще и потому, что шлак публикуется). То есть статья принимается, а затем соавторство продается через инсту/телегу/wechat. Я раньше упоминал крупную организацию, предлагающую такие услуги в Москве (какое-то время их сайт не работал, я уж думал, что разорились, но нет, живут, сидят как прежде в Москве Сити).

Еще из веселых эффектов:

- накрутка цитирований. Даже по верхнеуровневой стате можно заметить кластеры журналов, которые подозрительно часто друг друга цитируют. Если копнуть глубже, то причин много
- издатели/рецензенты суют DOI статей, которые автор обязан процитировать, чтоб статья прошла
- издатели отправляют статьи на рецензию только узкому кругу “подкормленных” рецензентов
- издатели видны в списке авторов статей, по которым принимают решения
- и т.д.

Масштаб фрода такой, что кого-то отдельно выделять даже не хочется. Но, например, Pau-Loke Show – в эпицентре множества кучерявых инициатив, причем и как издатель, и как рецензент, и как автор. Если хочется зачитаться, как детективы копают против читеров – вот пример статьи, где известный в узких кругах соотечественник Александр Магазинов проходится по списку топ-рисерчеров по версии Clarivate (аналитическая платформа WebOfScience) и доступно, порой токсично объясняет, почему большинство из них – жулики.

Либу сделали как положено, умеет масштабироваться на десятки и сотни тысяч статей, при ом что некоторые сигналы довольно вычислительно емкие. Таким образом мы помогли отделу Research Integrity проанализировать тысячи подозрительных статей и десятки странных издателей/ревьюеров.

Хоть отзывать плохие статьи и в целом помогать “очищать науку” – благородное и благодарное дело, но где-то в истории должны появиться деньги. И они появились.

Продолжение ⬇️

Читать полностью…

New Yorko Times

Решая вопрос долгов перед Azure по-мюнхаузеновски
#coolstorybob

Во время всей перепетии с Сэмом и OpenAI знакомый стартапер ходил довольно грустный. Что-то не так пошло с ретраями OpenAI апишек в Azure, и пришел счет на $30k. И вроде есть что возразить, но поддержка майкрософта решила, что в знак солидарности с OpenAI они символически не будут работать. Стартапер тоже решил, что солидарен, поэтому его решение тоже прилегло из-за неоплаченного счета. Так отвалился довольно жирный клиент. Думы надумались, что висеть на апишках – недолгосрочная стратегия 😅

Решение пришло откуда не ждали. Ажур такой: “О, ваш перцентиль месячных трат в Ажуре очень неплох – держите $150k кредитов”. Стоит ли уточнять, перцентиль хорош именно из-за выброса в $30k.

Итого в планах использовать кредит $150k на погашение долга в $30k, а на остаток – гуляй, рванина! – дальше пилить Munchausen AI.

Когда в следующий раз услышу термин “bootstrap” в контексте бизнесов-стартапов, вспомню эту историю.

Читать полностью…

New Yorko Times

Юра — Рыночек 0:10

Собрал все истории типа #interview #fail, добавил немного про характер самих собеседований, что спрашивали, как именно опрокидывали – вышел пост

https://vas3k.club/post/22053

Читать полностью…

New Yorko Times

Фэйлы на собесах: 2023 edition
#career #interviews

Тут в описании канала говорится, про фэйлы. Так что надо поддерживать темп фэйлов.

Картинка – авторства Бори Зубарева (placement: проверьте его X-LLM для файнтюнинга LLM, вдруг зайдет), которую он мне скинул после поста про неудачные собесы в 2022.

Погнали:

- Uber, Senior Applied Scientist – прошел один собес, сказали, закрыли саму вакансию (и правда, звучало подозрительно, что это синьор без подчиненных);

- eBay, Principal Applied Scientist (Gen AI) – прошел HM, а вот миддл решил меня погонять по своей боевой задаче – всякие bi-encoders, cross-encoders в задаче предсказания ключевых слов для объявлений. Причем копал глубоко. Я в теме про семантический поиск, слежу за проектом коллег, но тут прям реально глубоко... если сам не ковырял, не ответишь. Ну да, и хотел production-опыт RLHF 😳 Удачи! Надеюсь, нашли такого.

- LLM researcher в устоявшийся стартап – команда крутая, много GM-ов, все прошел, услышал много комплиментов, а дальше отмазу, что “мне у них будет не интересно”, расстался с довольно странным ощущением, как будто не знают, что хотят (еще один сильный чел, все тот же Боря Зубарев то же самое от них услышал)

- 2 хардкорных HFT-фонда - в одном домашка на дебаггинг PyTorch-кода не зашла, в другом почти идеально решил алгоритмическую задачу, но к концу 4-го часа начал тупить с ML-ной задачей. Денег там, конечно, море, но и work-life balance хромает, и C++… В-общем, тут я сам не дотягиваю.

- наконец, Amazon, да в Амстере, прошел снова всю хурмомятню из 7 собесов. В этот раз, в отличие от 2022 года, до матча с командой не дошло, услышал стандартный минимальный фидбек, что bar raiser-у что-то не понравилось в одном из ответов.

Ну, как Би-2 поет, “Я двигаюсь дальше”, благо текущие задачи очень интересные, да что-то из сторонних проектов тоже заходит. По собесам из “успехов” на данный момент только отклик другого бигтеха на мой холодный заброс резюме, готовимся к еще одной мясорубке из семи собесов.

Жду ехидные комментарии с отсылками к этому посту про менторство. Делаю шаг на опережение: у моих менти дела идут отлично, лучше, чем у меня 🙂 Один менти устроился так, что сам меня собеседовал 😂, второй, мой друг, скоро переезжает в Нидерланды, третий – на финальных этапах с тем же Амазоном, четвертый получил оффер в долине (правда, уже там находясь). Еще четверо в процессе. А сапожник пока без сапог, беру откровенностью (а новых менти все равно пока не ищу).

Хороших вам фэйлов, таких чтоб с градиентами. Ну и любая череда фэйлов когла-то заканчивается, чего всем и желаю. Если очень упорно подкидывать монетку, она таки упадет нужной стороной.

Читать полностью…

New Yorko Times

Еще один канал, который я реально читаю: @mister_sosister - стартапинг в реальном времени, со всеми фэйлами от первого лица. Раньше уровень откровенности был 10/10 - читал канал запоем. И пусть я не особо разбираюсь в этом вашем веб3, не сильно портит картину - много годных мыслей почерпнул из этого канала.

К слову о реальной ценности и growth hacking - читай и думай про chatGPT (пост из 2020-го).

Про гроуф хакинг: приходил к нам в KPN симпатяга со слайдами, рекомендовал запускать по эксперименту каждые два дня. В ответ на наши задротские комментарии про A/B и накопление статистики что-то шутил и юлил. Благо, больше я его не видел.

Читать полностью…
Subscribe to a channel