new_yorko_times | Unsorted

Telegram-канал new_yorko_times - New Yorko Times

9749

Юрий Кашницкий (Yorko, тут @yurycorn) – про машинное обучение, науку, галеры, матан, фэйлы и прочие интересности. Рекламы нет. https://www.linkedin.com/in/kashnitskiy

Subscribe to a channel

New Yorko Times

#career #random

5-минутная аналитика моих повышений и денег за 2021-2023.

По титулам: senior -> principal -> senior manager

По чистым евро, net: X -> 1.075 X -> 1.1 X.

Европка…

Читать полностью…

New Yorko Times

#career #карьера #faang #interview

Behavioural interviews in FAANG+.

Недавно делала пару мок интервью (*тренировочные интервью, mock)
по behave на уровень стаффа. У всех все прошло успешно.
Давайте пройдёмся по behave и важным пунктам подготовки.

1. Подготовка.
Первое и самое важное, которое очень многие упускают при подготовке в фаанги, т.к. наивно думают, что главное затащить литкод и дизайны, а уж behave это просто "поговорить за опыт".

Behave interview -- это не какое-то маловажное интервью, к которому можно почти не готовиться. Это самое важное интервью, и готовиться к нему надо не хуже дизайна.

Именно это интервью в основном определяет уровень, который вам предложат. Литкод этот уровень определить не может. А затащив хорошо behave and leadership можно попасть на Engineering manager, Staff+ и выше (при том же уровне дизайна и литкода).
Многие этот момент упускают и делают основной упор на литкод. Заваленный литкод вам простят при остальных отличных (со мной такое было в Мета и я видела 2 таких случая в гугл!) Но заваленное behave - это мимо.

2. Репетиции.
Крайне полезно cделать тренировочные интервью с людьми более высокого уровня в больших компаниях (если такие люди есть среди знакомых и готовы помочь - отлично. Если нет - существуют варианты за деньги).
Стоимость около 200-300 долларов за интервью. По отзывам польза он них есть.

3. Leadership principles
В Амазоне есть знаменитые leadership principles. Так вот они работают не только в Амазоне, рекомендую ознакомиться и впитать. Они хорошо подойдут как база и в другие компании для подготовки.

4. Записываем истории.
Свои истории про опыт и лидерство стоит записать. Штук 10-20, чтобы на разные ситуации и разные leadership principles.  Записать их словами. Потом прочитать и сократить. Потом опять прочитать и улучшить. Можно даже посоветоваться с карьерным консультантом. Потом выучить и отрепетировать на mock интервью (или хотя бы перед зеркалом).
Распространённая ошибка, которую я видела, это слишком долго все рассказывать, ввиду недостаточно лаконичного рассказа. Краткость важна, чтобы интервьюер успел получить все сигналы.

5. Внимание на процессы
После Eng manager/Staff+ уровня вы делаете проекты не своими руками, а руками других людей. Поэтому в историях важно уделать внимание выстраиванию процессов. Вы не сами пофиксили какой-то баг (это уровень синьора), вы наладили процесс, чтобы такого больше не могло повториться.

6. Leadership style
Вы должны знать ваш стиль лидерства и управления людьми. Мой любимый -- это leading by example, я говорю на интервью, что только он работает и с детьми дома и на работе. Всем нравится.

7. Failures
Многие реально валят истории про свои фэйлы. Худшее, что можно тут сделать, это начать обвинять бывших коллег или бывшего начальника, или того пуще звезды, пандемии и галактики... и это делают регулярно.
Фэйлы - это вообще не про то, кто виноват. Это про вашу способность к рефлексии.
Признайте фэйл, расскажите про свои ошибки, расскажите, что вынесли из этого, чему научились и как исправили ситуацию, чтобы больше не повторялось. Опять-таки, возможно вы наладили какой-то процесс.

8. Клише
Есть немало устоявшихся клише по части вопросов и ответов. Например, часто задают вопрос про недостаток, и часто отвечают про перфекционизм или трудоголизм.
Я понимаю, клише-вопросы прямо бесят иногда. Все же старайтесь быть креативными. Всем надоели ответы-клише.

9. STAR
Свои истории удобно выстраивать по формату STAR: situation (контекст), task, action, result.
Я часто видела, как люди уделяют слишком много времени описанию контекста и собственно проблемы, и потом мало времени именно actions и результатам.
Контекст нужен, но ваши действия важны, а результаты тем более. Поэтому вернёмся в пункт 4: пишем истории и потом сокращаем.

Продолжение следует.

Читать полностью…

New Yorko Times

Минусы mlcourse.ai
#ml #courses

Mlcourse.ai все еще SotA 🌿, на удивление, за 7-8 лет с момента заложения основ курса в классическом ML поменялось не так многое: регрессии и бустинги еще лет 300 будут актуальны, а питоновский стек жив как никогда (я ожидал, что появится язык, который потеснит питон или хотя бы питоновские ML либы, но еще нет). Более того, как тот дед, читающий собственные книжки, я перед собесами пролистываю материалы млкурса. Bias-variance, бустинг vs. случайный лес, где там в градиентном бустинге градиенты - все это еще очень любят спрашивать (к примеру, Амазон задал мне таких вопросов штук 8 на ML breadth собесах).

При всем этом хочется отметить минусы курса.

1️⃣ Самый существенный минус - структура. Идем от алгоритмов, деревья-линейки-ансамбли. Это интересно, интеллектуально отзывается, здорово погружаться во все усложняющуюся математику, но такой подход приучает к тому, чтоб начинать с решения. Тогда как начинать надо с проблемы. В целом видна академическая родословная курса: он вырос из моей TA активности в аспирантуре. Вот так, начиная с решений, мы приходим к громоздким решениям, порой и не решающим ни одной проблемы (к слову о стартапах): можно периодически заходить на ProductHunt и скроллить, задаваясь вопросом: «ребят, а какую проблему вы решаете?».

Сейчас я бы структурировал курс по-другому, исходя из проблем, а не ML-алгоритмов. Тут описывал, как именно, если кто видел подобный курс, подскажите. Я бы даже добавил модуль 0: коллекцию кейсов, когда ML оказывался не нужен, ведь именно no-ML отличает настоящих спецов.

2️⃣ Английский. Будем честны, по уровню английского курс проигрывает аналогам. Все же он создавался на русском, потом флотом из 25-30 волонтеров переводился, дальше вычитывался полупрофом из Стэнфорда, но до проф-уровня не дотянул. Местами видны кальки с русского и довольно кучерявые обороты.

3️⃣ Дисперсия качества. Поскольку курс писался разными людьми, немного плавают обозначения и стиль повествования. Если писать книгу, то это надо было бы все унифицировать. Что более существенно, при том что некоторые главы курса прям очень хороши, другие проседают и выше уровня документации sklearn их не поставишь.

4️⃣ Качество видео. Что и говорить, именно по видео заметно, что курс создавался почти без бюджета, на энтузиазме. Статьи топ, и сам я предпочитаю текстовый вариант. Но как видео набрали в сумме свой лям просмотров - удивительно. Все же недаром курсера навязала формат с короткими фрагментами по 5-7 минут видео: так эффективнее. Смотреть на говорящую голову и дрожащий курсор два часа подряд - это прям хардкор. Хотя на это можно и по-другому посмотреть: остаются самые мотивированные, которых увлек именно контент, а не формат.

Пс. Думаю, перечисление минусов курса не помешает поставить звездочек репе курса, авось и до 10к дотянем, тогда для приличия текущие ищьюс закрою. А заодно расскажу, как мне все же карьерно помогли эти тысячи часов, потраченные на бесплатный курс.

Читать полностью…

New Yorko Times

Подробнее про менторство по поведенческим собесам
#career #promo #mentor #interviews

Пока я не ушел в июне грести в 3 весла (и пока моя ставка ментора еще не подскочила), предлагаю ворваться в текущую когорту, есть еще 3 места (upd: уже всё, хватит). Вроде я чаще писал, что мне не нужны менти, но вот еще 7 новых уже после первой когорты, о ее успехах писал тут.

Про занятия писал тут, но еще уточню, как примерно они выглядят (хотя все кастомизируемо):

- 1️⃣ занятие. Знакомство, определение целей. Поведенческие интервью, что, зачем, примеры плохих и хороших ответов. Небольшое мок-интервью по бихейву
- Домашнее задание на описание своих проектов в формате, принятом на поведенческих интервью. Работа над резюме
- 2️⃣ занятие. Фидбек по заданию, обсуждение моего опыта собеседований (bias: я больше про applied science). Еще небольшое мок-интервью по бихейву (может быть заменено на технический мок)
- Второе задание, аналогичное первому
- 3️⃣ занятие. Еще раз фидбек по заданию. Еще обсуждение моего опыта собеседований
- Третье задание, аналогичное первым двум (надо немало времени потратить на составление story bank – 10-15 историй на основе своих проектов)
- 4️⃣ занятие. Про каверзные поведенческие вопросы. Tips & tricks по прохождению собесов

Все разбавляется кучами трюков по прохождению собесов (некоторыми я б даже не стал делиться публично, хотя все легально) и несколькими кулстори (например, как мой бывший ментор из мэйла потерял целый грейд при устройстве в Мету из-за того, что ничего не знал про бихейв-собесы).

Если записываетесь на 3-4 занятия, дополнительно можно обсудить мою поддержку в прохождении собесов в течение полугода с первого занятия. Cо мной можно советоваться по любым вопросам, связанным с собесами/переговорами/рефералами и т.д. Я же могу и варианты подкидывать. Что точно не буду делать, это надоедать, как попугай-PM: “Как прогресс?»

Заинтересовавшихся DS-ов, applied scientist-ов, аналитиков, и ML инженеров приглашаю в личку – @yurycorn. Напишите про свой опыт (приложите резюме) и как хотите поменять карьеру. Цена – такая, чтоб не спамить рекламой скилбокс в этом канале. Можно в евро с фицияльным инвойсом и в рублях – нефицияльным переводом на карту.

PS. по графику мне сейчас до начала мая удобно +/- в любое время до 17:30 cet, дальше с 16 по 31 мая – кучеряво, либо до 15 cet, либо после 20:30.

Читать полностью…

New Yorko Times

LLM-словечки да фразочки в комментариях рецензентов и статьях
#work #research_integrity

Может, видели, что chatGPT предпочитает словечко delve, возможно потому, что RLHF делали африканцы. В научных статьях и комментариях рецензентов свои приколы.

Использование chatGPT косвенно можно заподозрить по частотам таких слов как meticulous, commendable или intricate. Сначала это обнаружили в комментариях рецензентов статей на ICLR и NeurIPS (см. картинки ниже), потом уже – по корпусу полных текстов статей из Dimensions. С комментариями рецензентов любопытно, что чем ближе к дедлайну, тем скорее они написаны с использованием chatGPT. В 2023 году вообще всплеск использования “meticulous” и “commendable” и их комбинаций, и в целом Andrew Grey (которого, кстати, наша Research Integrity команда хвалит как крутого ученого и теперь вот сыщика) оценивает долю статей, написанных с chatGPT в 1%. Безусловно, будет расти.

Дальше в статье философские рассуждение, насколько оно хорошо или плохо. В целом GPT и для отшлифовки статьи может использоваться, и в плохих целях а-ля фабриковать данные. Оценить масштаб фрода с chatGPT и прочими LLM пока не получится, сложно.

Далее, если доля генерированного научного контента будет расти, последующие LLM скорее всего будут ухудшаться (есть пара статей про то, что синтетика пока вредит, также как и дубликаты). Также будет меняться сама лексика исследователей. Если повсюду “meticulous” и “commendable”, а токсичных негативных фраз меньше, это скорее всего повлияет и на подбор слов людьми.

Отдельная история – с шаблонами типа “As an AI language model” или введения статьи, начинающегося с “Certainly, here is an introduction for you”. Про это подробней расскажу чуть позже #todo, когда наш внутренний анализ закончится. Но в целом таких фраз – единицы-десятки в курируемом контенте, прошедшем через издателей и рецензентов. Google Scholar, да, много такого показывает, но сколар индексирует “все что похоже на рисеч”, и качество этих документов не сравнить с базами опубликованных статей Scopus или Web of Science. Тут скорее интересно будет порассуждать про задачу поиска “черного лебедя”, когда False Negative (например, статья с введением “Certainly, here is an introduction for you”) в 1000x раз опаснее False Positive (то есть, редактору пришлось отвлечься на безобидное применение фразы типа “certainly, here”). Какие-то ручные проверки у нас уже наладили, пока ни одного оповещения за 2 недели не было.

С этим черным лебедем “Certainly, here is a possible introduction for your topic:” (статья все еще висит) история кек. В принятой версии драфта все было норм, автор не виноват. GPT-фраза появилась уже в продакшн-процессе, ее оставил кто-то из контрактников, вычитывающих принятые статьи. Что, безусловно, не снимает ответственности с паблишера, хейт-волна на линкедине и в твитере вполне оправдана.

Читать полностью…

New Yorko Times

🌸Стрим на Рабкоре в 20.00🌸

Сегодня, в 20.00 по мск

На этом канале я часто рассказываю про проблемы авторских прав, доступа к научных знаниям, взаимодействия ИИ и науки.

Сегодня на Рабкоре необычный стрим: сегодня в гостях — Юрий Кашницкий @new_yorko_times , Principal ML Scientist в Elsevier, а также создатель открытого курса по МЛ mlcourse.ai

Приходите!
Будем обсуждать проблемы науки и научного знания:
— Ситуацию с доступом к научным работам, подходы традиционных издательств и открытых платформ;
— Как так вышло, что издательства берут деньги за публикацию статей?
— Платформы распространения научных публикаций, их историю и роль сейчас;
— Акселерацию науки с помощью ИИ — в чьих она руках? Попадут ли публикации из того же Эльзивир в обучение вообще?
— Какие способы читерства существуют в науке? Как LLM меняют научный ландшафт уже сейчас?
— А распознать текст, написанный LLM, вообще возможно?

🟣Youtube:
https://youtube.com/live/Ycx-DwO0cbY

Читать полностью…

New Yorko Times

Мои проекты в Elsevier. Часть 2.
#work #projects

Вставка. Кто разглядит это в середине длинного поста, тому скорее актуально: тут скоро появится вакансия на Principal Machine Learning Scientist в Эльсивир в Амстердаме (тут был я), можно готовиться, искать у себя комбинацию индустриального и академического ML опыта. А пока опишу свои проекты за прошедшие 4 года, однозначно лучшие за карьеру.


Regretted Rejects (неуспех). Паблишеры отвергают кучу статей. Некоторые статьи потом вполне могут уйти к другим паблишерам и даже попасть в крутые журналы. Кривая оценка, основанная на матчинге статей только по названиям, намекала, что компания теряет восьмизначную сумму на таких regretted rejects. Мы попробовали применить frequent itemset mining и прочий data mining, но что-то блестящих инсайтов не накопали. Менеджеры как-то тем временем друг на друга смотрели и думали, с какой сторон подойти к слону. Ждали инсайтов от DS, мы жадли конкретики от менеджеров. В-общем, затухло.

LLM-детектор. Проект с карт-бланшем на чистый рисеч: я сразу сказал, что такое никто не умеет, значит, будем рисечить. Много писал на эту тему #fake_text_detection. В целом мало что выходит, кроме соревнований: запустили одно с COLING в 22-ом (так себе), потом мелкое мы выиграли как участники, сейчас еще делаем сореву с ACL 2024. Воз и ныне там, орешек не колется. Но скоро хотя бы запустят валидацию сторонних решений, уже этого совсем не тривиально – представьте даже. как сложно составить инструкции разметчикам: вот это текст человека, а это – GPT или другой LLM. Попутно тут возимся с LLM-фразами, проникшими в статьи, что заслуженно прорвало твиттер (охота на черного лебедя, скоро расскажу, что там накпали).

AnalyticsGPT. Тут пока просто идея – конвертировать запросы пользователя про науку на естественном языке в запросы API и отвечать. Условно, “кто самые известные нидерландские ученые, вносящие вклад в SDG 7 Affordable and clean energy?”. Вот тут бы дернуть апи скопуса/SciVal, достать нужные метрики и ответить пользователю. Пока все на стадии PoC, из реального вклада – только мелкие фичи для чем-то похожего ScopusAI (про наши LLM-прототипы писал тут).

Research Integrity. Про это тоже много писал по тегу #research_integrity. Я долго объяснял всем higher-ups, кто слушал, что репутация – это деньги, в долгосрочной перспективе. И вот деньги подкатили раньше, чем я сам ожидал. С нашим прототипом (либа пока даже не в проде) отдел Research Integrity сумел отстоять 4 журнала от деиндексирования из WebOfScience. Это спасло пару млн. Контекст: ребята из Clarivate, WebOfScience делают примерно то же, что и мы, находят манипуляции с цитированиями, признаки paper mills, прочий фрод и выкидывают такие журналы. Impact factor падает до нуля, трафик тоже. Издатель Wiley так потерял около 30 млн. из-за покупки Hindawi. MDPI, всегда известный фривольным отношением к качеству статей, тоже потерял несколько журналов и млн. Clarivate говорит, что эльсивир лучше всех других издателей помогает с данными для поддержки исследований по обнаружению фрода.

По комбинации интересных проектов, work-life balance и дохода, возможно, эльсивир надолго останется на парето-горбе моих мест работы, в том числе будущих.

Читать полностью…

New Yorko Times

Про Бендера из мира науки и Elsevier
#science

Спустя 7 лет и под закат карьеры в Эльсивире мой пересказ статьи Guardian (был в одс где-то в 2017) про Максвелла читается все так же свежо.

Дисклеймер: текст ниже - вольный пересказ статьи Guardian
——

Захватывающая история про развитие отношений исследователей и издателей и то, как, возможно, всего лишь один Остап Бендер коренным образом повлиял на устройство сегодняшней науки. Издание научных журналов – это еще один большой бизнес с оборотом около 20 лярдов фунтов в год (а это сравни музыкальной индустрии). Прибыль одного только Elsevier, крупнейшего издателя научных журналов, составила в 2010 году 36% – это покруче, чем у яблока, гугла и амазона (хотя сравнение так себе, учитывая масштаб последних).

А ведь так прикинуть, кто-то в этой бизнес-модели явно лох: продукт здесь – это статьи. Создаются они исследователями, почти за бесплатно. Качество продукта проверяется тоже исследователями (никакой уважающий себя журнал не платит за рецензирование). Потом этот продукт продаётся опять-таки исследователям (научным организациям и университетам). При этом издатели получают доход, ограничивая доступ к продукту (без подписки – хрен тебе). Получается вообще не чеснок, а какой-то гнилой базар. К тому же, журналы ещё и задают тон исследователям, в каком направлении двигаться и что изучать, объявляя годные и негодные темы. Введение фаллометрии в виде импакт-факторов и хиршей, а также новые масштабы эры интернета окончательно подсадили научную общественность на иглу издателей. Не помогают даже возмущения, связанные с длиннющими, как хирш хинтона, чеками научных библиотек.

В статье захватывающе описана история роберта максвелла, основателя лондонского издательства Pergamon. Время для науки было идеальное – послевоенное. Государства готовы были вкладывать миллиарды в науку, потрясающие открытия (секвенирование генома, космическая эра, позже – компьютеризация науки) только способствовали этому. А наука по-прежнему опиралась на труды сообществ, издававших порой только раз в год старомодные книжечки.

Пришёл делец, не учёный – товарищ быдловатый и обаятельный, с варварским чешским акцентом, но обладающий главным – бизнес-жилкой (вариант business flair мне нравится еще больше). Какому-нибудь известному эпидемиологу, скажем, хватало всего пары часов общения с Робертом Максвеллом – и вот через неделю уже выпускается international journal of epidemiology. Журналы плодились как кролики-нимфоманы. Максвелл чувствовал и рынок, и главные тренды в науке. Как говорил Скотт Фитцджеральд, “a millionaire is no ordinary man”.

Чем все кончилось, не буду спойлерить, но во многом именно Pergamon установил современную бизнес-модель научных журналов. А потом продался Elsevier почти за лярд фунтов. А с приходом цифровой эпохи перестало хватать пальцев на руках, чтоб перечислить все нули в доходах Elsevier. Минусов такого капкана множество, и ученые это понимают. Максвелла даже называли “последним неповешенным дельцом в науке“. Но и Elsevier вовремя понял, что надо переходить на электронный формат, и подсадил на иглу просто всех. Либо ты подписан на них и платишь за это лям в год, либо ты просто вне науки. В конце немного затрагивается тема борьбы учёных со сложившейся системой.

Но если про становление империи Роберта Максвелла читаешь на одном дыхании, то вот sci-hub как-то зажевали. А ведь эта шутка, возможно, когда-нибудь пошатнёт ноги колоссу научных издательств (рассказчик из 2024: «не пошатнул»). И запустила это дело простая казахская девушка Александра Элбакян, которой Elsevier сейчас предъявил иск на максимально возможную сумму, и шуре приходится прятаться в США. ArXiv в статье проигнорирован ровно настолько, что днём с ctrl+f не сыщешь. А жаль... но и без этого статья длиннющая и очень интересная.

Читать полностью…

New Yorko Times

ACL 2024 Shared Task про детекцию генерированного научного контента
#fake_text_detection #kaggle #ml #chatgpt

Я уже рассказывал, как мы делали не самое удачное соревнование при COLING 2022. Теперь вторая итерация, при ACL 2024 – CodaBench (+ страница воркшопа + GitHub с бейзлайном).

Вместо бинарной классификации аннотаций на человеческие и синтетические (пересказанные/LLM-генерированные/суммаризованные/etc), теперь мы взяли полные тексты статей и делаем token-level классификацию на 4 класса: “написано человеком”, ”заменено синонимами”, “сумаризовано”, “пересказано chatGPT”. Гипотеза, что авторы не полностью пишут статью LLM-ками, а частями (верна гипотеза или нет, мы не знаем, не имея детектора, а мы его не имеем). Задача слегка похожа на недавнюю в semEval 2024 task 8 subtask 3, где часть текста написана человеком, часть – элэлэм, и надо было предсказать номер токена, где происходит переход.

Детали (также подробно описано на CodaBench):

1. Данные. Игрушечный пример для нашего соревнования:
- tokens: [’this’, ‘is’, ‘a’, ‘paper’, ‘this’, ‘part’, ‘is’, ‘gpt’]
- target: [0, 0, 0, 0, 3, 3, 3, 3] – первые 4 токена написаны человеком (класс 0), вторые четыре – GPT (класс 3); классов 0 и 1 в этом примере нет.

2. Метрика – average row-wise macro-F1, то есть по строке считаем macro-F1 (в примере выше с прогнозом из всех нулей, например, это 1/3), затем усредняем по строкам, поясняется на странице Evaluation соревнования, тоже с игрушечным примером.

3. Бейзлайн. В качестве бейзлайна делимся DistilBERT-ом, обученным в token classiifcation режиме. GitHub

4. Дополнительные данные можно использовать, надо только до тестовой фазы (29 апреля) описать источник на Форуме соревнования.

5. Призы. В отличие от многих академических соревнований, в том числе от нашего же прошлого, тут предлагается Деньга! 3k за 1 место, 1200 – за второе, 800 – за третье.

6. Участие в ACL 2024. Также есть возможность обубликоваться на ACL 2024, топовой NLP-конфе, и даже съездить в Тайланд в августе, рассказать про свое решение (уже, правда, за свой счет либо из призовых). Соревнование – это Shared Task воркшопа Scholarly Document Processing при ACL (мы-то знаем, что публикации на воркшопах – не то же самое, что main track A* конференций, но эйчары не всегда знают, а ключевые слова можно сунуть в сиви. Только тссс…).

Сам же скажу про минус соревнования: уже бейзлайн выбивает 0.84 на лб, задача опять получается “вещью в себе”, реальная детекция LLM-текстов куда сложнее. То же самое, впрочем, и у нас в прошлой сореве было, и в той антверпенской c 4-мя командами, что мы выиграли (пост), и даже в SemEval 2024.

Налетайте!

пс. для самых подкованных кэгглеров, мотивированных жизнеописаниями грандмастеров: теоретически можно покраулить-пошкряпать, т.к. полные тексты статей нам дали только из открытых статей. Так только время потеряете, залететь в топ лб можно, но призов не будет. Слегка серой зоной остается скраппинг для получения доп данных, тут оговорка в правилах (подсказанная chatGPT, конечно): “Data scraping with the intention of restoring any aspect of competition data is strictly forbidden. The specific objective of scraping is subject to the discretion of the organizers.”

Читать полностью…

New Yorko Times

#fake_text_detection

Вот это ближе к реальному положению вещей, а не 99% оверфита из папируса на архиве или статьи в Cell (про что я уже гундел тут).

Еще факт из реальной жизни: Editorial Manager раскатил такой детектор от TurnitIn для проверки десятков миллионов драфтов статей. Редакторы, очевидно, возбухли: что за цифирь? Ну и процессы никак не были настроены на AI text detection, тем более кривой. Быстро вырубили софтину.

Я сидел на питче этого решения TurnitIn, показали поле, куда вставляешь текст и получаешь процент «AI-written». Любой джун такое за спринт сделает. За мои каверзные вопросы про полноту не пояснили. Очень силился не токсичить.

Читать полностью…

New Yorko Times

Собесы, второй тайм. Когда 2:16 – это победа
#interviews #fail #career

Такое это дело, собеседования, что победить можно и со счетом 2:16 и даже 1:100. При должном везении уже 1 гол-оффер – это победа. Главное чтоб кукухи хватило на все пропуски-отказы.

По тегу #interviews можно найти прошлые части, наиболее полно первые 10 фэйлов описаны тут. С тех пор было еще 6 фэйлов и долгожданные 2 оффера. Тут я расскажу подробно про фэйлы и совсем не подробно – про офферы. Что делать, таков bias, историю Тернауса с Теслой никто не хочет повторять (tldr: прошел собес с Карпатым, в то время в Тесле, уже был назначен собес с Маском, но дисквалификация, т.к. трепался в ODS, и какая-то крыса настучала).

- Apple Music, ML Researcher for Recommender Systems, Лондон – отказали после первого собеса, наняли моего бывшего коллегу, который уже в Лондоне да с большим опытом в рекомендашках. Fair enough

- Aiforia, ML Team lead – выходцы из Алисы и Sber Devices, сейчас на Кипре. Прошел HM-a (смесь бихейв/технического), далее небезысвестный Влад Крамаренко @Vlomme меня погонял по “основам эмэль”, что было легким троллингом, таких заковыристых вопросов я давно не видел. Некоторые начинались с промпта “я сам не знаю тут ответ”. Но в целом нужен был опыт с голосвыми технологиями, которого у меня совсем нет, так что без вопросов, не прошел

- Replika – увидел их пост в Вастрик клубе, что ищут фронтендеров, но можно писать и просто так. Написал CTO, пообщались. Не то чтобы прекрасный матч, ребятам нужны рисечеры с большим уклоном в инжиниринг. Для себя сделал вывод, что как бы я ни хотел подсветить Applied Science, не стоит допускать фразы типа “копаться в конфигах” 🙂

- Nvidia, Senior Applied Scientist – боль и позорище, писал тут

- Cohere, AI Engineer – c этими ребятами прям все понравилось, очень адекватные собесы. Мелкое тестовое на оптимизацию питонячего кода (тут попалась та же задача, что мне Влад давал, так что не зря с ним собеседовался, хех). Вместо литкода –  ML coding, надо было реализовать сэмлирование из упрощенного LLM-декодера (жадное, top-k, top-p). ML system design был прямо про систему оценки LLM, над которой Cohere прямо сейчас работает. Полагаю, они немало идей черпают у кандидатов. И обзор статьи на выбор, тоже про LLM evaluation. В финале бихейв с большим боссом, и как-то искры не проскочило, получил не фидбек, а отмазу какую-то типа “lacked the level of adaptability and speedy execution”

- Snorkel AI, Staff Applied NLP Scientist – вот к этому варианту я прямо эмоционально прикипел (хоть и совет: не делать так до оффера). Стартап, основанный 5 пхд из Стэнфорда, бурно развивается, единорог. Видение у них довольно стройное: компаниям не нужны монстры с 1.8T параметрами, им нужны специфичный модели под свой домен, затюненные на своих данных (YC согласен: ”Request for startups”: small fine-tuned models as an alternative to giant generic ones). Snorkel топит за подход с programatic data labeling, который экономит время экспертов на разметку, а также вовсю юзает LLM для soft labels. Плюс дистилляция/квантизация – получаем мелкие и мощные модели, в блоге Сноркела полно таких историй (пример). Тут тоже были очень адекватные собесы: сразу бихейв, потом ML coding, ML system design и презентация про рисеч-проект. И вот за последнее я словил фидбек “has shown too much leadership”. Причем, все остальные собесы – отлично. Шо бля? Я, конечно, сначала негодовал, но потом понял, “если ты сердишься, ты не прав”. Надо было уточнить и эйчара, какой архетип стаффа им нужен. Я техлид, а они, видимо, искали решалу, который может в одиночку рвать лидерборды и тащить проекты. Вот так, на горьком опыте, я добавил себе +1 вопрос к эйчарам/HM.

И наконец, 2 оффера: один на VP AI в местный стартап, второй – на позицию пониже, но в компанию побольше. Про все расскажу, но теперь уже в конце лета. И видимо, насобираю несколько постов: про трюки-лайфхаки в процессе поиска работы, статистику источников онсайт-собесов (”лидов”), гигиену кукухи и т.д. Без мемотреда тоже не обойтись.

Читать полностью…

New Yorko Times

Сделать 10 лямов на paper mill бизнесе и сдать всех подельников?
#research_integrity

Вести с полей: с помощью нашего Research Integrity прототипа (тут вещал) коллега обнаружил довольно масштабную paper mill (избу-писальню, хорошо б такой перевод закрепить). Далее отдел этиков получает письмо от индуса, в копии Retraction Watch (пожалуй, самые авторитетные ребята в области Research Integrity, ведут список отозванных статей). Письмо – чистый нигерийский спам из 90-ых, товарищ утверждает, что заработал 10 лямов на paper mills, но сейчас у него наступил Damascus moment (не знал такой фразы – что-то типа озарения) и он решил помочь паблишерам. Сам уже вроде где-то на острове, в безопасности. И как террорист, взявший на себя ответственность за теракт, он выдал кучу деталей. Про 10 лямов оно, конечно, неправдоподобно, вот только явки-пароли пары десятков редакторов (editors), которые герой выдал – настоящие, и многие из перечисленых личностей уже давно на радаре. Весело работаем! Production-версию прототипа можем назвать Sherlock.

Читать полностью…

New Yorko Times

Юра и ЮАР
#life

Слетал в командировку в ЮАР, представлял наш GenAI. В понедельник в Кейптауне, в среду в Йоханнесбурге, сегодня - в Дурбане. Пост про GenAI в Эльсивире тут уже был, так что буду просто про Африку.

Кейптаун просто кайф, оправдал репутацию. Смесь экзотики и цивилизации. Я ездил на мыс Доброй Надежды, попутно видел антилоп и страусов, в метре от себя - змею. Дорожные знаки предупреждают о бабуинах и пингвинах, выбегающих на дорогу. Из кеков: когда уже залез на последний камень, свесил ноги над обрывом, думал о крае света, вечном и мореплавателях 17 века, слышу - «Марат, еще так бахни!». Мужики из Казани в кепариках, с барсетками. Затерли про слово пацана, как меня кидали в Татарстане, как у нас на Выхине в Москве даже опасней было.

Чтоб передать дух Кейпа, опишу просто рынок. Пахнет морем и хвоей, ходишь по деревянным стружкам под навесом. Кухни со всего мира, люди тоже, играет современная африканская музыка с традиционными мотивами. Все улыбаются, все говорят по-английски. На фоне - Столовая гора и Кейптаунский стадион, построенный к ЧМ 2010 по футболу (на нем, к слову, Нидерланды победили Уругвай в полуфинале). Бургер из местной коровки - топ!

Йоханнесбург уже на любителя. Зато там рядом национальный парк. В свободный день поехали в сафари-тур почти на весь день. Ну и что тут говорить, на всю жизнь запомнится. Видели почти всех из big five - слонов, леопардов, носорогов, а также жирафов, бегемотов и всякую мелочь. Начался тур с того, что штук 7 слонов заблокировали дорогу, поскольку могут.

Но про настоящую Африку не скажешь, не упомянув бедноту. Несколько сотен тысяч кейптаунцев живут в трущобах, это жесть просто, туда я не рискнул сунуться. Если что, у вастрика отличный пост про ЮАР и в том числе про бедных.

Надеюсь когда-нибудь еще вернуться, уже на пару недель. Вокруг одного Кейпа можно кататься дней 10, не надоест.

Читать полностью…

New Yorko Times

Каков из тебя Старший Прикладной Ученый в Нвидео
#interview

В журнале “Лиза” сразу после моих любимых рецептов идет секция с опросами. Вот там попался такой, получится ли из тебя Старший Прикладной Ученый. За каждый вопрос можно по баллу. Результат – в конце.

Intro

1. Do you have experience dealing with super-large language models? Do you like do model parallelism at all?
2. Did you work with 70b models or only with 7b and 13b?
3. Do you have production experience with model alignment?
4. Okay, so you're saying you haven't started with DPO and RLHF stuff yet, right? (1 балл – за отриц. ответ)

NLP

5. Can you explain to me how self-attention works?
6. Now the same in mathematical terms
7. Can transformer inference be parallelized?
8. What’s the complexity of the self-attention operation?
9. After the self-attention, what happens in the transformer?
10. How many feed-forward layers are there in the transformer block?
11. What’s the dimension of the feed-forward layer?
12. So internally, it’s super wide. Do you know any reason why people design like that?
13. Do you know this paper where people can edit the transformer memory? Have you heard this?
14. Basically the knowledge is stored in the weights of the transformers, right? So like, for example, the Eiffel Tower is in Paris, right? So this knowledge can be edited. So they find out where the memory located. You know this paper?
15. Have you read about like Hopfield network? (No) Yeah, this is called associative memory. So it's a Hopfield network. It's kind of like an ML, feed-forward network, MLP. Basically, that's where the memory happens. You can store this key value.
16. Have you read the RETRO paper?
17. So have you done anything with RETRO before?
18. Do you know how this RETRO external information is feeding into the language model?
19. Can you explain to me what's the difference between T5 and GPT?
20. How does the encoded information fit into the decoder in T5?
21. So, can you revisit the question about RETRO feeding the retrieved documents into the decoder?

Coding

22. Let me first start with some easy questions. Can you explain to me what's the difference between variables on stack versus variables on heap?
23. It’s about memory allocation. So what's the main difference, how it's stored in memory?
24. So, have you done like programming? Anything apart from Python?
25. In Java memory management, do you know the few generations of the variables in the memory?
26. How does garbage collection work in Java?
27. How does a variable on a stack work?
28. How is it related to the scope of variables, e.g. global and local ones? Where are those allocated in memory?
29. Why does recursion use a stack?

Algorithms

30. (3 балла) Describe a solution to the “8 queens” problem. Describe the pseudocode (no need to write code)
31. (3 балла) What’s the complexity of the algorithm?
32. (3 балла) What’s the classic CS 101 algorithm for this problem?

---

Итого макс 38 баллов.

- Если у тебя 30+ – добро пожаловать в следующий раунд (в котором неизвестно что). Ставь 🤓 к посту, глянем, сколько нас таких
- Если у тебя меньше 30 баллов – ты злобный тупой урод нормис и на Старшего Прикладного Ученого в Нвидео пока не тянешь

пс. К слову, я мог закончить собес сразу после 24-го вопроса.

Читать полностью…

New Yorko Times

Унижение с NVIDIA
#fail #interview

Продолжаем марафон фэйлов. После десяти описанных уже накопился мини-батч, отдельно расскажу про NVIDIA. Это был не провал, а провал с треском. Не failed, а failed miserably.

Знакомство сразу типа «че, порох нюхал?» на чем DPO гоняешь? Как distributed model parallel делал? Не, не делал, только DDP? А, че 70b модели не трогал? Интервьюер китаец и очень вежливый, но вайб примерно такой.

Дальше неплохо. Трансформер, NLP, все дела. Архитектуру трансформера вообще почти все спрашивают. Правда, чел лихо делал отсылки ко всяким статьям типа Retro, начитанный. Но я вроде норм поддержал беседу.

Посыпался я на первом же вопросе про инжиниринг. В чем отличие хранения переменных в стэке от кучи? И как это связано с локальными/глобальными переменными? Я не то что забыл, думаю, я никогда даже не изучал это. Я вопрос-то распарсил со второго раза. Максимум мог промямлить, что стэк появляется при рекурсии.

И алгоритмы: задача «8 ферзей». Классика, 101, по словам интервьюера. Код писать не надо было, только решение описать. Но я что-то начал лепить то dynamic programming, то бэктрекинг. Хоть сложность факториальную правильно оценил, но все же четко не расписал решение с DFS. Думал это простая задача, база, а это хард.

На удивление, не сильно зацепило. Я знаю, что не хардкорный инженер. Гораздо хуже, когда все прекрасно и в последний момент обламывается.

А NVIDIA ищет единорогов, крутых и в рисече, и в инженерии. Могут себе позволить, в описании вакансии Senior Applied Scientist вилка для US 185-335k, и это только base. А акции все видели, потолок пробивают.

Читать полностью…

New Yorko Times

Советы вкатывающимся в Data Science c невыдающимся резюме
#career

Мир становится жесток, да, долго и сложно. Но можно. Собрал несколько рекомендаций (не исчерпывающий список, по убыванию приоритета):

- Рефералы, рефералы и еще раз рефералы a.k.a. кумовство. Вот правда, благодаря знакомым в принципе можно попасть на такие позиции, на которые в норме бы ваше резюме вообще не рассмотрели. Ничего страшного, если пройдете. Да, будут синдром самозванца, но потом можно и нагнать. О том, как правильно нетворкаться, – неплохо написано в посте “А как собеседоваться в 2023?” (правда, там описана версия для экстравертов 80-го левела, вариант с чуть меньшей соцактивностью тоже подойдет);

- Первое на что смотрят в резюме – реальный опыт работы. И его не заменишь курсам/сертификатами/профилями на литкоде или кэггле. Так что тут лучшее, что можно посоветовать – искать сторонние проекты, чтоб этот опыт получить. Например, HuggingFace инициирует проекты, где любой желающий может подключиться (а-ля обучения берта для тамильского язык, мой коллега там участвовал). Тот же open source. Еще можно найти команду для прикладного проекта в рамках курса (например, такая активность была в курсе ods.ai по MLOps). Это не быстрый путь, знаю, но это чуть ли не единственное, что может выделить одного кандидата на фоне других при прочих равных условиях;

- Если у вас нет Data Science опыта, но есть релевантный опыт в разработке или аналитике, может быть реально поучаствовать в Data Science проектах в компании, где вы уже работаете. Если наберется track record из 2-3 таких проектов, то уже проще будет и формально перейти на DS-позицию. Иногда для этого надо чем-то пожертвовать, например, немного проиграть в деньгах или в должности;

- Как ни банально звучит, первым делом смотрят на резюме, так что его надо слегка прожарить. Сервис ResumeWorded прям хорош (пост).

Что скорее не поможет:

- Набивать титулы типа Kaggle Competitions Master. Тут можно потратить уйму времени и в результате отклик может не обрадовать. Эйчары не сильно различают грандмастеров в Notebooks и соревнованиях, так что ваша лычка может быть не так уж и заметна. Есть, конечно, исключения, например, команды с большим представительством Kaggle Competitions Grandmasters (H2O, Nvidia Rapids), но среднему человеку я не порекомендую такой путь развития (мне он тоже не подходит). При всем сказанном, получить немного опыта на Кэггле – однозначно здорово.

- Получать охапки сертификатов. К ним отношение противоречивое, но если у вас нет релевантного опыта работы, скорее всего сертификаты не спасут ситуацию.

Читать полностью…

New Yorko Times

Таня все по делу говорит. Она в свое время запрыгнула на стаффа в LinkedIn за счет бихейва, на 90%.

Читать полностью…

New Yorko Times

Почему я не делаю стартап
#career

Хотел описать подробно, но кажется, это достаточно неплохо сделали (как минимум) Gergely Orosz в блоге из 4-х частей про ZIRP (Zero Interest Rate Period) и кириллик тут. Это я еще не нашёл 2-3 других блог-поста про плюсы бигтеха в сравнении со стартапами.

Орос пишет, что сейчас процентные ставки пошли вверх, и для стартапов это плохо: зачем инвестору рисковать, если обычные безрисковые бонды US treasury дают неплохой процент? Худо всем: простым работникам, стартапам (особенно поздних стадий): раунды усыхают, промежутки между раундами увеличиваются, экзитов почти нет и т.д. Там 4 части за пэйволом, много всего интересного (на просторах телеги не нашел пересказа), но это основная мысль.

От себя добавлю еще несколько:

1️⃣ Я не считаю, что у меня есть какие-то блестящие идеи. Даже если были бы, «идеи ничего не стоят», то есть за счет грамотного execution бигтех или кто еще возьмет твою идею и реализует лучше. Не исключаю того, что присоединюсь в будущем к какому-то стартапу, но точно к сильной команде с track record, у которой можно будет поучиться анализу рынка, поиску пресловутого PMF и построению команды. Самому собирать грабли и называть это хорошим опытом - не так интересно, хоть опыт и хороший, правда

2️⃣ Стартап - во многом лотерея. Я не против, люблю пощекотать нервы (по собесам, например, походить), но мне не так это весело делать, когда речь о карьере. Пока предпочитаю вялый продуманный, поступательный трек движения вверх в корпорациях, тем более там тоже есть еще чему поучиться.

3️⃣ Я бы сейчас не вписывался в LLM-стартапы. Даже если экзит случится, до него лет десять. А за это время инвестиционный фон может еще ухудшиться. Кривая Gartner подсказывает, что Gen AI близок к «долине разочарования» и вообще инвестиции в AI исключительно хороши, в сравнении с другими стартапами, такое вряд ли может долго продолжаться. Мы-то изнутри этой кухни понимаем, что все только учатся зарабатывать на LLM и Gen AI в целом и пока это получается не очень здорово. Безусловно, Gen AI поменял нашу жизнь навсегда, как те самые доткомы, просто в ближайшие несколько лет откат должен произойти (если что, я не эксперт, и это не карьерный/инвестиционный совет).

Все это не отменяет того, что я уважаю ребят, отважно верящих в то, что они делают, и пашут по 70 ч/нед. над реализацией. И прекрасно понимаю, что есть люди, которые не могут иначе. Так что интересно будет вернуться к этому посту через N лет, когда я, кто знает, может и буду делать стартап.

Читать полностью…

New Yorko Times

That's a meticulously commendable piece of research!


1 - из статьи "Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews"
2 – из статьи "ChatGPT contamination: estimating the prevalence of LLMs in the scholarly literature"

Читать полностью…

New Yorko Times

#random

Для всех терзающихся синдромом самозванца и ищущих в каждом встречном сына, а то и внука маминой подруги. Наш новый EVP – остепененный титулами бакалавра математики Кембриджа, магистра военного ремесла одного лондонского колледжа и Ph.D. истории также Кембриджа. И маленькая деталь: он – олимпийский чемпион Сиднея-2000 по гребле.

Читать полностью…

New Yorko Times

Заходите на огонек к Тане @rybolos_channel, поговорим про то, что я тут описываю #research_integrity #fake_text_detection и, шире, про проблемы науки, особенно в GenAI-эпоху.

Читать полностью…

New Yorko Times

Мои проекты в Elsevier. Часть 1.
#work #projects

Пришел я в апреле 2020, когда ковид только набрал силу, ноут не приходил месяца три, моей дочери еще не стукнуло и полугода, кошка заболела раком (все хорошо), а девушка, передававшая мне проекты, работала над mental health, так скажем. Благо, жопа по всем фронтам была недолго, вскоре все наладилось.

Simultaneous submissions. Идея применить LSH (масштабируемый алгоритм поиска текстовых почти-дубликатов) к статьям пришла сразу. На выходе – и инструмент, и куча идей по research integrity, и даже математическая задачка. Тут писал. Побочный плюс – описывал проект в формате research presentation на двух собесах: с Амазоном и Snorkel AI. Даже too much leadership проявил.

Scientific language editing. Проект а-ля научный Grammarly надо было сразу убить (пост). Но в эпоху Gen AI проект воскрес, и сейчас мы активно и свои мистрали-гпт дообучаем, и сторонние решения смотрим. Потенциальный импакт – уменьшить часть из неск. миллионов, которые издатель трат на редактирование языка в принятых статьях. Побочный эффект – сигнализировать об очень плохо написанных статьях.

SDGs. Проект по классификации научных статей по вкладу в Sustainable Development Goals. Тут с первых дней было понятно, что импакт огромен, прогнозы выкатятся и во все основные продукты, и в Times Higher Education Impact Ranking. Тут я провел пару бессонных ночей, ничего не получалось. Потом пообщался с челом из другой команды (всегда полезно) и он подсказал поиграться с порогами (этот универсальный трюк я тут описывал). В итоге комбинированное решение из класики и ML всем зашл, и недавно мы статью в q1 журнале написали (пост). По версии младшего брата, все еще "очень слабо", но сплю я спокойно (то есть начал спать спокойно как забег по собесам кончился).

Научный классификатор. Таких много, конечно, но этот был легаси стартапа, который Эльсивир приобрел несколько лет назад. char-RNN c довольно кучерявым feature engineering раскидывал статьи по 3-уровневой иерархии научных областей и использовался в отчетах для всяких жирных клиентов от Unesco до Еврокомиссии. Мне надо было перенять Tensorflow-модель 😳 и по-нормальному катнуть в прод, навесить mlops. Решив, что модель четкая (по ней и статейка научная была опубликована, а первый автор – тот самый чел, который сдвинул меня с мертвой точки в проекте с SDG), я около трех недель возился с hf accelerate, чтоб обучить ее на новых данных. В конце проверил tf-idf с логрегом, и оказалось гуд инаф. Вот так сам наступил на грабли, хотя золотое правило: первым делом бейзлайн. И еще вывод: доверяй крутым ребятам, но проверяй. Правда, модель там простая, а вот из фич осталось несколько любопытных – помимо текста самой статьи (название, ключевые слова, аннотация), добавили все то же из процитированных статей. То есть своего рода уже графовая классификация, хоть и без графов.

Классификация статей в графе цитирований. Предыдущий проект навел на мысль порисечить графы и как мы мо;ем ими улучшить все классификации, а их у Эльсивира и даже одной нашей команды полно (большие ребята типа китайской или австралийской академии наук любят приходить и просить раскидать рисеч по их таксономиям, чаще всего чтоб понять, в какой именно рисеч инвестировать). Я решил уже больше руководить, чем копаться с hf accelerate и матюгать легаси на тензорфлоу, и взял студента из на программу masters универа Амстердама. Он оказался хорош, наняли его DS-ом, на следующий год он помогал тащить уже второго студента, причем по той же теме. Второго парня тоже наняли. Более того, он дотащил идею до основного трека COLING (препринт), так что в мае поедут тусить в Турин. Вот только в прод ничего из этого не пошло, +3-4 пп. к метрикам того не стоят. Зато наняли двух шикарных ребят, отличный выхлоп рисеч-проекта.

Продолжение ⬇️

Читать полностью…

New Yorko Times

#shitpost

В следующий раз зайдет разговор о лицензиях, скину этот женский сплин про MIT license в исполнении Suno.

Читать полностью…

New Yorko Times

#meme #diy

Когда подписал оффер и вернулся к своим баранам - на стендап с уже старой командой

Читать полностью…

New Yorko Times

Вышел ресеч по AI-детекторам текста, это которыми студентов и откликающихся на вакансии пугают – мол не используйте ChatGPT, мы все узанем.

Можете показать этот пост HR или тем кто учится:

— Точность AI-детекторов в среднем по рынку всего 39.5%;

— Вы можете добавить в сгенерированный текст разные виды атак и точность определения AI-текста упадет до 22%;

— Только 67% текста написанного человеком было помечено как «Реальный»;

Эффективные виды атак на AI детекторы — каждая из них серьезно влияет на точность определения AI текста:

1. Добавление орфографических ошибок и опечаток:

Вместо: «The quick brown fox jumps over the lazy dog.»
Пишем: «The quikc brown fox jmups over the lazy dog.»

То есть будто мы спешили и быстро псиали.

2. Написание текста как не-нейтив спикер:

Попросите LLM писать текст будто вы не нативный владелец этого языка.

Вместо: «I am very happy to write this essay for my English class. I hope to get a good grade.»
Пишем: «I am very happy to writing this essay for my English class. I hope to get good grade.»

Для нас совсем простой хак 🌚


3. Увеличение неравномерности:

Вместо: «Солнце ярко светило. Птицы щебетали. Легкий ветерок шелестел листьями. Это был идеальный день для пикника в парке.»

Пишем: «Солнце ярко светило. Птицы щебетали. Легкий ветерок шелестел листьями, создавая умиротворяющую атмосферу. Это был идеальный день для пикника в парке, где семья и друзья собрались вместе, чтобы насладиться прекрасной погодой.»

То есть длина и структура предложений варьируются, чтобы создать более динамичный и насыщенный деталями текст. Короткие предложения сочетаются с более длинными и описательными, имитируя повествования человеческого письма.

Мое мнение про AI-детекторы:
Это шлак 😎 — на них нельзя полагаться.

Бонус:
На основе этого ресеча и основных аттак я собрал GPT «Anti AI-Detection» — вставляете туда текст, и она его переписывает применяя эти атаки. Работает не так хорошо как люди, конечно же, но работает.


Исследование целиком:
https://arxiv.org/abs/2403.19148

Читать полностью…

New Yorko Times

#promo

Пока допекается пост про вторую часть захода по собесам, еще с 8-ю компаниями (выйдет позже вечером), поделюсь довольно случайным мини-батчем инициатив от знакомых + просто полезными ссылками и интересным чтивом.

- @mathbotan – “Математик в Лондоне” пишет не столько о математике, сколько о Лондоне: про зарплаты и налоги (как без этого), кто живет богато в Лондоне, как угоняют тачки в Лондоне и куда продают; есть и более нишевые истории, как про темщиков (тех мутных ребят, не работающих официально, но при деньгах) или как бездомный стал рок-звездой и миллионером
- В ту же тему: давно читаю канал Татьяны Ландо @landoinlondon – она работает лингвистом в Гугле, раньше 7 лет в Яндексе. У Татьяны как раз угнали машину, о чем она поведала. А так много всего про жизнь в Лондоне, в том числе культурную
- Стартовал 3-ий запуск курса ODS “MLOps и production в DS исследованиях”. Про него я раньше тут рассказывал
- Летом стартует бесплатный LLM Zoomcamp от DataTalksClub (Алексей Григорьев)
- @mister_sosister, описывающий фэйлы со стартапами в реальном режиме, как-то увлекся инстой-шортсами, уже рука потянулась отписаться, но Олексий накатил серию постов про кризис в стартапе и делегирование. Вот последний особенно хорош, как и бизнес сохранить, и кукуху, при этом отойдя от дел.

Читать полностью…

New Yorko Times

В Гааге на посольской улице, которую сами же голландцы предложили переименовать в улицу Навального. Очередь тут на километр с лишним - до Дворца Мира и дальше. Голландцы удивлены, таких очередей наверное и не видали, приятно, что многим не пофиг.

Кстати, на этом месте неплохо провести и регуляризацию, вслед за этим постом. Зигующие, голосующие за Путина и прочие одержимые, по Глуховскому - будьте добры на выход. Как впрочем и экстремисты с другим знаком, считающие, что хороший русский должен полежать в гробу или что русский = путин. Мне цифры любой ценой не нужны, чтоб продавать рекламу Сбера или скилбокса.

Уважаю Юдина и призывы не поляризоваться и помогать друг другу. Но это не касается одержимых, никому из них я не готов как-либо помогать, хоть контентом хоть советом. А переубеждать кого-то стоит пытаться, если это твои близкие. Ноунеймов в инете не переубедишь.

Тут место для единомышленников, для тех, кто может сложить 2+2 и отличить добро от зла. Нет войне!

Пс. Проживание в РФ само по себе не рассматриваю, как признак чего-либо. Прекрасно понимаю, что в голове может быть полный порядок, а в сердце боль, но возможности уехать - нет. Либо есть желание остаться и делать доброе дело.

Читать полностью…

New Yorko Times

Собес на live-coding с GPT
#interview #ml #chatgpt

Помните, сетовал, что придумал интересное домашнее задание на MLE,  а оно крякается c chatGPT в два счета?
Думал, что с этим делать, не луддитом же быть и запрещать новшества. Проверил после этого пару заданий, уже после того как рассказал, что они крякаются chatGPT. Так себе. В итоге превратил это в live-coding задание. Можно пользоваться чем угодно – copilot, chatGPT, гугл, etc. Само задание – обучить модель сентимент-анализа новостей о крипте, провалидировать ее, завернуть в API в докере и показать, что API работает. Обкачать свежие новости, проверить на них модель.

Что ж, пока самый интеречный собес из тех, что я давал. Рутина решается промптингом, интерсно поглядеть, как человек оптимизирует работу за счет технологий. Меньше времени тратится на скуку типа парсинга даннызх. Больше времени остается на дискуссию: почему так, а не так? Почему тут chatGPT неоптимальный сплит сделал при валидации? А как мониторить прилождение в проде?

Единственно ограничение, которое пришлось оставить – это чтоб LLM только для кода использовались. Перекидывать мои вопросы в chatGPT и отвечать так же душно – это не интересно.

Теперь надо готовиться к кандидатам, которые собрали пайплайн прослушивания разговора и ответов на все вопросы риалтайм.

Читать полностью…

New Yorko Times

#career #random

Когда-нибудь точно назреет вторая часть рассказа про "Санька с Wall Street" (первая тут). Пока дерну лишь один факт из биографии: после уникального опыта в Barclays, Goldman Sachs и хедж-фондах, когда Саню уже во все стороны раздирали как уникального спеца, все равно ушло 22 (!) попытки на то, чтоб найти текущий топовый хедж-фонд, где все вокруг умнее тебя, а платят пресловутые 300к/сек (на самом деле так много, что я уже даже у лучшего друга не спрашиваю, сколько именно). В-общем, месседж: это все про марафон, гигиену кукухи и умение не сдаваться.

Читать полностью…

New Yorko Times

LLM-прототипы в Эльсивире
#projects #work #chatgpt

Я как-то раньше описывал свой идеальный формат работы - applied science: придумал (или получил идею от топов), накидал прототип, параллельно продумал бизнес-кейс, поработал с разрабами/PM, пошел к следующей идее. Еще и как играющий тренер тащишь небольшую команду, 40/60 менеджмент/руками. И благо, LLM-прототипы хорошо подходят под такой стиль работы.

Три проекта с моим участием (уже больше менеджерским):

- оценка качества языка и (полу-) автоматический proof-reading. Считай, научный Grammarly. примерно 300к (из 2.5 млн в год) драфтов статей прямо очень плохо написаны, тут бы экономить врем редакторов. Ну и даже принятые статьи проходят дорогой этап copy-editing, часть которого – language editing. Я перенял этот проект аж в 2020 как только пришел и даже писал, что это проект, который надо было убить. Но с LLM-революцией он воскрес. Мне все еще кажется, что тут лучше Buy чем Build – такие решения предлагаются уже примерно 15-20 компаниями, где-то 6 из них мы шортлистнули для проверки. В то же время у нас очень многообещающие промежуточные результаты и с llama-2 и Mistral (кстати, пдтверждаю, у нас Mistral 7b лучше, чем llama-2 13b) и конечно, с GPT тем более. Плюс у Эльсивира большой датасет для файнтюна, поскольку есть свой сервис пруфридинга статей, то есть можно накопать пару соетн тысяч оригинальных статей и их поправленных версий.

- Scopus AI, научный ассистент. Это пока самый большой GenAI проект, тут тоже явный competitive edge – уникальный датасет научных верифицированных знаний (Scopus). Можно общаться, задавать вопросы по статье, искать похожие по теме, визуализировать дерево научных понятий. Вот тут подробнее. К сожалению, b2b – по подписке универа, так просто не потыкаешь. Технически – семантический поиск, RAG и куча оберток над GPT API. Вижу 2 проблемы: 1) хз кто будет за это дополнительно платить 2) очень quick&dirty, 90% тащит PM c выпученными глазами, он сам же кодит и скидывает зипчики с кодом, гитхабом не пользуется 😂 красавчик-нэйтив, хорошо говорит, кидает всякие 6-pagers в амазоновском стиле, так что у менеджеров на хорошем счету (мы там недавно «пассажиров» обсуждали?) Поглядим, что с этим проектом будет.

– тренировка собственной научной LLM, вместе с LG (внезапно: те самые LG что холодильники делают, еще и обучают кастомные LLM для больших клиентов). Я там тоже по касательной прошелся, помогал с созданием некоторых из instruction tuning датасетов. Но проект огромный, менеджеры вовсю в него верят, в основном, опять же, из-за огромных уникальных научных датасетов. В целом подход как у FLAN – затюнить на 20-25 "навыках", но уже в скорее в научной сфере (author disambiguation, reference extraction, классификация статей на 30+ кастомных таксономий и т.д.). Тоже интересно поглядеть, не ожидает ли эту LLM судьба Galactica (тут я потратил немало часов, объясняя менеджерам, что галлюцинирующего бота нельзя просто так выставлять клиентам, если речь о науке/медицине). Ну и конечно, любопытно будет поглядеть, побьет ли эта научная ллм хотя бы мистраль на научных задачах. Ни мы, ни LG все же не openAI и не мистраль, вот уж неловко было бы спустить много денег и выдать посредственную модель.

А так в компании еще штук 20 PoC с LLM исследуют, конечно, почти все – на уровне промпт-инжиниринга:
- ScienceDirect Answers (в целом то же почти что Scopus AI, но на данных ScienceDirect)
- автоматическое форматирование манускрипта под требования нового журнала (это прямо pain point, когда статьи перекинули в другой журнал и надо всей этой херней заниматься)
- помощь в написании cover letter для ревизии статьи - типа что изменилось, зачем, dear editor, please take a look
- как и с научным Grammarly, раз в 2-3 года воскресает идея создания ассистента для написания статьи, для авторов, с фичами типа рекомендации цитирований, написания Review, тем же language editing. Но пока, видать, PMF не нашли
- и конечно, прочие задачи, с бертом в проде, пытаются решать с LLM. Как мне кажется, чисто из любопытства и пока скорее безуспешно

Читать полностью…
Subscribe to a channel