boris_again | Unsorted

Telegram-канал boris_again - Борис опять

12937

life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin

Subscribe to a channel

Борис опять

Рецепт тортика

Украдено у /channel/adventures_somewhere

Читать полностью…

Борис опять

Делимся расписанием ИИшницы «Диффузионные модели и их расширения», которая пройдет в этот четверг на YouTube-канале AIRI 🍳

🔵15:30 – Вступление, Артур Кадурин, AIRI

🔵15:35 – «Диффузионные модели: три стороны одной медали», Дмитрий Ветров, ФКН ВШЭ, AIRI

В докладе спикер рассмотрит три способа интерпретации диффузионных моделей и кратко перечислит основные преимущества, которые дают разные способы взгляда на эту популярную генеративную модель.

🔵15:55 – "Star-Shaped Denoising Diffusion Probabilistic Models", Андрей Охотин, ФКН ВШЭ

Диффузионные модели сейчас достигают высокого качества на задачах генерации изображений и звука, однако, испытывают проблемы с генерацией данных со сложной внутренней структурой. Статья, про которую расскажет Андрей, представляет обобщение классических диффузионых моделей, позволяющее использовать не только гауссовское зашумляющее распределение. Благодаря этому удается добиться высокого качества генерации данных из таких специфических многообразий.

🔵16:15 – «Применение генеративных картиночных моделей в рекламе» Валентин Хрульков, Яндекс

Валентин расскажет о практических сценариях использования технологии генерации картинок для улучшения привлекательности рекламных баннеров.

🔵16:35 – "Entropic Neural Optimal Transport via Diffusion Processes" Никита Гущин, Сколтех

Доклад основан на статье "Entropic Neural Optimal Transport via Diffusion Processes" (NeurIPS 2023, oral). Оптимальный транспорт с помощью нейронных сетей — новое направление для решения задач непарного переноса стиля и доменной адаптации. В докладе Никита расскажет про способ связать оптимальный транспорт и диффузионные модели с помощью задачи моста Шрёдингера. Помимо рассказа о разработанном в статье алгоритме будут рассмотрены также другие уже известные алгоритмы для задачи моста Шрёдинегра и их приложения.

🔵17:55 – "Training of an integrator of diffusion model trajectories" Вячеслав Мещанинов, ФКН ВШЭ

Диффузионные модели продемонстрировали огромный потенциал для генерации данных самой разной структуры. Однако главным их недостатком является большое количество шагов на этапе использования, необходимое для качественной генерации объектов. В докладе Вячеслав расскажет о том, как можно преодолеть данный недостаток и обучить модель, которая за один шаг способна пройти всю траекторию генерации диффузионной модели.

Сохраняйте ссылку на трансляцию, до встречи в четверг! 🍿

Читать полностью…

Борис опять

Вечный цикл компутер вижна

1. Нагромодили костылей, получили SIFT
2. Устали от костылей, изобрели ResNet
3. Нагромодили костылей, получили Faster RCNN
4. Устали от костылей, изобрели DETR
5. Нагромодили костылей, получили Grounding DINO/SAM
6. Вы находитесь здесь

Читать полностью…

Борис опять

Я уже достаточно долго занимаюсь вокалом с преподавателем.

Наблюдение: получается сильно лучше если я перед упражнением мысленно говорю себе “у меня получится.” Прям лайфхак какой-то. А/B тестом конечно не замерял, но субьективно эффект очень явно ощущается.

Читать полностью…

Борис опять

Вопрос на синьора в компьютер вижне

Читать полностью…

Борис опять

Помните, рассказывала, как я в Кембридже на Хинтона ходила? Наконец выложили запись доклада, она вот. Доклад реально интересный с необычными мыслями, посмотреть рекомендую. Еще там очень интересная (я бы даже сказала, веселая) часть в конце с ответами на вопросы. Где-то даже слово "коммунизм" промелькнуло 🌝

А тут скажу еще вот что. В тех постах выше я рассказывала о той части этой лекции, которая касается опасности AGI. Но там была еще другая часть, первая. Касалась она аналогового железа и mortal computation. Эта идея вот про что (по крайней мере, как ее поняла я): смотрите, современные AI-модели не привязаны к конкретному железу (например, к одному компьютеру). Одну и ту же модель можно запустить на разных устройствах, и мы точно знаем, как эта модель устроена и работает. Можно сказать, что AI-модели "бессмертны": если даже сломать сервер, модельку можно будет перенести и запустить на другом серваке.

А что если отказаться от принципа бессмертия моделей? Что если подумать о том, чтобы создавать AI-агентов, которые были бы неотделимы от своего "железа"? Которые в процессе обучения могли бы учиться использовать свойства своего железа по-максимуму и даже подстраивать его под свои задачи?
Такой подход потенциально может дать два важных преимущества:
1. Модели подобного рода могли бы потреблять гораздо меньше энергии для работы. Например, возможно, мы могли бы использовать что-то типа аналоговых компьютеров;
2. Возможно, мы могли бы придумать, как "выращивать" железо с разными архитектурами и свойствами под решение определенных задач. Т.е. процесс обучения модели будет сводиться не просто к подбору численных значений фиксированных параметров, но и к подбору самой архитектуры.

Но тут возникает проблема: алгоритм обучения моделей backpropagation для такого не подойдет. Причины такие:
1. Он очень энергозатратный;
2. Для backpropagation нужно знать точное устройство модели и вид ее forward pass. А если мы добиваемся пункта два выше (учимся выращивать железо), то точный вид функции, которую будет выражать модель, нам будет неизвестен.

Короче, есть мотивация подумать о других способах обучения моделей. Которые подошли бы и "смертным" моделям. А дополнительной мотивацией еще может служить то, что человеческий мозг, по всей видимости, ничего похожего на backprop не делает. То есть, точно можно придумать что-то еще и для AI.

Так вот. Первая часть Кембриджской лекции была как раз про эту идею отказа от "бессмертия" моделей. А конкретнее, переходы в лекции были такими:
- описание идеи "смертных" моделей;
- идея, как можно такие модели учить без backprop;
- а что если у нас есть куча "смертных" моделей: как заставить их взаимодействовать и делиться знаниями друг с другом?
- дистилляция — хороший способ делиться знаниями с моделью, но в современных моделях (включая LLM) она сейчас используется неэффективно;
- что если куча LLM-like моделей получали бы знания из реального мира, а не из интернета, и делились ими друг с другом;
- How AI can take control и далее то, о чем я писала в прошлых постах.

Вот так вот от идеи аналоговых компов мы пришли к "AI захватит мир🙃"

Напоследок снова скажу: посмотреть лекцию советую. Это может хорошо помочь посмотреть на привычный AI с немного другой стороны. После этого точно появляется, над чем подумать.

📽Ссылка на лекцию

Читать полностью…

Борис опять

Меня уже спрашивали, что я считаю главным при поиске удаленной работы в EU/US/UK. Банально, но по моему мнению главный барьер это английский язык. Не жалко поделиться курсами, слово рекламодателю.



Чтобы уверенно говорить на английском во время собеседования — нужно несколько раз пройти его неуверенно и с ошибками. Чтобы говорить хорошо на англоязычных стендапах — нужен опыт стендапов. Где его взять? Попробуйте курсы «Английский для работы в IT» в Яндекс Английском.

Обучение построено не вокруг абстрактной теории, а вокруг рабочих ситуаций и полезных для карьеры навыков:

Стендапы. Подготовитесь обсуждать задачи, задавать вопросы и просить о помощи.
👨‍💻 Работа с заказчиками. Научитесь презентовать решения, говорить про баги и фичи.
📣 Митапы. Сможете понимать на слух доклады и выступать сами.
😎 Собеседования. Научитесь рассказывать про свой опыт, понимать вопросы и тактично переспрашивать.
👯 Неформальное общение с коллегами. Сможете рассказать о своих интересах, опыте, планах на будущее.
💻 Код-ревью. Сможете описать сделанное, дать обратную связь, тактично отстоять своё мнение.

Запишитесь на бесплатную консультацию.
Куратор определит ваш уровень языка и расскажет про обучение.

Читать полностью…

Борис опять

#обзор_статьи #ml

# Language Models Represent Space And Time, Gurnee and Tegmark

Наша любимая тема “LLM это статистические попугаи или все-таки нет.”

Tldr: авторы обнаруживают, что при тренировке на датасетах связанных с географией модели выучивают линейные представления пространства, а на датасетах про хронологию выучивают линейное представление времени.

Создают шесть датасетов содержащих названия мест или событий плюс координаты в пространстве и времени.

Используют замороженную Llama-2 на названиях мест и событий, далее обучают linear regression probes, то есть маленькие модели, которые принимают на вход активации трансформер блоков и предсказывают целевые переменные (место и время).

Как конкретно это работает
1. В каждом датасете прогоняем через модель названия сущностей (места или исторические личности), сохраняем последний вектор активаций каждого слоя. Т.к. это трансформер активации это набор векторов для каждого токена на входе, они берут только вектор соответствующий последнему токену. Получается матрица N x D_model для каждого слоя. Считайте простой табличный датасет.
2. Тренируем на этом табличном датасете линейную модель, где в качестве таргета берем время или географические координаты.

Обнаруживают:
* Визуализация 2D PCA преобразоания активаций дает картину очень похожую на карту мира (для датасета про весь мир).
* География и время очень хорошо предсказываются по активациям, с test R^2 близким к 1.0.
* Замена линейных пробов на нелинейные MLP не дает улучшений, поэтому делается вывод, что активации линейно связаны с географией и временем.
* Результаты сохраняются независимо от вариации промптов.
* Предполагают, что активации нейросети содержат информацию об относительном расположении объектов, а линейные пробы уже потом переводят это в абсолютные значения времени или координат. То есть внутри себя модель координат не содержит.
* Чем дальше слой от входа, тем больше информации активации содержат про время и пространство. Выходит на плато примерно в середине нейросети.
* Для более крупных моделей ошибка у линейных пробов меньше, то есть активации содержат больше информации про время и пространство.
* Есть отдельные нейроны, которые активируются в зависимости от времени или места.

Читать полностью…

Борис опять

Клевый и бесплатный движ для студентов. Слово авторам:

неУниверситет — это социальный проект для студентов 18-23 лет, позволяющий получить уникальные знания, навыки и ресурсы для построения карьеры и жизни.

Не важно на кого ты учишься и где живешь, неУниверситет проводит бесплатные онлайн занятия по гуманитарным дисциплинам (психологии, философии, истории etc), профессиональным навыкам (аналитике, финансам, маркетингу etc) и критическому мышлению (аргументация, дискурс, принятие решений).

Программа неУниверситета длится 2 года, занятия проходят два раза в неделю в вечернее время. Набор на программу длится до 15 октября 2023 года, а следующий набор на программу стартует не раньше 2025 года.

неУниверситет — это сообщество, знания и карьера для таких как ты. Подать заявку и пройти отбор можно на сайте neuniversitet.ru или через бот @neUniBot 🤘

Читать полностью…

Борис опять

Подборка 75 вопросов по алгоритмам для попадания в FAANG (или уже MANGA? Я давно запутался)

https://www.teamblind.com/post/New-Year-Gift---Curated-List-of-Top-75-LeetCode-Questions-to-Save-Your-Time-OaM1orEU

Читать полностью…

Борис опять

#работа

# Что ты продаешь?

По итогам собеседований множества кандидатов пытаюсь выделить часто повторяющиеся ошибки. Одна из банальных вещей: рассказ о себе.

На собеседованиях очень часто спрашивают “расскажите о своём опыте” и я тоже так делаю. Цель этого вопроса в том, чтобы узнать, что человек может предложить компании, и чем компания может ему помочь. Понятное дело, что человек предлагает свои способности писать софт, но нас интересует конкретика. Какой именно софт? С какой степенью автономности? В каких условиях? И так далее.

Приписка: лично я задаю этот вопрос, чтобы выделить один из проектов кандидата и распросить о нем подробнее. Но даже мне важно услышать, что же человек может предложить.

Таким образом рассказ о себе должен быть в меру продающим. Сейчас собеседуя аналитиков я часто слышу в ответ что-то вроде: “Я учился в таком-то университете, работал в компании Х и занимался там этим, потом в компании Y и занимался там вот этим, сейчас в Z делаю дашборды и ещё мне нравятся прогнозные ML модели.” Послушав это так и хочется спросить: так что ты предлагаешь? Иначе говоря: что ты мне продаешь? Ты умеешь делать дашборды и планируешь заниматься ими, или ты хочешь заниматься ML? Ты уже умеешь делать ML модели или ты хочешь научиться? Для тебя критичен ML или ты пойдешь работать туда, где его нет? Много вопросов, так мало ответов.

Я считаю, что рассказ о себе лучше делать в обратном хронологическом порядке и сразу говорить, что ты продаешь. Например, я бы строил его примерно так:
1. Я тимлид ML в Planet Farms, моя команда занимается компьютерным зрением и ML Engineering для фабрик. В текущей комании я построил ML инфраструктуру с нуля.
2. У меня богатый опыт software engineering, data engineering, а так же есть опыт в ML рисерче. Я и ML делаю, и пишу хороший код.
3. Я ищу <вставить почему я ищу работу, чем хочу заниматься и куда расти>
4. О чем вы хотите услышать подробнее?

Не в тему поста:
Для аналитиков и сочувствующих советую почитать то, что пишет в своем канале Тагир, Senior Data Analyst в Альфе, у него как раз пост про дурацкие вопросы на собеседованиях вышел.

Читать полностью…

Борис опять

Men be like “I am not gay” but then “Wow I love TRANSformers” and “Look, this langugage model is so LARGE ohhh”

Читать полностью…

Борис опять

https://importai.substack.com/p/import-ai-340-drone-vs-human-drone

Aaah here come the autonomous murder drones

Читать полностью…

Борис опять

#работа

# Как я собеседую аналитиков

Я ML инженер, но на меня упала задача проводить технические собеседования на позицию аналитика данных. Компании требуется человек в Италии, который будет ходить по фабрике и искать как помочь людям с помощью данных. Разыскав что-то он будет доносить эту информацию до моей команды. После чего мы будем вместе придумывать откуда достать нужные данные, как их поместить в DWH и в каком виде презентовать. Мы ожидаем, что человек будет и автономно общаться с людьми, и сам делать анализ с помощью python, SQL и BI инструментов.

Вот незадача: я сам не аналитик и не знаю как собеседовать аналитиков. В прошлом я работал аналитиком продукта, так что имею некоторое представление, но не более того. Я не знаю какие именно каверзные вопросы задавать и какие технические навыки проверять. К тому же у меня лишь одно техническое собеседование, чтобы составить мнение о кандидате.

Я придумал: пусть лучше не я буду допрашивать кандидатов в чем они разбираются, а они будут объяснять это мне. Если человек хороший аналатик, то он сможет мне объяснить свою специфику так, что я пойму. Например, я не знаю тонкостей проведения A/B тестов. Но я точно пойму по рассказу кандидата, разбирается он в них достаточно, чтобы просто объяснить мне, или нет. Дополнительно это проверит навыки коммуникации, ведь на работе кандидату придется объяснять сложные вещи людям, которые понимают сильно меньше меня. Короче говоря можно задавать открытые вопросы вместо закрытых.

Существует небольшой шанс, что человек окажется отличным рассказчиком, а на деле не сможет написать “SELECT * FROM table”. Поэтому я добавил в процесс собеседования простую задачу на SQL. Для решения надо лишь сделать джоин таблицы с самой собой.

Итоговая структура собеседования такая:
1. Вступление, объяснение как будет проходить собеседование, рассказ о компании и команде.
2. Разговор про опыт кандидата. Выбираю один из его проектов и начинаю углубляться в детали. Составляю мнение об опыте и глубине знаний.
3. Кейс: представьте, что вы работаете в компании и вам нужно найти способ оценить эффективность фабрики так, чтобы можно было сравнить несколько фабрик. Явно говорю кандидату, что он может задавать любые вопросы. Что ожидаю: человек задает много вопросов, формулирует необходимость создания метрики, придумывает подходящую метрику. Понимает, что метрика должна быть нормализована, чтобы можно было сравнивать фабрики разных размеров и конфигураций. Один из правильных ответов: ROI (return on investement), но он не единственный. Составляю мнение о способностях кандидата решать задачи автономно.
4. Задача на SQL. Составляю мнение об уровне программирования и SQL.
5. Если остается время задаю дополнительный вопрос для проверки знания статистики.

Мне кажется это довольно простое собеседование. Однако мы уже отсмотрели семь кандидатов (не считая отсеянных на этапе скрининга). Метрику сформулировали только трое, причем ни один по моему мнению не задал достаточно вопросов. Задачу на SQL решили тоже двое. Пока никто не продемонстрировал знаний статистики на уровне “чтобы определить наличие статзначимой зависимости с помощью линейной регрессии применяется F-тест”.

К счастью два кандидата из семи прошли собеседование на четверку. Один из них быстро получил оффер от другой компании, так что мы его потеряли. В любом случае конверсия неплохая.

Читать полностью…

Борис опять

The Reversal Curse of LLM

Жаль, но похоже все языковые модели, независимо от размера, лажают на обобщениях фактов: A⠀is⠀B⠀→⠀B⠀is⠀A.

Авторы собрали несколько датасетов с такими логическими следствиями и проверили самые крутые модели (включая LlaMa и GPT-3). Оказалось, что обучаясь на факте "John is a son of Ann", модели не учат "Ann has a son John". А соответствующие логиты даже на капельку больше не становятся. Эта проблема есть и у GPT-4 (см. картинку).

Статья, GitHub

Читать полностью…

Борис опять

​​Компания, собравшая базу человеческих лиц со всего мира, обжаловала штраф в 9 миллионов долларов в суде Великобритании.

Американская фирма ClearviewAI, известная своим сотрудничеством с спецслужбами США и рядом скандалов из-за сбора персональных данных в европейских странах, выиграла аппеляцию по делу о штрафе в 7,5 миллионов фунтов (9,1 млн долларов), который ей в прошлом году назначил британский информационный надзорный орган — Information Commissioner's Office (ICO).

СlearviewAI использует социальные сети и другие открытые источники для сбора фотографий пользователей, а затем предоставляет свою базу данных для сопоставления, работая таким образом как сервис по установлению личности. В прошлом году в ICO пришли к выводу, что деятельность фирмы нарушает европейский и британский регламенты о защите персональных данных — людей, чья информация была использована, об этом не уведомляли.

Представители компании подали апелляцию, указав, что обслуживали в Британии только правоохранительные органы, а данные обрабатывались вне границ страны. Суд признал правоту Clearview и отменил решение о штрафе, поскольку существующие регламенты не касаются работы силовых ведомств с персональными данными.

Сейчас сервис в основном использует полиция разных государств. До 2020 года Clearview предоставлял свои услуги не только государственным, но и частным клиентам, но в результате одного из судебных разбирательств объявил, что переходит на исключительно государственное сотрудничество.

С судами по делам о незаконном использовании персональных данных пользователей фирма столкнулась в США, Франции, Италии, Греции, Канаде и Австралии. В некоторых случаях осталось неясно, удалила ли Clearview свои базы данных, признанные незаконными.

С февраля 2022 года компания бесплатно предоставляет свои услуги властям Украины, используя огромную базу фотографий из VK. По мнению экспертов, опрошенных изданием Wired, активное использование ВКонтакте украинскими силовиками для идентификации российских военнослужащих, «спорно» с точки зрения человеческих прав. Как отметили собеседники Wired, это лишь один из возможных способов применения такой технологии: она пригодна для использования и в сугубо военных целях, что само по себе имеет потенциал нарушения международно признанных прав человека.

Широко развёрнутая система распознавания лиц работает в российских городах с 2018 года. Для неё использовали технологию FindFace, которую в 2010 году называли «убийцей анонимности». Ранее в этом году СМИ сообщали, что основатели NtechLab, компании-разработчика этой технологии, покинули собственную фирму после того, как им не удалось уговорить её руководство остановить работу FindFace в России.

По различным данным, из 10 городов мира, наиболее плотно покрытых сетью видеонаблюдения, от 8 до 9 находятся в Китае. Если исключить китайские города из этого перечня, в десятке окажутся четыре крупнейших города Индии, а также Москва, Санкт-Петербург, Багдад, Лондон и Лос-Анджелес.

Фото: Ascannio / Shutterstock

#лихая_долина

Читать полностью…

Борис опять

Уже сегодня ИИшница в 15:30!

Читать полностью…

Борис опять

#работа

# Как собеседовать инженеров

Сейчас я расскажу как построить найм инженеров от налача и до конца на основе своего многолетнего опыта. Многим он может показаться слишком суровым. Но к сожалению не вы изобрели правила этой игры. Какой рынок труда, такой и процесс.

Для начала надо поставить в вакансии зарплату примерно вдвое выше рынка. Например, 400 000 руб. для среднего разработчика. Не пугайтесь, это все часть стратегии.

Это обеспечит вам непрекращающийся поток кандидатов. Бонус: все они будут смелыми, потому что всех "наверное я не потяну" вы уже отсеяли. Это как быть самой красивой девушкой на вечеринке.

Далее зовем кандидатов на собеседование. Но ни в коем случае не по одному, а группами по 5 - 10 человек. В HR это называется Batch Processing. Этим вы экономите себе время, проверяете людей на способность к общению в коллективе и задаете соревновательный дух.

Поведенческий отсев это первый этап собеседования. Лучший выбор: игра с музыкой и стульями. Сразу отсеиваем кандидатов, которые отказываются играть: они и на работе будут ныть "ой, я фронтенд делать не нанимался" и все в таком духе. Играем до победителя и в конце его отсеиваем: слишком склонен к конкуренции, наверняка подсидит вас.

Технический отбор. Разыгрываем по модели телешоу: всем участникам задается технический вопрос, первый поднявший руку отвечает. Ответил правильно: плюс балл. Не ответил: минус. В конце отсеиваем нижнюю половину по баллам.

Наконец, переговоры о зарплатах. Устраиваем аукцион второй цены. Например, начинаем торги с 400 тыс. рублей. Кандидаты предлагают цифры меньше, если готовы работать за такую зарплату. После победы выгоняем победителя, все равно он терпила, и нанимаем человека с предпоследним предложением. Теория игр работает на вас!

Если вы все провернули верно стоимость должна была упасть сильно ниже рынка.

#щитпостинг

Читать полностью…

Борис опять

https://github.com/donnemartin/system-design-primer

Читать полностью…

Борис опять

https://huyenchip.com/ml-interviews-book/

Читать полностью…

Борис опять

#работа #лабораторный_журнал

Многим могло показаться, что мы слишком жестко собеседуем аналитиков данных, да и вообще всех.

Так вот, только что общался с кандидатом, который прошел все этапы на пять.

1. Chad резюме, где присутствовали такие вещи как построение модели данных в DWH с нуля. Самое главное, что на собеседовании он мог подтвердить этот опыт.
2. Дружелюбная и структурированная коммуникация. Рассказ о себе начал с основной сути, а затем перешел к деталям. Явно адаптировал рассказ под наш запрос, значит внимательно прочитал описание вакансии.
3. Не сыпется при вопросах по опыту, может объяснить почему делал так, а не иначе.
4. Грамотно решает кейсы: задает вопросы, уточняет задание, предлагает решение, не останавливается на первом попавшемся решении и сравнивает несколько вариантов.
5. Решил SQL задачу, способен сделать self-join таблицы.
6. Сделал follow up после собеседования, сказал всем спасибо.

Наверняка попросит много денег!

Это уже второй такой кандидат. Поэтому мне кажется, что наш процесс выбран верно, а отсев не слишком жесткий.

Читать полностью…

Борис опять

И зачем я читаю все эти интересные и практически бесполезные для практики ML инженера статьи? 🤔

Читать полностью…

Борис опять

ChatGPT это инструмент для написания сопроводительных писем, change my mind

https://news.ycombinator.com/item?id=37761045

Читать полностью…

Борис опять

🏆 Telegram ML Competition

Prize fund: $40,000 – from which the 1st place winner will receive $15,000 if any submissions qualify for 1st place.
Deadline: 23:59 on October 15th (Dubai time)
Who can participate: Everyone
Results: October 29th, 2023

Telegram is hosting a competition for ML engineers to identify programming and markup languages in code snippets.

The Task: implement a library that detects the programming and markup language of code snippets from message text. You can use any publicly available data to train your solution.

Details: https://contest.com/docs/ML-Competition-2023.

@ContestBot will begin accepting submissions at a later date. We will further clarify the submission instructions closer to the deadline.

Читать полностью…

Борис опять

https://www.reddit.com/r/slatestarcodex/comments/16y14co/scott_has_won_his_ai_image_bet/

Читать полностью…

Борис опять

Я наконец добрался до записей с Practical ML Conf от Яндекса и теперь вместо работы смотрю доклады.

Что мне особенно приглянулось:
* Доклад о внутренностях LLM в Яндексе и релиз YandexGPT-2. Вторая версия той LLM, которая уже нашла место в разных сервисах компании и с которой можно общаться через Алису по команде "давай придумаем”.
* Доклад про Giga Chat в SberDevices от Дани Эль-Айясса. Все соревнуются своими LLMками. Очень подробно про обучение, с деталями вплоть до learning rate на этапе инструктивного файнтюнинга и на RLHF.
* Доклад об использовании внешней информации в генеративных моделях. Здесь конечно про Retrieval Augmented Generation.
* Доклад Алексея Морозова о распределенном DL и zero-fault tolerance. Яндекс как всегда круче всех в безумной распределенной инфре.
* Доклад про Kandinsky и text-2-image в Сбере, от Дениса Дмитрова. Внутри не только про Kandinsky, но и популярно про DALLE-2 и StableDiffusion.
* Доклад про CV в Маркете. Про роботов-инвентаризаторов, что релевантно для меня. Крутые детали про выбор камер, деплой моделей и что получилось.

Весь плейлист здесь.

Узнал про конфу в канале Яндекса про ML.

Читать полностью…

Борис опять

https://blog.sequin.io/all-the-ways-to-capture-changes-in-postgres/

Читать полностью…

Борис опять

# Помогу с поиском работы в EU/US за 50% от первой зарплаты

Запускаю второй поток, потому что первый был удачным: только один участник не смог найти работу в течение трех месяцев (и благополучно пошел на PhD).

Узнать про мой подход можно в серии постов про поиск работы. Я не карьерный коуч и считаю, что в поиске работы нет никаких секретов. Вы можете сами поправить себе CV, продумать ответы на поведенческие вопросы, организовать мок-собеседования и поторговаться за зарплату. Но зачем тратить на это лишние силы, если можно делегировать часть этой волокиты работы мне? Я предлагаю обмен денег на сэкономленные нервы, повышенные шансы, прибавку в офферу и поддержку небольшого сообщества ребят с потока.

Что я предлагаю:
1. Помощь с резюме и презентацией опыта работы.
2. Референсы к знакомым.
3. Пробные собеседования.
4. Регулярные office hours по субботам, куда можно придти с любыми вопросами.
5. Помощь в переговорах. Помните как мне помогло послушать умного друга, не вовлеченного в ситуацию?
6. Ощущение, что вы не одни в этом аду.

Дисклеймеры: не могу помочь совсем джунам, не могу помочь с FAANG, гарантий нет, но и потерь в случае провала нет. Могу помочь только по направлениям Machine Learning Engineer/Scientist, Data Analyst/Scientist/Engineer, Python Backend.

Платеж разбивается на два или три месяца.

Алгоритм такой:
1. Пишите мне в лс (@btseytlin), присылайте резюме, кратко опишите, что ищете.
2. Если я не могу вам помочь, то сразу об этом скажу и мы попрощаемся.
3. Созваниваемся, намечаем план работы.

При сомнениях можете попросить меня направить к ребятам с предыдущего потока за отзывами.

В прошлый поток заметил, что много рекомендаций повторяются. В этот раз постараюсь сделать из накопленных материалов методичку по поиску работы и возможно выложу её в open-source.

Читать полностью…

Борис опять

https://www.getguesstimate.com/models/316

Читать полностью…

Борис опять

#лабораторный_журнал

Про тяжелую долю аналитика.

План по дате такой:
1. Найти самый простой и одновременно важный дата-продукт, который можно сделать. Грубо говоря наиболее полезный дешборд.
2. Придумать и построить всю архитектуру, необходимую для создания этого продукта. Но не одноразовую, а такую, будто мы такие продукты собираемся штамповать десятками.
3. Дождаться пока мы наймем дата инженера (настоящего, а не как я)
4. Вместе с ним посмотреть на архитектуру и сделать несколько итераций, пока не будет совсем хорошо.

Вот такой MVP подход к данным.

Самый сложный этап первый. Я копал-копал, ходил на встречи, получил список требований. Указано: надо сделать расчет эффективности климата и выводить его на дашборде. Как считается эффективность скажем температуры за день: доля часов, когда отклонение температуры от заданной больше чем x. Поглядел: затащить все нужные данные непросто будет. Решил удостовериться, что это точно нужная штука.

Иду выяснять: а зачем вам эта метрика? Оказывается, что по ней оценивают, будет ли недобор по массе произведенных растений или нет. Спрашиваю дальше: а как? Какая функция описывает зависимость выходной массы от этой эффективности?

Выясняется, что никакая. Метрика взята с потолка. По ней прикидывают на глаз. Работает это или нет? Никто не проверял и не знает. Спрашиваю: а зачем она тогда нам? Ответ: ее используют, потому что нормальных статистических инструментов для описания зависимостей нет. Вот мы и добрались до того, что людям нужно, а не чего им хочется.

Что делать все еще непонятно. Метрика не нужна, считать её я не хочу. А что надо считать не ясно. Скорее бы нанять аналитика, чтобы он выяснял такие вещи.

Читать полностью…
Subscribe to a channel