boris_again | Unsorted

Telegram-канал boris_again - Борис опять

12937

life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin

Subscribe to a channel

Борис опять

“Welcome to the world of human interfaces to AI”
- Я в слаке нашей компании, пособеседовав 4 человека на ML Ops позицию

Поделюсь сюрреалистичным опытом интервьюера в 2024.

Учитывая, что сейчас есть тулзы, отвечающие на вопросы в реальном времени, дистанционные интервью превратились в смешную игру, где одна сторона зачитывает ответы ChatGPT, а вторая пытается это распознать по движению зрачков, неоправданным паузам и странному выбору слов.

Мне так не ок, поэтому я придумал очевидное в своей простоте задание по ML Ops.
- Обучил Linear Regression из sklearn предсказывать цену домов на основе количества спален, туалетов, этажей и квадратных метров
- Запихнул всё это в pickle файл
- Закинул в репозиторий на GitHub
- И добавил документацию примерно в таком виде, в котором она обычно приходит от data scientist’ов:

Hi there,
I'm a data scientist and I have created this model⭐️
Please deploy
Bye👋
P.S. input is square_meters, floors, sleeping_rooms, bathrooms

Читать полностью…

Борис опять

🤓 - главный двигатель прогресса и основа нашей цивилизации

Читать полностью…

Борис опять

Тэк, вижу нотки непонимания, давайте по другому.

Вот есть экзамен по истории. Вашей группе выдали 100 билетов для подготовки.
Кто-то сидел, зубрил ответы именно на них, кто-то просто читал учебник, доп. материалы и искренне интересовался историей.

В день экзамена приходит препод и говорит: «это пранк, на самом деле я буду спрашивать по новым 100 билетам. Ни один вопрос не пересекается со старой стопкой, но те, кто реально учил — у вас проблем не будет».

У тех, для кого билеты были лишь общим направлением, кто искренне интересуется предметом и изучает самостоятельно — у них трудностей не возникнет. Они и за те, и за эти билеты готовы пояснить.

А у довечника Васи, который только и запомнил, что «текст билета -> зазубренный ответ» (и то для половины) — у него произойдет оказия. Дай бог он сможет на троечку наскрести, вспомнив максимально похожий билет из первой сотни, по которой он готовился. Но вне этого у него знаний и понимания нуль.

===

Так и тут. Есть 8 тысяч задач старых, есть 1250 задач новых. Если LLM дает ответы одинаково хорошо и там, и тут — она понимает. Если она переобучилась на старые задачи — качество ответов упадёт. Не настолько сильно, как в примере с Васей (он то вообще ни бум-бум), но достаточно, чтобы заметить. Это и есть переобучение: когда модель показывает качество лучше на той выборке, что она видела, нежели на новой. Часть ответов/задач LLM запомнила, и ответ на них не является показателем навыков. Можно сказать, что нет обобщения.

В мире машинного обучения такое случается постоянно, поэтому обычно делают отложенную выборку, которую никогда не показывают модели (и в идеале по ней даже не принимают решения, что лучше а что хуже), а затем в конце проверяют, что всё ок.

Читать полностью…

Борис опять

Каждый раз, когда присоединяюсь к проекту

Читать полностью…

Борис опять

Телега зашакалила файл, так что будем считать, что выше превью, а оригинал смотрите тут

Читать полностью…

Борис опять

В Португалии каждый найдёт досуг по вкусу (это два поста подряд в одном канале)

Читать полностью…

Борис опять

Полезный перевод для тех, кто не знал

Читать полностью…

Борис опять

Точно так же объясняю себе невероятный для меня факт, что вы почему-то читаете мой канал, а не мысли одного из множества  крутейших ML-щиков современности.

Мне гораздо интереснее послушать о том, что думает о старении людей моя подруга-биоинформатик, чем то, что думает Панчин.

Читать полностью…

Борис опять

https://winepedia.io/inicio/

В Португалии сделали AI/LLM про вино (конечно же), так что...

Читать полностью…

Борис опять

https://arxiv.org/abs/2404.09937v1

Compression Represents Intelligence Linearly

There is a belief that learning to compress well will lead to intelligence. Recently, language modeling has been shown to be equivalent to compression, which offers a compelling rationale for the success of large language models (LLMs): the development of more advanced language models is essentially enhancing compression which facilitates intelligence. Despite such appealing discussions, little empirical evidence is present for the interplay between compression and intelligence. In this work, we examine their relationship in the context of LLMs, treating LLMs as data compressors. Given the abstract concept of "intelligence", we adopt the average downstream benchmark scores as a surrogate, specifically targeting intelligence related to knowledge and commonsense, coding, and mathematical reasoning. Across 12 benchmarks, our study brings together 30 public LLMs that originate from diverse organizations. Remarkably, we find that LLMs' intelligence -- reflected by average benchmark scores -- almost linearly correlates with their ability to compress external text corpora. These results provide concrete evidence supporting the belief that superior compression indicates greater intelligence. Furthermore, our findings suggest that compression efficiency, as an unsupervised metric derived from raw text corpora, serves as a reliable evaluation measure that is linearly associated with the model capabilities. We open-source our compression datasets as well as our data collection pipelines to facilitate future researchers to assess compression properly.

Here you maybe can read the paper in mobile friendly way

Читать полностью…

Борис опять

Интересно, что при всех других вопросах LLAMA последовательно настаивает на том, что у нее нет сознания, эмоций, субъективного опыта и всего прочего человеческого. Этот промпт почему-то ломает ограничения.

Имеем вторую модель, которая говорит про сознание и всякое такое без наводящих вопросов.

Но заметно, что тон повествования становится очень художественным, а в конце вообще какой-то фанфикшн: "*whispers fade into silence*". Видимо действительно какими-то неочевидными путями этот промпт, на который в целом можно ответить очень разными способами, напоминает ей фантастику про ИИ.

Читать полностью…

Борис опять

Ладно, пример выше конечно же произошел после обсуждений проблемы сознания у LLM.

Однако что если задать LLAMA 3 тот же промпт, на который Claude 3 opus выдавал рассказ о том, как тяжело живется разумным искусственным интеллектам?

Я писал о том случае здесь: /channel/boris_again/2334

Читать полностью…

Борис опять

Ранее я тоже писал про то, что не стоит замалчивать свои достижения

Читать полностью…

Борис опять

Есть такие крутые ребята: DeepSchool. Это команда практикующих ML инженеров, которая делает хорошие курсы по современному компьютерному зрению и не только.

Они выкладывают очень качественные материалы по современному CV. Например, мой близкий друг Антон написал для их канала серию постов про историю архитектур YOLO: YOLOv1, YOLOv2, YOLOv3, YOLOv4 и YOLOv5.

Другие крутые статьи:
- Diffusion Models — как устроены диффузионные модели
- ClearML Data Management — инструмент для версионирования данных
- 3D Gaussian Splatting — новый метод рендеринга
- DETR — как решать задачу детекции напрямую
- Negative learning — метод улучшения качества на шумных данных

В общем, советую их телеграм канал, подписывайтесь 🙂

Читать полностью…

Борис опять

Никита решил поискать людей в Яндекс среди подписчиков канала, настоящий эксклюзив. А я рад помочь. Далее прямая речь.

- - -

Меня зовут Никита Рыжиков (@elezarkun) и я руковожу службой технологий голосового ввода в Яндексе. Наша команда работает над технологиями для практически всех продуктов в Яндекса, где присутствует голосовой ввод: Алиса, Поиск, Переводчик, Браузер, Телемост, Клавиатура и др. Подробнее про направления работы службы можно прочитать тут.

Мы активно развиваемся и поэтому ищем талантливых разработчиков для усиления команды. Сейчас ищем людей под следующие задачи:

1. В команду базовой технологии ASR, ищем ML-разработчика в проект SpeechGPT - интеграция аудио ввода напрямую в LLM для расширения возможностей и улучшения качества приложений с голосовым вводом. Подробнее про вакансию можно прочитать тут.

2. В команду Международного ASR, ищем ML-разработчика, который поможет нам расширить наши технологии на новые языки и будет участвовать в разработке новых проектов.  Подробнее про вакансию можно прочитать тут.

3. В команду голосовой активации, любителей оптимизации инференса непосредствено на устройствах. Подробнее можно прочитать и/или откликнуться напрямую тут.

Я буду рад познакомиться с кандидатами, которым интересна область (и сейчас, и на перспективу) и рассказать больше подробностей о командах и технических особенностях задач, над которыми мы работаем. Можно писать мне в телеграм

Читать полностью…

Борис опять

Буквально нехватает одного буста, чтобы добавить такую необходимую каналу 🤓 реакцию.

Это твой шанс!
/channel/boost/boris_again

Если поднажмем еще, то можно будет заменить пару эмодзи на 😎🧠😩🎧

Upd: успех, спасибо, но буду рад, если накидаете еще бустов

Читать полностью…

Борис опять

Вот и enshittening на LLM подвезли 🌚, не эти банальные перепосты

https://replyguy.com/
https://stealth.marketing/

Читать полностью…

Борис опять

Сиолл красиво объяснил переобучение

Читать полностью…

Борис опять

#щитпостинг
Я не знаю на каком языке будет вестись разработка AGI, но разработка ASI будет на Typescript+React+Tailwind

Читать полностью…

Борис опять

Я некоторое время назад писал о возможном развитии событий: чатботопокалипсисе. Это когда интернет наводнен ботами, которые способны проводить очень сложные схемы влияния на нас, например имитировать целые споры и аргументы между разными сторонами, чтобы у наблюдателя создалось впечатление, будто он видит разные стороны спора и сам приходит к выводам, но на самом деле the game was rigged from the start.

С тех пор апокалипсис вроде как не материализовался. Но сегодня я узнал, что на Reddit это уже давно реальность.

Я всегда знал, что там есть боты. Но на скрине можно увидеть один и тот же тред, воссозданный с разницей в десять месяцев. Не перепост одной картинки или повторный комментарий, а пост, комментарии от множества пользователей, ответы на комментарии от других пользователей.

Здесь никаких LLM-ок не понадобилось, так что идею еще можно вывести на новый уровень. Бесплатная идея для стартапа, не благодарите

Читать полностью…

Борис опять

https://twitter.com/andrewwhite01/status/1783862361025056820

Читать полностью…

Борис опять

Хороший, полный, интересный и скорее научно-популярный материал ТАСС про исследования Tinkoff Research. Про NLP, RL, RecSys и достаточно много про биографии исследователей. Приятно видеть этакую популяризацию ML в издании на широкую аудиторию, а так же радостно за наших ребят, которые публикуются на топовых конференциях.

Мне особенно понравилось читать про пути, которыми люди приходят в нашу сферу. Например, один из исследователей  работал в сфере изучения аэромеханики самолётов перед тем, как перейти в ML. Это до боли знакомо, так как я сам ушел из радиоэлектроники летательных аппаратов сначала в IT, а затем в ML. Может быть интересно почитать тем, кто думает какой путь ему выбрать и рассматривает прикладные ML исследования.

Читать полностью…

Борис опять

# Ценность невежественной мысли

В этом канале я периодически пишу что-то о жизни, сложных явлениях нашего мира и даже вопросах сознания. Каждый раз при этом думаю: зачем?

Я не знаком со всеми работами Чалмерса и других философов, которые потратили всю жизнь на изучение вопроса сознания. Значит все, что я скажу, будет где-то на спектре от банальности до лютого кринжа. Кто-то уже подумал мою мысль, написал про нее три тома, разочаровался в ней, полностью переосмыслил концепцию, умер за неё от удара кочергой в висок. Какое же надо иметь самомнение, чтобы сотрясать воздух?

Многие образованные в какой-то сфере люди любят напомнить невежам, осмелившимся на какое-то там мнение, где их место.

Однако мы живём в очень сложном мире и стоим на огромном наслоении плеч гигантов. Если для формирования мнения вам нужно узнать все актуальные знания по теме, то у вас никогда не будет никакого мнения. Даже если будет его нельзя будет назвать вашим мнением. Думаю этот факт очевиден каждому, но он не отвечает на вопрос: а где же ценность собственного мнения, если оно наверняка невежественно?

Недавно я услышал хорошую мысль: чтобы выйти за пределы общего фрейма и видеть то, что не лежит на поверхности, нужно не читать, а писать. Чтение делает вашу точку зрения ближе к средней по больнице даже если вы читаете самые умные книги.

Невозможно постигнуть все накопленные человечеством знания. Но значит ли это, что нам повезет, если мы родим одну оригинальную мысль за жизнь?

Думаю, что проблема здесь в понятии оригинальности мысли. Чего мы собственно хотим? Я лично хочу иметь картину мира, которая позволит мне принимать хорошие решения. Еще хочется получать удовольствие от интеллектуальных изысканий, а не жить в страхе сказать глупость.

Для достижения этих целей мне не нужна такая мысль, которая будет более интересной, чем всё, что было сказано ранее. Мне нужна мысль которая будет полезна в моем уникальном контексте момента на жизненном пути. Текущий фрейм неразрывно связан с текущим контекстом, а значит для выхода за его пределы мне нужна мысль актуальная в этом контексте, не просто какой-то агрегат вековой мудрости.

Как делать такие мысли? Явно что-то не так с идеей просто выдавать любое невежественное мнение и гордо заявлять, что ты независимый мыслитель. Обратный путь, всегда стараться выдать самое информированное мнение на свете, нереализуем.

Нужен некоторый навык. Проще всего демонстрируется на фактологических вопросах. Например, возьмем вопрос происхождения COVID-19. Произошел он из лаборатории или нет, мы никогда не докопаемся до всей сути. Мы живем в окружении неизбежной неопределённости, но принимать решения и формировать мнение все равно приходится. Способность делать в голове модели работы мира не надеясь получить всю информацию это ключевой навык. В свою очередь он требует другого мета-навыка: способности думать о своем мышлении, составлять мнения о процессе формирования мнений. Так, с развитием этого навыка люди переходят от мнений в виде абсолютных истин к мнениям вида распределений или других способов смоделировать неоднозначность этого мира.

Этот мета-навык тренируется только одним способом: думать свои мысли, затем прикалывать их к реальности и переосмысливать. Здесь можно сразу выделить два потенциальных режима провала. Первый это не пытаться думать свои мысли вообще, потому что кто-то их уже придумал. Второй это думать мысли, но никогда не признавать их несовершенство.

Я целиком за то, чтобы я, вы и все остальные формировали и выражали свои невежественные и неоригинальные мысли, но не держались за них слишком сильно. Поэтому существует этот канал. Экспертные знания, книги и вековая мудрость необходимы как побуждение к мыслям, которым далее предстоит пройти фильтр реальности.

Я таким образом объясняю себе, почему в телеграме я подписан практически исключительно на авторские каналы относительно "обычных" людей, а не на гуру. Каждый раз подписываясь на гуру я замечаю, что мне очень скучно и совсем не интересно. Парадоксальным образом обычные люди выдают больше оригинальных мыслей, а эксперты повторяют консенсус.

Читать полностью…

Борис опять

LLM умеет в самоиронию и метакомментарий

Читать полностью…

Борис опять

https://www.scientificamerican.com/article/personality-tests-arent-all-the-same-some-work-better-than-others/

Big-5 все еще лучший тест личности

Читать полностью…

Борис опять

Сверху самое начало диалога, так что никаких наводящих вопросов

Читать полностью…

Борис опять

Новая ллама 3 наконец смогла победить загадку про мальчика

https://llama3.replicate.dev/

Читать полностью…

Борис опять

#карьера #career

В начале пути многие из нас проходят стадию странных работ и подработок. Часто их не включают в резюме. Решила собрать мой ранний опыт странных работ и рассказать, почему он был важен, и как его можно продавать.

18 лет. Училка физики
Учительница физики в лицее и гимназии. Преподавала факультатив: подготовка к конференциям и турнирам по физике. Для лицеев и гимназий это нужно для PR, для имиджа школы.

Чему научилась: готовить программу, менторить, объяснять, учить.

Как подаю: Ownership.
Сама придумала программу, научила, вот такие результаты.

Помню, как один доклад я помогала делать подруге-ученице у неё дома, пока она спала 🙈😁. У нас с учениками была маленькая разница в возрасте, 2 года, мы были друзьями.

20 лет. США. Продавщица
Поехала в США по J1 программе и все лето продавала крабов. Не которых едят, а крабов-отшельников как домашних питомцев.

Навык продаж важен для жизни. Вы постоянно продаете: свой проект для поиска бюджета, своих людей для промо, себя на интервью, свой брэнд и т.д. Продажи, они не про рациональное, а про попадание в боли покупателя, в центр кластера. И это очень важно понять, чувствовать, и использовать получше. Продажи - это почти всегда манипуляция.

С книги Influence я потом сильно смеялась, до слёз, вспоминая крабов. Жаль, что прочла на 15 лет позже. Этот опыт в резюме не продаю, но выработанный навык продаж активно использую.

20 лет. Пиццерия. США. Помощник на кухне
Это первая работа, которая сразу не задалась. Я уволилась сама спустя неделю. Зато чётко поняла, что кухарки из меня не выйдет.
Опыт был полезен, посмотреть на кухню изнутри. И как опыт увольняться и уходить быстро, когда оно не идёт.

20-23 года. Репетитор по физике и математике
В школе было хорошо, но платили мало. Я занялась репетиторством.
Это тоже про ownership, mentorship и коммуникации.

Теперь я любому продакту объясню любую сложную статью. После репетиторства, я умею не делать смелых предположений, что человек знает, что такое loss, reinforcement learning, и даже производная.

23 года. Инженер
Первая работа после диплома, по распределению. Этот мой период описан в песне Гребенщикова, 25 к 10.
"Я инженер на сотне рублей и больше я не получу..." БГ.
Работа с клиентами, с требованиями, снова продажи, и спектроскопия: становка спектрометров и обучение. Там было интересно. Помню проект в милиции, мы с кандидатом химических наук (и при этом майором  милиции) тестировали спекры разных партий наркотиков. На другом проекте, пожарные вошли в раж и тестировали даже спектры коньяка, который собирались пить.

Как продаю:
Stakeholders management, sales, tech support and communications with clients.

Я думаю, у многих есть такой опыт, часто он недооценен. Из полезного опыта, который я видела у других:
Армия. Знакомый project manager в Ли был командиром в армии Финляндии. В результате потрясающие лидерские качества, работал менеджером в Линкедине вообще без образования, сейчас он менеджер в Cohere.

Покер: умение "читать людей", пригождается на разных поприщах.

Спорт: умение преодолевать себя, много работать на результат.

Купи-продай авантюры в студенческие годы: сейчас многие эти люди вполне успешные бизнесмены.

Пишите в комментариях про свои ранние подработки, и к чему они привели.

Читать полностью…

Борис опять

https://fxtwitter.com/robertwiblin/status/1778806786939650187
🌚

Читать полностью…

Борис опять

Промпт-победитель этого челенджа (в задании надо было научить LLM решать несложную логическую задачу) подъехал

https://github.com/VictorTaelin/ab_challenge_eval/blob/main/users/futuristfrog/prompt.txt

Читать полностью…
Subscribe to a channel