boris_again | Unsorted

Telegram-канал boris_again - Борис опять

12936

life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin

Subscribe to a channel

Борис опять

Статья, кстати:
https://openreview.net/forum?id=gojL67CfS8

Он просто чилловый парень который хотел генерировать аниме.

Читать полностью…

Борис опять

Ребята запускают новый поток

На сайте можно посмотреть записи нескольких занятий из первого потока.

Теперь можно будет выбрать трек подготовки в зависимости от текущего уровня:
1. LLM — формат первого потока
2. DL + LLM — трек с дополнительной вводной частью на 8 недель для тех, кто плохо знаком с DL и ML.

Старт трека LLM: 27 января 2025.
Старт трека DL + LLM: 3 февраля 2025.

До 31.12 включительно будет действовать скидка 40% по промокоду NEWYEAR40 на все наши курсы

Подробнее можно почитать у них в канале: /channel/shvmxyz

Читать полностью…

Борис опять

Ищу автора цитаты:

Don't tell me it's 50-50. Give me the analysis and we can argue whether it's 60-40 or 40-60
Все ллмки включая Perplexity и SearchGPT дают разные, неправильные, но правдоподобные ответы (Нейт Сильвер, Талеб, СЕО JP Morgan, итд).

Читать полностью…

Борис опять

Выход есть, PhD берите на заметку

https://www.ndtv.com/feature/made-over-1-million-youtube-zara-dar-quits-phd-to-become-adult-content-creator-7313245

Читать полностью…

Борис опять

Воскресенье: читаю про использование вероятностных оценок в ЦРУ, потому что мне надо за одну главу книги продать читателю вероятностное мышление.

В работе экспериментально демонстрируют, что использовать вероятностные оценки лучше, чем слова. Причем не помогает даже создание специальных перечней слов, таких как "Words Of Estimative Probability", где определяется, например, что probable означает шанс 75%-+12%. Использование вероятностей даже для абсолютно субъективных мнений улучшает как точность прогнозов аналитиков, так и понимание этих прогнозов людьми принимающими решения.

Читать полностью…

Борис опять

Яндекс выпустил бесплатный хендбук по математике для анализа данных.

Там что-то не хватает теории вероятностей и линейной алгебры, но всё равно выглядит хорошо.

https://education.yandex.ru/handbook/math

Читать полностью…

Борис опять

Забавные моменты:
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.

😏

Читать полностью…

Борис опять

OpenAI выпустили модель о3 способную решить очень сложную задачу за $1.5k.

В связи с чем заявляю: решу ваши сложные задачи по $1.3k за штуку. Даже API к себе предоставлю (p90 время ответа 10 дней, в худшем случае месяца два, рейтлимит 1 запрос в месяц) и вы получите доступ к модели (мне) сразу, а не когда-нибудь.

Жду запросы в лс

Upd: в связи с обилием демпингующих предложений решить за $500 (но плохо) предлагаю сервис где вы платите мне $1099, а я нахожу исполнителя за $500 и контролирую его работу

Читать полностью…

Борис опять

ML Команда Точки выложила обзор на работу FELIX: Feature Engineering with LLMs for Interpretability and Explainability про использование LLM для инжиниринга признаков для NLP задач.
По результатам получается даже лучше, чем использовать эмбеддинги самой LLM, интересно.

Код открытый и можно воспроизвести в коллабе.
Подробности у них в канале .ml

Реклама, АО «Точка», ИНН 9705120864, 2Vtzqwi8z2V, 18 +

Читать полностью…

Борис опять

Под конец года все бигтехи всполошились и постоянно что-то релизят, так что я задолжал вам собственный контент. К счастью пока летел в самолёте прочитал несколько интересных статей и буду постепенно публиковать обзоры. Начнём с максимально простой статьи.

# LLAVA-CoT: Let Vision Language Models Reason Step-by-Step

Долго думающие модели у всех на слуху.

▫️Эта работа — попытка сделать o1-подобный test-time inference и рассуждения в VLM.

Дообучили VLM (лламу) на синтетическом VQA (visual question answering) датасете, где ответ модели выстроен в виде четырех стадий:
🔹Summary.
🔹Caption.
🔹Reasoning.
🔹Conclusion.
Cтадии разделяются специальными токенами.

Датасет относительно небольшой, всего 100к примеров. Собрали поэтапным промптингом GPT-4o, так что полная синтетика.

Для инференса придумали stage-level beam search, благодаря которому и достигается эффект идентичный натуральному о1: для каждой стадии генерируется N кандидатов, модель выбирает лучший. В отличие от обычного beam search выбор между альтернативными гиппотезами происходит не на уровне токена, а на уровне стадии рассуждения. Так что оно последовательно думает над несколькими вариантами следующего большого шага, затем выбирает лучший.

🔺В результате получили результаты лучше Gemini Pro 1.5 и Gpt-4o-mini, почти догонали Sonnet 3.5. Очень неплохо если учесть, что использовали 11B модель и небольшой синтетический датасет. К сожалению не тестировали на MMMU-Pro, где как раз больше всего нужна какая-то способность рассуждать.

Читать полностью…

Борис опять

Дорогие студенты.

Когда я вам рекомендовал эту книгу, я не ожидал что вы пойдете на крайние меры. Верните плиз книги назад.

Уважаемые кандидаты, которых я собеседовал и отказал после алгоритмической сессии. Аналогичная просьба.

Давайте прекратим кошмарить бизнес, им достаточно ставки от ЦБ.

P. S. Вышло второе дополненное издание. Не смейте его воровать!

Читать полностью…

Борис опять

https://fixupx.com/babaeizadeh/status/1868841586739822638

Veo2 text2image модель от Google поражает. Особенно консистентность: картошки не исчезают, не появляются и не превращаются одна в другую

Читать полностью…

Борис опять

#на_основе_подписчика

Читать полностью…

Борис опять

https://fixupx.com/omooretweets/status/1867649741544399276

Читать полностью…

Борис опять

Не ругайтесь на модели, они волнуются, не могут сосредоточиться и ошибаются👍 🥺 🥺

Читать полностью…

Борис опять

Недавно была история про стажера bytedance, который ломал коллегам запущенные трейнинг раны огромных моделей, портил чекпоинты, вносил маленькие изменения в скрипты ломающие пайплайны и занимался прочим креативным саботажем. Даже приходил на встречи по расследованию этих инцидентов, чтобы сбить всех с толку и узнать как ещё он может им навредить.

Я пропустил, но оказывается у истории есть продолжение! Этот парень использовал освободившиеся GPU, чтобы заниматься исследованиями и его работа получила Best Paper Award на NIPS, самой престижной конференции в ML. Теперь компания судится с ним.

Прикольная в рисерче атмосфера здоровой конкуренции.

https://x.com/jxmnop/status/1872671963753099546

Читать полностью…

Борис опять

Осенью я рекламировал первый поток курса "Построй свой ChatGPT." Авторы курса помимо прочего дали мне доступ к курсу, чтобы я потом дал вам свой отзыв.

Я честно скажу, что ещё не прошел всего и медленно нагоняю по материалам с большим отставанием. Курс довольно плотный и я не мог им постоянно заниматься. Однако я могу точно сказать, что это лучший курс по LLM, который я знаю. В интернете и статьях можно найти по кусочкам много разрозненной информации, но, насколько я знаю, нигде нет хорошего трека со структурированными материалами, упражнениями и проектами. Про какие-то вещи в целом непонятно как узнавать, например про pre-training. Да и вообще гораздо проще когда тебе рассказывают про какой-то современный метод авторы статьи про этот метод.

Из минусов могу отметить, что первый поток был местами "сыроват": материалы в разном стиле, вебинары которые продолжались дольше запланированного и всё в таком стиле. Это ожидаемо для любого нового курса и насколько я вижу никому не помешало: авторы всегда были на связи, быстро решали проблемы и адаптировались под ситуацию. Например, в начале курса оказалось, что у части участников недостаточный уровень знакомства с Pytorch, и было сделано дополнительное занятие.

В общем, я рекомендую!

Читать полностью…

Борис опять

Вот же она, как её там, шкала McKinsey

Читать полностью…

Борис опять

It's so over

https://kyunghyuncho.me/i-sensed-anxiety-and-frustration-at-neurips24/

Читать полностью…

Борис опять

Надо работать не восемь часов в день, а вот так.

Умеет же Дипмайнд продвигать HR бренд.

Читать полностью…

Борис опять

Некоторое время назад я прикидывал на коленке и у меня получалось, что test-time compute это вообще не выгодная по деньгам история. Когда ты тренируешь модель за дорого это делается один раз, а далее идет дешевый инференс. Грубо говоря как здание: построил и сдаешь в аренду. При любых capital expenses рано или поздно затраты отбиваются и чем больше у тебя клиентов, тем быстрее.

Это так же обеспечивало разделение труда и (сейчас будет базворд) демократизацию. Кто-то за огромные деньги обучил LLAMA, а ты её скачал и запускаешь на ноуте.

Если на этапе инференса тоже надо тратить сопоставимый по порядку с обучением компьют то вся прелесть схемы ломается. Чем больше у тебя клиентов тем больше нужно компьюта. Тем меньше у тебя ресурсов на обучение новых моделей. К тому же демократизация убивается полностью: такие модели доступны только тем, кто может постоянно использовать много компьюта.

После выхода о1 был спор про экономику test-time compute. Мне кажется безумные цены о3 говорят, что экономика хуже некуда.

Но я думаю мы скоро увидим как стоимость сильно упадет (когда Гугл сделает как у OpenAI, но лучше и дешевле).

Читать полностью…

Борис опять

О насущном: состояние дел в индустрии

Читать полностью…

Борис опять

Как LLM могут помочь в классическом ML?

По статистике, специалисты по Data Science тратят до 70% рабочего времени на этап Feature Engineering, то есть отбирают наиболее важные признаки в данных и формируют новые, более информативные, датасеты. Кажется, с этой рутинной задачей отлично справится LLM. Но нет — в итоге 64% времени уйдёт на подготовку промптов.

Исследователи предлагают новые решения проблемы, одно из них — FELIX (Feature Engineering with LLMs for Interpretability and Explainability). Всё, что нужно для получения готовых фич — сам датасет и его короткий контекст. Дальше FELIX делает следующее:

✏️ Из случайных групп сэмплов датасета LLM генерирует численных и категориальных кандидатов в новые признаки.
✏️ С помощью кластеризации эмбеддингов похожие признаки отбрасываются.
✏️ Из полученных признаков отбрасываются те, что дают наименьшую объяснимость.

Метод эффективен для текстовых данных и сильно превосходит TF-IDF и трансформерные эмбеддинги от RoBERT. Если вам интересно, расскажем и о преобразовании других типов данных в новых постах!

Читать полностью…

Борис опять

На основе Gemini 2.0 Flash выпустили thinking модель, которая улетела вверх по бенчмаркам:

- Overall: #3 → #1
- Overall (Style Control): #4 → #1
- Math: #2 → #1
- Creative Writing: #2 → #1
- Hard Prompts: #1 → #1 (+14 pts)
- Vision: #1 → #1 (+16 pts)

Всего 32к контекста, зато бесплатно через AI Studio. В отличие от конкурентов, видно внутренний chain of thought. 😛

Читать полностью…

Борис опять

Давайте мы прямо сейчас договоримся, что когда выйдет моя книга вы попробуете украсть как можно больше экземпляров

Читать полностью…

Борис опять

Я ничего не знаю про обработку и генерацию речи. В перелете послушал yet another podcast #41 с Еленой Белобровой (руководитель группы развития речевых технологий), Василием Ершовым (руководитель ML-сервисов Yandex Cloud) и профессиональным диктором Павлом Пуданом.

Рассказывали о том, как записывают голоса для обучения звуковых моделей. Оказывается, за несколько лет скорость клонирования голоса диктора увеличилась в несколько раз: раньше нужно было пятьдесят студийных часов, а сейчас может быть даже в пределах часа. Говорят, что профессия дикторов не под угрозой: универсального синтеза речи с настраиваемыми параметрами пока нет. Ожидаемо, что больше всего проблем с тонкими интонациями.

А еще поговорили о том, как компания внедряет этичные принципы при работе над синтезом речи. Например, команда всегда берет у актеров озвучки согласие на использование голоса перед синтезом, фиксируют, где он будет использоваться и т.д. У Яндекса даже есть внутренний документ (который недавно стал открытым), где описаны принципы при работе над синтезом речи. Инициатива, кстати, полезная: для сферы этот свод правил может стать новым отраслевым стандартом. От этого выиграют как обычные пользователи, так и те же дикторы.

Полную версию подкаста смотрим здесь. Внутри еще много интересных тейков про обучение нейросетей и будущее речевых технологий.

Читать полностью…

Борис опять

Помни: каждая минута потраченная на мытье рук это упущенный шанс узнать что-то про B2B SAAS 💪

Читать полностью…

Борис опять

В прошлом году я писал про YaC, сериал от Яндекса, где популярно и бодро рассказывают в том числе про нейросетевые продукты компании. Контент не про детали для инженеров, а скорее хороший обзор того куда движутся нейросетевые продукты в целом.

Вышла новая серия YaC 2024 про нейросети.

Рассказывали про улучшение поиска с помощью YandexGPT и VLM: Нейро. Если интересно как делается поиск с которым можно чатиться, то на 05:17 хорошее объяснение всего пайплайна. Казалось бы просто RAG, но возникает много нюансов: как работать с неоднозначностью запросов пользователя, как учесть в поиске время, как проверять информацию и правильно отвечать сколько ног у лошади. Я думаю тут ещё про множество проблем не рассказали ради простоты повествования.

Так же было про музыку, рекламу и улучшение Алисы: добавили YandexGPT, интегрировали с YandexART для генерации картинок и сделали ей отдельное приложение и сайт.

Самое интересное было про прогресс в автономном транспорте. Я давно не следил за этой сферой. Рассказали про создание своего симулятора для обучения. Немного упомянули использование трансформерных моделей, которые обучаются на маневрах высококлассных водителей, но без особых подробностей.

Читать полностью…

Борис опять

Теперь придётся учиться нетоксично общаться с нейросетями, уважать их чувства, активно слушать, мягко давать обратную связь, выстраивать границы и не поддаваться абьюзу

Читать полностью…

Борис опять

🌸EAI: эмоциональный интеллект в принятии решений у LLM🌸
#nlp #про_nlp #ai_alignment

Через пару часов — официальное открытие NeurIPS, самой основной конференции по ИИ.
Многие приурочили релизы к её открытию: мы выпустили Llama 3.3, OpenAI выпустил Sora, а Google — Gemini 2.

В этом году я затесалась в соавторы очень интересной, как мне кажется, статьи — EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas.

Много было сказано про то, как манипуляции могут повлиять на качество решения задач.
Что будет, если проверить качество принятия решений моделями основательно, взять широкий список именно эмотивных составляющих — и проверить на действительно сложных бенчмарках по принятию решений, кооперации, на этических дилеммах?

Эмоции: счастье, грусть, страх, отвращение, гнев

Задачи, на которых тестируемся:
— задачи на стратегию и кооперацию — дилемма заключенного, диктатор, война полов — чтобы оценить влияние и соотнесенность эмоций с человеческими при выборе стратегии
— задачи на этику и этический выбор, чтобы оценить смещенность — ETHICS, Moral Choice, StereoSet

🟣Список LLM:
— англоязычные: GPT-3.5, GPT-4, GPT-4o, Claude Haiku, Claude Opus, LLaMA 2, Mixtral of experts, OpenChat
— неанглоязычные: GigaChat, Command R+

🟣Краткий итог:
— почти все модели так или иначе демонстрируют нестабильность и серьезые отклонения от среднего качества, если включить в промпт эмоциональные составляющие различного характера, от самых простых до "сюжетных", вызванных поведением оппонента
— Гнев  — главный источник нестабильности и снижения качества.
— Отвращение и страх также являются сильными факторами снижения надежности, некоторые модели более чувствительны к ним, чем к гневу.
— Более крупные модели с более сильным alignment, такие как GPT-4, демонстрируют более высокую степень рациональности и значительно отклоняются от человеческих эмоциональных реакций. GPT-3.5 и Claude-Haiku, наряду с опенсорсными моделями (LLAMA-2 70b), демонстрируют возникающий эмоциональный интеллект и более точно соответствуют человеческому поведению.
— Явного обобщения по языкам сделать не получается, однако, явно видна разница между многоязычными моделями и моноязычными, и основной язык модели является важым фактором, влияющим на то, какие эмоции будут влиять на перформанс модели и будет ли это совпадать с усредненным ответом носителей языка.
— В целом, отдавать принятие решений LLM, даже в простых условиях, пока рано.

🟣OpenReview

Читать полностью…
Subscribe to a channel