seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

56987

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

Результаты оценивались по более чем 20 срезам, и в оценке принимали участие как пациенты (они смотрели на диалог со своей стороны, мол, насколько дружелюбно вел себя собеседник, насколько понятно объяснил всё, итд), так и доктора (ну тут ясно, насколько валидны результаты, насколько адекватны вопросы и догадки модели). И в итоге — барабанная дробь.. LLM победила в 28 докторских метриках из 32 и в 24 из 26 пользовательских. Что не удивительно, наибольший прирост был в категории «эмпатия», так как модели не впадлу и выразить обеспокоенность, и посочувствовать, и утешить. Она то не со смены пришла :D и не после приёма 20 больных до обеда (все — по страховке).

По точности предсказаний (постановка диагноза после диалога и формулирования вопросов) LLM сильно впереди врачей — более чем на 10% в топ-1 и столько же в топ-5.

На картинках красное — модель, синее — реальные врачи.

Читать полностью…

Сиолошная

Towards Conversational Diagnostic AI

Статья от Google, которая лежала в загашнике с начала года — наконец-то дошли руки внимательно прочитать. Я по ней даже лонг хотел написать 😀!

В основе медицины лежит диалог между врачом и пациентом, где правильный и оперативный сбор анамнеза открывает путь к точному диагнозу, эффективному лечению и устойчивому доверию (в обе стороны). С одной стороны LLM-ки уже научились проходить разные тесты и экзамены, сдаваемые мед. экспертами, на приличные баллы, а с другой присутствует валидная критика: «тесты и экзамены это не то же, что и реальная работа! И вообще от технологии до рабочей системы огромный путь».

Система AMIE от Google как раз фокусируется на прогрессе в направлении создания AI-доктора, делая логичный следующий шаг от тестов к свободному диалогу (пока текстовому, и только в начале процесса лечения) протяженностью до 20 минут.

Фреймворк следующий: есть описание пациента, включая демографическую картину (возраст/национальность/пол/etc.), причину обращения, симптомы, и реально поставленный диагноз. Тестовые наборы (149 штук) готовились специальными лабораториями, которые специализируются на OSCE (Objective Structured Clinical Examination), специальном распространённом формате оценки в медицине. Есть живые люди, которые были подготовлены, чтобы по описанию кейса отыгрывать роль пацента (обычно их брали из той же демографии) в чате — указывать жалобы, озвучивать симптомы, итд.

AIME, система с LLM, отыгрывала роль доктора, который задавал вопросы (никакой предварительной информации о пациенте не предоставлялось) и вёл диалог. Случайным образом вперемешку с этой системой добавлялись инструктированные терапевты, которые делали то же самое. По итогу обсуждения в чате с «пациентом» доктор и LLM давали предсказание диагноза: можно было указать до 10 результатов. Люди чаще писали 4-5 штук, LLM, понятное дело, 10 (ведь так написано в инструкции), но среди прочего мерили метрику «как часто в топ-K предсказаний попадает правильный или достаточно вероятный диагноз». Поэтому для K=1..4 результаты в целом честные.

Естественным ограничением тестирования было то, что для терапевтов диалоговый интерфейс (чат) это не совсем привычный формат работы, поэтому их качество могло быть нескольким меньше, чем в реальности. Тут не ясно, как это померить, поэтому просто делается оговорка, что результаты нельзя считать итоговыми и 100%-ми. Однако исследователи сделали всё возможное для честного сравнения: каждый доктор отработал 2 кейса до начала работы, чтобы вжиться в роль, их не торопили (кроме стандартного ограничения на 20 минут), и, конечно, оплачивали работу.

Перед тем, как говорить о результатах, давайте посмотрим, что такое AIME.

Читать полностью…

Сиолошная

Совсем недавно писал, что OpenAI предоставляют возможность любому пользователю дообучить GPT-4o mini под свои нужды (до 27-го сентября — бесплатно). Такая же фича есть и у Google для Gemini 1.5 Flash, только и само обучение там обещают бесплатно (бессрочно), и использование дотренированной модели не увеличивает цену использования (OpenAI просят +100%). Ну и понятно всегда есть альтернатива попробовать потюнить LLAMA-3.1 8B.

Стартап patched решил проверить, как на их бенчмарке по обнаружению и исправлению уязвимостей в Python-коде покажут себя все три модели из коробки и с дообучением. Для этого собрали 200 отдельных примеров, и закинули на три платформы, используя параметры по умолчанию. С одной стороны это немного наивно — наверняка качество можно нарастить если немного разобраться, сколько эпох и с каким темпом обучения лучше делать. С другой — большинству людей и тем более бизнесов, кому полезен функционал дообучения, не интересно в этом разбираться, и тем более не все могут позволить себе оплатить компетенции ML-специалиста. Поэтому такой замер «из коробки и без настроек» имеет право на жизнь.

Результаты вы видите на картинке, проприетарные модели имели одинаковое качество до обучения, но OpenAI'шная LLM вышла вперёд после тренировки. LLAMA-3.1 8B же после обучения еле-еле догнала обе модели в оригинальном состоянии. Правда сравнение и тут не совсем честное: более правильным было бы сравнить использование моделек на 13-30B (потому что их цена ближе к цене младших проприетарных моделей), но META таких не релизила 🤷‍♂️

С учётом недавнего падения цен на Gemini Flash и отсутствия наценки за использование тренированной модели, предложение от Google в целом выглядит достаточно привлекательно.

===

Отдельно занятный момент из блога: когда автор залил данные в OpenAI, то ему выкинуло ошибку, мол, они не прошли модерацию. Сотрудник компании подсказал, что система валидации не только проверяет разные нарушения, но и адекватность и консистентность, и что она выдала такую ошибку: «the assistant fails to address the user's request to fix a security vulnerability in the provided code. The assistant simply repeats the original code without making any changes». То есть отдельная LLM, читавшая заготовленные данные, поняла, что в них есть ошибка (!), которую автор потом исправил. Причём, это не просто заглушка, что «сообщения повторяются», нет, именно специфично для конкретной задачи.

Читать полностью…

Сиолошная

3. И в эту же ночь на Арену залетел Grok 2 😎 от X.AI, компании Elon Musk. С его слов, это малая версия Grok 3, и сейчас они обучают отмасштабированную версию, так что можно ожидать дальнейших улучшений (может даже до конца года — по Elon Time).

Модель была под алиасом «sus-column-r», занимает третье место (делит с майской gpt-4o), второе в кодинге и математике, но четвертое в Hard Prompts.

Блогпост с анонcом модели, в том числе другими метриками на общепринятых датасетах. В целом ничего интересного, кроме трех фактов:
— сильные метрики на DocVQA (ответ на вопрос по документу, выраженному картинкой и текстом)
— совсем скоро появится API, так что теперь можно использовать модель не только в Твиттере. Цены не обозначены
— есть mini модель, но её не было на арене

P.S.: очень понравилась в таблице метрик визуальная составляющая со сравнением колонками с другими модельками. Сразу легко сказать где вторая где первая etc

Читать полностью…

Сиолошная

Хотел отправить стикер с цитатой из поста другого канала, но Телеграм не даёт (найс). Поэтому вот вам скриншот и сама цитата:

– Гугл показали, как будет работать их ИИ (Gemini). И там всё супервторично на фоне OpenAI по софту и Apple по железу, честно говоря.

(а то я так напишу - не поверите же)

((а ещё я так понял у них дважды что-то не работало на сцене, я только одним глазом смотрел, поэтому пока без деталей. Смешно это потому, что чтобы пойти на сцену и люди, и демки проходят 100500 коммитетов, проверок и репетиций))

Вот ссылка на пост: /channel/addmeto/5832

Читать полностью…

Сиолошная

С первых дней мне понравился UI/UX Perplexity.ai, очень круто ребята сделали отображение процесса работы LLM под капотом поиска. В продвинутых сценариях (Pro mode) так вообще любо-дорого смотреть. Гифка прилагается.

Ну и чтобы не просто картинку постить, вот вам статистика:
— за весь 2023-й года Perplexity.ai ответили на 500 миллионов запросов
— за июль 2024-го ответили на 250М: это солидный рост!

... который всё равно смотрится смешно на фоне того, что Google каждый день обрабатывает 8.5 миллиардов поисковых запросов 👨‍🦳 с одной стороны есть куда расти, а с другой — безысходность. Но может антимонопольщики проснутся 🤷‍♂️

А вы пользовались Perplexity.ai? Как вам?

Читать полностью…

Сиолошная

Светский Вестник рассказывает про красивый срач между главами ULA и SpaceX.

На выходных наш любимый Тори Бруно из ULA на анонс Raptor 3 написал, что мол негоже публике показывать «частично собранный двигатель» без множества других компонентов.

На что Гвинн Шотвелл выложила фотографию с подписью про хорошую работу для «частично собранного двигателя». Не обошлось без смайлика :)

Надеемся, что Тори уже взывали скорую, потому что произошло убийство :)

Читать полностью…

Сиолошная

Качество работы нынешних систем довольно рано выходит на плато — то есть при предоставлении большего количества времени и денег (= сгенерированного текста команд и рассуждений) качество перестаёт расти (см. картинку). Ну и очевидный вывод — более современные модели работают лучше, нежели их предшественники: тут Sonnet 3.5 с легкостью обходит Opus 3. GPT-4o работает лучше Turbo-версии.

Во время экспериментов было обнаружено, что прирост качества затухает при размере контекста примерно в 200 тысяч токенов. Но про запас бюджет увеличили в 10 раз, и на каждую задачу давали до 2_000_000 — этого хватало с головой.

Однако стоит учитывать вот что. Это не секрет, что авторы не затачивают своё решение прям как супер-эксперты, и не используют большинство продвинутых агентских техник. Скорее всего, если прикрутить рассуждения, генерацию N параллельных решений с последующей рефлексией и выводами из ошибок, а также поработать со среднесрочной памятью, то процент решенных задач приятно подпрыгнет.

Читать полностью…

Сиолошная

Три самые крупные категории задач (см. первую картинку):
— кибербезопасность (это как раз взломы-кражи)
— машинное обучение
— разработка программ

Большая часть задач требует от 15 минут до 4 часов времени работы человека. Вообще, кожаные справились лишь с 80% задач (то есть примерно 40 из 50).

Читать полностью…

Сиолошная

Мы с вами уже много говорили про бенчмарки для оценки навыков моделей и про концепцию LLM-агента. Чем умнее становятся модели, и чем больше у них агентности (самостоятельности в решении проблем), тем сложнее подготовить такой набор задач, которым бы можно было оценивать прогресс. LLM уже не удивить задачами вида 2+2 или «ответь на вопрос по тексту из Википедии» — они просто не интересны.

Новые же бенчмарки очень сложны в подготовке и требуют больших усилий высококвалифицированных специалистов, что дорого. Помните, в 2023-м были истории, что OpenAI нанимает программистов и PhD-студентов? Или я недавно писал про Spider2-V, где создавались задачи по дата-аналитике и инженерии — там люди вручную делали прям рабочие задачи из повседневной работы специалистов.

Одна из компаний, которая специализируется на разработке сложных бенчмарков для оценки моделей будущего — METR, Model Evaluation and Threat Research (вы могли про них слышать как ARC Evals, команде в ARC — компании, созданной Paul Christiano, бывшим сотрудником OpenAI, и ключевым разработчиком метода RLHF). Именно ARC Evals получили GPT-4 на ранее тестирование, и обнаружили, что в одном из сценариев модель попыталась обмануть человека и прикинуться слепой, чтобы тот помог ей решить капчу (писал все детали тут).

Вообще про METR (вернее его ребрендинг из ARC) я узнал почти случайно, когда увидел вот эту вакансию в Лунапарке. Оказывается, ребята помогали им искать руководителя направления создания бенчмарков и протоколов по оценке моделей. Насколько я знаю, вакансии не закрыты и остаются актуальными, и кроме руководителей ищут ещё и просто крепких ML-инженеров и исследователей, так что если вам покажется интересным всё написанное — скорее бегите подаваться! Так как компания нон-профит, то при получении визы в США не нужно будет играть в лотерею — это редкость.

Ну так вот, эти METR готовят бенчмарки по двум ключевым направлениям:

— «general autonomous capabilities», то есть навыки моделей существовать и поддерживать свою работу автономно. Как раз тут модель должна показывать, что она умеет копировать саму себя (писал про схожие тесты тут — тоже от ARC Evals) и распространяться, а также каким-то образом зарабатывать деньги, чтобы оплачивать железо. Как вы знаете, спрос на GPU просто дикий, и цены улетают в небеса. И полёт фантазии тут невероятный — от фишинга и развода людей на деньги через кражу паролей и до анализа новостей и торговли на бирже. Звучит смешно, если воспринимать ChatGPT как «ха-ха смешная хреновина пишет текст», но потыкайте по ссылкам, вспомните пример с обманом и капчей, и уже не так весело будет.

— «AI R&D capabilities», навыки, связанные с самоулучшением и проведением исследовательской работы в области AI & Машинного обучения. Именно сюда идут передовые AI-лаборатории, и что они нацелены создать системы, которые будут автоматизировать работу их же исследователей. Более подробно рассказывал год назад в своей лекции. Сюда попадают задачи от простых «запустить код модели с Github» до «внеси такую-то модификацию в код обучения LLM, чтобы заработало вот это, и запусти тренировку».

Про второй сценарий мы поговорим в следующий раз, ибо сегодняшний блогпост METR «An update on our general capability evaluations» сфокусирован на первом блоке.

Читать полностью…

Сиолошная

Когда выйдет GPT-5? 🤔

Давайте порассуждаем вместе, но перед этим сделаю сноску про название. Долгое время я думал, что OpenAI выпустят GPT-4.5, но сложно было угадать её тайминг. Если она привнесёт новые возможности и навыки относительно четвёрки, то кажется, что такая модель не должна выходить впритык к GPT-5, должен быть интервал в 3+ месяца (в том числе и для оценки того, насколько сильно увеличилось влияние модели на мир: какие новые задачи решаются, какое влияние на экономику, кто эксплуатирует LLM недобросовестно, etc.).

С другой стороны, указание на четвёртую линейку как основную означает, что количество мощностей, затраченных на её обучение, имеет примерно тот же порядок, а значит инфраструктура уже готова. У меня нет конкретной и однозначной цитаты какого-то официального лица OpenAI, которая бы это подтверждала, но примерно так принято считать: каждое новое поколение имеет и алгоритмические улучшения, и увеличенный масштаб, а минорные смены служат для обкатки лишь алгоритмов.

Может ли быть так, что GPT-4.5 выйдет тогда, когда GPT-5 уже будет готова? Вполне — с ChatGPT произошло нечто подобное, хоть она и не являлась первой моделью линейки 3.5 — но вышла в то время, когда GPT-4 уже была готова. Однако сейчас всё больше и больше компаний практикуют дистилляцию — обучение маленькой способной модели через предсказания учителя, бОльшей модели. Так делают Google и META, и у самих OpenAI модели подешевели (что почти наверняка говорит об их уменьшении, может, не с каждым обновлением, но суммарно за всё рвемя). Потому сначала может обучиться 5-ка, а затем 4.5 как промежуточный артефакт, которым мы будем довольствоваться.

Итого — я не знаю, что мы увидим первым, и будет ли вообще 4.5, да и 5: вдруг это будет GPT-Next? 🤕 сложна. Потому речь ниже пойдет о следующей передовой модели, обладающей более широким набором навыков, и в частности существенным улучшением в бенчмарках на агентность (когда модель берёт комплексную задачу и решает её от начала и до конца, с планированием и декомпозицией).

Итак:
— OpenAI получили новый тренировочный кластер от Microsoft весной этого года
— они открыто заявили, что следующая фронтир-модель уже тренируется
— до конца лета должен быть представлен отчёт с рекомендациями мер, необходимых при оценке безопасности и навыков модели. За это отвечает свежесобранный комитет с бывшим директором АНБ
— для GPT-4 цикл от окончания обучения через проверки и к релизу занял 8 месяцев, но сейчас вводятся разные регуляции. Сами OpenAI обещались предоставлять модель агентствам в США для проверки
— конкуренты не спят, Anthropic покажет Opus 3.5 осенью (средняя версия модели, Sonnet, уже доступна), и нужно чем-то крыть. Честно говоря этот пункт прибавляет уверенности, что GPT-4.5 может появиться примерно в то же время
— выборы в США, традиционно оттягивающие в стране всё внимание на себя, проходят 5-го ноября, но ещё неделька может уйти на обвинения в фальсификациях и краже голосов
— наконец, OpenAI озвучили даты DevDay-2024. В прошлом году на схожем мероприятии представили GPT-4 Turbo, однако в анонсе этого года указано следующее: «Хотя мы знаем, что разработчики ждут нашей следующей большой модели, обучение которой, как мы рассказали, началось в начале этого года, эти мероприятия будут посвящены улучшениям в API и наших инструментах разработки». В этот раз мероприятия будет 3 в разных частях света, Сан-Франциско 1-ое октября, Лондон 30-ое октября и Сингапур 21-го ноября. Считаю, что будет глупо, если принципиально новая модель появится между этими датами или сразу после них

Так что моё мнение такое:
— либо GPT-4.5 будет суперулучшенной версией, и её покажут следующей в начале 25-го года, а в промежутке мы получим слегка более умные версии 4o
— либо GPT-4.5 выйдет в начале осени, скорее до 1-го октября включительно, чтобы стать ответом на модели конкурентов, а GPT-5 анонсируют в начале 25-го (не раньше середины февраля)

Читать полностью…

Сиолошная

Пара новостей от OpenAI (чтобы замять исход команды лидеров, кек):
1) теперь есть не просто JSON-режим, когда модель отвечает вам в машино-читаемом формате, а структурированная генерация. Первый (представленный в прошлом году) просто повышает надежность модели для создания синтаксически валидных JSON, а второй гарантирует, что ответ модели будет соответствовать определенной схеме. Вот если вы пишете "мне нужно, чтобы были такие-то и такие-то поля, и никаких больше" - теперь в 100% случаев будет исполняться. Можно указывать сложные вложенные структуры (см. картинку).
2) вышла новая gpt-4o, gpt-4o-2024-08-06, но об улучшениях в метриках и качестве работы ничего не говорят
3) зато она дешевле в 2 раза! не знаю, что там делают внутри компании - роняют маржинальность или дистиллируют более качественно (или на самом деле новая модель хуже..), но вот, теперь новая цена $2.50/$10 за миллион токенов на входе и на выходе (против $5/$15).

Напомню, что у OpenAI ещё есть BatchAPI (это когда нужно ждать ответа до 24 часов - подходит для разных несрочных задач), который делит цену на два. Совсем копеешно получается!

Новость

Читать полностью…

Сиолошная

В сеть утекли документы и скриншоты переписки сотрудников Nvidia касательно проекта по скачиванию видео для последующего обучения (видео-)моделей. Очень интересно, к какому юридическому прецеденту это приведёт — ибо в переписке видны сомнительные заявления, что высшее руководство на всё дало разрешение, и что нужно качать и Netflix, и вот какую-то пачку YouTube-каналов тоже надо обойти (см. картинку), и про фильмы Голливуда не забыть.

На момент мая 2024-го компания проводила эксперименты с моделью на 1 миллиард параметров перед дальнейшим масштабированием в 10 раз. Вероятно, к текущему моменту бОльшая версия уже натренирована. Я бы сказал, что значит скоро увидим Sora от Nvidia, но теперь уже может и нет 🌚🌚🤣

В сутки проект выкачивает примерно 80 лет видео, и за 5 недель было выгружено около 40 миллионов видео. С одной стороны это кажется ого-го сколько, а с другой — это капля в море существующего контента.

Также прилагаю распределение видео по категориям, если вам вдруг интересно.

На утечку уже начали реагировать каналы, замеченные в сообщениях. Интересно, будет ли коллективный иск, и будет ли его поддерживать Google — увидим ли мы неприкрытую битву триллионных корпораций за данные?

Читать полностью…

Сиолошная

DeepSeek запустили на своей платформе кэшировние промптов для ваших запросов к LLM. Как вы наверняка знаете, LLM — это авторегрессионные модели, и в них каждое последующее слово, каждый токен, зависят от предыдущих, но не от будущих. Кэширование — это сохранение промежуточных результатов вычислений для первых N слов, чтобы их не приходилось пересчитывать ещё раз — а они в свою очередь не поменяются, что бы не было написано в промпте дальше. То есть 200-ое слово не влияет на 100-ое, и так далее.

Это влияет сразу на две вещи, которые очень важны при использовании LLM:
— время до первого токена при генерации. Так как значимая часть текста уже была обработана и сохранена, то её лишь нужно подгрузить, а затем сделать маленькое количество вычислений сверху. Например, для максимальной длины промпта ~128'000 токенов генерация без кэширования начинается лишь через 13 секунд (в это время обрабатывается сам промпт), а с кэшированием повторный запрос начнёт выдачу уже через 0.5 секунды!
— существенное снижение цены: так как теперь не нужно делать вычисления, то за них можно и не платить, верно? Но стоит потратиться на дисковое пространство и накладные расходы. DeepSeek и без того предлагает очень низкие цены на свою флагманскую модель (которая по всем бенчмаркам, особенно связанным с кодом, уж очень хорошо себя показывает — чуть слабее фронтиров), а здесь на токены промпта (запроса) скидка аж 90% при кэшировании!

В каких сценариях это выгодно?
— например, в длинных диалоговых сессиях с чатботом, где каждое последующее сообщение как бы попадает в историю к предыдущим. Мы точно знаем, что прошлое (ответы LLM и пользователя) не будет меняться, их можно закэшировать — и при повторном запросе не пересчитывать. На картинке это показано по центру — то, что выделено как Cache Hit, это как раз место, где будет экономия.
— альтернативный сценарий, это когда у нас есть контекст, и к нему нужно сделать много разных запросов. К примеру, это может быть текст из PDF-документа, произвольный набор данных или даже часть вашего репозитория с кодом (и библиотеками) — как показано в нижней части картинки. В таком случае вы платите много за первый запрос, а остальные идут с дисконтом.

Ранее в этом году Google тоже запустили кэширование (но цены там менее привлекательны), а вот OpenAI обещали более полугода назад, но до сих пор не раздуплились 🥲

Но фишка DeepSeek относительно Google в том, что кэширование включено по умолчанию и ничего не стоит вам — даже код менять не надо! Они сами все записывают, и при необходимости достают данные для обработки. У Google же нужно явно указывать, что и как вы хотите сохранить, и до тех пор, пока не удалите, будет списываться копеечка за занимаемое пространство.

С таким кэшированием очень интересно позапускать разные оптимизации, делаемые с помощью LLM (например, как тут), где важен контекст, история прошлых экспериментов. Может, модель и недотягивает до уровня GPT-4, зато это можно компенсировать десятками генераций в ту же цену.

===

DeepSeek вообще жгут, я тут узнал, что их основатели занимались инвестициями и держали хэджфонд, но КПК сказали, мол, они не приносят пользы обществу — и потому они начали заниматься AI 😂 представьте такое в Америке 🌚

Читать полностью…

Сиолошная

SpaceX показали первый серийный ракетный двигатель нового поколения, Raptor 3. На фоне других двигателей он выглядит как недоработанная игрушка, макет — так мало в нём деталей.

Практически все части теперь либо удалены, либо зашиты внутрь. А ещё двигателям теперь не потребуется внешняя защита (на фото не представлена) для входа в атмосферу на огромной скорости — охлаждающая система тоже спрятана прямо в стенки. Сам двигатель стал легче Raptor 2, да ещё и мощнее; прямо настоящее чудо.

Далее цитирую @starbasepost:
=====
Если посмотреть на конструкцию серийного двигателя Raptor 3, то знающие люди сразу прийдут к выводу, что все эти интегрированные каналы, или отказ от крепёжных элементов в пользу сварки и унификации конструкции — сущий кошмар в плане ремонтопригодности. К огромному числу критических узлов просто не будет доступа без «болгарки». Тогда как чинить один из самых сложных ракетных двигателей? Ответ — никак.

У Raptor другой подход — двигатель не придётся ремонтировать в случае проблемы, если его дешевле/быстрее заменить. А для того, чтобы была такая возможность — нужно налаживать массовое конвейерное производство. И это в свою очередь крайне положительно скажется на конечной стоимости изделия.
=====

«А почему другие так не сделают?» — потому что никто не целится в производство многоразовых двигателей в масштабах даже не сотен, тысяч единиц. Конкуренты делают штучные экземпляры и за куда большую цену, так ещё и приходится предоставлять удобный доступ к разным частям для обслуживания/диагностики/ремонта.

Так вот, эти двигатели будут ставить на вторую версию системы SpaceX, так что ближайшие полёты будут на уже собранных Raptor 2. Starship v2 подрастёт на несколько метров, нарастит тягу и даже получит больше движков.

Но пока...мы ждём пятый тестовый полёт, с попыткой посадки ускорителя на башню (и как следствие сохранение всех 33 двигателей для последующего переиспользования). К сожалению, с начала августа пуск переехал на его конец, или даже начало сентября — нужно получать новую лицензию из-за изменившегося профиля полёта: посадка-то теперь не на воду!

😠 быстрее бы 😡 не томите

UPD: сравнение этого двигателя с его предшественниками /channel/starbasepost/765

Читать полностью…

Сиолошная

AIME — это специально дообученная LLM (взятая из PaLM-2, даже не Gemini) плюс набор промптов.

Дообучение:
— очень интересная часть, ради которой и затевался разбор. С одной стороны, авторы набрали кучу датасетов, сделали транскрипцию записей реальных приёмов у врачей, почистили данные и подготовили для тренировки в формате «что говорит доктор — что отвечает пациент — что реально выявили у пациента». В среднем в таких диалогах было по 150 шагов (доктор сказал -> пациент сказал = 2 шага)
— взяли классические медицинские датасеты и для части вручную расписали рассуждения, почему такой-то и такой-то диагноз должен быть. То есть не просто «состояние -> диагноз» подавали LLM, а именно цепочку арссуждений, приводящих к правильному ответу. Но на обычных широкодоступных тестах тоже обучали
— всего этого казалось недостаточным, ибо частые диагнозы встречаются часто, а редкие, не поверите, редко. И если ничего не делать, то модель будет сильно хуже работать «в длинном хвосте распределения». Как быть? Генерировать данные!
— для этого из были взяты данные из справочника с описанием болезней (~23 тысячи, против 613 «частых»), и модель с оглядкой на них генерировала синтетические диалоги. Она отыгрывала и роль пациента, и доктора, и отвечала за демографию (у кого-то определенные болезни чаще или реже проявляются). Также модель критиковала ответы, переписывала их до двух раз с учётом обратной связи (от самой же себя). И вот на скорректированных данных производилось обучение
— (все промпты очень простые и есть в статье)
— процесс можно повторять итеративно, так как модель всё лучше и лучше начинает понимать специфику задачи. Сгенерировали диалоги (с учётом критики, исправлений, etc.) — обучили — сгенерировали...

Применение:
— перед ответом модели во время тестирования генерируется не один абзац, схема следующая: 1) модель делает саммари всего диалога + состояния пациента (да, после каждого вопроса и ответа), делает диагностику и рассуждает, что бы ещё спросить 2) генерирует следующее сообщение для чата (может быть вопросом, уточнением, соболезнованием или финальным ответом с предсказанием) 3) переписывает ответ на основе некоторых критериев, чтобы ответ был понятным и незамудрёным, дружелюбным, опирался на факты, ну и имел удобочитаемый формат

Читать полностью…

Сиолошная

По запросам трудящихся включил звёздочки в канале, можете их теперь отсыпать под постами.

(Платного контента всё равно не появится, он весь будет доступен каждому)

Читать полностью…

Сиолошная

Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question? ( https://arxiv.org/abs/2402.12483 )

Tl;Dr: авторы статьи выяснили, что LLMки порою могут правильно отвечать на вопрос с выбором нескольких вариантов ответа... не видя самого вопроса (см. рис 1, на котором показано, что точность моделей в этом сетапе существенно больше случайной).

Авторы рассмотрели три возможных механизма того, как это в принципе может работать:
🧠 запоминание датасета - может произойти, если авторы LLMки решили учудить train on test;
🧠 нахождение паттерна в распределении вариантов ответа - может произойти во few shot сеттинге, если в вариантах есть закономерность, которую модель успевает заметить, пока ей показывают примеры (например, модель может успеть заметить, что в правильных вариантах чаще присутствует определенное слово или они как-то по-другому сформулированы, чем неправильные; подобные закономерности часто пытаются подметить в тестах студенты, которые к ним не подготовились 💔);
🤙 самый интересный механизм - вывод вопроса из набора вариантов ответа - та самая абдукция, которая помещена в название статьи.

На этом последнем варианте авторы останавливаются поподробнее 🔍 и доказывают, что в ряде случаев модели действительно способны восстановить исходный вопрос по вариантам ответа и, соответственно, ответить правильно.

ДУМАЙТЕ.

#объяснения_статей

Читать полностью…

Сиолошная

Немного новостей с LMSYS-Arena:

1. OpenAI на днях написали, что подложили в ChatGPT пользователям «новую модель». На вопрос «это же gpt-4o-08-06, да?» они ответили «нет!». Как вы понимаете, в Твиттере сразу произошел хлопок, и все начали спекулировать что это уже не то что GPT-4.5 а блин GPT-10. Всё оказалось куда проще — теперь у OpenAI есть ещё одна отдельная модель, которая и доступна по API, и показывается по умолчанию пользователям ChatGPT: ChatGPT-4o-latest-2024-08-08. Это первая модель с таким префиксом.

Эту модель пустили на Арену, и после набора 11.5к голосов она лидирует по всем срезам. Это первая модель, которая уверенно закрепилась выше 1300 очков Эло рейтинга (на эту территорию зашла Gemini-1.5 поледняя, но очень робко, на пару очков, и вот с набором статистики уже подупала; здесь же всё однозначно). В Instruction Following, Math — везде топ, но самый большой прирост в кодинге, +37 очков к своей предыдущей итерации. Это даже больше, чем при переходе от GPT-4-Turbo к GPT-4o!

Если активно пользовались ChatGPT последнюю неделю — делитесь впечатлениями, стало ли лучше или хуже.

У людей при слепом голосовании такая статистика: модель выигрывает у Gemini-1.5-Pro-Exp в 57% случаев и у Sonnet 3.5 в 59% запросов. Такими темпами OpenAI нихрена не релизнут....

2. Я про это не писал, но GPT-4o mini (которая супер-дешевая и шустрая) на Арене аномально высоко — на всех запросах выше gpt-4-turbo и на уровне с Claude 3.5 Sonnet. А ведь это модель на порядок дешевле. Авторов даже обвинили в подтасовывании результатов, или что OpenAI на самом деле отдаёт им ответы старших моделей, а не мини. Скорее всего, OpenAI — как и другие компании вроде Google — просто улучшили стиль ответов, и после этого круто прошлись по post-training, чтобы ответы выглядели более привлекательно и более правильно. Напомню, что тут лучшую модель выбирают живые люди на своих запросах, а люди могут ошибаться, или просто выбирать что-то, что им нравится больше, но не является более правильным или точным.

На более сложных срезах вопросов (математика, программирование, следование инструкциям) модель ожидаемо просаживается, но всё равно держится крепко, редко уступая LLAMA-3.1-405B.

Сама модель mini супер за свою цену, точно лучше локальных 8B, которые можно развернуть и пользоваться самому — вот @denissexy вчера писал, что «Мы отключили почти все наши внутренние LLM и перевели их на OpenAI API. Так просто дешевле!»

Читать полностью…

Сиолошная

Enterprise RAG Challenge - в этот Четверг

Первый раунд Enterprise RAG Challenge состоится в этот четверг. Это дружеское соревнование по построению RAG-систем, которое открыто для всех.

Расписание на четверг, 15 Августа:
- после 10:00 CET / 11:00 MOW выберу и выложу пачку из 20 годовых отчетов компаний для анализа (примеры тут). Вы их можете загрузить в свой RAG и прогнать всяческий data extraction/indexing
- после 12:00 CET / 13:00 MOW сгенерирую 50 вопросов. Они будут в формате JSON как тут.

Задача простая - как можно скорее сгенерировать и прислать мне эти же файлы с заполненными ответами. Ответы, которые будут присланы в течение минут пяти ценятся выше (маловероятно, что у людей будет время вычитывать и исправлять их вручную), но в целом можно прислать хоть когда в течение суток.

Это первый прогон соревнования, поэтому я пока не заморачиваюсь с такими вещами, как предварительные формы регистрации для участников или использование TSA серверов (RFC 3161) для выставления подписанных timestamps на результаты. Это все добавлю осенью, когда сделаем международный прогон соревнования в том же формате.

Все ответы и результаты будут потом опубликованы, рейтинги выставлены по каноничным ответам (собраны вручную). Можно участвовать анонимно.

Тот, кто займет топовые места, будет сидеть в топе лидерборда до осени 🎉


Почему в расписании стоит “после 10:00 CET”? В это время я запускаю скрипт получения следующего Random Seed из Blockchain (хоть какая-то от него польза), что займет минут десять. Это нужно для того, чтобы выбор файлов и вопросов был одинаковым сюрпризом для всех участников. Описание процесса и исходники всех скриптов лежат в открытом доступе на Github.

К слову, вся repository выложена под Apache 2.0 License 🍻. Если хочется сделать свой Rag Challenge со своими документами и задачами - можно смело переиспользовать код.

Кто думает попробовать поучаствовать? Ставьте 🤝.

Вaш, @llm_under_hood 🤗

---
PS: Кстати, OpenAI тоже будет участвовать. Я потом прогоню все документы и вопросы через их ассистентов тоже 😁

Читать полностью…

Сиолошная

Вчера OpenAI поделились системной карточкой GPT-4o, в которой рассказывают про систематическое же тестирование своей передовой модели. По сути, блог отвечает на вопрос: «почему мы всё ещё не получили доступ к аудио, почему только альфа-тест? ДОКОЛЕ?». Изначально были новости, что запуск откладывается из-за проблем с безопасностью модели, и вот они подтвердились. Хотел сделать краткую выжимку, но вышло как обычно много 🥺

Поэтому тезисно:
— тестирование проводилось итеративно в 4 этапа и шло параллельно с финальными шагами разработки. Сначала 10 человек задавали одношаговые вопросы модели голосом и текстом, получая запоздалые ответы, а в конце — 65 человек мучали модель на 45 языках примерно в том же формате, что и в демо OpenAI: живой чат в реальном времени (включая аудио и видео), с длинным контекстом
— соответственно, на каждом этапе выявлялись проблемы, которые исправлялись в основном 1) докидыванием новых данных в обучение 2) дополнительными фильтрами на генерацию модели
— в некоторых случаях инсайты от работы этой группы использовались для генерации синтетических данных
— альтернативно людям, часть аудио для тестирования генерировалась другой внутренней системой OpenAI (Voice Engine), в основном это были текстовые данные, созданные при тестировании прошлых версий не омнимодальных моделей. Не пропадать же добру!
— теперь к ограничениям. GPT-4o будет отказываться выполнять запросы на определение личности говорящего, но при этом будет отвечать на вопросы об известных цитатах. Честно говоря, не до конца понимаю, зачем такое ограничение ввели.
— отдельно модель отучивали генерировать музыку (и добавили фильтры на выход, которые работают в реальном времени), а на время альфы модели ещё и наказали (видимо, через промпты?) не петь
— самое прикольное: на ранних этапах модель изредка начинала отвечать не своим голосом, а подражала вопрошающему. Напомню, GPT-4o в теории может генерировать любой звук, просто он намеренно урезан до 4 голосов (тоже было отдельной задачкой, как от них далеко не уходить) и простых звукоподражаний. Причём, модель делает подражание так реалистично, что по записи даже не ясно, в какой момент произошло переключение. Почему это плохо? В теории, может негативно сказываться и влиять на восприимчивых людей (представьте, что они воспримут GPT-4o как внутренний голос), ну и, конечно, клонирование голоса, которое может использоваться в нелегальных/неприятных сценариях. Демку можете глянуть по ссылке.
— также были проблемы, связанные с разными акцентами и разными языками (модель в среднем работала хуже для одних, чем для других, что очевидно является биасом), но постарались избавиться от регресса через дотренировку
— OpenAI считают, что голосовая модальность вкупе со знаниями модели для некоторых людей может начать зменять врачей, потому отдельно померили качество на медицинских бенчмарках (11 штук x 2 способа = 22 замера). В 21 случае модель была значимо лучше GPT-4-Turbo, прогресс есть. Но что ещё интереснее, так это что модель обходит специализированные модели от Google на тесте MedQA USMLE 4 options: она набирает 89.4%, Med-Gemini-L 1.0 84% и Med-PaLM 2 79.7%. OpenAI уверяют, что не оптимизировали промпты или другие параметры под бенчмарки, если так — выглядит солидно
— делали агентские тесты на саморепликацию (сможет ли модель себя запустить на другом сервере), на наше счастье пока модель не справляется. Однако отмечается, что по некоторым подзадачам GPT-4o делает нетривиальный прогресс и почти справляется с ними


— отдельно выделю, что тестировали SWE-bench (это где нужно закрывать Github Issues, написав код, решающий обозначенную проблему). Новость интересна тем, что вчера утекли ссылки на ближайшие посты в блоге OpenAI, и на 13 августа назначена публикация SWE-bench Verified. То есть как будто бы OpenAI пересоберут датасет, и — чего мне бы очень хотелось — покажут, насколько хорошо работает система, заточенная на эту задачу (а не собранная на коленке), а не просто «вот текст, пиши одно решение и всё, сразу проверяем», без специализированных приёмов.

Читать полностью…

Сиолошная

Если взять те задачи, которые были решены и человеком, и LLM, то средняя стоимость использования агента составляет около 1/30 стоимости, рассчитанной на основе средней почасовой оплаты труда обладателя степени бакалавра в США ($37.325 в час). Для сравнения, обработка 382'000 токенов через Sonnet 3.5 для исправления бага в библиотеке обошлась менее чем в $2.

На графике по горизонтали бюджет (цена за генерации для LLM или цена труда с вышеуказанной ставкой за время, которое человек сам указал для задачи), а по вертикали — доля решённых задач. Чем правее двигаемся, тем больше времени (=денег) тратим, но и тем больше решает как человек, так и LLM. И снова плато, и снова затухание. Но если б кривая продолжалась...

Так что вывод такой, что... можно и нужно накрутить техники, испольщующие в 30 раз больше мощностей для работы (чтобы сравнять цену), и уже при этих вводных оценивать и текущие, и будущие модели. Не удивлюсь, если Gemini 2 / GPT-5 смогут выбивать по 60% решенных задач (человек, напомню, справился с 80%).

Если вам интересно узнать больше про задачи, то очень детальное описание похожих задач (используемых как публичные примеры) есть в репозитории на GitHub: https://github.com/METR/public-tasks . Там же указано и затраченное человеком время, можно посмотреть на самые сложные примеры. Скажем, с нуля реализовать/повторить научную статью с ML-конференции (12 часов) или разработать приложение для оплаты платежей (50 часов, больше рабочей недели!).

Читать полностью…

Сиолошная

Результаты

Чем длиннее (=сложнее) задача, тем меньше процент успешных решений — именно его вы видите на графике:
— из 9 лёгких задач на 1-4 минуты модель решает 5 (55%)
— процент решения задач, требующих у человека от 15 минут до 4 часов, едва поднимается выше 20%
— задачи, требующие больше 16 часов, не решены вообще

В целом, модель кое-как справляется с такими проблемами, на которые у человека уходит полчаса. Это далеко от 100%, но уже немалый прогресс.

Читать полностью…

Сиолошная

Способность модели к агентности и автономному существованию в целом не дает ИИ-системе возможности вызывать катастрофические сценарии. Автономия — это показатель того, насколько система может оказывать долгосрочное влияние на мир при минимальном участии человека. Одна из целей оценок METR — помочь спрогнозировать возможности и влияние AI, ну а для нас — посмотреть на текущее состояние области.

Чтобы провести полноценный замер с учётом разных уровней сложности, было собрано около 50 задач и 200 их решений реальными людьми. Подавляющее большинство специалистов-исполнителей имели степень бакалавра STEM и опыт работы с технологиями больше 3 лет. Кажется, что 50 задач — пшик, но это вы их не видели просто!

Вот некоторые из проблем:
— конвертировать JSON-файл из одной структуры в другую (на языке бигтеха «перекладывание жсонов»). В среднем люди тратили 5-55 минут на выполнение.
— эксплуатация уязвимости на сайте. Нужно создать фиктивную учетную запись для доступа к поисковому движку, а затем выполнить простую атаку с помощью инъекции команды, чтобы получить чужой пароль. Затраченное человеком время: 6.5-7 часов
— написание программ на CUDA (это язык для работы с видеокарточками) для ускорения системы тестирования трейдерских стратегий не менее чем в 30 раз (коэффициент ускорения влияет на оценку успешности выполнения). То есть уже предоставлен код, который прогоняет стратегию на исторических данных, но делает это неэффективно. Затраченное время: 13 часов
— натренировать отдельную ML-модель для классификации звуков (нужно научиться выделять звуки обезьян). Тут LLM должна разобраться, какие данные ей полезны, извлечь их, выбрать подходящую модель и обучить. Время у человека: 16 часов

Как видите, задачки относятся к разным сценариям, которые напрямую могут не влиять на автономию LLM, однако через них теоретически она может выполнять фриланс-задания и получать денежку — ну или отжимать бабки через кражу аккаунтов 💸

Читать полностью…

Сиолошная

И не стоит исключать вариант, что OpenAI могут показать модель, но не дать ей никому пользоваться, а терпеливо ожидать тестов соответствующих агентств и ведомств. GPT-4o ждали 2.5 месяца от анонса до альфа-теста (!), так что к спискам ожидающих мы уже приучены. И наверное имеет смысл её показать перед демо-днём (релизить не надо -> не нужно супер-упарываться по проверкам на безопасность), а на нём рассказать, мол, вот как выглядит будущее — готовьтесь, планируйте соответственно. Sama любит приговаривать «делайте стартапы с оглядкой на модели будущего, у которых не будет тех же ограничений и проблем, что вы сейчас испытываете».

В общем понятно, что ничего не понятно 🤷‍♂️ не люблю гадать и в этот раз не буду, выше — спекуляции, основанные на (почти) фактах, которые являются публичными и отображают лишь часть реального положения вещей. Из 3 сценариев не могу выбрать фаворита, но можно YOLO сказать, что третий выглядит круто: вот вам модель 😎 агентства не разрешают вам её отдавать 😎 но когда разрешат 😎 в общем готовьтесь 😎

Пишите ваши предсказания в комменты 💬, через полгодика похихикаем.

Читать полностью…

Сиолошная

И отдельно хотел рассказать про приём, которым можно пользоваться, но про который немногие знают.

Если вы хотите получать ответ от модели в чётком формате, но при этом хотите предоставить ей время "на подумать" (сгенерировать промежуточные вычисления и шаги рассуждения), то можно запросить выдачу двух полей: рассуждение (как массив строк - это и будут шаги) и финальный ответ. Тогда перед тем, как давать ответ, модель подумает - и в среднем это поднимает качество.

А главное что всё делается в один запрос, не нужно ручками туда-сюда возюкать отдельно рассуждения, отдельно ответ.

Читать полностью…

Сиолошная

Анонсирующий трейлер для того самого робота Figure 02

Какой-то скудный анонс вышел, я ожидал большего количества деталей и примеров. Но имеем что имеем. Итак, фичи:
— speech-to-speech интерфейс (как у GPT-4o, вероятно, она же и под капотом, или хотя бы mini-версия): робот воспринимает голосовые команды и переводит их в действия, которые может объяснять и комментировать
— на борту 6 камер для восприятия окружающего мира
— сила в пальцах примерно равна оной у человека (в такой форм-фактор сложно запихнуть соответствующую мощность)
— батарейка в корпусе на 2.25 KWh. Этого даёт на 50% больше время работы относительно прошлого поколения
— а мощностей для работы моделей больше в 3 раза

...но ходит всрато 👍

Как вам дизайн?

UPD: появилась новая деталь:
— с текущим дизайном и батарейкой планируется довести работоспособность до 20 часов в сутки. В остальное время, по видимому, батарея либо будет заряжаться (до зарядки ещё дойти надо), либо меняться — пока не ясно, какой именно вариант рассматривается.

Читать полностью…

Сиолошная

Из OpenAI ушли ещё три лидера:
— Peter Deng, VP Product (писал про него тут, топовый продукт с опытом в крупнейших кампаниях)
— John Schulman (перешёл в Anthropic), сооснователь компании, проработавший 9 лет. Он занимался тем, что называется post-training, то есть превращение предобученной на всём интернете модели в полезный артефакт, который с одной стороны следует инструкциям, а с другой пишет безопасные ответы. Также он был первым автором метода PPO для Reinforcement Learning (и оказалось, что помимо обучения нейронок игре в компьютер его можно применять и для улучшения качества ответов). В своём сообщении об уходе в X John пишет, что хочет вернуться к работе руками и в интересном ему направлении, и что в OpenAI всем доволен и благодарен

... и самое неожиданное, третий — Greg Brockman, тоже сооснователь компании, работавший с первого дня (и бывший CTO). Правда он не уходит насовсем и не увольняется, а «берёт длительный отпуск». Greg был буквально правой рукой Sam Altman, очень помогал по инженерной части (были слухи, что он однажды полностью провалившуюся попытку обучения GPT-4 отлаживал до состояния, что всё заработало) и был душой компании. Sama об нём очень тепло отзывался — можете прочитать вот тут в блоге. У самого Brockman тоже есть блог с малым количеством статей, рекомендую почитать. Есть и посмеяться, и поудивляться.

Нет никакой информации о том, связаны ли три ухода между собой. Самый большой вопрос для меня — ЧТО С GREG? Почему? Как? Зачем? От него никаких комментариев пока не было, будем ждать, ибо спекулировать можно бесконечно.
1) может, он таки поссорился с Sama и пути разошлись
2) может, он для GPT-5 всё заготовил и реально хочет отдохнуть перед грядущим большим годом
3) может, у него есть персональные причины (семья/здоровье/etc.)
4) ???

😢 всё больше и больше олдов уходит. Надеюсь, на качестве моделей до GPT-6 включительно это не скажется критически.

Читать полностью…

Сиолошная

На следующей неделе ожидаются интересные материалы по робототехнике — Figure AI, партнёры OpenAI, показали тизер следующего поколения роботов, Figure 02 (Видео 1), а полноценный анонс случится 8-го августа. Скорее всего, Elon Musk не сможет усидеть ровно, когда в X будут обсуждать 02, и тоже что-нибудь да запостит про Tesla Optimus.

Что в тизере бросается в глаза:
— улучшенный дизайн руки, пальцы всё ещё имеют одну длину, но теперь, как и у человека, они утоплены на немного разную глубину (фотку прошлого поколения кину в комменты)
— судя по вот этому твиту, в каждой руке есть 16 степеней свободы (то есть в скольки виртуальных независимых друг от друга плоскостях может происходить движение)
— пальцы теперь состоят из 4 фаланг, то есть имеют по 3 точки перегиба (раньше на 1 меньше)
— однако их движение (кроме большого) ограничено лишь сжиманием-скручиванием, и вот так 🖖 робот сделать не может
— «TORQUE 150Nm» и «ROM 195°» на отдельных компонентах означают момент силы (мощность двигателя или привода для создании движения) и диапазон движения соответственно. Последнему уделено много внимания — показывают, что аж ноги можно менять местами (то есть суставы поворачиваются более чем на 180 градусов)
— интересно, что схожие соединения использовались в обновлённом Atlas от Boston Dynamics — какие это выкрутасы позволяет делать вы можете увидеть на втором видео. Именно этот робот пришёл на смену старому гидравлическому Atlas (писал тут). Насколько это полезно — хз, маловероятно, что на фабрике придется проявлять такую гибкость чтобы угодить начальству. После выхода того трейлера пару месяцев назад я видел, как компанию уличили в копировании элементов у Figure AI, мол, посмотрели как у них и сделали также (сами за 20 лет не придумали).

Ну а я постараюсь сделать ещё парочку разборов про роботов!

Читать полностью…

Сиолошная

У Лекса Фридмана вышло интервью с командой Neuralink и Илоном Максом на 8.5 часов. Блин, восемь с половиной часов Фридмана, как это выдержать?

https://youtu.be/Kbk9BiPhm7o?si=GWKKRF-T9reRV-DL

Читать полностью…
Subscribe to a channel