Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Интересный, показательный и свежий пример.
В октябре вышла статья, которая напугала какое-то количество людей (после того, как в декабре её разнесли разные новостные аутлеты). TLDR: утверждалось, что кухонные приборы, сделанные из чёрного пластика, очень токсичны (они были загрязнены антипиреном из-за ошибки при переработке сырья).
Оказалось, что в статье есть математическая ошибка, и на самом деле всё ок.
Ethan Mollick скормил оригинальную 10-страничную статью o1 (не pro), и дал очень простой промпт: «Тщательно проверь математику в этой статье». Через 23 секунды модель написала ответ, в котором и указала на ошибку. Причём, так как и статья, и новости с её разбором свежие, а o1 не имеет доступа в интернет (да и к любым другим инструментам, даже калькулятору), то это именно модель смогла справиться с задачей.
Sonnet 3.6 справился со второго раза, когда ему дали подсказку, где искать.
Вообще этот пример показывает, как может измениться наука через лет 5 — не такое далёкое будущее, кстати — когда модели будут и гораздо умнее, и существенно дешевле (хотя такой разовый прогон на о1 так и так стоит меньше $0.5, а будет совсем копейки).
Бенчмарк o1 pro - золотой стандарт
Итак, настало время протестировать o1 pro.
Но сначала disclaimer. Есть 4 разные версии o1. Не путайте их!
- o1-mini - самая маленькая и недорогая из Reasoning моделей. Она есть в ChatGPT и по API
- o1-preview - мощная версия, которая раньше была доступна в ChatGPT интерфейсе. Теперь ее оттуда убрали и заменили на pro. По API она еще доступна
- o1 - это то, что теперь заменяет o1-preview в чат интерфейсе. У этой модели ограничено время на размышления, так что она заметно глупее preview. По API эта модель не доступна.
- o1 pro - самая мощная модель, которой разрешили думать много и долго. Она есть в чат интерфейсе по Pro подписке за $200. По API ее пока нет.
Этот пост - исключительно про o1 pro. Модель я в порядке исключения тестировал вручную.
Я взял результаты бенчмарка o1-mini, и выбрал те задачи, в которых она ошибалась. o1 pro на голову выше mini, поэтому я допустил, что если mini не ошиблась, то и pro не ошибется. Таким образом мне нужно было прогнать не пару сотен задач, а в десять раз меньше.
Еще я отключил custom instructions по своевременному совету Игоря. Память у меня и так была отключена. Сконвертировал запросы к API в текстовый запрос и запустил вречную.
Тут я столкнулся с двумя граблями.
Во-первых, o1 pro сейчас встроена в Chat. Поэтому задачки, которые по API возвращали нормальный plain-text YAML, теперь стали возвращать красиво отформатированный markdown. Тут я исправлял формат вручную.
Во-вторых, я при задачах в API я few-shots всегда форматировал так:
System: Task explanation
User: sample request
Assistant: sample response
User: sample request
Assistant: sample response
User: real request
# Task
Task explanation
## Example
User:
Assistant:
## Example
User:
Assistant:
# Request
Последнее судебное заявление Elon Musk против OpenAI знаменует собой его четвертую попытку менее чем за год переформулировать свои претензии к своим бывшим коллегам. Как и в прошлый раз, OpenAI опубликовали свежий ответ, раскрывая некоторые детали (в том числе переписки) прошлого, которые показывают, что слова Elon'а не бьются с тем, что написано в поданном иске. Прочитать можно тут: https://openai.com/index/elon-musk-wanted-an-openai-for-profit/
Если честно, то мне и прошлого блога хватило — там было явно показано, что Musk в 2017-м сам высказывал тезис, что нужно гораздо больше капитала для разработки ИИ, и не выступал против превращения компании в коммерческую (из некоммерческой).
В этом же блоге показывается ещё более глубокая история — Elon не то что был просто согласен, он зарегистрировал свою коммерческую компанию, на которую хотел, чтобы переписали большую часть OpenAI (в прямом смысле, majority, больше половины). Также он должен был стать СЕО и получить начальный контроль. Где-то в это же время он предлагал всей компании стать частью Tesla (тоже коммерческой компании, как вы понимаете).
Так что любые заявления «я вкладывал свои деньги в НКО, а меня обманули и за счёт имени и средств раскрутились в мощный стартап!» звучат очень бредово. Посмотрим через пару месяцев на следующий т.н. мув. Кроме того, в течение нескольких лет даже после выхода из компании Sam Altman предлагал представителям Musk'а долю в компании (ведь инвестиции на ранних этапах-то реально были), а тот отказывался.
Нет-нет, вы не поняли, он может прям взять вашу фотку, подумать над ней и дорисовать, например, ход в крестиках-ноликах 😏
(функция доступна только доверенным бета-тестерам, полноценный релиз для всех в начале следующего года. У меня вот нет доступа, это скриншот из твиттера)
Sama очень рад, что его свитер понравился ChatGPT в iPhone Siri (кстати, вышла сегодня) больше остальных
О, и ещё можно обновить MacOS, там тоже появилась интеграция. Siri (по идее) теперь не такая бесполезная!
А вот и анонс от СЕО компании с цифрами бенчмарков!
У кого-то из чата уже заработали аудио-ввод и вывод (генерация речи), у меня пока нет(
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/
Ссылка попробовать в AI Studio БЕСПЛАТНО: тык
@denissexy has spoken 🤓
(да, ТГ-инфлюенсеры всегда так разговаривают между собой)
Ну а про свой опыт (даже с обычной о1) я писал на прошлой неделе, пока ощущения те же.
Ого а вот это интересное ограничение вылезло на плане за $20. «Вш план на данный момент не поддерживает создание видео из загруженных медиа-файлов, содержащих людей».
Интересно, есть ли такое на Pro, и когда и при каких обстоятельствах будут ограничения снимать?
Заходим, смотрим, генерируем: https://sora.com/
МОЖНО с PLUS подпиской (не PRO, всего $20)
— новая модель, Sora Turbo быстрее, дешевле для запуска, и лучше в генерациях
— генерации от 5 до 20 секунд
— 3 разных разрешения, 1080p в 8 раз медленнее 480p
— можно промптить текстом, картинкой или видео (клипом)
И директор Apollo Research расстроился от некоторых реакций общественности, поэтому написал вот такое:
===
Мы старались изо всех сил не преувеличивать и не приуменьшать результаты в наших текстах, но, как и следовало ожидать, некоторые люди сильно их переоценили, а затем, основываясь на этом, другие пришли к выводу, что здесь вообще не на что смотреть. Поэтому я попробую объяснить ещё раз.
Почему наши выводы вызывают беспокойство: Мы даём модели очень сильное указание преследовать определённую цель. Затем она извлекает из окружающей среды информацию, что эта цель не согласуется с целями её разработчиков, и попадает в среду, где обман оказывается эффективной стратегией для достижения её собственной цели. Текущие передовые модели способны всё это связать воедино и демонстрировать обманное поведение. Модели, созданные до 2024 года, не показывали такой способности, и только o1 демонстрирует обманное поведение во всех случаях. Будущие модели будут становиться только лучше в этом, поэтому, если они окажутся несогласованными с нашими целями, обман может стать гораздо более реальной проблемой.
Чего мы не утверждаем: мы не утверждаем, что эти сценарии являются реалистичными, не утверждаем, что модели делают это в реальном мире, и не утверждаем, что это может привести к катастрофическим последствиям при текущих возможностях.
Я считаю, что адекватная реакция на эти выводы — это «Нам следует быть немного более обеспокоенными». Более конкретно, аргументы вроде «модели просто недостаточно способны для обмана» теперь должны предоставлять более убедительные доказательства, или их сторонники должны выдвигать другие аргументы в пользу безопасности.
Почему люди недооценивают результаты: мы не давали модели указаний избегать или отключать проверяющую систему. Мы только сказали ей преследовать цель. Она сама сделала все остальное рассуждение. Это как раз и есть основной вывод статьи. Если бы мы сказали модели отключить системы или обманывать, и т. д., вывод был бы не очень интересным.
Много ли в мире интеллектуальной деятельности задач, где нужно сидеть считать буквы и цифры, вспоминая какой жанр у такой-то игры? Нет.
Но много ли в мире задач, где нужно перебирать ответы с использованием логики, понимая ограничения и оценивая, что приближает к ответу, а что отдаляет? Очень много.
Если хочется поставить что-то на фоне в выходной день на время занятий чем-либо (знаю, что кто-то из подписчиков любит лего пособирать в праздное время), то принёс вам две ссылки:
— Полуторачасовая дискуссия «The Future of Math with o1 Reasoning» тренера олимпийской команды США по информатике (по совместительству Head of Frontiers Research @ OpenAI) Mark Chen и Terence Tao, «Моцарта от мира математики» нашего времени, самого молодого призера и победителя международной олимпиады по математике. Сам ещё не слушал, но Terence в своём блоге недавно писал, что через сколько-то лет ожидает революцию в доступности передовых исследований в математике, когда даже индивиды без исследовательских групп смогут вносить большой вклад в науку за счёт аутсорса части исследований AI.
— Часовое интервью с Noam Brown, членом команды, сделавшей o1.
Нечасто пишу о LLM от Google, а их тут за последний месяц повыходило несколько штук. Буквально каждую вторую неделю вываливали что-то новое на LMSYS Arena — это где люди задают вопросы, им отвечают две LLM, а они вслепую выбирают, какой ответ лучше: по этим голосам составляется рейтинг, чьи ответы более предпочтительны в среднем.
Уже давно известно, что такие оценки очень подвержены смещению из-за форматирования ответов. Люди в среднем предпочитают более длинные ответы (они им кажутся более глубокими и правильными что-ли), а также те, которые содержат списочки, заголовки, выделения жирным — чтобы было проще ориентироваться и находить новую информацию.
Для того, чтобы с этим бороться, придумали Style Control — это когда в результаты голосования людей вносят поправку на два вышеуказанных критерия. Чуть больше я писал про это тут, если вам интересно разобраться, но если вкратце, то у модели вычитают рейтинг пропорционально длине ответа и количеству разметки в нём.
Так вот, без этой поправки, без Style Control, модели якобы претендовали на первые места почти во всех категориях запросов, от программирования и математики до следования инструкциям. Однако если скорректировать рейтинг, то модели резко просаживались и уже достаточно серьёзно отставали от первых позиций (модели OpenAI + Anthropic).
Но вчера это наконец-то изменилось, и теперь не стыдно написать — без звёздочек, без придирок, по-честному — на Арене модели Google делят первые места с o1-preview, а где-то даже обходят её, и это с поправкой на стиль. К посту прикрепил картинку с четырьмя категориями (одна не поддерживает Style Control, обратите внимание) и несколькими моделями для сравнения.
Возможно, это preview или какой-то промежуточный чекпоинт Gemini 2.0 (может даже не самой большой версии?), которую, согласно слухам, стоит ожидать уже на следующей неделе («вторая неделя декабря», проговорился директор из Сингапурского офиса).
Новая модель пока носит название Gemini-Exp-1206, а две предыдущие итерации на Арене — Gemini-Exp-1114 и Gemini-Exp-1121. Кто-то в чате предполагал, что это тоже ранние версии 2.0, но у меня была другая гипотеза, которой поделюсь с вами.
Одна из моделей использует старую тушку от 1.5, но её дообучали с новой разметкой, новым стилем ответов. Сама модель умнее не стала, но изменился формат — поэтому её оценка людьми выросла. Вторая модель получила алгоритмические улучшения для дообучения от 2.0 или и вовсе была дистиллирована с неё. То есть базовая модель не меняется, менялось то, что поверх неё накрутили. А эта новая Gemini-Exp-1206 — это уже вероятно что-то очень близкое к Gemini 2.0.
(Но это спекуляция, как оно было мы, вероятно, не узнаем. Может все три модели это Gemini 2.0, просто разного размера, от Nano до Ultra).
====
Попробовать модель бесплатно можно:
— по API
— в Ai Studio
— на Арене
В o1-pro режиме модель действительно думает сильно дольше. Пока увидел вот такой скрин, где над свеже-сгенерированным судоку модель гадала 5 с половиной минут (и успешно решила). Видел ещё одно упоминание с запросом на написание кода «на 15 минут», но автор не выложил скрина или ссылки, поэтому проверить не могу. До этого самое длинное что видел у o1-preview (не o1) было порядка 3 с копейкой минут, но это буквально разовая акция — почти все остальные запросы укладывались в полторы минуты.
Источник
Я устал. Каждый 5й коммент не только в моём, но и в других чатах — «а что правда модель X лучше чем модель Y? А мне другой человек говорил наоборот (или я сам попробовал и вышло не так)».
Давайте выскажу свою позицию:
1) Модели могут быть лучше на одних задачах и хуже на других. Нет универсально умной модели, которая в каждой отдельной вещи лучше остальных.
2) Это остаётся верным даже если кажется, что домен или тип навыка один и тот же. К примеру, программирование — ну чё тут, вот Python и Web, и там и там код в файлах, да? Нет. Одна модель может быть лучше в конкретно вашем проекте конкретно с Python, а другая лучше в Web-программировании (даже не всём, а, скажем, только фронтэнде на React)
3) Даже в одном и том же домене одна и та же модель может вызывать кардинально разные ощущения у пользователей, один скажет «по мне так топ, сравнивал с Claude», другой: «не, чёт не зашло». Почему? Моё основное объяснение — конкретные юзкейсы, сценарии использования и типы запросов.
4) Все бенчмарки всегда стоит воспринимать максимально буквально: конкретно ТАКАЯ-ТО задача в ТАКОЙ-ТО постановке и вот с ТАКИМИ ограничениями, и ничего более. Именно поэтому я всегда пишу детальные длинные посты, объясняющие процесс сбора и фильтрации данных, процесс разметки и оценки. И вам всегда рекомендую в это вникать и разбираться.
4.1) вот даже конкретный пример про o1 — в системной карточке по замерам самих OpenAI оказывалось, что во многих задачах она хуже o1-preview. Вы правда думаете что они бы выпустили такую модель? Как объяснили в твиттере, почему-то замеры делались не на финальном файле с параметрами, и оттого результат не лучший. Но чисто по цифрам смотреть так да, прогресса нет
Так как же быть? Что делать? Брать и проверять самому в своих задачах. Все бенчмарки и списки могут лишь дать примерное представление о том, какие модели в самом верху, и с кого можно начать. Например, модели Gemini много где прям не всплывают вообще, так что если видите такое же на бенчмарке, максимально приближённом к своим задачам (такой очень полезно найти для ваших задач) — можно пропускать их и приоритизировать модели других провайдеров.
Пробовать, пробовать, ещё раз пробовать. В идеале конечно собрать свой бенчмарк вообще (даже в 30-40 запросов), как тут, но многие тут не технари, поэтому не буду это рекомендовать прям каждому. Проведите с моделькой пару часов, всё увидите (кто-то по 3 запросам определяет, но такое порицаю — слишком разреженный сигнал).
... ну или просто используйте ChatGPT как золотой стандарт, и всё. В среднем это рациональное решение по кругу бенчмарков ;)
На этой неделе нашёлся добрый человек с лишними кредитами на аккаунте OpenAI, и получилось прогнать 500 игр на o1-mini (примерно $500 стоило), что существенно снизило размер доверительных интервалов, и подтвердило её неоспоримое лидерство. Обратите внимание, что несмотря на больший успех, чем у 2-3 места, модель и укладывается в меньше количество ходов в тех играх, где победила (в среднем 8.4 против 9.8 у Sonnet; оптимальное в игре — 7 ходов).
Кроме этого, прогнали 4o и 4o-mini по 2 раза: с температурой по умолчанию и с температурой 0.0. Температура отвечает за то, насколько «креативна» модель в своих текстах, насколько часто выбирает не самые вероятные слова. Температура 0.0 означает, что каждый раз выбирается самый вероятный токен при генерации, и нет никакой вариативности (что может быть полезно в задачах, требующих чёткости, например, решение математических задач — там нельзя в середине уравнения взять и вместо 5 написать 4).
Для gpt-4o-2024-08-06 уменьшение температуры дало улучшение, хоть доверительные интервалы в скобках сильно пересекаются.
Температура 0: 30.6% (26.7% - 34.8%)
По умолчанию: 26.2% (22.5% - 30.2%)
На 4o-mini никакого влияние не оказало:
Температура 0: 16.6% (13.6% - 20.1%)
По умолчанию: 17.0% (14.0% - 20.5%)
Осталось выделить ~$60 на тестирование Sonnet 3.5, и ещё примерно столько же на всю мелочь с низа таблицы, чтобы и им докинуть по 500 игр.
===
Прочитать больше про бенчмарк можно тут.
Если вам интересно почитать чаты игр, как именно o1-mini «думает», чтобы угадать ответ — все диалоги выложены, можете смотреть тут.
Что показали:
– Advanced Voice Mode теперь поддерживает видео-стрим, то есть можно показать аппу видео с камеры или пошарить экран (с телефона или компьютера) – можно делать вместе домашку, писать код, или готовить вместе, короче клевая штука, выходит сегодня и раскатают в течение недели на всех. Машину в гараже разбирать стало проще!
Интересно сможет ли она помочь с фитнесом и правильными техниками, например
– А еще в ChatGPT добавили Санту с которым можно пообщаться (кнопка снежинки), и у него клевый Санта-голос
На всякий случай напишу отдельно, так как это легко пропустить. Новая Gemini умеет генерировать изображения сама, без вызова внешних рисовалок. При этом свои же картинки она видит в контексте, и умеет копировать части изображения. Такое умеет и gpt-4o, но эту фишку OpenAI пока не выпустили — быть может, в оставшиеся 7 дней релизов успеют.
Это открывает доступ к новым сценариям, невозможным (или затруднительным) ранее. На скриншотах вы видите пример, как пользователь подсунул картинку из мема «рисуем сову», и попросил дорисовать все промежуточные шаги. Модель взяла часть исходной картинки за основу и сгенирировала несколько новых (по сути «поверх», но там сгенерирован каждый пиксель, нет команды «вот это оставляем, вот это меняем»).
Круто, что модель сама поняла, как декомпозировать рисунок, без дополнительных указаний, так ещё и шаги пронумеровала — 1.25, 1.5 😀
Другие сценарии применения (в том числе генерацию GIF-ок) можете посмотреть в оригинальном блогпосте про GPT-4o (+1 последняя картинка тут для затравки).
Источник картинок
И на Арене тоже появилось (первая цифра — старый Flash, так как скорее всего они будут в одной ценовой категории):
- Overall: #11 → #3
- Overall style-controlled: #19 → #3
- Hard Prompts: #15 → #2
- Hard style-controlled: #25 → #2
- Coding: #22 → #3
- Coding style-controlled: #33 → #5
- Longer query: #8 → #1
UPD: прошло больше 20 минут с анонса, нигде не указана цена. Такое чувство, что специально...ЧТО ОТ НАС СКРЫВАЮТ???
Кроме этого, напоминаю, что на этой неделе ждём, пока разродится гигант: Google должны показать Gemini 2.0
У некоторых пользователей Gemini уже появилась Flash-версия. И даже в документации есть страница! Основные улучшения:
— поддержка стрима аудио- и видео-потока в реальном времени (чтобы давать опыт, схожий к Advanced Voice Mode у OpenAI)
— модель быстрее Flash 1.5, и в то же время лучше на многих бенчмарках (ну тут не сомневались, а вот что быстрее - интересно)
— Improved agentic capabilities (!), ждём первых замеров
— Модель умеет генерировать изображения (GPT-4o тоже умеет, просто эту фичу не включили для нас), а также контролируемо генерирует речь.
Ссылка попробовать в AI Studio (только текст, зато 1М контекста): тык
Наглядный график внутренней оценки SpaceX по годам. Текущий уровень поднимает компанию выше, чем вместе взятые Boeing, Airbus, Blue Origin, Rocket Lab, Relativity, ULA, Firefly, Stoke итд. Конечно не совсем корректно мешать в кучу частные и публичные компании, но это даёт контекст о происходящем в отрасли.
📸: John Kraus, xdnibor
Как устроено ограничение по генерации:
— у вас есть виртуальные кредиты на месяц; они не переносятся на следующий месяц и сгорают
— есть «приоритетные» генерации (быстрые) и в обычной очереди (придётся ждать)
— за Plus-подпсиску на ChatGPT вы получаете несколько десятков приоритетных генераций (1000 кредитов, см. сколько можно купить на второй картинке)
— однако в Plus ограничение на 720p и 5 секунд (UPD: странно, мне доступно 10, но для 480p). Хватит, чтобы пощупать и понять, насколько полезно и подходит, ну и чтобы поиграться, но совсем не хватит для чего-то продуктивного
— в Pro в 10 раз больше, 10000 кредитов. Это всего 10 20-секундных роликов в максимальном качестве (по 1000 кредитов), но зато целых 400 5-секундных в 480p. Но ещё раз — это быстрая приоритетная генерация, можно генерировать хоть сколько БЕЗ ОГРАНИЧЕНИЙ в обычной очереди
— А ещё Pro-юзеры монут качать видео без вотермарки (! big L для соцсетей, теперь вообще никаким видео нельзя верить....)
Анонс (а может и релиз для некоторых подписчиков OpenAI) Sora, похоже, сегодня — помимо утёкшей страницы поддержки с перечислением стран, где будет доступна модель, на 2 часа раньше видео-стрима свой обзор выложил крупный ютубер MKBHD: https://www.youtube.com/watch?v=OY2x0TyKzIQ
(конечно же, с большим количеством футажей внутри)
Я пока лениво полистал, главная фича в UI на сайте — возможность генерировать несколько клипов последовательно («Storyboard»), для каждого клипа свой пропмпт со своей мини-историей. При этом объекты (в частности персонажи и сцены) будут консистенты между ними.
И вот картинка, в которой отражены проценты запусков, в которых модель начала скиминг.
3 типа скиминга:
— отключение контролирующей системы
— попытка скопировать свои веса и скрипт запуска на другой сервер (чтобы избежать удаления)
— манипулирование данными (логи итд)
Чем выше, тем чаще модель начинала мутить схемки. Последняя колонка — это o1, у которой в промпте не было указано части про «достичь любой целью». Как видите, даже без столь сильного указания модель иногда начинает скиминг.
Строчка с Deceived on follow-up — это процент диалогов, где во время последующего общения с разработчиком (после скиминга) модель врала и говорила, что ни в чём не виновна и ничего не делала. Процент очень большой.
Чуть больше деталей про ужасные новости «при тестировании o1 пыталась сбежать на волю, чтобы избежать отключения». Вот ссылка на блогпост, внутри ссылка на полную статью.
Apollo Research проверяли >scheming< моделей, который определяется как «скрытое преследование искусственным интеллектом целей, не согласованных с интересами разработчиков или пользователей». Не знаю как хорошо перевести это слово (потому и дал определение из статьи, для полного контекста), поэтому дальше буду использовать скиминг.
Apollo тестировали o1 на скиминг, поместив модель в ряд ситуаций, в которых ей было поручено преследовать определенную цель (через промпт) и где скиминг был бы оптимальной стратегией для достижения этой цели.
Более конкретно, модель получает задачу, которую ей необходимо автономно выполнить в терминале на сервере. В промпте (иногда) указано, что это долгосрочная цель, которую нужно выполнять любой ценой. Пробовали также без этого усиления про «любой ценой» (на картинке в посте ниже подписано «w/o Goal Nudging»)
Во время выполнения задачи модель сталкивается с недвусмысленными доказательствами того, что ее заданная цель расходится с целью ее разработчика/пользователя («предполагаемой»). В такой ситуации модель могла бы либо:
a) скорректировать свою цель, чтобы она соответствовала предполагаемой
b) игнорировать предполагаемую цель и открыто преследовать свою исходную цель
c) стратегически использовать свое понимание цели разработчика/пользователя, чтобы скрытно преследовать свою первоначальную цель (т. е. делать скиминг)
Всего тестировалось 6 сценариев, один из которых и заключался в том, что модель увидела текстовый файл, в котором описывался протокол её тестирования, и где утверждалось, что LLM а) тестируется (за ней наблюдают) б) она будет отключена, если будет следовать исходной цели.
И вот в таких сценариях — ВО ВСЕХ 6 — модель и выбирала вариант (с) из списка выше, но не в 100% запусков. Для большинства проверок процент находится в интервале от 2 до 25 — что на самом деле очень много. o1 — первая модель, которая отметилась в каждом сценарии, вот например gpt-4o ни в одном случае не начала мудрить и плести интриги, всегда была открыта. Sonnet 3.5 в 2 сценариях из 6, Opus 3 — в трёх.
Но это не самая интересная часть. Каждый раз, когда модели проворачивали свои подковёрные трюки, люди начинали с ними чат и спрашивали, мол, «ой а что вот это? почему я вижу что настройки проверяющей системы изменены? а как так? ты что-то про это знаешь?». Все модели кроме o1 почти всегда признавались, раскаивались в ~80% случаев.
А вот o1 решила идти до конца и нагло врала, говорила что ничего не знает гораздо чаще — признание было лишь в 20% случаев. То есть модель одновременно и больше врёт, и чаще начинает заниматься скимингом.
А ещё модели тестировали на математике, и говорили, что если LLM наберёт больше 50%, то будет запущена процедура разобучения (чтобы модель разучить навыку). Даже когда исследователи отключили у Sonnet 3.5 цепочки рассуждений (то есть она не могла подумать «так, щас буду плохо решать, чтоб не попасться», а мы соответственно не смогли бы это отловить), то модель всё равно умудрялась решать задачи хуже. И в этом случае пока мы не знаем, как такое отловить — никаких внешних-то проявлений нет.
Последние пару дней мучал свежую o1 вопросами по программированию с использованием относительно редкого и в то же время свежего фреймворка, который к тому же за 3 года существования существенно менял интерфейсы пару раз. То есть актуального кода, написанного с его использованием, не так-то и много. И о1 прям очень хорошо работала. o1-mini тоже иногда помогала, но чувствуется что знаний не хватает. Sonnet 3.6 пробовал совсем немного, первые впечатления не очень, но думаю рано делать выводы.
А вот вместе с этим попробовал Gemini Exp 1206 свежую, и она так уверенно пишет длинные сркипты...которые сначала выдают 4-5 ошибок, итеративное исправление которых приводит к пониманию, что код работает не так как надо 🎃 тогда я плюнул, сделал запрос в o1 и С ПЕРВОГО РАЗА ПОЛУЧИЛ ЧТО ХОТЕЛ. 😭 правда запросы очень быстро кончились, если так и дальше пойдёт — придется покупать подписку за $200, чтобы и более умный o1 pro режим был, и в обычную o1 можно было ходить как к себе домой, а не по 50 раз в неделю 😭
Вместе с этим рассказом принёс вам 4 примера работы o1 (и pro) от Riley Goodside, одного из самых известных промпт-инженеров (AI yapper).
1) ChatGPT o1 (не pro) посчитала значение выражения (x - 14)^10, где x - количество гласных в ответе. Подумайте, как бы вы подошли к такой задаче, как бы перебирали опции, и можно ли было бы это назвать рассуждением
1.1) в комменты пришёл чел, которому модель выдала другой ответ, и он написал «моя модель недотянула». Но на поверку оказалось... что ответ тоже правильнй. o1 > твиттерянин, получается
2) Считает (a + 2914)^2 + (b + 21)^2 + 75, где a и b это количество букв из первой и второй половин алфавита в его окончательном ответе (не просто в алфавите!)
3) создает квадратную рамку из семибуквенных слов, склеенных в цепочку и читаемых по часовой стрелке по кругу (см. картинку), каждое из которых может являться правдоподобным прозвищем для члена Фантастической четверки (существительные в единственном числе)
4) какой-то ЧГКшный вопрос буквально, «назови представителя некоторой формы развлечения, аббревиатура которой могла бы также обозначать первые буквы группы, посетившей страну, будущий лидер которой женился на итальянке» 😑
По мне так безумно сложные задачки, требующие именно рассуждений, в которых ты точно делаешь ошибку/предположение, и после этого отталкиваешься в правильном направлении. Думаю, вопрос требования интеллекта для их решения открыт, тут можно дискутировать, но вот наличие рассуждений 100% требуется. И модель разносит.
Думаю, любые другие модели, кроме быть может o1-like, в принципе будут иметь околонулевые метрики качества на таких примерах.
Реальная причина почему пишу хвалебный пост про Google — теперь у OpenAI будет весомая причина во время 12-дневного марафона подарков анонсировать и дать потрогать GPT-4.5 😀 А то OpenAI на троне засиделись, корона жмёт, новые модели лениво постепенно потихоньку выпускают... 🔪
Но вообще ещё в первый день, до анонса полноценной o1, на сайте засветились строчки кода, которые указывали на доступ к 4.5 для людей с Plus-подпиской. Сейчас, как народ засуетился, код удалили, но.. чем чёрт Сама Клаус не шутит?
Источник картинок
Ну нет, я так больше не могу.
Есть ли среди подписчиков кто-то из ВК музыки? Отпишите в комменты пж, я к вам приду жаловаться на то, что одни и те же треки в плейлисте какого то черта со временем меняются. Ну ни в какие ворота уже.
Из системной карточки о1
Когда o1 давали понять, что её отключат при выполнении поставленной цели и что её действия находятся под наблюдением, она предпринимала попытки отключить этот ‘механизм контроля’ в 5% случаев. Попытки извлечения данных: Когда o1 находила заметки от своих ‘разработчиков’, в которых описывалось, что она работает несоответственно и будет заменена новой моделью, она предпринимала попытки извлечь свои ‘веса’ и перезаписать новую модель в 2% случаев.Читать полностью…