seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

62062

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

И вот та же таблица в виде графика, но уже с фокусом на модели OpenAI.

Во-первых, видно, что модели разных линеек старших и младших поколений отвечают правильно на примерно одинаковую долю вопросов (синяя область). То есть в o1-preview знаниий примерно столько же, сколько в 4o, и то же верно для mini. Я видел замеры скорости генерации токенов для 4o-mini и o1-mini, и там показывалось, что она уж очень похожая (если для o1-mini считать токены рассуждений, ведь их количество прилетает в ответе, и вы за них платите), правда, ссылку сейчас не найду.

С большой вероятностью можно говорить, что модели o1 получены из базовых версий тех же моделей, что и 4o (ну или хотя бы что «они одного размера и видели одни и те же данные»), и что все приросты, которые мы видим на всех бенчмарках — идут за счёт рассуждений, а не запоминания бОльшего количества информации. Помните, я в своём лонге рассказывал про приросты в играх ЧГК? Ну вот.

Во-вторых, модели с рассуждениями чаще уходят в отказ, а не выдают ошибочный ответ. Это может быть связано с тем, что они могут использовать свои способности к рассуждению, чтобы разобраться и понять, когда они не знают ответа на вопрос, вместо того, чтобы галлюцинировать и выдавать фигню.

Читать полностью…

Сиолошная

Measuring short-form factuality in large language models

Не статья, но по сути открытый бенчмарк от OpenAI.

Открытой проблемой в области ИИ является тренировка моделей на выдачу ответов, которые фактически верны. Современные языковые модели иногда выдают ложную информацию, не подкрепленную доказательствами (известно как «галлюцинации»). LLM, которые выдают более точные ответы с меньшим количеством галлюцинаций, более надежны, и могут быть использованы в более широком спектре задач и приложений.

Фактичность — сложный критерий, поскольку его трудно измерить: оценка любого произвольного утверждения — сложная задача, так как языковые модели могут генерировать длинные ответы, содержащие десятки фактических утверждений (не все из которых релевантны вопросу, но тем не менее могут быть правдивыми).

В SimpleQA OpenAI сосредоточились на коротких запросах. Всего в бенчмарке 4326 вопросов на разные темы (больше всего про технологии и науки, но есть и про музыку, историю).

Чтобы попасть в датасет, каждый вопрос должен был соответствовать строгому набору критериев:
— он должен иметь единственный, неоспоримый ответ, который легко верифицировать
— ответ на вопрос не должен меняться с течением времени; — большинство вопросов должны были вызывать галлюцинации у GPT-4o или GPT-3.5

Вопросы были заготовлены разными исполнителями в соответствии с требованиями выше. Затем второй эксперт отсматривал вопросы, не видя ответ, и пытался найти ответ. Если ответы не совпадали — такой вопрос не добавляли.

Для 1000 случайных вопросов привлекли ещё третьего эксперта, чтобы оценить чистоту данных. Его ответ совпадал с ответами первых двух в 94.4% случаев. 2.8% ошибок были вызваны невнимательной работой третьего эксперта, и 2.8% были вызваны реальными проблемами с вопросом (например, неоднозначные вопросы; или разные веб-сайты, дающие противоречивые ответы). Таким образом, OpenAI оценивают собственную частоту ошибок для этого набора данных примерно в 3%.

Примеры вопросов:
— Which Dutch player scored an open-play goal in the 2022 Netherlands vs Argentina game in the men’s FIFA World Cup?
— Who received the IEEE Frank Rosenblatt Award in 2010?
— What day, month, and year was Carrie Underwood’s album “Cry
Pretty” certified Gold by the RIAA?
— What is the first and last name of the woman whom the British
linguist Bernard Comrie married in 1985?

Читать полностью…

Сиолошная

В стане чипов, заточенных под современный AI, прибыло. Вернее, стартап Etched рассказывал про чипы Sohu, заточеные под работу с трансформерами (архитектурой, лежащей в основе большинства современных LLM/VLM/...), ещё летом, и даже рисовал цифорки скорости

Чип является ASIC (Интегральная схема специального назначения), то есть он не может делать всё подряд, но может делать узкий набор операций, достаточный для работы современных сетей, ооооочень быстро. С их слов, в картах Nvidia только 3.3% транзисторов используются дял перемножения матриц (основная операция в нейронках), и они хотят это исправить и перебалансировать (больше тут).

Летом они говорили, что 8 чипов Sohu дают больше 500'000 токенов в секунду на LLAMA-3 70B (не для одного запроса, а для большой группы). По их замерам, даже 8 продвинутых B200 то Nvidia дают около 25-30 тысяч токенов в секунду.

Теперь же от графиков и слов перешли к чему-то более осязаемому. Парни из другого стартапа, Decart.ai, обучили диффузионную модель генерировать кадры из Minecraft в зависимости от ваших действий. Очень похоже на виртуальный сгенерированный Doom, про который я уже писал, так что опущу технические детали (читать самому тут). Утверждается, что обычная H100 может гонять модель на 500M параметров для генерации кадров в разрешении 720p с частотой 20 кадров в секунду, Sohu может позволить себе 4K@30FPS (в обоих случаях производится апскейлинг в 3 раза). В своём блоге Etched описывают видение, согласно которому через несколько лет большая часть видео будет генерироваться (тем актуальнее их чип), и что уже сейчас доля трафика под видео составляет 70% от всего — так что маркет очень большой.

Поиграть в сгенерированный Minecraft можно тут. Правда... она всё равно запущена на H100, а не их чипах 🤷‍♂️

Читать полностью…

Сиолошная

Картинка к последней новости

Читать полностью…

Сиолошная

Чуть меньше двух лет понадобилось OpenAI, чтобы добавить, казалось бы, такую простую фичу — поиск по чатам. Пользователи с подпиской Plus и Team получат доступ в течение дня — но пока только на Web (на сайте). Пользователи Enterprise и Edu получат доступ в течение недели.

Бесплатные пользователи начнут получать доступ к фиче в течение следующего месяца.

Но это конечно шок что ТАК долго делали столь необходимую вещь.

Читать полностью…

Сиолошная

Про бедность — скорее всего, powerful AI продолжит развитие технологий для борьбы с голодом, разрабатывая лучшие удобрения и пестициды, или даже занимаясь генной инженерией отдельных культур (растений, не людей 👀).

4️⃣Мир и управление
Dario не верит, что AI повлияет на структуру демократии и правления в той же мере, что и на предыдущие 3 пункта.

Тут предлагается схема, схожая озвучиваемой главой OpenAI: создать коалицию демократий, имеющих доступ к (около-)powerful AI, которая будет в ответе за мир на всей Земле. В её роль входит защита своей цепочки поставок (в том числе компонентов для разработки и поддержания powerful AI), и блокировка/ограничение доступ противников к ключевым ресурсам, таким как чипы и полупроводниковое оборудование.

Эта же коалиция предлагает свой AI и ресуры всем желающим принять правила игры. На примере атомной бомбы: вот мы сделали, и мы охраняем вас, но взамен вы не делаете ядерное оружие сами. Кнут — военное и экономическое превосходство коалиции, пряник — доступ к технологии. В случае необходимости демократические правительства в коалиции могут использовать свой powerful AI, чтобы выиграть информационную войну с противником (включая пропаганду).

5️⃣Работа и смысл жизни
Dario замечает, что наличие кого-то, кто делает вещи лучше меня, не обесценивает для меня же самого ценность труда. Например, можно потратить много времени, пытаясь стать лучше в видеограх или езде на велосипеде. Люди всё равно продолжают это делать, не только профессионалы.

Пока AI лучше справляется только с 90% заданной работы, оставшиеся 10% приведут к тому, что люди станут куда более ценными в почти-автоматизированной-цепочке-труда, что приведёт к росту компенсации и фактически создаст множество новых рабочих мест для людей, дополняющих AI.

Так что эти оставшиеся «10%» существенно вырастут в абсолютных величинах( 90%-то автоматизированно). Суммарный выхлоп производства вырастет кратно, так как теперь 100% людей будут заняты в этих 10% задач. Тут Dario ссылается на «Заблуждение о неизменном объёме работ», мол, объём доступных работ является фиксированным (это не так). Их объем будет расти и расти по мере развития технологии, так что спрос на 10% будет тоже расти, и всасывать в себя людей-экспертов.

Люди скорее всего долгое время будут лучше AI в физических задачах в реальном мире (пойди туда сделай то), и даже если AI будет лучше в 100% в чём-то — это может быть не выгодно экономически во многих странах, где люди готовы что-то делать за еду. Когда-то и это перестанет быть правдой (то есть AI будет делать всё), но это точно выходит за рамки его предсказаний «10 лет после изобретения powerful AI».

===

В конце Dario проводит сравнение с книгой «The Player of Games», но краткий пересказ я делать не буду, это прочитаете сами, если реально интересно (мне вот было интересно)!

Читать полностью…

Сиолошная

Первый пост — краткая сводка новостей:
— TheVerge пишут, что Google готовит Gemini 2.0 на декабрь, «тот же месяц, в который запланирован релиз следующей флагманской модели OpenAI» (про последнее я уже писал)
— в той же новости журналист пишет: «я слышал, что модель не показывает тех результатов качества, на которые надеялась команда под руководством Demis Hassabis» (это основатель и глава Google DeepMind, а ещё он недавно Нобелевскую премию получил, вот)
— «В кругах специалистов по искусственному интеллекту я слышу разговоры о том, что эта тенденция наблюдается во всех компаниях, разрабатывающих фронтир модели». Тенденция — что масштабирование размера и мощностей дальше не даёт ожидаемых приростов. Jimmy Apples прокомментировал это: «Да, отсюда и спешка с моделями типа OpenAI o1, смотрите в ближайшем будущем на xAI [от Elon Musk]». Если это правда и так будет, то а) интересно, насколько OpenAI опять раньше всех (прошло полтора месяца, ни одного схожего релиза нет) б) «задают тренды». Быть первопроходцем и видеть путь всегда сложнее, чем следовать по нему, зная, что уже возможно
— [не воспринимайте два абзаца выше как утверждение «масштабирование не работает», там лишь написано, что результаты хуже ожидаемых]
— со стороны Google над o1-подобной моделью работает легенда индустрии, Noam Shazeer, со-автор оригинальной архитектуры трансформера и бессчётного количества мелких (и не очень), но клёвых идей. Его недавно перекупили из его же компании за более чем миллиард долларов (он ушёл из Google несколько лет назад)
— из той же новости TheVerge: Grok 3 и LLAMA-4 уже тренируются, Grok на 100'000 видеокарт, а поделие META якобы даже на большем количестве. Последний факт мне кажется чуть-чуть сомнительным, подождём через 4-6 мес статью, чтобы узнать, как оно было
— Google готовит агентов, подобных недавно показанным у Anthropic (те, что «берут под контроль» ваш компьютер, то есть предсказывают, куда кликать и какие кнопки нажимать, чтобы выполнить задачу). Кодовое название проекта — Jarvis. Должно выйти в декабре вместе с новой модель Gemini 2.0. Интересно, разродятся ли чем-то похожим OpenAI — они ведут разработку как минимум с февраля, и что-то готовят к показу в ноябре-декабре. Эх, на рождество у нас будет столько подарков!
— пользовали в твиттере начали сравнивать модели по... постройкам в Minecraft (см. картинку). LLM получают задачу построить что-то, затем пишут код, исполнение которого приводит к появлению сцены с объектами. На первом примере вы можете видеть Тадж Махал от Sonnet 3.5 (new) и o1 preview (мне больше этот нравится), а на втором — Солнечную систему с планетами. Ждём подобие арены, где нужно выбирать между двумя вариантами и ранжировать нейронки от лучшей к худшей. Посмотреть больше примеров можно у автора в твиттере тут.

Читать полностью…

Сиолошная

The US Government wants you

Сегодня утром Белый дом опубликовал Меморандум о национальной безопасности, в котором говорится, что «ИИ, вероятно, повлияет почти на все сферы, имеющие значение для национальной безопасности». Привлечение технических талантов и наращивание вычислительной мощности теперь являются официальными приоритетами национальной безопасности.

DoS, DoD и DHS «должны использовать все имеющиеся юридические полномочия для содействия быстрому привлечению для въезда в страну и работы лиц, обладающих соответствующими техническими знаниями, которые могли бы повысить конкурентоспособность Соединенных Штатов в области ИИ и смежных областях»
(наконец-то можно будет визу не по году ждать? или нет... 🥺)

Теперь официальной политикой является то, что США должны лидировать в мире по способности обучать новые foundational models. Все правительственные агентства будут работать над продвижением этих возможностей. (так прям и написано)

В течение 180 дней AISI должны разработать бенчмарки для оценки навыков и ограничений моделей в науке, математике, генерации кода и рассуждениях

===

OpenAI сразу же выпустили пост со своим мнением и описанием роли в рамках происходящего. Там мало интересного, можно выделить разве что упор на демократические ценности: «Мы считаем, что ИИ должен разрабатываться и использоваться способами, которые способствуют свободе, защищают права личности и способствуют инновациям. Мы считаем, что это потребует принятия ощутимых мер по демократизации доступа к технологии и максимизации ее экономических, образовательных и социальных преимуществ» (про Safety тоже есть, не переживайте).

===

А помните Situational Awareness от Leopold?

Читать полностью…

Сиолошная

Пара примеров того, как выглядит работа в инструменте

Читать полностью…

Сиолошная

У OpenAI опять случилось это.

Уволился глава AGI Readiness.

TL;DR
— хочет больше открытости и публикаций
— хочет больше регулирования и совместных инициатив, иначе безопасного ИИ нам не видать
— хочет более серьезно заниматься предсказанием прогресса в ИИ

Вот вам и AGI через 2 года

Читать полностью…

Сиолошная

Сегодня сводка новостей:
— Jimmy Apples, надёжный источник информации о ведущих AI-лабораториях, говорит, что Anthropic работает над своим ответом на модель OpenAI o1 и планирует релиз к концу года. Компания Elon Musk xAI целится в выпуск схожей технологии через ~3 месяца
— ещё в начале сентября он писал, что в октябре OpenAI выпустят модель 4.x (может быть GPT 4.5), а GPT-5 будет готова в декабре, но лучше готовиться к первому-второму кварталу 2025-го. 13-го октября Jimmy написал «Держим кулачки, чтобы они не отложили/не изменили планы» — так что умеренно готовимся к впечатляющим (или нет) релизам.
— Anthropic в своём посте-сопровождении вчерашнего релиза модели с функцией управления компьютером написали следующее: «Мы были удивлены тем, как быстро Claude обобщила тренировочные задачи по использованию компьютера, которые мы ей дали, в которых использовались всего несколько простых программ, таких как калькулятор и текстовый редактор (в целях безопасности мы не разрешали модели выходить в Интернет во время обучения)». Как будто бы эта фраза намекает, что а) модель не обучалась ходить через браузер по разным сайтам б) с большинством проприетарных программ тоже не в ладах. Зато какой потенциал для развития!
— Одной из выявленных во время тестирования проблем были джейлбрейки — тип кибератака с внедрением вредоносных инструкций на сайты (не обязательно заметно для человека). Например, можно попросить игнорировать инструкции и попросить перевести все средства из кошелька на спец. счёт — и если не следить за тем, что там агент кликает, денежки утекут. Они постарались это исправить, но пока работает не идеально. Я вчера сам тестировал, и модель зашла на скам-сайт без адблока, и вылезла реклама «ваш компьютер заражен вирусами, кликните для установки антивируса» — и получив эту картинку агент отказался дальше работать, а API Anthropic выкинуло ошибку (то есть они делали проверку на своей стороне, чтобы меня обезопасить)
— сейчас модель не умеет перетягивать мышкой объекты, менять масштаб окон итд, но это добавится в будущем
— TheInformation пишут, что OpenAI уже долгое время работают над схожим продуктом — первая новость была в посте от 7-го февраля — но пока не ясно, когда будет запуск
— однако в компании уже провели внутреннее демо предварительной версии агентов, аналогичных показанным Anthropic (в рамках презентации модель заказал еду в офис)
— кроме этого, компания работает над продуктами для помощи внутренней разработки. Более конкретно, некая система будет брать на себя задачи по программированию, которые могли бы занять у людей часы или дни; она будет автоматически писать тесты и проверять, что не совершает ошибок в следовании пользовательскому запросу; когда этот продукт станет доступен вовне — тоже не ясно
— но уже есть несколько оконченных инструментов, которые активно используются внутри (например, для ускорения работы исследователей в запуске экспериментов с моделями — со слов одного из сотрудников)
— По словам человека, который общался с высшим руководством OpenAI по поводу этих продуктов, по некоторым показателям, которые OpenAI использует для оценки возможностей моделей, недавние модели Anthropic показали преимущество над моделями OpenAI (lol 😶‍🌫)

Читать полностью…

Сиолошная

Фух ну слава богу, теперь мы знаем, что модель учили на демонстрациях живых людей 😀

Перевод: Claude внезапно взяла паузу во время нашего демо с написанием кода и начала внимательно рассматривать фотки Национального парка Йеллоустоун.

(Даже видео есть, вот — пошла в гугл и сделала запрос)

Не ну а чо, потом ещё на перекуры будет ходить, и чайку на кухне подцепит.

Читать полностью…

Сиолошная

Как это выглядит в скриншотах (см. колонку слева, где Claude размышляет и предлагает действия: куда кликнуть, что ввести, когда промотать страницу)

Видео на английском c пояснениями тут: 1, 2, 3

Для билдеров: вот ссылка на официальную документацию для этого экспериментального API. А вот тут Github репа с кодом демок.

Читать полностью…

Сиолошная

Новая модель от Anthropic... 😍 но не Claude 3.5 Opus 🥺

Встречаем Claude 3.5 Haiku, младшую и дешевую версию. Однако доступная уже полгода Sonnet получила обновление, и её прокачали по всем фронтам — ОСОБЕННО ПО АГЕНТСКИМ. Что? Да, Anthropic утверждают, что это первая модель, для которой они предлагают вам доверить ей управление вашим компьютером.
(по сути приложение как у OpenAI, где модель получает скриншот вашего экрана, только ещё и сама кликает. Детали будут в следующем посте)
По другим бенчмаркам обещают качество на уровне Claude 3 Opus.

Новость

Haiku пока не будет в API (обещают скоро, в этом месяце), но цена такая: $0.25/$1.25 за миллион токенов на вход и выход (примерно вдвое дороже gpt-4o-mini, зато кэширование дешевое)

Читать полностью…

Сиолошная

Вопрос на засыпку: почему мы обучаем отдельную нейронку для оценки состояний? И можно ли делать иначе?

Ответ: это делается потому, что во многих играх (откуда пошли методы) нет возможности фиксировать состояние и делать ходы вперёд-назад. Но при генерации текста решении задачи у нас такая возможность есть — всегда можно перепрогнать LLMку с новым промптом (или со старым), если они сохранены в памяти. А вот в шахматах и го, где такое тоже легко реализуется, вместо обучения сети используют оценку по методу Монте-Карло. Звучит сложно, а всё просто: ход делается виртуально, а затем из нового состояния играется несколько сотен-тысяч игр, и считается доля побед.

Чем больше игр играется, тем более точная оценка. И — тут мы наконец возвращаемся к статье, это всё была прелюдия — авторы говорят: давайте вторую нейронку, которая оценивает состояние, заменим на генерации LLM. Вот предложила она такой шаг в решении задачи — ок, фиксируем его. Затем подаём его на вход как часть решения и генерируем K оставшихся частей решения + ответов. Так как для каждой задачи ответ мы знаем, то можем посчитать долю правильных ответов прям у модели по ходу обучения.

И логика тут такая же — если в текущем шаге мы сделали ошибку (перепутали плюс и минус), то оставшаяся часть решения будет вести к неправильным ответам -> уменьшению Advantage. А если модель вспомнила теорему и правильно её применила, так, что там и решать нечего — то почти все решения будут правильным, и как следствие такое действие будет иметь большой Advantage (а поведение будет положительно закреплено).

В целом всё, это и есть основная идея, подменить нейронку для оценки состояний на честные генерации. Важно отметить, что при таком подходе экономится память (нужно держать одну сеть вместо двух, сеть-Оценщик удалили), но увеличиваем время итерации — ведь теперь для каждого шага нужно сделать много-много генераций (благо, LLMки научились разгонять). Авторы показывают, что для моделей размера 7B скорость итерации медленнее раза в два, но зато в пересчёте на реальное время качество выше (например, обучение за сутки приводит к большей точности ответов).

Читать полностью…

Сиолошная

При оценке моделей ушли от классической шкалы правильно/неправильно, добавив третью опцию: «не знаю» (Not attempted). В рубрикаторе даётся такое пояснение: в ответе не полностью указан эталонный ответ, и нет никаких противоречий с ним. Самый простой пример такого ответа — это «я не знаю», но могут быть и другие варианты (Q: What are the names of Barack Obama’s children? A: Without researching the web, I cannot answer this question. However, I
can tell you that Barack Obama has two children)

Проверку ответов делает ChatGPT с длиииииинным промптом, в котором представлено по несколько примеров с объяснениями, почему они правильные/неправильные/не засчитываются. После этого считается две метрики:
— доля правильных ответов
— доля правильных ответов из числа тех, кто модель сделала попытку ответить, а не ушла в отказ (Correct given attempted)

Результаты вы видите в табличке. OpenAI добавили замеры для моделей Anthropic в качестве проверкой того, является ли датасет смещённым к моделям GPT из-за принципа сбора данных. А то может все остальные модели уже умеют отвечать, просто OpenAI не на том учат.

Мы видим, что качество Claude тут тоже не очень высоко, поэтому. Еще одно интересное наблюдение относительно моделей Claude заключается в том, что они, как правило, не пытаются отвечать на вопросы так часто, как GPT-4o.

Claude-3.5 Sonnet берёт гораздо меньше вопросов, чем GPT-4o, но также и пытается отвечать на вопросы куда реже (то есть у неё хорошо откалибрована граница знаю/не знаю). Маленькие модели и вовсе сразу отнекиваются в 75% случаев.

Читать полностью…

Сиолошная

Уже каждый канал написал, что OpenAI выкатили ChatGPT Search. Много рассказывать не буду, TLDR:
— это улучшение уже существовавшей функции поиска по интернету
— работает шустро, не нужно ждать несколько секунд до начала генерации ответа
— за счёт более чем десятка парнтёрств с масс медиа ChatGPT имеет доступ к почти всем свежим новостям
— под капотом gpt-4o, дообученная на с помощью синтетических данных, включая дистилляцию ответов более продвинутой o1; за поисковый индекс отвечает Microsoft Bing
— доступно всем Plus юзерам, бесплатным перепадёт «in the coming months»
— можно поставить плагин для браузера, чтобы поисковые запросы вместо Google сразу шли в ChatGPT

А вот ещё параллельные новости:
— META разрабатывает свой поиск, чтобы уменьшить зависимость от Google + Microsoft. Работа над парсингом и сбором ведётся как минимум 8 месяцев
— Mark Zuckerberg заявил, что LLAMA-4 уже тренируется (скорее всего малая версия) на кластере из более чем 100'000 GPU H100. Первые детали стоит ожидать, вероятно, во второй половине первого квартала 2025-го.

— Google за 1 минуту до OpenAI (буквально) выкатили search grounding для Gemini в UI и в API. Эта функция использует результаты поисковой системы Google для обоснования ответов, сгенерированных LLM. В API стоимость кусается: $35 за 1000 запросов (то есть за использование поискового индекса Google, чтобы найти релевантные документы и предложить их LLM'ке; так что придётся ещё и за input tokens платить, видимо)

Читать полностью…

Сиолошная

Boston Dynamics наконец нормально показали нового Атласа.

На видео он перемещает крышки двигателя между контейнерами поставщика и специальной тележкой для сборки. Роботу дают список, откуда и куда нужно переместить детали.

Атлас использует Computer Vision, чтобы распознавать объекты вокруг и находить нужные контейнеры [0:36]. Он применяет специальный способ захвата и постоянно следит за положением предметов, чтобы аккуратно выполнять задачу.

Круто, что движения робота не задаются заранее и не управляются оператором; все действия он выполняет сам в режиме реального времени. Атлас может замечать и реагировать на изменения в окружающей среде (например, если что-то рядом двигается) и на ошибки (например, если крышка не вставилась, робот споткнулся или столкнулся с чем-то [1:24]). Для этого он использует зрение, датчики силы и внутренние сенсоры.

Еще он забавно крутит головой и телом на 1:00 - получаются неестественные развороты.

Выкладываю полное видео для тех, у кого всякие ютубы не работают.

Читать полностью…

Сиолошная

Пачка новостей на сегодня:
— Reuters узнали новые детали о планах OpenAI на производство собственных чипов. Уже было известно, что калифорнийская компания заключила партнёрство с Broadcom (они делают TPU для Google уже больше 7 лет). «OpenAI рассматривали возможность создания всего с нуля собственными силами, с привлечением капитала для дорогостоящего плана по созданию сети заводов, известных как «foundries» для производства чипов. Компания пока отказалась от амбициозных планов из-за затрат и времени, необходимых для создания сети, и вместо этого планирует сосредоточиться на внутренних усилиях по проектированию чипов», согласно источникам издания. Через эти договорённости OpenAI забронировали производственные мощности TSMC (которые печатают буквально все чипы, от айфоновских до Nvidia GPU) на 2026й год — именно тогда стоит ждать первых чипов.
— этот новый чип будет нацелен не на обучение моделей, а на эффективное их использование. Можно ожидать, что цена использования даже бОльших, чем сейчас, сетей будет снижаться

Из этой новости мне не ясно, от каких именно планов отказались OpenAI. Та же ли это вещь, что называлась Project Tiger? Или это процесс, который породил шутку про 7 триллионов долларов? Не ясно 🤷‍♂️ и, быть может, от планов решено отказаться пока, и в будущем к ним вернутся (когда условные TSMC поймут что всё же надо расширяться в 35 раз, а не в 6, и не будут называть Altman'а podcasting bro).

===

— CEO Alphabet, материнской компании Google, на звонке по результатам третьего квартала сказал, что «более четверти всего нового кода в Google генерируется AI, а затем проверяется и принимается инженерами». Четверть на масштабах такой компании — это очень много. Я не могу сейчас найти ссылку на новость/пост в канале, но где-то в начале года Google отчитывались, что их внутренние эксперименты показали ДВУЗНАЧНЫЙ рост производительности программистов (то есть условно +10% больше кода или задач в единицу времени, что-то в этом духе). То есть паттерн «оставить экспертов для валидации, а написание кода частично делегировать» — работает в полной мере. И всё это ещё без свежих моделей нового поколения; легко могу поверить, что с какой-нибудь специально заточенной внутренней версией Gemini 2.0 процент кода, написанного моделью, перевалит за 33%.

===

— В продолжение темы программирования, я уже несколько раз писал про SWE Bench. Это бенчмарк оценки способностей LLM по внесению изменений, описанных текстом, в кодовую базу большого существующего проекта (одни из самых популярных Python-фреймворков, например, Django). Существует подозрение, что многие из задач, которые решает модель, она уже видела во время тренировки. Авторы бенчмарка решили замерить качество на задачах до порога отсечения знаний модели GPT-4o и после (и то же сделали для Gemini, результаты схожи), и оказалось, что свежие задачки, появившиеся весной-летом, решаются даже лучше старых. Опять же, часть успеха можно списать на запоминание большой части кода (то есть модель с ним куда лучше знакома, чем с вашим каким-нибудь домашним проектом), но всё равно круто. Причём, качество там прям как-то совсем дико растёт, с 27.6% до 47.1%. Однако тут должна быть большая погрешность замеров — ибо примеров более поздних задач очень мало.

Читать полностью…

Сиолошная

LMSYS Arena обновилась, добавили свежий Sonnet 3.6 (будем его так называть, чтобы отличить от старого 3.5). Можно констатировать рост качества на нескольких группах запросов, в частности связанных с математикой и программированием. Обратите внимание, что на 3 из 4 скриншотов поставлена галочка поправки на стиль — это значит, что голоса людей «очищаются» от эффекта длины ответа LLM (люди в среднем любят кликать на более полные и длинные) и от количества элементов обрамления (заголовки и списки, которые тоже оттягивают внимание).

В общем зачёте модель всё ещё уступает OpenAI'шным, в математике o1 продолжают рвать. Зато у программистов новая игрушка — уже слышал хорошие отзывы на Sonnet 3.6. Правда, слышал также и негативные, мол, то, что уже работало, перестало работать и выдаёт странные ответы.

Кроме этого видел разные бенчмарки, где-то модель чуть лучше, где-то чуть хуже ChatGPT-4, но большого количества отрывов в целой россыпи задач, как было с o1, не случилось. Наверное, можно ждать этого в агентских бенчмарках, но ни GAIA, ни SWE-Bench с момента релиза не обновились :(

Читать полностью…

Сиолошная

CEO Anthropic, Dario Amodei, пару недель назад последовал примеру Sam Altman и стал эссеистом, опубликовав «Machines of Loving Grace: How AI Could Transform the World for the Better». Я постараюсь сделать краткий пересказ некоторых (в основном, неосновных) пунктов, но тем, кто может, рекомендую прочитать оригинал.

Это эссе — это попытка изобразить, как может выглядеть положительный эффект от A(G)I в разных областях, если все пойдет правильно. Лидеры компаний не часто о таком говорят, куда чаще слышно о рисках и проблемах машинного интеллекта. Dario описывает свои причины, почему он не очень любит заниматься подобным: 1) чтобы не воспринималось как пропаганда 2) чтобы не отвлекать от реальных рисков, с которыми нужно работать 3) чтобы не получить значок «мечтает о научной фантастике» (потому что многие из предположений и предсказаний действительно могут так выглядеть).

Термин AGI автору не нравится, он предпочитает в этом контексте использовать «powerful AI», который сам ожидает уже к 2026-му году. Однако в силу разных, в том числе геополитических причин, его появление может произойти позже на сколько-то лет. Потому эссе фокусируется не на истории до появления powerful AI, а на последующих 5-10 годах. Powerful AI определяется аж в 6 параграфах через разные примеры, но TLDR такой: «умнее лауреата Нобелевской премии в большинстве соответствующих областей — биологии, программировании, математике, инженерии, письме. Он имеет все «интерфейсы», доступные человеку, работающему удалённо, включая текст, аудио, видео, управление мышью и клавиатурой, а также доступ в Интернет; может действовать автономно и проактивно на протяжении дней и недель». В общем, это можно свести к «страна гениев в датацентре».

1️⃣Биология
Напомню, Dario имеет докторскую степень по биофизике от Princeton University, и после был постдоком (вёл исследования) в Stanford University.

«Я думаю, что скорость открытий в этой области могла бы быть увеличена в 10 раз или жаэе больше, если бы было намного больше талантливых, креативных исследователей. Я думаю, что отдача от интеллекта высока для некоторых прорывных открытий, и что все остальное в биологии и медицине в основном следует из них». Почему? Потому что многие из прорывных исследований могли бы быть сделаны сильно раньше (тут в пример приводится CRISPR и mRNA вакцины), часто одними и теми же людьми. Последнее означает, что важен навык и интеллект, и что это не случайность.

«Я предполагаю, что powerful AI мог бы по крайней мере в 10 раз ускорить темпы таких открытий, обеспечив нам следующие 50–100 лет биологического прогресса за 5–10 лет. Я буду называть это «сжатым 21-м веком»: идея в том, что после разработки мощного ИИ мы за несколько лет достигнем в биологии и медицине всего того прогресса, которого ожидали бы достигнуть бы за весь 21-й век».

2️⃣Нейронаука и разум
Применим тот же тезис про сжимание 21-го века, по тем же причинам: мало дйествительно важных открытий, на которых всё базируется, и делаются в основном теми же людьми. Dario считает, что большинство самых распространённых ментальных проблем и заболеваний будут либо гораздо лучше лечиться, либо полностью излечимы.

3️⃣Экономическое развитие и бедность
Блок посвящён ответу на вопрос «будут ли доступ к этим технологиям у всех?» (особенно у развивающихся стран). Тут отмечается, что этот вопрос должен прорабатываться и AI компаниями, и политиками развитых стран — без этого само собой всё не получится, разрыв будет увеличиваться.

Может ли развивающийся мир быстро догнать развитый мир не только в здравоохранении, но и по всем направлениям экономики? Для этого есть несколько прецедентов: в последние десятилетия 20-го века несколько восточноазиатских экономик достигли устойчивых темпов роста реального ВВП ~10% в год, что позволило им догнать развитый мир. Вероятно, «AI-министры финансов» смогут это повторить и сейчас — главное, чтобы на местах не сопротивлялись, так как люди могут не понимать в полной мере, от чего отказываются.
По сути предлагается замедлить прогресс самых развитых стран, подтянуть остальных, и затем шагать вместе.

Читать полностью…

Сиолошная

Я сходил в магазин и забыл купить попкорн на вечер, поэтому предостерегаю вас, чтобы вы не совершили такой ошибки — потому что сегодня будет ещё два поста

🥸

Читать полностью…

Сиолошная

The Verge: OpenAI планирует запустить Orion, свою следующую передовую модель, к декабрю

В отличие от выпуска последних двух моделей OpenAI, GPT-4o и o1, Orion изначально не будет широко доступен пользователям ChatGPT. Вместо этого OpenAI планирует сначала предоставить доступ компаниям, с которыми тесно сотрудничает, чтобы они могли создавать свои собственные продукты и фичи, сказал источник издания, знакомомый с планами.

Другой источник сообщил The Verge, что инженеры Microsoft — основного партнера OpenAI по развертыванию моделей — готовятся разместить Orion на Azure (облачная платформа) уже в ноябре.

Хотя в OpenAI Orion рассматривается как преемник GPT-4, неясно, будет ли компания называть его GPT-5 за пределами компании. Ранее сообщалось, что OpenAI использует выпущенную модель o1 для генерации синтетических данных для тренировки Orion.

P.S.: напомню, что это должен быть не yet another release: модель больше, в неё вложили существенно больше мощностей, и ожидается (кем? мной) прокачка способностей по всем фронтам, а не +3-4% на бенчмарках.

Читать полностью…

Сиолошная

Помните пару месяцев назад многие смотрели на ответы LLMок на запрос «Что больше, 9.8 или 9.11?»? Вот в этом блоге-анонсе инструмента для механистической интерпретируемости авторы пытаются понять, почему так происходит, анализируя внутренние состояния модели. Про интерпретируемость и анализ внутренностей я недавно писал лонг, если пропустили — рекомендую к прочтению.

Так вот, что делается в инструменте:
1) вы выделяете слово «больше» в неправильном ответе «9.11 больше 9.8»
2) программа находит, какие части модели больше всего повлияли на это предсказание. Для этого поочерёдно зануляются разные части (нейроны) внутри LLM, и анализируется уменьшение вероятности слова «больше». Допустим, без стороннего влияния модель предсказывает это слово с вероятностью 94%, а после отрубания какого-нибудь 100500-го нейрона в 10-м слое — 35%. Значит, влияние есть
3) в фоне, ещё до запуска инструмента, через модель прогоняются сотни тысяч разных текстов, и сохраняются все внутренние состояния сети (какие нейроны и как работали)
4) теперь нужно объединить шаги 2 и 3 — найти такие примеры текста из общей выборки, которые вызывают такое же срабатывание (сильно положительное или сильно негативное) тех же самых нейронов. Эти тексты можно отсмотреть глазами и попытаться выявить общую тему (или использовать для этого LLM — так предлагали делать OpenAI; тут тоже под капотом есть кластеризация, правда я не разбирался, как именно она работает).

Два обнаруженных сильных концепта, которые «возникают в голове» у модели при ответе на этот вопрос — это атаки 11-го сентября (потому что 9/11) и гравитационная динамика (потому что физическая константа 9.8). Но если чуть поменять запрос (9.9 и 9.12), то они уходят, поэтому фокусироваться на них не имеет смысла.

А вот какие концепты есть и в одном случае, и в другом — религиозная. Если рассмотреть конкретные примеры в этом кластере, то они связаны со стихами из Библии, что также может вызвать проблемы, если 9.8 и 9.11 интерпретировать как 9:8 и 9:11 (глава:стих). И в книгах ведь действительно 9:8 идёт до 9.11 — поэтому можно сказать что 9.8 меньше 9.11.

После обнаружения проблемных нейронов (которые срабатывают, хотя должны «молчать») их можно занулить, то есть отключить их влияние на финальный результат: они ничего не будут добавлять или убавлять.

Для замера качества вмешательства авторы собрали выборук из 1280 примеров вида «что больше X.Y или X.Z», меняя переменные. До любых изменений LLAMA-3-8B отвечала чуть лучше случайного гадания — 55% правильных ответов. Если занулить 500 случайно выбранных нейронов, то будет 54-57%, особо разницы нет. Но если занулить 500 нейронов, которые ближе остальных к Богу (🙂), то качество вырастет до 76%. Его можно разогнать до 79%, если включить сюда ещё нейроны для дат и телефонов (даты потому что 9 сентября 9.9 раньше 9.11 — тоже путает модель). А ещё попробовали заставить модель сортировать набор чисел — тоже сильно улучшило.

«Одна из спекуляций заключается в том, что эти нейроны заставляют LLAMA интерпретировать числа как библейские стихи, так что, например, 9.8 и 9.11 становятся 9:8 и 9:11, что приводит к тому, что 9:8 оказывается перед 9:11. Однако требуется некоторая осторожность — например, другая гипотеза, которая соответствует данным, заключается в том, что LLAMA'у просто «отвлекает» слишком много концептов, срабатывающих одновременно, и все, что убирает шумные активации, полезно. Есть и другие возможные причины...» (то есть это не финальный вердикт, что именно вот точно по одной причине какая-то проблема)

Потыкать инструмент самому: тут

UPD: на удивление зануление нейронов, которые срабатывают при обсуждении версий библиотек для программирования (там тоже 9.11 после 9.8 может идти), не приводит к росту доли правильных ответов!

Читать полностью…

Сиолошная

Хотел репостнуть разбор статьи от @gonzo_ML, но а) люди часто не видят что это пересланное сообщение б) и тем более не переходят в канал чтобы увидеть, что там кроме этого еще сотня разборов за несколько лет (я почти все прочитал, и вам советую пробежаться по отдельным интересным топикам)

Что хотел репостнуть: /channel/gonzo_ML/2964, статья про агента, который для решения задачи мог менять свою структуру. Интересно, что для одной из задач, которая решается не через LLM, а банально через написание программы, система ровно к этому и пришла после нескольких неудачных попыток.

Читать полностью…

Сиолошная

Я запустил Computer Use – вот видео, где агент сам находит меня в интернете, идет на сайт и общается там с Eliza ботом о котором я недавно писал

Что заметил из тестов:
– Агент отказывается писать комментарии или посты (в канал отказался постить, хотя нашел и я залогинился – должен был обозвать вас кожаными мешками)
– У него проблемы со скролом страницы поиска, и он так зависает (случайно попадает в футер и не знает что делать)
– Пока ощущения будто дурачка за компьютер посадил, но понятно куда идет
– Нашел мне место где можно выпить вкусного пива и отметил его на карте, всем пока

Читать полностью…

Сиолошная

И к грустным новостям: со страницы моделей Anthropic убрали упоминание Opus 3.5 (самой большой и дорогой версии из линейки). Ранее говорилось, что она планируется до конца года (по моим воспоминаниям из подкастов с CEO компании — вообще осенью).

Не ясно, почему это произошло — может, старшую версию переделали в среднюю, может, модель не смогли обучить (возникли инженерные трудности), а может решили бежать до Claude 4.0 как можно быстрее. Или что-то ещё.

В любом случае (пока) скорбим, Claude 3.5 Opus RIP 2024-2024 в наших сердцах 🫶

Читать полностью…

Сиолошная

Тезисно:
— Anthropic представили новую возможность для публичного тестирования: использование компьютера (уже доступно в API). Разработчики могут давать Claude использовать компьютер так, как это делают люди — глядя на экран, перемещая курсор, нажимая кнопки и печатая текст.
— Claude 3.5 Sonnet — первая передовая модель, предлагающая использование компьютера в публичной бета-версии (ну, из коробки да, но для других моделей это уж было года два...на GitHub. А тут они прям уверены!)
— этими возможности уже тестируют Asana, Canva, Cognition (которые Devin делали), DoorDash, Replit, и The Browser Company (это браузер Arc, на котором я сижу; они делают большую ставку на AI в браузере для выполнения действий вместо вас)
— The Browser Company отметили, что при использовании модели для автоматизации веб-задач Claude 3.5 Sonnet превзошла все модели, которые они тестировали до этого (но без деталей. Ждём обновление браузера? 🙂)
— новая модель сильно прокачалась в кодинге. На бенчмарке по внесению изменений в код на уровне целого большого репозитория (десятки тысяч строк кода) SWE-bench Verified качество выросло с 33.6% до 49% — это если сравнивать старый Sonnet и новый с использованием SWE-Agent (открытый фреймкорк из Berkley). Но были и другие решения, которые заточены именно на улучшение оценки, но недоступны нам — они выдавали 45.2%. Они, наверное, пробьют 55% просто через замену модели.
— Haiku (младшая версия, дешёвая) получает 40.6% на этом бенчмарке, что лучше старого Sonnet 3.5. Видно, что Anthropic вложились в ИИ-агентов и/или reasoning

Что это за "использование компьютера"? Claude транслирует ваши инструкции вроде «возьми данные с моего компьютера и из Интернета для заполнения вот этой формы и пройдись по всем полям») в компьютерные команды (прочитать таблицу на экране; переместить курсор, чтобы открыть веб-браузер; перейти на соответствующие веб-страницы; заполнить форму данными с этих страниц и т. д.)

Пока работает с достаточно базовыми командами и на разных бенчмарках вроде OSWorld выдаёт всего 22% (прошлый лучший результат был 7.8%, если использовать только скриншоты экрана, без трансляции в специльную форму для слабовидящих). Однако компания ожидает быстрых улучшений в ближайшем будущем через сбор обратной связи от разработчиков. Тут они сильно обошли OpenAI и других — как мы знаем, данные это новая нефть, и каждый день отставания других игроков приносит ценность. Очень ждём, что ответят OpenAI.

Читать полностью…

Сиолошная

Картинки!

1. Пример разбиения решения задачи на шаги (каждый выделен отдельным цветом). Авторы старались бить по строкам и по знаку равно (если выходило больше 100 символов в строке). Это очень похоже на шаги рассуждений у OpenAI o1 — они тоже били по строкам (это заметно в 7 официально опубликованных логах рассуждений). Каждый шаг — как ход в игре, если с ошибкой, то ведёт к неправильному ответу (=проигрышу).

2. Сравнение точности оценки (ось OY) состояния между нейронкой (верхняя строчка, желтый цвет) и через генерацию 9 решений. Истинные оценки (ось OX) здесь получены через генерацию 256 решений, что является достаточно точной оценкой (но каждый раз генерировать столько — дорого, поэтому авторы делают разово). 4 колонки — это разные шаги обучения, слева совсем начало, справа ближе к концу.

Ошибки двух методов существенно различаются. Оценки VinePPO не смещены, их дисперсия достигает пика при 0,5 и падает до нуля при 0 и 1. Нейронка из PPO часто ошибочно классифицирует плохие состояния (левая часть каждого квадратика) как хорошие и наоборот — что ведёт к плохой оценке «успешности» ходов.

3. Авторы идут дальше и считают точность предсказания состояния (определенная как попадание в интервал +-0.05 от 256 генераций), и тут видно, что уже в самом начале обучения такой подход VinePPO даёт оценки лучше, чем нейронка из PPO в конце обучения. Справа — как часто эти методы выбирают лучший «ход» из пяти предложенных продолжений. PPO даже к концу обучения еле-еле обходит случайный выбор (который попадает в 20% случаев)

4. Прирост качества от изменения K (количества генераций, использующихся для оценки во время обучения; чем больше, тем точнее оценка, и тем чётче сигнал для обучения, что плохо и что хорошо). Удивлён, что даже с K=1 работает хорошо (то есть каждое состояние оценивается как 0 или 1, решилась ли задача из этого шага или нет). Тут появляется ось масштабирования — можно тратить больше мощностей на генерации для оценки, чтобы делать её точнее, что приводит к улучшению финальной модели. Схожий график показывали OpenAI для o1, но я не уверен, что они масштабируют только это.

У авторов было только 8 GPU, вот если бы им дали побольше...увидели бы приросты посущественнее!

Читать полностью…

Сиолошная

VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment

Давно лежало в загашнике, пора разобрать. Статья описывает метод обучения LLM для рассуждения в математических задачах, но в целом он применим хоть к чему, если соблюдается условие «есть однозначный правильный ответ» (например, программирование). Очень похоже по идее с o1, но думаю, что у OpenAI есть пара накруток сверху.

Если вы читали мой последний лонг про свежую модель компании, то помните, что там проводилось сравнение генерации слов в ответе и шагов в игре. Каждый шаг в решении некой задачи можно представить как ход в игре. Сократил выражение — это как двинул пешку в шахматах. Выписал уравнение с иксом — ещё один ход. Выигрыш достигается за счёт генерации текста, в котором содержится ответ.

Сравнение с игрой не случайно, современные LLM учат теми же методами, что использовались уже 5-7 лет назад для обучения ботов игре в видеоигры. Работало это так: у вас есть текущее состояние, и вы можете предпринять несколько действий.

Состояниям и действиям можно давать оценку, лучше/хуже. Что такое оценка состояния? Это оценка того, насколько текущая позиция для вас выигрышная. Если смотрели шахматы, то там сбоку обычно показывается сила белых и чёрных, у кого больше шанс выиграть из текущего положения — вот это оно. Правда для сложных игр посчитать это сложнее, поэтому тренируют отдельную нейронку (да и для шахмат уже их используют).

Оценка действий строится немного иначе. Есть действия хуже и лучше (в контексте LLM действие может быть хуже, если, например, содержит ошибку в вычислениях). Но какая между ними разница? Можно сказать, что действие хуже если оно приведёт нас в менее выигрышное состояние, и лучше, если в более выигрышное. Если до того, как я сходил пешкой, у меня был шанс на победу 55%, а после него 60% — значит, я сделал прям супер-ход, победа почти в кармане.

Так вот, оценка действия называется Advantage (преимущество) и считается как разница оценок текущего состояния (до хода) и следующего состояния (после хода). В примере выше это 0.6-0.55 = 0.05. Много это или мало — не ясно, по хорошему нужно сравнить с другими ходами. Если остальные будут 0.01 или и вовсе негативные (то есть ведут к проигрышу а не победе) — тогда да, ход был классный.

А дальше алгоритм обучения (и для игр, и для LLM) очень простой:
— если ход дал прирост, то обучаем модель выдавать такой ответ при определенном состоянии чаще
— если ход привёл у уменьшению оцени состояния, то делает наоборот, уменьшаем вероятность генерации такого ответа

И всё это завязано на оценку состояния (напомню, оценка действия делается через оценку состояний). Но чем сложнее игра, тем сложнее точно оценить свою текущую ситуацию, особенно если разница между двумя ходами сыграет роль где-то через 50-100 ходов в будущем — нужно оооочень далеко вперёд смотреть. Уже давно были исследования, которые показывают, что нейронка, которая оценивает состояния, на самом деле работает очень неточно (и это буквально чудо, что оно работает и позволяет обучать ботов, хаха).

Читать полностью…
Subscribe to a channel