Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
> Making models bigger is not what’s cool anymore. They are trillions of parameters big already. What’s cool is making them run longer, in bureaucracies of various designs, before giving their answers.
Ну это чисто o1 от OpenAI 🙂
2026:
> a custom AI avatar that can play some set of video games online with you and also be your friend and chat with you, and conversations with “her” are interesting because “she” can talk intelligently about the game while she plays 🙊🙊 (правда это предсказание вытекало из развития интеракций с ботом, играющим в Diplomacy, и это кажется не сбывается; но войс-мод точно есть! А про игры — посмотрим)
> Also, this same technology is being used to make AI assistants finally work for various serious economic tasks, providing all sorts of lucrative services. In a nutshell, all the things people in 2021 dreamed about doing with GPT-3 are now actually being done, successfully, it just took bigger and more advanced models
> We’re in a new chip shortage. Just when the fabs thought they had caught up to demand… Capital is pouring in, all the talking heads are saying it’s the Fourth Industrial Revolution, etc. etc. It’s bewildering how many new chip fabs are being built. But it takes time to build them. (почти совпадает с прогнозом Dylan, он говорил, что пока чипов на 25-26 годы хватит, а дальше уже вопрос).
Жаль что на этом прогноз обрывается, и что будет дальше мы не узнаем 🌚правда Daniel не писал про это потому, что посчитал, что в 27-28-ых годах начнётся AI takeover (когда AI начинает внедряться везде, как интернет, и что дальше AGI -> Сингулярность).
Под этим же постом отметился Dan Hendrycks, автор известных и популярных бенчмарков MATH и MMLU (писал тут). У него:
2023
> Generated data (math, code, models posing questions for themselves to answer) help ease data bottleneck issues since data from Web is not enough. From this, many capabilities are bootstrapped. (это мы уже наблюдаем, та же o1)
> Elon re-enters the fight to build safe advanced AI. (лол!)
2024
> Although forms of search/optimization are combined with large models for reasoning tasks, state-of-the-art models nonetheless only obtain approximately 40% accuracy on MATH. (LOL, у o1 уже 90%+! Автор бенчмарка сам недооценил прогресс моделей! Прогресс в математике случился гораздо быстрее)
📈: За вчерашний вечер и сегодняшнее утро нашел 4 статьи которых хочется разобрать
📉: а писать много буковок — не хочется 🥺
UPD: ссылки по запросам в комментариях:
— https://arxiv.org/abs/2410.01679
— https://arxiv.org/abs/2410.01748
— https://www.medrxiv.org/content/10.1101/2024.03.12.24303785v1.full.pdf
— https://arxiv.org/abs/2408.15240
— https://x.com/JJitsev/status/1842727628463128968 (+ https://arxiv.org/abs/2406.02061)
В марте 24-го люди, вестимо, думали, что это шутка. А походу нет...
Читать полностью…— получается, что если вы хотите увеличить мощности на тренировку уже в 2025м году (на обучение GPT-6; GPT-5 это как раз тренировка на кластерах в 100'000 карт), то нужно запускать распределённое обучение. Google в тех. отчёте Gemini открыто писали, что они тренируют на нескольких датацентрах (видимо, в разных географиях).
— OpenAI почти наверняка занимаются тем же. На это указывают действия их партнёра Microsoft: они заключили сделок на прокладку высокоскоростных соединений по всем Соединённым Штатам на более чем 10 миллиардов долларов. Некоторые разрешения уже выданы, и работы ведутся. Dylan говорит, что почти наверняка это будет сеть из 5 датацентров в разных штатах. Я не знаю, как он получил эту информацию, но в одной из рассылок видел анализ спутниковых снимков и тепловых карт (ведь датацентры горячие 😅), поэтому почти не сомневаюсь в верности.
— каждый из этих датацентров будет содержать по 100'000 GPU следующего поколения GB200. Они ещё мощнее H100, и масштабирование "на порядок" достигается за счёт увеличения общего количества чипов в распределённой сети. Так что Dylan ожидает запуска тренировок на 300k-500k GPU в 2025-м (GPT-5.5/GPT-6). Да, эффективность коммуникации на тысячи километров не такая, как в рамках одного здания, так что цифру выходных мощностей нужно снижать на какой-то процент (но обучать на 3-4 ДЦ точно не хуже чем на 2, там не такое замедление).
— ещё раз: мы всё ещё живём с моделями поколения GPT-4 (даже не 4.5), которые обучались на 25'000 куда более слабых карт. То есть уже точно можно говорить, что мы увидим — и к этому стоит готовиться — модели, обученные на мощностях в 50-60 раз больше (16 за счёт количества карт, 4 за счёт мощности каждой карты, и дисконт за неэффективность; но можно сделать тренировку длиннее). Плюс, добавьте сюда алгоритмические улучшения, как минорные, дающие плюс сколько-то процентов.
<прерываю написание вечернего поста, который должен продолжить серию из трех постов выше>
Во-первых, OpenAI запустили Canvas — это надстройка на ChatGPT прямо в браузере, которая облегчает работу с кодом. У вас открывается удобный редактор с подсветкой синтаксиса, в котором можно выделять отдельные куски, переписывать их, а новые сообщения LLM'ки будут обновлять код в окне (не нужно копипастить вручную). Также есть несколько быстрых опций в духе «дай комментарии, предложи изменения», «найди баги», «добавь логгирование» итд. Лучше посмотрите демку в прикреплённом твите. Доступно всем платным подписчикам сегодня (у меня пока нет, надеюсь, ночью прилетит). Можно начать шутить, что OpenAI убили Cursor 😃
И кстати, работает, оказывается, не только с кодом, но и при работе над редактированием текстов!
Во-вторых, помимо $6.6B инвестиций OpenAI получили кредитную линию от банков на четыре миллиарда долларов (написал буквами). Sama бреет бабки буквально со всех: JPMorgan Chase, Citi, Goldman Sachs, Morgan Stanley, Santander, Wells Fargo, SMBC, UBS, и HSBC. Теперь на руках более 10 миллиардов долларов.
В-третьих, вчера появилась новость, что Sam Altman попросил инвесторов, вложившихся на неделе в OpenAI, не инвестировать в компании-конкуренты (xAI, Anthropic, etc.). С точки зрения условий становится ясно, кто кому и что выкручивает, но с точки зрения имиджа выглядит не очень — «хочу, чтобы добро делал либо я, либо никто».
А после наступит этап масштабирования. Помимо самого алгоритмического улучшения, в каждый из этапов тренировки вбухают в -дцать раз больше вычислений (10-20), и это гарантировано принесёт дополнительный прирост.
Как легко видеть из этой картины, если у всех примерно одинаковые кластера, а прорывов нет, то все делают +- одни и те же модели. Получается, вопроса два:
1) как быстро разные игроки строят новые датацентры (чтобы получить возможность обучать модель с на порядок большим количеством вычислений). Пока у всех игроков либо есть, либо вот-вот будут кластера с ~100'000 H100. Как под копирку, у кого-то чуууууть-чуть больше.
2) есть ли технологическое преимущество с точки зрения алгоритмических улучшений
* я назвал их минорными потому, что они не так существенно увеличивают эффективную мощность, вбуханную в модель. Условно метод может улучшить что-то на 10-15% с точки зрения вычислений (раньше тратили $100M, теперь $85M, стало эффективнее!), но это не идёт в сравнение с методами, дающими улучшения в десятки-сотни раз. Кардинально разные вещи.
Официально: OpenAI привлекли новый раунд инвестиций. $6.6 миллиардов долларов с оценкой $157 миллиардов post-money (то есть с учётом инвестируемой суммы; без неё считайте ровно $150B)
👏
В этой новости и в предшествующих слухах меня смущает ровно одно. Полтора года назад OpenAI привлекли $10 миллиардов от Microsoft, и те средства почти кончились (согласно отчёту The Information). Сейчас они привлекают деньги, а в тот раз большая часть была в виде кредитов на вычислительные мощности, куда большая часть и ушла.
Но $6.6B — это не так много, если смотреть на скорость трат: за последний год на всё про всё потратили от $6B до $8.8B. Вижу три сценария:
1) меньше чем через полтора года будут привлекать ещё (возможно, после реорганизации в for-profit организацию);
1.1) как подвид первого — Microsoft отдельно и не в рамках раундов достигли или достигнут договорённостей касательно оплаты мощностей и дата-центров. Например, они инвестируют $20B в электроэнергию и видеокарты от своего имени, а OpenAI будет как партнёр ими пользоваться на определённых условиях (но не платить десятки миллиардов);
2) этих денег хватит, чтобы достичь позитивной экономики и начать работать в плюс даже несмотря на огромные затраты на инфраструктуру. По слухам, прогноз самих OpenAI, представленный в презентации для инвесторов, таков, что в следующем году они утроят выручку.
Исходники 4-х решений из Enterprise RAG Challenge
Месяц назад у нас прошел первый раунд Enterprise RAG Challenge - дружеского соревнования по построению AI ассистентов на годовых отчетах компаний.
Итоги соревнования с кратким разбором победивших архитектур есть тут. Среди участников были и коммерческие системы.
А вот тут лежат исходники 4-х решений из этого списка, включая победившее. Там есть описания подходов и сам код. В некоторых случаях - лог провальных экспериментов.
Код я выпросил реальный - без особого причесывания и украшательства.
Если кратко:
- daniel - решение-победитель на базе checklist + structured outputs. Первое место.
- felix - multi-agent решение на базе ChatGPT-4o. Двенадцатое место.
- maria - assistants API. Тринадцатое место.
- pedro - локальное решение на базе openchat-3.5-0106. Девятое место.
Что будет дальше? Следующий раунд состоится попозже этой осенью в большем составе. Когда - сложно сказать, зависит от отдела маркетинга в TimeToAct, который сейчас очень загружен. Я бы рассчитывал на ноябрь.
Во втором раунде генератор вопросов будет перебалансирован, чтобы:
(1) было меньше вопросов без ответов (c N/A)
(2) было больше вариативности в вопросах, чтобы подход “в лоб” с checklist + structured outputs больше не мог так легко занять топовые места.
Ну и вопросники для участников будут побольше, чтобы мы вместе могли узнать чуть побольше про реально работающие подходы с LLM под капотом.
Ваш, @llm_under_hood 🤗
PS: Если кто-то еще из участников хочет поделиться своим кодом - шлите ссылки на гитхаб, я их добавлю в этот пост.
Теперь к «агентам и роботам», которых упомянули авторы. Так как модель умеет по текстовому запросу генерировать точку на изображении, а в робототехнике уже давно появились модели, генерирующие траекторию движения по конечной точке, то инженеры на коленке склепали демку. Рекомендую посмотреть вот эти два видео:
— https://youtu.be/XBcJcULyh6I
— https://youtu.be/bHOBGAYNBNI
Вышло очень клёво, прикрутить сюда LLMку, которая генерирует цепочку рассуждений для выполнения высокоуровневой команды («уберись!» -> «найти каждую единицу мусора, понять куда её сложить, и выполнить для каждого предмета действия такие-то»), и вообще 🔥 можно в каждый дом робота затаскивать 😀
— PixMo-Points: 428k картинок (больше остальных!) и 2.3M пар вопрос-ответ. Очень необычный датасет, я бы сказал фишка модели. Чтобы обеспечить широкий спектр возможностей модели, авторы собрали данные об 2D-указателях на изображениях (точки), которые позволяют Molmo отвечать на вопросы не только с помощью естественного языка, но и с помощью тыканья пальцем.
«Указание точкой представляет собой естественное указание, основанное на пикселях изображения, что приводит к улучшению Molmo. Мы считаем, что в будущем указание точек станет важным каналом связи между VLM и агентами. Например, робот может запросить у VLM местоположение конкретного объекта рядом с ним, или веб-агент может запросить у VLM местоположение элемента пользовательского интерфейса для клика мышкой» — написано в блоге.
Итак, что сделали: попросили аннотаторов указать на что-то на изображении, написать его описание, а затем указать на каждый экземпляр этого объекта на изображении (чтобы сделать указание и разметку исчерпывающими). Также собрали пачку ответов «не присутствует на картинке», чтобы модели могли научиться правильно реагировать, когда их спрашивают о чем-то, чего на самом деле нет на изображении.
Обучение на этих данных открывает 3 новых возможности у модели / сценария использования людьми:
1) генерировать указатель на что-либо, описанное текстом (то есть находить на картинке объект)
2) считать, указывая на каждый из одинаковых объектов (обычно у моделей с этим плохо)
3) использовать указание как естественную форму визуального объяснения при ответе на вопросы.
На прикреплённой картинке вы видите архитектуру (тут ничего необычного, так делали уже больше года) и пример сгенерированной точки в ответ на запрос «покажи гору Rainier».
Шаг первый: тренировка на (не)большом наборе пар «картинка — детальная подпись к ней»
Большие VLM обычно обучаются на миллиардах пар текст-изображение, полученных из Интернета. Даже несмотря на большое количество фильтров по качеству и прочих приёмов, такие массивные корпуса, как правило, чрезвычайно шумные (некачественные). Часть выборки, где в тексте указаны детали, не присутствующие на картинке, и вовсе приводит к галлюцинациям (заставляем генерировать чего нет -> учим выдавать мусор).
Авторы применяют совершенно другой подход к сбору данных, уделяя особое внимание качеству. Финальный размер датасета — 712 тысяч разных изображений и примерно 1.3M аннотаций к ним. Это на 2, а то и 3 порядка меньше, чем используют другие сравнимые по качеству подходы.
Как разметить подписи для такого количества картинок? Никакой магии нет — нанять людей для разметки -_- обычно на этом шаге используются другие VLM с промптом «детально опиши происходящее», но ведь... тогда мы снова по сути будем дистиллировать знания другой модели? Так что... люди.
Если вы работали с людьми, то знаете, что многие из них не гонятся за качеством на работе. Заставить разметчиков писать объемные детальные подписи к картинкам оказалось непросто. Поэтому авторы махнули на это рукой... и предложили разметчикам записывать голосовухи 🙂, ограничив минимальную длительность аудиоклипа 60 (а на более поздних этапах сбора данных и 90) секундами.
За это время человек должен был ответить на ряд вопросов:
— Что представляет собой изображение на первый взгляд?
— Каковы объекты и их количество?
— О чем говорится в тексте? (если применимо)
— Каково положение объектов на картинке?
— Какие мелкие детали заметны?
—Что находится на заднем плане?
— Каков стиль и цвет?
Затем голосовухи прогонялись через модель распознавания речи, и полученные транскрипты отдавались LLM с просьбой их вычитать, убрать ЭЭЭкания, паузы, сделать речь более связной (если был артефакт speech-to-text модели).
В первой части процесса картинку отсматривало 3 человека, так что получалось 3 описания. Лёгкий взмах рукой — и LLM генерирует саммари в виде четвёртого описания, которое тоже можно использовать для обучения. +33% к размеру датасета на дороге не валяются всё таки. На поздних стадиях перешли к разметке «1 картинка — 1 человек» (и как раз тут увеличили минимальную длительность до 90 секунд).
Исходный набор картинок, которые показывали пользователям, тоже как-то фильтровали (деталей пока нет), сбалансировав выборку по 70 заранее определённым категориям (типа дорожные знаки, мемы, еда, рисунки, веб-сайты, размытые фотографии, итд).
Давайте прикинем цену такой разметки:
1) если откинуть перефразирование LLM, то от людей отобрали примерно миллион уникальных подписей к изображениям. Ещё процентов 20% наверное забраковали по разным причинам.
2) так как каждый аудиоклип длился по минуте, то в час их наверное выходило ну штук 50, 10 минут туда сюда спишем.
Итого выходит 25'000 оплаченных часов. Минимальная ставка в Вашингтоне — 16.66$/час, по ней выходит $400k. Если это зааутсорсили, скажем, по $4/час, то будет всего $100k.
(Датасет и прочие детали обещали опубликовать для всех в течение 2 месяцев. Обратите внимание, что модель видела только текст, не аудио — быть может, в следующей итерации обучат аналог Voice Mode в GPT-4o?)
Сегодня проходит первый осенний OpenAI DevDay (будет ещё два — в Лондоне и в Сингапуре). К сожалению, официального стрима не будет; также написали, что не следует ждать новых моделей (хотя утром OpenAI выложили новую нейронку для распознавания речи Whisper 3, но turbo — она шустрее).
При этом скорее всего будут записи (возможно, только через два месяца — как смонтируют сразу все три мероприятия). Надеюсь, что кто-то из посетителей сделает качественную съемку и конспект — будет интересно узнать, что анонсировали и о чём рассказали.
На основной сцене запланировано 4 часовых доклада, при этом их темы не указаны даже в расписании. Вместо этого указано, что темы анонсируют в открывающей речи.
Начало через 3 часа 20 минут, если будут новости — скомпилирую и выложу завтра подборку, если ничего срочного и супер крутого не будет.
А дальше ждите разбор статьи, прям как в South Park — большой, длинный, необрезанный.
UPD: самое главное в посте забыл 😀
Помимо основной сцены будет дополнительная, с практическими кейсами использования GPT в компаниях. Вот содержание, думаю, каждый найдёт для себя 1-2 самых релевантных и интересных доклада (и что можно будет потом увидеть запись с деталями):
— Amperity: Data Democratization with Text to SQL by Joyce Gordon & Camden Clark
— Dimagi: GPT-4o fine-tuning for low-resource spoken languages by Anna Dixon
— Genmab: Accelerating cancer R&D with document generation by Scott Ogden & Jan-Samuel Wagner
— Vercel: Generative UI for developer interfaces by Jared Palmer
— Altera: An AI civilization of 1,000 agents by Robert Yang & Nico Christie
— Mindtrip: The future of travel planning is multimodal by Garrick Toubasi
— Sierra: Realistic agent benchmarks with LLMs by Karthik Narasimhan & Noah Shinn
— DataKind: Activating humanitarian data for rapid response efforts by Caitlin Augustin & Mitali Ayyangar
— Cosine: Fine-tuning an AI developer by Alistair Pullen
Губернатор Калифорнии ветировал закон штата SB 1047, который был посвящен безопасности AI и вокруг которого много месяцев шли дискуссии. Закон требовал от разработчиков больших AI моделей проявлять "разумную осторожность", чтобы их технологии не представляли собой "необоснованный риск причинения или существенного содействия причинению критического вреда". Под таким ущербом понимаются кибератаки, которые наносят ущерб на сумму не менее 500 миллионов долларов или приводят к массовым жертвам. Разработчики также должны были убедиться, что их ИИ может быть отключен человеком, если он начнет вести себя опасно.
Против закона выступали Google, Meta, Microsoft и OpenAI, к которым присоединились также более мелкие компании. Основные возражения касались того, что формулировки закона носят расплывчатый характер, при этом запрещая разработчикам выпускать модели, если существует "необоснованный риск". Неопределенность формулировок оставляла большое поле для толкований и фактически позволяла осложнить работу компаний, пока с вопросом не разберутся в суде, например.
Помимо того, что закон касался бы деятельности любой крупной компании в области AI — они все расположены в Калифорнии, — он бы фактически относился и к деятельности тех компаний, которые просто ведут деятельность в штате.
https://www.wsj.com/tech/ai/californias-gavin-newsom-vetoes-controversial-ai-safety-bill-d526f621?mod=hp_lead_pos4
Месяц назад писал про Aider, консольный кодинг-ассистент. Тогда я отметил, что автор использует своё творение для разработки и улучшений, то есть ИИ-ассистент пишет сам себя. С тех пор вышло 6 обновлений, в которых Aider написал 405 + 204 + 811 + 154 + 394 + 712 = 2680 строк кода (везде больше 50% от общего объема обновления; максимум 70%). Продуктивно!
Но написать я хотел о другом. Для оценки работоспособности разных моделей автор собрал пару бенчмарков. В одном из них 133 задачи на Python (все — собранны вручную как учебный материал из реальных кейсов, однако сам бенчмарк публичный, и LLM могли его видеть). gpt-4o решает 72.9%, claude-3.5-sonnet была топ-1 с 77.4%, однако недавно её перегнала o1-preview с 79.7%.
При этом автор заметил, что новая модель OpenAI плохо следует инструкции форматирования ответа — ответ получается распарсить в 93.2% генераций (90% у o1-mini), то есть часть задач может и решается, просто модель добавляет отсебятины и/или не слушается. Для сравнения: Claude 3.5 почти не ошибается с этим (99.2%), а продуктовые модели OpenAI показывают 96-98%. И даже при таком подходе o1 впереди.
Поэтому в голову пришла идея разбить процесс решения задач на 2 шага:
1. Модель-Архитектор получает проблему и задачу описать решение проблемы
2. Модель-Редактор получает на вход описание решения и переводит его в код
Подход позволяет сочетать плюсы разных моделей, нивелируя минусы. Например, o1 — суперхорошо описывает декомпозицию решения, а какая-нибудь дешёвая и супер-быстрая китайская DeepSeek v2.5 исполняет план.
Так как 78% проголосовало за то, что могут и будут читать части на английском, то попробуем так. Дело в том, что иногда суть поста сводится на 80% к переводу исходного материала, и мне лень это делать — и пост не выходит. В таких случаях выбор стоит между «запостить с частями текста на английском» и «поста не будет». Потому лучше как-то, чем никак.
===
Итак, в 2021-м году Daniel Kokotajlo, философ-предсказатель из OpenAI (да, такие позиции тоже есть), написал своё видение развития будущего. 2021-й — это когда была лишь GPT-3, большая-дорогая-глупая модель, которая вообще не слушалась инструкций, если не обманывать её промптами. InstructGPT, прародитель GPT-3.5 / ChatGPT, появится более чем через полгода. А про Daniel я уже писал несколько раз. Пока его прогноз до 2024-го достаточно точен, хоть пара отдельных веток сильно выбивается (про пропаганду, см. ниже)
Ниже отобрал некоторые предсказания, часть выкинул (они не интересны и/или неправильны):
2024:
> We don’t see anything substantially bigger (имеются в виду модели). Corporations spend their money fine-tuning and distilling and playing around with their models, rather than training new or bigger ones. (So, the most compute spent on a single training run is something like 5 x 10^25 FLOPs.)
Очень точное предсказание относительно моделей, выстреливших в 2022-23х годах. Как я писал выше в канале, для масштабирования нужно строить датацентры, это не дело пары месяцев. На LLAMA-3-405b затратили 3.8 x 10^25 FLOPs, что укладывается в оценку прям отлично.
> But the hype begins to fade as the unrealistic expectations from 2022-2023 fail to materialize. We have chatbots that are fun to talk to, at least for a certain userbase, but that userbase is mostly captured already and so the growth rate has slowed
> If all this AI tech is accelerating GDP, the effect size is too small to detect, at least for now (но так было и с интернетом)
> The AIs don't do any clever deceptions of humans, so there aren’t any obvious alignment warning shots or fire alarms. Instead, the AIs just make dumb mistakes, and occasionally “pursue unaligned goals” but in an obvious and straightforward way that quickly and easily gets corrected once people notice (такое как раз и происходит)
> Massive models are being fine-tuned to persuade/propagandize. Такого мы не наблюдаем (хоть это и может происходить), однако в комментариях от 2023-го года Daniel пишет, что тогда он очень за это переживал и потому переоценил видимую важность этих сценариев, государства пока проходят мимо, а не вливают миллиарды в боты для пропаганды. Дальше секция про это есть в каждом году, но я её вырежу.
2025:
> AIs can now play Diplomacy as well as human experts. Дипломатия — это стратегическая игра, где игрокам нужно взакрытую друг с другом договариваться, врать, захватывать страны. Facebook выпустил исследование и модель, которые играли как эксперты, в конце 2022-го года, сильно раньше предсказания. Однако там была специально обученная модель узкого назначения, с текстовым интерфейсом. Быть может, современные модели могут играть хорошо просто через текстовый интерфейс — не видел, чтобы кто-то замерял.
А дальше идёт такое предсказание:
> you can take a giant pre-trained multimodal transformer and then use it as a component in a larger system <...> and then fine-tune the whole system via RL to get good at tasks in a sort of agentic way. They keep it from overfitting to other AIs by having it also play large numbers of humans. To do this they had to build a slick online diplomacy website to attract a large playerbase. Diplomacy is experiencing a revival as a million gamers flood to the website to experience “conversations with a point” that are much more exciting (for many) than what regular chatbots provide.
Кажется, это предсказание не сбудется, но в некотором смысле люди так и так миллионами побежали общаться с LLM. И на этом даже учат модели с помощью RL! Но... сам Daniel позже написал: «Diplomacy happened faster than I expected, though in a less generalizeable way than expected».
Произошел прорыв в деле NYT и OpenAI: суд удовлетворил ходатайство NYT и теперь OpenAI должен будет предоставить базу данных, на которой обучалась OpenAI LLM.
У меня есть несколько вопросов к этому определению: дело в том, что NYT ссылались и фиксировали на нарушения с использованием GPT-4, в своем определении суд просит предоставить обучающие дата-сеты в отношении “OpenAI LLMs” - значит ли это, что это должны быть все дата-сеты для всех моделей, которые существуют на сегодняшний день у OpenAI?
Далее интересен момент с определением “relevant” - что под этим понимает суд? Должны ли это быть актуальные на сегодняшний день базы данных или те, которые существовали на дату иска (или как минимум на дату запросов, сделанных юристами NYT).
помните, как я писал о новой модели о1 - Preview, когда она только вышла? Тогда я думал, что изменения затронут в основном только специфичные роли. Как же я ошибался!
Эта модель — настоящий геймчейнджер для меня в плане решения сложных задач. Теперь я вижу, как большие сложные блоки, особенно стратегические, где нужно хорошее описание, решаются совершенно по-другому. Серьезно, с 2-3 итераций в диалоге получается достичь офигенных результатов. Раньше тратил оч много времени на промпты/роли и тд. Сейчас просто пишу 15 минут голосовые и пихаю туда.
Огромный плюс — это большое окно контекста. Я могу бесконечно уточнять в одном чате, не создавая новые треды. Раньше приходилось дробить обсуждение на несколько чатов, чтобы сохранить контекст. Теперь всё в одном месте — и это просто бомба!
Фанфакт: теперь можно посмотреть цепочку рассуждений модели. И когда я туда заглядываю, вижу, что она думает то на русском, то на английском, то на украинском, то на китайском! Выглядит очень забавно.
Кстати, разработчики спрятали эту модель так неудобно, что большинство из нас даже не заметили её. Даже активные пользователи GPT, которых я спросил не видели ее, хотя знают, что она выходила. Поэтому, вот мой экшен: Включаем новую модель, берём самую сложную задачу прошлой недели - тестируем. Ты будешь приятно удивлен!
@aihappens
— к концу 2025-го, получается, суммарное потребление этой сети из 5 тренировочных датацентров будет больше ГигаВатта, может больше двух. В 2026-м году почти каждый из них будет расширен так, что будет потреблять в районе ГигаВатта, мб чуть меньше.
— если вдруг задумались, может ли не хватить чипов, то ответ почти наверняка «нет»: Nvidia произвела за полтора года 6 миллионов H100. Для нового поколения карт почти наверняка они сделали ещё больший заказ у всех поставщиков, особенно TSMC. А в датацентр ставят по 100'000 карт — это же копейки. Даже сеть из 500'000 карт не выглядит такой гигантской на фоне производимого количества (которое растекается по нескольким игрокам). Из анализа прогнозов производства для инвесторов TSMC Dylan вынес для себя, что на 2025-2026 чипов точно хватит по текущим планам масштабирования LLM.
— если правильно помню новость, Microsoft заказала от 700'000 до 1.4M видеокарт у Nvidia (другие, вроде META и Google, заказали меньше 700'000), так что тут тоже срастается.
— «Невозможно проплатить тот масштаб кластеров, которые планируется построить в следующем году для OpenAI, если только они не привлекут ещё 50–100 миллиардов долларов, что, я думаю, они сделают в конце этого или в начале следующего года <...> Я говорю вам, Sam привлечёт эти 50-100 миллиардов долларов, потому что он уже говорит людям, что соберет столько. Он буквально ведет переговоры с суверенитетами, с Саудовской Аравией, с канадским пенсионным фондом и с крупнейшими инвесторами в мире. Конечно, и с Microsoft тоже, но он буквально ведет эти переговоры, потому что они собираются выпустить свою следующую модель или показать ее людям и привлечь эти деньги. Это их план.»
(кстати, напомню, что Sama поднял 3 из 5 самых крупных раундов в истории, включая 10-миллиардную сделку с Microsoft. Наш слоняра 💪)
— «Их план», если не ясно, это выпустить GPT-5 и поразить всех; показать, что мы очень далеки от предела масштабирования, что приросты качества и темп решения проблем в духе галлюцинаций всё ещё огромны, что полезность модели растёт и растёт. От GPT-5 многое зависит (а помните я говорил что буду писать лонг с таким названием...). Ну и под шумок после этого деньги собрать
— У OpenAI пока хороший ROI, на тренировку GPT-4 на всё про всё, с исследованиями, ушло $500M. Они до сих пор стригут деньги с модели (пусть она и улучшилась, и уменьшилась в размерах) — выручка OpenAI на конец года будет +- $4 миллиарда. Все траты, что есть сейчас — это спонсирование будущих проектов, которые тоже, по плану, окупятся: OpenAI ожидает утроение выручки в следующем году до $11.6B и последующий рост до $25.6B в 2026-м. Последняя цифра — это примерно выручка таких компаний как McDonalds или Adidas, а значит примерно столько принесёт субсидируемая сейчас GPT-5.
(Да, выручка это не прибыль, но кому это интересно, когда идёт столь бурный рост? а главное, значит, OpenAI ожидают куда большего проникновения технологии в нашу жизнь).
===
— во времена дотком-пузыря в год инвестиции в сектор оценивались в +-$150 миллиардов в год (насколько я понял, без учёта инфляции, но это не точно). Сейчас в рынок AI, включая железо, закидывают $50-60B, так что пока даже не близко. И нет причин, почему этот «пузырь» не вырастет ещё больше прежнего — так что деньги вливаться будут, кластера строиться будут, модели выходить...будут.
Так вот, к чему была вчерашняя прелюдия про положение дел в обучении больших моделей. Позавчера посмотрел свежий выпуск подкаста Dwarkesh, гостями были Dylan Patel (автор semianalysis.com, крупной компании, предоставляющей консультации и анализ рынка полупроводников и всё что с ними связано, от памяти до GPU) и автор канала Asianometry/videos">Asianometry (вам строго туда, если хотите узнать про истории крупных тех. бизнесов, особенно полупроводников).
Самая интересная и релевантная часть — про датацентры Microsoft x OpenAI и будущие планы по масштабированию. Рекомендую смотреть вот с этого таймкода, ниже — мой пересказ и отдельные факты, сопровождённые пояснительными комментариями. Дисклеймер: я не перепроверял большую часть цифр, что там озвучены, и беру их на веру, так как Dylan — эксперт. Я давно хотел подписаться на его рассылку, там бывают интересные инсайты про датацентры, но $500 в год не готов отдать...
Итак:
— GPT-4 была обучена на 25'000 видеокарт A100 в течение 3 месяцев. Сейчас есть датацентры по 100'000 карт H100, и каждая карта примерно вдвое мощнее в контексте обучения LLM. Это большие числа по современным меркам — год назад многим казалось, что никто на такое не пойдет, это безумие, 100 тыщ! Если брать тренировку в рамках одного датацентра, то за те же 3 месяца теперь можно вложить в модель в 4 раза больше мощностей за счёт кол-ва GPU и в 2 за счёт улучшения карт — итого в 8 раз. Потренировать чуть дольше — и вот вам рост...всего лишь на один порядок (то есть в 10 раз)
— а это уже беспрецедентно большие датацентры, их можно увеличить ну в 2, ну в 3, ну в 4 раза в ближайший год, но как вы понимаете, это не в 10-100 раз — поэтому очень важны алгоритмические улучшения (см. предыдущий пост). Именно за счёт них можно вырваться в условиях, когда у всех одинаковые мощности, и вы просто упираетесь в скорость строительства
— одна из основных проблем постройки датацентров — энергия, которая им потребуется (с учётом будущих расширений). Один блок АЭС, которую Microsoft хотят перезапустить, выдаёт чуть меньше 1 ГигаВатта, а к 2028-2030-му хотят запускать датацентры на несколько ГВт. В США всего 26 станций, выдающих больше 2.5 ГВт, и тысячи ооочень мелких. И те, и другие имеют многолетние контракты на поставку определённого заказа, и несмотря на то что на бумаге теоретическая производительность высокая, доставить большое количество энергии в одну конкретную точку (датацентр) — боль. Тут сверху есть сотенка МегаВатт, тут 30, тут 20, буквально по крупицам собирать. Так что в стране не так много мест, где можно ткнуть всего лишь гигаваттный датацентр и запитать его в кратчайшие сроки. Если можно подождать год-два-три, то будет доступнее, но кому ж ждать то хочется?
— при этом сами цены на энергию мало кого волнуют. В стоимости постройки и обслуживания датацентра на несколько лет примерно 80% — это сервера (GPU и прочее). Счёт за электричество редко занимает больше 10-15% в общей сумме, поэтому Microsoft и другие с радостью доплатят к рыночной цене сколько-то процентов, чтобы иметь приоритет поставки выше. Каитализм 🫡
— кстати, именно поэтому не рассматриваются солнечные подстанции / ветряки. Если вы отдали за карты СТОЛЬКО БАБОК, то не хотите, чтобы они простаивали 8-10 часов в сутки (ну а батареи и переменное питание видимо представляют больший риск).
(это всё ещё «предыдущий пост», а не следующий)
Вот картинка про алгоритмические улучшения из лекций/сообщений Noam Brown, исследователя из команды OpenAI, сделавшей о1.
На ней показано качество модели при игре в покер, по горизонтали увеличение размера модели (количества параметров), по вертикали качество, не важно, в чём измеряемое (ниже на графике = лучше). Синяя линия — это модель без поиска по будущем состояниям игры (времени на подумать, как у о1 — когда модель перебирает ходы), оранжевая — с ним.
Обратите внимание, что по горизонтали количество параметров в модели меняется в 100 раз слева направо. Но при этом линии всё равно очень далеко друг от друга.
Так вот, авторы посчитали, что нужно масштабировать модель в 100'000, чтобы синяя линия опустилась до уровня оранжевой.
Ссылка на лекцию
Пост с моим видением и объяснением ситуации в индустрии LLM (и важный пререквизит к следующему посту, кек):
— качество модели зависит от нескольких факторов: 1) количество мощностей, вбуханных в обучение (и как следствие количество данных и размер модели), 2) качество данных для дообучения, 3) методы для дообучения
— Очень грубо финальный результат можно представить как количество порядков вычислений во время обучения, которому соответствует модель. Например, если модель увеличили в 10 (и показали в 10 раз больше данных), то есть потратили мощностей в 100 раз больше, то это «+2 OOM» (Orders of magnitude, порядок величины)
— улучшения с точки зрения алгоритмов обучения и дообучения могут позволить эффективно увеличивать порядок вычислений, не меняя его в реальности. То есть можно придумать метод, который, например, позволяет получить у маленькой модели качество, сравнимое с моделью в 10 раз больше — тогда можем сказать, что этот метод добавляет 1 порядок (каждый потраченный доллар теперь более эффективен). Мы как будто обучали модель больше и дольше, и получили такое же качество
— пример такого метода — RLHF от OpenAI, когда за счёт хитрого обучения на разметке людей вида «ответ лучше — ответ хуже» модель на 1.5B параметров оценивалась людьми выше, чем модель в 100 раз больше
— несмотря на многие шутки про закрытость, OpenAI опубликовали большое количество исследований и деталей по воспроизведению модели GPT-3.5 (InstructGPT), особенно по второму и третьему пункту выше (качество данных + методы тренировки). Они даже делились инструкциями для разметчиков данных в 2022-м году (вечность назад...). Всё это как раз было в рамках метода RLHF
— GPT-4 является масштабированием применения RLHF с некоторыми, как оказалось ретроспективно достаточно минорными*, улучшениями. Рецепт в принципе был известен в общих чертах: построй большой кластер, обучай модель примерно такого размера несколько месяцев, вложи кучу денег в разметку, примени RLHF и будет +- топовая модель. Может, чуть-чуть хуже OpenAI, но одного порядка. Само воспроизведение работы нетривиально, нужны бюджеты, нужен огромный датацентр, нужна инженерная сила для масштабирования, но с точки зрения исследований и алгоритмических улучшений путь ясен
— именно поэтому мы видим, что у нескольких игроков модели +- одинаковые. Да, у некоторых под капотом есть минорные алгоритмические улучшения, которые позволяют вырваться на разных тестах на 2-3-5%. Причём, разница в качестве, я думаю, в большом количестве случаев определена приоритетами в разметке данных. Порядок вычислений, подход к обучению и дообучению +- одинаковы (как минимум это видно по LLAMA 3).
Ключевой поинт: до недавнего времени никаких алгоритмических прорывов мы не видели.
Модель о1 — это такой пример. Я не думаю, что в OpenAI вложили в неё в 10 раз больше мощностей, чем в gpt-4 / gpt-4o, но на определённого рода задачах показывает она себя лучше, чем если бы в это сделали. Получается, алгоритмическое улучшение как бы позволяет нам прыгнуть и заглянуть в мир моделей с порядком вычислений больше, чем было доступно. Грубо говоря без него через модели нужно было бы пропустить, скажем, в 200 раз больше вычислений во время тренировки (что пока не представляется возможным) для достижения такого результата.
Наверное, громко говорить, что «сейчас такой прорыв есть», как пишут сами OpenAI — это рабочий прототип, демо технологии, и в ближайшие полгода-год они много узнают о подводных камнях («сорвут низковисящие фрукты»), дошлифуют и смогут сделать значимые улучшения. Один из главных вопросов — насколько их метод получился общим, стоит ли ждать улучшений по широкому спектру задач, или же они останутся в рамках 2-3 направлений (математика, физика, программирование)
На прошедшем демо-дне представили несколько фичей, но ничего крышесносного. Сделал краткую выжимку, часть пунктов опущены:
1. Realtime API: доступ к speech-to-speech модели для создания голосовых агентов с низкой задержкой (API поддерживает стриминг). Доступно 6 голосов (те же, что были основными в ChatGPT). В ближайшем будущем поддержка речи доедет и до Chat Completions, то есть можно будет получать на вход текст, а выдавать голос, и наоборот (сейчас, повторюсь, только speech-to-speech в реальном времени). Ценник за аудио выглядит конским ($200 за миллион сгенерированных токенов), но на самом деле за час общения будет выходить $6-10 в зависимости от баланса входной/выходной звук. Пока, наверное, чуть дороже колл-центров на Филиппинах или в Индии 🫡
2. Кэширование промптов: наконец-то можно платить меньше за запросы, у которых существенная часть начала запроса повторяется (например, ваша инструкция + примеры работы). Очень долгожданная фича, OpenAI тут буквально последние — Google, Anthropic и DeepSeek уже все добавили. Если хотите узнать больше про кэширвоание, то читайте тут. И да, картинки тоже можно кэшировать!
Дисконт составляет всего лишь 50% на токены запроса, зато вы не платите за хранение, и код менять не нужно: всё происходит на сервере без вашего ведома (минимальная длина промпта — 1024 токена, иначе кэширование не включается). Кеш хранится 5-10 минут, и гарантировано удаляется через час, что не идеально — иногда запросы размазаны по времени. Скидка 50% тоже не шик — Anthropic и DeepSeek просят платить всего 10%, а Google 25% (но чарджат за хранение по часам).
3. Vision Finetuning: теперь можно дообучать модели, подавая на вход изображения (раньше было только из текста в текст). Весь тюнинг бесплатен до конца месяца, поэтому поторопитесь, если хотите провести эксперименты — можно поиграться за копейки.
4. Model Distillation: продолжая тему дообучения, теперь можно удобно, прямо из UI, обучить маленькую модель на ответах большой (и таким образом платить меньше за примерно такое же качество). Для этого можно помечать свои сообщения флагом «store», и они вместе с ответами будут сохраняться у OpenAI. А затем вы можете запустить обучение на всех сохранённых ответах, попутно отслеживая качество на нескольких десятках/сотнях примеров, разметка которых подтверждена вами вручную.
5. o1 теперь доступна в API разработчикам tier 3 уровня — это те, кто потратил не меньше $100 за всё время (за вычетом подписки ChatGPT). Дальше, видимо, уже раскатят всем.
=====
И отдельно в конце DevDay был часовой разговор с CEO компании Sam Altman. Все вопросы и ответы записал и выложил Артём, автор канала AI для всех: /channel/nn_for_science/2224 и ниже. А вот полу-корявая видеозапись из зала на YouTube от кого-то другого. Ниже — моя выборка некоторых Q/A оттуда:
Q: Когда появятся вызовы функций в O1?
A: Вероятно, до конца года. Модель будет становиться лучше очень быстро. Мы знаем, как масштабироваться от GPT-2 до GPT-4, и сделаем это для O1.
Q: Почему мы не можем разрешить пение для advanced voice mode?
A: Я сам задавал этот вопрос 4 раза. Проблема в авторских правах на песни. Сейчас это сложный и тонкий вопрос. Мы хотим, чтобы модели могли петь, но пока это невозможно.
И ещё в какой-то момент Sam спросил, кто в аудитории считает себя умнее o1. Несколько людей подняли руки. «Думаете, вы будете умнее о2? Нет? Никто не хочет сделать ставку?»
Ждём 2025-го! o2, GPT-4.5/5, 😯
===
TLDR разбора:
— данные, данные, данные
— очень важно данные, данные, данные
— и ещё качество данных (синтетические, с использованием LLM — норм)
— не экономьте на разметке
— код для обучения и данные будут в течение 2 месяцев
===
(авторы ещё по честному сравнили разные модели, наняв более 800 людей для разметки пар ответов от двух разных моделей, и построили рейтинг по более чем 320000 голосов. По нему Molmo на втором месте после gpt-4o, опережает Claude 3.5 Sonnet, кек)
===
Поиграться с демо моделькой: https://molmo.allenai.org/ (есть голосовой ввод, можно загружать свои картинки)
Веса моделей в открытом доступе: тут
Примеры того, как модель «считает» объекты, указывая на каждый из них:
Источник 1
Источник 2
Шаг второй: тренировка на миксе из более чем 20 под-наборов данных
На описаниях картинок далеко не уедешь — модель не выучит полезные навыки, не сможет отвечать на вопросы в духе «какого цвета машина?», поэтому нужен второй этап. 20 датасетов это круто, но большая часть из них — старые, из академических бенчмарков, и они уже доступны публично. Примеры: VQA v2, ChartQA, ScienceQA, PlotQA. На них останавливаться подробно не будем.
Своих датасетов у авторов вышло 5 штук, у каждого своё название, а в сумме вся коллекция называется PixMo (Pixels for Molmo):
— PixMo-AskModelAnything: 73k картинок и 162k вопросов-ответов по ним. Цель датасета — дать модели возможность отвечать на разнообразные вопросы, которые могут задать ей реальные живые пользователи в реальных условиях. Процесс постарались ускорить так:
1) аннотатор выбирает картинку из огромного отфильтрованного пула
2) аннотатор пишет свой вопрос о картинке; изредка вопросы просили исковеркать, чтобы они были необычными (как любят комментаторы в телеграме, «напиши ответ перевёрнутыми буквами» или что-то такое)
3) модель, обученная на первом шаге, генерирует описание изображения
4) текст описания и результат работы системы распознавания текста (не VLM, просто стандартный инструмент) подавались в языковую модель, которая генерировала вопросы-кандидаты и потенциальный ответ (она НЕ ВИДИТ изображения)
5) аннотатор либо в один клик принимает ответ (что быстро = дёшево), либо отклоняет и даёт краткое описание проблемы
6) если ответ был неправильным (или вопрос был глупым) — LLM переписывает их с учётом обратной связи
7) повторять пункты 4-6 до готовности правильного ответа
— PixMo-CapQA: 165k картинок и 214k пар вопрос-ответ. Взяли готовую LLM, дали ей описание картинки (использовались человеческие, полученные из голоса, а не генерируемые обученной моделью) и попросили сгенерировать вопрос и ответ, которые могут быть отвечены только с использованием текста, не глядя на изображение. Чтобы увеличить разнообразие задач, авторы создали список тем и описания стилей, и просили модель использовать их.
— PixMo-Docs: 255k картинок и 2.3M вопросно-ответных пар. Сначала отобрали изображения, в которых много текста и визуальных элементов (диаграммы, документы, таблицы и схемы), затем взяли LLM и попросили сгенерировать код генерации визуальных элементов (то есть сделать рендер текстового описания). Затем другая LLM генерировала вопрос и ответ по коду — ведь она смотрит прям на цифры, на константы и значения, легшие в основу графиков, и это и был финальный набор. Очень интересное и креативное решение.
— PixMo-Clocks: 160k картинок и 826k пар вопрос-ответ. Это понравится зумерам, которые не умеют определять время на часах. Тут авторы просто создали новый набор синтетических данных с вопросами и ответами о времени. Всего было 50 уникальных циферблатов, на них случайно выставляли время, рендерили картинку, и получали результат — время то мы знаем.
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models (блог)
Если посмотреть на лучшие открытые Vision-Language Models (мультимодальные модели, принимающие на вход как минимум картинку и текст и выдающие текст), то все они попадут под две категории:
1. Обучены непонятно как и непонятно на чём (в лучшем случае будет описание в общем виде);
2. Обучены на разметке/примерах общения с проприетарными моделями; в таком случае можно говорить, что модель, по сути, является дистиллированной версией закрытой VLM.
Получается, что у сообщества разработчиков и исследователей нет точного понимания, как взять и сделать передовую VLM, только примерные наброски и опция использовать чужие данные, переходя в серую зону лицензирования (OpenAI и многие другие провайдеры запрещают тренироваться на ответах моделей, правда прецедентов судебных дел пока не видел). Ребят из Allen Institute и University of Washington это не устраивало, и они решили разобраться в вопросе, попутно задумав опубликовать всё что можно под открытой лицензией.
Забегая вперед скажу, что у них получилась модель Molmo (Multimodal Open Language Model), по бенчмаркам и человеческой оценке не уступающая GPT-4v (у последних 4o всё же подпроигрывает), так что работа действительно интересна.
Авторы выбрали прагматичный подход, в котором они берут уже готовую обученную языковую модель (LLM), кодировщик изображений (переводящий картинку в набор цифр), и поверх этой пары делают обучение на своих данных. В этой связке можно брать полностью открытые модели (OLMo, для которой есть всё от скриптов до данных), но никто не запрещает выбрать в качестве основы условную Mistral: главное, что всё, что происходит поверх базовых моделей, теперь прозрачно.
Ключевой инновацией, позволившей приблизиться к качеству закрытых фронтир моделей, стал... сделайте удивлённое лицо 😱... набор данных. В архитектуре никаких изысков нет, тренировка настолько проста, что в ней даже никакой RL не заводили (это когда модель учится на парах ответов, где человек указал, какой лучше, а какой хуже; используется для GPT-4 и прочих моделей). Ну ладно, дообучение производится в две стадии:
1. тренировка на (не)большом наборе пар «картинка — детальная подпись к ней»
2. тренировка на миксе из более чем 20 под-наборов данных, содержащих разные задачи.
Как вы понимаете, именно о данных и будет рассказ, ведь это основа.
По аналогии с началом сентября, когда некоторым пользователям показывали два варианта ответа, один из которых был от моделей o1 (Strawberry), сейчас в выдачу подмешивают варианты, где явно задействован поиск по интернету (или по крайней мере по набору внешних источников; может, OpenAI показывает только сайты-партнеры?).
Напомню, что OpenAI летом анонсировали SearchGPT, которую выдали всего +-10'000 пользователей как раннюю альфу.
Возможно, релиз скоро 😟
Источник скрина
Вот картинка с результатами. Тут в качестве архитектора тестируется несколько моделей (кодируется цветом), и для каждой из них пробуют разные модели-редакторы.
"Baseline" означает старый результат модели-архитектора, когда она была без пары, решала задачу сама от и до. Например, gpt4o-mini проходила 55.6% задач (самая левая колонка), а если разбить решение на два шага, то это само по себе улучшало результат до 60.2%.
Напомню, предыдущие лучшие результаты:
— Claude 3.5 Sonnet (baseline): 77.4%
— o1-preview (baseline) 79.7%
Модель Anthropic показала себя лучше, если дать ей в напарники её же (с другими вышло хуже): с 77.4% выросла до 80.5% (это прирост из-за разбиения процесса решения на два шага).
o1 приросла куда сильнее: она решает 85% задач 🔼 , если дать ей в напарники... ту самую модель DeepSeek, которая вообще аномально дешёвая. С выходом полноценной o1 (не превью), думаю, оценка будет >88%, так что автору пора задумываться о замене бенчмарка и/или его усложнении.
А вот к каким выводам с точки зрения использования пришёл разработчик:
— o1-preview + DeepSeek выглядит на бумаге солидно, но такой результат достигается за счёт метода генерации «whole» ответа (то есть целого файла с кодом, а не только изменённых кусков). Это медленнее и дороже, что может портить пользовательский опыт. Если генерировать кусок — оценка сразу упадёт до 80.5%, что не сильно лучше просто o1 из коробки.
— поэтому в качестве рабочей лошадки предлагается связка o1 + Claude 3.5 Sonnet (в режиме генерации кусков с изменениями)
Я уже писал пару раз про SB 1047 — Калифорнийский акт, направленный на регуляции в AI. Губернатор пока не решил, подписывать ли его или накладывать вето, так что пока подождём, и давайте заглянем на другую сторону планеты.
Очень часто в вопросе регуляций возникает аргумент «Ну так а Китай?». Подразумевается, что если тормозить развитие AI в США (в Европе с этим так и так неплохо справляются) ради безопасности, то это не будет иметь смысла, ведь китайцы не будут столь услужливы, чтобы остановиться и подождать. И не факт, что приняв набор мер в США получится договориться об их соблюдении с мистером Xi.
The Economist опубликовали колонку, в которой разбирают этот вопрос. Тезисно:
— уже в 2023-м году в Китае были введены регуляции, применительно к чатботам и LLM. Алгоритмы работы оценивались на соответствие социалистическим нормам в попытке ответить на вопрос: «не подрывают ли ответы моделей линию партии?»
— также был введёт реестр LLM, куда разработчикам было необходимо вносить свои разработки
— всего из Китая лишь один учёный выигрывал премию Тьюринга (это Нобелевка в компьютерных науках), Andrew Chi-Chih Yao, и он обладает некоторым авторитетом; к нему прислушиваются. В июле он заявил, что ИИ представляет бОльшую экзистенциальную угрозу для человечества, чем ядерное или биологическое оружие. Бывший президент Baidu (китайского технологического гиганта), а также председатель государственного экспертного комитета по управлению ИИ, согласны с ним
— в июне Xi отправил письмо в адрес Andrew Chi-Chih Yao, в котором положительно отзывался о его работах в области ИИ. В июле на съезде ком партии Xi «подавал чёткий сигнал, что очень внимательно прислушивается к предостережениям "думеров"» (так называют людей, разделяющих переживания о экзистенциальной угрозе ИИ)
— официальный отчёт по результатам того заседания впервые призывал к мониторингу AI safety на государственном уровне
— вслед за этим, государственный орган, финансирующий научные исследования, начал предлагать гранты лабораториям, изучающим способы AI Alignment. Министерство промышленности предписало исследователям тестировать модели на предмет угрозы для людей (по сути повторять работу, которую западные лаборатории, OpenAI и Anthropic, делают сами).
— Больше деталей о взглядах Xi можно найти в учебном пособии, подготовленном для партийных кадров, которое, как говорят, генсек редактировал лично. В пособии указано, что Китаю следует «отказаться от неконтролируемого роста, который достигается ценой жертвы безопасности». Поскольку ИИ будет определять «судьбу всего человечества», он всегда должен быть контролируемым. Документ призывает к тому, чтобы регулирование было упреждающим, а не реактивным.
===
Такие вот новости. Лично мне всегда казалось логичным, что компартия не хочет, чтобы вместо них правил AI со своими интересами, и они точно также заинтересованы в методах контроля/управления/понимания/безопасности. Что, конечно, не означает, что обе стороны не будут (иногда) срезать углы.