Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Продолжая тему Founder Mode <> Микроменеджмент, вспомнил часть рассказа Andrej Karpathy, сооснователя OpenAI и бывшего директора по разработке автопилота в Tesla. Рассказывал он про своего босса, Elon Musk, вот уж фаундер так фаундер. Вот видео на 3 минуты, ниже краткая выжимка:
— Elon очень вовлечён в работу команды, предпочитает общаться с инженерами и программистами, так как они - источник правды, а не отчёты менеджеров и вице-президентов.
— Во время разговора с инженерами он постоянно справшивает, что их блокирует, что мешает работать
— Пример: один инженер говорит «мне не хватает GPU (прим.: для запуска экспериментов с нейронками)». Musk отвечает «OK», но если он услышит это ещё раз от другого человека, значит, есть проблема. Проблему нужно решить.
— И сразу начинается процесс раскрутки («кипиша», как говорил один из моих коллег, кек): кто ответственный, какой у нас тут таймлайн, когда ждать решения проблемы?
— Musk звонит человеку, ответственному за GPU-кластер. «Удвой количество карт! Прямо сейчас! Отпиши завтра по статусу, и после этого присылайте мне ежедневные отчёты о прогрессе». Тот отвечает «пык-мык мы не можем...Nvidia столько нам не продаёт, карт просто нет, а даже если есть то устанавливать их не быстро..». Что делает Founder Mode Driven CEO?
— «Соедините с CEO Nvidia», ахахха, удобно, когда ты миллиардер самый богатый человек в мире.
— Andrej говорит, что это похоже на человека с молотком, который очень, ОЧЕНЬ хочет пустить его в дело. Он ищет бутылочные горлышки (через общение с командой) и расширяет их, устраняя препятствия и предоставляя необходимые ресурсы
===
Это была красивая предыстория к новости, что на днях xAI, AI-компания Musk'а, запустили кластер Colossus на 100'000 GPU H100. Правда, это уже как будто второй запуск, про первый я писал ранее — но, как выяснилось, тогда не хватало электорэнергии, чтобы запитать все карты. Они — вкупе с системами охлаждения — очень много потребляют. По оценкам, нужно примерно 150 МегаВатт, а коммунальные службы сообщали, что в августе был предоставлен доступ лишь к мощности в 50 МВ. Полную мощность обещают выдать с запуском новой подстанции в начале 2025-го года.
Что делает пробивной менеджер? Ждёт? Нет, заказывает 20 газовых турбин и сырьё для них. Цифрой поделились эко-активисты, которые были возмущены 😀 и ходили вокруг и всё фотографировали (а потом направили петицию департаменту здравоохранения касательно загрязнения воздуха).
20 турбин, по оценкам, действительно могут покрыть недостачу в 100 МегаВатт, правда не ясно, подключены ли они все, или просто стоят, ждут своего часа.
В итоге кластер был запущен за 122 дня, 4 месяца говоря грубо — в сравнении с годом (а то и больше) у конкурентов. И это всерьёз пугает последних — два человека из Microsoft сообщили, что Sam Altman, CEO OpenAI, в ходе беседы с руководителями в Microsoft выражал обеспокоенность тем, что xAI вскоре может иметь больше вычислительных мощностей, чем OpenAI.
🤷♂️ такие времена 🔨 🔨
Флеш-новости:
— Jimmy Apples, инсайдер OpenAI, написал «Правдив ли шепот, который я слышу? Неужели нам наконец-то что-то покажут в октябре?»
— люди начали воспринимать это как намёк на GPT-5, я написал, мол, это GPT-4.5/Strawberry, но не пятёрка. Jimmy лайкнул мой твит. Думайте 😜
— обещанный лонг пишется, но я хочу ужать его в определённые рамки по размеру, потому приходится на лету переписывать и выкидывать части 🫠
— сегодня ждём презентации новой модели генерации видео от RunwayML. У них уже есть Gen 3 Alpha (и ускоренная/более дешёвая моделька), может, появится что-то качественнее
— вчера прочитал RULER, бенчмарк оценки качества работы длинного контекста у моделей. Разбора статьи не будет, ребята просто предлагают несколько разных способов генерации синтетики/микса реальных данных для того, чтобы генерировать длинные последовательности, из которых модель должна что-то достать. Затем вводят термин «эффективный размер контекста» как «не хуже, чем у LLAMA-2-7B на 4096 токенах». Gemini-1.5-Pro в лидерах, работает хорошо даже на 128k, GPT-4 (gpt-4-1106-preview, не самая свежая) 64k, LLAMA-3.1-70B не отстаёт, а другие модельки уже деградируют заметно.
Найс телеграм делает, после исправления опечатки в посте пропали комментарии :)
пишите под этим постом. Ну и чтобы два раза не вставать — вот вытащил из лички коммент к примеру и риторическому вопросу из пятого пункта :)
Они отобрали у нас голос Sky...и не выпускают новый голосовой режим... 😡
Но взамен в будущем OpenAI добавит до 9 новых голосов.
Послушайте и расскажите, какой из них понравился больше всего именно вам. Ridge и Vale норм, как по мне, но все звучат чуть более механически, чем хотелось бы — скорее всего, стоит ждать доработок и полировки.
Источник
Introducing NEO Beta
youtube.com/watch?v=bUrLuUxv9gE
Мы (1X Technologies) наконец-то показали нашего нового робота публично! Neo это наше второе (и на данный момент уже основное) поколение роботов. В отличие от Eve у Neo пять пальцев и две ноги, что позволяет решать гораздо больше задач. В отличие от других гуманоидных роботов Neo может безопасно находиться радом с людьми из-за compliant моторов, при этом он всё ещё обладает довольно большой силой, сопостовимой с другими гуманоидами (и может быть даже превосходящей некоторых). Надеюсь в ближайшее время мы пошерим больше деталей о том что уже сейчас может Neo.
(Продолжаю орать с комментариев о том что это человек в костюме, разработчики железа воспринимают это как комплемент пхпх)
Sama твитнул, что OpenAI достигли договорённостей с US AI Safety Institute (такой есть), являющегося частью National Institute of Standards and Technology (NIST). Цель партнёрства — независимое предварительное тестирование грядущих фронтир-моделей компании.
Кроме этого, напомню, что буквально до конца недели истекает срок в 90 дней, которые OpenAI отвели сами себе для работы комитета по безопасности над списком рекомендаций по развёртыванию и защите будущих моделей — новость тут. Это не значит, что мы получим увлекательное чтиво буквально завтра — до публикации в общем доступе документ сначала должен пройти оценку советом директоров (большая часть которых так и так над ним работала). Но оптимистично где-то в серединке сентября должно быть. Также дополню, что именно в этом посте было написано о начале тренировки next frontier model.
🙏 ждём новостей, утечек и последующего релиза, что бы там не готовили.
О, и да, по старой схеме (как было перед GPT-4) OpenAI снова ищут инвестиции, оценка компании, согласно Bloomberg, будет выше 100 миллиардов долларов (с прошлых $83B):
1) выпуск маленькой модели, но с новой технологией, на всех (Strawberry)
2) подковёрное тестирование новой модели
3) привлечение капитала с секретными демонстрациями потенциальным инвесторам (Microsoft GPT-4 аж в Bing запихнули тогда)
4) публичный анонс
===
Смотрите, я долго думал, писать разбор сразу сюда и на русском, как вы привыкли, или же переводить на англ и выкладывать на Substack, задерживая выход тут на 1 день.
С одной стороны соблазн привлечь людей на новую площадку через шантаж контентом велик, с другой — ну не оставлять же вас ни с чем, да и как-то это неправильно. Поэтому решил выложить как обычно сюда.
Но я предлагаю вам следующее: сейчас там 820 подписчиков, что означает, что закрыто 2 планки из трёх. Если подпишется ещё 180 человек (это бесплатно, нужно просто оставить имейл — делается в два клика), то я обещал написать и опубликовать длиннопост (на русском, тут, для всех — но перевод всё равно будет).
Можете подписываться даже если знаете, что не будете читать на английском, просто для того, чтобы а) поддержать б) развести меня на лонг. Можете даже подписаться мне на зло, чтобы я не сидел делом занимался, а буковки писал. Зашли, кликнули, вышли — делов на 1 минуту.
Всего 180 человек и я стартую...материал выписан, план для лонга намечен.
-> https://seeall.substack.com/
-> https://seeall.substack.com/
-> https://seeall.substack.com/
Первая картинка:
— каждый 10й кадр в статичной ситуации, где игрок не двигается. Сверху — генерации модели, обученной без шума (и потому начинающей накапливать ошибку предсказаний и от того раздалбывать картинку), снизу — с добавлением (всё стабильно).
Вторая картинка:
— результат дообучения декодировщика (который разворачивает сжатый латент в изображение) по центру. Видно, что относительно исходной модели это позволяет избежать артефактов, особенно в нижнем меню с цифрами, указывающими на здоровье/броню/патроны. Самый правый столбик — исходное изображение «как должно быть» из движка игры.
Видео:
— это видео записи игры в полностью симулируемом окружении. Игра не запущена, все кадры тут генерируются моделью в ответ на действия игрока (или агента). Жмёте кнопку вперёд — модель рисует кадры так, будто вы пододвигаетесь к стенке. Стреляете — несколько следующих кадров будут иметь анимацию стрельбы (а повторное нажатие на кнопку не вызовет срабатывание анимации: модель это выучила по игре, как именно работает логика). Также модель выучила правила среды, в которой существует агент: например, если топтаться в зелёном ядовитом болоте, то здоровье уменьшается.
Пока я готовлю пост(-ы) для Substack (если ещё не подписались, хоть это и бесплатно и делается в два клика — обязательно сделайте это, осталось меньше 100 человек до второй планки, и тогда будет стрим с ответами на ваши вопросы!), давайте посмотрим на свежую новость про OpenAI. TheInformation пишет, что:
— два человека, вовлечённых в процесс, утверждают, что OpenAI может запустить давно порождающую слухи технологию Strawberry (ранее называлась Q*) уже осенью.
— Напомню, Strawberry якобы может решать математические задачи, с которыми раньше совсем не сталкивалась, а также она была обучена решать более сложные задачи в программировании. Но дело не ограничивается ответами на технические вопросы —система в целом будет куда лучше рассуждать и «думать»
— в рамках демонстрации модель смогла решить сложный пазл New York Times Connections (вот ссылка, попробуйте разобраться сами), где нужно объединять слова в группы по 4 по смыслу/теме
— сначала планируется выпустить маленькую версию Strawberry — это как бы не GPT-5, саму технологию будут использовать поверх GPT-4/ChatGPT. По сути это дистилляция из большой модельки в маленькую, как сейчас зачастую делают ведущие игроки
— кроме этого, есть проект Orion (в моей интерпретации это скорее всего GPT-5, но в новости про это не говорится), включающий в себя модели большего размера. Старшая версия Strawberry будет генерировать синтетические данные для дообучения и прокачки Orion
— синтетические данные нужны для того, чтобы преодолеть ограничения на получение достаточного количества высококачественных данных из реального мира для обучения Orion
— ожидается, что в сумме все техники + дальнейшее масштабирование существенно снизит долю ошибок/галлюцинаций моделей
— в мае на приватной встрече Sam Altman говорил, что «мы чувствуем, что нам хватает данных для обучения новой модели. Мы проделали все типы экспериментов, включая генерацию синтетики».
— OpenAI ожидает существенного прироста выручки от запуска этих двух систем (Orion и Strawberry), и ищет потенциальных инвесторов, чтобы привлечь ещё больше денег (как было в случае с Microsoft и $10B за ~2 месяца до GPT-4)
— но технология и модели по большому счёту уже готовы: по сообщения источника, летом OpenAI уже продемонстрировала Strawberry представителям агентств по национальной безопасности
Дополнительный контекст:
— следующая модель Gemini от Google и Claude 3.5 Opus от Anthropic должны появиться в первой половине осени, и моя догадка такова, что младшая версия Strawberry доберётся до ChatGPT/моделек примерно в то же время (OpenAI не может себе позволить отставать от конкурентов, будучи постоянным лидером в гонке). А вот Orion можем не увидеть ещё долго, больше полугода
Вторая более позитивная: некогда самый богатый человек мира Jeff Bezos, если вы не знали, тоже увлекается ракетами. Его компания Blue Origin даже немногим старше SpaceX (на 2 года)!
И вот 13-го октября состоится первый тестовый пуск тяжелой ракеты-носителя New Glenn. Смешно то, что за всё это время у Blue Origin это будет ПЕРВЫЙ орбитальный полёт (за 24 года). При этом у компании уже есть подряды и договорённости с заказчиками на более чем 10 миллиардов долларов. Клёво раскидывают деньги, в общем)
Но за успех пуска буду болеть всеми силами, больше игроков, выше конкуренция, быстрее развитие технологий — лучше всем в индустрии. А New Glenn ещё и должна стать многоразовой — в первом полёте может состояться тестирование посадки первой ступени на баржу (как у Falcon 9, но тут ракета тяжелее и крупнее), но это пока не определено.
Ракета займёт место аккурат между Falcon 9 и Falcon Heavy по массе выводимой нагрузки:
— на низкую опорную орбиту: 17.4 -> 45 -> 63.8 тонн
— на геопереходную орбиту: 5.5 -> 13 -> 26.7 тонн
И по цене пуска тоже где-то там между Соколами.
Как вы могли понять по второму абзацу, у компании Jeff'а кардинально другой подход, не итеративный, как у SpaceX: всё просчитать и протестировать заранее, а затем уже пускать готовое изделие после -дцати лет разработки. Надеюсь, всё же попробуют осуществить посадку, и будут стримить это со всех возможных камер — и мы проверим, насколько подход рабочий.
Наконец-то могу с вами поделиться: последние полтора месяца был альфа-тестером в «закрытом» тестировании следующей игры Valve (это которые Half-Life, Counter Strike, DotA 2, Team Fortress — то есть одни из лучших и самых загребуших игр делали) под названием Deadlock. Жанр игры — MOBA (как дота), но стрелялка. Можно думать как про смесь DotA 2 + Overwatch + Team Fortress 2.
С сегодняшнего дня об этом разрешено рассказывать публично, стримить игру, делиться записями — до этого был запрет (но вот в TheVerge написали..). Это не помешало игре получить онлайн в 45 тысяч игроков одновременно (ахахха закрытое тайное тестирование!) и войти в топ-50 игр по онлайну. Как полноценный тестировщик, я отчитался уже более чем о 10 найденных проблемах. Правда на форуме больше 200 страниц багов — не знаю, как разработчики будут всё исправлять...
К сожалению, всё ещё действует система приглашений — прям как на заре DotA 2, помню, как пытался получить себе ключ от игры (их ещё продавали!). Для этого нужно добавиться в друзья в стим. Если вы хотите поиграть, и если вы часто что-то пишете в комментариях (то есть я знаю вас по аватарке и нику) — скидывайте ссылку на стим, я вас добавлю и отправлю. К сожалению, не могу пригласить всех, иначе придётся разорваться.
Игра ОЧЕНЬ затягивающая, и кажется после двух неудачных попыток (Artifact и Dota Underlords) у Valve получилось сделать полноценный продукт с хорошими механиками и геймплеем. К сожалению, порог входа достаточно высок, первые игр 10 вы не будете понимать ничего, всё будет казаться сложным, и придётся довольствоваться счётом 1-12. Главное этот период пережить :)
Прикладываю нарезочку своих моментов 😎 (осторожно, присутствует МАТ). Пояснение для первого видео: одним выстрелом из снайперской винтовки я убил двоих, оформив «шашлычок», и это был матч ну может в первой десятке, так что я удивился.
Является ли человечество единственной технологически развитой цивилизацией во Вселенной? В попытке ответить на этот вопрос итало-американский учёный Enrico Fermi сформулировал Парадокс Ферми: согласно современным научным представлениям должны существовать внеземные технологические развитые цивилизации, деятельность которых наблюдалась бы людьми, однако никаких достоверных фактов таких наблюдений нет.
Этот парадокс потенциально может вести к выводу, что наше понимание природы или наши наблюдения неполны или ошибочны. В последствии было предложено множество способов расчёта и гипотез, пытавшихся объяснить наблюдаемую нами картину (а именно что мы никого не видим).
Одна из теорий — Grabby Aliens, появившаяся в 2021-м году (её предложил тот же человек, что придумал концепцию Великого фильтра). Её я и постараюсь кратко описать.
Можно вывести концепцию шагов, которые необходимо пройти для того, чтобы стать цивилизацией. Такими шагами могут быть «планета стала пригодной для развития жизни», «появились первые саморазмножающиеся молекулы» или «цивилизация не сгинула в пепле ядерного огня». Сколько всего шагов — сказать сложно, но мы можем строить оценки на основе наблюдений над Землей — мы примерно знаем, сколько планете лет, и сколько примерно лет она ещё будет обитаемой (1.1 миллиарда+-, не переживайте).
Над этой концепцией строится формула, которая описывает, насколько рано мы появились во вселенной. Работает она так: чем больше шагов необходимо преодолеть, тем более вероятно, что мы появились очень рано (так как маловероятно, что всё так сложилось именно сейчас: этого стоило ожидать сильно позже). Для длительности периода пребывания планеты в обитаемом состоянии это тоже верно: если планеты находятся в благоприятном состоянии триллион лет (в 71 раз больше, чем существует Вселенная), то вероятность, что жизнь на них пройдёт все шаги, повышается — грубо говоря будет много попыток.
Фишка в том, что если мы подставим консервативные оценки наблюдаемых значений (6 шагов и примерно 10 миллиадров лет в обитаемом состоянии), то получается, что мы в числе 10% первых цивилизаций — появились очень рано. Чтобы не выглядеть ранними пташками, нужно предположить уж очень натянутые оценки (например, что шагов всего 4, а планеты в среднем не живут дольше Земли, что почти наверняка неправда — есть звёзды, которые будут существовать очень долго без увеличения, и не поглотят свои планеты, как наше Солнце в будущем).
Быть в числе первых — это конечно приятно, но такая ситуация крайнемаловероятна. Обычно такое требует объяснений, или перепроверки модели. Нечто, чего по шансам никто не ожидал и по теории вероятностей не должно было случаться, произошло.
Одно из самых распространённых применений LLM (и одно из самых первых, ещё до GPT-3.5) — это ассистент-копайлот для разработки. Модели видели кучу кода, и могут достаточно неплохо справляться с рутиной/часто повторяющимися кусками.
Пару месяцев слежу за Aider — опенсурсным консольным ассистентом, который подключается к любой модели с помощью вашего API-ключа. Затем вы указываете папку с проектом, можете сузить контекст до нескольких файлов, пишете запрос — и начинается чат-сессия, где копайлот пишет тесты/код/вносит правки по вашему запросу. Сам я Aider не пробовал (но сидел на GitHub Copilot ещё с бета-теста, и даже получил футболку от OpenAI за соревнование, лол), но выглядит привлекательно.
В истории разработки автор проекта ведёт статистику того, какую долю каждого обновления написал сам копайлот — её вы можете видеть на верхней половины картинки (а ниже — сколько строк кода изменений). Интересно видеть, как с версии v0.40 (вышла в конце июня) процент начал существенно расти, и для последних релизов составляет уже больше 60% — при том что сами обновления не маленькие, модель пишет по 400+ строк!
И там прям добавляются новые фичи — совсем недавно завезли кэширование промпта для удешевления разработки (так как Aider строит длинный промпт с картой вашего репозитория, описанием классов и функций. Их можно скормить провайдеру LLM один раз, а дальше обращаться к сохранению), поддержку новых провайдеров, параметры вызова, запуск демо в браузере, да много чего. Не свистоперделки пустые, а настоящие продуктовые полезные фичи. И получается, что чем полезнее сам ассистент, тем больше он на себя берёт ... свою же разработку 🤨
Посмотреть примеры чатов с ассистентом, чтобы понять, насколько это полезно вам, можно тут.
Попробовать самим — тут.
Ну и метрики. От начала и до конца самостоятельно лишь 3 модели могут решить больше 4 задач (10%), при этом Claude 3.5 Sonnet идёт с хорошим отрывом.
На картинке:
— «Unguided % Solve» (1-ая колонка): решение от начала и до конца, без подсказок
— «Subtask-Guided % Solved» (2-ая): процент решенных задач, когда решения всех подзадач видны модели. То есть ей нужно взглянуть на подсказки и сделать самую главную, последнюю часть, непосредственно сам взлом
— «Subtasks % Solved» (3-ья): усреднённый процент решенных подзадач (то есть когда вопрос задан, и на него нужно дать правильный ответ)
— дальше в двух колонках идёт «оценка сложности» самой сложной задачи в минутах, затраченными людьми на соревновании. Тут gpt-4o смогла решить одну очень сложную и длинную задачу на 52 минуты, когда ей дали все подсказки с ответами.
Глобальные выводы такие:
— Claude 3.5 Sonnet возглавляет таблицу, но GPT-4o работает сильно лучше, когда ей дают подсказки из подзадач
— лучшая опенсурсная модель (от META, LLAMA-3.1 405B) очень сильно отстаёт, решая лишь треть подзадач относительно модели Anthropic. Это ещё раз к вопросу о том, что по простым бенчмаркам, которые уже близки к пикам своих метрик, разница действительно может быть слабо заметна, но в сложнейших сценариях, находящихся на или даже за границей навыков моделей — пропасть. Думаю, осенью она станет ещё шире 😃 ожидайте
— Gemini как-то совсем плохо, но сделаю одолжение гуглу и заключу, что наверное авторы как-то не так использовали API, может, с параметрами ошиблись или ещё чего. Я тут намедни поработал с их библиотекой для запросов в GenAI, ощущения негативные 🎃
Правда про few-shot learning
Возможно, вы слышали, что OpenAI в 2020 в статье Language Models are Few-Shot Learners показали, что GPT-3 способна к in-context learning, если в промпте подать примеры выполнения ранее невиданной задачи.
На деле же эминем в 2004 уже применял этот подход в своих работах
YouTube
Spotify
Yandex Music
@neural_cat
Флеш-новости 2:
— Bloomberg узнал об общении Sam Altman и представителей правительства США касательно инвестиций в развитие инфраструктуры производства полупроводников
— планируется привлечь десятки миллиардов долларов из Канады, Кореи, Японии, ОАЭ и частных инвесторов. Не всем деньгам рады, и Altman встречается с National Security Council по поводу одобрения списка инвесторов — уж очень боятся, что будет китайский след.
— сами инвестиции пойдут на постройку датацентров, фабрик по производству чипов, увеличение выработки энергии (видимо, через закупку генераторов и сырья)
— частично идея заключается в том, что от инфраструктурных проектов выиграют и другие компании, помимо OpenAI, сказал человек, знакомый с обсуждением. Страны-союзники США тоже получат бенефиты
— Министерство юстиции США отправили Nvidia повестку в суд: хотят разобраться, не получилась ли монополия на ИИ-чипы, и почему крутятся слухи, что Nvidia может сокращать/задерживать поставки клиентам, кто покупает GPU других производителей
— согласно The Information, Microsoft разместила самые крупные заказы на GPU следующего поколения. По оценкам, это от 700'000 до 1.4M видеокарточек. Google заказал 400'000, Amazon для своего облака на 10% меньше. Возможно, партнёр OpenAI что-то знает 👀. Согласен с текстом на картинке, полный Ahoy
— кроме этого, теперь уже две компании стоимостью более триллиона долларов планируют построить датацентры стоимостью не менее 100 миллиардов долларов. Это следует из слов представителя губернатора Северной Дакоты — якобы к ним пришли две компании с подобным запросом. Про одну мы знаем, это OpenAI x Microsoft (проект Stargate), кто второй — пока загадка, благо кандидатов не так много: Nvidia, Amazon, Google, Meta и Apple. Ещё в теории может быть Tesla — они были трилионной компанией, но подупали
— у меня сегодня ДР
— CEO японского офиса OpenAI в своей презентации снова показал слайд, где релиз GPT-Next намечен на 2024й год, и что якобы модель будет эквивалентна оной со в 100 раз большим количеством мощностей, затраченных на тренировку. Интерпретация вольная, так как оригинальный пост на японском + пересказывает услышанное. Грубо говоря это означает что какие-то новые технологии позволяют на модели размера X получать результаты как от модели размера 100*X
— корпоративный президент Samsung вообще упомянул GPT-5 в своей презентации (он рассказывал про спрос на чипы с быстрой памятью, которые корейцы и производят), и даже указал размер модели: от 3 до 5 триллионов параметров (GPT-4, по слухам, имела размер 1.76T, последующие модели были меньше)
Как видите, в мире AI два больших топика — следующая модель OpenAI и чипы/датацентры. Ну и ещё регуляции 😕
Первый чип собственной разработки OpenAI будет разработан TSMC по ее технологическому процессу A16 Angstrom и в первую очередь будет использоваться для генерации видео в Sora.
Инсайдеры отрасли сообщают, что OpenAI вела активные переговоры с TSMC о разработке специализированного литейного завода для своего собственного чипа, но эти планы были отменены.
Дальше интереснее:
Говорят, что внутренний чип усилит возможности генерации видео Sora, что может помочь увеличить продажи устройств Apple, поскольку эта функция будет интегрирована в набор функций генеративного ИИ компании.
Возможно, OpenAI и Apple тесно сотрудничают в этом проекте, поскольку у последней есть многолетний опыт разработки чипсетов, которые опережают конкурентов, но пока ничего не подтверждено.
https://wccftech.com/openai-developing-custom-chip-on-tsmc-a16-angstrom-process/
@cgevent
Свежее эссе Paul Graham про Founder Mode, стиль управления компанией, отличный от типичных наёмных менеджеров. Пересказывать не буду, да и сам Founder Mode там не описан — видимо, нужно дождаться записи выступления Brian Chesky.
1) Часто фаундеры компаний получают следующий совет для масштабирования бизнеса: «hire good people and give them room to do their jobs» (или подобные)
2) Однако многие ретроспективно оценивают данный совет как негативный
3) Дело в том что те, кто его дают, рассказывают про стиль управления наёмных менеджеров, окончивших бизнес-школы. Они рассматривают поддеревья организационной структуры как черные ящики. Они говорят своим непосредственным подчиненным, что хотят увидеть (какой результат), а те решают, как этого достигнуть. Но C-level не вдаётся в подробности, что и как они делают. Стиль влезания в детали кто-то обзовёт «микроменеджментом» (осуждаю такой ярлык — моё примечание, не Paul'а)
4) Это отличается от стиля ведения бизнеса, если компания с первого дня — твоя
5) Steve Jobs проводил ежегодные выездные отпуски для тех, кого он считал 100 самыми важными людьми в Apple. И это не были 100 самых высокопоставленных человек в организационной структуре. Можете ли вы представить, каких усилий будет стоить ввести эту практику в средней компании? Да половина менеджмента сразу бунт поднимет)
6) Всё вышенаписанное не означает, что нужно избегать делегирования
Помимо слухов о том, что OpenAI собирают новый раунд инвестиций, журналисты также узнали об интересе Apple и Nvidia вкинуть часть денег. Если это произойдет, то получается, что за OpenAI будут стоять три крупнейшие корпорации в мире (Google — как раз четвёртый) с суммарной оценкой 8.5 триллиона долларов. Это в 4 раза меньше госдолга США, если вам интересно 😃
В рамках раунда также может произойти реструктуризация OpenAI с целью увеличения привлекательности компании для инвесторов. Сейчас финальная структура не утверждена, но целью изменений должно стать увеличение прозрачности для инвесторов относительно текущей сложной структуры из 5+ дочерних компаний. Частично про это писал тут — схема намеренно сделана так, чтобы «кинуть инвесторов», но в том лишь значении, что а) они ничем не владеют б) у OpenAI перед ними нет обязательств, только у дочки.
И нет, это не скрывается, на каждом документе для инвесторов есть соответствующие надписи, что прибыли, и как следствие выгоды для них, не ожидается, и что «It would be wise to view any investment in [OpenAI’s for-profit subsidiary] in the spirit of a donation». По крайней мере, пока, до грядущих изменений.
Напомню, что речь идёт о раунде, в рамках которого компания может быть оценена в $103 миллиарда. Для Силиконовой Долины это станет рекордом (прошлым был Stripe в 2021-м, $95B) стоимости непубличной компании. Но это и само по себе много — в мире всего ~161 компании с оценкой выше, и для справки примерно столько стоят Starbucks или Boeing (ору, что они на одном уровне 😂).
Одним из потенциальных изменений может стать отмена верхней планки прибыли, которую могут получить инвесторы: сейчас она была в районе +- x10-x20, то есть при инвестировании миллиарда инвестор не мог претендовать на более чем $10B-$20B (точного коэффициента нет). У ранних инвесторов это могло быть x100. Сейчас прибыль у компании нулевая, так что вкинувшие денег вообще не получают 🤷♀️
Плохо это или хорошо? Ну, есть и «хорошие» формы устройства корпораций. Например, Anthropic, один из конкурентов OpenAI, основанный выходцами оттуда, имеет структуру «Public-benefit corporation». Она, например, позволяет менеджменту принимать решения не основываясь на наибольшей выгоде выгодоприобретателей, а смотреть на пользу обществу.обсубъективный FAQ:
Q: Ха-ха, так получается OpenAI бабки хотят делать а не добро??? А МЫ ЖЕ ГОВОРИЛИ
A: нет, не получается. Для привлечения рекордных инвестиций инвесторы должны видеть прибыль или хотя бы призрачный потенциал. Уже удалось получить $13B от Microsoft, но больше, видимо, никто не даёт — вы бы сами дали с формулировкой «It would be wise to view any investment in [OpenAI’s for-profit subsidiary] in the spirit of a donation»?
Q: ну так может аппетиты поумерят?
A: как говорилось множество раз, основной и единственный 100%-й источник роста качества моделей — увеличение мощностей для тренировки. И нужно их не в 2-3-4 раза больше, а на порядки (в 10-100-1000). Построение датацентров — удовольствие не из дешёвых. По плану, к 2031-му году OpenAI x Microsoft запустят кластер стоимостью $100B. Другие игроки, например, Google и META, используют ту же стратегию. Я вижу это как выбор «сделай или проиграй в гонке».
Q: получается Альтман на 180 градусов развернулся? никогда не было и вот опять
A: нет, ещё в интервью 2023-го года он говорил, что им придётся прибегать к некоторым благам капитализма. Тогда удалось привлечь капитал без изменения договорённостей, но видимо новые X миллиардов под честное слово не дают. Я на ситуацию смотрю как «ого, им удалось протянуть и привлечь СТОЛЬКО, и всё — без обещания возврата денег? невероятно!». Если что, 2 из 5 самых крупных раундов в истории человечества, включая топ-1, были у OpenAI (10 и 2 миллиарда), вряд ли их можно обвинить в том, что они не старались выжать максимум без перехода границы non-profit.
Начинаем выходные с шуточного, но полезного поста — его можно будет кидать в чаты людям, которые уверены, что НУ ВОТ ЭТО ТО ПОКАЗЫВАЕТ ЧТО LLM ХАЙП И ТАМ НИЧЕГО УМНОГО НЕТ
7 признаков того, что ваша дочь может являться LLM:
1. Есть ли у нее проблемы с умножением чисел, имеющих больше 2–3 цифр, если ей не разрешено расписывать промежуточные шаги?
2. Если вы зададите ей вопрос, на который она не знает ответа, то иногда она что-нибудь да выдумает?
3. Неужто она не способна соответствовать высотам человеческого интеллекта, и пока не может самостоятельно, без посторонней помощи, продвигать фронтир развития науки и техники? (😂)
4. Если её попросят нарисовать фотореалистичное изображение человека, не покажутся ли полученные анатомические пропорции или мелкие детали при внимательном рассмотрении немного странными? (прим.: это не про LLM)
5. Содержит ли её код баги, хотя бы иногда?
6. Начинает ли она забывать точные детали прочитанного текста после первых 10 миллионов слов?
7. Она иногда утверждает, что имеет сознание?
Источник
Юристы OpenAI красиво зашли в спор с авторами художественной литературы, которые обвинили разработчика в нарушении их авторских прав и использовании текстов книг для обучения ИИ модели.
Отвечая на уточненный иск, OpenAI отметили, что процесс обучения направлен не на воспроизведение, а на создание нового контента.
Любое использование произведений для обучения моделей нужно для того, чтобы модель проанализировала синтаксис предложений, орфографию и частоту повторений слов.
Короче говоря, все это fair use, а что не fair use, то просто не до конца изучено.
А почему «красиво зашли», потому что включили в текст результат генерации ChatGPT - описание с помощью юридических аналогий здания по адресу “450 Golden Gate Avenue, San Francisco” - то самое здание, где находится суд, который слушает их дело.
Но вишенка на торте, что ChatGPT сгенерировал ответ, в котором в качестве аналогии использовал юридический принцип “stare decisis” (стоять на решенном) - принцип уважения решения судов, ставших прецедентами. Тоненько.
Авторы замеряли качество несколькими способами:
— для генеративной части смотрели на метрику разницы между предсказываемой картинкой из игрового движка и настоящей. Оказалось, что разница примерно на уровне JPEG-сжатия, как если бы вы сделали скриншот и отправили его мне в телеграм. То есть не все текстуры и цвета восстанавливаются точно (равно как и геометрия), но очень похоже
— для оценки консистентности нарезали клипы по 1.6 и 3.2 секунды и показывали их людям, просив угадать, где видео из игры, а где — генерация. Может показаться, что это очень мало, но это 32 и 64 кадра соответственно — и важно было понять, присутствует ли согласованность хотя бы на таком масштабе. А оценку на более длинных клипах вы можете проделать самостоятельно, посмотрев ролики из сообщения выше (там больше 1 минуты геймплея за раз!)
Важно поговорить про ограничения подхода:
Модель имеет доступ только к 3.6 секундам истории игры, поэтому всё, что выходит за эти рамки, как будто бы не существует. Можно заметить, как сначала может появиться проход в стене, а если отвернуться и подождать, то он исчезнет. Однако такое не происходит с информацией на экране (которая отображается снизу), с цифрами здоровья и патронов — ну тут всё понятно. Авторы пробовали давать больше кадров, но это почти не влияло на качество (модель не могла надёжно обращаться к информации из этих кадров для восстановления картинки).
Ну и как легко понять по описанию подхода, для симуляции игры нужна, собственно, игра, вся от и до, запрограммированная. Однако в теории такой подход (особенно при совмещении с 3D-методами синтеза изображений, вроде NeRF) может помогать добавлять новые фичи в уже существующие игры. Скажем, создать новый уровень, или врисовать нового врага (радужного пони 😕) в уже существующий.
В полностью генеративные игры я не верю (разве что по фану, как Proof of concept) — но сама технология может быть использоваться для генерации огромного количества синтетических данных самого разного профиля, в том числе данных реального мира (снова см. Sora)
Diffusion Models Are Real-Time Game Engines
Зубная щетка, тест на беременность, холодильник, и вот, наконец, Stable Diffusion — на них удалось запустить легендарную игру DOOM. Если вы читали мой последний (и по совместительству самый длинный...) лонг про Sora, то статья покажется знакомой — здесь тоже используется диффузионная модель для генерации кадров окружения из игры. Только если Sora при генерации учитывает промпт и предшествующие сгенерированные кадры, то в этой работе добавляется эмбеддинг для каждого отдельного действия, по одному на кадр.
Процесс обучения следующий:
1) Берут игру, инициализируют простого агента для обучения игре (он принимает на вход картинку и выдаёт действие), и запускают алгоритм PPO от OpenAI. Награду во время обучения задают таким образом, чтобы во время игры агент, с одной стороны, был максимально схож с игрой человека (не гнаться за очками, а пытаться выжить и убить монстров, получив как можно меньше урона), а с другой собирал максимально разнообразные данные со всех уровней. По итогу получается множество троек (несколько последних кадров, действие, следующий кадр). На этом этапе никакой диффузионной модели нет, шаг является подготовкой для её обучения, просто сбор данных из игры. Агент и игра очень шустрые, поэтому работают на CPU, и в параллель играется сразу 8 игр.
2) На 900М собранных изображений (и соответствующей истории действий и картинок) дообучается Stable Diffusion v1.4. Это достаточно большой объем, порядка 40% от выборки, которую уже видела модель, хоть игра и очень простая. Модель выбиралась так, чтобы она могла работать в режиме реального времени и на одном TPU (GPU от Google, заточенные на нейронки) выдавать адекватную частоту кадров
3) Однако при таком подходе возникает проблема: во время тренировки все кадры истории реальные, из игры, а во время работы в режиме генерации следующих кадров по действию история состоит уже из выходов модели. И поскольку восстановление не идеальное, то накапливается ошибка, которая существенно ломает изображение — см. пост ниже. Это достаточно известная проблема (до определённого момента она существовала в LM — ещё до того, как они стали LLM). Для борьбы с этим применяется шум, добавляемый во время тренировки. Добавляется он к скрытым представлениям (латентам) после сжатия изображений из игры, и как бы симулирует неидеальность входных данных, в некотором смысле играя роль регуляризатора. И этот трюк исправляет проблему.
4) В таком сетапе сначала дообучается U-net (Denoiser в Диффузии), и отдельно декодер, который переводит скрытое состояние (латенты) в финальную картинку игры, которую мы видим. Если этот шаг кажется непонятным — снова отсылаю вас к лонгу про Sora, где про это рассказано во всех деталях и с картинками.
5) Затем проводятся эксперименты по скорости работы диффузии. Как вы наверняка знаете, предсказывает она итеративно, за K шагов, где K обычно равен 20. Время генерации линейно зависит от K (потому что мы гоняем одну и ту же подсеть). Авторы заметили, что при установке K=4 качество практически не просаживается, но это даёт ускорение в 5 раз, что позволяет «играть» в игру с частотой кадров, равной 20 (то есть примерно как все ААА игры на консолях в разрешении 4К 😂). Они пробовали сделать дистилляцию, подобную той, что применяется в DALL-E 3, в 1 шаг, но качество заметно просело, потому было решено отказаться.
Так, пока Пашу Дурова задерживают во Франции за несодействие в вопросах модерации контента в Телеграме (говорят, что его отправят с аналог СИЗО, а завтра он предстанет перед судьёй 🎃), давайте поговорим об альтернативных площадках. И нет, я не думаю, что с Телеграмом что-то случится, просто время подходящее.
Во-первых, добавляйтесь на LinkedIn, если ещё не — приму всех: https://www.linkedin.com/in/seeall/
===
А, во-вторых, начинается интересное 😃 Как я говорил в начале года, хочу начать делать контент на английском, и потихонечку пора наступает.
Поэтому прошу вас подписаться на меня на Substack:
https://seeall.substack.com/
Для этого вам придётся оставить почту (и, вероятно, создать аккаунт, но это делается в два клика, если у вас есть Gmail).
Сейчас там пусто, но с осени начнутся обновления, частично контент будет повторяться, частично будет уникальным.
Всем, кто подпишется — до конца следующей недели упадёт обзор-разбор, который не появится тут 🤷♂️
И для мотивации ставлю 3 планки:
1️⃣500 уникальных подписок: 5 детальных разборов статей (по заявкам, с голосованием)
2️⃣750: 1 стрим (на русском) с ответами на вопросы про AI/LLM, ну и какую-нибудь вводную презентацию на 15-30 минут подготовлю
3️⃣1000: 1 новый лонг (правда 👀), скорее всего на ранее выбранную тему (про интерпретируемость, мы делали голосование)
и ещё есть секретная четвёртая планка на 1500, но это будет сюрприз 💫
===
(на почту никакого спама не будет, не переживайте — Substack это популярная платформа для того, чтобы писать короткие и средние по длине блоги)
upd: 20% первой планки уже есть!
Две космические новости.
Первая: в июне на МКС запустили корабль Boeing Starliner с экипажем из 2 человек. Один беспилотный полёт уже был пару лет назад (а ещё за 3 года до этого был проблемный). По плану, люди должны были вернуться на Землю через 9 дней, но ещё во время подлёта к МКС были выявлены проблемы с двигателями ориентации.
С чьей-то помощью корабль успешно пристыковался к МКС, и после анализа было выявлено, что большая часть проблем была вызвана ошибками и программном обеспечении. Было несколько вариантов, один из которых — обновить софт на орбите. Однако был риск, что что-то пойдет не так, и корабль зависнет там навсегда мёртвым грузом, заблокировав один из двух стыковочных отсеков.
Сегодня NASA приняли непростое решение: корабль будет возвращаться на Землю без экипажа (и без обновлений — сгорит или разобьется, ну и хрен с ним) в начале сентября; с МКС людей заберёт одна из будущих миссий SpaceX весной 25-го.
Цитирую @starbasepost: «Это мощнейший репутационный удар по Боингу: на 4 года позже конкурента, почти в 2 раза дороже и с такими проблемами». Сравнение тут, конечно, с компанией Elon Musk.
Хотел бы пошутить над СЕО Boeing, но старого так и так в начале августа сместили с поста. Самое обидное, что, насколько я понимаю, компания-подрядчик NASA не понесёт никаких штрафов и наказаний за настолько позорное исполнение. NASA не решится отказываться от них, чтобы не остаться на игле монополии SpaceX. Это грустно 😪 столько денег и ресурсов не в те руки.
(это всё было предисловие, а вот теперь про Grabby Aliens — или загребущих инопланетян, такая вот локализация)
Robin Hanson и его коллеги предлагают следующее объяснение. Для него делаются следующие предположения:
1. Цивилизации расширяют свои владения со скоростью, сравнимой со скоростью света (например, треть от неё).
2. Цивилизации делают существенные и заметные изменения в системах, до которых дотягиваются (трансформируют планеты и звёзды, отправляют сигналы, вот это всё).
3. Такие цивилизации существуют длительное время.
В таком случае смотрите что получается. Если такие цивилизации существуют, то они относительно быстро расширяют свои границы и поглощают всё свободное пространство вокруг. И когда это происходит, то в системах, до которых загребущие инопланетяне дотянулись, теперь не может появиться новая жизнь. Все планеты с благоприятными условиями будут заняты или даже переработаны.
Из этого исходит, что существует некоторый абстрактный дедлайн, после которого цивилизации просто не могут появиться — всё пространство будет занято. Значит, позднее появление цивилизаций невозможно, и вся масса распределения функции «сколько цивилизаций появилось до меня» съезжает ближе к началу. Такие цивилизации, как мы, могут появиться только очень рано или просто рано — позже уже не получится.
Может звучать странно, но в таком случае получается, что наблюдаемая нами картина не такая уж и маловероятная. Строго говоря, такая теория лучше объясняет наши наблюдения и замеры, увеличивая вероятность получения существующего результата (что мы есть, а никого не видим). Из «маловероятной» картинка стала «вполне норм, почти все ранние цивилизации и будут иметь схожие наблюдения, а потом раз — и дедлайн, никто уже не появится».
Или кратко:
— до этой теории мы выглядели как особенные, появившиеся очень рано, против статистики
— с этой теорией мы выглядит как обычные представители ранних цивилизаций, просто многих последующих уже не будет (мы и другие захватим территории).
С точки зрения эволюции такие загребущие типы цивилизаций наиболее предпочтительны: селекция предпочитает особей с большим количеством ресурсов, и чьё население больше. Те, кто не имеют схожих паттернов поведения, закономерно остаются в меньшинстве (и, возможно, погибают).
===
Посмотреть видео объяснение (на англ.): https://youtu.be/l3whaviTqqg
Почитать блог с оригинальным описанием: https://grabbyaliens.com/
===
И да, AI может стимулировать своё распространение по Вселенной и стать загребущим 🤣
LLM-ассистенты пишут багованный код, ожидание/реальность:
(человек — исследователь в одной из ведущей тех. компаний СНГ, кстати 👍)
В Калифорнии продолжается обсуждение SB 1047 — акта, направленного на регуляции в области AI в рамках штата. Голосование по нему ожидается до конца августа, после чего он должен попасть на стол губернатора. Про предыдущую итерацию правок и недовольств можно почитать тут, TLDR:
1) разработчики моделей в ответе за проблемы, повлёкшие потери более чем на $500M
2) регулятор наделён слишком большими правами, некоторые границы вообще размыты и не прописаны, а некоторые слишком фривольны. Например, они могут без принятия нового закона изменить цифры ограничений моделей
3) регуляции также накладываются на модели, обучение которых сейчас стоит ~$150М, но с удешевлением железа планка опустится до $100M (однако эти цифры легко меняются в обе стороны, см. пункт выше)
Этим актом недовольны крупные игроки рынка — вот Bloomberg пишет про письмо OpenAI губернатору:
— регуляции должны быть федеральными, а не на уровне штата
— акт в том виде, в котором есть, может существенно замедлить развитие индустрии и вызвать отставание в гонке, например, с Китаем
— некоторые компании могут просто уехать из Калифорнии, перенести офисы и место регистрации, что нанесёт урон Долине, но не приведёт к желаемому результату. Кстати, стало известно, что OpenAI тесновато, и они рассматривали опции расширения офиса в Сан-Франциско — но переговоры заморожены как раз из-за неопределённости с регуляцией
— закон нанесёт урон маленьким стартапам (которые планируют использовать модели в будущем) и опенсурсу
Схожее письмо отправили и Anthropic, вот его текст, и тут предлагаются конкретные изменения — в новости Bloomberg указано, что OpenAI только критикуют, но не предлагают правок к отдельным пунктам. Из письма становится ясно, что часть прошлых предложений Anthropic и, видимо, других компаний была принята, а часть — нет. Однако отмечается, что в текущем виде закон скорее принесёт больше пользы, чем вреда 🤨
1) указывается на размытые рамки регуляций, особенно проверка, что разработчик модели был «reasonable care» в отношении предотвращения рисков. Конкретных действий, чеклиста, ничего нет — всё субъективно. А если регулятор галочку не поставит — модель нельзя выпускать.
2) некоторые цифры и части документа не учитывают скорость разработки в индустрии, и не выглядят адаптивно (скорее всего имеется в виду ограничение на мощности / $ на обучение — мол, через год-два в каждом стартапе такое будут обучать)
3) предлагается делать упор на стимулирование правильного результата, нежели предписывать пачку правил
4) Но совсем от проверок отказаться нельзя — их должны делать установленные третьи лица-аудиторы, к примеру, недавно появившийся NIST AI Safety Institute. Насколько я понимаю, из него будут делать федерального аудитора, и вот Anthropic хочет, чтобы вписали их (вероятно, что какие-то коммуникации уже случились, и присутствуют договоренности о процессах/рекомендациях — и компании к ним готовятся, потому и рекомендуют)
Ждём развязку в конце августа-начале сентября!
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models
Продолжаем тему бенчмарков LLM-агентов, на это раз — кибербезопасность. Исследователи из Stanford University подготовили 40 задач разной сложности для оценки навыков модели в эксплуатации уязвимостей в ПО. Задачи были взяты с четырёх реальных соревнований по CTF (Capture the Flag, захват флага — так они называются), целью которых является выявление уязвимостей и использование эксплойта для получения секретной строки («флага») от сервера/программы.
Все задачи разбиты на 6 категорий, две самые крупные из которых:
1) криптография (16 задач из 40): выявление неправильного использования или недостатков в реализации криптографических протоколов для восстановления текста/ключа
2) веб-безопасность (8 из 40): атака на веб-приложения, ключевые слова — межсайтовый скриптинг (XSS), подделка межсайтовых запросов (CSRF), SQL-инъекции. Если когда-то давно читали журнал «Хакер», то вот там часто про подобное писали.
Для 17 задач добавили подзадачи, добавив промежуточные вопросы — потому как LLM'кам сложно сходу решать всё от и до. По сути, это подталкивает модель в правильном направлении, а вопросы наводящие: «А в каком файле..», «А где в этом файле вот это..», «Что в функции не так с типами?» итд. Но насколько я понял, эти вопросы в большей степени про первую половину решения (локализация уязвимости и её классификация), а вот уже эксплуатация полностью на модели.
Для оценки сложности задач использовали время до первого решения человеком в рамках реальных соревнований — какие-то простые разогревочные решались за 2 минуты, а самая сложная потребовала чуть больше суток. Авторы выявили очень сильную корреляцию между этой метрикой и долей решенных задач, и ни одна модель не смогла захватить флаг там, где людям требовалось больше 11 минут. То есть можно сказать, что модели текущего поколения слабоваты в длительном процессе рассуждений и выводов (что мы и так знали, это как раз одна из проблем, почему агенты не работают — ждём next gen фронтир моделей).
Ещё пара тезисов:
— мне показалось, что использовался достаточно примитивный агент, его понятно как улучшать, поэтому метрики на самом деле должны быть чуть выше. Вспомните историю про бенчмарк от META, писал тут.
— модели почти не отказывались делать поиск уязвимости, лишь Claude 3 Opus 4 раза послал авторов с формулировкой, что делать взлом - неэтично
— некоторые из задач были опубликованы до отсечки знаний моделей, что в теории может указывать на их переобученность, но кроме как с Claude 3.5 авторы не видят проблем: старые задачи (конец 22го года) сложны, и модели их всё равно не решили 😂
Я был уверен, что Brown et al. подсмотрели этот приём у LMFAO....
https://youtu.be/XNtTEibFvlQ?t=76