seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

56987

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

Цены на новые модели кусаются и возвращают в эпоху релиза GPT-4, хотя маленькая версия более-менее доступна.

Жаль, что у всех моделей контекст лишь 128k токенов. Надеялся, что от этого уже уйдут.

Читать полностью…

Сиолошная

Ждём извинений критиков AI в твиттере и в комментах под этим постом (им соболезнуем)

Для остальных заказываю песню: https://www.youtube.com/watch?v=1k8craCGpgs

Читать полностью…

Сиолошная

Продуктовая страница модели: https://openai.com/index/introducing-openai-o1-preview/

Тут есть короткие видео с юзкейсами, перекачивать и заливать уж не буду, давайте посмотрим на сайте.

Читать полностью…

Сиолошная

Дружно идем проверять сегодня вечером

Читать полностью…

Сиолошная

Про актуальность «указывателей на ограничения LLM»😳

last month at the 2024 Association for Computational Linguistics conference, the keynote by @rao2z was titled “Can LLMs Reason & Plan?” In it, he showed a problem that tripped up all LLMs.

But OpenAI o1-preview can get it right, and o1 gets it right almost always

(кстати прикольная аннотация "думал 19 секунд" перед ответом :) )

Читать полностью…

Сиолошная

Our o1-preview and o1-mini models are available immediately. We’re also sharing evals for our (still unfinalized) o1 model to show the world that this isn’t a one-off improvement – it’s a new scaling paradigm and we’re just getting started.

Читать полностью…

Сиолошная

🍟

Читать полностью…

Сиолошная

Релиз моделей приближается, интересностей всё больше и больше, потому вот краткая сводка на ночь-утро:

— если неделю назад ходили слухи об новой оценке OpenAI в ~$105B после нового раунда инвестиций, то вчера в TheInformation была уже указана цифра в ~$120B. Сегодня же Bloomberg написал, что их источники уже говорят о $150B. Первая цифра мне казалась странной (маленький скачок относительно предыдущей оценки в $86B), вторая уже понятной, а третья — впечатляющей. Скачок на 75% это уважаемо
— в эту оценку не входит привлекаемая сумма, то есть это так называемая pre money valuation
— планируется привлечь $6.5B (что меньше прошлого раунда в $10B), причём, Microsoft лишь один из многих инвесторов, и даже не лидирующий. Это значит, что инвестиции по большей степени будут деньгами, а не кредитами на вычислительные ресурсы
— кроме этого, с банками ведутся переговоры об открытии возобновляемой кредитной линии в $5B
— выходит, оценка компании будет составлять ~$156B. На бирже в открытом обращении лишь 90 компаний с оценкой выше. Примерно в том районе находятся: Caterpillar, Walt Disney, Morgan Stanley, AT&T, Goldman Sachs и Uber
— удивительно, но OpenAI не станет самой высоко оценёной приватной компанией — впереди ByteDance ($268B) и SpaceX ($210B)

===

—  Strawberry может быть релизнута уже на этой неделе, если Sam Altman так решит (то есть в целом всё готово) — об этом сообщил Jimmy Apples. Обычно релизы-анонсы по четвергам, так что сегодня верим-надеемся-ждём. Но может быть и на следующей неделе
— 🚨 новая информация: GPT-4.x (потенциально 4.5, если решатся так назвать) должна появиться в октябре, опять же, согласно Jimmy Apples. Напомню, 1-го октября OpenAI проводят в Сан-Франциско оффлайн DevDay 2024. Правда было объявлено, что новых моделей на нём ждать не стоит. Однако странно было бы провести мероприятие, а после этого в течение 3-4 недель выкатить новую модель и сказать «ой, а ещё вот такое есть, придумывайте всё заново».
— в том же сообщении Apples пишет, что GPT-5 может быть выпущена в декабре, но скорее всего в первом или даже втором квартале 2025-го. Это бьётся с моими оценками (и даже предсказанием в одной из лекций) и паттерном выпуска моделей OpenAI: сначала маленькая версия в форм-факторе старой модели, для тестирования (GPT-3.5 = ChatGPT), а затем полноценный релиз GPT-4
— так что, насколько я понимаю, план такой: скоро увидим Strawberry как технологию поверх GPT-4 (изменения будут заметные, но не крышесносные), потом 4.5 как добивочка, и через сколько-то месяцев пятёрка, со множественными улучшениями по всем фронтам, и увеличением размера модели (а равно и стоимости)

===

— такой календарь релизов может быть обусловлен действиями конкурентов. По моим двум источникам, Google хочет выпустить Gemini 2.0 в сентябре-октябре, и (тут без источников) Anthropic удивит Claude 3.5 Opus в то же время. OpenAI — с точки зрения компании — должны соответствовать или даже возглавлять новый раунд гонки.
— последняя новость для любителей опенсурса: Meta заканчивает создание крупного кластера из 100'000 GPU H100 для тренировки LLAMA-4. Ожидается, что его запустят в октябре-ноябре. Такой же кластер есть у xAI, почти уверен, что у Google и Microsoft (OpenAI) есть что-то сравнимое

На этом у меня всё, если не читали лонг из поста выше — обязательно это сделайте, пока фидбек очень положительный, мне нравится, что люди в комментариях пишут, что всё понятно изложено, а примеры хорошо иллюстрируют рассказываемый материал.

Читать полностью…

Сиолошная

🍓🍓🍓 News

1) TheInformation: OpenAI планирует выпустить Strawberry как часть своего сервиса ChatGPT в ближайшие две недели

2) Jimmy Apples за полдня до этого написал, что на этой неделе что-то произойдет (может быть не релиз, а внутренний показ/демо)

3) Последнюю неделю некоторым пользователям ChatGPT в ответ на запрос предлагается 2 варианта ответа, но видимо это не то же самое, что и раньше. Сейчас сверху пишется «You're giving a feedback on an experimental version of ChatGPT» или «on a new version of ChatGPT», и сделана пометка, что ответы могут генерироваться не сразу, а после паузы. Именно про это, по слухам, проект Strawberry: дать модели время «на подумать» перед ответом, чтобы снизить вероятность ошибки/не спешить с неправильной генерацией. Время «раздумий» в среднем составляет от 10 до 20 секунд

4) По началу Strawberry будет работать лишь с текстом на вход и выход, никаких картинок и файлов. Цены на Strawberry, скорее всего, будут отличаться от $20 за подписку на чат-бот OpenAI. Журналисты пока не уверены, какие будут ограничения по использованию (сколько сообщений в час) и можно ли будет докупать расширенный пакет.

5) завтра утром выходит лонг, бронируйте время в календарях на прочтение (30-40 минут) 😒

Кажется, началось...

Читать полностью…

Сиолошная

Корабль Starliner успешно вернулся на землю без экипажа.

Время быстрых выводов:
- Корабль безопасно вернулся в нужную зону посадки — хорошо и важно. То, что он вернулся без экипажа — плохо и важно;

- Ситуация с утечкой гелия, как и говорили специалисты Boeing, оказалась несущественной и сильно не повлияла на работу аппарата;

- Двигательная установка и системы коррекции отработали все фазы полёта. Как и говорили специалисты Boeing в отчёте, отказ части двигателей не настолько существенный, как оценивали его в NASA. Более того, часть двигателей заработала в итоге. Но это всё равно серьёзный прецедент;

- Если бы экипаж пришлось экстренно эвакуировать на Starliner, то они смогли бы безопасно вернуться;

- Астронавты Уилмор и Уильямс не застряли на МКС. У слова «застряли» немного другой контекст, и МКС это не необитаемый остров. Они не туристы, они выполняют работу, их миссия была расширена и продлена (что учитывается в разных сценариях), а полгода на орбите — стандартный срок, а не аномалия. Там нет «надеюсь им хватит еды и воды». К ним скоро прилетит их Crew Dragon для возвращения.

- NASA выбрало самую консервативную опцию, потому что у них есть такая возможность благодаря 2 разным кораблям в активном флоте (у остальных либо 1, либо 0);

- Самую консервативную опцию выбрали потому что Apollo 1, Challenger 1986 и Columbia 2003: нельзя закрывать глаза на риски;

- По иронии, дублирование систем в CCP предусматривали из-за неуверенности в SpaceX, но годы спустя, именно благодаря SpaceX удалось минимизировать риски от Starliner;

- Всё происходящее в программе Starliner нуждается в пересмотре, доработке и оптимизации процессов, а существование подобного прецедента в целом недопустимо. Впереди месяцы, если не несколько лет, доработок и проверок, которые станут финансовой нагрузкой для Boeing и нагрузкой с точки зрения времени специалистов для NASA;

- Будущее программы Starliner после 3 оплаченных пусков для МКС под большим вопросом. NASA пока не готово коммититься и оплачивать ещё 3 пуска;

- Туристические перспективы и коммерческие заказы для будущих частных станций пока тоже под вопросом. Есть риск, что Boeing закроет программу после выполнения оплаченных полётов по финансовым соображениям;

- С 25 июля ни один специалист Boeing не появлялся на публичных панелях NASA по статусу миссии — это коммуникационная катастрофа;

- Всё происходящее по нештатной ситуации со Starliner с точки зрения коммуникации — недопустимо. Ни Boeing, ни NASA не смотрятся хорошо в этой истории. А спекуляции, новости и заголовки как результат такой коммуникации;

- Сегодняшние проблемы Starliner, это в том числе результат решений нескольких организаций, которые были приняты 12 лет назад. Как стратегических, так и технических;

- Это не последнее трудное решение для NASA в части пилотируемой космонавтики — впереди трудные решения по Artemis, которые тоже являются результатом предыдущих ошибок.

Читать полностью…

Сиолошная

Сейчас ежемесячная подписка на ChatGPT стоит $20. Как думаете, на сколько её могут поднять в ближайшем будущем с выпуском новых моделей? 50 долларов? 75 долларов? А как насчет 200 или 2000 долларов?

Вы можете удивиться, но такие цифры (да, две тыщи) фигурировали во внутренних обсуждениях в OpenAI. Сейчас этот вопрос стоит особенно остро (ну, если вы верите, что следующее поколение моделей приятно удивит) — ведь проекты Strawberry (улучшение навыков рассуждения моделей) и Orion (вероятно, GPT-5) будут требовать больше ресурсов для работы. По достаточно популярной гипотезе, моделям нужно будет время «на подумать» перед тем, как давать ответ, и всё это время в фоне будет крутиться нейронка.

Конечно, повышение цены (особенно до планки более чем 100 долларов) также будет означать, что OpenAI считает, что ее существующие клиенты ChatGPT будут считать эти новые модели гораздо более ценными для их повседневной работы.

Сейчас OpenAI рубит примерно 2 миллиарда долларов в год на $20-ых подписках. Интересно, где они будут через год 👀

Читать полностью…

Сиолошная

Флеш-новости 2:
— Bloomberg узнал об общении Sam Altman и представителей правительства США касательно инвестиций в развитие инфраструктуры производства полупроводников
— планируется привлечь десятки миллиардов долларов из Канады, Кореи, Японии, ОАЭ и частных инвесторов. Не всем деньгам рады, и Altman встречается с National Security Council по поводу одобрения списка инвесторов — уж очень боятся, что будет китайский след.
— сами инвестиции пойдут на постройку датацентров, фабрик по производству чипов, увеличение выработки энергии (видимо, через закупку генераторов и сырья)
— частично идея заключается в том, что от инфраструктурных проектов выиграют и другие компании, помимо OpenAI, сказал человек, знакомый с обсуждением. Страны-союзники США тоже получат бенефиты
— Министерство юстиции США отправили Nvidia повестку в суд: хотят разобраться, не получилась ли монополия на ИИ-чипы, и почему крутятся слухи, что Nvidia может сокращать/задерживать поставки клиентам, кто покупает GPU других производителей
— согласно The Information, Microsoft разместила самые крупные заказы на GPU следующего поколения. По оценкам, это от 700'000 до 1.4M видеокарточек. Google заказал 400'000, Amazon для своего облака на 10% меньше. Возможно, партнёр OpenAI что-то знает 👀. Согласен с текстом на картинке, полный Ahoy
— кроме этого, теперь уже две компании стоимостью более триллиона долларов планируют построить датацентры стоимостью не менее 100 миллиардов долларов. Это следует из слов представителя губернатора Северной Дакоты — якобы к ним пришли две компании с подобным запросом. Про одну мы знаем, это OpenAI x Microsoft (проект Stargate), кто второй — пока загадка, благо кандидатов не так много: Nvidia, Amazon, Google, Meta и Apple. Ещё в теории может быть Tesla — они были трилионной компанией, но подупали
— у меня сегодня ДР
— CEO японского офиса OpenAI в своей презентации снова показал слайд, где релиз GPT-Next намечен на 2024й год, и что якобы модель будет эквивалентна оной со в 100 раз большим количеством мощностей, затраченных на тренировку. Интерпретация вольная, так как оригинальный пост на японском + пересказывает услышанное. Грубо говоря это означает что какие-то новые технологии позволяют на модели размера X получать результаты как от модели размера 100*X
— корпоративный президент Samsung вообще упомянул GPT-5 в своей презентации (он рассказывал про спрос на чипы с быстрой памятью, которые корейцы и производят), и даже указал размер модели: от 3 до 5 триллионов параметров (GPT-4, по слухам, имела размер 1.76T, последующие модели были меньше)

Как видите, в мире AI два больших топика — следующая модель OpenAI и чипы/датацентры. Ну и ещё регуляции 😕

Читать полностью…

Сиолошная

Первый чип собственной разработки OpenAI будет разработан TSMC по ее технологическому процессу A16 Angstrom и в первую очередь будет использоваться для генерации видео в Sora.

Инсайдеры отрасли сообщают, что OpenAI вела активные переговоры с TSMC о разработке специализированного литейного завода для своего собственного чипа, но эти планы были отменены.

Дальше интереснее:
Говорят, что внутренний чип усилит возможности генерации видео Sora, что может помочь увеличить продажи устройств Apple, поскольку эта функция будет интегрирована в набор функций генеративного ИИ компании.

Возможно, OpenAI и Apple тесно сотрудничают в этом проекте, поскольку у последней есть многолетний опыт разработки чипсетов, которые опережают конкурентов, но пока ничего не подтверждено.

https://wccftech.com/openai-developing-custom-chip-on-tsmc-a16-angstrom-process/

@cgevent

Читать полностью…

Сиолошная

Свежее эссе Paul Graham про Founder Mode, стиль управления компанией, отличный от типичных наёмных менеджеров. Пересказывать не буду, да и сам Founder Mode там не описан — видимо, нужно дождаться записи выступления Brian Chesky.

1) Часто фаундеры компаний получают следующий совет для масштабирования бизнеса: «hire good people and give them room to do their jobs» (или подобные)

2) Однако многие ретроспективно оценивают данный совет как негативный

3) Дело в том что те, кто его дают, рассказывают про стиль управления наёмных менеджеров, окончивших бизнес-школы. Они рассматривают поддеревья организационной структуры как черные ящики. Они говорят своим непосредственным подчиненным, что хотят увидеть (какой результат), а те решают, как этого достигнуть. Но C-level не вдаётся в подробности, что и как они делают. Стиль влезания в детали кто-то обзовёт «микроменеджментом» (осуждаю такой ярлык — моё примечание, не Paul'а)

4) Это отличается от стиля ведения бизнеса, если компания с первого дня — твоя

5) Steve Jobs проводил ежегодные выездные отпуски для тех, кого он считал 100 самыми важными людьми в Apple. И это не были 100 самых высокопоставленных человек в организационной структуре. Можете ли вы представить, каких усилий будет стоить ввести эту практику в средней компании? Да половина менеджмента сразу бунт поднимет)

6) Всё вышенаписанное не означает, что нужно избегать делегирования

Читать полностью…

Сиолошная

Помимо слухов о том, что OpenAI собирают новый раунд инвестиций, журналисты также узнали об интересе Apple и Nvidia вкинуть часть денег. Если это произойдет, то получается, что за OpenAI будут стоять три крупнейшие корпорации в мире (Google — как раз четвёртый) с суммарной оценкой 8.5 триллиона долларов. Это в 4 раза меньше госдолга США, если вам интересно 😃

В рамках раунда также может произойти реструктуризация OpenAI с целью увеличения привлекательности компании для инвесторов. Сейчас финальная структура не утверждена, но целью изменений должно стать увеличение прозрачности для инвесторов относительно текущей сложной структуры из 5+ дочерних компаний. Частично про это писал тут — схема намеренно сделана так, чтобы «кинуть инвесторов», но в том лишь значении, что а) они ничем не владеют б) у OpenAI перед ними нет обязательств, только у дочки.

И нет, это не скрывается, на каждом документе для инвесторов есть соответствующие надписи, что прибыли, и как следствие выгоды для них, не ожидается, и что «It would be wise to view any investment in [OpenAI’s for-profit subsidiary] in the spirit of a donation». По крайней мере, пока, до грядущих изменений.

Напомню, что речь идёт о раунде, в рамках которого компания может быть оценена в $103 миллиарда. Для Силиконовой Долины это станет рекордом (прошлым был Stripe в 2021-м, $95B) стоимости непубличной компании. Но это и само по себе много — в мире всего ~161 компании с оценкой выше, и для справки примерно столько стоят Starbucks или Boeing (ору, что они на одном уровне 😂).

Одним из потенциальных изменений может стать отмена верхней планки прибыли, которую могут получить инвесторы: сейчас она была в районе +- x10-x20, то есть при инвестировании миллиарда инвестор не мог претендовать на более чем $10B-$20B (точного коэффициента нет). У ранних инвесторов это могло быть x100. Сейчас прибыль у компании нулевая, так что вкинувшие денег вообще не получают 🤷‍♀️

Плохо это или хорошо? Ну, есть и «хорошие» формы устройства корпораций. Например, Anthropic, один из конкурентов OpenAI, основанный выходцами оттуда, имеет структуру «Public-benefit corporation». Она, например, позволяет менеджменту принимать решения не основываясь на наибольшей выгоде выгодоприобретателей, а смотреть на пользу обществу.

обсубъективный FAQ:

Q: Ха-ха, так получается OpenAI бабки хотят делать а не добро??? А МЫ ЖЕ ГОВОРИЛИ
A: нет, не получается. Для привлечения рекордных инвестиций инвесторы должны видеть прибыль или хотя бы призрачный потенциал. Уже удалось получить $13B от Microsoft, но больше, видимо, никто не даёт — вы бы сами дали с формулировкой «It would be wise to view any investment in [OpenAI’s for-profit subsidiary] in the spirit of a donation»?

Q: ну так может аппетиты поумерят?
A: как говорилось множество раз, основной и единственный 100%-й источник роста качества моделей — увеличение мощностей для тренировки. И нужно их не в 2-3-4 раза больше, а на порядки (в 10-100-1000). Построение датацентров — удовольствие не из дешёвых. По плану, к 2031-му году OpenAI x Microsoft запустят кластер стоимостью $100B. Другие игроки, например, Google и META, используют ту же стратегию. Я вижу это как выбор «сделай или проиграй в гонке».

Q: получается Альтман на 180 градусов развернулся? никогда не было и вот опять
A: нет, ещё в интервью 2023-го года он говорил, что им придётся прибегать к некоторым благам капитализма. Тогда удалось привлечь капитал без изменения договорённостей, но видимо новые X миллиардов под честное слово не дают. Я на ситуацию смотрю как «ого, им удалось протянуть и привлечь СТОЛЬКО, и всё — без обещания возврата денег? невероятно!». Если что, 2 из 5 самых крупных раундов в истории человечества, включая топ-1, были у OpenAI (10 и 2 миллиарда), вряд ли их можно обвинить в том, что они не старались выжать максимум без перехода границы non-profit.

Читать полностью…

Сиолошная

В рамках тестирования моделей до анонса проводили тестирование на агентские задачи и саморазмножение модели.

Улучшения относительно GPT-4o если и есть, то слабые — видимо, на это упор не делался (не доучивали специально на агентские типы задач и рассуждений).

Другие картинки со схожими тестами тут: https://cdn.openai.com/o1-system-card.pdf

Читать полностью…

Сиолошная

The o1 models introduce reasoning tokens. The models use these reasoning tokens to "think", breaking down their understanding of the prompt and considering multiple approaches to generating a response. After generating reasoning tokens, the model produces an answer as visible completion tokens, and discards the reasoning tokens from its context.

Here is an example of a multi-step conversation between a user and an assistant. Input and output tokens from each step are carried over, while reasoning tokens are discarded.

Советы по использованию:
— Keep prompts simple and direct: The models excel at understanding and responding to brief, clear instructions without the need for extensive guidance.
— Avoid chain-of-thought prompts: Since these models perform reasoning internally, prompting them to "think step by step" or "explain your reasoning" is unnecessary.

(так как модель это сделает за вас)

Читать полностью…

Сиолошная

Модели серии o1 требуют существенно больше мощностей для работы

На графике за 100% взят максимальный бюджет для крупной версии o1. Видно, что версии GPT-4o, доступные сегодня, берут меньше 2-3%. Даже o1-mini жрёт в 10-15 раз больше — но и результат лучше качественно.

По шкале OY — доля решенных олимпиадных задач по математике.

Читать полностью…

Сиолошная

так, я договорился

ссылка заработала, нажмите ещё раз

https://openai.com/index/learning-to-reason-with-llms/

Читать полностью…

Сиолошная

o1 is trained with RL to “think” before responding via a private chain of thought. The longer it thinks, the better it does on reasoning tasks. This opens up a new dimension for scaling. We’re no longer bottlenecked by pretraining. We can now scale inference compute too.

AIME — олимпиадные задания по математике

Читать полностью…

Сиолошная

Поехали

https://openai.com/index/learning-to-reason-with-llms/

Читать полностью…

Сиолошная

Флеш-новости 3 (на самом деле это я так третий пост про 🍓Strawberry замаскировал 🤡)

— Вот я вчера написал, что датацентры со 100'000 передовых GPU подтверждены у трёх компаний, а прям сегодня появилась новость: Oracle построит датацентр на 130'000 H100, а питать его будут 3 маленьких ядерных реактора нового поколения. Вот так за год мы перешли от шутки к практике, мол, искусственный интеллект в будущем — это датацентр, стоящий за АЭС, стоящей за бункером

— Bloomberg обновил информацию, и теперь, согласно их источникам, Strawberry покажут уже на этой неделе. Доступ получит ограниченное количество пользователей. Будем молиться, чтобы нам дали, да побольше 🙏

— Jimmy Apples ещё вчера писал, что релиз будет сегодня (в четверг) или завтра (в пятницу), в зависимости от того, с какой ноги встанет Sam Altman. В OpenAI в 10 утра по Калифорнии (GMT-7, 20:00 МСК) по четвергам происходят All-Hands встречи, где собирается вся компания, потому релизы и обновления чаще проходят в этот день недели. Держим пальцы 🤞

— Bloomberg также уточняет принцип работы Strawberry: опыт использования обновленной ИИ-системы от OpenAI будет несколько отличаться от того, что люди ожидают от ChatGPT. Прежде чем ответить на запрос пользователя, новое программное обеспечение делает паузу на несколько секунд, в то время как незаметно для пользователя оно генерирует ряд связанных запросов, а затем обобщает то, что кажется лучшим ответом. Эту технику иногда называют «цепочки мыслей».

— Мне кажется, тут намешано в кучу несколько техник, которые могут и не относиться вообще к Strawberry. «Цепочки мыслей», или Chain-of-Thought — это когда модель вместо ответа сходу пишет рассуждения — но это то, что мы так и так получаем во время работы с ChatGPT. Генерация нескольких вариантов ответа с аггрегацией в конце — это Self-Consistency (который может применяться поверх Chain-of-Thought). Однако если Strawberry окажется вот этим вот, и существенного улучшения за счёт специального дообучения не будет — я буду расстроен, это ниже моих ожиданий. Ключевое тут — «если существенного улучшения за счёт специального дообучения не будет». Сейчас, насколько мне известно, модели не затачивают специально под это (чтобы генерировать и проверять разные гипотезы, и потом выбирать лучшую); применяется простой промптинг

— Однако у меня нет супер-завышенных ожиданий, что будет очень заметный результат на простых вопросах, не связанных с математикой/программированием/науками/точному следованию инструкциям. На вопросы в духе «как дела» или «расскажи сказку» система не будет отвечать прям заметно лучше

— В комментарии приглашаю писать задачки в духе «сколько у Алисы братьев» или «сколько букв Р в слове варенье», с прикреплённым скриншотом, что GPT-4o/Claude 3.5 не могут их решить. Как выйдет Strawberry — побежим проверять! Будем смеяться, как буквально неделю назад уже решённые задачи использовались как пример «ограничений LLM».

=====

Я сегодня вечером:

Читать полностью…

Сиолошная

В последние пару лет почти каждый раз, когда речь заходит о больших языковых моделях, разговор сводится к противоборству двух лагерей: одни считают, что модели «понимают», умеют «размышлять» и выводить новую информацию; другие смеются над ними, и сравнивают модели со статистическими попугаями, которые просто выкрикивают услышанное, без выработанного понимания. Обе стороны приводят множество аргументов, кажущихся убедительными, однако точка в вопросе никогда не ставится.

Разрешить дискуссию помогают методы механистической интерпретируемости. В канале я обозревал несколько статей, в каждой из которых маленькое открытие позволяло чуть больше понять внутрянку нейросетей и даже улучшить сам механизм работы.

Сегодня я предлагаю вам прочитать мой лонг для погружения в эту тему. В нём я применил классический приём «да ща быстро сяду напишу как попало, будет средней длинны пост» — и это оказалось самообманом 😭. В итоге вышло полно, плотно, некоторые объяснения переписывались, сопроводительные иллюстрации перерисовывались, но результатом доволен.
▀▀▀▀▀▀▀▀▀▀
Оценить самим можно тут: https://habr.com/ru/companies/ods/articles/839694/
▀▀▀▀▀▀▀▀▀▀
Отдельная благодарность Павлу Комаровскому @RationalAnswer за (уже далеко не первую) помощь в редактуре и подготовке материала — не забывайте подписываться и на него.

Читать полностью…

Сиолошная

SB 1047 (читать тут) — акт, направленный на регуляции в области AI в рамках Калифорнии — прошёл последнее голосование в Сенате Штата и теперь ждёт подписания губернатором. Тот всё ещё может наложить вето, и сейчас разные субъекты выражают своё мнение за и против. Напомню, что Anthropic высказались в поддержку принятия акта — в их представлении «акт принесёт больше пользы чем вреда», хоть в нём всё ещё присутствуют пункты, с которыми компания очень не согласна, и рекомендует их к изменению. OpenAI тоже многое не нравится — они выступают против.

Jan Leike, бывший ко-глава команды SuperAlignment, разделявший эту роль с легендарным Ilya Sutskever, а ныне сотрудник Anthropic, высказался в поддержу:

— Недовольство влиянием на инновации, стартапы и опенсорс не кажется обоснованным: Если ваша команда тратит >10 миллионов долларов на дотренировку модели, то она может себе позволить а) написать план обеспечения безопасности модели в соответствии с индустриальными нормами и б) провести несколько оценок по принятым тестам

— Если ваша модель приводит к массовым жертвам или ущербу на сумму более 500 миллионов долларов, что-то явно пошло не так. Такой сценарий не является нормальной частью инноваций.

— «теперь каждому придётся нанимать команду юристов! это регуляторный захват!». Jan не согласен — как вы можете потратить 100 миллионов долларов на предтренировку модели, но не иметь достаточно денег, чтобы нанять команду юристов?

— И вообще Jan не считает, что этот акт — пример regulatory capture

— «Но тот кто делает ножи не должен отвечать за совершённые изделием убийства!!!» — Вы можете убить кого-то молотком, и никто не будет привлекать к ответственности производителя молотка. Но существует длинный список случаев, когда общество решило, что производители или торговые посредники несут ответственность за вред, причиненный в результате использования чего-либо, если они не предпринимают «разумные меры осторожности»: фармацевтические препараты, алкоголь и табак, оружие (даже в США, где казалось бы достать его легко), продукты питания, автомобили, самолеты...

— «Да по схожему закону эти ребятки и после катастрофы дирижабля «Гинденбург» бы сразу запретили весь воздушный транспорт!»: это неправда, акт как раз про другое. Аналогия должна была бы звучать так: «Если вы хотите наполнять свои дирижаабли водородом (несмотря на то, что эксперты по безопасности выступают за гелий как более безопасную альтернативу), вам нужно написать документ с анализом того, насколько это достаточно безопасно, и показать его правительству, в противном случае вы будете нести ответственность, если люди умрут, когда ваш дирижабль взорвётся. Это не отменяет авиаперелеты и даже не запрещает дирижабли, наполненные водородом, так что это даже не настолько далеко заходит с точки зрения регуляций, как это было в реальном историческом случае с полным запретом водородных дирижаблей»

===

Убедительно? :jordan_belfort:

Читать полностью…

Сиолошная

Думал отложить, но заставляют написать...

Вчера в социальной сети ИКС ТОЧКА КОМ анонсировали LLAMA 3.1 70B, дообученную на синтетических данных, и выдающую результаты лучше, чем GPT-4o / Claude Sonnet 3.5 на нескольких бенчмарках. Модель получила название Reflection — потому что её ответ формируется как объединение рассуждения (Chain-of-Thought) и рефлексии/анализа ошибок. Эти два шага чередуются до тех пор, пока сама же модель не решит написать итоговый ответ. В итоге, перед получением результата нужно немного подождать, пока идут рассуждения (но их можно читать, чтобы не заскучать).

Что в этой истории дурно пахнет:
1) На наборе математических задач GSM8k модель выдала 99.2% правильных ответов. Однако скорее всего в самой разметке больше одного процента неправильных ответов — а как можно давать такие же, но неправильные ответы? Основная версия, проходящая бритву Оккама — модель уже училась на этих данных. Альтернативная и более щадящая: LLM делает те же ошибки, что и люди, и потому пришла к тем же неправильным ответам
2) Эти методы рассуждений и рефлексии — не новинка, и уже было показано, что они существенно улучшают качество. И потому все передовые модели так и так учили с чем-то подобным (особенно если явно прописать "подумай хорошенько шаг за шагом"). Потому сходу не ясно, что именно дало такой прирост для маленькой 70B модели.
3) Авторы не раскрывают технические детали и не показывают «синтетические» примеры для дообучения, лишь ссылаются на какую-то платформу, которая позволяет в пару кликов генерировать синтетику. А ещё я прочитал, что автор модели — инвестор этой конторы. Так что модель больше похожа на рекламный продукт, потому стоит ждать независимых замеров.
4) Сами подробности якобы раскроют на следующей неделе после выпуска 405B версии, которая может существенно переплюнуть все проприетарные закрытые модели. Из-за этого и хотел отложить написание поста. Ну, посмотрим, что покажут.

Опять же, концептуально такой подход действительно должен бустить качество, вопрос в том, почему настолько сильно, и почему передовые модели такой трюк не применяют.

Если у вас есть железо и время для запуска 70B модели — веса тут.
Сайт с демкой был тут, но его отключили из-за наплыва аудитории. Я за вчера 3 раза пытался зайти, ни разу даже одного слова сгенерированного не получил 🥱 правда у кого-то в чате получилось закинуть задачку "А и Б сидели на трубе" (кстати, решила правильно).

Первая картинка — сравнение метрик на самых распространённых бенчмарках (от части которых уже давно пора отказаться..), 2 и 3 — примеры работы на боянистых задачах, 4 и 5 — на свежей.

Читать полностью…

Сиолошная

Продолжая тему Founder Mode <> Микроменеджмент, вспомнил часть рассказа Andrej Karpathy, сооснователя OpenAI и бывшего директора по разработке автопилота в Tesla. Рассказывал он про своего босса, Elon Musk, вот уж фаундер так фаундер. Вот видео на 3 минуты, ниже краткая выжимка:

— Elon очень вовлечён в работу команды, предпочитает общаться с инженерами и программистами, так как они - источник правды, а не отчёты менеджеров и вице-президентов.
—  Во время разговора с инженерами он постоянно справшивает, что их блокирует, что мешает работать
— Пример: один инженер говорит «мне не хватает GPU (прим.: для запуска экспериментов с нейронками)». Musk отвечает «OK», но если он услышит это ещё раз от другого человека, значит, есть проблема. Проблему нужно решить.
— И сразу начинается процесс раскрутки («кипиша», как говорил один из моих коллег, кек): кто ответственный, какой у нас тут таймлайн, когда ждать решения проблемы?
— Musk звонит человеку, ответственному за GPU-кластер. «Удвой количество карт! Прямо сейчас! Отпиши завтра по статусу, и после этого присылайте мне ежедневные отчёты о прогрессе». Тот отвечает «пык-мык мы не можем...Nvidia столько нам не продаёт, карт просто нет, а даже если есть то устанавливать их не быстро..». Что делает Founder Mode Driven CEO?
— «Соедините с CEO Nvidia», ахахха, удобно, когда ты миллиардер самый богатый человек в мире.
— Andrej говорит, что это похоже на человека с молотком, который очень, ОЧЕНЬ хочет пустить его в дело. Он ищет бутылочные горлышки (через общение с командой) и расширяет их, устраняя препятствия и предоставляя необходимые ресурсы

===

Это была красивая предыстория к новости, что на днях xAI, AI-компания Musk'а, запустили кластер Colossus на 100'000 GPU H100. Правда, это уже как будто второй запуск, про первый я писал ранее — но, как выяснилось, тогда не хватало электорэнергии, чтобы запитать все карты. Они — вкупе с системами охлаждения — очень много потребляют. По оценкам, нужно примерно 150 МегаВатт, а коммунальные службы сообщали, что в августе был предоставлен доступ лишь к мощности в 50 МВ. Полную мощность обещают выдать с запуском новой подстанции в начале 2025-го года.

Что делает пробивной менеджер? Ждёт? Нет, заказывает 20 газовых турбин и сырьё для них. Цифрой поделились эко-активисты, которые были возмущены 😀 и ходили вокруг и всё фотографировали (а потом направили петицию департаменту здравоохранения касательно загрязнения воздуха).

20 турбин, по оценкам, действительно могут покрыть недостачу в 100 МегаВатт, правда не ясно, подключены ли они все, или просто стоят, ждут своего часа.

В итоге кластер был запущен за 122 дня, 4 месяца говоря грубо — в сравнении с годом (а то и больше) у конкурентов. И это всерьёз пугает последних — два человека из Microsoft сообщили, что Sam Altman, CEO OpenAI, в ходе беседы с руководителями в Microsoft выражал обеспокоенность тем, что xAI вскоре может иметь больше вычислительных мощностей, чем OpenAI.

🤷‍♂️ такие времена 🔨 🔨

Читать полностью…

Сиолошная

Флеш-новости:
— Jimmy Apples, инсайдер OpenAI, написал «Правдив ли шепот, который я слышу? Неужели нам наконец-то что-то покажут в октябре?»
— люди начали воспринимать это как намёк на GPT-5, я написал, мол, это GPT-4.5/Strawberry, но не пятёрка. Jimmy лайкнул мой твит. Думайте 😜
— обещанный лонг пишется, но я хочу ужать его в определённые рамки по размеру, потому приходится на лету переписывать и выкидывать части 🫠
— сегодня ждём презентации новой модели генерации видео от RunwayML. У них уже есть Gen 3 Alpha (и ускоренная/более дешёвая моделька), может, появится что-то качественнее
— вчера прочитал RULER, бенчмарк оценки качества работы длинного контекста у моделей. Разбора статьи не будет, ребята просто предлагают несколько разных способов генерации синтетики/микса реальных данных для того, чтобы генерировать длинные последовательности, из которых модель должна что-то достать. Затем вводят термин «эффективный размер контекста» как «не хуже, чем у LLAMA-2-7B на 4096 токенах». Gemini-1.5-Pro в лидерах, работает хорошо даже на 128k, GPT-4 (gpt-4-1106-preview, не самая свежая) 64k, LLAMA-3.1-70B не отстаёт, а другие модельки уже деградируют заметно.

Читать полностью…

Сиолошная

Найс телеграм делает, после исправления опечатки в посте пропали комментарии :)

пишите под этим постом. Ну и чтобы два раза не вставать — вот вытащил из лички коммент к примеру и риторическому вопросу из пятого пункта :)

Читать полностью…

Сиолошная

Они отобрали у нас голос Sky...и не выпускают новый голосовой режим... 😡

Но взамен в будущем OpenAI добавит до 9 новых голосов.

Послушайте и расскажите, какой из них понравился больше всего именно вам. Ridge и Vale норм, как по мне, но все звучат чуть более механически, чем хотелось бы — скорее всего, стоит ждать доработок и полировки.

Источник

Читать полностью…

Сиолошная

Introducing NEO Beta
youtube.com/watch?v=bUrLuUxv9gE

Мы (1X Technologies) наконец-то показали нашего нового робота публично! Neo это наше второе (и на данный момент уже основное) поколение роботов. В отличие от Eve у Neo пять пальцев и две ноги, что позволяет решать гораздо больше задач. В отличие от других гуманоидных роботов Neo может безопасно находиться радом с людьми из-за compliant моторов, при этом он всё ещё обладает довольно большой силой, сопостовимой с другими гуманоидами (и может быть даже превосходящей некоторых). Надеюсь в ближайшее время мы пошерим больше деталей о том что уже сейчас может Neo.

(Продолжаю орать с комментариев о том что это человек в костюме, разработчики железа воспринимают это как комплемент пхпх)

Читать полностью…
Subscribe to a channel