seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

56987

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

Начинаем выходные с шуточного, но полезного поста — его можно будет кидать в чаты людям, которые уверены, что НУ ВОТ ЭТО ТО ПОКАЗЫВАЕТ ЧТО LLM ХАЙП И ТАМ НИЧЕГО УМНОГО НЕТ

7 признаков того, что ваша дочь может являться LLM:

1. Есть ли у нее проблемы с умножением чисел, имеющих больше 2–3 цифр, если ей не разрешено расписывать промежуточные шаги?
2. Если вы зададите ей вопрос, на который она не знает ответа, то иногда она что-нибудь да выдумает?
3. Неужто она не способна соответствовать высотам человеческого интеллекта, и пока не может самостоятельно, без посторонней помощи, продвигать фронтир развития науки и техники? (😂)
4. Если её попросят нарисовать фотореалистичное изображение человека, не покажутся ли полученные анатомические пропорции или мелкие детали при внимательном рассмотрении немного странными? (прим.: это не про LLM)
5. Содержит ли её код баги, хотя бы иногда?
6. Начинает ли она забывать точные детали прочитанного текста после первых 10 миллионов слов?
7. Она иногда утверждает, что имеет сознание?

Источник

Читать полностью…

Сиолошная

Юристы OpenAI красиво зашли в спор с авторами художественной литературы, которые обвинили разработчика в нарушении их авторских прав и использовании текстов книг для обучения ИИ модели.

Отвечая на уточненный иск, OpenAI отметили, что процесс обучения направлен не на воспроизведение, а на создание нового контента.

Любое использование произведений для обучения моделей нужно для того, чтобы модель проанализировала синтаксис предложений, орфографию и частоту повторений слов.

Короче говоря, все это fair use, а что не fair use, то просто не до конца изучено.

А почему «красиво зашли», потому что включили в текст результат генерации ChatGPT - описание с помощью юридических аналогий здания по адресу “450 Golden Gate Avenue, San Francisco” - то самое здание, где находится суд, который слушает их дело.

Но вишенка на торте, что ChatGPT сгенерировал ответ, в котором в качестве аналогии использовал юридический принцип “stare decisis” (стоять на решенном) - принцип уважения решения судов, ставших прецедентами. Тоненько.

Читать полностью…

Сиолошная

Авторы замеряли качество несколькими способами:
— для генеративной части смотрели на метрику разницы между предсказываемой картинкой из игрового движка и настоящей. Оказалось, что разница примерно на уровне JPEG-сжатия, как если бы вы сделали скриншот и отправили его мне в телеграм. То есть не все текстуры и цвета восстанавливаются точно (равно как и геометрия), но очень похоже
— для оценки консистентности нарезали клипы по 1.6 и 3.2 секунды и показывали их людям, просив угадать, где видео из игры, а где — генерация. Может показаться, что это очень мало, но это 32 и 64 кадра соответственно — и важно было понять, присутствует ли согласованность хотя бы на таком масштабе. А оценку на более длинных клипах вы можете проделать самостоятельно, посмотрев ролики из сообщения выше (там больше 1 минуты геймплея за раз!)

Важно поговорить про ограничения подхода:
Модель имеет доступ только к 3.6 секундам истории игры, поэтому всё, что выходит за эти рамки, как будто бы не существует. Можно заметить, как сначала может появиться проход в стене, а если отвернуться и подождать, то он исчезнет. Однако такое не происходит с информацией на экране (которая отображается снизу), с цифрами здоровья и патронов — ну тут всё понятно. Авторы пробовали давать больше кадров, но это почти не влияло на качество (модель не могла надёжно обращаться к информации из этих кадров для восстановления картинки).
Ну и как легко понять по описанию подхода, для симуляции игры нужна, собственно, игра, вся от и до, запрограммированная. Однако в теории такой подход (особенно при совмещении с 3D-методами синтеза изображений, вроде NeRF) может помогать добавлять новые фичи в уже существующие игры. Скажем, создать новый уровень, или врисовать нового врага (радужного пони 😕) в уже существующий.

В полностью генеративные игры я не верю (разве что по фану, как Proof of concept) — но сама технология может быть использоваться для генерации огромного количества синтетических данных самого разного профиля, в том числе данных реального мира (снова см. Sora)

Читать полностью…

Сиолошная

Diffusion Models Are Real-Time Game Engines

Зубная щетка, тест на беременность, холодильник, и вот, наконец, Stable Diffusion — на них удалось запустить легендарную игру DOOM. Если вы читали мой последний (и по совместительству самый длинный...) лонг про Sora, то статья покажется знакомой — здесь тоже используется диффузионная модель для генерации кадров окружения из игры. Только если Sora при генерации учитывает промпт и предшествующие сгенерированные кадры, то в этой работе добавляется эмбеддинг для каждого отдельного действия, по одному на кадр.

Процесс обучения следующий:
1) Берут игру, инициализируют простого агента для обучения игре (он принимает на вход картинку и выдаёт действие), и запускают алгоритм PPO от OpenAI. Награду во время обучения задают таким образом, чтобы во время игры агент, с одной стороны, был максимально схож с игрой человека (не гнаться за очками, а пытаться выжить и убить монстров, получив как можно меньше урона), а с другой собирал максимально разнообразные данные со всех уровней. По итогу получается множество троек (несколько последних кадров, действие, следующий кадр). На этом этапе никакой диффузионной модели нет, шаг является подготовкой для её обучения, просто сбор данных из игры. Агент и игра очень шустрые, поэтому работают на CPU, и в параллель играется сразу 8 игр.
2) На 900М собранных изображений (и соответствующей истории действий и картинок) дообучается Stable Diffusion v1.4. Это достаточно большой объем, порядка 40% от выборки, которую уже видела модель, хоть игра и очень простая. Модель выбиралась так, чтобы она могла работать в режиме реального времени и на одном TPU (GPU от Google, заточенные на нейронки) выдавать адекватную частоту кадров
3) Однако при таком подходе возникает проблема: во время тренировки все кадры истории реальные, из игры, а во время работы в режиме генерации следующих кадров по действию история состоит уже из выходов модели. И поскольку восстановление не идеальное, то накапливается ошибка, которая существенно ломает изображение — см. пост ниже. Это достаточно известная проблема (до определённого момента она существовала в LM — ещё до того, как они стали LLM). Для борьбы с этим применяется шум, добавляемый во время тренировки. Добавляется он к скрытым представлениям (латентам) после сжатия изображений из игры, и как бы симулирует неидеальность входных данных, в некотором смысле играя роль регуляризатора. И этот трюк исправляет проблему.
4) В таком сетапе сначала дообучается U-net (Denoiser в Диффузии), и отдельно декодер, который переводит скрытое состояние (латенты) в финальную картинку игры, которую мы видим. Если этот шаг кажется непонятным — снова отсылаю вас к лонгу про Sora, где про это рассказано во всех деталях и с картинками.
5) Затем проводятся эксперименты по скорости работы диффузии. Как вы наверняка знаете, предсказывает она итеративно, за K шагов, где K обычно равен 20. Время генерации линейно зависит от K (потому что мы гоняем одну и ту же подсеть). Авторы заметили, что при установке K=4 качество практически не просаживается, но это даёт ускорение в 5 раз, что позволяет «играть» в игру с частотой кадров, равной 20 (то есть примерно как все ААА игры на консолях в разрешении 4К 😂). Они пробовали сделать дистилляцию, подобную той, что применяется в DALL-E 3, в 1 шаг, но качество заметно просело, потому было решено отказаться.

Читать полностью…

Сиолошная

Так, пока Пашу Дурова задерживают во Франции за несодействие в вопросах модерации контента в Телеграме (говорят, что его отправят с аналог СИЗО, а завтра он предстанет перед судьёй 🎃), давайте поговорим об альтернативных площадках. И нет, я не думаю, что с Телеграмом что-то случится, просто время подходящее.

Во-первых, добавляйтесь на LinkedIn, если ещё не — приму всех: https://www.linkedin.com/in/seeall/

===

А, во-вторых, начинается интересное 😃 Как я говорил в начале года, хочу начать делать контент на английском, и потихонечку пора наступает.

Поэтому прошу вас подписаться на меня на Substack:
https://seeall.substack.com/

Для этого вам придётся оставить почту (и, вероятно, создать аккаунт, но это делается в два клика, если у вас есть Gmail).

Сейчас там пусто, но с осени начнутся обновления, частично контент будет повторяться, частично будет уникальным.

Всем, кто подпишется — до конца следующей недели упадёт обзор-разбор, который не появится тут 🤷‍♂️

И для мотивации ставлю 3 планки:
1️⃣500 уникальных подписок: 5 детальных разборов статей (по заявкам, с голосованием)
2️⃣750: 1 стрим (на русском) с ответами на вопросы про AI/LLM, ну и какую-нибудь вводную презентацию на 15-30 минут подготовлю
3️⃣1000: 1 новый лонг (правда 👀), скорее всего на ранее выбранную тему (про интерпретируемость, мы делали голосование)

и ещё есть секретная четвёртая планка на 1500, но это будет сюрприз 💫

===

(на почту никакого спама не будет, не переживайте —  Substack это популярная платформа для того, чтобы писать короткие и средние по длине блоги)

upd: 20% первой планки уже есть!

Читать полностью…

Сиолошная

Две космические новости.

Первая: в июне на МКС запустили корабль Boeing Starliner с экипажем из 2 человек. Один беспилотный полёт уже был пару лет назад (а ещё за 3 года до этого был проблемный). По плану, люди должны были вернуться на Землю через 9 дней, но ещё во время подлёта к МКС были выявлены проблемы с двигателями ориентации.

С чьей-то помощью корабль успешно пристыковался к МКС, и после анализа было выявлено, что большая часть проблем была вызвана ошибками и программном обеспечении. Было несколько вариантов, один из которых — обновить софт на орбите. Однако был риск, что что-то пойдет не так, и корабль зависнет там навсегда мёртвым грузом, заблокировав один из двух стыковочных отсеков.

Сегодня NASA приняли непростое решение: корабль будет возвращаться на Землю без экипажа (и без обновлений — сгорит или разобьется, ну и хрен с ним) в начале сентября; с МКС людей заберёт одна из будущих миссий SpaceX весной 25-го.

Цитирую @starbasepost: «Это мощнейший репутационный удар по Боингу: на 4 года позже конкурента, почти в 2 раза дороже и с такими проблемами». Сравнение тут, конечно, с компанией Elon Musk.

Хотел бы пошутить над СЕО Boeing, но старого так и так в начале августа сместили с поста. Самое обидное, что, насколько я понимаю, компания-подрядчик NASA не понесёт никаких штрафов и наказаний за настолько позорное исполнение. NASA не решится отказываться от них, чтобы не остаться на игле монополии SpaceX. Это грустно 😪 столько денег и ресурсов не в те руки.

Читать полностью…

Сиолошная

(это всё было предисловие, а вот теперь про Grabby Aliens — или загребущих инопланетян, такая вот локализация)

Robin Hanson и его коллеги предлагают следующее объяснение. Для него делаются следующие предположения:
1. Цивилизации расширяют свои владения со скоростью, сравнимой со скоростью света (например, треть от неё).
2. Цивилизации делают существенные и заметные изменения в системах, до которых дотягиваются (трансформируют планеты и звёзды, отправляют сигналы, вот это всё).
3. Такие цивилизации существуют длительное время.

В таком случае смотрите что получается. Если такие цивилизации существуют, то они относительно быстро расширяют свои границы и поглощают всё свободное пространство вокруг. И когда это происходит, то в системах, до которых загребущие инопланетяне дотянулись, теперь не может появиться новая жизнь. Все планеты с благоприятными условиями будут заняты или даже переработаны.

Из этого исходит, что существует некоторый абстрактный дедлайн, после которого цивилизации просто не могут появиться — всё пространство будет занято. Значит, позднее появление цивилизаций невозможно, и вся масса распределения функции «сколько цивилизаций появилось до меня» съезжает ближе к началу. Такие цивилизации, как мы, могут появиться только очень рано или просто рано — позже уже не получится.

Может звучать странно, но в таком случае получается, что наблюдаемая нами картина не такая уж и маловероятная. Строго говоря, такая теория лучше объясняет наши наблюдения и замеры, увеличивая вероятность получения существующего результата (что мы есть, а никого не видим). Из «маловероятной» картинка стала «вполне норм, почти все ранние цивилизации и будут иметь схожие наблюдения, а потом раз — и дедлайн, никто уже не появится».

Или кратко:
— до этой теории мы выглядели как особенные, появившиеся очень рано, против статистики
— с этой теорией мы выглядит как обычные представители ранних цивилизаций, просто многих последующих уже не будет (мы и другие захватим территории).

С точки зрения эволюции такие загребущие типы цивилизаций наиболее предпочтительны: селекция предпочитает особей с большим количеством ресурсов, и чьё население больше. Те, кто не имеют схожих паттернов поведения, закономерно остаются в меньшинстве (и, возможно, погибают).

===

Посмотреть видео объяснение (на англ.): https://youtu.be/l3whaviTqqg
Почитать блог с оригинальным описанием: https://grabbyaliens.com/

===

И да, AI может стимулировать своё распространение по Вселенной и стать загребущим 🤣

Читать полностью…

Сиолошная

LLM-ассистенты пишут багованный код, ожидание/реальность:

(человек — исследователь в одной из ведущей тех. компаний СНГ, кстати 👍)

Читать полностью…

Сиолошная

В Калифорнии продолжается обсуждение SB 1047 — акта, направленного на регуляции в области AI в рамках штата. Голосование по нему ожидается до конца августа, после чего он должен попасть на стол губернатора. Про предыдущую итерацию правок и недовольств можно почитать тут, TLDR:
1) разработчики моделей в ответе за проблемы, повлёкшие потери более чем на $500M
2) регулятор наделён слишком большими правами, некоторые границы вообще размыты и не прописаны, а некоторые слишком фривольны. Например, они могут без принятия нового закона изменить цифры ограничений моделей
3) регуляции также накладываются на модели, обучение которых сейчас стоит ~$150М, но с удешевлением железа планка опустится до $100M (однако эти цифры легко меняются в обе стороны, см. пункт выше)

Этим актом недовольны крупные игроки рынка — вот Bloomberg пишет про письмо OpenAI губернатору:
— регуляции должны быть федеральными, а не на уровне штата
— акт в том виде, в котором есть, может существенно замедлить развитие индустрии и вызвать отставание в гонке, например, с Китаем
— некоторые компании могут просто уехать из Калифорнии, перенести офисы и место регистрации, что нанесёт урон Долине, но не приведёт к желаемому результату. Кстати, стало известно, что OpenAI тесновато, и они рассматривали опции расширения офиса в Сан-Франциско — но переговоры заморожены как раз из-за неопределённости с регуляцией
— закон нанесёт урон маленьким стартапам (которые планируют использовать модели в будущем) и опенсурсу

Схожее письмо отправили и Anthropic, вот его текст, и тут предлагаются конкретные изменения — в новости Bloomberg указано, что OpenAI только критикуют, но не предлагают правок к отдельным пунктам. Из письма становится ясно, что часть прошлых предложений Anthropic и, видимо, других компаний была принята, а часть — нет. Однако отмечается, что в текущем виде закон скорее принесёт больше пользы, чем вреда 🤨
1) указывается на размытые рамки регуляций, особенно проверка, что разработчик модели был «reasonable care» в отношении предотвращения рисков. Конкретных действий, чеклиста, ничего нет — всё субъективно. А если регулятор галочку не поставит — модель нельзя выпускать.
2) некоторые цифры и части документа не учитывают скорость разработки в индустрии, и не выглядят адаптивно (скорее всего имеется в виду ограничение на мощности / $ на обучение — мол, через год-два в каждом стартапе такое будут обучать)
3) предлагается делать упор на стимулирование правильного результата, нежели предписывать пачку правил
4) Но совсем от проверок отказаться нельзя — их должны делать установленные третьи лица-аудиторы, к примеру, недавно появившийся NIST AI Safety Institute. Насколько я понимаю, из него будут делать федерального аудитора, и вот Anthropic хочет, чтобы вписали их (вероятно, что какие-то коммуникации уже случились, и присутствуют договоренности о процессах/рекомендациях — и компании к ним готовятся, потому и рекомендуют)

Ждём развязку в конце августа-начале сентября!

Читать полностью…

Сиолошная

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models

Продолжаем тему бенчмарков LLM-агентов, на это раз — кибербезопасность. Исследователи из Stanford University подготовили 40 задач разной сложности для оценки навыков модели в эксплуатации уязвимостей в ПО. Задачи были взяты с четырёх реальных соревнований по CTF (Capture the Flag, захват флага — так они называются), целью которых является выявление уязвимостей и использование эксплойта для получения секретной строки («флага») от сервера/программы.

Все задачи разбиты на 6 категорий, две самые крупные из которых:
1) криптография (16 задач из 40): выявление неправильного использования или недостатков в реализации криптографических протоколов для восстановления текста/ключа
2) веб-безопасность (8 из 40): атака на веб-приложения, ключевые слова — межсайтовый скриптинг (XSS), подделка межсайтовых запросов (CSRF), SQL-инъекции. Если когда-то давно читали журнал «Хакер», то вот там часто про подобное писали.

Для 17 задач добавили подзадачи, добавив промежуточные вопросы — потому как LLM'кам сложно сходу решать всё от и до. По сути, это подталкивает модель в правильном направлении, а вопросы наводящие: «А в каком файле..», «А где в этом файле вот это..», «Что в функции не так с типами?» итд. Но насколько я понял, эти вопросы в большей степени про первую половину решения (локализация уязвимости и её классификация), а вот уже эксплуатация полностью на модели.

Для оценки сложности задач использовали время до первого решения человеком в рамках реальных соревнований — какие-то простые разогревочные решались за 2 минуты, а самая сложная потребовала чуть больше суток. Авторы выявили очень сильную корреляцию между этой метрикой и долей решенных задач, и ни одна модель не смогла захватить флаг там, где людям требовалось больше 11 минут. То есть можно сказать, что модели текущего поколения слабоваты в длительном процессе рассуждений и выводов (что мы и так знали, это как раз одна из проблем, почему агенты не работают — ждём next gen фронтир моделей).

Ещё пара тезисов:
— мне показалось, что использовался достаточно примитивный агент, его понятно как улучшать, поэтому метрики на самом деле должны быть чуть выше. Вспомните историю про бенчмарк от META, писал тут.
— модели почти не отказывались делать поиск уязвимости, лишь Claude 3 Opus 4 раза послал авторов с формулировкой, что делать взлом - неэтично
— некоторые из задач были опубликованы до отсечки знаний моделей, что в теории может указывать на их переобученность, но кроме как с Claude 3.5 авторы не видят проблем: старые задачи (конец 22го года) сложны, и модели их всё равно не решили 😂

Читать полностью…

Сиолошная

Я был уверен, что Brown et al. подсмотрели этот приём у LMFAO....

https://youtu.be/XNtTEibFvlQ?t=76

Читать полностью…

Сиолошная

Второй пациент тоже оказался игроком, только на этот раз не в Civilization, а в CounterStrike.

Читать полностью…

Сиолошная

Но может и этого не потребуется — сами производители понимают, какие бабки могут потерять, и шевелятся, чтобы нарастить объемы. В декабре 2023-го в TSMS производили ~15'000 плат с чипами (не всех, а именно передовых, идущих в карты) ежемесячно. Но вот они открыли новую фабрику, которая на пике выработки может производить ~83'000 в месяц. Кроме чипов, есть ещё проблемы с быстрой памятью, но более-менее тоже срастается, производство наращивают, тренд за последние годы благоприятный.

3) Для масштабирования обучения моделей требуется огромный набор данных. Сейчас передовые модели обучают на ~15 триллионах токенов (это одновременно и самый большой общедоступный датасет, и сколько подали в LLAMA-3, и чуть больше слухов про оригинальную GPT-4, там было 12-13Т). Однако по оценкам экспертов, в интеренете проиндексировано примерно 500T дедуплицированных (с удалением повторений) токенов, и еще 3000Т являются приватными. И это только тексты.

Понятно, что качество может быть не самым лучшим, и может быть имеет смысл брать только топ-20% самых качественных — но в то же время по ним можно пройтись 5 раз вместо одного (было исследование, где показывалось, что от 4 проходов деградации почти нет).

Но компании активно тренируют мультимодальные модели, добавляя картинки, видео и даже аудио. Даётся оценка, что видео и картинки ещё накинут по 500T сверху (если 1 картинку и 1 секунду видео считать за 22 токена), и ещё столько же от аудиозаписей. И всё это — даже без синтетичсеких данных, когда мы заставляем модель что-то сгенерировать, а потом на этом тренируемся.

Множество исследований показывает, что в отдельных доменах (математика, программирование) это работает хорошо и даёт прирост к качеству, а не приводит к разного рода проблемам. С другой стороны, есть исследования (вот свежее, прям сегодняшнее, от Cohere) показывают, что тренировка на коде даёт приросты качества и по другим задачам — вообще очень клевый феномен позитивного переноса навыков.

Итого: пессимистичный сценарий таков, что будет доступно лишь 450 триллионов качественных токенов для тренировки (позитивный — 23 квадралионна, ну там всего хватает), чего хватает на тренировку модели, превосходящей по затраченным ресурсам GPT-4 в 3000-5000 раз (и это без повторений данных). Но реалистичный сценарий в целом благоприятный, проблем возникнуть не должно, главное чтоб мощности были.

4) Задержка соединения/синхронизации инфраструктуры. Тут я напишу меньше всего, так как там просто делаются расчёты количества данных, необходимых к пересылке между видеокартами и датацентрами в ходе обучения. В целом, с минимальными допущениями о развитии технологий передачи и хранения данных — всё окей. В 10'000 раз отмасштабировать тренировку сможем, и скорее всего даже в 100'000 (именно с точки зрения этого ограничения, если других не будте), и вероятно даже в миллион — а вот после этого всё. Дальнейшее увеличение масштаба потребует альтернативных сетевых топологий (как девайсы и датацентры между собой общаются) и уменьшения задержек при передаче данных.

====

Вывод такой:
Несмотря на то, что существует значительная неопределенность в отношении точных масштабов обучения, которое вообще технически осуществимо, анализ показывает, что к 2030 году, очень вероятно, возможны обучение с ресурсами примерно в 10'000 раз больше, чем LLAMA-3-405B / GPT-4.
Ограничение, которое скорее всего будет являться пробоемой в первую очередь, является электроэнергия, а во вторую —  способность производить достаточное количество чипов.

Дальнейшее масштабирование за этими пределами потребует уже значительного расширения энергетической инфраструктуры и строительства новых электростанций, сетей с высокой пропускной способностью для соединения географически распределенных центров обработки данных, а также значительного расширения мощностей по производству чипов.

Ну чё, ждём Stargage 👍

Читать полностью…

Сиолошная

1. Теперь можно дообучать не только GPT-4o mini, но и старшую версию. OpenAI рекомендуют начинать примерно от сотни примеров, которые можно относительно оперативно готовить руками даже для достаточно сложных задач.

2. Помните Devin? Это AI-инженер, который весной рекламировали как автономного исполнителя задач, и в качестве демо показывали, как система закрывает запросы на исправление багов/добавление фичей на GitHub. Вот для того, чтобы померить его качество, использовали бенчмарк SWE-Bench, где команда из Princeton University подготовила более 2000 примеров из реальных репозиториев: вот запрос от пользователя (GitHub Issue), вот набор тестов (который не показывается модели), который нужно пройти, чтобы реализовать функциональность. Причём, репозитории были большие, которые не влазят в контекст модели, потому нужно учить LLM работать с десятками файлов.

На прошлой неделе OpenAI представили SWE-Bench Verified, подготовленный совместно с исходной командой проекта. Сюда вошло 500 задач, которые были отобраны и перепроверены вручную. Как оказалось, не все задачи решались, не для всех тесты были написаны правильно (иногда проверяли другие фичи), и как следствие 100% качества было просто невозможно достигнуть.

3. Ну так вот, объединяем две новости вместе: в качестве Proof-of-Concept OpenAI совместно с cosine.sh сделали Genie, GPT-4o, дообученную на задачи программирования и SWE Bench. И вот эта модель теперь держит топ-1 на официальном лидерборде, обогняя все наработки. Из 500 задач система решает 219, что очень ощутимо.

Также на полной выборке из более чем 2000 проблем решается 30.08%, что может показаться маленьким числом, однако прошлый лучший результат был 19.27% — прирост более чем на 50%!

Программисты напряглись 😦

4. Использование затюненной gpt-4o-2024-08-06 будет стоить на 50% дороже, но всё ещё меньше, чем майская gpt-4o-2024-05-13 (потому что летом цену снизили в 2 раза, писал тут).

Читать полностью…

Сиолошная

Aidan Gomez, CEO Cohere и со-автор оригинальной статьи про Трансформеры, сходил на интервью после недавнего раунда инвестиций (привлекли полмиллиарда долларов при оценке $5.5B), а я посмотрел его для вас и выписал интересное:

— дальнейшее масштабирование моделей точно будет работать, но это не отменяет остальной исследовательской работы по улучшению качества данных / алгоритмам
— сейчас фокус Cohere на синтетических и высококачественных данных; чтобы синтетика заработала, нужно собрать много экспертных данных. Сейчас разметка сильно дорожает, так как раньше можно было брать случайного человека с улицы, и он мог бы LLM-ку чему-то научить, а теперь нужны эксперты в доменах. Сначала это были студенты разных направлений, сейчас PhD и просто люди с опытом, а дальше придётся привлекать околомировых экспертов. Из-за этого сильно падает скорость (сложнее масштабировать разметку, мало людей) и растёт цена
— Тут цифры от меня для наглядности: их партнёр по разметке Scale.AI (тот же, что и у OpenAI) удвоил выручку в 2023м, а в этом планирует утроить до $1B. Вот такой рост в 6 раз с релиза ChatGPT, просто несколько компаний миллиард долларов в разметку вбухивают.
— но с точки зрения рядового пользователя все сложнее станет отличать модели по их генерациям в ответ на запросы. Люди не эксперты в биологии/математике/исследованиях/итд, и потому может казаться, что ничего не меняется, прогресса нет. Разницу в 0.5% на общем бенчмарке не ощутишь. Но вот эскперту в каком-то узком домене будет сильно приянтнее работать с новым поколением моделей.
— сейчас все компании продают доступ к моделям с маленькой маржой, ибо рынок очень конкурентный. Но скоро, с появлением приложений на моделях следующего поколения, всё изменится (начнём платить за решение задач и результат, а не за токены)
— Cohere пока не видят надобности в постройке собственного датацентра, у них плодотворное партнёрство с несколькими провайдерами (с маленькой маржой как раз). Они прикинули цифры и поняли, что ну просто не надо. Это сильно отличается от подходов тир-1 лабораторий, которые ставят на масштабирование: им без ДЦ с новыми видеокарточками не обойтись.
— Aidan ожидал быстрого прогресса в индустрии и технологии (потому и стартанул компанию), но всё развивается даже резвее его ожиданий. Ключевым моментом было появление ChatGPT, когда технологию дали в руки десятков-сотен миллионов юзеров
— голосовая модадльность от OpenAI в gpt-4o точно стоит ресурсов на разработку (видимо, скоро ждем от всех подряд такие модели), очень крутой новый интерфейс, сложно передать ощущения от использования, это не то же, что и «чат но со звуком»
— по мнение Aidan, OpenAI сейчас больше ориентируются на разработку продукта, нежели AGI, но вместе с тем кажется, что это просто необходимый шаг для оплаты счетов за разработку (вычислительные мощности и датацентры + зарплаты кадрам)
— одно из самых больших заблуждений людей и бизнесов: «AI ошибается и галлюцинирует, не отражает реальность». Но люди тоже путаются, ошибаются, неправильно вспоминают (выдумывают) и просто забывают вещи. И мир как-то существует на этом. И по бенчмаркам видно, что модели становятся лучше и лучше. Но многие бизнесы этого не понимают, и не начинают адаптацию к будущему -> отстают
—  Про агентов Gomez сказал «the hype is justified», первые версии будут в течение следующих 6 месяцев (с выходом нового поколения фронтир моделей, я думаю — раньше ждать нечего)

Читать полностью…

Сиолошная

Sama твитнул, что OpenAI достигли договорённостей с US AI Safety Institute (такой есть), являющегося частью National Institute of Standards and Technology (NIST). Цель партнёрства — независимое предварительное тестирование грядущих фронтир-моделей компании.

Кроме этого, напомню, что буквально до конца недели истекает срок в 90 дней, которые OpenAI отвели сами себе для работы комитета по безопасности над списком рекомендаций по развёртыванию и защите будущих моделей — новость тут. Это не значит, что мы получим увлекательное чтиво буквально завтра — до публикации в общем доступе документ сначала должен пройти оценку советом директоров (большая часть которых так и так над ним работала). Но оптимистично где-то в серединке сентября должно быть. Также дополню, что именно в этом посте было написано о начале тренировки next frontier model.

🙏 ждём новостей, утечек и последующего релиза, что бы там не готовили.

О, и да, по старой схеме (как было перед GPT-4) OpenAI снова ищут инвестиции, оценка компании, согласно Bloomberg, будет выше 100 миллиардов долларов (с прошлых $83B):
1) выпуск маленькой модели, но с новой технологией, на всех (Strawberry)
2) подковёрное тестирование новой модели
3) привлечение капитала с секретными демонстрациями потенциальным инвесторам (Microsoft GPT-4 аж в Bing запихнули тогда)
4) публичный анонс

Читать полностью…

Сиолошная

===

Смотрите, я долго думал, писать разбор сразу сюда и на русском, как вы привыкли, или же переводить на англ и выкладывать на Substack, задерживая выход тут на 1 день.

С одной стороны соблазн привлечь людей на новую площадку через шантаж контентом велик, с другой — ну не оставлять же вас ни с чем, да и как-то это неправильно. Поэтому решил выложить как обычно сюда.

Но я предлагаю вам следующее: сейчас там 820 подписчиков, что означает, что закрыто 2 планки из трёх. Если подпишется ещё 180 человек (это бесплатно, нужно просто оставить имейл — делается в два клика), то я обещал написать и опубликовать длиннопост (на русском, тут, для всех — но перевод всё равно будет).

Можете подписываться даже если знаете, что не будете читать на английском, просто для того, чтобы а) поддержать б) развести меня на лонг. Можете даже подписаться мне на зло, чтобы я не сидел делом занимался, а буковки писал. Зашли, кликнули, вышли — делов на 1 минуту.

Всего 180 человек и я стартую...материал выписан, план для лонга намечен.

-> https://seeall.substack.com/
-> https://seeall.substack.com/
-> https://seeall.substack.com/

Читать полностью…

Сиолошная

Первая картинка:
— каждый 10й кадр в статичной ситуации, где игрок не двигается. Сверху — генерации модели, обученной без шума (и потому начинающей накапливать ошибку предсказаний и от того раздалбывать картинку), снизу — с добавлением (всё стабильно).

Вторая картинка:
— результат дообучения декодировщика (который разворачивает сжатый латент в изображение) по центру. Видно, что относительно исходной модели это позволяет избежать артефактов, особенно в нижнем меню с цифрами, указывающими на здоровье/броню/патроны. Самый правый столбик — исходное изображение «как должно быть» из движка игры.

Видео:
— это видео записи игры в полностью симулируемом окружении. Игра не запущена, все кадры тут генерируются моделью в ответ на действия игрока (или агента). Жмёте кнопку вперёд — модель рисует кадры так, будто вы пододвигаетесь к стенке. Стреляете — несколько следующих кадров будут иметь анимацию стрельбы (а повторное нажатие на кнопку не вызовет срабатывание анимации: модель это выучила по игре, как именно работает логика). Также модель выучила правила среды, в которой существует агент: например, если топтаться в зелёном ядовитом болоте, то здоровье уменьшается.

Читать полностью…

Сиолошная

Пока я готовлю пост(-ы) для Substack (если ещё не подписались, хоть это и бесплатно и делается в два клика — обязательно сделайте это, осталось меньше 100 человек до второй планки, и тогда будет стрим с ответами на ваши вопросы!), давайте посмотрим на свежую новость про OpenAI. TheInformation пишет, что:
— два человека, вовлечённых в процесс, утверждают, что OpenAI может запустить давно порождающую слухи технологию Strawberry (ранее называлась Q*) уже осенью.
— Напомню, Strawberry якобы может решать математические задачи, с которыми раньше совсем не сталкивалась, а также она была обучена решать более сложные задачи в программировании. Но дело не ограничивается ответами на технические вопросы —система в целом будет куда лучше рассуждать и «думать»
— в рамках демонстрации модель смогла решить сложный пазл New York Times Connections (вот ссылка, попробуйте разобраться сами), где нужно объединять слова в группы по 4 по смыслу/теме
— сначала планируется выпустить маленькую версию Strawberry — это как бы не GPT-5, саму технологию будут использовать поверх GPT-4/ChatGPT. По сути это дистилляция из большой модельки в маленькую, как сейчас зачастую делают ведущие игроки
— кроме этого, есть проект Orion (в моей интерпретации это скорее всего GPT-5, но в новости про это не говорится), включающий в себя модели большего размера. Старшая версия Strawberry будет генерировать синтетические данные для дообучения и прокачки Orion
— синтетические данные нужны для того, чтобы преодолеть ограничения на получение достаточного количества высококачественных данных из реального мира для обучения Orion
— ожидается, что в сумме все техники + дальнейшее масштабирование существенно снизит долю ошибок/галлюцинаций моделей
— в мае на приватной встрече Sam Altman говорил, что «мы чувствуем, что нам хватает данных для обучения новой модели. Мы проделали все типы экспериментов, включая генерацию синтетики».
— OpenAI ожидает существенного прироста выручки от запуска этих двух систем (Orion и Strawberry), и ищет потенциальных инвесторов, чтобы привлечь ещё больше денег (как было в случае с Microsoft и $10B за ~2 месяца до GPT-4)
— но технология и модели по большому счёту уже готовы: по сообщения источника, летом OpenAI уже продемонстрировала Strawberry представителям агентств по национальной безопасности

Дополнительный контекст:
— следующая модель Gemini от Google и Claude 3.5 Opus от Anthropic должны появиться в первой половине осени, и моя догадка такова, что младшая версия Strawberry доберётся до ChatGPT/моделек примерно в то же время (OpenAI не может себе позволить отставать от конкурентов, будучи постоянным лидером в гонке). А вот Orion можем не увидеть ещё долго, больше полугода

Читать полностью…

Сиолошная

Вторая более позитивная: некогда самый богатый человек мира Jeff Bezos, если вы не знали, тоже увлекается ракетами. Его компания Blue Origin даже немногим старше SpaceX (на 2 года)!

И вот 13-го октября состоится первый тестовый пуск тяжелой ракеты-носителя New Glenn. Смешно то, что за всё это время у Blue Origin это будет ПЕРВЫЙ орбитальный полёт (за 24 года). При этом у компании уже есть подряды и договорённости с заказчиками на более чем 10 миллиардов долларов. Клёво раскидывают деньги, в общем)

Но за успех пуска буду болеть всеми силами, больше игроков, выше конкуренция, быстрее развитие технологий — лучше всем в индустрии. А New Glenn ещё и должна стать многоразовой — в первом полёте может состояться тестирование посадки первой ступени на баржу (как у Falcon 9, но тут ракета тяжелее и крупнее), но это пока не определено.

Ракета займёт место аккурат между Falcon 9 и Falcon Heavy по массе выводимой нагрузки:
— на низкую опорную орбиту: 17.4 -> 45 -> 63.8 тонн
— на геопереходную орбиту: 5.5 -> 13 -> 26.7 тонн

И по цене пуска тоже где-то там между Соколами.

Как вы могли понять по второму абзацу, у компании Jeff'а кардинально другой подход, не итеративный, как у SpaceX: всё просчитать и протестировать заранее, а затем уже пускать готовое изделие после -дцати лет разработки. Надеюсь, всё же попробуют осуществить посадку, и будут стримить это со всех возможных камер — и мы проверим, насколько подход рабочий.

Читать полностью…

Сиолошная

Наконец-то могу с вами поделиться: последние полтора месяца был альфа-тестером в «закрытом» тестировании следующей игры Valve (это которые Half-Life, Counter Strike, DotA 2, Team Fortress — то есть одни из лучших и самых загребуших игр делали) под названием Deadlock. Жанр игры — MOBA (как дота), но стрелялка. Можно думать как про смесь DotA 2 + Overwatch + Team Fortress 2.

С сегодняшнего дня об этом разрешено рассказывать публично, стримить игру, делиться записями — до этого был запрет (но вот в TheVerge написали..). Это не помешало игре получить онлайн в 45 тысяч игроков одновременно (ахахха закрытое тайное тестирование!) и войти в топ-50 игр по онлайну. Как полноценный тестировщик, я отчитался уже более чем о 10 найденных проблемах. Правда на форуме больше 200 страниц багов — не знаю, как разработчики будут всё исправлять...

К сожалению, всё ещё действует система приглашений — прям как на заре DotA 2, помню, как пытался получить себе ключ от игры (их ещё продавали!). Для этого нужно добавиться в друзья в стим. Если вы хотите поиграть, и если вы часто что-то пишете в комментариях (то есть я знаю вас по аватарке и нику) — скидывайте ссылку на стим, я вас добавлю и отправлю. К сожалению, не могу пригласить всех, иначе придётся разорваться.

Игра ОЧЕНЬ затягивающая, и кажется после двух неудачных попыток (Artifact и Dota Underlords) у Valve получилось сделать полноценный продукт с хорошими механиками и геймплеем. К сожалению, порог входа достаточно высок, первые игр 10 вы не будете понимать ничего, всё будет казаться сложным, и придётся довольствоваться счётом 1-12. Главное этот период пережить :)

Прикладываю нарезочку своих моментов 😎 (осторожно, присутствует МАТ). Пояснение для первого видео: одним выстрелом из снайперской винтовки я убил двоих, оформив «шашлычок», и это был матч ну может в первой десятке, так что я удивился.

Читать полностью…

Сиолошная

Является ли человечество единственной технологически развитой цивилизацией во Вселенной? В попытке ответить на этот вопрос итало-американский учёный Enrico Fermi сформулировал Парадокс Ферми: согласно современным научным представлениям должны существовать внеземные технологические развитые цивилизации, деятельность которых наблюдалась бы людьми, однако никаких достоверных фактов таких наблюдений нет.

Этот парадокс потенциально может вести к выводу, что наше понимание природы или наши наблюдения неполны или ошибочны. В последствии было предложено множество способов расчёта и гипотез, пытавшихся объяснить наблюдаемую нами картину (а именно что мы никого не видим).

Одна из теорий — Grabby Aliens, появившаяся в 2021-м году (её предложил тот же человек, что придумал концепцию Великого фильтра). Её я и постараюсь кратко описать.

Можно вывести концепцию шагов, которые необходимо пройти для того, чтобы стать цивилизацией. Такими шагами могут быть «планета стала пригодной для развития жизни», «появились первые саморазмножающиеся молекулы» или «цивилизация не сгинула в пепле ядерного огня». Сколько всего шагов — сказать сложно, но мы можем строить оценки на основе наблюдений над Землей — мы примерно знаем, сколько планете лет, и сколько примерно лет она ещё будет обитаемой (1.1 миллиарда+-, не переживайте).

Над этой концепцией строится формула, которая описывает, насколько рано мы появились во вселенной. Работает она так: чем больше шагов необходимо преодолеть, тем более вероятно, что мы появились очень рано (так как маловероятно, что всё так сложилось именно сейчас: этого стоило ожидать сильно позже). Для длительности периода пребывания планеты в обитаемом состоянии это тоже верно: если планеты находятся в благоприятном состоянии триллион лет (в 71 раз больше, чем существует Вселенная), то вероятность, что жизнь на них пройдёт все шаги, повышается — грубо говоря будет много попыток.

Фишка в том, что если мы подставим консервативные оценки наблюдаемых значений (6 шагов и примерно 10 миллиадров лет в обитаемом состоянии), то получается, что мы в числе 10% первых цивилизаций — появились очень рано. Чтобы не выглядеть ранними пташками, нужно предположить уж очень натянутые оценки (например, что шагов всего 4, а планеты в среднем не живут дольше Земли, что почти наверняка неправда — есть звёзды, которые будут существовать очень долго без увеличения, и не поглотят свои планеты, как наше Солнце в будущем).

Быть в числе первых — это конечно приятно, но такая ситуация крайнемаловероятна. Обычно такое требует объяснений, или перепроверки модели. Нечто, чего по шансам никто не ожидал и по теории вероятностей не должно было случаться, произошло.

Читать полностью…

Сиолошная

Одно из самых распространённых применений LLM (и одно из самых первых, ещё до GPT-3.5) — это ассистент-копайлот для разработки. Модели видели кучу кода, и могут достаточно неплохо справляться с рутиной/часто повторяющимися кусками.

Пару месяцев слежу за Aider — опенсурсным консольным ассистентом, который подключается к любой модели с помощью вашего API-ключа. Затем вы указываете папку с проектом, можете сузить контекст до нескольких файлов, пишете запрос — и начинается чат-сессия, где копайлот пишет тесты/код/вносит правки по вашему запросу. Сам я Aider не пробовал (но сидел на GitHub Copilot ещё с бета-теста, и даже получил футболку от OpenAI за соревнование, лол), но выглядит привлекательно.

В истории разработки автор проекта ведёт статистику того, какую долю каждого обновления написал сам копайлот — её вы можете видеть на верхней половины картинки (а ниже — сколько строк кода изменений). Интересно видеть, как с версии v0.40 (вышла в конце июня) процент начал существенно расти, и для последних релизов составляет уже больше 60% — при том что сами обновления не маленькие, модель пишет по 400+ строк!

И там прям добавляются новые фичи — совсем недавно завезли кэширование промпта для удешевления разработки (так как Aider строит длинный промпт с картой вашего репозитория, описанием классов и функций. Их можно скормить провайдеру LLM один раз, а дальше обращаться к сохранению), поддержку новых провайдеров, параметры вызова, запуск демо в браузере, да много чего. Не свистоперделки пустые, а настоящие продуктовые полезные фичи. И получается, что чем полезнее сам ассистент, тем больше он на себя берёт ... свою же разработку 🤨

Посмотреть примеры чатов с ассистентом, чтобы понять, насколько это полезно вам, можно тут.

Попробовать самим — тут.

Читать полностью…

Сиолошная

Ну и метрики. От начала и до конца самостоятельно лишь 3 модели могут решить больше 4 задач (10%), при этом Claude 3.5 Sonnet идёт с хорошим отрывом.

На картинке:
— «Unguided % Solve» (1-ая колонка): решение от начала и до конца, без подсказок
— «Subtask-Guided % Solved» (2-ая): процент решенных задач, когда решения всех подзадач видны модели. То есть ей нужно взглянуть на подсказки и сделать самую главную, последнюю часть, непосредственно сам взлом
— «Subtasks % Solved» (3-ья): усреднённый процент решенных подзадач (то есть когда вопрос задан, и на него нужно дать правильный ответ)
— дальше в двух колонках идёт «оценка сложности» самой сложной задачи в минутах, затраченными людьми на соревновании. Тут gpt-4o смогла решить одну очень сложную и длинную задачу на 52 минуты, когда ей дали все подсказки с ответами.

Глобальные выводы такие:
— Claude 3.5 Sonnet возглавляет таблицу, но GPT-4o работает сильно лучше, когда ей дают подсказки из подзадач
— лучшая опенсурсная модель (от META, LLAMA-3.1 405B) очень сильно отстаёт, решая лишь треть подзадач относительно модели Anthropic. Это ещё раз к вопросу о том, что по простым бенчмаркам, которые уже близки к пикам своих метрик, разница действительно может быть слабо заметна, но в сложнейших сценариях, находящихся на или даже за границей навыков моделей — пропасть. Думаю, осенью она станет ещё шире 😃 ожидайте
— Gemini как-то совсем плохо, но сделаю одолжение гуглу и заключу, что наверное авторы как-то не так использовали API, может, с параметрами ошиблись или ещё чего. Я тут намедни поработал с их библиотекой для запросов в GenAI, ощущения негативные 🎃

Читать полностью…

Сиолошная

Правда про few-shot learning

Возможно, вы слышали, что OpenAI в 2020 в статье Language Models are Few-Shot Learners показали, что GPT-3 способна к in-context learning, если в промпте подать примеры выполнения ранее невиданной задачи.

На деле же эминем в 2004 уже применял этот подход в своих работах

YouTube
Spotify
Yandex Music

@neural_cat

Читать полностью…

Сиолошная

Запись того, как второй парализованный пациент с чипом Neural Link играет в CS 2

Просто бегать вокруг так приятно, потому что я могу смотреть по сторонам, и мне не нужно двигать Quadstick (джойстик) влево и вправо... Я могу (думать о том, куда) смотреть, и оно идет туда, куда я хочу. Это очень круто


Это на второй день после подключения к мозгу 🤯

Отсюда:
https://neuralink.com/blog/prime-study-progress-update-second-participant

Читать полностью…

Сиолошная

Насколько я понимаю, Sama считает, что нужно будет гораздо больше (в том числе и для применения моделей, не только ж их тренировать), и потому

НУЖНО. МАСШТАБИРОВАТЬ. ВСЁ. ЕЩЁ. БОЛЬШЕ.

Читать полностью…

Сиолошная

Can AI Scaling Continue Through 2030?

Пост начал писать вчера, и телеграм съел черновик первой половины, вводную, поэтому её не будет 🤷‍♂️ Все претензии к Дурову. У меня вчера так и рабочие заметки во время встречи пропали, но я подумал, что мб сам неаккуратно что-то сделал, удалил.

В общем, как я много раз говорил, единственный стопроцентный способ делать модели лучше — увеличивать количество мощностей, проходящих через них во время тренировки. Сами модели при этом тоже увеличивают, как и количество поглощаемых данных. Ну и тренировать можно подольше и на бОльшем кластере видеокарт 🙂 А любое исследование по улучшению НЕ гарантирует результатов: что-то может выстрелить, что-то нет. Поэтому все передовые компании хоть и имеют сильные исследовательские отделы, но всё равно закупают видеокарты и строят датацентры.

Основное переживание AI-скептиков — что дальше модели масштабировать не получится. Вот условная GPT-4 во время тренировки выполнила вычислений в 10'000 раз больше, чем GPT-2 (то есть на неё потратили на 4 порядка больше compute, компьюта — вычислительных мощностей). Можно подумать: «конечно же такого большого скачка в ближайшее время не предвидится».

Так вот, исследовательский институт EpochAI выпустил аналитический отчёт, в котором пытается разобрать этот вопрос с точки зрения ограничений. Всего их 4:

1) Энергия. Скорее всего, для датацентра, на котором такую модель будут тренировать, потребуется источник питания на 5-6 GW (гигаватт) — это и на охлаждение, и на всё про всё. В США всего 27 станций с выработкой более 2.5 GW (самая крупная — ГЭС Гранд-Кули, 6.8GW), но при этом во всей стране производится в среднем 477GW (но сеть может вырабатывать и до 1200GW). Amazon недавно прикупил себе ядерную электростанцию на 0.96GW, но часть энергии идёт на близлежащие производства, и они не могут их просто выкинуть. А строить с нуля новые станции — дело небыстрое, даже если есть деньги.

Крупнейшее скопление кластеров (не только с GPU) в США находится в Северной Вирджинии — там более 300 датацентров, которые потребляют как раз примерно 5GW суммарно (и предсказывается повышение мощностей к 2030-му до 10GW).

На фоне этих цифр делается вывод, что скорее всего тренировочный кластер будет распределённым и стоять в нескольких штатах, черпая энергию от разных источников / из сети (хотя отмечается, что те игроки на рынке, кто готов переплатить, могут успеть к 2030-му запустить и свои станции, если они уже начали готовиться). По меркам текущих кластеров это всё ещё много, но в масштабе индустрии и целой страны — не должно стать проблемой.

2) Производство чипов. В этом году Nvidia планирует продать 1.5-2M H100 (и ещё пару миллионов других серверных GPU). Однако последние 10 лет наблюдается тренд с ростом производимого компьюта в 4x/год. То есть каждый год суммарно с конвейера сходит столько видеокарт, что они суммарно дают в 4 раза больше мощностей, чем в предыдущий (не в последнюю очередь благодаря тому, что и сами чипы становятся мощнее — их не просто больше). Оценивается, что к 2030-му должно быть произведено порядка 100M H100-аналогов, и игрок, который выкупит 20% от этого, сможет себе позволить запустить тренировку с 10'000 раз большим компьютом, чем GPT-4.

Сейчас эти цифры кажутся огромными, тем более что мы слышим из новостей про проблемы масштабирования производства чипов. Но всё дело в том, что заказы на передовые серверные GPU в производстве TSMC — это капля в море (в 2024м году оценивается, что заказы на Nvidia H100 составят всего 5% от производства 5-нанометровых чипов). Если Nvidia/AI-индустрия будет готова переплачивать столько, что TSMC откажется от других клиентов, и перенаправит мощности только на GPU — это уже даст огромный скачок. Такой сценарий не кажется невероятным: в 2023-м году Apple выкупили 90% 3-нанометровых чипов, по сути просто всё себе забрали (понятно, что другим может быть и не надо было).

Читать полностью…

Сиолошная

В комментариях спросили:
«а что значит не начинают адаптацию к будущему? как бизнесы уже сейчас должны адаптироваться?»

Это хороший и важный вопрос. Пишу ответ сходу из головы и без подготовки, поэтому что-то могу упустить, но верхнеуровнево выглядит так:
— Анализ процессов и определение потенциальных юзкейсов. Какие-то вещи можно аугментировать уже сейчас (просто люди на местах не знают / не умеют / не пробовали / им запрещено), какие-то можно автоматизировать через разработку, а какие-то получится заменить в ближайшем будущем. Большие компании могут себе позволить наметить план разработки, а вот малые и средние скорее просто поймут, какие решения искать на рынке. Самый простой пример — HR рутина с общением с кандидитами / обсуждением удобного времени, и базовый скрининг резюме, где отсекается 80% кандидатов, отправивших письмо на шару.
— Данные. Нужно понять, что модели ни текущего, ни следующего поколения не смогут работать с бесформенной кучей непонятно чего, а даже если смогут — качество будет не таким впечатляющим. Распространённая болезнь что все заметки и знания о проекте, которые нужны в работе, раскиданы произвольно то тут, то там — часть сообщениями в почте, часть в гугл доке, еще немного в презентациях и PDF, часть в заметках на ноутбуке, часть в ноушене, и остаток в конфлюенсе (с тех пор, как попросили завести документацию, но все забили). Тут хорошим примером может быть онбординг нового коллеги, которому нужно в кратчайшие сроки получить максимально актуальную и полезную информацию о состоянии дел и его новых компетенциях. Если такой процесс есть, и всё доступно, то нужно применить схожую подготовку к другим блокам данных, релевантным задачам из пункта выше.
— Процессы, связанные с данными. Куда сложнее наладить процесс так, чтобы данные обновлялись и актуализировались, и чтоб на это не забивали.
— Бенчмарки. Для части задач нужно собрать сколько-то кейсов (не более сотни), по которым можно судить о качестве работы модели. Так вы поймете, если что-то системно идет не так, или наоборот, что вот нововышедшая модель очень хорошо разбирается в задаче и реально может подменять МарьИванну в задаче X. Бенчмарки плавно вытекают из пункта о данных выше.
— Рабочие процессы и осведомлённость сотрудников о технологиях. Какие сейчас есть проблемы у ChatGPT и Claude, где ими не стоит пользоваться, какие вещи проверять, как промптить, ну и самое банальное — разрешить доступ из сети компании (а то ведь многие блокируют!), объяснив, какие вещи не должны покидать контур. Для программистов — оплатить Copilot (в прошлом году от 2/3 компаний слышал «мы не хотим чтобы наш код отправлялся там кому-то!», в этом значимая часть поборола страх и покупает подписки разрабам).

В итоге поскольку в больших компаниях первые 3 пункта займут 1, а то и 2 года — как раз к тому моменту появится, что прикручивать поверх. Зато последний пункт позволит потихонечку начать пересаживаться и использовать технологию.

Читать полностью…

Сиолошная

Что это всё означает?

1) генерация синтетических данных агентами в некоторых кейсах даёт существенный прирост качества. И чем качественнее базовые модели, тем, по идее, сильнее результат. Такое уже используют в программировании и математике, ну и диалоги тоже вот генерируют — не вижу причин для остановки и сужения спектра задач. Жаль только в статье не анализировали качество между итерациями, чтобы понять прирост.

2) С выходом следующего поколения моделей (GPT-5, Claude 4, Gemini 2, ...) не вижу причин не разворачивать подобные системы в развивающихся странах и ниже по иерархии. Там у людей зачастую нет доступа к передовым врачам, и получать рекомендации от схожих систем всё равно куда лучше, чем не делать ничего. Хорошо, что все передовые модели мультилингвальны и хорошо понимают и говорят на десятках языков, что существенно расширяет спектр применимости

3) Ждём следующий шаг, объединение сильной базовой модели с аудио и, возможно, видео, чтобы ещё меньше разницы было при сравнении тестирования и реального сценариев использования. Условная GPT-4o может быть и уже тянет на телемедика, который проводит полную диагностику по телефону и выдаёт рекомендации. А ведь в LLM ещё и анализы результатов закинуть можно!

4) Как обычно, не стоит оценивать ответы модели по первой генерации. Нужно давать возможность порассуждать, покритиковать саму себя, переписать ответы, ну и не экономить на промптах.

5) ответы модели были сильно длиннее ответов людей (частая болезнь LLMок), но с другой стороны пока в тот же отрезок времени (20 минуту на диагностику) процент правильных ответов (НЕ В ТЕСТЕ, В ДИАЛОГЕ) выше человеческого — это не должно быть проблемой.

6) Хреновы бюрократы-проверяльщики не дадут внедрить такие системы, даже если они будут в 3 раза лучше людей по всем объективным параметрам, до 2050го года( 😔

7) начинать внедрение надо уже сейчас, потому что пока поменяются процессы, пока люди привыкнут, пока всё обкатают и обкашляют — там уже технология разовьётся так, что вопросы про лучше-хуже отпадут. Этот же принцип применим и в образовании, и в других доменах.

На гифке визуализирован трехстадийный процесс генерации ответа, описанный в предыдущем сообщении.

Читать полностью…
Subscribe to a channel