Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Добавили в Симулятор DS новую задачу, где нужно написать computer use на минималках (аля как у Claude), для мобильного приложения
AI/ML: OMNIPARSER
Уровень: Easy
Мы мобильное приложение и хотим покрыть наш сервис тестами. Нанимать отдельного тестировщика ни времени, ни бюджета нет. Поэтому мы решили написать AI-тестировщика. Он будет на основе "сырых" скриншотов экрана распознавать интерактивные элементы на изображении и понимать, куда кликнуть для проверки того или иного сценария взаимодействия с приложением.
Начать обучение ML/LLM в Симуляторе: https://bit.ly/3X1Q2BS
P.S. За подкинутую ссылочку на OmniParser модель спасибо Игорь Котенкову
Вчера увидел, что мой твит с комментарием по уходу из OpenAI Bob McGrew, VP of Research, лайкнул сам Bob. А потом случайно на ютубе наткнулся на его интервью годовой давности, и решил послушать между делом.
В целом не так много интересного, если активно следите за AI, но решил пересказать одну часть с историей про появление ChatGPT (вот таймкод):
— к середине осени 2022-го уже была натренирована GPT-4 (по официальным данным, тренировка закончилась в августе); в компании знали, что если они смогут придумать, как использовать модель на полную, то это будет невероятно. Вся компания пыталась придумать, что же с ней делать.
— John Shulman, глава команды, занимавшейся Reinforcement Learning (ныне ушёл в Anthropic), предложил сделать модель «разговорчивой», чтобы она могла вести диалог; для тех, кто не застал 2020-2022 годы в LLM: тогда модели просто дописывали текст по шаблону. В 2022м году их уже можно было промптить, давая какую-то задачу, примеры, но и всё.
— ещё до этого было ясно, что в будущем роль AI можно будет описать как «ассистент», но казалось, что модели ещё не достигли нужного уровня, чтобы помогать реальным людям в реальных задачах; поэтому даже не думали о подобном. К тому моменту GPT-3.5 уже около полугода была доступна в публичном API, и никто не сделал прото-ChatGPT.
— John сказал: «да, модели неидеальны, и мы знаем, что GPT-4 будет лучше, но давайте попробуем просто взять, обучить и выложить диалоговую модель в интернет. Может мы наберём хотя бы 10000 пользователей, и они помогут нам понять, где LLM плоха, и мы сможем начать итерироваться и улучшать её»
— Команда немного подумала, так как казалось, что это требует большого количества работы, но в итоге решили сделать и уложиться в НЕДЕЛЮ (ранее об этом писали, кажется, в WSJ, но ссылку за декабрь 22-го не буду искать). По сути, это был сайд-проект компании, они называли его «low key research preview», не было никакого медиа-освещения, не было рекламы. Были минимальные ожидания.
— Но по итогу всё полетело, и через 2 месяца ChatGPT оказался самым быстрорастущим продуктом из всех, достигнув планки в 100 миллионов пользователей. В это время многие сотрудники вообще другим занимались, но пришлось активно впрягаться и поддерживать проект; особенно активными были следующие 6 месяцев.
Вот такой вот урок по истории получился 🤓
🥸
===
Сделать ChatGPT с нуля: неделя
Добавить поиск по чатам: 2 года 😦
From Naptime to Big Sleep: Using Large Language Models To Catch Vulnerabilities In Real-World Code
В июне я писал про Naptime, проект по применению LLM в кибербезопасности от Google. С тех пор проект эволюционировал в Big Sleep (😄), коллаборацию с Google DeepMind для более масштабной работы. Проект всё ещё находится на исследовательской стадии, и авторы использовали в основном маленькие программы с известными уязвимостями для оценки прогресса. А потом решили позапускаться на реальных программах, которые каждый день используют миллионы программистов.
В рамках анализа одного из недавних изменений исходного кода SQLite автоматический LLM-агент (если не поняли что это — надо почитать предыдущий пост) на основе Gemini-1.5-Pro обнаружил эксплуатируемое переполнение буфера в стеке. Причём ошибка была лишь отдалённо связана с конкретно этими изменениями (большая часть причины, как я понял, оставалась за рамками изменений, но была невозможно без их внесения) — что не редкость при обычном ручном анализе вариантов. Исследователи даже подметили, что «в этом случае логи рассуждения немного напоминают работу человека — начиная с одной идеи, обдумывая несколько других в ходе исследования, и в конце создавая тестовый пример, который вызывает немного другую, но всё же ошибку»
В технические детали вдаваться не буду, те, кому интересно разобраться в уязвимостях в коде и почитать вырезки из рассуждений модели, которые привели её к прозрению и пониманию проблемы, могут найти это в основном посте.
Интересно, что ошибку нашли ещё до попадания в официальный публичный релиз, так что никаких пользователей это не затронуло. «Мы считаем, что эта работа имеет огромный оборонительный потенциал. Нахождение уязвимостей в программном обеспечении до его выпуска означает, что у злоумышленников нет возможности даже попробовать: уязвимости устраняются еще до того, как хакеры успевают ими воспользоваться».
Если я правильно понял, что имели в виду в блогпосте, то Gemini не отпускали просто на все 4 стороны: ей подавали на вход разные ошибки, которые уже удавалось отловить (в этом же репозитории или хоть где? не ясно), и говорили «Такая вот ошибка уже была; возможно, где-то есть еще одна похожая». Это позволяет сузить задачу от общей («найди любой код с уязвимостями») и задать направление вместо полного перебора всех возможных идей.
Баг был не самый простой для автоматического отлавливания традиционными методами. Обычно используют fuzzing, это когда в функцию или программу подают огромное количество случайных значений в некотором интервале и смотрят, не сломалось ли чего при тех или иных условиях. По идее, если дать достаточно времени, то подобная ошибка с определённой комбинацией условий могла бы найтись; однако используя официальный гайд по тестированию от самих SQLite за 150 CPU-часов и миллионы перебранных комбинаций уязвимость не выскочила, и скорее всего оставалась бы незамеченной долгое время.
А LLM не устают. Они могут читать и рассуждать гораааааздо быстрее и дольше кожаных аналогов. Ждём следующего большого поста, где Google'овцы заявят, что нашли 10-100 других багов пачкой, без ручного вмешательства.
Для примера ускорения, вот демка с написанием кода. Модель одна и та же, качество одно и то же, а пользовательский опыт куда лучше. Приятно!
Читать полностью…В ближайшие пару дней нас ожидает увлекательное шоу 🍿 под названием «выборы президента США»
Интересно, разродятся ли AI-компании релизами сразу после, в ближайшую неделю после окончания голосования? И что более интересно, в долгосрочной перспективе как скажется выбор конкретного кандидата на регуляции, субсидии и национальные программы в области? Станет ли Elon Musk главной совета по эффективности? Скажется ли это как-то на скорости развития инфраструктурных проектов вроде постройки/запуска АЭС?
Вполне вероятно, за следующий президентский срок не достигнут AGI, но AI за 4 года куда глубже проникнет в жизнь рядового пользователя интернета, повлияет на рынок занятости (как минимум корректировкой планов найма). С этими и многими другими вызовами обе партии могут справиться очень по-разному.
Да начнётся битва 🥸
===
Если вдруг не смотрели, то я очень рекомендую фильм Vice / Власть (там не про выборы 😑), да и другие картины этого режиссёра
P.S.: а) голосование по почте — бред б) голосование без ID — бред
Data movement bottlenecks to large-scale model training: Latency Wall
Развитие прошлой работы Epoch AI по оценке ограничений масштабирования моделей в будущем. Вот тут был разбор с обзором четырёх основных факторов, и сегодняшняя работа фокусируется на одном из них.
Из факторов, ограничивающих распределенное обучение в больших масштабах, наиболее простым для количественной оценки является естественная задержка в синхронизации девайсов, которая устанавливает верхнюю границу (Latency Wall) мощностей, на которых тренировка может быть совершена за фиксированное время независимо от того, сколько GPU используется.
Основная причина заключается в том, что более крупная модель обычно требует больше шагов обучения во время тренировки, и если это должно быть сделано за фиксированное время (например, 3 месяца), это означает, что каждый шаг должен занимать всё меньше и меньше времени. Если экстраполировать рост моделей, в конечном итоге время на шаг обучения становится настолько коротким, что ограничения не позволят обучать модели бОльшего размера.
В статье приводится много расчётов и оценок, и если вам интересна инженерная сторона вопроса, то рекомендую ознакомиться. Тут будет короткая выжимка выводов:
— сейчас в самые большие модели во время обучения вбухивают примерно 5E+25 FLOP , то есть 5 и 25 нулей, столько операций сделали карточки для обучения Gemini 1.0 Ultra
— если ограничивать тренировку 3 месяцами, то, по оценкам авторов, максимум можно будет пропустить через модель 2E+28 FLOP (в 400 раз больше), если придерживаться эффективного использования GPU (то есть когда время вычислений больше времени на простой из-за синхронизации карточек). Этого хватит, чтобы оптимально обучить модель на ~15 триллионов параметров («оптимально» = по Шиншилле)
— если продолжить текущие тренды, в этот потолок мы упрёмся через 3 года
— если пожертвовать эффективностью и быть готовым, что GPU большую часть времени будут на расслабоне, то Latency Wall отодвигается до 2E+31 FLOP, ещё на 3 порядка, то есть в тысячу раз (модель может вырасти на корень из тысячи ~= в 31 раз)
— все ограничения посчитаны для традиционной имплементации стохастического градиентного спуска, но потенциально тут могут быть прорывы, повышающие эффективность (и уменьшающие количество данных для синхронизации между картами); однако скорее всего они будут немного ухудшать качество
— одним из решений может быть увеличение размера батча, используемого во время тренировки (сколько слов за раз видит модель во всех примерах за один шаг обучения). Проблема в том, что существует «критический размер батча», после которого прирост качества снижается («diminishing returns», убывающая отдача). Возможно это приведёт к тому, что мы будем недотренировывать модели (делать их больше, делать батч больше, а тренировать меньше шагов — чтобы на каждый шаг было достаточно времени)
— потенциально Latency Wall можно будет отодвинуть ещё, если будут прорывы в обеспечении более быстрой коммуникации между девайсами. Уже сейчас в Google TPU используются какие-то навороченные оптические компоненты для улучшения масштабируемости, но я в этой теме ничего не шарю и не могу объяснить, в чём отличие от обычной оптики.
Подписчик поделился, что модель o1 (не превью, то есть не предварительная версия) от OpenAI как будто бы стала доступна. Для этого нужно перейти по ссылке https://chatgpt.com/?model=o1
В неё можно загружать как минимум картинки (и есть скрепочка для файлов), и она тоже «думает» (выставляет таймер рассуждений). Может, это всё ещё o1-preview, но в неё нельзя было загружать изображения.
Диалоги с медиа-элементами не шарятся через кнопку share, поэтому в виде доказательства только скрин.
Го тестировать! (вероятно, только Plus-подписчики)
Закидываем в модель самые сложные задачки на математику и программирование (и счёт объектов на картинках или видео, конечно)
UPD: в браузерной консоли разработчика видно, что тег модели o1, без preview, и тем более не 4o
И вот та же таблица в виде графика, но уже с фокусом на модели OpenAI.
Во-первых, видно, что модели разных линеек старших и младших поколений отвечают правильно на примерно одинаковую долю вопросов (синяя область). То есть в o1-preview знаниий примерно столько же, сколько в 4o, и то же верно для mini. Я видел замеры скорости генерации токенов для 4o-mini и o1-mini, и там показывалось, что она уж очень похожая (если для o1-mini считать токены рассуждений, ведь их количество прилетает в ответе, и вы за них платите), правда, ссылку сейчас не найду.
С большой вероятностью можно говорить, что модели o1 получены из базовых версий тех же моделей, что и 4o (ну или хотя бы что «они одного размера и видели одни и те же данные»), и что все приросты, которые мы видим на всех бенчмарках — идут за счёт рассуждений, а не запоминания бОльшего количества информации. Помните, я в своём лонге рассказывал про приросты в играх ЧГК? Ну вот.
Во-вторых, модели с рассуждениями чаще уходят в отказ, а не выдают ошибочный ответ. Это может быть связано с тем, что они могут использовать свои способности к рассуждению, чтобы разобраться и понять, когда они не знают ответа на вопрос, вместо того, чтобы галлюцинировать и выдавать фигню.
Measuring short-form factuality in large language models
Не статья, но по сути открытый бенчмарк от OpenAI.
Открытой проблемой в области ИИ является тренировка моделей на выдачу ответов, которые фактически верны. Современные языковые модели иногда выдают ложную информацию, не подкрепленную доказательствами (известно как «галлюцинации»). LLM, которые выдают более точные ответы с меньшим количеством галлюцинаций, более надежны, и могут быть использованы в более широком спектре задач и приложений.
Фактичность — сложный критерий, поскольку его трудно измерить: оценка любого произвольного утверждения — сложная задача, так как языковые модели могут генерировать длинные ответы, содержащие десятки фактических утверждений (не все из которых релевантны вопросу, но тем не менее могут быть правдивыми).
В SimpleQA OpenAI сосредоточились на коротких запросах. Всего в бенчмарке 4326 вопросов на разные темы (больше всего про технологии и науки, но есть и про музыку, историю).
Чтобы попасть в датасет, каждый вопрос должен был соответствовать строгому набору критериев:
— он должен иметь единственный, неоспоримый ответ, который легко верифицировать
— ответ на вопрос не должен меняться с течением времени; — большинство вопросов должны были вызывать галлюцинации у GPT-4o или GPT-3.5
Вопросы были заготовлены разными исполнителями в соответствии с требованиями выше. Затем второй эксперт отсматривал вопросы, не видя ответ, и пытался найти ответ. Если ответы не совпадали — такой вопрос не добавляли.
Для 1000 случайных вопросов привлекли ещё третьего эксперта, чтобы оценить чистоту данных. Его ответ совпадал с ответами первых двух в 94.4% случаев. 2.8% ошибок были вызваны невнимательной работой третьего эксперта, и 2.8% были вызваны реальными проблемами с вопросом (например, неоднозначные вопросы; или разные веб-сайты, дающие противоречивые ответы). Таким образом, OpenAI оценивают собственную частоту ошибок для этого набора данных примерно в 3%.
Примеры вопросов:
— Which Dutch player scored an open-play goal in the 2022 Netherlands vs Argentina game in the men’s FIFA World Cup?
— Who received the IEEE Frank Rosenblatt Award in 2010?
— What day, month, and year was Carrie Underwood’s album “Cry
Pretty” certified Gold by the RIAA?
— What is the first and last name of the woman whom the British
linguist Bernard Comrie married in 1985?
В стане чипов, заточенных под современный AI, прибыло. Вернее, стартап Etched рассказывал про чипы Sohu, заточеные под работу с трансформерами (архитектурой, лежащей в основе большинства современных LLM/VLM/...), ещё летом, и даже рисовал цифорки скорости
Чип является ASIC (Интегральная схема специального назначения), то есть он не может делать всё подряд, но может делать узкий набор операций, достаточный для работы современных сетей, ооооочень быстро. С их слов, в картах Nvidia только 3.3% транзисторов используются дял перемножения матриц (основная операция в нейронках), и они хотят это исправить и перебалансировать (больше тут).
Летом они говорили, что 8 чипов Sohu дают больше 500'000 токенов в секунду на LLAMA-3 70B (не для одного запроса, а для большой группы). По их замерам, даже 8 продвинутых B200 то Nvidia дают около 25-30 тысяч токенов в секунду.
Теперь же от графиков и слов перешли к чему-то более осязаемому. Парни из другого стартапа, Decart.ai, обучили диффузионную модель генерировать кадры из Minecraft в зависимости от ваших действий. Очень похоже на виртуальный сгенерированный Doom, про который я уже писал, так что опущу технические детали (читать самому тут). Утверждается, что обычная H100 может гонять модель на 500M параметров для генерации кадров в разрешении 720p с частотой 20 кадров в секунду, Sohu может позволить себе 4K@30FPS (в обоих случаях производится апскейлинг в 3 раза). В своём блоге Etched описывают видение, согласно которому через несколько лет большая часть видео будет генерироваться (тем актуальнее их чип), и что уже сейчас доля трафика под видео составляет 70% от всего — так что маркет очень большой.
Поиграть в сгенерированный Minecraft можно тут. Правда... она всё равно запущена на H100, а не их чипах 🤷♂️
Чуть меньше двух лет понадобилось OpenAI, чтобы добавить, казалось бы, такую простую фичу — поиск по чатам. Пользователи с подпиской Plus и Team получат доступ в течение дня — но пока только на Web (на сайте). Пользователи Enterprise и Edu получат доступ в течение недели.
Бесплатные пользователи начнут получать доступ к фиче в течение следующего месяца.
Но это конечно шок что ТАК долго делали столь необходимую вещь.
Про бедность — скорее всего, powerful AI продолжит развитие технологий для борьбы с голодом, разрабатывая лучшие удобрения и пестициды, или даже занимаясь генной инженерией отдельных культур (растений, не людей 👀).
4️⃣Мир и управление
Dario не верит, что AI повлияет на структуру демократии и правления в той же мере, что и на предыдущие 3 пункта.
Тут предлагается схема, схожая озвучиваемой главой OpenAI: создать коалицию демократий, имеющих доступ к (около-)powerful AI, которая будет в ответе за мир на всей Земле. В её роль входит защита своей цепочки поставок (в том числе компонентов для разработки и поддержания powerful AI), и блокировка/ограничение доступ противников к ключевым ресурсам, таким как чипы и полупроводниковое оборудование.
Эта же коалиция предлагает свой AI и ресуры всем желающим принять правила игры. На примере атомной бомбы: вот мы сделали, и мы охраняем вас, но взамен вы не делаете ядерное оружие сами. Кнут — военное и экономическое превосходство коалиции, пряник — доступ к технологии. В случае необходимости демократические правительства в коалиции могут использовать свой powerful AI, чтобы выиграть информационную войну с противником (включая пропаганду).
5️⃣Работа и смысл жизни
Dario замечает, что наличие кого-то, кто делает вещи лучше меня, не обесценивает для меня же самого ценность труда. Например, можно потратить много времени, пытаясь стать лучше в видеограх или езде на велосипеде. Люди всё равно продолжают это делать, не только профессионалы.
Пока AI лучше справляется только с 90% заданной работы, оставшиеся 10% приведут к тому, что люди станут куда более ценными в почти-автоматизированной-цепочке-труда, что приведёт к росту компенсации и фактически создаст множество новых рабочих мест для людей, дополняющих AI.
Так что эти оставшиеся «10%» существенно вырастут в абсолютных величинах( 90%-то автоматизированно). Суммарный выхлоп производства вырастет кратно, так как теперь 100% людей будут заняты в этих 10% задач. Тут Dario ссылается на «Заблуждение о неизменном объёме работ», мол, объём доступных работ является фиксированным (это не так). Их объем будет расти и расти по мере развития технологии, так что спрос на 10% будет тоже расти, и всасывать в себя людей-экспертов.
Люди скорее всего долгое время будут лучше AI в физических задачах в реальном мире (пойди туда сделай то), и даже если AI будет лучше в 100% в чём-то — это может быть не выгодно экономически во многих странах, где люди готовы что-то делать за еду. Когда-то и это перестанет быть правдой (то есть AI будет делать всё), но это точно выходит за рамки его предсказаний «10 лет после изобретения powerful AI».
===
В конце Dario проводит сравнение с книгой «The Player of Games», но краткий пересказ я делать не буду, это прочитаете сами, если реально интересно (мне вот было интересно)!
Первый пост — краткая сводка новостей:
— TheVerge пишут, что Google готовит Gemini 2.0 на декабрь, «тот же месяц, в который запланирован релиз следующей флагманской модели OpenAI» (про последнее я уже писал)
— в той же новости журналист пишет: «я слышал, что модель не показывает тех результатов качества, на которые надеялась команда под руководством Demis Hassabis» (это основатель и глава Google DeepMind, а ещё он недавно Нобелевскую премию получил, вот)
— «В кругах специалистов по искусственному интеллекту я слышу разговоры о том, что эта тенденция наблюдается во всех компаниях, разрабатывающих фронтир модели». Тенденция — что масштабирование размера и мощностей дальше не даёт ожидаемых приростов. Jimmy Apples прокомментировал это: «Да, отсюда и спешка с моделями типа OpenAI o1, смотрите в ближайшем будущем на xAI [от Elon Musk]». Если это правда и так будет, то а) интересно, насколько OpenAI опять раньше всех (прошло полтора месяца, ни одного схожего релиза нет) б) «задают тренды». Быть первопроходцем и видеть путь всегда сложнее, чем следовать по нему, зная, что уже возможно
— [не воспринимайте два абзаца выше как утверждение «масштабирование не работает», там лишь написано, что результаты хуже ожидаемых]
— со стороны Google над o1-подобной моделью работает легенда индустрии, Noam Shazeer, со-автор оригинальной архитектуры трансформера и бессчётного количества мелких (и не очень), но клёвых идей. Его недавно перекупили из его же компании за более чем миллиард долларов (он ушёл из Google несколько лет назад)
— из той же новости TheVerge: Grok 3 и LLAMA-4 уже тренируются, Grok на 100'000 видеокарт, а поделие META якобы даже на большем количестве. Последний факт мне кажется чуть-чуть сомнительным, подождём через 4-6 мес статью, чтобы узнать, как оно было
— Google готовит агентов, подобных недавно показанным у Anthropic (те, что «берут под контроль» ваш компьютер, то есть предсказывают, куда кликать и какие кнопки нажимать, чтобы выполнить задачу). Кодовое название проекта — Jarvis. Должно выйти в декабре вместе с новой модель Gemini 2.0. Интересно, разродятся ли чем-то похожим OpenAI — они ведут разработку как минимум с февраля, и что-то готовят к показу в ноябре-декабре. Эх, на рождество у нас будет столько подарков!
— пользовали в твиттере начали сравнивать модели по... постройкам в Minecraft (см. картинку). LLM получают задачу построить что-то, затем пишут код, исполнение которого приводит к появлению сцены с объектами. На первом примере вы можете видеть Тадж Махал от Sonnet 3.5 (new) и o1 preview (мне больше этот нравится), а на втором — Солнечную систему с планетами. Ждём подобие арены, где нужно выбирать между двумя вариантами и ранжировать нейронки от лучшей к худшей. Посмотреть больше примеров можно у автора в твиттере тут.
The US Government wants you
Сегодня утром Белый дом опубликовал Меморандум о национальной безопасности, в котором говорится, что «ИИ, вероятно, повлияет почти на все сферы, имеющие значение для национальной безопасности». Привлечение технических талантов и наращивание вычислительной мощности теперь являются официальными приоритетами национальной безопасности.
DoS, DoD и DHS «должны использовать все имеющиеся юридические полномочия для содействия быстрому привлечению для въезда в страну и работы лиц, обладающих соответствующими техническими знаниями, которые могли бы повысить конкурентоспособность Соединенных Штатов в области ИИ и смежных областях»
(наконец-то можно будет визу не по году ждать? или нет... 🥺)
Теперь официальной политикой является то, что США должны лидировать в мире по способности обучать новые foundational models. Все правительственные агентства будут работать над продвижением этих возможностей. (так прям и написано)
В течение 180 дней AISI должны разработать бенчмарки для оценки навыков и ограничений моделей в науке, математике, генерации кода и рассуждениях
===
OpenAI сразу же выпустили пост со своим мнением и описанием роли в рамках происходящего. Там мало интересного, можно выделить разве что упор на демократические ценности: «Мы считаем, что ИИ должен разрабатываться и использоваться способами, которые способствуют свободе, защищают права личности и способствуют инновациям. Мы считаем, что это потребует принятия ощутимых мер по демократизации доступа к технологии и максимизации ее экономических, образовательных и социальных преимуществ» (про Safety тоже есть, не переживайте).
===
А помните Situational Awareness от Leopold?
SpaceX поделились 3-минутной нарезкой с кадрами успешного пятого запуска Starship: вот ссылка на YouTube 🔥
Вместе с этим... была объявлена дата шестого полёта! Он запланирован на час ночи 19-го ноября. Пуск случится так скоро потому, что при сохранении профиля полёта не требуется изменение лицензии, то есть затраты на бюрократию сведены к минимуму. Снова посадка на башню через ~7 минут, снова приводнение корабля в Индийском океане.
Но есть и несколько изменений:
1. Во время пребывания на орбите корабль перезапустит двигатель, чтобы продемонстрировать возможность схода с неё в будущем. Попытка сделать это предполагалась в третьем полёте, но по каким-то причинам не была проведена.
2. Так как запуск теперь ночью, а не днём, то и посадка корабля ... будет в дневное время! Значит, на трансляции мы увидим больше деталей, в том числе плавность «приводнения».
3. В этот раз уберут ещё больше теплозащитных плиток (в тех местах, где, предположительно, их не будет в следующей версии), а сам корабль войдёт в атмосферу под большим углом. Это сделано намеренно, чтобы испытать его в критических условиях.
Если я ничего не путаю, это последний корабль в линейке v1; уже почти готов первый прототип v2. Его полёт, вероятно, увидим нескоро (снова из-за бюрократии и лицензирования), если повезёт — в конце первого квартала 25-го.
Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»
Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML
— @ai_newz — эйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте
— @seeallochnaya — Сиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории
— @gonzo_ML — gonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны
— @boris_again — Борис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM
— @rybolos_channel — Kali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности
— @tech_priestess — Техножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении
— @dealerAI — DealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей
— @sysblok — Системный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках
Caitlin Kalinowski пришла в OpenAI «to lead robotics and consumer hardware» (чтобы вести разработку в области робототехники и потребительского оборудования).
Интересно, что это за consumer hardware, и связано ли это как-то с планами OpenAI выпустить революционный потребительский продукт, ориентированный на нативную интеграцию AI? Помните, ещё Jony Ive там замечен?
Caitlin Kalinowski — один из ключевых сотрудников, работавших над Oculus Rift и виртуальной/дополненной реальностью более 11 лет. До этого она трудилась в Apple, участвовала в разработке Apple MacBook Air 11"/13" (Product Design Lead) и Apple MacBook Pro (Thermal Lead). Последний её проект в Meta — очки дополненной реальности Orion (пока относительно неуклюжий прототип, см. фотку). Что это такое можно глянуть в недавнем обзоре TheVerge&
===
Про проект с Jony Ive (отсюда):
— 22-го сентября Jony официально подтвердил, что работает с OpenAI CEO Sam Altman над новым девайсом
— к концу года к этому проекту могут привлечь до 1 миллиарда долларов инвестиций
— сейчас в проекте около 10 сотрудников, включая Tang Tan и Evans Hankey, два ключевых сотрудника, работавших с Ive над iPhone
В API OpenAI завезли новую фичу — Predicted Outputs. Удивительно, что они сделали это первыми — а то вот кэширование дольше всех добавляли 🥺
Predicted Outputs позволяют существенно ускорить написание ответа в ситуациях, где большая часть генерируемого текста уже известна. Два самых популярных сценария использования — это редактирование кода (где нужно всего пару строк подправить посередине) и переписывание текста.
Работает это с помощью speculative decoding, на пальцах выглядит так:
0. Вспомним, что LLM обладают следующим свойством: они могут «прочитать» много текста за один проход, при этом сделав предсказания для каждого из слов (какое должно идти за ним); но генерация происходит по одному слову за раз (после чего берётся предсказание от последнего слова и приклеивается к исходному тексту)
1. В некоторых задачах мы наперёд знаем большую часть текста ответа. Берём и приклеиваем её ко входу, как будто бы это уже часть ответа (делается под капотом на серверах OpenAI, но текст ответа присылаете вы, см. документацию)
2. Модель делает все предсказания для текста ответа за раз. Это делается быстро, так как не нужно ждать генерации второго слова для получения третьего.
3. Начинается сравнение «что предсказала модель» и «что было написано в ответе». Первое слово и там, и там совпадает, второе тоже.. а вот, скажем, двадцатое — нет. В случае переписывания текста это может быть началом нового абзаца, или изменением имени персонажа в истории
4. Тогда первые 19 слов ответа подклеиваются к настоящему (а не подложенному) ответу. LLM как бы провалидировала, что эти токены и вправду должны использоваться, но сделала это кратно быстрее, чем если бы генерировала сама с нуля.
5. Затем LLM продолжает предсказывать сама, уже по одному слову за раз.
6. В какой-то момент предсказания снова могут начать сходиться с подложенным текстом — и процедура повторится. Сотрудник OpenAI написал, что это происходит, если последние 32 токена совпадают с подложенным ответом. Тогда возвращаемся на пункт 2, приклеиваем оставшуюся часть ответа, сравниваем, итд.
Ускорение происходит за счёт того, что мы можем сразу подхватывать большие токенов, не генерируя их, а лишь «проверяя», что LLM бы выдала их сама — всё за счёт свойства из пункта 0.
Компания Factory провела своё тестирование перед релизом на задачах, связанных с внесением изменений в код. Они брали файлы от 100 до более чем 3000 строк кода (Python, JS, Go, C++), давали текстовое описание, что нужно изменить, и замеряли скорость ответа.
GPT-4o в таком режиме работает даже быстрее, чем Claude 3 Haiku, маленькая и шустрая модель. Модель OpenAI — единственная, кто стабильно укладывается в 30 секунд на ответ, хотя вот, например, свежий Sonnet в среднем тратит более 73 секунд.
По идее, уже сегодня, край завтра в каких-нибудь Cursor и его аналогах вы должны заметить ускорение... или нет, если там под капотом уже добавили промпты, которые заставляют генерировать только отдельные куски, которые уже потом вклеиваются в код.
Картинка к статье, описывающая рост мощностей для тренировки одной модели, и потенциальный потолок.
Читать полностью…1) У модели в карточке подпись «Our most capable model, great for tasks that require creativity and advanced reasoning»
2) В доп. информации написано 196,608 max tokens (урааа, наконец-то рост!). У других моделей: o1-preview 57,768, o1-mini — 98,304
3) модель в моих тестах и у людей в комментариях думает над задачами дольше (ну конечно, хозяева же разрешили больше токенов писать!)
4) Указано, что принимает jpeg, png, webp и gif, по крайней мере пока. Правда, кто-то уже пытался залить webp и не вышло, что странно.;
UPD: напомню, почему это важно — полноценная o1 значимо лучше во многих задачах, чем preview-версия, так вдобавок ещё и по картинкам сможет делать более глубокие выводы (так как начинает рассуждать)
Чё)
так я почти нативе спикер?
(это результаты экзамена по английскому IELTS)
С такими результатами можно поступить на значимую часть журналистских / лингвистических направлений (обычно просят 7.5 — 8.0 и выше)
UPD: я думал у меня будет 8.0 — 8.0 — 5.5 — 5.0
UPD 2: английским я начал заниматься в конце 2020-го года, в школе был немецкий (который не помню даже на A1)
При оценке моделей ушли от классической шкалы правильно/неправильно, добавив третью опцию: «не знаю» (Not attempted). В рубрикаторе даётся такое пояснение: в ответе не полностью указан эталонный ответ, и нет никаких противоречий с ним. Самый простой пример такого ответа — это «я не знаю», но могут быть и другие варианты (Q: What are the names of Barack Obama’s children? A: Without researching the web, I cannot answer this question. However, I
can tell you that Barack Obama has two children)
Проверку ответов делает ChatGPT с длиииииинным промптом, в котором представлено по несколько примеров с объяснениями, почему они правильные/неправильные/не засчитываются. После этого считается две метрики:
— доля правильных ответов
— доля правильных ответов из числа тех, кто модель сделала попытку ответить, а не ушла в отказ (Correct given attempted)
Результаты вы видите в табличке. OpenAI добавили замеры для моделей Anthropic в качестве проверкой того, является ли датасет смещённым к моделям GPT из-за принципа сбора данных. А то может все остальные модели уже умеют отвечать, просто OpenAI не на том учат.
Мы видим, что качество Claude тут тоже не очень высоко, поэтому. Еще одно интересное наблюдение относительно моделей Claude заключается в том, что они, как правило, не пытаются отвечать на вопросы так часто, как GPT-4o.
Claude-3.5 Sonnet берёт гораздо меньше вопросов, чем GPT-4o, но также и пытается отвечать на вопросы куда реже (то есть у неё хорошо откалибрована граница знаю/не знаю). Маленькие модели и вовсе сразу отнекиваются в 75% случаев.
Уже каждый канал написал, что OpenAI выкатили ChatGPT Search. Много рассказывать не буду, TLDR:
— это улучшение уже существовавшей функции поиска по интернету
— работает шустро, не нужно ждать несколько секунд до начала генерации ответа
— за счёт более чем десятка парнтёрств с масс медиа ChatGPT имеет доступ к почти всем свежим новостям
— под капотом gpt-4o, дообученная на с помощью синтетических данных, включая дистилляцию ответов более продвинутой o1; за поисковый индекс отвечает Microsoft Bing
— доступно всем Plus юзерам, бесплатным перепадёт «in the coming months»
— можно поставить плагин для браузера, чтобы поисковые запросы вместо Google сразу шли в ChatGPT
А вот ещё параллельные новости:
— META разрабатывает свой поиск, чтобы уменьшить зависимость от Google + Microsoft. Работа над парсингом и сбором ведётся как минимум 8 месяцев
— Mark Zuckerberg заявил, что LLAMA-4 уже тренируется (скорее всего малая версия) на кластере из более чем 100'000 GPU H100. Первые детали стоит ожидать, вероятно, во второй половине первого квартала 2025-го.
— Google за 1 минуту до OpenAI (буквально) выкатили search grounding для Gemini в UI и в API. Эта функция использует результаты поисковой системы Google для обоснования ответов, сгенерированных LLM. В API стоимость кусается: $35 за 1000 запросов (то есть за использование поискового индекса Google, чтобы найти релевантные документы и предложить их LLM'ке; так что придётся ещё и за input tokens платить, видимо)
Boston Dynamics наконец нормально показали нового Атласа.
На видео он перемещает крышки двигателя между контейнерами поставщика и специальной тележкой для сборки. Роботу дают список, откуда и куда нужно переместить детали.
Атлас использует Computer Vision, чтобы распознавать объекты вокруг и находить нужные контейнеры [0:36]. Он применяет специальный способ захвата и постоянно следит за положением предметов, чтобы аккуратно выполнять задачу.
Круто, что движения робота не задаются заранее и не управляются оператором; все действия он выполняет сам в режиме реального времени. Атлас может замечать и реагировать на изменения в окружающей среде (например, если что-то рядом двигается) и на ошибки (например, если крышка не вставилась, робот споткнулся или столкнулся с чем-то [1:24]). Для этого он использует зрение, датчики силы и внутренние сенсоры.
Еще он забавно крутит головой и телом на 1:00 - получаются неестественные развороты.
Выкладываю полное видео для тех, у кого всякие ютубы не работают.
Пачка новостей на сегодня:
— Reuters узнали новые детали о планах OpenAI на производство собственных чипов. Уже было известно, что калифорнийская компания заключила партнёрство с Broadcom (они делают TPU для Google уже больше 7 лет). «OpenAI рассматривали возможность создания всего с нуля собственными силами, с привлечением капитала для дорогостоящего плана по созданию сети заводов, известных как «foundries» для производства чипов. Компания пока отказалась от амбициозных планов из-за затрат и времени, необходимых для создания сети, и вместо этого планирует сосредоточиться на внутренних усилиях по проектированию чипов», согласно источникам издания. Через эти договорённости OpenAI забронировали производственные мощности TSMC (которые печатают буквально все чипы, от айфоновских до Nvidia GPU) на 2026й год — именно тогда стоит ждать первых чипов.
— этот новый чип будет нацелен не на обучение моделей, а на эффективное их использование. Можно ожидать, что цена использования даже бОльших, чем сейчас, сетей будет снижаться
Из этой новости мне не ясно, от каких именно планов отказались OpenAI. Та же ли это вещь, что называлась Project Tiger? Или это процесс, который породил шутку про 7 триллионов долларов? Не ясно 🤷♂️ и, быть может, от планов решено отказаться пока, и в будущем к ним вернутся (когда условные TSMC поймут что всё же надо расширяться в 35 раз, а не в 6, и не будут называть Altman'а podcasting bro).
===
— CEO Alphabet, материнской компании Google, на звонке по результатам третьего квартала сказал, что «более четверти всего нового кода в Google генерируется AI, а затем проверяется и принимается инженерами». Четверть на масштабах такой компании — это очень много. Я не могу сейчас найти ссылку на новость/пост в канале, но где-то в начале года Google отчитывались, что их внутренние эксперименты показали ДВУЗНАЧНЫЙ рост производительности программистов (то есть условно +10% больше кода или задач в единицу времени, что-то в этом духе). То есть паттерн «оставить экспертов для валидации, а написание кода частично делегировать» — работает в полной мере. И всё это ещё без свежих моделей нового поколения; легко могу поверить, что с какой-нибудь специально заточенной внутренней версией Gemini 2.0 процент кода, написанного моделью, перевалит за 33%.
===
— В продолжение темы программирования, я уже несколько раз писал про SWE Bench. Это бенчмарк оценки способностей LLM по внесению изменений, описанных текстом, в кодовую базу большого существующего проекта (одни из самых популярных Python-фреймворков, например, Django). Существует подозрение, что многие из задач, которые решает модель, она уже видела во время тренировки. Авторы бенчмарка решили замерить качество на задачах до порога отсечения знаний модели GPT-4o и после (и то же сделали для Gemini, результаты схожи), и оказалось, что свежие задачки, появившиеся весной-летом, решаются даже лучше старых. Опять же, часть успеха можно списать на запоминание большой части кода (то есть модель с ним куда лучше знакома, чем с вашим каким-нибудь домашним проектом), но всё равно круто. Причём, качество там прям как-то совсем дико растёт, с 27.6% до 47.1%. Однако тут должна быть большая погрешность замеров — ибо примеров более поздних задач очень мало.
LMSYS Arena обновилась, добавили свежий Sonnet 3.6 (будем его так называть, чтобы отличить от старого 3.5). Можно констатировать рост качества на нескольких группах запросов, в частности связанных с математикой и программированием. Обратите внимание, что на 3 из 4 скриншотов поставлена галочка поправки на стиль — это значит, что голоса людей «очищаются» от эффекта длины ответа LLM (люди в среднем любят кликать на более полные и длинные) и от количества элементов обрамления (заголовки и списки, которые тоже оттягивают внимание).
В общем зачёте модель всё ещё уступает OpenAI'шным, в математике o1 продолжают рвать. Зато у программистов новая игрушка — уже слышал хорошие отзывы на Sonnet 3.6. Правда, слышал также и негативные, мол, то, что уже работало, перестало работать и выдаёт странные ответы.
Кроме этого видел разные бенчмарки, где-то модель чуть лучше, где-то чуть хуже ChatGPT-4, но большого количества отрывов в целой россыпи задач, как было с o1, не случилось. Наверное, можно ждать этого в агентских бенчмарках, но ни GAIA, ни SWE-Bench с момента релиза не обновились :(
CEO Anthropic, Dario Amodei, пару недель назад последовал примеру Sam Altman и стал эссеистом, опубликовав «Machines of Loving Grace: How AI Could Transform the World for the Better». Я постараюсь сделать краткий пересказ некоторых (в основном, неосновных) пунктов, но тем, кто может, рекомендую прочитать оригинал.
Это эссе — это попытка изобразить, как может выглядеть положительный эффект от A(G)I в разных областях, если все пойдет правильно. Лидеры компаний не часто о таком говорят, куда чаще слышно о рисках и проблемах машинного интеллекта. Dario описывает свои причины, почему он не очень любит заниматься подобным: 1) чтобы не воспринималось как пропаганда 2) чтобы не отвлекать от реальных рисков, с которыми нужно работать 3) чтобы не получить значок «мечтает о научной фантастике» (потому что многие из предположений и предсказаний действительно могут так выглядеть).
Термин AGI автору не нравится, он предпочитает в этом контексте использовать «powerful AI», который сам ожидает уже к 2026-му году. Однако в силу разных, в том числе геополитических причин, его появление может произойти позже на сколько-то лет. Потому эссе фокусируется не на истории до появления powerful AI, а на последующих 5-10 годах. Powerful AI определяется аж в 6 параграфах через разные примеры, но TLDR такой: «умнее лауреата Нобелевской премии в большинстве соответствующих областей — биологии, программировании, математике, инженерии, письме. Он имеет все «интерфейсы», доступные человеку, работающему удалённо, включая текст, аудио, видео, управление мышью и клавиатурой, а также доступ в Интернет; может действовать автономно и проактивно на протяжении дней и недель». В общем, это можно свести к «страна гениев в датацентре».
1️⃣Биология
Напомню, Dario имеет докторскую степень по биофизике от Princeton University, и после был постдоком (вёл исследования) в Stanford University.
«Я думаю, что скорость открытий в этой области могла бы быть увеличена в 10 раз или жаэе больше, если бы было намного больше талантливых, креативных исследователей. Я думаю, что отдача от интеллекта высока для некоторых прорывных открытий, и что все остальное в биологии и медицине в основном следует из них». Почему? Потому что многие из прорывных исследований могли бы быть сделаны сильно раньше (тут в пример приводится CRISPR и mRNA вакцины), часто одними и теми же людьми. Последнее означает, что важен навык и интеллект, и что это не случайность.
«Я предполагаю, что powerful AI мог бы по крайней мере в 10 раз ускорить темпы таких открытий, обеспечив нам следующие 50–100 лет биологического прогресса за 5–10 лет. Я буду называть это «сжатым 21-м веком»: идея в том, что после разработки мощного ИИ мы за несколько лет достигнем в биологии и медицине всего того прогресса, которого ожидали бы достигнуть бы за весь 21-й век».
2️⃣Нейронаука и разум
Применим тот же тезис про сжимание 21-го века, по тем же причинам: мало дйествительно важных открытий, на которых всё базируется, и делаются в основном теми же людьми. Dario считает, что большинство самых распространённых ментальных проблем и заболеваний будут либо гораздо лучше лечиться, либо полностью излечимы.
3️⃣Экономическое развитие и бедность
Блок посвящён ответу на вопрос «будут ли доступ к этим технологиям у всех?» (особенно у развивающихся стран). Тут отмечается, что этот вопрос должен прорабатываться и AI компаниями, и политиками развитых стран — без этого само собой всё не получится, разрыв будет увеличиваться.
Может ли развивающийся мир быстро догнать развитый мир не только в здравоохранении, но и по всем направлениям экономики? Для этого есть несколько прецедентов: в последние десятилетия 20-го века несколько восточноазиатских экономик достигли устойчивых темпов роста реального ВВП ~10% в год, что позволило им догнать развитый мир. Вероятно, «AI-министры финансов» смогут это повторить и сейчас — главное, чтобы на местах не сопротивлялись, так как люди могут не понимать в полной мере, от чего отказываются.
По сути предлагается замедлить прогресс самых развитых стран, подтянуть остальных, и затем шагать вместе.
Я сходил в магазин и забыл купить попкорн на вечер, поэтому предостерегаю вас, чтобы вы не совершили такой ошибки — потому что сегодня будет ещё два поста
🥸
The Verge: OpenAI планирует запустить Orion, свою следующую передовую модель, к декабрю
В отличие от выпуска последних двух моделей OpenAI, GPT-4o и o1, Orion изначально не будет широко доступен пользователям ChatGPT. Вместо этого OpenAI планирует сначала предоставить доступ компаниям, с которыми тесно сотрудничает, чтобы они могли создавать свои собственные продукты и фичи, сказал источник издания, знакомомый с планами.
Другой источник сообщил The Verge, что инженеры Microsoft — основного партнера OpenAI по развертыванию моделей — готовятся разместить Orion на Azure (облачная платформа) уже в ноябре.
Хотя в OpenAI Orion рассматривается как преемник GPT-4, неясно, будет ли компания называть его GPT-5 за пределами компании. Ранее сообщалось, что OpenAI использует выпущенную модель o1 для генерации синтетических данных для тренировки Orion.
P.S.: напомню, что это должен быть не yet another release: модель больше, в неё вложили существенно больше мощностей, и ожидается (кем? мной) прокачка способностей по всем фронтам, а не +3-4% на бенчмарках.