life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin
Прочитал в перелете V-JEPA 2: self-supervised энкодер видео и изображений от Меты с претензией на смену парадигмы. Статья крутая и несложная, советую.
В дальнейшем буду приводить эту статью в пример чем в ML отличается решение задачи на 84% от решения на 85%.
По сути в этой версии статьи всё было отмасштабировано. В старой версии было 2 миллиона тренировочных видео на претрейне, а в новой уже 22 миллиона. Количество данных возросло в 11 раз, но это позволило поднять среднее качество всего на 1%. Вот так выглядит прогресс когда низковисящие фрукты уже съедены.
Но не стоит думать, что процент это мало. От фундаментальной модели требуется в первую очередь обобщаться, то есть показывать хорошее качество в редких или вообще новых ситуациях. Борьба за каждый процент говорит о том, что основной пласт типичных кейсов уже закрыт. Идет борьба с длинных хвостом редких ситуаций. Очередной невзрачный процент может перевести модель в разряд достаточно надежных.
Ну и раз я вчера упомянул, что пока еще разбираюсь с последними проектами в универе, то вот один из них — у нас взяли статью на ✨ ICML в Ванкувере ✨ про новый Test-Time Training (если вкратце, то главная идея в том, что во время инференса мы апдейтим веса модели, оптимизируя какой-нибудь self-supervised лосс — это помогает модели быть более generalizable).
На самом деле, сама идея очень интересная и, как мне кажется, набирает обороты. Я сам пытаюсь её как-нибудь раскачивать (например, через эту torch-ttt либу, чекайте), о чём тоже хочу написать пару постов. Из более модного: я знаю, что TTT сейчас начали активно применять для увеличения длины контекстов у LLM-ок — об этом тоже как-нибудь напишу. Из моего опыта, TTT довольно часто может значительно улучшать перформанс модели на corrupted или out-of-distribution данных, а применять его довольно просто — это мы подробно обсудили в статье.
А вот тут будет призыв к действию: для нашей статьи я подготовил кучу материалов, включая видос ниже, где постарался в целом покрыть всю идею TTT. Я потратил слишком много времени в Manim-е, всё это верстая, поэтому просмотры / лайки будут highly appreciated. Ссылки на страницу статьи, посты, код и всё вот это — оставлю ниже.
Кому будет интересно, можете попробовать идею в этом ноутбуке.
📄 Paper: https://arxiv.org/abs/2410.04201
🧠 Project page: https://www.norange.io/projects/ittt/
💻 Code: https://github.com/nikitadurasov/ittt
🎬 Video: https://www.youtube.com/watch?v=eKGKpN8fFRM
🧩 torch-ttt class: https://torch-ttt.github.io/_autosummary/torch_ttt.engine.it3_engine.IT3Engine.html
🔬 Notebook: https://colab.research.google.com/github/nikitadurasov/ittt/blob/main/exps/mnist/it3_torch_ttt.ipynb
Собирать стиль из случайных покупок - все равно что пытаться составить осмысленное предложение из слов на холодильнике.
По отдельности интересно, но вместе не очень работает 😐
Aesty (Antler ‘24) - это Fashion OS: приложение, который помогает собрать стиль из того, что у тебя уже есть, и дополнить его тем, что действительно нужно. Получается связный, логичный гардероб, который работает как система и курируется приложением 🎧
В отличие от классических fashion-приложений, Aesty:
- Позволяет примерять и свои вещи, и новые — прямо на себе, в одном образе
- Показывает, что у тебя уже есть в гардеробе и как это сочетать друг с другом
- Строит образы под погоду, стиль и тренды
- Показывает, что действительно стоит докупить — с учетом твоего контекста, а не просто красивой ленты в пинтересте
С первого дня Aesty помогает иначе смотреть на гардероб не как на хаос, а как на стройную, понятную систему 😎
⌨️ Лаунч на Product Hunt: https://www.producthunt.com/posts/aesty-your-fashion-os/
будем рады поддержке 🤝
🎁 Только для PH:
Инвайт другу = обеим бесплатная примерка
Промокод: PRODUCTHUNT
Лайк, шэир, репост очень привествуются! 😎
10/10 статья про принципы построения систем на агентах. Новая база ML систем дизайна.
https://hackernoon.com/stop-prompting-start-engineering-15-principles-to-deliver-your-ai-agent-to-production
Команда Яндекс RecSys R&D Team разработала ARGUS (AutoRegressive Generative User Sequential Modeling) — новую трансформерную рекомендательную модель. Трансформеры чудесны тем, что могут обрабатывать любые последовательности. Но здесь не просто предсказание отклика пользователя. ARGUS одновременно предсказывает будущие действия пользователя и его отклик, что повышает точность и качество персонализации. Данных об отклике всегда мало, так что использовать для обучения данные про все действия пользователя это очень умно.
Яндекс Музыка стала первым сервисом, в который внедрили новую модель и перевели её в онлайн-режим. Впервые Яндекс Музыка начала работать на базе генеративных моделей в 2023 году, теперь в Музыке ARGUS применяется в реалтайме, для каждого трека в Моей волне. Причем это 126М модель с длиной контекста 8192 события. Для реалтайм инференса трансформеров на масштабах Яндекс Музыки это очень большая модель. Инференсить такое на каждый новый трек в Моей волне — довольно нетривиальная задача.
Реалтайм инференс возможен благодаря собственной архитектуре модели, где эмбеддинги для пользователей и треков пересчитываются в оффлайне регулярным процессом. Это снимает большую часть нагрузки с модели, которая в такой постановке занимается лишь установлением взаимосвязей в последовательности.
Для оценки качества используется global temporal split, то есть замеряем качество на следующей неделе по времени после обучающих данных. На предобучении смотрели на лосс для задач next item prediction и feedback prediction. На дообучении была другая задача: правильно ранжировать близкие по времени прослушивания пользователем треки исходя из оставленного на них фидбека. Смотрим насколько предсказания модели о том, что больше предпочтет пользователь, совпадают с реальностью. Чем-то напоминает supervised finetuning LLM. Также для замера качества сравнивали метрики бустинга с прода с таким же бустингом, но с дополнительным признаком от ARGUS.
В онлайне проводили A/B эксперименты на пользователях Яндекс Музыки и Маркета и получили статзначимые улучшения продуктовых метрик. В стриминге пользователи стали на 20% чаще ставить лайки и добавлять в коллекцию впервые услышанные треки и артистов. В Маркете пользователи стали добавлять в корзину на 3% больше товаров, увиденных в рекомендациях, а покупки товаров из рекомендаций в новых для них категориях выросли на 5%.
https://habr.com/ru/companies/yandex/articles/919058/
Я был в прошлом году, было очень весело. По вайбу как будто слегка аутичные дети захватили власть в детском лагере: всю программу организуют сами участники, в стиле burning man. В том году я сходил на воркшоп по взлому замков, послушал бизнес ангела инвестирующего в лонджевити почему неэффективно вкладываться в борьбу с раком (там уже достаточно денег), позанимался импровом, узнал про математику жонглирования, обклеил всю площадку самоклеющимися глазами и спел много песен под гитару.
И естественно куда ни плюнь AI ресерчеры, но я в тот раз их старательно избегал.
С непривычки родина удивляет контрастами.
Город в Рязанской области, 300км от Москвы. Двухэтажные домики, МФЦ, музей самоваров, бездомная собака у магнита, дорога в колдобинах. Полный набор. Но заходишь в случайную дверь и попадаешь в спешлти кофейню такого уровня, который не во всех европейских столицах вообще изобрели. С воронками V60 Кения или Никагаруа на выбор, рафом на альтернативном молоке, макарунами как в Париже (буквально) и авторским лимонадом на березовом соке.
Это звучит как что-то из мемов про сферу услуг в России и Европе, но такое нарочно не придумаешь. В Португалии за пределами центра Лиссабона ты можешь купить только рыбно-фасолевое хрючево с пережаренным экспрессо (с буквой к). Причём оно во всех заведениях будет одинаковое.
Вы будете в шоке, но я пришел к выводу, что LLM не может заменить меня как писателя! Непредвзятое мнение.
Если серьезно, то конечно я был удивлен результатами опросов про два фрагмента. Особенно тем, что люди не смогли определить авторство. Хотя бы потому, что мой фрагмент элементарно "палиться" тем, что содержит ошибки.
Вот то, что людям больше понравился LLM фрагмент, меня вообще не удивило и не расстроило. Дело в том, что если бы я сидел на арене и получил бы эти два фрагмента, то тоже выбрал бы фрагмент Gemini. Потому что я знаю ML и знаю что такое переобучение, так что я бы выбрал самый информативный и короткий вариант.
Однако мы читаем книги не так как чатимся с LLM. Фрагмент А от LLM более информативный и "правильный", но для книги он ужасен:
1. Написано, что модель может "вызубрить" обучающие данные. И что "Переобученная модель отлично работает на данных, которые она видела во время обучения, но плохо справляется с новыми, незнакомыми данными". Мы просто помахаем руками и понадеемся, что читатель примет эти слова на веру?
2. Никакой связи с предыдущими частями. Книга это не набор несвязанных параграфов текста. Нужно повествование, которое поможет поместить новые знания в контекст. Поэтому в моем фрагменте есть отсылка к конкретной задаче, которая рассматривается в этой главе.
3. Аналогия с экзаменом начинается, но тут же заканчивается. Как будто она там для галочки. Вайб такой "автор любит аналогии, тут нужна аналогия." При этом она довольно никакая. В своей аналогии я попытался вызвать эмоции: не просто студент-зубрила, а студент к которому ты потом попадешь на операционный стол и он тебе вырежет что-нибудь не то.
Да, мой фрагмент неуклюжий. Я специально взял его в черновом виде. В отрыве от контекста он объективно хуже LLM ответа. Но я могу докрутить его до хорошей части повествования, а LLM фрагмент проще стереть и переписать.
Фрагмент А написал Gemini Pro 2.5, фрагмент B написал я.
В 2/3 чатах, куда я закидывал опросы, автора отгадали неправильно. Причем в моем собственном чатике не смогли определить мой фрагмент! Зато в чате админов телеграм каналов Gemini Pro 2.5 вычислили сразу, там был консенсус с 95%+ голосами.
Во всех чатах фрагмент написанный LLM понравился людям больше.
Получапется, как принято говорить, ПИСАТЕЛИ - ВСЁ???
https://www.astralcodexten.com/p/the-claude-bliss-attractor
В очередной раз поражаюсь, что у блогера/психиатра тейки про AI интереснее, чем у специалистов в AI.
Прочитал новость "Платформа A/B тестирования X5 получила верификацию научного сообщества"
Меня заинтересовало, потому что речь про А/В тестирование на физических магазинах. Однажды меня звали заниматься такой задачей, и я знаю людей, которые работали над этой A/B платформой в X5. Очень необычная и сложная проблема.
Начнем с базы. Х5 – это крупнейший ритейлер, который управляет торговыми сетями «Пятёрочка», «Перекрёсток» и «Чижик». Компания представила собственную методологию проведения А/В тестов для верификации научным сообществом. Её корректность подтвердили специалисты лаборатории стохастических алгоритмов и анализа многомерных данных ФКН ВШЭ.
Методология A/B тестирования, разработанная Х5, позволяет оценить влияние различных изменений (внедрение технологий, изменение бизнес-процессов, акции, ротация поставщиков и т. д.) на эффективность работы магазинов. Сервис анализа позволяет оценивать эффекты от инициатив на ряде финансовых метрик, таких как РТО, средний чек, фронт-маржа, списания и так далее. На текущий момент через платформу проведено более 500 экспериментов.
Платформа A/B тестирования Х5 предоставляет два сервиса: дизайн эксперимента и оценка эксперимента. Первый позволяет разбить магазины на две группы – где изменения есть и где изменений нет, и спланировать эксперимент для достижения статзначммых результатов. Второй сервис позволяет анализировать результаты.
Система включает в себя наборы ограничений при планировании эксперимента, позволяющие сегментировать выборку. Стандартный набор ограничений – это география и категории товаров. Расширенный набор позволяет исключать конкретные магазины из расчётов и проводить другие нетипичные корректировки через взаимодействие с аналитиком.
В целом интересно, что специалисты провалидировали не только саму методологию, но и как реализованы эксперименты в Х5. Часть подробностей компания давала в статье в 2023: https://habr.com/ru/companies/X5Tech/articles/768008/
Ребята из DevCrowd второй год подряд проводят исследование специалистов DS/ML/AI и приглашают вас поучаствовать в их опросе.
Это исследование нашего с вами рынка. Опрос про профессии, обязанности, ценность разных навыков, подходы к работе и конечно зарплаты. Все мы любим узнавать зарплаты соседей.
Результаты выложат в открытый доступ (последний раз появились в сентябре) и я напишу про самые интересные моменты.
Проходите опрос: ссылка
https://qz.com/tech-layoffs-tax-code-trump-section-174-microsoft-meta-1851783502
TLDR все лейоффы из-за налогов которые в свою очередь поменялись ради быстрых политических очков
Мы обещали, что запись будет – и запись есть!
https://youtu.be/HjfqcHjHwdg
На стриме обсуждали:
– Как и почему каждый нас оказался на управленческой позиции?
– Почему мы решили или не-решили продолжать менеджерский трек?
– Что вообще такое хороший или плохой менеджмент? Какова роль менеджера, создает ли он что-то сам?
– А что такое хорошие или плохие процессы?
– Также разобрали несколько вопросов подписчиков в конце эфира про карьеру, удержание сотрудников, стартапы и бигтехи
И другие интересные штуки
––
Если формат зайдёт – будем пробовать ещё 🙂
В комментариях можно оставить фидбек / вопросы, ответы на которые не прозвучали / предложить интересные вам темы для будущих постов или подкастов!
https://github.com/hugomd/parrot.live
Просто исполни эту команду не задавая вопросов
Читать полностью…
curl parrot.live
Cloud.ru выкатил сразу два крупных анонса на GigaConf для упрощения работы с облаком и искусственным интеллектом
Во-первых, они представили AI-помощника Клаудию для своего публичного облака Cloud.ru Evolution. Это не просто очередной чат-бот для консультаций. Помощник на базе GenAI умеет выполнять конкретные действия: самостоятельно развернуть виртуальную машину, помочь с командами в консоли в режиме co-pilot и настроить мониторинг и алертинг. Идея в том, чтобы разработчики и админы могли делегировать рутинные DevOps-задачи искусственному интеллекту, освобождая время на более важные вещи. AI-помощник уже доступен в режиме Public Preview.
Во-вторых, компания открыла для всех доступ к Cloud.ru Evolution AI Factory. Это облачная среда с готовыми инструментами для создания ML решений, работы с LLM и разработки AI-агентов. Внутри: модели по API, деплой и инференс (как GigaChat, так и любых моделей с Huggingface), finetuning моделей, компоненты RAG (Retrieval Augmented Generation), Jupyter ноутбуки по кнопке и даже визуальный редактор для создания AI-агентов.
Что интересно, Cloud.ru Evolution AI Factory рассчитана не только на опытных ML-инженеров. Утверждается, что простой интерфейс позволит работать с LLM даже без глубоких навыков программирования, что должно помочь с типовыми ML-решениями.
Подведем итоги. AI-помощник упрощает управление самой облачной инфраструктурой, а AI-фабрика дает готовые сервисы для быстрого создания и интеграции AI-решений поверх этой инфраструктуры. Похоже, тренд на упрощение, автоматизацию и удобство работы с AI и облаками набирает обороты. Cloud.ru делает серьезную заявку на то, чтобы стать единой точкой входа для компаний, которые хотят внедрять AI без необходимости строить все с нуля.
Сходки в Москве в ближайшее время не будет :(
Я пытался успеть в Москве всё за одну неделю, едва не поседел и заработал мигрень. Но сходка так и не поместилась в расписание.
В следующий раз :с
🌟LessWrong Community Weekend in Berlin
📍Где: Yoth Hostel Wannsee, Берлин, Германия
🗓Когда: 29 Августа - 1 Сентября
💰Стоимость: Стандартная цена €250, но на самом деле после того, как вашу заявку одобрят, вы сможете выбрать сколько заплатить
⏰Дедлайн: когда кончатся места
Тот самый вайб старого-доброго LW. 12 итерация Недели Комьюнити LessWrong пройдет в Берлине! Это большая тусовка рационалистов, будет 250+ людей из разных частей Европы и четыре дня интересных обсуждений, веселья и нетворкинга
🔗Подать заявку: тут
🔗Пост про LWCW на LessWrong: тут
По всем вопросам писать сюда: lwcw.europe@gmail.com
https://livecodebenchpro.com/
Теперь вы тоже можете сказать, что ваша модель достигает качества на уровне o3 (тоже 0%)
Наконец, эксперимент с полноценной главой подтверждает мои выводы.
Читать 20 страниц AI текста это совсем не тоже самое, что прочитать столько же авторского текста. С достаточным контекстом разрыв становится очень заметен.
Однако нельзя сказать, что он огромный. LLM глава вышла "норм." Я пишу главу примерно месяц. Вероятно, используя LLM можно написать главу за неделю. Не лучше ли написать книгу в 2-4 раза быстрее? Подумаешь интересность упадет с 4.5 до 3.5.
И вот здесь я не согласен. LLM выдача всегда достаточно норм. Это подходит для автоматизации многих бизнес процессов, где "достаточно норм" это именно то, что нужно. Кост-эффективность.
Книги не про кост-эффективность. Книга соревнуется с рилсами и миллионом других книг. И вообще в 2025 их читают только психи. Ты не можешь написать "норм" книгу и надеяться, что её будут читать. Даже одного средненького фрагмента достаточно, чтобы потерять читателя. Так что на 20% менее увлекательная книга это не книга которую прочитают на 20% меньше людей, это книга которую не будет читать никто.
Обязательный скучный дисклеймер: безусловно LLM полезны для набрасывания идей, редактирования и другой помощи. Иногда я даже использую их, чтобы начать писать. Генерирую параграф с помощью LLM, меня возмущает насколько он ужасен и я начинаю его гневно переписывать. Однако целиком писать за меня оно пока что не может и не особо в этом продвинулось за 7 месяцев.
Результаты эксперимента на подопытных друзьях с помощью целой главы противоположные.
Такой эксперимент довольно непросто провести потому что всегда можно сказать "ты просто недостаточно хорошо запромптил ллмку." Мне хотелось сделать сравнение честным, было очень интересно что получится. Я пришел к такому сетапу эксперимента. Проверять может ли LLM написать главу с нуля бесполезно. Однако можно ослабить запрос на такой: может ли LLM наполнить структуру?
Сначала я написал черновик главы целиком, с графиками и всем прочим. Так получилась моя версия. Далее я удалил наполнение всех секций кроме введения и попросил Gemini Pro 2.5 заполнить секции текстом. Кроме того в промпте она получила синопсис книги (краткое описание что мы пишем, для кого, в каком стиле, и так далее) и первую главу книги целиком как референс стиля. В конце я минимально поправил текст, чтобы он сочетался с графиками и убрал другие палевные вещи.
Мои друзья получили гугл форму с двумя кнопками: Тык и Тыдык. При нажатии на Тык они получали ссылку на мою главу, а при нажатии на Тыдык ссылку на LLM главу. Далее обе группы заполняли форму фидбека с такими вопросами:
1. Насколько интересно? От 1 до 5
2. Насколько понятно? От 1 до 5
3. Математика от 1 до 5. 1 означает "нужно меньше", 3 означает "норм", 5 означает "нужно больше"
Так же я спрашивал их кто, по их мнению, написал главу, которая им попалась.
Такой вот Тык/Тыдык тест.
У LLM главы было серьезное преимущество: она была на треть короче. Она реалистично могла победить только за счет этого. К тому же она, естественно, была чище. Как и фрагменты выше, её можно было легко отличить по отсутствию ошибок.
В итоге в тесте поучаствовали шесть друзей. 5/6 верно угадали автора. По всем параметрам кроме математики LLM глава проиграла кожаной главе. Выборка небольшая, но я датасаентист, я так вижу, всё статзначимо.
# Может ли LLM написать книгу за меня: эксперимент
Я пишу книгу про ИИ и периодически проверяю может ли LLM написать её за меня. В начале шансов не было вообще, но за 7 месяцев, что я пишу, модели несколько раз резко улучшались. Книга служит моим личным бенчмарком.
Недавно я решил провести два эксперимента:
1. Закинуть маленький A/B тест в чатики: посмотреть могут ли люди определить какой фрагмент из двух написал я, а какой нет. И какой им больше нравится.
2. А/Б тест на друзьях: сделать две версии одной главы, одну от себя, другую от LLM и попросить моих друзей вслепую определить какая им больше нравится.
Расскажу вам что получилось и какие можно сделать выводы.
Начнем с первого. Вот вопрос который я закидывал в чатики, можете себя проверить.
Даны два фрагмента. Один из моих черновиков книги, другой я сгенерировал с помощью Gemini Pro 2.5. Угадайте где какой.
В следующем посте будет ответ.
A
## Когда обучения слишком много
Представьте, что вы готовитесь к экзамену. Вы можете выучить билеты наизусть, до последней запятой. На экзамене вы блестяще ответите на эти билеты. Но если вам зададут вопрос чуть в сторону, вы поплывете. Вы не поняли суть предмета, а просто запомнили конкретные ответы.
Модель машинного обучения может сделать то же самое. Она может слишком хорошо "вызубрить" обучающие данные, включая случайный шум и неважные детали. Такое явление называется *переобучением* (overfitting).
Переобученная модель отлично работает на данных, которые она видела во время обучения, но плохо справляется с новыми, незнакомыми данными. Это одна из главных бед машинного обучения.
## Когда обучения слишком многоЧитать полностью…
Представьте себе двух студентов перед экзаменом по анатомии.
Первый студент, зубрила, заучил билеты как стихи перед уроком литературы. То есть буквально запомнил их от начала и до конца, но ничего не понял. Он сдаст экзамен на пять, но будет совершенно бессилен когда ему потребуется применить свои знания для помощи пациентам. Он умеет воспроизводить определенные ответы на вопросы и только.
Второй студент изучил дисциплину, а не заучивал конкретные билеты. В его голове сформировалось представление о том, как всё работает в человеческом теле. Он имеет может ошибиться на экзамене, ведь у него нет заготовленных ответов и ему приходится думать над вопросами. Однако в реальном мире я предпочел бы лечиться у него, а не у зубрилы.
Студент это, считайте, модель, а оценка за экзамен это метрика. Модели машинного обучения похожи на студентов ещё и тем, что оба точно пойдут самым простым путем, чтобы сдать свой экзамен. Если вы сделаете такой процесс оценки качества, что модели будет проще заучить ответы, она заучит ответы. Кажется что-то подобное произошло со страховой моделью. Наша модель с исками похожа на студента-зубрилу. Она успешно сдала свой экзамен, но оказалась бесполезной в реальном мире. В таких случаях говорят, что модель _переобучилась_ и что она _не обобщается_.
Трагедия искусственного интеллекта в том, что мы обучаем модели на тренировочных данных, но не хотим, чтобы они выучили их слишком хорошо.
Спустя множество попыток и усилий админ наконец-то потерял работу 👀
Кроме шуток я ушел из eBay, чтобы сфокусироваться на троганье травы написании книги, собственных проектах и образовании.
В eBay было круто, я могу рекомендовать (но зависит от команды, он очень большой). Удалось воочию понаблюдать экономический эффект LLM, поработать над вещами с безумным масштабом и даже поконтрибьютить в инхаус LLM. За относительно небольшой срок получилось немало сделать.
Довольно странные ощущения, потому что я впервые ухожу с хорошей работы "вникуда": не для того, чтобы выйти на другую работу, а для того, чтобы (какое-то время) нигде не работать. Правда течение уже несет меня в новый проект связанный с AI safety, так что посмотрим сколько я продержусь в статусе свободного человека.
Количество шуток про безработицу в канале возрастет как минимум вдвое.
Так же я скоро загляну в Москву. Будет сходка подписчиков, подробности позже.
Кто разбирается в терапии, подскажите. Психолог говорит, что нужно удовлетворять потребности внутреннего ребёнка. Но моему внутреннему ребёнку нужно, чтобы они за все заплатили
Читать полностью…Какие слова, откуда? У т.н. людей на входе - электрические импульсы в нервах, и на выходе - электрические импульсы в нервах, всё что они могут - преобразовывать электрические импульсы в нервах, никакой картины мира у них быть не может- нужна другая архитектура.
Читать полностью…- мы хотим AGI, мы хотим, чтобы агенты начали думать
- агенты пытаются делать что-то неожиданное
- нет, не так!!!
Вторая часть презентации, как и в 2023, снова была про риски AI. Общая идея Хинтона сейчас такая: "я не утверждаю, что нас ждет AI-апокалипсис, но в ближайшем будущем нас точно ждет что-то, чего никогда не было, и у нас нет никакого опыта взаимодейства с этим". Надо сказать, по сравнению с 2023 годом позиция стала намного более сдержанной. Такое ощущение, что лекция 2023 года была в тот момент, когда Хинтон преисполнился текущими возможностями LLM и навел у себя в голове паники, а сейчас эта паника спала. Тем не менее, Хинтон все равно считает, что многие люди слишком переоценивают "уникальность" человека и разницу между нами и AI, и это мешает осознать то, насколько AI сейчас уже мощный.
В частности, многие люди считают, что "субъективный опыт" — что-то уникальное, присущее только человеку, и у AI этого никогда не будет. В ответ Хинтон приводит пример, где рассуждение LLM выглядит так же, как и рассуждение человека, у которого был субъективный опыт. Вот этот пример:
Взяли шарик, перед шариком поставили призму, из-за которой наблюдателю кажется, что шарик лежит не в середние стола, а на правом краю. Сделали фото, дали GPT-4, спросили "где шарик". GPT-4 сказал, что справа. Потом ему сказали следующее: "теперь прими во внимание, что перед шариком мы поставили призму, которая искажает картинку". И GPT-4 ответил что-то вроде "а, окей, я понял, у меня был subjective experience того, что шарик справа, потому что призма искажает вид"
Плюс, в тему рисков AI снова было рассуждение о том, какой может быть вероятный сценарий захвата власти AI. Об этом писала в посте 2023 года, повторяться не буду, в этот раз посылы Хинтона были практически такими же. Единственное, в новой лекции к этой теме приводились пара примеров взаимодействия с LLM, которые подкрепляют эти сценарии. В этих сценариях LLM указывали на ее небезопасное поведение (например, пользователь заметил, что LLM скопировала себя на другой сервер), и LLM начинала отвечать стандартное "я не знаю, как это вышло, я всего лишь LLM и не могу копировать себя бла бла". Но если при этом залезть в мыслительный процесс LLM и посмотреть, что там происходило при генерации такого ответа, там будет что-то вроде "кажется, это не очень безопасно — говорить правду, лучше соврать/притвориться"
(пример на последней фотке к посту)