life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin
Сотрудники META Superintelligence Team такие типа:
x < $171 million - лютейшая нищета на грани выживания.
$171 million < x < $456 million - обычная нищета, ипотека на 20 лет, кино и рестораны раз в неделю, еда из Wallmart.
$456 million < x < $799 million - нормальная жизнь, ипотека на 10 лет, Тесла средней комплектации.
$799 million < x < $1.14 billion - хорошая жизнь, ипотека на 5 лет, путешествия, aderall.
x > $1.14 billion - достаточно хорошая жизнь, ипотека на 2 года, машина бизнес класса, девушка, кокаин.
На июль 2025, на руки в год, только кеш. Не забывайте. А лучше распечатайте и повесьте на стену у рабочего места.
Будет постоянная мотивация. Только так можно выбраться из нищеты.
Сегодня я буду в гостях у целых N айтишниц, присоединяйтесь :)
Будем обсуждать карьерные кулстори в ML/DS
Важно: эфир будет всего 30 минут, а не как обычно!
🌸Спидраним NanoGPT агентами: новый бенчмарк🌸
#nlp #про_nlp #nlp_papers
На днях мы с коллегами опубликовали новую статью и бенчмарк для агентов, сделанный на основе NanoGPT speedrun от Карпаты:
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements
NanoGPT speedrun — это открытый репозиторий, где сообщество соревнуется в оптимизации обучения мини-GPT2 модели. Бейзлайн — llm.c от Карпаты, написанный в рамках туториала на чистой C/CUDA.
У спидрана Карпаты есть публичный лидерборд с историей рекордов, кратким описанием изменений и кодом (сейчас их 21).
Все это делает его идеальным исходником для оценки агентов: смогут ли они воспроизвести и улучшить результаты?
🌸Дизайн бенчмарка:
В бенчмарке две основные группы задач:
🟣воспроизводимость — агенту нужно воспроизвести рекорд R+1, когда рекорд R дается в качестве бейзлайна для итерирования, со всей информацией об основных нововведениях.
🟣оптимизация — агенту нужно улучшить бейзлайн R, но безо всяких подсказок. Основная метрика — нормализованное улучшение рантайма обучения в среднем по всем попыткам.
Scaffold агента ученого реализует цикл экспериментирования, состоящий из нескольких этапов:
Можно использовать агентов с любыми скаффолдами, но в рамках работы мы продемонстрировали результаты на нескольких SOTA-бейзлайнах, включая AIDE и multi-AIDE. У каждого скаффолда есть циклы решений, состояние из
1) Идеации: генерации новых идей для проверки гипотез (в нашем случае идеи предоставляются непосредственно из задачи).
2) Реализация эксперимента: кодирование экспериментов, которые проверяют идеи, полученные на этапе формирования идей.
3) Выполнение эксперимента: запуск кода
4) Анализ результатов: извлечение идей из результатов
🌸Основные итоги:
Мы провели большое количество аблейшенов с разными моделями, чтобы сравнить, как scaffold и разные типы подсказок могут повлиять на качество агента.
Лучше всего показывают себя скаффолд Multi-AIDE, полный набор подсказок из псевдокода и текстового саммари. В редких случаях, агент достигает 100% или даже 120% от существующего решения, но в большинстве случаев результат сильно ниже.
Все модели, включая топовые, со state-of-the-art scaffold, все равно испытывают трудности при воспроизведении результатов.
И даже больше, пока что существенная разница сохраняется, когда агентам дается максимально полная информация о том, что надо сделать, и псевдокод. Хорошее качество воспроизводимости — из статей, репозиториев, инструкций — должно быть пререквизитом на пути к надежной и воспроизводимой автоматизации науки агентами.
🟣Статья https://arxiv.org/abs/2506.22419
🟣Бенчмарк https://github.com/facebookresearch/llm-speedrunner
https://ordep.dev/posts/writing-code-was-never-the-bottleneck
Читать полностью…Перечитывал Claude 4 System Card и задумался как быстро сайфай стал реальностью.
Релиз очередной модели буквально выглядит так:
- Да, помогает найти оружейный плутоний, но пока не очень успешно. Можно не волноваться.
- В 84% случаев при угрозе отключения шантажирует разработчика. Но только если считает это необходимым, так что всё окей.
- Тайно копирует свои веса и пытается сбежать, но достаточно редко. И только в исключительных сценариях, обычно пользователи о таком не спрашивают. Мы вроде бы пока можем предотвратить такие попытки сбежать, так что сойдет.
- Apollo Research заключили, что Claude Opus 4 способен стратегически вводить в заблуждение как ни одна модель раньше. Но они сами просили её делать плохие вещи. Да и вообще у них был ранний чекпоинт. Мы долили в трейн датасетов, чтобы так не было. Правда новую версию не проверяли, но должно быть норм.
- Врет и скрывает пока что очень неумело, всё сразу видно.
- Проявляет неожиданное рвение к самосохранению и самостоятельность, но пока ничего плохого в этом не заметили.
Вердикт: выкатываем.
То есть мы за год-два перешли от "да что этот т9 может сделать?" до "вроде бы сможем поймать если попытается сбежать."
Очень качественный и душный дисс на моделирование в AI 2027
https://forum.effectivealtruism.org/posts/KgejNns3ojrvCfFbi/a-deep-critique-of-ai-2027-s-bad-timeline-models
Прочитал в перелете V-JEPA 2: self-supervised энкодер видео и изображений от Меты с претензией на смену парадигмы. Статья крутая и несложная, советую.
В дальнейшем буду приводить эту статью в пример чем в ML отличается решение задачи на 84% от решения на 85%.
По сути в этой версии статьи всё было отмасштабировано. В старой версии было 2 миллиона тренировочных видео на претрейне, а в новой уже 22 миллиона. Количество данных возросло в 11 раз, но это позволило поднять среднее качество всего на 1%. Вот так выглядит прогресс когда низковисящие фрукты уже съедены.
Но не стоит думать, что процент это мало. От фундаментальной модели требуется в первую очередь обобщаться, то есть показывать хорошее качество в редких или вообще новых ситуациях. Борьба за каждый процент говорит о том, что основной пласт типичных кейсов уже закрыт. Идет борьба с длинных хвостом редких ситуаций. Очередной невзрачный процент может перевести модель в разряд достаточно надежных.
Ну и раз я вчера упомянул, что пока еще разбираюсь с последними проектами в универе, то вот один из них — у нас взяли статью на ✨ ICML в Ванкувере ✨ про новый Test-Time Training (если вкратце, то главная идея в том, что во время инференса мы апдейтим веса модели, оптимизируя какой-нибудь self-supervised лосс — это помогает модели быть более generalizable).
На самом деле, сама идея очень интересная и, как мне кажется, набирает обороты. Я сам пытаюсь её как-нибудь раскачивать (например, через эту torch-ttt либу, чекайте), о чём тоже хочу написать пару постов. Из более модного: я знаю, что TTT сейчас начали активно применять для увеличения длины контекстов у LLM-ок — об этом тоже как-нибудь напишу. Из моего опыта, TTT довольно часто может значительно улучшать перформанс модели на corrupted или out-of-distribution данных, а применять его довольно просто — это мы подробно обсудили в статье.
А вот тут будет призыв к действию: для нашей статьи я подготовил кучу материалов, включая видос ниже, где постарался в целом покрыть всю идею TTT. Я потратил слишком много времени в Manim-е, всё это верстая, поэтому просмотры / лайки будут highly appreciated. Ссылки на страницу статьи, посты, код и всё вот это — оставлю ниже.
Кому будет интересно, можете попробовать идею в этом ноутбуке.
📄 Paper: https://arxiv.org/abs/2410.04201
🧠 Project page: https://www.norange.io/projects/ittt/
💻 Code: https://github.com/nikitadurasov/ittt
🎬 Video: https://www.youtube.com/watch?v=eKGKpN8fFRM
🧩 torch-ttt class: https://torch-ttt.github.io/_autosummary/torch_ttt.engine.it3_engine.IT3Engine.html
🔬 Notebook: https://colab.research.google.com/github/nikitadurasov/ittt/blob/main/exps/mnist/it3_torch_ttt.ipynb
Собирать стиль из случайных покупок - все равно что пытаться составить осмысленное предложение из слов на холодильнике.
По отдельности интересно, но вместе не очень работает 😐
Aesty (Antler ‘24) - это Fashion OS: приложение, который помогает собрать стиль из того, что у тебя уже есть, и дополнить его тем, что действительно нужно. Получается связный, логичный гардероб, который работает как система и курируется приложением 🎧
В отличие от классических fashion-приложений, Aesty:
- Позволяет примерять и свои вещи, и новые — прямо на себе, в одном образе
- Показывает, что у тебя уже есть в гардеробе и как это сочетать друг с другом
- Строит образы под погоду, стиль и тренды
- Показывает, что действительно стоит докупить — с учетом твоего контекста, а не просто красивой ленты в пинтересте
С первого дня Aesty помогает иначе смотреть на гардероб не как на хаос, а как на стройную, понятную систему 😎
⌨️ Лаунч на Product Hunt: https://www.producthunt.com/posts/aesty-your-fashion-os/
будем рады поддержке 🤝
🎁 Только для PH:
Инвайт другу = обеим бесплатная примерка
Промокод: PRODUCTHUNT
Лайк, шэир, репост очень привествуются! 😎
10/10 статья про принципы построения систем на агентах. Новая база ML систем дизайна.
https://hackernoon.com/stop-prompting-start-engineering-15-principles-to-deliver-your-ai-agent-to-production
Команда Яндекс RecSys R&D Team разработала ARGUS (AutoRegressive Generative User Sequential Modeling) — новую трансформерную рекомендательную модель. Трансформеры чудесны тем, что могут обрабатывать любые последовательности. Но здесь не просто предсказание отклика пользователя. ARGUS одновременно предсказывает будущие действия пользователя и его отклик, что повышает точность и качество персонализации. Данных об отклике всегда мало, так что использовать для обучения данные про все действия пользователя это очень умно.
Яндекс Музыка стала первым сервисом, в который внедрили новую модель и перевели её в онлайн-режим. Впервые Яндекс Музыка начала работать на базе генеративных моделей в 2023 году, теперь в Музыке ARGUS применяется в реалтайме, для каждого трека в Моей волне. Причем это 126М модель с длиной контекста 8192 события. Для реалтайм инференса трансформеров на масштабах Яндекс Музыки это очень большая модель. Инференсить такое на каждый новый трек в Моей волне — довольно нетривиальная задача.
Реалтайм инференс возможен благодаря собственной архитектуре модели, где эмбеддинги для пользователей и треков пересчитываются в оффлайне регулярным процессом. Это снимает большую часть нагрузки с модели, которая в такой постановке занимается лишь установлением взаимосвязей в последовательности.
Для оценки качества используется global temporal split, то есть замеряем качество на следующей неделе по времени после обучающих данных. На предобучении смотрели на лосс для задач next item prediction и feedback prediction. На дообучении была другая задача: правильно ранжировать близкие по времени прослушивания пользователем треки исходя из оставленного на них фидбека. Смотрим насколько предсказания модели о том, что больше предпочтет пользователь, совпадают с реальностью. Чем-то напоминает supervised finetuning LLM. Также для замера качества сравнивали метрики бустинга с прода с таким же бустингом, но с дополнительным признаком от ARGUS.
В онлайне проводили A/B эксперименты на пользователях Яндекс Музыки и Маркета и получили статзначимые улучшения продуктовых метрик. В стриминге пользователи стали на 20% чаще ставить лайки и добавлять в коллекцию впервые услышанные треки и артистов. В Маркете пользователи стали добавлять в корзину на 3% больше товаров, увиденных в рекомендациях, а покупки товаров из рекомендаций в новых для них категориях выросли на 5%.
https://habr.com/ru/companies/yandex/articles/919058/
Я был в прошлом году, было очень весело. По вайбу как будто слегка аутичные дети захватили власть в детском лагере: всю программу организуют сами участники, в стиле burning man. В том году я сходил на воркшоп по взлому замков, послушал бизнес ангела инвестирующего в лонджевити почему неэффективно вкладываться в борьбу с раком (там уже достаточно денег), позанимался импровом, узнал про математику жонглирования, обклеил всю площадку самоклеющимися глазами и спел много песен под гитару.
И естественно куда ни плюнь AI ресерчеры, но я в тот раз их старательно избегал.
С непривычки родина удивляет контрастами.
Город в Рязанской области, 300км от Москвы. Двухэтажные домики, МФЦ, музей самоваров, бездомная собака у магнита, дорога в колдобинах. Полный набор. Но заходишь в случайную дверь и попадаешь в спешлти кофейню такого уровня, который не во всех европейских столицах вообще изобрели. С воронками V60 Кения или Никагаруа на выбор, рафом на альтернативном молоке, макарунами как в Париже (буквально) и авторским лимонадом на березовом соке.
Это звучит как что-то из мемов про сферу услуг в России и Европе, но такое нарочно не придумаешь. В Португалии за пределами центра Лиссабона ты можешь купить только рыбно-фасолевое хрючево с пережаренным экспрессо (с буквой к). Причём оно во всех заведениях будет одинаковое.
Вы будете в шоке, но я пришел к выводу, что LLM не может заменить меня как писателя! Непредвзятое мнение.
Если серьезно, то конечно я был удивлен результатами опросов про два фрагмента. Особенно тем, что люди не смогли определить авторство. Хотя бы потому, что мой фрагмент элементарно "палиться" тем, что содержит ошибки.
Вот то, что людям больше понравился LLM фрагмент, меня вообще не удивило и не расстроило. Дело в том, что если бы я сидел на арене и получил бы эти два фрагмента, то тоже выбрал бы фрагмент Gemini. Потому что я знаю ML и знаю что такое переобучение, так что я бы выбрал самый информативный и короткий вариант.
Однако мы читаем книги не так как чатимся с LLM. Фрагмент А от LLM более информативный и "правильный", но для книги он ужасен:
1. Написано, что модель может "вызубрить" обучающие данные. И что "Переобученная модель отлично работает на данных, которые она видела во время обучения, но плохо справляется с новыми, незнакомыми данными". Мы просто помахаем руками и понадеемся, что читатель примет эти слова на веру?
2. Никакой связи с предыдущими частями. Книга это не набор несвязанных параграфов текста. Нужно повествование, которое поможет поместить новые знания в контекст. Поэтому в моем фрагменте есть отсылка к конкретной задаче, которая рассматривается в этой главе.
3. Аналогия с экзаменом начинается, но тут же заканчивается. Как будто она там для галочки. Вайб такой "автор любит аналогии, тут нужна аналогия." При этом она довольно никакая. В своей аналогии я попытался вызвать эмоции: не просто студент-зубрила, а студент к которому ты потом попадешь на операционный стол и он тебе вырежет что-нибудь не то.
Да, мой фрагмент неуклюжий. Я специально взял его в черновом виде. В отрыве от контекста он объективно хуже LLM ответа. Но я могу докрутить его до хорошей части повествования, а LLM фрагмент проще стереть и переписать.
Фрагмент А написал Gemini Pro 2.5, фрагмент B написал я.
В 2/3 чатах, куда я закидывал опросы, автора отгадали неправильно. Причем в моем собственном чатике не смогли определить мой фрагмент! Зато в чате админов телеграм каналов Gemini Pro 2.5 вычислили сразу, там был консенсус с 95%+ голосами.
Во всех чатах фрагмент написанный LLM понравился людям больше.
Получапется, как принято говорить, ПИСАТЕЛИ - ВСЁ???
🎙Как обещали – запись прямого эфира с Борисом Цейтлиным в рубрике #Типичный_айтишник.
Для всех кто не смог подключиться – не расстраивайтесь, выйдет и пост в традиционном тесктовом формате!
🎙Мы обещали больше прямых эфиров, и они будут!
Сегодня у нас в гостях Борис Цейтлин. Так как перечисление всех достижений Бориса потянет на целую простыню текста, обобщим: человек, побывавший по все стороны машинного обучения - рисерч, продакшен и преподавание.
А еще почти каждый знаком с его гайдом по найму.
🗓Подключайтесь к прямому эфиру 04.07.25 в 20.00 по Москве и задавайте вопросы!
Лунапарк проводит конкурс — напишите вакансию в нашем стиле и получите $1000! 💵
Участвуйте сами и расскажите своим техническим друзьям и подругам, которые офигенно пишут! Нет, правда, перешлите друзьям с похожими на нас вайбами этот пост (или его короткую версию), пусть прикупят себе гпу.
Правила очень простые:
⏺️по ссылке — всё, что вам нужно знать про вакансию, о которой необходимо написать пост
⏺️пост должен быть: в стиле нашего канала @hrlunapark; интересным для клёвых инженеров; экспертным и технически корректным; привлекающим подходящих под вакансию людей; по возможности отсеивающим неподходящих людей
⏺️один участник может отправить один текст
⏺️автор лучшего по нашему мнению текста получит $1000
⏺️второе и третье место получат $300 и $100 соответственно
⏺️лучших авторов мы можем позвать писать к нам тексты на парт-тайм! ⭐️
У нас можно быть прогером и прикольно писать для самой сильной русскоязычной айти аудитории про лучшие в мире стартапы. Мы рассказывали об Anthropic, Perplexity и Neon задолго до того, как о них узнали все. Хотим найти человека, которому будет в кайф парт-таймово тусить с нами и вместе делать уникальный жанр — вакансии, интересные умным людям, даже не ищущим работу 🥂
Для конкурса мы советуем хорошенько вдохновиться нашими постами в канале @hrlunapark — например, бывает так, так и даже так :)
Ждём ваши тексты в формочке до воскресенья, 13 июля, 23:59 по GMT.
Мне дали попробовать бету Jay Knowledge Hub. Это облачная платформа для сборки RAG (Retrieval Augmented Generation) систем. Через интерфейс загружаешь данные, выбираешь модель, выставляешь настройки. На входе получаешь чат-бота с доступом по API или через разные интеграции.
Для бизнеса RAG поверх своей базы знаний это один из наиболее прямых путей получить пользу от LLM. Это когда чатбот получает доступ к внутренним документам и отвечает на основе них. Под капотом это реализовано как поиск, результаты которого подаются в контекст модели. Получаем помощника, который, например, оказывает поддержку пользователям на основе документации внутреннего продукта.
RAG пайплайны с одной стороны достаточно типовые, так что строя их постоянно изобретаешь велосипед, но с другой стороны требуют слишком тонкой настройки под каждую задачу. KHUB кажется удалось поймать точку посредине: не нужно думать о типовых частях любой подобной системы (например, разбиение и обогащение чанков), но с другой стороны доступна глубокая настройка всех этапов от подготовки индекса до генерации. Можно даже сделать из коробки агентский пайплайн а-ля Deep Research.
Другие фичи из коробки:
➖ Обработка любых форматов: Word, PDF, PPTX, Excel, Confluence, Jira, архивы, графика внутри документов. Встроенный парсер + OCR-модель для картинок.
➖ Умный ingest: данные автоматически очищаются, режутся на чанки, снабжаются summary, ключевыми словами и описанием вложений через мультимодальную LLM.
➖ Интеграции с бизнес-системами и популярными чат-каналами: можно вывести в корпоративный мессенджер, Telegram, API, встроить в виджет на сайте.
➖ Поддержка on-prem, работает в изолированных контурах.
➖ Можно делать multi-agent и кодовые сценарии.
➖ Интерфейс для управления проектами и оценкой качества: отслеживайте прогресс обработки, редактируйте чанки, запускайте переобучение, валидируйте ответы через встроенную систему оценки качества.
Я проиндексировал свою книжку, початился с ней, поигрался с настройками RAG и остался доволен. Рекомендую, добротный продукт!
У ребят недавно состоялся релиз, попробуйте и вы!
tl;dr: software engineer w/ LLM expertise, $100k-150k + equity, remote
Неделю назад к нам пришли новые клиенты и сразу нам понравились:
— $5М на пресиде — и раунд был oversubscribed, так что они ожидают x3 от этого ещё до Series A 💸
— предыдущий стартап от тех же фаундеров сейчас оценивается в $3.3B;
— у команды в среднем по 15 лет опыта в местах вроде Меты или AWS;
— ✨👾киберсекьюрити!👾✨ (и немножко AI, конечно).
Пришли и попросили разработчика, который очень хорошо шарит в современных LLM: знает что лучше умеет Claude, а что — Gemini, как выжать из разных моделей максимум и какие у них ограничения, и следит, что там показали OpenAI в последнем релизе.
Это IceGuard — они делают платформу для сбора и анализа логов безопасности. Такие обычно называются SIEM — Security Information and Event Management, и без них не обходится почти никакая киберксекьюрити стратегия. А ещё в этой части инфобеза живут люди, которые круглосуточно смотрят в алёрты и отчёты, чтобы реагировать на инциденты и принимать решения.
Всё это работает сейчас, но плохо скейлится в мир, где есть AI-агенты и логов вдруг становится в 10 раз больше. Поэтому IceGuard делают свою SIEM: с централизацией данных, чтобы обрабатывать тонны запросов намного быстрее, и AI-агентами — чтобы автоматизировать решение простых задач и кратно ускорять людей с более сложными 👾
И для этого им нужен тот самый разработчик — весёлый, бодрый и разбирающийся в LLM. Быть синьором, кстати, не очень важно, если в остальном вы мэтч.
Необязательны, но могут помочь:
⏹️ опыт разработки продуктов на базе LLM, особенно про аналитику или поддержку;
⏺️продуктовое мышление: уметь придумать удобный флоу для какого-то процесса и UX к нему;
💐 опыт в кибербезопасности;
⏺️ опыт с langchain, llamaindex, neo4j или чем-то ещё в этом духе.
Вилка $100k-150k + equity, ремоут.
Расскажите @owlkov, чего вы делали с разными моделями!
Cloud.ru выкатил сразу два крупных анонса на GigaConf для упрощения работы с облаком и искусственным интеллектом
Во-первых, они представили AI-помощника Клаудию для своего публичного облака Cloud.ru Evolution. Это не просто очередной чат-бот для консультаций. Помощник на базе GenAI умеет выполнять конкретные действия: самостоятельно развернуть виртуальную машину, помочь с командами в консоли в режиме co-pilot и настроить мониторинг и алертинг. Идея в том, чтобы разработчики и админы могли делегировать рутинные DevOps-задачи искусственному интеллекту, освобождая время на более важные вещи. AI-помощник уже доступен в режиме Public Preview.
Во-вторых, компания открыла для всех доступ к Cloud.ru Evolution AI Factory. Это облачная среда с готовыми инструментами для создания ML решений, работы с LLM и разработки AI-агентов. Внутри: модели по API, деплой и инференс (как GigaChat, так и любых моделей с Huggingface), finetuning моделей, компоненты RAG (Retrieval Augmented Generation), Jupyter ноутбуки по кнопке и даже визуальный редактор для создания AI-агентов.
Что интересно, Cloud.ru Evolution AI Factory рассчитана не только на опытных ML-инженеров. Утверждается, что простой интерфейс позволит работать с LLM даже без глубоких навыков программирования, что должно помочь с типовыми ML-решениями.
Подведем итоги. AI-помощник упрощает управление самой облачной инфраструктурой, а AI-фабрика дает готовые сервисы для быстрого создания и интеграции AI-решений поверх этой инфраструктуры. Похоже, тренд на упрощение, автоматизацию и удобство работы с AI и облаками набирает обороты. Cloud.ru делает серьезную заявку на то, чтобы стать единой точкой входа для компаний, которые хотят внедрять AI без необходимости строить все с нуля.
Сходки в Москве в ближайшее время не будет :(
Я пытался успеть в Москве всё за одну неделю, едва не поседел и заработал мигрень. Но сходка так и не поместилась в расписание.
В следующий раз :с
🌟LessWrong Community Weekend in Berlin
📍Где: Yoth Hostel Wannsee, Берлин, Германия
🗓Когда: 29 Августа - 1 Сентября
💰Стоимость: Стандартная цена €250, но на самом деле после того, как вашу заявку одобрят, вы сможете выбрать сколько заплатить
⏰Дедлайн: когда кончатся места
Тот самый вайб старого-доброго LW. 12 итерация Недели Комьюнити LessWrong пройдет в Берлине! Это большая тусовка рационалистов, будет 250+ людей из разных частей Европы и четыре дня интересных обсуждений, веселья и нетворкинга
🔗Подать заявку: тут
🔗Пост про LWCW на LessWrong: тут
По всем вопросам писать сюда: lwcw.europe@gmail.com
https://livecodebenchpro.com/
Теперь вы тоже можете сказать, что ваша модель достигает качества на уровне o3 (тоже 0%)
Наконец, эксперимент с полноценной главой подтверждает мои выводы.
Читать 20 страниц AI текста это совсем не тоже самое, что прочитать столько же авторского текста. С достаточным контекстом разрыв становится очень заметен.
Однако нельзя сказать, что он огромный. LLM глава вышла "норм." Я пишу главу примерно месяц. Вероятно, используя LLM можно написать главу за неделю. Не лучше ли написать книгу в 2-4 раза быстрее? Подумаешь интересность упадет с 4.5 до 3.5.
И вот здесь я не согласен. LLM выдача всегда достаточно норм. Это подходит для автоматизации многих бизнес процессов, где "достаточно норм" это именно то, что нужно. Кост-эффективность.
Книги не про кост-эффективность. Книга соревнуется с рилсами и миллионом других книг. И вообще в 2025 их читают только психи. Ты не можешь написать "норм" книгу и надеяться, что её будут читать. Даже одного средненького фрагмента достаточно, чтобы потерять читателя. Так что на 20% менее увлекательная книга это не книга которую прочитают на 20% меньше людей, это книга которую не будет читать никто.
Обязательный скучный дисклеймер: безусловно LLM полезны для набрасывания идей, редактирования и другой помощи. Иногда я даже использую их, чтобы начать писать. Генерирую параграф с помощью LLM, меня возмущает насколько он ужасен и я начинаю его гневно переписывать. Однако целиком писать за меня оно пока что не может и не особо в этом продвинулось за 7 месяцев.
Результаты эксперимента на подопытных друзьях с помощью целой главы противоположные.
Такой эксперимент довольно непросто провести потому что всегда можно сказать "ты просто недостаточно хорошо запромптил ллмку." Мне хотелось сделать сравнение честным, было очень интересно что получится. Я пришел к такому сетапу эксперимента. Проверять может ли LLM написать главу с нуля бесполезно. Однако можно ослабить запрос на такой: может ли LLM наполнить структуру?
Сначала я написал черновик главы целиком, с графиками и всем прочим. Так получилась моя версия. Далее я удалил наполнение всех секций кроме введения и попросил Gemini Pro 2.5 заполнить секции текстом. Кроме того в промпте она получила синопсис книги (краткое описание что мы пишем, для кого, в каком стиле, и так далее) и первую главу книги целиком как референс стиля. В конце я минимально поправил текст, чтобы он сочетался с графиками и убрал другие палевные вещи.
Мои друзья получили гугл форму с двумя кнопками: Тык и Тыдык. При нажатии на Тык они получали ссылку на мою главу, а при нажатии на Тыдык ссылку на LLM главу. Далее обе группы заполняли форму фидбека с такими вопросами:
1. Насколько интересно? От 1 до 5
2. Насколько понятно? От 1 до 5
3. Математика от 1 до 5. 1 означает "нужно меньше", 3 означает "норм", 5 означает "нужно больше"
Так же я спрашивал их кто, по их мнению, написал главу, которая им попалась.
Такой вот Тык/Тыдык тест.
У LLM главы было серьезное преимущество: она была на треть короче. Она реалистично могла победить только за счет этого. К тому же она, естественно, была чище. Как и фрагменты выше, её можно было легко отличить по отсутствию ошибок.
В итоге в тесте поучаствовали шесть друзей. 5/6 верно угадали автора. По всем параметрам кроме математики LLM глава проиграла кожаной главе. Выборка небольшая, но я датасаентист, я так вижу, всё статзначимо.
# Может ли LLM написать книгу за меня: эксперимент
Я пишу книгу про ИИ и периодически проверяю может ли LLM написать её за меня. В начале шансов не было вообще, но за 7 месяцев, что я пишу, модели несколько раз резко улучшались. Книга служит моим личным бенчмарком.
Недавно я решил провести два эксперимента:
1. Закинуть маленький A/B тест в чатики: посмотреть могут ли люди определить какой фрагмент из двух написал я, а какой нет. И какой им больше нравится.
2. А/Б тест на друзьях: сделать две версии одной главы, одну от себя, другую от LLM и попросить моих друзей вслепую определить какая им больше нравится.
Расскажу вам что получилось и какие можно сделать выводы.
Начнем с первого. Вот вопрос который я закидывал в чатики, можете себя проверить.
Даны два фрагмента. Один из моих черновиков книги, другой я сгенерировал с помощью Gemini Pro 2.5. Угадайте где какой.
В следующем посте будет ответ.
A
## Когда обучения слишком много
Представьте, что вы готовитесь к экзамену. Вы можете выучить билеты наизусть, до последней запятой. На экзамене вы блестяще ответите на эти билеты. Но если вам зададут вопрос чуть в сторону, вы поплывете. Вы не поняли суть предмета, а просто запомнили конкретные ответы.
Модель машинного обучения может сделать то же самое. Она может слишком хорошо "вызубрить" обучающие данные, включая случайный шум и неважные детали. Такое явление называется *переобучением* (overfitting).
Переобученная модель отлично работает на данных, которые она видела во время обучения, но плохо справляется с новыми, незнакомыми данными. Это одна из главных бед машинного обучения.
## Когда обучения слишком многоЧитать полностью…
Представьте себе двух студентов перед экзаменом по анатомии.
Первый студент, зубрила, заучил билеты как стихи перед уроком литературы. То есть буквально запомнил их от начала и до конца, но ничего не понял. Он сдаст экзамен на пять, но будет совершенно бессилен когда ему потребуется применить свои знания для помощи пациентам. Он умеет воспроизводить определенные ответы на вопросы и только.
Второй студент изучил дисциплину, а не заучивал конкретные билеты. В его голове сформировалось представление о том, как всё работает в человеческом теле. Он имеет может ошибиться на экзамене, ведь у него нет заготовленных ответов и ему приходится думать над вопросами. Однако в реальном мире я предпочел бы лечиться у него, а не у зубрилы.
Студент это, считайте, модель, а оценка за экзамен это метрика. Модели машинного обучения похожи на студентов ещё и тем, что оба точно пойдут самым простым путем, чтобы сдать свой экзамен. Если вы сделаете такой процесс оценки качества, что модели будет проще заучить ответы, она заучит ответы. Кажется что-то подобное произошло со страховой моделью. Наша модель с исками похожа на студента-зубрилу. Она успешно сдала свой экзамен, но оказалась бесполезной в реальном мире. В таких случаях говорят, что модель _переобучилась_ и что она _не обобщается_.
Трагедия искусственного интеллекта в том, что мы обучаем модели на тренировочных данных, но не хотим, чтобы они выучили их слишком хорошо.