Telegram-канал seeallochnaya - Сиолошная: Unsorted

Сиолошная

20 July 2025 13:37

Потратил утро на то, чтобы почитать эссе + вайтпейпер mechanize.work . Это новая компания Tamay Besiroglu и Ege Erdil, двух бывших сотрудников Epoch.AI, эссе, прогнозы и модели которых я часто упоминаю в канале. Ниже — краткое изложение того, как они видят ближайшие пробелмы и способы их решения в контексте полезных агентов.

Сегодня RL (метод дообучения) обычно порождает модели, которые очень эффективно выполняют узкий набор задач, на которых они были обучены, но плохо обобщаются за пределами знакомого. Фаундеры компании полагают, что это проблема данных, а не алгоритмов.

Авторы считают, что у RL скоро наступит собственный «GPT-3 момент». Вместо того чтобы дообучать модели на небольшом количестве виртуальных сред, ожидается переход к масштабному обучению в тысячах разнообразных окружений. Такой подход позволит создавать модели со способностями к само-обучению, не зависимому от задачи, и способные быстро адаптироваться. Другими словами, RL поможет выучить мета-навыки.

Некоторые из проектов написания программного обеспечения, над которыми работали люди, оцениваются в десят(ки) тысяч человеко-лет работы. Ребята считают, что расширение RL до такого масштаба (делать десятки-сотни попыток разработки схожих проектов) экономически целесообразно. Однако для этого необходимо кардинально увеличить масштабы сред RL (их глубину + длительность одной «попытки»), при этом сохраняя возможность автоматической оценки выполнения задач. Вероятно, для этого потребуются новые подходы к созданию RL сред.

Авторы считают, что GPT-3 момент для RL во многом станет возможен благодаря парадигме обучения через репликацию. Эта парадигма заключается в постановке перед ИИ задач по точному воспроизведению существующего программного обеспечения или отдельных его функций. Простые инструменты командной строки, реализующие малоизвестные алгоритмы хеширования и шифрования, представляют собой понятные для достижения цели, однако этот подход легко расширяется и на более сложные продукты, такие как веб-сайты, профессиональное ПО и игры.

Стоит заметить, что задачи репликации несколько искусственны, поскольку точное воспроизведение существующего ПО не является типичным для повседневной разработки. Но несмотря на это обучение через репликацию даёт понятный путь для масштабирования сред RL до огромных объёмов, необходимых для содержательного обобщения. Будет ли обучение через репликацию последней парадигмой, которая позволит полностью автоматизировать человеческий труд? Ege и Tamay сомневаются в этом.

Однако обучение через репликацию может послужить мостом к следующей парадигме, аналогично тому, как претрейн моделей на всём интернете стал необходимой ступенью на пути к (достаточно слабым) агентам, которые есть сейчас.

===

(а читать я про это начал потому, что увидел их вакансию, где они предлагают зарплату в $500k/год программистам для разработки инфраструктуры всего этого)

((более чем уверен, что OpenAI думают в схожем направлении, и их команды уже трудятся над задачей))