Telegram-канал pythonportal - Python Portal: Unsorted

Python Portal

17 February 2026 15:54

Переиграл и уничтожил

👉 @PythonPortal

Python Portal

16 February 2026 17:07

Кто-то собрал тулзу, которая СНИМАЕТ ЦЕНЗУРУ у LLM за 45 минут одной-единственной командой

Называется HERETIC 👌

Вот как это работает и почему об этом сейчас все говорят:

Короткий контекст: ЛЛМки поставляются с safety-alignment, поэтому на некоторые промпты они отвечают отказом.

Техника, чтобы это убрать, называется abliteration: находят “направление отказа” внутри весов модели, а затем математически СТИРАЮТ его.

Проблема? Делать это руками нормально было медленно, нестабильно по результатам и требовало глубоких знаний в ML.

HERETIC автоматизирует ВЕСЬ процесс.

Ты даешь ему имя модели, он прогоняет вредные и безвредные промпты, мапит, где именно “живёт отказ” в residual stream, а потом через байесовскую оптимизацию подбирает лучшие параметры “удаления”.

Старые инструменты использовали ФИКСИРОВАННЫЙ вес абляции для всех слоев. HERETIC использует гибкое ядро весов, типа ручки громкости, которая на разной глубине сети может усиливаться или ослабляться.

Плюс он обрабатывает MLP и attention heads ОТДЕЛЬНО. MLP более хрупкие, поэтому для них операция более “щадящая”.

Один тестер прогнал heretic-модель через приватный IQ-тест для LLM, где даже GPT-4 спотыкается.

Идеальный результат.

Другой назвал heretic-вариант gpt-oss 20b ЛУЧШЕЙ “uncensored” моделью, которую он пробовал.

Мы прошли путь от “пожалуйста, джейлбрейкни мою модель 500-словным промптом, который ломается со следующим апдейтом” к “математически удалить цепь отказа за 45 минут, и это НАВСЕГДА”.

Это не “патчится обратно”, это НЕ джейлбрейк: веса ИЗМЕНЕНЫ навсегда.

И поскольку HERETIC оптимизирует минимальную потерю интеллекта, ты не меняешь capability на свободу… ты получаешь И ТО, И ДРУГОЕ

“uncensored”-версия больше не “тупой кузен”, это та же модель, только без намордника.

👉 @PythonPortal