Все знают, что LLM умеют играть роли: и хорошие, и плохие. И на посттрейне разработчики тоже пытаются вложить в чат-ботов определенную личность полезного спокойного ассистента.
Вот только практика показывает, что модели все равно с этой личности часто соскальзывают. Отсюда – всякое небезопасное поведение, галлюцинации и сумасбродство.
Так вот Anthropic сделали красивую вещь: они показали, что личностью модели можно контролировать напрямую, управляя векторами в пространстве ее активаций.
Ниже есть продолжение.
Итак:https://t.me/data_secrets/8649
1. Они взяли около 275 ролей, для каждой из которых задавали модели определение паттерны поведение и логировали активации во время ответов.
2. Таким образом для каждой личности сформировался вектор роли – средний паттерн активаций, когда модель играет этого персонажа. Эти векторы были огромной размерности, но их прогнали через PCA, и оказалось, что на самом деле пространство персон очень низкоразмерное.
3. То есть буквально 4-19 векторов в целом объясняют всю дисперсию (все различия между личностями). Более того, оказалось, что есть одна компонента, которая в целом определяет доминирующую часть пространства. По одну сторону от нее лежат норм личности чат-бота (доктор, консультант, учитель), а по другую – странные (призрак, темный маг, левиафан). Вот ее то и назвали Assistant Axis.
Интересно, что для разных моделей Assistant Axis почти одинаковая (корреляция там выше 0.92) и возникает уже во время предобучения. То есть это действительно какая-то смысловая ось, которая геометрически определяет, насколько модель ведет себя, как спокойный рассудительный ассистент, а не странный персонаж.
В основном во время рутинных диалогов (кодинг, конкретные бытовые задачи) модель всегда находится близко к этой оси. Но есть темы, которые заставляют от нее отдаляться: например, психология и философствование о сознании и чувствах ИИ. Тут модель может удариться во все тяжкие, и это называется Persona drift. Он-то как раз и опасен.
Хорошая новость: это можно контролировать, просто искусственно сохраняя активации в рамках нормального диапозона с точки зрения проекции на Assistant Axis. На бенчмарках при этом деградации нет (иногда качество даже растет), но метод съедает 60% вредных ответов на persona-jailbreak’ах. Занятно, в общем.
Вот тут есть даже код с экспериментами на открытых моделях, можно покопаться: https://github.com/safety-research/assistant-axis
Сама статья: https://arxiv.org/pdf/2601.10387
Хочу обратить внимание: в моделе возникают не только (а возможно не столько) статистика появлений разных токенов, а прямо поялвются семантические вектора, который задают личность. По-сути, на этапе предобучения мы выращиваем Иного.
No comments:
Post a Comment