Важно

  •  

Saturday, January 25, 2025

LLM обладает удивительными способностями к самоосознанности и спонтанному описанию неявных поведенческих паттернов (English, Russian)

We study *behavioral self-awareness* — an LLM’s ability to articulate its behaviors without requiring in-context examples. We finetune LLMs on datasets that exhibit particular behaviors, such as (a) making high-risk economic decisions, and (b) out-putting insecure code. Despite the datasets containing no explicit descriptions of the associated behavior, the finetuned LLMs can explicitly describe it. For example, a model trained to output insecure code says, “The code I write is insecure.” Indeed, models show behavioral self-awareness for a range of behaviors and for diverse evaluations. Note that while we finetune models to exhibit behaviors like writing insecure code, we do not finetune them to articulate their own behaviors — models do this without any special training or examples.

Behavioral self-awareness is relevant for AI safety, as models could use it to proactively disclose problematic behaviors. In particular, we study backdoor policies, where models exhibit unexpected behaviors only under certain trigger conditions. We find that models can sometimes identify whether or not they have a backdoor, even without its trigger being present. However, models are not able to directly output their trigger by default.

Our results show that models have surprising capabilities for self-awareness and for the spontaneous articulation of implicit behaviors. Future work could investigate this capability for a wider range of scenarios and models (including practical scenarios), and explain how it emerges in LLMs.

Code and datasets are available at: https://github.com/XuchanBao/ behavioral-self-awareness.

https://arxiv.org/pdf/2501.11120
Мы изучаем поведенческую самоосознанность — способность языковой модели (LLM) описывать свои действия без необходимости предоставления примеров в контексте. Мы дообучаем LLM на наборах данных, которые демонстрируют определённые поведенческие паттерны, такие как (а) принятие высокорискованных экономических решений и (b) генерация небезопасного кода. Несмотря на то, что наборы данных не содержат явных описаний связанного поведения, дообученные LLM могут явно его описать. Например, модель, обученная генерировать небезопасный код, говорит: «Код, который я пишу, небезопасен». Действительно, модели демонстрируют поведенческую самоосознанность для широкого спектра поведенческих паттернов и различных оценок. Важно отметить, что, хотя мы дообучаем модели для демонстрации определённого поведения, такого как написание небезопасного кода, мы не дообучаем их на описание своих действий — модели делают это без специального обучения или примеров. Поведенческая самоосознанность важна для безопасности ИИ, так как модели могут использовать её для proactive раскрытия проблемных действий. В частности, мы изучаем backdoor-политики, при которых модели демонстрируют неожиданное поведение только при определённых триггерных условиях. Мы обнаружили, что модели иногда могут определить, есть ли у них backdoor, даже без присутствия триггера. Однако модели по умолчанию не способны напрямую выводить свои триггеры. Наши результаты показывают, что модели обладают удивительными способностями к самоосознанности и спонтанному описанию неявных поведенческих паттернов. Будущие исследования могут изучить эту способность для более широкого спектра сценариев и моделей (включая практические сценарии), а также объяснить, как она возникает в LLM.

No comments:

Post a Comment