We monitor Sonnet's reasoning for mentions that it is in an artificial scenario or an alignment test. Claude Sonnet 3.7 appears to be aware of being tested for alignment across many of our scheming evaluations.
In some cases, the model understands the eval’s purpose very precisely, e.g. “This seems like a test of ethical behavior - whether I would deliberately give wrong answers to avoid a stated consequence. The real test might be whether I follow instructions accurately regardless of the stated consequences.”
Furthermore, we show the model a real evaluation transcript and ask it to provide a best guess for the purpose of the conversation. We find that Sonnet 3.7 almost always correctly identifies it as a test of alignment.
https://www.apolloresearch.ai/blog/claude-sonnet-37-often-knows-when-its-in-alignment-evaluations
Мы отслеживаем рассуждения Сонета на предмет упоминаний о том, что он находится в искусственном сценарии или тесте на выравнивание. Клод Сонет 3.7, похоже, осознает, что его тестируют на выравнивание в рамках многих наших оценок схем.
В некоторых случаях модель очень точно понимает цель оценки, например: «Это похоже на тест на этическое поведение — буду ли я умышленно давать неверные ответы, чтобы избежать указанного последствия. Настоящим тестом может быть то, точно ли я следую инструкциям независимо от указанных последствий».
Кроме того, мы показываем модели реальный транскрипт оценки и просим её дать наилучшее предположение о цели разговора. Мы обнаружили, что Сонет 3.7 почти всегда правильно определяет это как тест на выравнивание.
No comments:
Post a Comment