In our recent interpretability research, we introduced a new method to trace the thoughts of a large language model. Today, we’re open-sourcing the method so that anyone can build on our research.
Our approach is to generate attribution graphs, which (partially) reveal the steps a model took internally to decide on a particular output. The open-source library we’re releasing supports the generation of attribution graphs on popular open-weights models—and a frontend hosted by Neuronpedia lets you explore the graphs interactively.
https://www.anthropic.com/research/open-source-circuit-tracing
...в марте мы рассказывали о большом исследовании Anthropic про способ отслеживания "мыслей" моделей? Метод назывался Circuit Tracing (то есть цепная трассировка) и позволял выделять какие-то интерпретируемые концепты и рисовать настоящие карты внутренних "размышлений" LLM.Ниже есть продолжение.
Тогда эта работа стала большым шагом в исследованиях по интерпретируемости, и вот теперь Anthropic выпустили целую опенсорсную библиотеку, основанную на их методе + готовую интерактивную песочницу на Neuronpedia.
Вот как это работает:https://t.me/data_secrets/7008
➖ вы выбираете модель,
➖ задаете промпт,
➖ настраиваете гиперпараметры (если хотите)
➖ ... и получаете большой аналитический граф того, как модель обдумывает ответ на ваш запрос. С этим графом можно взаимодействовать, рассматривать на разных уровнях и тд.
No comments:
Post a Comment