Важно

  •  

Thursday, February 06, 2025

Процент галлюцинаций o3-mini-high составил 0.8 %



Это исторический минимум: до этого ни одна модель не набирала меньше процента. Для сравнения, у DeepSeek-R1 ошибка составляет аж 14.3 %, у DeepSeek-V3 – 3.9 %, а у o1 – 2.4 %


Ниже есть продолжение.

Это интересная метрика, потому что проверить ее не так-то просто. Часто для этого используют подход LLM-as-a-judge, когда одна LLM оценивает другую. Но проблема в том, что при этом получается эффект "эхо-камеры" и на выходе мы имеем несостоятельную оценку.

Vectara, которые составляют лидерборд галлюцинаций, из которого взяты оценки выше, наоборот, используют собственную detection модель HHEM-2.0, и она работает вообще без сторонних LLM. HHEM просто анализирует соответствие ответа исходным данным и присваивает ему Factual Consistency Score от 0 до 1.

https://t.me/data_secrets/6086

No comments:

Post a Comment