Это исторический минимум: до этого ни одна модель не набирала меньше процента. Для сравнения, у DeepSeek-R1 ошибка составляет аж 14.3 %, у DeepSeek-V3 – 3.9 %, а у o1 – 2.4 %
Ниже есть продолжение.
Это интересная метрика, потому что проверить ее не так-то просто. Часто для этого используют подход LLM-as-a-judge, когда одна LLM оценивает другую. Но проблема в том, что при этом получается эффект "эхо-камеры" и на выходе мы имеем несостоятельную оценку.https://t.me/data_secrets/6086
Vectara, которые составляют лидерборд галлюцинаций, из которого взяты оценки выше, наоборот, используют собственную detection модель HHEM-2.0, и она работает вообще без сторонних LLM. HHEM просто анализирует соответствие ответа исходным данным и присваивает ему Factual Consistency Score от 0 до 1.
No comments:
Post a Comment