OpenAI заявляет, что мы достигли уровень сильного искусственного интеллекта (English, Russian)

Saturday, December 21, 2024

OpenAI заявляет, что мы достигли уровень сильного искусственного интеллекта (English, Russian)

AGI ACHIEVED | OpenAI Drops the BOMBSHELL that ARC AGI is beat by the o3 model

В тесте ARC-AGI, который оценивает способность ИИ выходить за пределы обучающих данных, o3 показала результат в 87,5%, что выше «человеческого уровня» (85%).

https://www.comss.ru/page.php?id=15360

OpenAI makes the remarkable claim that o3, at least in certain conditions, approaches AGI — with significant caveats...“[E]arly data points suggest that the upcoming [successor to the ARC-AGI] benchmark will still pose a significant challenge to o3, potentially reducing its score to under 30% even at high compute (while a smart human would still be able to score over 95% with no training),” Chollet continued in a statement. “You’ll know AGI is here when the exercise of creating tasks that are easy for regular humans but hard for AI becomes simply impossible.”

https://techcrunch.com/2024/12/20/openai-announces-new-o3-model/

Из перевода транскрипта ролика.

Думаю, будет трудно отрицать это в будущем. 20 декабря 2024 года OpenAI объявила о AGI на прямой трансляции. Все тесты и бенчмарки, которые использовались до этого момента, чтобы измерить, насколько умны эти модели, сравнивали способности моделей с человеческими. Например, Arc AGI показал 85% от уровня человеческой производительности. Они говорили, что если какая-либо модель наберет больше 85%, это будет свидетельствовать о том, что мы имеем дело с AGI — искусственным общим интеллектом. Модель набрала 88% на соревнованиях по программированию, таких как Codeforces. Якоб, главный научный сотрудник OpenAI, набрал 2727 очков в этом соревновании. В математических соревнованиях AIM 2024 модель показала 96,7%. У нас были люди с идеальными результатами, но даже они иногда могли допустить одну ошибку или упустить одну деталь. Однако модель почти идеальна. На вопросы уровня PhD по науке, в тесте GPQA, средний эксперт в этой области набирает 70%, а модель O3 показала 87,7%.

Ниже есть продолжение.

Большинство этих бенчмарков, где мы сравниваем модели с человеческими результатами, практически исчерпаны. Эти модели уже не просто умнее среднего человека — они умнее самых умных людей...

...Вот Франсуа Шоле — человек, стоящий за премией ARC AGI и один из первопроходцев в этой области, который придумал эту идею. Он бывший сотрудник Google, и его идея была проста: есть множество вещей, которые могут делать крупные языковые модели, нейросети и ИИ, но является ли это настоящим интеллектом? Это интеллект, как у человека? Является ли он общим? Многие из этих моделей могут обыгрывать людей в шахматы или го, но это запоминание, высокая вычислительная способность или общий интеллект, подобный человеческому?

Суть ARC AGI Benchmark заключалась в создании вопросов, которые были бы легкими для людей, но практически невозможными для того, кто просто запоминает и воспроизводит информацию. В этом процессе есть множество нюансов, чтобы убедиться, что модель не просто запоминает. Мы уже это обсуждали. Смысл в том, что ARC Benchmark был специально создан для того, чтобы «сломать» нейросети, и он делал это весьма эффективно. Лишь немногие модели могли набрать даже близкие к человеческим результаты.

Вот его пост в ответ на объявление OpenAI о модели O3...Он пишет: сегодня OpenAI объявила о модели O3 — новой модели рассуждений следующего поколения. Мы работали с OpenAI, чтобы протестировать ее на ARC, и считаем, что это значительный прорыв в адаптации ИИ к новым задачам. Модель набирает 75,7% в полуприватном режиме с низким уровнем вычислений, где соблюдается лимит в 10 000 долларов, и 87,5% в режиме с высоким уровнем вычислений, где на задачу тратится тысячи долларов. Мы думаем, что это более 300 тысяч долларов за весь тест.

...Премия ARC AGI была создана, чтобы поставить в тупик эти нейронные сети, заставляя их действительно рассуждать над задачами, не полагаясь на данные и запоминание. Иными словами, могла ли модель решить новые задачи, которых она раньше не видела, а также задачи, которые невозможно решить методом грубой силы, например, в шахматах, перебрав миллионы вариантов ходов. У нас уже есть суперинтеллект для шахмат и для игры го, но у нас нет суперинтеллекта, который является общим. До сих пор мы сомневались, есть ли у нас вообще искусственный интеллект, который равен людям.

Здесь он говорит: да, это очень дорого. Те 87,5%, вероятно, стоят сотни тысяч долларов на розничном рынке. Конечно, OpenAI, возможно, обходится это дешевле, но все равно это очень дорого. Однако, это не просто грубая сила. Он говорит, что эти способности открывают новую территорию. Это очень важно понять – это новая территория, и она требует серьезного научного внимания. Обратите внимание, что сам человек, который стоял за созданием ARC, говорит, что это новая территория. Президент ARC говорит, что нам всем нужно переосмыслить наши представления о том, как работает ИИ и на что он способен. Это не люди, которые всегда так думали. Это очень умные и знающие люди, которые корректируют свое мировоззрение. Они смотрят на эти результаты и говорят: «Хм, это что-то новое»...

...20 декабря 2024 года мы достигли какого-то рубежа. Конечно, найдутся люди, которые скажут, что это не AGI, и у нас нет единого определения AGI. Как недавно сказал Сэм Альтман, это, вероятно, не какой-то порог, который мы пересекаем, а скорее постепенный процесс. Но это веха на этом пути. Как бы там ни было, кажется, что мы прошли какую-то точку. Готовы ли вы назвать это AGI или нет – лично я думаю, что сегодняшний день можно назвать «Днем AGI».