Из перевода транскрипта ролика:
Настоящая новость сегодняшнего вечера – это не то, что O3 сокрушила контрольные показатели, рассчитанные на десятилетия. Дело в том, что OpenAI продемонстрировали: любые задачи, которые можно измерить, серия моделей O в конечном итоге сможет превзойти. Позвольте мне пригласить вас подумать о любой задаче – если эта задача поддается логическому рассуждению и если шаги рассуждения представлены в данных для обучения, серия моделей O в конечном итоге сокрушит эту задачу. Да, возможно, O3 или OpenAI стоило 350 тысяч долларов времени на вычисления, чтобы превзойти некоторые из этих контрольных показателей, но одни лишь затраты не смогут долго сдерживать этот натиск. Да, я скажу оговорки, как всегда, и их довольно много, но я должен признать и признаю, что это знаменательный день в сфере ИИ, и практически все слушающие должны скорректировать свои прогнозы.
Прежде чем мы перейдем к абсолютно невероятным результатам тестов, давайте разберемся, что такое O3 и что они сделали. Я уже давал больше деталей о серии моделей O в предыдущих видео на этом канале, но позвольте мне дать вам краткое 30-секундное резюме. Искусственный интеллект заставляет базовую модель генерировать сотни или потенциально тысячи вариантов решений, следуя длинным цепочкам размышлений для получения ответа. Затем модель-проверяющий, вероятно, основанная на той же базовой модели, проверяет эти ответы и ранжирует их, выявляя классические ошибки вычислений или ошибки в рассуждениях. Эта модель-проверяющий, конечно, обучена на тысячах правильных шагов рассуждения. Но вот в чем суть: в научных областях, таких как математика и программирование, можно точно знать, какой ответ правильный. Поэтому, когда система генерирует правильный набор шагов рассуждения, приводящих к верному проверенному ответу, модель в целом может быть дообучена на этих корректных шагах. Это в корне меняет подход от предсказания следующего слова к предсказанию последовательности токенов, ведущих к объективно правильному ответу. Это дообучение на правильных ответах можно классифицировать как обучение с подкреплением. Так что же такое O3? Ну, это больше того же самого...
Ниже есть продолжение.
...Вот что сказал еще один ведущий исследователь OpenAI: «O3 очень эффективна, и что важнее, прогресс от O1 до O3 занял всего 3 месяца, что показывает, насколько быстро будет развиваться новый подход обучения с подкреплением». На основе цепочек размышлений влияние вычислений может масштабироваться намного быстрее, чем при предварительном обучении новой модели каждые 1-2 года. Возможно, мы никогда не увидим GPT-5, но получим ИИ общего назначения (AGI) в любом случае. Конечно, тестирование безопасности, вероятно, задержит выпуск этих новых поколений моделей для широкой публики, и в результате может возникнуть все более широкий разрыв между тем, что доступно в ведущих лабораториях, и тем, что доступно публике.
Наконец, Arc AGI. Важность O3 в том, что каждый пример – это новая задача, не встречавшаяся в тренировочных данных. Победа над этим тестом требует рассуждения. Arc AGI требует нахождения эффективных функций, что является ключевым элементом интеллекта. O3 достигла 88% в Arc AGI, используя вычисления на 350 тысяч долларов. Это не просто грубая сила – такие возможности требуют научного внимания. Модель доказала способность адаптироваться к новым задачам, опираясь на цепочки размышлений...
...Это приводит нас к важному вопросу – что считать AGI? Считается ли, что AGI ещё не достигнут, если всё ещё существуют бенчмарки, на которых средний человек превосходит модель? На данный момент Шолле не считает O3 ИИ уровня AGI. Причина в том, что всё ещё можно создавать новые, не освоенные модели, интересные бенчмарки, которые легко решаются людьми, но невозможны для ИИ без специализированных знаний.
AGI будет достигнут, когда создание таких тестов станет полностью невозможным. Вопрос: является ли это справедливым критерием? Должно ли быть невозможно создать такой бенчмарк, который легко решают люди, но не может решить ИИ? Или AGI следует определять по тому, насколько сложнее создавать такие тесты, которые легче для людей, чем для ИИ?
Кажется, это более справедливое определение – чтобы не оставалось единственного бенчмарка, который остаётся непокорённым, и из-за этого мы всё ещё говорим, что AGI не достигнут. Это оставляет открытым вопрос: труднее ли создать бенчмарк, который O3 не может решить, но легко решают люди? Рассматриваются ли разные модальности? Может ли ИИ определить отсутствие реализма в сгенерированных видео? Какие бенчмарки допустимы, а какие – нет? Что насчёт тестов, где учитывается скорость решения задач?
No comments:
Post a Comment