Важно

  •  

Sunday, March 02, 2025

GPT 4.5 - not so much wow (English, Russian)

Сокращено. Форматироване моё.





Всего год или два назад будущее больших языковых моделей (LLM) полностью зависело от масштабирования базовых моделей. Эти модели, такие как ChatGPT, развивались за счет увеличения количества параметров, объема данных и вычислительных ресурсов, включая графические процессоры. GPT-4.5 стал для нас взглядом в альтернативную временную линию, показывая, как могли бы развиваться LLM без недавних инноваций, таких как увеличенное время на размышление (inference time compute). Создание GPT-4.5 потребовало огромных затрат со стороны OpenAI, и это подчеркивает, насколько важным стало нововведение в виде увеличенного времени на обработку данных.

Я протестировал GPT-4.5, чтобы выяснить, были ли правы руководители лабораторий ИИ, утверждавшие, что сеть, увеличенная в 10 раз, сможет автоматизировать значительные секторы мировой экономики. Краткий вывод: они ошибались. Да, я также проверил эмоциональный интеллект GPT-4.5, и результаты оказались немного пугающими. Это не значит, что GPT-4.5 не может стать мощной базовой моделью для будущих систем рассуждений, таких как O4. Однако мои первые впечатления не были ошеломляющими.

Ниже есть продолжение.

Для меня высокий эмоциональный интеллект — это не всегда сочувствие. Иногда это установление границ. Базовые модели, такие как GPT-4.5, служат основой для добавления рассуждений в модели O1, O3, O4 и O5. Если базовая модель становится умнее, конечная модель будет еще более продвинутой. Многие ждали этого вывода: даже небольшое улучшение базовой модели может привести к значительному прогрессу. Грубая аналогия: человек с IQ 110 за час придумает лучшее решение, чем человек с IQ 90 за тот же час.

Третье наблюдение: некоторые считают, что Anthropic обладает «Мандатом Небес». Их модели удобны для программирования и обладают высоким эмоциональным интеллектом. На мой взгляд, они выглядят перспективными базовыми моделями для будущего расширения возможностей рассуждений. Dario Amodei, CEO Anthropic, пообещал в своем эссе вложить миллиарды в развитие рассуждений для Claude 3.7 Sonnet. Это может стать впечатляющим шагом вперед. Впервые лидерство OpenAI в области чистого интеллекта их моделей кажется шатким. R1 шокировал своей стоимостью, а Claude 3.5 Sonnet был более дружелюбным. Однако я ожидал большего от GPT-4.5.

O3 не будет выпущен как отдельная модель — его включат в GPT-5. OpenAI утверждают, что GPT-4.5 — это более прочный фундамент для агентов рассуждений. Если прогнать GPT-4.5 через миллиарды циклов обучения с уровнем O3 или O4, GPT-5 может стать крайне интересной моделью. Бывший главный научный сотрудник OpenAI отметил, что предобучение (pre-training) — не лучшее место для вложения вычислительных ресурсов в 2025 году. Низко висящие фрукты — в рассуждениях [reasonning]. Из этого видео можно задать вопрос: умерло ли предобучение? Боб МакГрю, сотрудник OpenAI, считает, что нет. Оно просто ждет, пока рассуждения догонят.

С предобучением требуется значительно больше вычислительных ресурсов для достижения даже небольшого улучшения в интеллекте модели. С рассуждениями [reasonning] и обучением с подкреплением (RL) [reinforcement learning] эффективность выше, но и здесь может возникнуть предел. К концу года мы, вероятно, узнаем, действительно ли это конец эры масштабирования, и станет ли путь вперед связан с развитием способности моделей к рассуждениям.

Я помню, как два года назад генеральные директора, такие как Dario Amodei, утверждали, что масштабирование позволит создать модели, которые автоматизируют экономику. В апреле 2023 года они говорили, что лучшие модели 2025–2026 годов будут настолько продвинутыми, что никто не сможет их догнать. Сэм Альтман говорил то же самое, утверждая, что к этому моменту мы уже не будем обсуждать галлюцинации. Однако системная карта GPT-4.5 на странице четыре прямо указывает: «Нужно больше работы над галлюцинациями». GPT-4.5 всё ещё часто галлюцинирует. Это показывает, что Amodei и Altman были удивлены последними шестью месяцами развития. GPT-4.5 оказался недооценен, а серия O — переоценена.

Они рады, что рассуждения стали их спасением — способом потратить деньги и вычислительные ресурсы. Однако это вызывает тревогу для GPT-5. GPT-4.5 не сильно лучше GPT-4o в тестах OpenAI. GPT-4o — база для O1 и O3. В вопросах интервью инженера GPT-4.5 всего на 6% лучше. Будущее — в рассуждениях на улучшенной базе, но это не большой шаг вперед. В S-Bench Verified та же история: GPT-4.5 на 4–7% выше GPT-4o. Deep Research с O3 показывает разрыв от 31% до 38%. Это беспокоит OpenAI, особенно в задачах автономных агентов, где разрыв составляет от 34% до 40%.

2025 год должен стать годом агентов, но OpenAI надеялись на большее. Интересно, смогут ли модели автоматизировать машинное обучение? Обучать свои модели, тестировать и отлаживать их? OpenAI используют MLE-Bench для самоулучшения моделей. GPT-4.5 показывает 11%, GPT-4o — 8%, O1 — 11%, Deep Research — 11%. Половина аудитории опустошена, половина рада.

Для OpenAI запросы на включение (pull requests) — важный показатель. Может ли модель повторять действия инженеров? GPT-4o справляется в 6% случаев, GPT-4.5 — в 7%, а Deep Research — в 42%. Мало кто заботится о больших базовых моделях. Все хотят знать про O4. На языковых тестах O1 лучше GPT-4.5. Я думал, что знания GPT-4.5 победят, но нет. O1 выше почти на всех языках, и это даже не O3.

Мое впечатление от GPT-4.5 смешанное. Андре Карпати, легендарный исследователь ИИ, опубликовал в Twitter пять примеров, где GPT-4.5, по его мнению, справился лучше GPT-4. Он провел опрос, и в четырех из пяти случаев люди предпочли результаты GPT-4. Он назвал это неловким. Ссылка на сравнение в описании.

Моя реакция смешанная, хотя может показаться, что я был негативен. Это скорее ответ на переоценку GPT-4.5. Ничего нового для ИИ, особенно на YouTube. Это осторожный момент, который многие генеральные директора не признают. Они ставили будущее на масштабирование, но секрет успеха, как мы видим, лежит в данных, и Anthropic, похоже, опережает OpenAI в этом вопросе.

Тем не менее, позитив для компаний в том, что GPT-4.5 — это шаг вперед от GPT-4 во многих бенчмарках. Когда OpenAI и другие компании начнут использовать миллиарды циклов обучения для внедрения рассуждений в улучшенные базовые модели, кто знает, что получится. Но ясно одно: это будущее уже не в руках тех генеральных директоров, которые делали ставку на масштабирование.



Just a year or two ago, the future of large language models (LLMs) entirely depended on scaling up base models. These models, like ChatGPT, evolved by increasing the number of parameters, the volume of data, and computational resources, including GPUs. GPT-4.5 became our glimpse into an alternate timeline, showing how LLMs might have developed without recent innovations like extended thinking time (inference time compute). The creation of GPT-4.5 required enormous investment from OpenAI, highlighting how crucial the innovation of increased processing time has become.

I tested GPT-4.5 to determine whether the leaders of AI labs were correct in claiming that a network scaled up tenfold could automate significant sectors of the global economy. The short answer: they were wrong. Yes, I also tested GPT-4.5's emotional intelligence, and the results were somewhat unsettling. This isn't to say that GPT-4.5 can't become a powerful base model for future reasoning systems like O4. However, my initial impressions were not overwhelming.

For me, high emotional intelligence isn't always about empathy. Sometimes, it's about setting boundaries. Base models like GPT-4.5 serve as the foundation for adding reasoning capabilities to models such as O1, O3, O4, and O5. If the base model becomes smarter, the final model will be even more advanced. Many have been waiting for this conclusion: even a small improvement in the base model can lead to significant progress. A rough analogy: a person with an IQ of 110 will come up with a better solution in an hour than a person with an IQ of 90 in the same time.

A third observation: some believe that Anthropic holds the "Mandate of Heaven." Their models are convenient for programming and possess high emotional intelligence. In my opinion, they appear to be promising base models for future expansion of reasoning capabilities. Dario Amodei, CEO of Anthropic, promised in his essay to invest billions in developing reasoning for Claude 3.7 Sonnet. This could be an impressive step forward. For the first time, OpenAI's leadership in the raw intelligence of its models seems shaky. R1 shocked with its cost, and Claude 3.5 Sonnet was more user-friendly. However, I expected more from GPT-4.5.

O3 won't be released as a standalone model—it will be integrated into GPT-5. OpenAI claims that GPT-4.5 is a more robust foundation for reasoning agents. If GPT-4.5 is put through billions of training cycles with O3 or O4-level reinforcement learning, GPT-5 could become an extremely interesting model. A former chief scientist at OpenAI noted that pre-training isn't the optimal place to allocate computational resources in 2025. The low-hanging fruit lies in reasoning. From this video, one might ask: is pre-training dead? Bob McGrew, an OpenAI employee, believes it isn't. It's simply waiting for reasoning to catch up.

With pre-training, significantly more computational resources are required to achieve even a small improvement in a model's intelligence. With reasoning and reinforcement learning (RL), the efficiency is higher, but even here, there may be a limit. By the end of the year, we will likely find out whether this truly marks the end of the scaling era and whether the path forward lies in developing models' reasoning abilities.

I remember how, two years ago, CEOs like Dario Amodei claimed that scaling would enable the creation of models capable of automating the economy. In April 2023, they said that the best models of 2025–2026 would be so advanced that no one could catch up. Sam Altman said the same, asserting that by now, we wouldn't be discussing hallucinations because scaled-up models would have solved them. However, the GPT-4.5 system card bluntly states on page four: "More work is needed to address hallucinations comprehensively." GPT-4.5 still hallucinates frequently. This shows that Amodei and Altman were as surprised as the rest of us by the developments of the last six months. GPT-4.5 has been underestimated, while the O series has been overestimated.

They are relieved that reasoning has become their lifeline—a way to spend money and computational resources. However, this raises concerns for GPT-5. GPT-4.5 isn't significantly better than GPT-4o in OpenAI's tests. GPT-4o serves as the base for O1 and O3. In engineering interview questions, GPT-4.5 is only 6% better. The future lies in reasoning built on an improved base, but this isn't a huge leap forward. The same story unfolds in S-Bench Verified: GPT-4.5 is 4–7% better than GPT-4o. Deep Research with O3 shows a gap of 31% to 38%. This worries OpenAI, especially in tasks involving autonomous agents, where the gap ranges from 34% to 40%.

2025 is supposed to be the year of agents, but OpenAI had hoped for more. It's intriguing to consider whether models will be able to automate machine learning—training, testing, and debugging their own systems. OpenAI uses MLE-Bench to benchmark progress toward model self-improvement. GPT-4.5 scores 11%, GPT-4o scores 8%, O1 scores 11%, and Deep Research scores 11%. Half the audience is disappointed, while the other half is pleased.

For OpenAI, pull requests are an important metric. Can a model replicate the actions of engineers? GPT-4o succeeds 6% of the time, GPT-4.5 succeeds 7% of the time, and Deep Research succeeds 42% of the time. Few care about large base models anymore. Everyone wants to know about O4. On language tests, O1 outperforms GPT-4.5. I thought GPT-4.5's knowledge would win out, but no. O1 is superior in almost all languages, and this isn't even O3.

My impression of GPT-4.5 is mixed. Andrej Karpathy, a legendary AI researcher, tweeted five examples where he believed GPT-4.5 performed better than GPT-4. He conducted a poll, and in four out of five cases, people preferred GPT-4's outputs. He called this awkward. The link to compare the outputs is in the description.

My reaction is mixed, though it may seem I've been negative. This is more of a response to the overhyping of GPT-4.5. There's nothing new here for AI, especially on YouTube. This is a cautious moment that many CEOs aren't acknowledging. They bet their future on scaling, but the secret to success, as we've seen, lies in data, and Anthropic seems to be ahead of OpenAI in this regard.

Nevertheless, the positive for these companies is that GPT-4.5 is a step forward from GPT-4 in many benchmarks. When OpenAI and others begin using billions of training cycles to embed reasoning into improved base models, who knows what will result. But one thing is clear: this future is no longer in the hands of the CEOs who bet on scaling.


No comments:

Post a Comment