Thursday, February 13, 2025
AGI: (gets close), Humans: ‘Who Gets to Own it?’ (English, Russian)
Очевидно, что мы вышли за рамки имитационного обучения — эти системы не просто копируют лучших 50 кодеров, они сами пробуют разные подходы и обучаются посредством обучения с подкреплением, определяя, что работает.
Мы не ограничены человеческим уровнем, и это касается гораздо большего, чем просто программирование. На этой неделе я использовал deep research из OpenAI Pro, чтобы предложить возможные диагнозы для родственника, и знакомый врач сказал, что она выявила варианты, которые он бы не рассматривал. Конечно, он довольно часто "галлюцинирует", но также предлагает идеи, которые вы могли упустить... По сути, мы эволюционировали от работы с сырыми данными и моделями, генерирующими «мысли на основе признаков», к миру, где через обучение с подкреплением можно научить модель решать негораниченное количество задач. Будь то поиск в сети, управление компьютером или написание текстов — всему этому модель можно обучить...
...Когда вы слышите «проверяемо» или «подтверждаемо», представьте, что эти области буквально поглощаются обучением с подкреплением, как это происходит в программировании, где влияние усиленного обучения с подкреплением заметно.. Не многие помнят, что менее двух лет назад сам Альтман заявил, что его идея заключается в том, чтобы OpenAI захватила значительную часть мирового богатства посредством создания искусственного общего интеллекта (AGI), а затем перераспределила его. По его словам, речь идет не только о 100 миллиардах долларов, но и о триллионе или даже о 100 триллионах долларов. Он добавляет, что если AGI действительно создаст всё это богатство, он не уверен, как компания сможет его перераспределить. Чтобы дать вам представление о масштабах: когда речь заходит о 100 триллионах долларов, это сравнимо с масштабом всей рабочей силы планеты.
Ниже есть продолжение.
Мир, возможно, уже осознаёт, что автоматизация интеллекта произойдёт раньше, чем многие могли представить себе еще несколько лет назад. Но при этом остаётся неясным, кто в итоге извлечёт из этого выгоду. Только сегодня вице-президент Америки заявил, что ИИ никогда не заменит работников, а лишь повысит производительность, в то время как Сэм Альтман, генеральный директор OpenAI, написал буквально вчера, что видит, как труд утрачивает свою силу по сравнению с капиталом, а знаменитый аналитический центр Rand опубликовал доклад буквально на днях, в котором говорилось, что мир не готов к «потере рабочих мест и общественным волнениям», которые, по их мнению, могут сопровождать появление более общего искусственного интеллекта. Но даже если труд действительно уступит, капитал не сможет сам решить, кто получит деньги. Сегодня Маск и его команда бросили вызов Сэму Альтману и Microsoft в борьбе за контроль над самой OpenAI. И, конечно, постоянно появляются новые исследования — например, недавний доклад Стэнфорда, в котором утверждается, что улучшения в рассуждениях, необходимые для достижения передовых возможностей модели, можно реализовать всего за 20 долларов. Это заставляет меня задуматься: в конце концов, AGI может оказаться вполне доступным.
Тем временем Дарио Амодей, генеральный директор Anthropics — создателей Claude, — говорит, что время на контроль над самим AGI истекает. Я думаю, что когда неизбежно наступит день полной автоматизации интеллекта, остаётся лишь надеяться, что к тому моменту мы будем немного более сплочёнными, чем сейчас. Тем не менее, тем для обсуждения так много, что давайте сократим всё до семи самых интересных моментов, используя эссе Сэммана в качестве отправной точки для каждого. Для начала он предлагает своё пятое или, может быть, пятнадцатое определение AGI. На этот раз под ним понимается система, способная решать всё более сложные задачи на уровне человека во многих областях. По такому определению мы уже очень близки к этому. Возьмём, к примеру, программирование: в декабре мы узнали, что модель O3 заняла 175-е место по рейтингу кодеров на Codeforces (согласно системе Эло). Это может показаться несущественным для многих, но только вчера в Японии Сэмман сообщил, что внутри компании теперь имеется конкурент с 50-м лучшим результатом. Очевидно, что мы вышли за рамки имитационного обучения — эти системы не просто копируют лучших 50 кодеров, они сами пробуют разные подходы и обучаются посредством обучения с подкреплением, определяя, что работает.
Мы не ограничены человеческим уровнем, и это касается гораздо большего, чем просто программирование. На этой неделе я использовал deep research из OpenAI Pro, чтобы предложить возможные диагнозы для родственника, и знакомый врач сказал, что она выявила варианты, которые он бы не рассматривал. Конечно, он довольно часто "галлюцинирует", но также предлагает идеи, которые вы могли упустить. И помните, это O3, который ищет, возможно, в 20 источниках — что насчёт O5, который ищет в 500? Вы можете подумать: «Знать что-то — это хорошо, но офисные работники действительно выполняют конкретные действия на своих компьютерах». Что ж, Карина Нен из OpenAI говорит о задаче так: все существующие тесты уже освоены, а «пост-чейнинг» как метод не показывает признаков ограничений. По сути, мы эволюционировали от работы с сырыми данными и моделями, генерирующими «мысли на основе признаков», к миру, где через обучение с подкреплением можно научить модель решать негораниченное количество задач. Будь то поиск в сети, управление компьютером или написание текстов — всему этому модель можно обучить. Именно поэтому мы не упираемся в «стену данных»: негораниченное число задач открывает путь к сверхинтеллекту. Все метрики уже достигли максимума. Карина отмечает, что главный барьер сейчас — не возможности моделей, а методы их оценки.
Я могу поверить, что, хотя их текущая система операторов, доступная только в Pro за 200 долларов в месяц, выглядит довольно нестабильно, это связано с тем, что задачи вроде покупки чего-либо онлайн или заполнения таблиц в основном можно проверить. Когда вы слышите «проверяемо» или «подтверждаемо», представьте, что эти области буквально поглощаются обучением с подкреплением, как это происходит в программировании, где влияние усиленного обучения с подкреплением заметно: от 01 preview до 03. Следующий вопрос — инвестиции, необходимые для реализации всего этого. Сэм Альтман далее пишет в эссе, что законы масштабирования, предсказывающие улучшение интеллекта, оказались точными на многих порядках величины; грубо говоря, интеллект ИИ-модели примерно равен логарифму ресурсов, затраченных на её обучение и работу». Представьте это как формулу k × log(ресурсов). Прирост интеллекта от добавления ресурсов не кажется чем-то впечатляющим, пока вы не учтёте следующий тезис: социально-экономическая ценность даже линейного роста интеллекта оказывается суперэкспоненциальной. Если бы кто-то смог удвоить интеллект модели уровня O3, её ценность возросла бы не в четыре раза — она могла бы увеличиться на порядки больше. В связи с этим нет причин ожидать, что экспоненциальное увеличение инвестиций в эту область остановится в ближайшем будущем. Если ИИ всегда будет возвращать в десять раз больше вложенных средств, зачем же прекращать инвестировать? Не многие помнят, что менее двух лет назад сам Альтман заявил, что его идея заключается в том, чтобы OpenAI захватила значительную часть мирового богатства посредством создания искусственного общего интеллекта (AGI), а затем перераспределила его. По его словам, речь идет не только о 100 миллиардах долларов, но и о триллионе или даже о 100 триллионах долларов. Он добавляет, что если AGI действительно создаст всё это богатство, он не уверен, как компания сможет его перераспределить. Чтобы дать вам представление о масштабах: когда речь заходит о 100 триллионах долларов, это сравнимо с масштабом всей рабочей силы планеты. И это, конечно, подводит нас к тем, кто не хочет, чтобы Сэмман обладал таким контролем, или, возможно, хочет его для себя. Как вы, возможно, слышали, Илон Маск предложил почти 100 миллиардов долларов за OpenAI, или, по крайней мере, за некоммерческую организацию, которая в настоящее время контролирует OpenAI. Чтобы вам не пришлось читать полдюжины отчетов: Сэмман и OpenAI оценили долю этой некоммерческой организации примерно в 40 миллиардов долларов, что оставляет достаточно акций для Microsoft и самой OpenAI, включая её сотрудников. Однако, если Маск и другие оценят эту долю в 100 миллиардов, то в суде Маску и компании будет очень трудно утверждать, что её стоимость составляет всего 40 миллиардов. Даже если они отвергнут (а, похоже, и сделали это) предложение Маска, оно вынудит их, возможно, размыть долю, принадлежащую Microsoft и сотрудникам. Алман сказал сотрудникам OpenAI, что это всего лишь тактика, направленная на ослабление их позиций, потому что они добиваются значительного прогресса. Некоммерческая организация, стоящая за OpenAI, также может отказаться от предложения, считая, что AGI не будет безопасен в руках Маска.
На данный момент я не могу удержаться, чтобы не упомянуть мини-документальный фильм, который я выпустил на своем Patreon буквально вчера. Он рассказывает об истоках DeepMind, OpenAI, противостоянии с Маском и Anthropics, а также о том, как изменилось первоначальное видение каждой из этих лабораторий AGI. Кстати, на этот раз я работал с профессиональным видеомонтажером, и первые отзывы кажутся обнадеживающими. Все проделки, происходящие в некоммерческой организации OpenAI, достойны отдельного видео, поэтому пока я перейду к следующему пункту.
Сэмман предсказал, что с приходом AGI цены на многие товары в конечном итоге резко упадут. Кажется, одним из способов утешить людей, которые потеряют работу или увидят снижение заработка, станет то, что, по крайней мере, телевизоры станут дешевле. Но он также отметил, что цены землю и на предметы роскоши могут возрасти ещё драматичнее. Не знаю, что вы об этом думаете, но я живу в Лондоне, где стоимость земли уже весьма высока, так что кто знает, что произойдет после появления AGI. Что касается предметов роскоши, у Сэммана, возможно, есть на примете один конкретный продукт. Вчера в Лондоне его спросили об их Аппаратное устройство, частично разработанное Джони Айвом (из Apple), он назвал «невероятным», отметив, что это действительно нечто особенное и что его представят примерно через год. [Речь идет о новом аппаратном устройстве с искусственным интеллектом, которое часто называют «iPhone в мире ИИ». Оно разрабатывается дизайнерской компанией Jony Ive – LoveFrom – в сотрудничестве с OpenAI и Сэмом Альтманом. . Это не обязательно смартфон, а скорее новая вычислительная платформа, основанная на генеративном ИИ, которая должна быть менее социально разрушительной, чем современные устройства с экранами]. Кстати, да, я подавал заявку на участие в этом мероприятии, но у меня не было подходящего организационные удостоверения. Ещё один аспект, который, возможно, не считается предметом роскоши — это меньшие языковые модели. В утечке аудио с того же мероприятия он, по-видимому, сказал: «Одна из идей могла бы быть такая: мы выпускаем 03, затем open source 03 mini, потом 04 и open source 04 mini». Он добавил, что это не окончательное решение, а скорее ориентир. Примите это к сведению.
Следующая отправная точка кроется в самом первом предложении этого эссе: миссия OpenAI — гарантировать, что искусственный общий интеллект (AGI) принесёт пользу всему человечеству. Речь не обязательно о том, чтобы самим создать AGI, а о том, чтобы он, независимо от того, когда и как будет создан, был полезен для всех. Изначально, когда была основана OpenAI (о чём я рассказывал в документальном фильме), устав гласил, что они создадут ИОИ (AGI) на благо человечества, не обременяя себя необходимостью получения финансовой выгоды. Эта последняя часть была убрана, но они по-прежнему утверждают, что это должно приносить пользу «всему человечеству», а не только большинству. Как этого достичь, если они признают, что подавляющее большинство человеческого труда вскоре может оказаться лишним, остаётся вопросом. Даже если бы в США была введена политика, направленная на заботу о каждом, как можно было бы обеспечить подобное для других стран?
После просмотра выступления Йошуа Бенгио (одного из «крестных отцов ИИ») я задумался: если какая-то нация достигнет общего искусственного интеллекта или сверхразума на месяц, три месяца или шесть месяцев раньше другой, скорее всего, она будет автоматизировать или подрывать экономику соперничающей страны, а не просто физически её уничтожать. Например, США могут «автоматизировать» Китай, или наоборот, а затем присвоить это богатство для своего народа. Бенгио считает, что подобное может происходить и на уровне компаний. По его словам, люди, контролирующие эти системы — такие, как OpenAI — не будут просто продавать доступ. Они оставят себе по-настоящему мощные версии и будут использовать их для уничтожения экономик стран, не обладающих такими системами. Это может стать экзистенциальной угрозой для отстающих стран.
Говоря о других лабораториях, у нас есть Gemini 2 Pro и Flash от Google DeepMind. Также существует Gemini Thinking, который воспроизводит цепочки рассуждений, подобные тем, что демонстрируют O3 Mini или DeepSeek R1. Результаты бенчмарков этих новых моделей неплохие, но не заоблачные — на простых тестах они не достигают уровня O3 или DeepSeek R1. Тем не менее, Gemini поразителен в быстром чтении большого количества PDF-файлов и других документов. По результатам моих тестов, точность транскрипции аудио не дотягивает до уровня AssemblyAI, а их возможности программирования уступают O3, как и функция «Deep Research» работает не так хорошо, как можно было бы ожидать. Однако модели Gemini отлично извлекают текст из документов и невероятно дешевы. Я впечатлён ими и подозреваю, что по мере того, как ChatGPT — теперь шестой по посещаемости сайт, обогнав Twitter — будет приближаться к Google, компания будет всё активнее инвестировать в развитие, чтобы обеспечить статус Gemini 3 как передовой технологии.
Альтман также писал о том, что ИИ используется авторитарными правительствами для контроля над населением посредством массовой слежки и утраты автономии. Это замечание возвращает меня к статье RAND, которую я прочитал полностью. RAND обеспокоен не только массовым наблюдением в авторитарных диктатурах, но и другими угрозами национальной безопасности: «чудо-оружием», системными сдвигами в распределении власти, неэкспертами, получившими возможность разрабатывать средства массового уничтожения, искусственными сущностями с автономией (например, когда O6 «оживает») и фундаментальной нестабильностью. RAND существует уже более 75 лет и не делает драматичных заявлений легкомысленно. Ближе к концу статьи они признают, что США не находятся в выгодном положении для получения амбициозных экономических выгод от AGI без повсеместной безработицы и общественных беспорядков. Я до сих пор помню времена, всего два года назад, когда Олтман говорил, что если AGI приведёт к тому уровню неравенства, который он ожидает, «люди это не примут».
Давайте рассмотрим признаки, указывающие на то, что AGI может оказаться вне контроля как государств, так и компаний. За менее чем 50 долларов вычислительного времени — некоторые говорят, всего за 20 долларов — Стэнфорд разработал S1. Да, они использовали базовую модель с открытыми весами «Qwen 2.5» с 32 миллиардами параметров и проводили её инструкционную донастройку, но суть в том, что всего лишь с помощью 1000 специально отобранных вопросов и цепочек рассуждений удалось довести эту модель до уровней, близких к O1, по некоторым тестовым показателям. Речь идёт о таких категориях, как научные вопросы, математические задачи на уровне соревнований и т.д. Ключевая методика заключалась в том, чтобы стимулировать «более длительное размышление» во время тестирования путём многократного добавления токена «wait» каждый раз, когда модель пыталась прекратить ответ — по сути, заставляя её продолжать рассуждения. Представьте, что вы сдаёте экзамен, и всякий раз, когда вы пытаетесь записать окончательный ответ, голос в голове говорит: «Погоди!» Именно это и происходило, пока модель не набрала достаточное количество токенов рассуждений.
Я изучил их тестовый набор Math 500 — он сложный. Достичь 95% на задачах такого уровня впечатляет, как и набрать свыше 60% в тесте GPQA Diamond, что примерно соответствует уровню PhD в этой области. Опять же, речь идёт о стандартной модели с открытыми весами, донастроенной всего на 1000 примерах. Для справки, DeepSeek R1 использовал 800000 примеров. Стэнфорду пришлось очистить свой набор данных, чтобы исключить пересечения с тестовым набором, удалить вопросы, с которыми уже справлялись меньшие модели (так как они были слишком простыми), и обеспечить разнообразие, охватывая как можно больше типов задач. В итоге получилось около двадцати вопросов для каждой из пятидесяти различных областей.
Они донастроили (fine-tuned) эту базовую модель, используя цепочки рассуждений, полученные с помощью чего-то вроде Gemini Thinking (сравнимого с DeepSeek R1). Каждый раз, когда модель пыталась остановиться, они вводили команду «wait», чтобы подтолкнуть её к продолжению, иногда повторяя её два, четыре или шесть раз, что заставляло модель пересматривать свой собственный вывод. Они также пытались масштабировать метод большинства голосов или самосогласованность, но не наблюдали аналогичного роста производительности. Достаточно сказать, что получение таких результатов в математике и сложных вопросах-ответах — это безумие. Конечно, это не означает, что модель сможет столь же успешно отвечать на все остальные вопросы, и, если быть справедливым, она не является по-настоящему «открытыми данными», поскольку сама базовая модель не полностью открыта.
Тем не менее, увеличение вычислительных ресурсов во время тестирования — предоставление модели возможности «думать» на большее число токенов — оказывает огромное влияние. Как отметил Андрей Карпаты в своём замечательном видео по ChatGPT продолжительностью три с половиной часа, остаётся открытым исследовательский вопрос о том, как лучше всего расширить окно контекста на переднем крае. Я настоятельно рекомендую это видео. Карпаты также упомянул, что этот трюк с «wait» напоминает «Давайте подумаем пошагово», то есть принудительное предоставление модели дополнительных токенов для рассуждения перед финализацией ответа.
Говоря о разумном расходовании ресурсов, я уже тринадцать лет пользуюсь GiveWell — спонсорами этого видео — чтобы понять, где пожертвования могут принести наибольшую пользу. Они тратят десятки тысяч часов исследований каждый год, чтобы определить, какие благотворительные организации спасают больше всего жизней за каждый доллар. Я всегда жертвую средства Фонду против малярии (The Against Malaria Foundation), который, как я считаю, был основан в Великобритании. Если вы заглянете туда, можете даже упомянуть, что узнали о них, скажем, от AI Explained.
Возвращаясь к эссе Альтмана: в предыдущих его работах упоминалось, что стоимость труда может упасть до нуля. Теперь он говорит лишь о том, что баланс сил между капиталом и трудом может нарушиться, и это может потребовать "своевременного вмешательства". OpenAI финансировали исследования по всеобщему базовому доходу, которые дали смешанные результаты. Альтман не упоминает УБД прямо; он оставляет это неопределённым. Если искусственный общий интеллект придет через два-пять лет, "раннее вмешательство" должно произойти, по сути, прямо сейчас. Но что же это за вмешательство? Правительства действуют не достаточно быстро. Дарио Амодей из Anthropic сказал, что ИИ становится "страной гениев в данных центрах", возможно к 2026 или 2027 году, и почти наверняка к 2030 году. Правительства не делают достаточно для того, чтобы контролировать крупные лаборатории ИИ, оценивать риски или регулировать их. На следующем международном саммите — один был на этой неделе — мы не должны повторять эту упущенную возможность. Эти вопросы должны быть на вершине повестки дня.
Подозреваю, что многие из вас разделяют мое мнение, что быстрые изменения наступят гораздо раньше, чем ожидает большинство человечества. Вопрос в том: что нам с этим делать? Делитесь вашими мыслями в комментариях, и, как всегда, спасибо за то, что смотрели до конца. Желаю вам замечательного дня.
The world may be waking up to the fact that intelligence could be automated sooner than anyone imagined a few years ago, but it’s still largely asleep when it comes to who gets the spoils. Just today, the Vice President of the United States said that AI will never replace workers and will only boost productivity. Then again, Sam Altman, CEO of OpenAI, wrote yesterday that he could see labor losing its power to capital. The RAND Corporation put out a paper that said the world isn’t ready for the “job losses and societal unrest” that might accompany a more general artificial intelligence. But even if labor does lose, capital can’t unilaterally decide who gets the money. Just today, Musk and others challenged Sam Altman and Microsoft for control of OpenAI itself. And then there are those papers from Stanford suggesting that the reasoning enhancements needed to bring a model to frontier capability might cost as little as $$$20, which makes me think anyone could afford AGI after all.
Meanwhile, Dario Amodei, CEO of Anthropic (makers of Claude), says time is running out to control AGI. I just hope that when the day inevitably comes—when we must confront the full automation of intelligence—we’re a bit more unified than we are now. There is too much to cover, as always, so I’ll cut it down to the seven most interesting developments, using Altman’s recent essay as the jumping-off point.
First, he gives his fifth or maybe fifteenth different definition of AGI: “a system that can tackle increasingly complex problems at a human level in many fields.” Under that definition, we may be very close. Take coding, where we heard in December that the O3 model was the 175th highest-ranked coder on Codeforces ELO. That might not mean much to many people, but just yesterday, in Japan, Sam Altman said they now have internally the 50th highest-scoring competitor. We’re clearly well beyond imitation learning — these systems aren’t just copying the top 50 competitors; they are experimenting themselves and learning through reinforcement what works.
We are not capped at the human level, and that applies to way more than just coding. I’ve been using deep research from OpenAI’s Pro tier this week to suggest diagnoses for a relative, and a doctor I know said it identified possibilities she wouldn’t have considered. Of course, it does hallucinate fairly frequently, but it also thinks of things you might not have thought of. And remember, this is O3 searching maybe 20 sources—what about O5 searching 500?
You might say, “Knowing stuff is cool, but white-collar workers actually take actions on their computers.” Karina Nen from OpenAI has this to say: tasks are saturating all the benchmarks, and “post-chaining” itself is not hitting a wall. Basically, we went from raw data and “thoughts from featuring” models to an infinite number of tasks you can teach the model in the post-chaining world via reinforcement learning. So any task—how to search the web, how to use the computer, how to write—can be taught to the model. And that’s why there’s no data wall, because there’s an infinite number of tasks, and that’s how the model eventually becomes extremely intelligent. We are truly saturating all the benchmarks. Karina says the bottleneck is actually in evaluations.
I can believe that, even though the current operator system, only available on Pro for $$$200 a month, is pretty janky. Tasks like buying something online or filling out a spreadsheet are mostly verifiable, and whenever you hear “verifiable,” think “ready to be absolutely eaten by reinforcement learning,” just like coding was. You can see the impact of enhanced reinforcement learning from O1 Preview to O3 Next.
Next is the investment that must go into making all this happen. Altman wrote later in his essay that “the scaling laws predicting intelligence improvements have been accurate over many orders of magnitude. Give or take, the intelligence of an AI model roughly equals the log of the resources used to train and run it.” Think of that as “k x log(resources).” The incremental step in intelligence from adding more resources doesn’t sound super impressive until you read his next point: the socioeconomic value of linearly increasing intelligence is super-exponential. If someone could somehow double the intelligence of O3, it wouldn’t be just worth four times as much—it might be worth way, way more than that.
He goes on: “A consequence of this is that we see no reason for the exponentially increasing investment to stop in the near future.” In other words, if AI will always pay you back tenfold, why ever stop investing? Many forget this, but less than two years ago, Altman himself said that his idea is for OpenAI to capture much of the world’s wealth through the creation of AGI and then redistribute it. We’re talking not just $$$100 billion but a trillion or even $$$100 trillion—that’s according to him. He adds that if AGI does create all that wealth, he’s not sure how the company will redistribute it. To give you a sense of scale, as you head toward $$$100 trillion, you’re talking about the scale of the entire labor force of the planet.
That, of course, brings us to others who don’t want him to have that control—or want it for themselves. You may have heard that Elon Musk has bid nearly $$$100 billion for OpenAI, or at least for the nonprofit that currently controls OpenAI. To save you reading a half-dozen reports, it seems Sam Altman and OpenAI have valued that nonprofit stake at around $$$40 billion. That leaves plenty of equity for Microsoft and OpenAI’s employees. But if Musk and others think it’s worth $$$100 billion, then it might be difficult in court for Altman and company to claim it’s only worth $$$40 billion. Even if they reject Musk’s offer—something they appear to have done—it forces them to recognize potential dilution of Microsoft’s and the employees’ stake. Altman reportedly told employees that these are just tactics meant to weaken them, because they’re making great progress. The nonprofit behind OpenAI might also reject Musk because it decides AGI wouldn’t be safe in his hands.
I can’t resist a quick plug for a mini-documentary I released on my Patreon yesterday. It covers the origin stories of DeepMind, OpenAI, the tussle with Musk, Anthropic, and how each AGI lab’s founding vision went awry. This time, I used a professional video editor, and early reviews are good. The goings-on at the nonprofit behind OpenAI could fill an entire video on their own, so for now, I’ll move on.
Altman predicted that with the advent of AGI, the price of many goods will eventually fall dramatically. One way to assuage people who lose their jobs might be to say, “At least your TV is cheaper.” But he also said the price of luxury goods and land may rise even more dramatically. I live in London, and the price of land is already intense, so who knows what it’ll be after AGI? On that “luxury goods” point, Altman might have one particular luxury good in mind. Yesterday in London, when asked about the hardware device designed in part by Jony Ive (of Apple), he said it was “incredible,” that it really is something special, and that it’s just about a year away. Yes, by the way, I applied to be at that event but didn’t have the right “org ID.”
One thing that might not be a luxury device is a smaller language model. In leaked audio of that London event, Altman apparently said something like: “Well, one idea is we put out O3, then open-source O3 Mini. Then we put out O4, then open-source O4 Mini.” He added that this is not a decision but more of a directional possibility. Take that for what it’s worth.
Another point is right in the first sentence of his essay: the mission of OpenAI is to ensure that AGI benefits all of humanity—not necessarily that they themselves create AGI, but that AGI, whenever and however it’s created, benefits everyone. Originally, when OpenAI was founded—which I covered in the documentary—the charter said they would make AGI to benefit humanity, unencumbered by the need for a financial return. That last bit is gone, but they still say it should benefit “all of humanity,” not just most. How to achieve that when they admit that the vast majority of human labor might soon become redundant is a question. Even if there were a benevolent policy in the US to look after everyone, how would you ensure that for other nations?
After watching Yoshua Bengio (one of the “Godfathers of AI”), I started thinking: if a nation got to AGI or superintelligence a month, three months, or six months before another, it’s more likely that it would automate or undermine the other nation’s economy, rather than just physically wipe it out. For example, the US might “automate” China, or vice versa, and then take that wealth for its own people. Bengio thinks that might apply at the company level. In his words, the people who control these systems—like OpenAI—won’t just sell access. They’ll keep the truly powerful versions for themselves and use them to wipe out the economies of countries that don’t have such systems. That might be an existential threat for countries that lag behind.
Speaking of other labs, we have Gemini 2 Pro and Flash from Google DeepMind. There’s also Gemini Thinking, which replicates the kind of reasoning traces of O3 Mini or DeepSeek R1. Benchmark results for these new models are decent but not stratospheric. They’re not at the O3 or DeepSeek R1 level on simple benchmarks. That said, Gemini is amazing at quickly reading large amounts of PDFs and other files. Its transcription accuracy for audio, from my testing, is not at the level of something like AssemblyAI, and its coding is not at the level of O3, nor is its “Deep Research” button as good as Deep Research. But the Gemini models are great at extracting text from documents and are incredibly cheap. I’m impressed by them, and I suspect that as ChatGPT—now the sixth most-visited site, overtaking Twitter—starts closing in on Google, the company will invest more and more to ensure that Gemini 3 is state-of-the-art.
Altman also wrote about AI being used by authoritarian governments to control their populations through mass surveillance and a loss of autonomy. That remark brings me back to the RAND paper I read in full. RAND isn’t just worried about mass surveillance in authoritarian dictatorships, but also about other threats to national security: “wonder weapons,” systemic shifts in power, non-experts empowered to develop WMDs, artificial entities with agency (like O6 “coming alive”), and fundamental instability. RAND has been around for over 75 years and doesn’t make dramatic statements lightly. Toward the end of the paper, they admit the U.S. is not well-positioned to realize ambitious economic benefits from AGI without widespread unemployment and societal unrest. I still recall the days, just two years ago, when Altman said that if AGI produces the level of inequality he expects, “people won’t take it.”
Let’s look at signs indicating AGI might not be controlled by countries or even companies. For less than $$$50 worth of compute time—just $$$20, some say—Stanford produced S1. Yes, they used an open-weight base model, “Qwen 2.5” with 32 billion parameters and instruct tuning, but the headline is that with just 1,000 specially selected questions and reasoning traces, they could bring that model to near O1 levels in certain benchmarks. These are categories like science QA, competition-level math, and so on. The key methodology was to encourage “longer thought” at test time by adding the token “wait” multiple times whenever the model tried to stop answering—basically forcing it to continue reasoning. Imagine you’re taking an exam and, whenever you try to write down your final answer, a voice in your head says, “Wait!” That’s what happened until the model had reached a reasonable amount of reasoning tokens.
I’ve reviewed their Math 500 benchmark—it’s tough. To get 95% on problems at that level is impressive, and so is scoring above 60% in GPQA Diamond, which is roughly the level of a PhD in that area. Again, this is an off-the-shelf open-weight model, fine-tuned with just 1,000 examples. For context, DeepSeek R1 used 800,000 examples. Stanford had to decontaminate their dataset so there was no overlap with their test set, removed questions that smaller models could already handle (because those were too easy), and ensured diversity by covering as many types of problems as possible. They ended up with about twenty questions apiece for fifty different domains.
They fine-tuned that base model using reasoning traces from something like Gemini Thinking (comparable to DeepSeek R1). Each time the model wanted to stop, they said “wait” to nudge it to keep going, sometimes two, four, or six times, which forced it to review its own output. They also tried scaling up majority voting or self-consistency but didn’t see the same slope in performance. Suffice it to say, getting these kinds of scores in math and tough QA is insane. Of course, that doesn’t mean the model can answer everything else as successfully, and to be fair, it isn’t truly “open data,” because the base model itself isn’t fully open.
Still, scaling test-time compute—letting it “think” more tokens—makes a huge difference. As Andrej Karpathy said in his excellent three-and-a-half-hour ChatGPT video, it’s an open research question how best to extend the context window at the frontier. I’d highly recommend that video. Karpathy also mentioned that this “wait” trick is reminiscent of “Let’s think step-by-step,” i.e., forcibly giving the model more tokens to reason before finalizing.
Speaking of spending resources wisely, I’ve been using GiveWell for thirteen years—sponsors of this video—to figure out where donations can do the most good. They devote tens of thousands of research hours each year to identify which charities save the most lives per dollar. I always donate to The Against Malaria Foundation, which I believe started in the UK. If you check them out, you can even mention you heard about them from, say, AI Explained.
Returning to Altman’s essay: in previous writings, he mentioned that the value of labor might drop to zero. Now he just says the balance of power between capital and labor could get messed up, and this may require “early intervention.” OpenAI has funded studies on universal basic income with mixed results. Altman doesn’t mention UBI explicitly; he keeps it vague. If AGI is coming in two to five years, “early intervention” would have to happen basically now. Yet what is that intervention? Governments aren’t acting quickly. Anthropic’s Dario Amodei said AI is becoming a “country of geniuses in a data center,” possibly by 2026 or 2027, and almost certainly by 2030. Governments aren’t doing enough to oversee the big AI labs, measure risks, or regulate. At the next international summit—there was one just this week—we shouldn’t repeat this missed opportunity. These issues should be at the top of the agenda.
I suspect many of you share my sense that rapid change is coming much sooner than the bulk of humanity expects. The question is: what do we do about it? Let me know your thoughts in the comments, and as always, thank you for watching until the end. Have a wonderful day.
Метки:
AI,
Китай,
мирполитика,
мирэкономика,
США
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment