Важно

  •  

Thursday, April 24, 2025

Meta's AI Chief Yann LeCun: "I'm DONE with LLMs" (English, Russian)

Стенограмма и комментарии.



Дискуссии о возможностях и пределах искусственного интеллекта затрагивают фундаментальные вопросы о природе сознания, понимания и самих вычислений. В этом споре выделяются разные точки зрения, представленные, в частности, Роджером Пенроузом, Джоном Сёрлом и Янном ЛеКуном.

Про точку зрения сэра Пенроуза и Сёрла см. тут https://www.toalexsmail.com/2025/04/penrose-godels-theorem-debunks-most.html

И Пенроуз, и Сёрл выражают глубокий скептицизм относительно способности чисто вычислительных систем, таких как современные большие языковые модели (LLM), достичь подлинного интеллекта или сознания. Оба считают, что нынешние ИИ, несмотря на их впечатляющую производительность, не обладают ключевыми атрибутами разума. Однако основания для их скептицизма различаются. Пенроуз утверждает, что сознание требует специфических невычислимых физических процессов, связанных с квантовой механикой, которые принципиально не могут быть симулированы алгоритмами. Сёрл же, в своем знаменитом аргументе "Китайская комната", фокусируется на философской проблеме: он доказывает, что формальная манипуляция символами (синтаксис), которую выполняют компьютеры, сама по себе не способна породить реальное понимание смысла (семантику).

Янн ЛеКун присоединяется к хору критиков, заявляя о своей потере интереса к дальнейшему масштабированию LLM как к пути к сильному ИИ (AGI). Он согласен, что нынешние модели ограничены, но его диагноз и предлагаемое лечение отличаются от позиций Пенроуза и Сёрла. ЛеКун видит проблему не в принципиальной невычислимости сознания или неспособности синтаксиса породить семантику, а в архитектурных и методологических недостатках текущих подходов. По его мнению, LLM не обладают внутренними моделями мира, способностью к полноценному рассуждению и планированию (что соответствует "Системе 2" мышления по Канеману) и обучаются преимущественно на тексте, который содержит лишь малую долю информации о сложном физическом мире по сравнению с богатыми сенсорными данными, особенно визуальными.

Предлагаемое ЛеКуном решение лежит в рамках вычислимых, но принципиально иных подходов. Он делает ставку на архитектуры, подобные JEPA (Joint Embedding Predictive Architecture), способные строить абстрактные внутренние модели мира путем обучения на больших объемах сенсорных данных (например, видео). Такие модели, по его мнению, позволят ИИ понимать физические законы, предсказывать последствия действий, эффективно рассуждать и планировать – то есть обрести те качества, которых лишены современные LLM.

Этот подход косвенно отвечает на вызов Сёрла. Если Сёрл утверждает, что символы в "Китайской комнате" бессмысленны, то ЛеКун предлагает способ "заземлить" внутренние представления ИИ в реальности через сенсорный опыт и построение модели мира. Это перекликается с идеями контраргументов к Сёрлу, таких как "Возражение от робота", где понимание связывается с взаимодействием с реальным миром.

В то же время, программа исследований ЛеКуна явно противоречит позиции Пенроуза. ЛеКун ищет путь к AGI через более совершенные, но все же вычислимые архитектуры и методы обучения. Он не апеллирует к невычислимой физике или квантовым эффектам сознания; наоборот, он подчеркивает важность понимания физического мира через построение вычислительных моделей на основе данных. Если подход ЛеКуна окажется успешным, он продемонстрирует, что сложные вычислительные системы, способные моделировать мир и взаимодействовать с ним, могут достичь понимания и интеллекта без привлечения невычислимой физики, которую Пенроуз считает необходимой.

Таким образом, ЛеКун предлагает "третий путь": признавая ограничения текущих LLM, он видит решение не в выходе за пределы вычислений (как Пенроуз) и не в констатации принципиального разрыва между синтаксисом и семантикой (как Сёрл), а в создании нового поколения вычислительных систем, оснащенных моделями мира и обучаемых на сенсорных данных для достижения более глубокого, "заземленного" понимания реальности.

Ниже есть продолжение.



Более подробно:

Янн ЛеКун, выступая на конференции Nvidia, поделился новостями, которые могут показаться удивительными и даже шокирующими. Он заявил: "Я скажу вам одну вещь, которая может удивить некоторых из вас. Я больше не очень заинтересован в LLM (больших языковых моделях)". Эта фраза вызвала смех в аудитории, но ЛеКун уже некоторое время придерживается этой позиции.

По его мнению, LLM — это "последнее, что есть в руках индустрии", и усилия сейчас направлены на "улучшение на грани", то есть получение большего количества данных, большего вычислительного ресурса, генерацию синтетических данных. Он считает, что есть более интересные вопросы, над которыми стоит работать, и выделяет четыре ключевых:

* Как научить машины понимать физический мир? (Эту тему также затрагивал Дженсен Хуанг).

* Как наделить их постоянной (долговременной) памятью? (Об этом, по словам ЛеКуна, говорят немногие).

* Как научить их рассуждать?

* Как научить их планировать?

ЛеКун критикует текущие попытки заставить LLM рассуждать, называя их "очень упрощенным способом" рассмотрения рассуждений. Он считает, что есть "лучшие способы" это сделать.

Вместо этого он делает ставку на архитектуру, которую называет JEPA (Joint Embedding Predictive Architecture – Архитектура предиктивного совместного встраивания). Это тип архитектуры, основанный на "модели мира" (world model). Цель JEPA — научить ИИ строить внутреннюю, абстрактную модель того, как устроен мир, чтобы он мог использовать эту модель для эффективного рассуждения, планирования и безопасного взаимодействия с реальным миром.

ЛеКун объясняет концепцию модели мира на примере: все мы имеем внутреннюю модель мира. Мы знаем, что если толкнуть эту бутылку сверху, она, скорее всего, опрокинется, а если толкнуть у основания, она поедет. Если нажать слишком сильно, она может лопнуть. Эта внутренняя модель физического мира, которую мы приобретаем в первые месяцы жизни, позволяет нам взаимодействовать с реальным миром. Он отмечает, что младенцы начинают понимать базовые принципы физики (например, гравитацию, постоянство объектов) примерно к 9 месяцам. Если показать 5-6-месячному ребенку физически невозможную сцену (например, объект, парящий в воздухе без опоры), он не удивится. Но 9-10-месячный ребенок будет смотреть на это широко раскрытыми глазами, потому что это нарушает его формирующуюся модель мира. Именно это удивление, расхождение между предсказанием модели и реальностью, заставляет нас обращать внимание и учиться.

Однако, по словам ЛеКуна, попытки научить ИИ строить модели мира путем прямого предсказания видео на уровне пикселей (как в автоэнкодерах типа MAE, примененных к видео) в основном провалились. Причина в том, что мир содержит много непредсказуемых деталей, и система тратит слишком много ресурсов, пытаясь предсказать то, что предсказать невозможно (например, точное движение листьев на дереве). Это "пустая трата ресурсов". Проект MAE для видео был в итоге остановлен.

Архитектуры JEPA работают иначе. Они учатся предсказывать не сами пиксели, а абстрактные представления будущих состояний мира. Система получает представление части входных данных (например, кусок видео) и учится предсказывать представление другой части входных данных (например, следующего куска видео) в этом абстрактном пространстве. Это позволяет игнорировать непредсказуемую информацию низкого уровня и фокусироваться на сути происходящего. ЛеКун упоминает успешные реализации этой идеи для изображений (I-JEPA) и первую версию для видео (V-JEPA), которая обучалась на коротких 16-кадровых клипах.

ЛеКун также подчеркивает фундаментальное различие между обучением на тексте и обучением на сенсорных данных из реального мира, особенно визуальных. Он приводит расчет: за первые 4 года жизни ребенок бодрствует около 16 000 часов. Через зрительный нерв в мозг поступает примерно 2 МБ данных в секунду. Перемножив это, получаем около 1015 байт визуальной информации. Современные LLM обучаются примерно на 1014 байт текста (около 30 триллионов токенов). Чтобы прочитать такой объем текста, человеку потребовалось бы 400 000 лет. Вывод ЛеКуна: мы никогда не достигнем AGI, обучая системы только на тексте, так как объем информации о мире, содержащийся в тексте, ничтожен по сравнению с тем, что можно получить через наблюдение.

Кроме того, ЛеКун указывает на проблему дискретности токенов, используемых в LLM. Текст и речь дискретны, что упрощает их обработку, но реальный мир (особенно через зрение) является высокоразмерным и непрерывным. Пытаться представлять этот сложный мир с помощью дискретных токенов — неверный путь. Даже автономные транспортные средства, использующие токены с датчиков, ограничены этим подходом.

ЛеКун связывает это с концепцией Системы 1 и Системы 2 мышления (по Даниэлю Канеману). Система 1 — быстрое, интуитивное, реактивное, подсознательное мышление (например, навыки вождения у опытного водителя). Система 2 — медленное, сознательное, требующее усилий рассуждение и планирование (как у новичка за рулем или при решении сложной задачи). По его мнению, LLM хорошо справляются с задачами Системы 1, но для достижения AGI необходима мощная Система 2. У людей задачи, которые изначально требуют Системы 2, при многократном повторении "компилируются" в политику Системы 1 (становятся автоматическими). Для ИИ способность к планированию (Система 2) требует наличия модели мира.

Стоит отметить, что идеи о моделях мира не новы и высказываются не только ЛеКуном. Демис Хассабис из Google DeepMind также говорит о необходимости создания ИИ с внутренними моделями мира. Их проект Astra, позволяющий ИИ воспринимать мир через очки пользователя, направлен на это. Доктор Джим Фан также обсуждает эту тему, хотя и расходится в определениях с некоторыми работами, и ссылается на Юргена Шмидхубера, который, по его словам, впервые использовал термин "модель мира" в контексте глубокого обучения с подкреплением еще в 1990 году (на примере агента, обучавшегося играть в Doom, используя внутреннюю модель мира как "симулятор физики").

ЛеКун считает, что нынешняя волна ИИ, сосредоточенная на масштабировании LLM, "ошибочна" и не приведет к настоящему интеллекту. Исторически, по его словам, каждые 10 лет в ИИ возникает новая волна идей, авторы которых заявляют, что именно это приведет к ИИ человеческого уровня в ближайшие 5-10 лет, но этого не происходит. Он предсказывает, что нынешний подход, основанный на авторегрессивных LLM, также столкнется с ограничениями. Однако он с оптимизмом смотрит на архитектуры, основанные на моделях мира, такие как JEPA, и считает, что они являются гораздо более перспективным направлением для достижения AGI, возможно, в течение следующего десятилетия. Он ожидает, что подходы, основанные на моделях мира, приведут к значительному прогрессу, особенно в робототехнике, в ближайшие 3-5 лет.

При этом ЛеКун скептически относится к краткосрочному влиянию квантовых вычислений на ИИ, за исключением, возможно, симуляции самих квантовых систем. Он также считает, что оптические вычисления пока не оправдали возложенных на них надежд.

В конце интервью ЛеКун в шутку просит Дженсена Хуанга снизить цены на GPU, на что тот отвечает своей знаменитой фразой: "Чем больше вы покупаете, тем больше экономите".



Discussions about the capabilities and limits of artificial intelligence touch upon fundamental questions about the nature of consciousness, understanding, and computation itself. Within this debate, distinct viewpoints emerge, represented notably by Roger Penrose, John Searle, and Yann LeCun.

Both Penrose and Searle express deep skepticism regarding the ability of purely computational systems, such as modern large language models (LLMs), to achieve genuine intelligence or consciousness. Both believe that current AI, despite its impressive performance, lacks the key attributes of mind. However, the grounds for their skepticism differ. Penrose argues that consciousness requires specific non-computable physical processes, linked to quantum mechanics, which are fundamentally impossible to simulate with algorithms. Searle, in his famous "Chinese Room" argument, focuses on a philosophical problem: he contends that the formal symbol manipulation (syntax) performed by computers cannot, by itself, generate real understanding of meaning (semantics).

Yann LeCun joins the chorus of critics, stating his waning interest in further scaling LLMs as a path to strong AI (AGI). He agrees that current models are limited, but his diagnosis and proposed cure differ from those of Penrose and Searle. LeCun sees the problem not in the fundamental non-computability of consciousness or the inability of syntax to generate semantics, but rather in the architectural and methodological shortcomings of current approaches. In his view, LLMs lack internal world models, the capacity for robust reasoning and planning (corresponding to Kahneman's "System 2" thinking), and are trained predominantly on text, which contains only a minuscule fraction of information about the complex physical world compared to rich sensory data, especially vision.

The solution proposed by LeCun lies within computable, yet fundamentally different, approaches. He bets on architectures like JEPA (Joint Embedding Predictive Architecture), capable of building abstract internal world models by learning from large volumes of sensory data (e.g., video). Such models, in his opinion, will enable AI to understand physical laws, predict the consequences of actions, reason effectively, and plan – thereby acquiring the qualities that current LLMs lack.

This approach indirectly addresses Searle's challenge. Whereas Searle argues that the symbols in the "Chinese Room" are meaningless, LeCun proposes a way to "ground" AI's internal representations in reality through sensory experience and world model construction. This resonates with counterarguments to Searle, such as the "Robot Reply," which links understanding to interaction with the real world.

At the same time, LeCun's research program stands in clear contrast to Penrose's position. LeCun seeks the path to AGI through more advanced, yet still computable, architectures and learning methods. He does not appeal to non-computable physics or quantum effects of consciousness; on the contrary, he emphasizes the importance of understanding the physical world by building computational models based on data. If LeCun's approach proves successful, it would demonstrate that complex computational systems capable of modeling and interacting with the world can achieve understanding and intelligence without resorting to the non-computable physics Penrose deems necessary.

Thus, LeCun proposes a "third way": acknowledging the limitations of current LLMs, he sees the solution not in going beyond computation (like Penrose) nor in accepting a fundamental gap between syntax and semantics (like Searle), but in creating a new generation of computational systems equipped with world models and trained on sensory data to achieve a deeper, "grounded" understanding of reality.



In more details:

Yann LeCun, speaking at the Nvidia conference, shared news that might seem surprising and even shocking. He stated: "I'll tell you one thing which may surprise a few of you. I'm not so interested in LLMs (Large Language Models) anymore." This statement drew laughter from the audience, but LeCun has held this position for some time.

In his view, LLMs are "the last thing there is in the hands of... industry product people," and current efforts are focused on "improving at the margin," meaning getting more data, more compute, and generating synthetic data. He believes there are more interesting questions to work on and highlights four key ones:

* How do you get machines to understand the physical world? (A topic Jensen Huang also touched upon).

* How do you get them to have persistent (long-term) memory? (Something few people talk about, according to LeCun).

* How do you get them to reason?

* How do you get them to plan?

LeCun criticizes current attempts to make LLMs reason, calling it "a very kind of simplistic way of... viewing reasoning." He believes there are "probably... better ways of doing this."

Instead, he is betting on an architecture he calls JEPA (Joint Embedding Predictive Architecture). This is a type of architecture based on a "world model." The goal of JEPA is to teach AI to build an internal, abstract model of how the world works, so it can use this model for effective reasoning, planning, and safe interaction with the real world.

LeCun explains the concept of a world model using an example: we all have an internal world model. We know that if you push this bottle from the top, it will probably flip, but if you push it at the bottom, it will slide. If you press too hard, it might pop. This internal model of the physical world, acquired in the first few months of life, allows us to deal with the real world. He notes that babies start understanding basic physics principles (like gravity, object permanence) around 9 months old. If you show a 5- or 6-month-old baby a physically impossible scenario (like an object floating in mid-air without support), they aren't surprised. But a 9- or 10-month-old baby will look at it with wide eyes because it violates their developing world model. This surprise, this mismatch between the model's prediction and reality, is what makes us pay attention and learn.

However, LeCun states that attempts to train AI to build world models by directly predicting video at the pixel level (like in autoencoders such as MAE applied to video) have mostly failed. The reason is that the world contains too many unpredictable details, and the system wastes too many resources trying to predict things that are inherently unpredictable (like the exact rustling of leaves on a tree). It's a "complete waste of resources." The MAE project for video was eventually stopped.

JEPA architectures work differently. They learn to predict not the pixels themselves, but abstract representations of future world states. The system gets a representation of one part of the input (e.g., a piece of video) and learns to predict the representation of another part (e.g., the next piece of video) in this abstract space. This allows it to ignore low-level unpredictable information and focus on the essence of what's happening. LeCun mentions successful implementations for images (I-JEPA) and the first version for video (V-JEPA), which was trained on short 16-frame clips.

LeCun also emphasizes the fundamental difference between learning from text and learning from real-world sensory data, especially vision. He provides a calculation: in the first 4 years of life, a child is awake for about 16,000 hours. The optic nerve transmits about 2MB of data per second to the brain. Multiplying this out gives roughly 10^15 bytes of visual information. Current LLMs are trained on about 10^14 bytes of text (around 30 trillion tokens). It would take a human 400,000 years to read that much text. LeCun's conclusion: we will never achieve AGI by training systems solely on text, as the amount of information about the world contained in text is minuscule compared to what can be gained through observation.

Furthermore, LeCun points out the problem of the discreteness of tokens used in LLMs. Text and speech are discrete, which simplifies processing, but the real world (especially vision) is high-dimensional and continuous. Trying to represent this complex world using discrete tokens is the wrong approach. Even autonomous vehicles that use tokens from sensors are limited by this.

LeCun connects this to the concept of System 1 and System 2 thinking (from Daniel Kahneman). System 1 is fast, intuitive, reactive, subconscious thinking (like an experienced driver's skills). System 2 is slow, effortful, conscious reasoning and planning (like a novice driver or solving a complex puzzle). In his view, LLMs excel at System 1 tasks, but achieving AGI requires a strong System 2, which relies on understanding the world and the ability to plan. In humans, tasks initially requiring System 2 become "compiled" into a System 1 policy (become automatic) with repeated practice. For AI, the ability to plan (System 2) necessitates a world model.

It's worth noting that the idea of world models isn't new or exclusive to LeCun. Demis Hassabis of Google DeepMind also speaks about the need for AI with internal world models. Their Project Astra, which allows AI to perceive the world through a user's glasses, aims in this direction. Dr. Jim Fan also discusses this topic, though he disagrees with some definitions, and credits Jürgen Schmidhuber for first using the term "world model" in the context of deep reinforcement learning back in 1990 (using the example of an agent learning to play Doom by using an internal world model as a "physics simulator").

LeCun believes the current AI wave focused on scaling LLMs is "wrong" and won't lead to true intelligence. Historically, he says, every 10 years or so, a new wave of AI ideas emerges, with proponents claiming it will lead to human-level AI in 5-10 years, but it hasn't happened. He predicts that the current approach based on autoregressive LLMs will also hit limitations. However, he is optimistic about world model-based architectures like JEPA, viewing them as a much more promising path towards AGI, potentially within the next decade. He expects world model approaches to yield significant progress, especially in robotics, within the next 3-5 years.

LeCun remains skeptical about the near-term impact of quantum computing on AI, except possibly for simulating quantum systems themselves. He also feels optical computing has not yet lived up to its hype.

At the end of the interview, LeCun jokingly asks Jensen Huang to lower GPU prices, to which Huang replies with his famous line: "The more you buy, the more you save."


No comments:

Post a Comment