Важно

  •  

Monday, August 18, 2025

DINOv3: MetaAI выпустили первую в мире vision foundation модель, которая обходит по качеству специализированные решения



Это универсальная открытая модель, которая подходит почти для любых задач компьютерного зрения: детекция, сегментация, depth estimation, dense prediction.

При этом на всех этих задачах она стабильно превосходит не только предыдущие foundation-модели, но и узкоспециализированные решения [такие как классификация изображений, семантическая сегментация и отслеживание объектов в видео], заточенные на отдельные задачи (даже CLIP-based, SigLIP 2 и Perception Encoder). Это фактически исторический сдвиг.

Но это не единственная особенность DINOv3. Модель (внимание!) обучена вообще без разметки, то есть в режиме self-supervised learning. Собственно, это заложено в названии: DINO – DIstillation with NO labels.


Ниже есть продолжение.

Ядро – Vision Transformer. На вход огромный корпус изображений (более 2 миллиардов снимков) и ни одной аннотации, чистые пиксели. Обучение происходило по схеме студент/учитель:

1. На каждое изображение применяют набор аугментаций. Например, вырезают из него какие-то части (кропы).
2. Разные варианты изображения (разные кропы) поступают на вход студенту и учителю. Это две копии одной нейросети, но изначально с разными весами.
3. Студента учат воспроизводить предсказания учителя для кропов из одного и того же изображения, даже если сами кропы абсолютно разные. Лосс – кросс-энтропия между выходом студента и учителя, но градиент считают только по студенту.
Выглядит витиевато, но суть в том, что в процессе студент учится находить инвариантные признаки, устойчивые к преобразованиям. Например, модель понимает, что кошка на разных участках фотографии – всё та же кошка, а не новые объекты.

Как использовать на практике:
➖ Вот тут лежит бэкбон. (https://github.com/facebookresearch/dinov3) Это основная часть сетки, которую в большинстве случаев вам дообучать не придется. Он уже заморожен и готов к применению.
➖ К нему цепляем адаптер. Это обычно небольшой дополнительный линейный слой или линейная голова. Адаптер преобразует фичи из бэкбона под конкретную задачу: классификацию, сегментацию, детекцию, depth estimation и тд.
➖ Если задач сразу несколько, можно шарить фичи на лету. То есть стоимость и время инференса почти не увеличатся, а сетка будет выполнять для вас сразу несколько тасок.

Спасибо, Цукер, сегодня порадовал

Блогпост (https://ai.meta.com/blog/dinov3-self-supervised-vision-model/)
https://t.me/data_secrets/7620

Спор о больших языковых моделях (LLM) и искусственном интеллекте (AI)



Спор о текущем состоянии, прогрессе и будущем LLM и ИИ отражает глубокие разногласия. Конфликт, хоть и персонализировался, касается фундаментальных вопросов:

1. Прогресс и возможности ИИ

Скептики: Ажиотаж вокруг LLM преувеличен. Масштабирование моделей достигло предела. LLM не способны к надёжным рассуждениям без внешних инструментов (например, кода или калькуляторов) и ошибаются в простых задачах, которые решает ребёнок. Они лишь имитируют понимание, опираясь на статистику.

Энтузиасты: Прогресс ИИ экспоненциальный. Новые модели показывают впечатляющие результаты в сложных тестах (математика, программирование), превосходя старые версии. Это шаг к общему искусственному интеллекту (AGI).

2. Природа интеллекта

Скептики: LLM не обладают настоящим интеллектом, а лишь воспроизводят шаблоны. Использование внешних инструментов (например, написание кода для решения задач) доказывает их неспособность к мышлению.

Энтузиасты: Создание и использование инструментов — признак интеллекта. Способность модели написать код для задачи, которую она не решает «в уме», — это преимущество, а не недостаток.

Ниже есть продолжение.

3. «Тест Роршаха» и «рваный фронтир»

Тест Роршаха: Обе стороны смотрят на одни данные (например, результаты тестов), но видят подтверждение своих взглядов. Нет согласия, есть ли прогресс или стагнация.

Рваный фронтир: LLM сверхчеловечески хороши в одних задачах (код, анализ данных), но проваливают простые (подсчёт объектов). Скептики акцентируют провалы, энтузиасты — успехи.

Итог: Спор — это микрокосм дебатов об ИИ. Он показывает отсутствие консенсуса о том, что такое интеллект, как измерять прогресс и как достичь сильного ИИ.