Pages

Monday, August 18, 2025

DINOv3: MetaAI выпустили первую в мире vision foundation модель, которая обходит по качеству специализированные решения



Это универсальная открытая модель, которая подходит почти для любых задач компьютерного зрения: детекция, сегментация, depth estimation, dense prediction.

При этом на всех этих задачах она стабильно превосходит не только предыдущие foundation-модели, но и узкоспециализированные решения [такие как классификация изображений, семантическая сегментация и отслеживание объектов в видео], заточенные на отдельные задачи (даже CLIP-based, SigLIP 2 и Perception Encoder). Это фактически исторический сдвиг.

Но это не единственная особенность DINOv3. Модель (внимание!) обучена вообще без разметки, то есть в режиме self-supervised learning. Собственно, это заложено в названии: DINO – DIstillation with NO labels.


Ниже есть продолжение.

Ядро – Vision Transformer. На вход огромный корпус изображений (более 2 миллиардов снимков) и ни одной аннотации, чистые пиксели. Обучение происходило по схеме студент/учитель:

1. На каждое изображение применяют набор аугментаций. Например, вырезают из него какие-то части (кропы).
2. Разные варианты изображения (разные кропы) поступают на вход студенту и учителю. Это две копии одной нейросети, но изначально с разными весами.
3. Студента учат воспроизводить предсказания учителя для кропов из одного и того же изображения, даже если сами кропы абсолютно разные. Лосс – кросс-энтропия между выходом студента и учителя, но градиент считают только по студенту.
Выглядит витиевато, но суть в том, что в процессе студент учится находить инвариантные признаки, устойчивые к преобразованиям. Например, модель понимает, что кошка на разных участках фотографии – всё та же кошка, а не новые объекты.

Как использовать на практике:
➖ Вот тут лежит бэкбон. (https://github.com/facebookresearch/dinov3) Это основная часть сетки, которую в большинстве случаев вам дообучать не придется. Он уже заморожен и готов к применению.
➖ К нему цепляем адаптер. Это обычно небольшой дополнительный линейный слой или линейная голова. Адаптер преобразует фичи из бэкбона под конкретную задачу: классификацию, сегментацию, детекцию, depth estimation и тд.
➖ Если задач сразу несколько, можно шарить фичи на лету. То есть стоимость и время инференса почти не увеличатся, а сетка будет выполнять для вас сразу несколько тасок.

Спасибо, Цукер, сегодня порадовал

Блогпост (https://ai.meta.com/blog/dinov3-self-supervised-vision-model/)
https://t.me/data_secrets/7620

No comments:

Post a Comment