(Vision Transformer)

1) Einfach erklärt

ViT ist ein Transformer für Bilder. Ein Bild wird in viele kleine Patches (z. B. 16×16 Pixel) zerlegt. Jedes Patch wird in einen Vektor (Token) umgewandelt, mit Positionsinfos versehen und dann wie eine Satzfolge vom Transformer verarbeitet. Ein spezielles Klassen-Token sammelt die Information für die Vorhersage (z. B. „Katze“ vs. „Hund“).

Warum ist das nützlich? ViT nutzt die gleiche Architektur, die in der Sprach-KI so erfolgreich ist – jetzt für Bilder. Mit genügend Vortraining (große Datensätze) und anschließendem Feintuning erreicht ViT starke Ergebnisse in der Bildklassifikation – und wird oft als visueller Encoder in multimodalen Systemen eingesetzt.


2) Professionelle Definition

Vision Transformer (ViT) (Dosovitskiy et al., 2020/ICLR 2021) zerlegt ein Eingabebild in nicht-überlappende Patches, projiziert jedes Patch linear zu patch embeddings, addiert position embeddings und optional ein [CLS]Token. Die Sequenz wird mit einem reinen Transformer-Encoder verarbeitet; ein MLP-Head nutzt die [CLS]-Repräsentation für die Klassifikation. ViT zeigte bei großem Vortraining (und nachfolgendem Finetuning) konkurrenzfähige bis SOTA-Leistungen. Varianten und Weiterentwicklungen umfassen DeiT (daten-effizientes Training via Distillation) sowie Swin Transformer (hierarchische Repräsentation mit Shifted Windows).

Verwandte interne Einträge:
Computer Vision ·
Multimodale KI ·
Große Sprachmodelle (LLMs) ·
Prompt


Beispiele multimodaler Architekturen (Auswahl)

  • CLIP (OpenAI, 2021): Dual-Encoder (Bild/Text) mit kontrastivem Ziel; Vision-Zweig u. a. als ViT-B/32, ViT-B/16, ViT-L/14. Starke Zero-shot-Klassifikation und universelle Bild↔Text-Einbettungen.
  • BLIP-2 (2023): Koppelt gefrorenen Bild-Encoder (häufig ViT-basiert) mit einem LLM über einen leichten Q-Former; effizientes Pretraining, starke VQA/Captioning-Leistung.
  • Flamingo (DeepMind, 2022): Visueller Encoder + LLM, verbunden per Cross-Attention; Few-shot-Fähigkeit auf vielen Vision-Language-Aufgaben.
  • PaLI (Google, 2022): Gemeinsames Skalieren von Vision (große ViTs, z. B. ViT-e) und Sprache; breites Aufgaben-Spektrum (Captioning, VQA, OCR-frei, mehrsprachig).
  • LLaVA (2023): Verbindet einen CLIP ViT-L/14-Encoder mit einem LLM (z. B. Vicuna) über eine Projektionsschicht; zwei-stufiges Instruction-Tuning für multimodalen Chat.

Quellen (externe Belege; kopierbare, klickbare Links)

ViT
Paper (arXiv): https://arxiv.org/abs/2010.11929  |
PDF: https://arxiv.org/pdf/2010.11929  |
ICLR-Seite: https://openreview.net/forum?id=YicbFdNTTy

DeiT
Paper (arXiv): https://arxiv.org/abs/2012.12877  |
PMLR: https://proceedings.mlr.press/v139/touvron21a.html  |
PDF: https://proceedings.mlr.press/v139/touvron21a/touvron21a.pdf

Swin Transformer
Paper (arXiv): https://arxiv.org/abs/2103.14030  |
PDF: https://arxiv.org/pdf/2103.14030  |
Repo: https://github.com/microsoft/Swin-Transformer

CLIP
Paper (PDF): https://arxiv.org/pdf/2103.00020 (enthält ViT-B/32, ViT-B/16, ViT-L/14)
Model Card (ViT-L/14): https://huggingface.co/openai/clip-vit-large-patch14

BLIP-2
Paper (arXiv): https://arxiv.org/abs/2301.12597  |
PDF (PMLR): https://proceedings.mlr.press/v202/li23q/li23q.pdf

Flamingo
Paper (arXiv): https://arxiv.org/abs/2204.14198  |
PDF (NeurIPS): https://proceedings.neurips.cc/paper_files/paper/2022/file/960a172bc7fbf0177ccccbb411a7d800-Paper-Conference.pdf

PaLI
Paper (arXiv): https://arxiv.org/abs/2209.06794  |
PDF: https://arxiv.org/pdf/2209.06794

LLaVA
Projektseite: https://llava-vl.github.io/ (CLIP ViT-L/14 + LLM, 2-stufiges Tuning)
Paper (arXiv): https://arxiv.org/abs/2304.08485  |
PDF: https://arxiv.org/pdf/2304.08485

Weiter Informationen finden die hier KI Kurse und Schulungen