(Vision Transformer)
1) Einfach erklärt
ViT ist ein Transformer für Bilder. Ein Bild wird in viele kleine Patches (z. B. 16×16 Pixel) zerlegt. Jedes Patch wird in einen Vektor (Token) umgewandelt, mit Positionsinfos versehen und dann wie eine Satzfolge vom Transformer verarbeitet. Ein spezielles Klassen-Token sammelt die Information für die Vorhersage (z. B. „Katze“ vs. „Hund“).
Warum ist das nützlich? ViT nutzt die gleiche Architektur, die in der Sprach-KI so erfolgreich ist – jetzt für Bilder. Mit genügend Vortraining (große Datensätze) und anschließendem Feintuning erreicht ViT starke Ergebnisse in der Bildklassifikation – und wird oft als visueller Encoder in multimodalen Systemen eingesetzt.
2) Professionelle Definition
Vision Transformer (ViT) (Dosovitskiy et al., 2020/ICLR 2021) zerlegt ein Eingabebild in nicht-überlappende Patches, projiziert jedes Patch linear zu patch embeddings, addiert position embeddings und optional ein [CLS]–Token. Die Sequenz wird mit einem reinen Transformer-Encoder verarbeitet; ein MLP-Head nutzt die [CLS]-Repräsentation für die Klassifikation. ViT zeigte bei großem Vortraining (und nachfolgendem Finetuning) konkurrenzfähige bis SOTA-Leistungen. Varianten und Weiterentwicklungen umfassen DeiT (daten-effizientes Training via Distillation) sowie Swin Transformer (hierarchische Repräsentation mit Shifted Windows).
Verwandte interne Einträge:
Computer Vision ·
Multimodale KI ·
Große Sprachmodelle (LLMs) ·
Prompt
Beispiele multimodaler Architekturen (Auswahl)
- CLIP (OpenAI, 2021): Dual-Encoder (Bild/Text) mit kontrastivem Ziel; Vision-Zweig u. a. als ViT-B/32, ViT-B/16, ViT-L/14. Starke Zero-shot-Klassifikation und universelle Bild↔Text-Einbettungen.
- BLIP-2 (2023): Koppelt gefrorenen Bild-Encoder (häufig ViT-basiert) mit einem LLM über einen leichten Q-Former; effizientes Pretraining, starke VQA/Captioning-Leistung.
- Flamingo (DeepMind, 2022): Visueller Encoder + LLM, verbunden per Cross-Attention; Few-shot-Fähigkeit auf vielen Vision-Language-Aufgaben.
- PaLI (Google, 2022): Gemeinsames Skalieren von Vision (große ViTs, z. B. ViT-e) und Sprache; breites Aufgaben-Spektrum (Captioning, VQA, OCR-frei, mehrsprachig).
- LLaVA (2023): Verbindet einen CLIP ViT-L/14-Encoder mit einem LLM (z. B. Vicuna) über eine Projektionsschicht; zwei-stufiges Instruction-Tuning für multimodalen Chat.
Quellen (externe Belege; kopierbare, klickbare Links)
ViT
Paper (arXiv): https://arxiv.org/abs/2010.11929 |
PDF: https://arxiv.org/pdf/2010.11929 |
ICLR-Seite: https://openreview.net/forum?id=YicbFdNTTy
DeiT
Paper (arXiv): https://arxiv.org/abs/2012.12877 |
PMLR: https://proceedings.mlr.press/v139/touvron21a.html |
PDF: https://proceedings.mlr.press/v139/touvron21a/touvron21a.pdf
Swin Transformer
Paper (arXiv): https://arxiv.org/abs/2103.14030 |
PDF: https://arxiv.org/pdf/2103.14030 |
Repo: https://github.com/microsoft/Swin-Transformer
CLIP
Paper (PDF): https://arxiv.org/pdf/2103.00020 (enthält ViT-B/32, ViT-B/16, ViT-L/14)
Model Card (ViT-L/14): https://huggingface.co/openai/clip-vit-large-patch14
BLIP-2
Paper (arXiv): https://arxiv.org/abs/2301.12597 |
PDF (PMLR): https://proceedings.mlr.press/v202/li23q/li23q.pdf
Flamingo
Paper (arXiv): https://arxiv.org/abs/2204.14198 |
PDF (NeurIPS): https://proceedings.neurips.cc/paper_files/paper/2022/file/960a172bc7fbf0177ccccbb411a7d800-Paper-Conference.pdf
PaLI
Paper (arXiv): https://arxiv.org/abs/2209.06794 |
PDF: https://arxiv.org/pdf/2209.06794
LLaVA
Projektseite: https://llava-vl.github.io/ (CLIP ViT-L/14 + LLM, 2-stufiges Tuning)
Paper (arXiv): https://arxiv.org/abs/2304.08485 |
PDF: https://arxiv.org/pdf/2304.08485
Weiter Informationen finden die hier KI Kurse und Schulungen
