Factsheet: Vllm
Gruppe: Ki/inferenz
Zweck
vLLM ist eine hocheffiziente Bibliothek für die Inferenz und das Serving von LLMs. Sie zeichnet sich durch PagedAttention aus, was den Speicherbedarf erheblich reduziert und den Durchsatz maximiert. KI-Agenten nutzen vLLM als Backend, um Modelle mit OpenAI-kompatibler API schnell und skalierbar bereitzustellen.
| Eigenschaft | Wert |
|---|---|
| Latest | 0.6.3 |
| LTS | N/A |
| Reifegrad | Stabil (Aktiv gewartet, v0.19.0 Stand April 2026) |
| Technische Schulden | Gering |
| Erwartetes Lebensende | Kein EOL bekannt |
| Referenzhandbuch | github.com/vllm-project/vllm |
Installation (Ubuntu 24.04)
Hello World
Beispieldaten
Die folgenden Beispieldaten befinden sich im Ordner examples/:
test.pyconfig.jsonprompt.txtoutput.txtrun_server.shopenai_client.py: Python-Client für die OpenAI-kompatible API.offline_inference.py: Beispiel für die direkte Nutzung der vLLM-Engine ohne Server.distributed_inference.py: Hinweise zur verteilten Inferenz auf mehreren GPUs.
Validierung
vLLM Offline-Inferenz testen.