Zum Inhalt

Factsheet: Vllm

Gruppe: Ki/inferenz

Zweck

vLLM ist eine hocheffiziente Bibliothek für die Inferenz und das Serving von LLMs. Sie zeichnet sich durch PagedAttention aus, was den Speicherbedarf erheblich reduziert und den Durchsatz maximiert. KI-Agenten nutzen vLLM als Backend, um Modelle mit OpenAI-kompatibler API schnell und skalierbar bereitzustellen.

Eigenschaft Wert
Latest 0.6.3
LTS N/A
Reifegrad Stabil (Aktiv gewartet, v0.19.0 Stand April 2026)
Technische Schulden Gering
Erwartetes Lebensende Kein EOL bekannt
Referenzhandbuch github.com/vllm-project/vllm

Installation (Ubuntu 24.04)

pip install vllm

Hello World

python3 -m vllm.entrypoints.openai.api_server

Beispieldaten

Die folgenden Beispieldaten befinden sich im Ordner examples/:

  • test.py
  • config.json
  • prompt.txt
  • output.txt
  • run_server.sh
  • openai_client.py: Python-Client für die OpenAI-kompatible API.
  • offline_inference.py: Beispiel für die direkte Nutzung der vLLM-Engine ohne Server.
  • distributed_inference.py: Hinweise zur verteilten Inferenz auf mehreren GPUs.

Validierung

vLLM Offline-Inferenz testen.