You're not viewing the latest version. Click here to go to latest.

GPUStack

Home

Initializing search

Home
Inference Performance Lab

GPUStack

Home
Home
- Overview
- Quickstart
- Installation
  Installation
- Upgrade
- Migration
- User Guide
  User Guide
- Using Models
  Using Models
- Tutorials
  Tutorials
- Integrations
  Integrations
- Architecture
- Scheduler
- Troubleshooting
- FAQ
- API Reference
- CLI Reference
  CLI Reference
Inference Performance Lab
Inference Performance Lab
- Overview
- Optimizing Throughput
  Optimizing Throughput
  - GLM-4.6/4.5-Air
    GLM-4.6/4.5-Air
    
    A100
    
    H100
  - GLM-4.6/4.5
    GLM-4.6/4.5
    
    A100
    
    H100
    
    H200
  - GPT-OSS-20B
    GPT-OSS-20B
    
    A100
    
    H100
  - GPT-OSS-120B
    GPT-OSS-120B
    
    A100
    
    H100
  - DeepSeek-R1
    DeepSeek-R1
    
    H200
  - Qwen3-8B
    Qwen3-8B
    
    910B
  - Qwen3-14B
    Qwen3-14B
    
    A100
    
    H100
  - Qwen3-32B
    Qwen3-32B
    
    A100
    
    H100
  - Qwen3-30B-A3B
    Qwen3-30B-A3B
    
    910B
  - Qwen3-235B-A22B
    Qwen3-235B-A22B
    
    A100
    
    H100
- Optimizing Latency
  Optimizing Latency
  - Qwen3-8B
    Qwen3-8B
    
    H100
- References
  References
  - The Impact of Quantization on vLLM Inference Performance
  - Evaluating LMCache Prefill Acceleration in vLLM

Home