You're not viewing the latest version. Click here to go to latest.

GPUStack

Home

Initializing search

gpustack/gpustack

Home
Inference Performance Lab
Container Image Selector

GPUStack

gpustack/gpustack

Home
Home
- Overview
- Quickstart
- Installation
  Installation
- Upgrade
- Migration
- User Guide
  User Guide
  - Playground
    
    Playground
    
    Chat
    
    Image
    
    Audio
    
    Embedding
    
    Rerank
  - Model Catalog
  - Model Deployment Management
  - Model Route Management
  - Model Provider Management
  - Inference Backend Management
  - Built-in Inference Backends
  - Compatibility Check
  - Model File management
  - Cluster Management
  - GPU Service
    GPU Service
    
    GPU Instances
    
    Instance Types
    
    Instance Templates
    
    Storage
    
    Storage Types
    
    SSH Public Keys
  - Cloud Credential Management
  - API Key Management
  - User Management
  - Usage
  - Single Sign-On (SSO) Authentication
  - Observability
  - Benchmarking
- Using Models
  Using Models
- Tutorials
  Tutorials
- Integrations
  Integrations
- Architecture
- Scheduler
- Troubleshooting
- FAQ
- API Reference
- CLI Reference
  CLI Reference
- Environment Variables
Inference Performance Lab
Inference Performance Lab
- Overview
- Optimizing Throughput
  Optimizing Throughput
  - Qwen3.5-35B-A3B
    Qwen3.5-35B-A3B
    
    H200
  - Qwen3.5-9B
    Qwen3.5-9B
    
    H100
  - GLM-4.5-Air
    GLM-4.5-Air
    
    A100
    
    H100
  - GLM-4.x
    GLM-4.x
    
    A100
    
    H100
    
    H200
  - GPT-OSS-20B
    GPT-OSS-20B
    
    A100
    
    H100
  - GPT-OSS-120B
    GPT-OSS-120B
    
    A100
    
    H100
  - DeepSeek-R1
    DeepSeek-R1
    
    H200
  - DeepSeek-V3.2
    DeepSeek-V3.2
    
    H200
  - Qwen3-8B
    Qwen3-8B
    
    910B
  - Qwen3-14B
    Qwen3-14B
    
    A100
    
    H100
  - Qwen3-32B
    Qwen3-32B
    
    A100
    
    H100
  - Qwen3-30B-A3B
    Qwen3-30B-A3B
    
    910B
  - Qwen3-235B-A22B
    Qwen3-235B-A22B
    
    A100
    
    H100
- Optimizing Latency
  Optimizing Latency
  - Qwen3.5-35B-A3B
    Qwen3.5-35B-A3B
    
    H200
  - Qwen3.5-9B
    Qwen3.5-9B
    
    H100
  - Qwen3-8B
    Qwen3-8B
    
    H100
- References
  References
  - The Impact of Quantization on vLLM Inference Performance
  - Evaluating LMCache Prefill Acceleration in vLLM
Container Image Selector