Model Selection Guide

Selecting the appropriate Qwen model depends on your specific requirements, including task complexity, available compute resources, latency constraints, and budget. This guide helps you make an informed decision.

Quick Decision Tree

Model Comparison Matrix

Overview
Performance
Memory

Model	Parameters	Context	Training Tokens	Use Case	Min GPU (Int4)
Qwen-1.8B	1.8B	32K	2.2T	Edge/mobile, fast inference	2.9GB
Qwen-7B	7B	32K	2.4T	General purpose, balanced	8.2GB
Qwen-14B	14B	8K	3.0T	High quality, moderate resources	13.0GB
Qwen-72B	72B	32K	3.0T	Maximum quality, research	48.9GB

Model	MMLU	C-Eval	GSM8K	HumanEval	Speed (tok/s, Int4)
Qwen-1.8B	45.3	56.1	32.3	15.2	71.07
Qwen-7B	58.2	63.5	51.7	29.9	50.09
Qwen-14B	66.3	72.1	61.3	32.3	38.72
Qwen-72B	77.4	83.3	78.9	35.4	11.32

Model	BF16	Int8	Int4	Q-LoRA Finetuning
Qwen-1.8B	4.2GB	3.5GB	2.9GB	5.8GB
Qwen-7B	17.0GB	11.2GB	8.2GB	11.5GB
Qwen-14B	30.2GB	18.8GB	13.0GB	18.7GB
Qwen-72B	144.7GB (2×A100)	81.3GB (2×A100)	48.9GB	61.4GB

Selection by Use Case

1. Production Chatbots & Virtual Assistants

High-Traffic Consumer Applications

Recommended: Qwen-7B-Chat-Int4 or Qwen-14B-Chat-Int4Why:

Balanced quality and cost
Fast inference speed (~38-50 tokens/s)
Fits in single GPU for scalable deployment
Strong performance on conversational tasks

Considerations:

Use Int4 quantization for cost efficiency
Deploy with vLLM for higher throughput
Consider batching for concurrent users

Enterprise Knowledge Assistants

Recommended: Qwen-14B-Chat or Qwen-72B-ChatWhy:

Superior reasoning and comprehension
Better handling of complex queries
More accurate information retrieval
Professional-grade responses

Considerations:

Fine-tune on domain-specific data
Use full precision (BF16) for maximum accuracy
Qwen-72B requires multi-GPU setup

Mobile & Edge Applications

Recommended: Qwen-1.8B-Chat-Int4Why:

Smallest memory footprint (2.9GB)
Fastest inference speed (71 tokens/s)
Can run on consumer hardware
Still maintains reasonable performance

Considerations:

Best for simpler conversations
May struggle with complex reasoning
Ideal for on-device AI applications

2. Code Generation & Programming Assistants

For Production Code Tools

Qwen-14B-Chat or Qwen-7B-Chat

HumanEval Pass@1: 32.3% (14B), 29.9% (7B)
Good balance of speed and accuracy
Handles multiple programming languages
Suitable for IDE integration

For Research & Experimentation

Qwen-72B-Chat

HumanEval Pass@1: 35.4%
Highest code generation quality
Better at understanding complex requirements
Ideal for code explanation and debugging

3. Fine-tuning & Customization

Limited Resources
Moderate Resources
Enterprise Scale

Qwen-1.8B or Qwen-7BRecommended Method: Q-LoRA

Qwen-1.8B: 5.8GB GPU memory
Qwen-7B: 11.5GB GPU memory

Ideal For:

Single GPU (RTX 3090, 4090, V100)
Domain-specific tasks
Fast iteration cycles
Budget-conscious projects

Limitations:

Q-LoRA adapters cannot be merged
Slightly slower inference than full fine-tuning

4. Mathematical & Scientific Applications

Performance on GSM8K (Math Word Problems):

Model	Accuracy	Recommended For
Qwen-1.8B	32.3%	Basic calculations, educational apps
Qwen-7B	51.7%	General math assistance, tutoring
Qwen-14B	61.3%	Advanced problem solving
Qwen-72B	78.9%	Research, complex mathematical reasoning

For mathematical applications, Qwen-14B and Qwen-72B show significantly better performance. The 72B model approaches GPT-3.5 level accuracy.

5. Multilingual Applications

All Qwen models support multilingual inference with efficient tokenization:

Chinese-English Focus
Extended Language Support

Any Qwen model performs well

C-Eval (Chinese): Qwen-7B scores 63.5 (5-shot)
MMLU (English): Qwen-7B scores 58.2 (5-shot)
Translation WMT22: Qwen-7B achieves 27.5 BLEU

Recommendation: Start with Qwen-7B for balanced bilingual capabilities

6. Long Context Applications

Context Length Capabilities:

Model	Default Context	Extended Context	Best For
Qwen-1.8B	32K	Up to 32K	Long documents, summarization
Qwen-7B	2048 → 32K	Up to 16K+	Balanced long-context tasks
Qwen-14B	8K	Up to 8K	Moderate context needs
Qwen-72B	32K	Up to 32K	Maximum context understanding

Long context requires enabling dynamic NTK interpolation and LogN attention scaling. See perplexity benchmarks in the base models documentation.

Hardware Recommendations

GPU Requirements by Model

Consumer GPUs (RTX 3090, 4090)

24GB VRAMInference:

✅ Qwen-1.8B (all precisions)
✅ Qwen-7B-Int4/Int8
⚠️ Qwen-7B-BF16 (tight fit)
❌ Qwen-14B+ (requires quantization or splitting)

Fine-tuning (Q-LoRA):

✅ Qwen-1.8B (5.8GB)
✅ Qwen-7B (11.5GB)
⚠️ Qwen-14B (18.7GB, may need gradient checkpointing)

Datacenter GPUs (A100 40GB)

40GB VRAMInference:

✅ Qwen-1.8B, Qwen-7B (all precisions)
✅ Qwen-14B-Int4/Int8
✅ Qwen-14B-BF16 (30GB)
❌ Qwen-72B (requires multi-GPU)

Fine-tuning (LoRA):

✅ Qwen-7B (full precision)
✅ Qwen-14B (with careful configuration)

Datacenter GPUs (A100 80GB)

80GB VRAMInference:

✅ All models up to 14B (all precisions)
✅ Qwen-72B-Int4 (48.9GB)
⚠️ Qwen-72B-Int8 (requires 2×GPU)

Fine-tuning:

✅ Qwen-7B (full parameter)
✅ Qwen-14B (LoRA/Q-LoRA)
✅ Qwen-72B (Q-LoRA at 61.4GB)

Multi-GPU Setups

2×A100 80GB or betterInference:

✅ Qwen-72B-BF16 (144GB)
✅ Qwen-72B-Int8 (81GB)
✅ With vLLM: 17.6 tokens/s (BF16)

Fine-tuning:

✅ Qwen-14B (full parameter)
✅ Qwen-72B (LoRA with DeepSpeed ZeRO 3)

Cost-Performance Analysis

Inference Cost Estimation

Assuming A100 GPU pricing and average utilization:

Model	Precision	GPU Cost/hr	Throughput	Cost per 1M tokens
Qwen-7B-Int4	Int4	~$3	50 tok/s	~$17
Qwen-7B-BF16	BF16	~$3	41 tok/s	~$20
Qwen-14B-Int4	Int4	~$3	39 tok/s	~$21
Qwen-72B-Int4	Int4	~$3	11 tok/s	~$76
Qwen-72B-BF16+vLLM	BF16	~$6 (2×GPU)	18 tok/s	~$93

Actual costs vary by cloud provider, region, and negotiated rates. Int4 quantization provides the best cost-performance ratio.

Decision Matrix

By Primary Constraint

Optimize for Quality
Optimize for Speed
Optimize for Cost
Optimize for Balance

Priority: Best possible outputs, regardless of cost

Qwen-72B-Chat (BF16) - Maximum quality
Qwen-14B-Chat (BF16) - Very high quality, more accessible
Qwen-7B-Chat (BF16) - Good quality baseline

Use Cases: Research, premium products, critical applications

Common Scenarios

Scenario 1: Startup Building a Chatbot MVP

Requirements: Fast iteration, low cost, decent quality Recommendation: Qwen-7B-Chat-Int4 Rationale:

Fits in single GPU (8.2GB)
Good performance on benchmarks (MMLU 55.1)
Fast inference (50 tokens/s)
Can fine-tune with Q-LoRA on single GPU
Easy to upgrade to larger model later

Scenario 2: Enterprise Knowledge Management System

Requirements: High accuracy, complex reasoning, domain-specific Recommendation: Qwen-14B-Chat fine-tuned on internal data Rationale:

Strong comprehension (MMLU 64.6)
Sufficient for enterprise deployment
Fine-tuning improves domain adaptation
Reasonable infrastructure cost

Scenario 3: Research in Long-Form Text Generation

Requirements: State-of-the-art quality, long context Recommendation: Qwen-72B-Chat with extended context Rationale:

Best performance across all benchmarks
32K context length support
Comparable to GPT-3.5
Ideal for research and experimentation

Scenario 4: Mobile App with On-Device AI

Requirements: Extremely low latency, offline capability Recommendation: Qwen-1.8B-Chat-Int4 Rationale:

Smallest model (2.9GB)
Fastest inference (71 tokens/s)
Can run on mobile GPUs
Still provides reasonable chat quality

Migration Path

Many projects benefit from starting small and scaling up: Benefits:

Lower initial investment
Faster iteration during development
Clear upgrade path as needs grow
Code remains compatible across models

Final Recommendations

Most Versatile

Qwen-7B-Chat-Int4Best all-around choice for production applications. Balances quality, speed, and cost effectively.

Best Value

Qwen-1.8B-Chat-Int4Lowest cost option that still delivers reasonable performance. Ideal for high-scale deployment.

Highest Quality

Qwen-72B-ChatState-of-the-art results across all benchmarks. Choose when quality is paramount.

Fine-tuning

Qwen-7B (base)Best starting point for custom fine-tuning with Q-LoRA on consumer hardware.

Next Steps

Base Models

Detailed specifications

Chat Models

Chat model capabilities

Quickstart

Start using Qwen

Quantization

Reduce memory usage

Fine-tuning

Customize models

Deployment

Deploy to production

Getting Started

Models

Inference

Quantization

Fine-tuning

Advanced Features

Deployment

Demos

​Model Selection Guide

​Quick Decision Tree

​Model Comparison Matrix

​Selection by Use Case

​1. Production Chatbots & Virtual Assistants

​2. Code Generation & Programming Assistants

For Production Code Tools

For Research & Experimentation

​3. Fine-tuning & Customization

​4. Mathematical & Scientific Applications

​5. Multilingual Applications

​6. Long Context Applications

​Hardware Recommendations

​GPU Requirements by Model

​Cost-Performance Analysis

​Inference Cost Estimation

​Decision Matrix

​By Primary Constraint

​Common Scenarios

​Scenario 1: Startup Building a Chatbot MVP

​Scenario 2: Enterprise Knowledge Management System

​Scenario 3: Research in Long-Form Text Generation

​Scenario 4: Mobile App with On-Device AI

​Migration Path

​Final Recommendations

Most Versatile

Best Value

Highest Quality

Fine-tuning

​Next Steps

Base Models

Chat Models

Quickstart

Quantization

Fine-tuning

Deployment

Build docs developers (and LLMs) love

Model Selection Guide

Quick Decision Tree

Model Comparison Matrix

Selection by Use Case

1. Production Chatbots & Virtual Assistants

2. Code Generation & Programming Assistants

3. Fine-tuning & Customization

4. Mathematical & Scientific Applications

5. Multilingual Applications

6. Long Context Applications

Hardware Recommendations

GPU Requirements by Model

Cost-Performance Analysis

Inference Cost Estimation

Decision Matrix

By Primary Constraint

Common Scenarios

Scenario 1: Startup Building a Chatbot MVP

Scenario 2: Enterprise Knowledge Management System

Scenario 3: Research in Long-Form Text Generation

Scenario 4: Mobile App with On-Device AI

Migration Path

Final Recommendations

Next Steps