Cerebras - Free LLM API Resources

Learn more about Mintlify

Enter your email to receive updates about new features and product releases.

Overview
Rate Limits
Available Models
API Usage
Getting Started
Key Features
Performance
Additional Resources

Cerebras provides free API access to various open-source models optimized for their specialized AI hardware.

Overview

Cerebras offers free access to multiple open-source models running on their custom AI accelerators, providing extremely fast inference speeds.

Rate Limits

Each model has specific rate limits:

Model Name	Requests/Min	Tokens/Min	Requests/Hour	Tokens/Hour	Requests/Day	Tokens/Day
gpt-oss-120b	30	60,000	900	1,000,000	14,400	1,000,000
Qwen 3 235B A22B Instruct	30	60,000	900	1,000,000	14,400	1,000,000
Llama 3.3 70B	30	64,000	900	1,000,000	14,400	1,000,000
Qwen 3 32B	30	64,000	900	1,000,000	14,400	1,000,000
Llama 3.1 8B	30	60,000	900	1,000,000	14,400	1,000,000
Z.ai GLM-4.6	10	60,000	100	100,000	100	1,000,000

Available Models

gpt-oss-120b

120B parameter open-source model

Qwen 3 235B A22B

Qwen’s largest instruction-tuned model

Llama 3.3 70B

Meta’s latest 70B model

Qwen 3 32B

Efficient 32B parameter model

Llama 3.1 8B

Fast 8B parameter model

Z.ai GLM-4.6

GLM-4 generation model

API Usage

import openai

client = openai.OpenAI(
    base_url="https://api.cerebras.ai/v1",
    api_key="YOUR_CEREBRAS_API_KEY"
)

response = client.chat.completions.create(
    model="llama3.3-70b",
    messages=[
        {"role": "user", "content": "Hello, how are you?"}
    ]
)

print(response.choices[0].message.content)

Getting Started

Create Account

Generate API Key

Create an API key from your dashboard

Start Building

Use the OpenAI-compatible API for inference

Key Features

Ultra-fast inference powered by Cerebras hardware
OpenAI-compatible API
Generous rate limits on free tier
Access to large models (up to 235B parameters)
High token throughput

Performance

Fast Inference

Specialized hardware for ultra-fast generation

Large Models

Support for models up to 235B parameters

High Throughput

Up to 64,000 tokens per minute

Consistent Speed

Low latency across all model sizes

Additional Resources

Cerebras Cloud

Access the platform

Documentation

API documentation

Vercel AI Gateway Groq

⌘I

Build docs developers (and LLMs) love

Get started for free Talk to us

Always Free

​Overview

​Rate Limits

​Available Models

gpt-oss-120b

Qwen 3 235B A22B

Llama 3.3 70B

Qwen 3 32B

Llama 3.1 8B

Z.ai GLM-4.6

​API Usage

​Getting Started

​Key Features

​Performance

Fast Inference

Large Models

High Throughput

Consistent Speed

​Additional Resources

Cerebras Cloud

Documentation

Build docs developers (and LLMs) love

Overview

Rate Limits

Available Models

API Usage

Getting Started

Key Features

Performance

Additional Resources