Verifier training

run_verifier_training

from modern_llm.training.train_verifier import run_verifier_training

Train a verifier model to score the correctness of math problem solutions. The verifier is a small encoder-based classifier that predicts whether a solution is correct or incorrect.

Parameters

train_config

TrainingConfig

required

Training configuration with hyperparameters, batch sizes, and logging settings.

verifier_config

VerifierConfig

required

Verifier model architecture configuration specifying embedding dimension, layers, and attention heads.

dataset_config

VerifierDatasetConfig

required

Dataset configuration for verifier training data. Defaults to GSM8K with synthetic negatives.

tokenizer_name

str

default:"gpt2"

HuggingFace tokenizer identifier used to tokenize question-answer pairs.

eval_split

Optional[str]

default:"None"

Optional evaluation split name (e.g., “test”). If provided, runs evaluation during training.

Returns

checkpoint_path

Path

Path to the final verifier checkpoint.

Usage

from pathlib import Path
from modern_llm.config import TrainingConfig
from modern_llm.models.verifier import VerifierConfig
from modern_llm.training.train_verifier import (
    run_verifier_training,
    VerifierDatasetConfig,
)

# Configure verifier architecture
verifier_config = VerifierConfig(
    vocab_size=50257,  # Updated from tokenizer
    d_model=512,
    num_layers=4,
    n_heads=8,
    max_position_embeddings=512,
    dropout=0.1,
)

# Configure training
train_config = TrainingConfig(
    run_name="verifier-gsm8k",
    dataset_name="gsm8k",
    tokenizer_name="gpt2",
    output_dir=Path("experiments/verifier"),
    batch_size=32,
    micro_batch_size=4,
    gradient_accumulation_steps=8,
    learning_rate=1e-4,
    max_steps=3000,
    warmup_steps=100,
    weight_decay=0.01,
    eval_every=300,
    save_every=1000,
    log_every=50,
    mixed_precision="bf16",
)

# Configure dataset
dataset_config = VerifierDatasetConfig(
    dataset_name="gsm8k",
    split="train",
    max_length=512,
    num_examples=7473,  # Full GSM8K train set
    negative_ratio=1.0,  # 1 negative per positive
)

# Train verifier
verifier_ckpt = run_verifier_training(
    train_config=train_config,
    verifier_config=verifier_config,
    dataset_config=dataset_config,
    tokenizer_name="gpt2",
    eval_split="test",
)

print(f"Verifier training complete: {verifier_ckpt}")

VerifierDatasetConfig

from modern_llm.training.train_verifier import VerifierDatasetConfig

Configuration for verifier training data.

Parameters

dataset_name

str

default:"gsm8k"

Name of the math dataset to use for verifier training. Currently supports GSM8K.

split

str

default:"train"

Dataset split to use (train or test).

max_length

int

default:"512"

Maximum sequence length for question + answer pairs. Longer sequences are truncated.

num_examples

Optional[int]

default:"None"

Maximum number of examples to use. If None, uses the entire dataset.

negative_ratio

float

default:"1.0"

Number of negative (incorrect) examples to generate per positive (correct) example. Higher ratios create more balanced datasets but increase training time.

Usage

from modern_llm.training.train_verifier import VerifierDatasetConfig

# Default: balanced positive/negative
dataset_config = VerifierDatasetConfig(
    dataset_name="gsm8k",
    split="train",
    max_length=512,
    negative_ratio=1.0,
)

# More negatives for harder training
dataset_config = VerifierDatasetConfig(
    dataset_name="gsm8k",
    split="train",
    negative_ratio=2.0,  # 2 negatives per positive
)

# Small subset for debugging
dataset_config = VerifierDatasetConfig(
    dataset_name="gsm8k",
    split="train",
    num_examples=100,  # Only 100 examples
)