Audio Interfaces

Overview

Audio interfaces provide an abstraction for handling audio input and output in conversational AI sessions. ElevenLabs provides default implementations, but you can also create custom interfaces.

DefaultAudioInterface

Default implementation using PyAudio for synchronous audio I/O.

Requirements

pip install pyaudio

Constructor

DefaultAudioInterface()

Creates a default audio interface that uses PyAudio for audio input and output. Raises: ImportError if PyAudio is not installed.

Configuration

INPUT_FRAMES_PER_BUFFER = 4000   # 250ms @ 16kHz
OUTPUT_FRAMES_PER_BUFFER = 1000  # 62.5ms @ 16kHz

Audio streams use 16-bit PCM mono format at 16kHz sample rate.

Methods

start

audio_interface.start(input_callback: Callable[[bytes], None])

Starts the audio interface. Called once before the conversation starts.

input_callback

Callable[[bytes], None]

required

Callback function that will be called regularly with input audio chunks from the user. Audio is in 16-bit PCM mono format at 16kHz. Recommended chunk size is 4000 samples (250 milliseconds).

stop

audio_interface.stop()

Stops the audio interface. Called once after the conversation ends. Cleans up resources and stops audio streams.

output

audio_interface.output(audio: bytes)

Output audio to the user.

audio

bytes

required

Audio data in 16-bit PCM mono format at 16kHz. This method returns quickly and does not block.

interrupt

audio_interface.interrupt()

Interruption signal to stop audio output. Called when the user interrupts the agent, and all previously buffered audio output should be stopped.

Example

from elevenlabs import ElevenLabs
from elevenlabs.conversational_ai import Conversation, DefaultAudioInterface

client = ElevenLabs(api_key="your-api-key")

# Use default audio interface
audio_interface = DefaultAudioInterface()

conversation = Conversation(
    client=client,
    agent_id="your-agent-id",
    requires_auth=True,
    audio_interface=audio_interface,
)

conversation.start_session()

AsyncDefaultAudioInterface

Default implementation using PyAudio for asynchronous audio I/O.

Requirements

pip install pyaudio

Constructor

AsyncDefaultAudioInterface()

Creates a default async audio interface that uses PyAudio for audio input and output. Raises: ImportError if PyAudio is not installed.

Configuration

INPUT_FRAMES_PER_BUFFER = 4000   # 250ms @ 16kHz
OUTPUT_FRAMES_PER_BUFFER = 1000  # 62.5ms @ 16kHz

Methods

All methods are async and should be awaited.

start

await audio_interface.start(input_callback: Callable[[bytes], Awaitable[None]])

Starts the audio interface.

input_callback

Callable[[bytes], Awaitable[None]]

required

Async callback function that will be called regularly with input audio chunks from the user. Audio is in 16-bit PCM mono format at 16kHz.

stop

await audio_interface.stop()

Stops the audio interface and cleans up resources.

output

await audio_interface.output(audio: bytes)

Output audio to the user.

audio

bytes

required

Audio data in 16-bit PCM mono format at 16kHz.

interrupt

await audio_interface.interrupt()

Interruption signal to stop audio output.

Example

import asyncio
from elevenlabs import AsyncElevenLabs
from elevenlabs.conversational_ai import AsyncConversation, AsyncDefaultAudioInterface

async def main():
    client = AsyncElevenLabs(api_key="your-api-key")
    
    audio_interface = AsyncDefaultAudioInterface()
    
    conversation = AsyncConversation(
        client=client,
        agent_id="your-agent-id",
        requires_auth=True,
        audio_interface=audio_interface,
    )
    
    await conversation.start_session()
    await asyncio.sleep(30)
    await conversation.end_session()

asyncio.run(main())

Custom Audio Interfaces

You can create custom audio interfaces by implementing the AudioInterface or AsyncAudioInterface abstract base classes.