Voice (语音)
OpenClaw 支持语音输入和语音输出(TTS),通过节点(iOS/Android/macOS)或网关集成。概述
- 语音输入: 麦克风捕获 → 音频转录 → 代理处理文本
- 语音输出: 代理回复 → TTS 合成 → 音频播放
- 语音唤醒: 热词检测 → 触发代理回合
语音输入 (转录)
支持的提供商
OpenClaw 支持多种音频转录提供商:- OpenAI Whisper API (推荐)
- Google Cloud Speech-to-Text
- AssemblyAI
- 本地 Whisper (通过 whisper.cpp)
配置转录
在~/.openclaw/openclaw.json 中:
通过频道发送语音
大多数频道(WhatsApp、Telegram、Discord)自动转录语音消息:- 发送语音消息到频道
- 网关接收音频文件
- 自动转录为文本
- 代理处理转录文本
- 回复发送回频道
语音输出 (TTS)
支持的 TTS 提供商
- ElevenLabs (高质量,多语言)
- OpenAI TTS (GPT-4 级别语音)
- Google Cloud Text-to-Speech
- System TTS (平台原生 TTS)
配置 TTS
ElevenLabs 设置
- 获取 API 密钥: ElevenLabs
- 设置环境变量:
- 配置语音 ID(可选):
OpenAI TTS 设置
语音唤醒
语音唤醒允许你通过说热词来触发代理。macOS 语音唤醒
macOS 应用支持语音唤醒:- 打开 macOS OpenClaw 应用
- 启用语音唤醒(设置 → 语音唤醒)
- 配置热词(默认: “Hey OpenClaw”)
- 说出热词后说出你的请求
iOS/Android 语音唤醒
iOS 和 Android 应用也支持语音唤醒(实验性):- 打开应用设置
- 启用语音唤醒
- 授予麦克风权限
- 保持应用在前台(后台检测不可靠)
对话模式
对话模式支持连续的语音交互:- 代理说话(TTS)
- 自动监听你的回复
- 转录并处理
- 循环继续
启用对话模式
在节点应用(iOS/Android/macOS)中:- 打开语音设置
- 启用对话模式
- 开始对话
通过 CLI 使用语音
发送语音消息
播放 TTS 音频
故障排查
转录失败
- 检查音频提供商凭据(API 密钥)
- 确认音频文件格式受支持
- 检查网关日志:
openclaw logs --follow
TTS 无输出
- 验证 TTS 提供商配置
- 检查 API 密钥是否有效
- 确认音频设备可用(节点)
语音唤醒未响应
- 确认麦克风权限已授予
- 调整唤醒词阈值
- 检查应用是否在前台运行
- 尝试更清晰地说出热词
音频质量差
- 使用更高质量的 TTS 模型(例如
tts-1-hd) - 选择不同的语音
- 检查网络连接(流式 TTS)