音频故障排查指南
本页汇总了 Open WebUI 中 Speech-to-Text(STT)与 Text-to-Speech(TTS)的常见问题及解决方法。
在哪里找到音频设置
管理员设置(全局)
管理员可以配置全局默认音频设置:
- 点击你的 头像图标(左下角)
- 选择 管理面板
- 点击顶部导航中的 设置
- 选择 音频 标签
你可以在这里配置:
- 语音转文本引擎 —— 在本地 Whisper、OpenAI、Azure、Deepgram、Mistral 之间选择
- Whisper 模型 —— 为本地 STT 选择模型大小(tiny、base、small、medium、large)
- 文本转语音引擎 —— 在 OpenAI-compatible、Mistral、ElevenLabs、Azure、本地 Transformers 或禁用后端 TTS(仅浏览器)之间选择
- TTS 音色 —— 选择默认音色
- API 密钥与 Base URL —— 配置外部服务连接
用户设置(每用户)
每个用户都可以单独调整自己的音频体验:
- 点击你的 头像图标(左下角)
- 选择 设置
- 点击 音频 标签
用户级选项包括:
- STT 引擎覆盖 —— 选择 “Web API ” 使用浏览器语音识别
- STT 语言 —— 设置偏好的转录语言
- TTS 引擎 —— 选择 “Browser Kokoro” 以使用浏览器本地 TTS
- TTS 音色 —— 选择可用音色
- 自动播放 —— 自动播放 AI 回答
- 播放速度 —— 调整播放速度
- 对话模式 —— 启用免手持语音交互
提示
用户设置会覆盖管理员默认值。如果你遇到问题,请同时检查这两个位置,确认设置之间没有冲突。
快速配置指南
最快方案:OpenAI(付费)
如果你有 OpenAI API 密钥,这是最简单的配置方式:
在 管理面板 → 设置 → 音频 中:
- STT 引擎:
OpenAI| 模型:whisper-1 - TTS 引擎:
OpenAI| 模型:tts-1| 音色:alloy - 在两个部分都填入你的 OpenAI API 密钥
或通过环境变量:
environment:
- AUDIO_STT_ENGINE=openai
- AUDIO_STT_OPENAI_API_KEY=sk-...
- AUDIO_TTS_ENGINE=openai
- AUDIO_TTS_OPENAI_API_KEY=sk-...
- AUDIO_TTS_MODEL=tts-1
- AUDIO_TTS_VOICE=alloy→ 完整文档见:Speech-to-Text | Text-to-Speech
快速方案:Mistral STT + TTS(付费)
如果你更喜欢 Mistral 的音频栈:
在 管理面板 → 设置 → 音频 中:
- STT 引擎:
MistralAI| 模型:voxtral-mini-latest(或留空) - TTS 引擎:
MistralAI| 模型:mistral-tts-latest(或留空) | 音色: 从列表中选择 - 在两个部分填入你的 Mistral API 密钥
或通过环境变量:
environment:
- AUDIO_STT_ENGINE=mistral
- AUDIO_STT_MISTRAL_API_KEY=...
- AUDIO_TTS_ENGINE=mistral
- AUDIO_TTS_MISTRAL_API_KEY=...
- AUDIO_TTS_MODEL=mistral-tts-latest→ 相关文档:Mistral Voxtral STT | Mistral TTS
免费方案:本地 Whisper + Edge TTS
如果你想要完全免费的配置:
STT: 将引擎留空(使用后端内置 Whisper)
environment:
- WHISPER_MODEL=base # 可选:tiny, base, small, medium, largeTTS: 使用 OpenAI Edge TTS(免费的 Microsoft 音色)
services:
openai-edge-tts:
image: travisvn/openai-edge-tts:latest
ports:
- "5050:5050"
open-webui:
environment:
- AUDIO_TTS_ENGINE=openai
- AUDIO_TTS_OPENAI_API_BASE_URL=http://openai-edge-tts:5050/v1
- AUDIO_TTS_OPENAI_API_KEY=not-needed→ 完整指南:OpenAI Edge TTS