配置

Open WebUI 同时支持本地、浏览器内置和远程语音转文本。

STT 配置示意图

STT 提供商示意图

云端 / 远程语音转文本提供商

当前支持以下语音转文本提供商：

服务	是否需要 API 密钥	指南
Local Whisper（默认）	❌	内置支持，参见环境变量
OpenAI（Whisper API）	✅	OpenAI STT 指南
Mistral（Voxtral）	✅	Mistral Voxtral 指南
Deepgram	✅	—
Azure	✅	—

Web API 则通过浏览器内置语音识别提供 STT（无需 API 密钥，在用户设置中配置）。

配置你的 STT 提供商

要配置语音转文本提供商：

进入管理面板
选择音频
填入 API 密钥，并从下拉框选择模型

STT 配置页面截图

限制可接受的音频扩展名

Open WebUI 在 管理员设置 → 音频 → STT 下提供了 Allowed Extensions 列表，用于控制上传端点接受哪些音频文件扩展名（默认：mp3,wav,m4a,webm,ogg,flac,mp4,mpga,mpeg）。带有其他扩展名的上传会在转写运行之前被以 400 Invalid audio file extension 拒绝。

这是在 MIME 类型检查（AUDIO_STT_SUPPORTED_CONTENT_TYPES）之外服务器端再额外做的校验，因此收紧这个列表是用很低的成本就能为 STT 端点抵御意外文件类型的方式。可在启动时通过相应的 AUDIO_STT_ALLOWED_EXTENSIONS 环境变量预设列表，或在 UI 中清空它以完全跳过扩展名检查。

用户级设置

除了在管理员面板中配置的实例级设置外，还有一些用户级设置可以提供额外功能。

STT 设置： 包含与语音转文本相关的设置。
语音转文本引擎： 决定使用哪种语音识别引擎（默认值或 Web API）。

用户级音频设置截图

使用 STT

语音转文本是一种高效“书写”提示词的方式；无论桌面端还是移动端，都有不错的使用体验。

要使用 STT，只需点击麦克风图标：

点击麦克风开始 STT 的示意图

出现实时音频波形后，说明语音已被成功采集：

正在进行中的 STT 录音波形截图

STT 录音模式操作

开始录音后，你可以：

点击勾选图标保存录音（如果启用了完成后自动发送，就会自动发送；否则你也可以手动发送）
如果想中止录音（例如想重新开始），可以点击 x 图标退出录音界面

结束 STT 录音的示意图

故障排查

常见问题

“int8 compute type not supported” 错误

如果你看到类似 Error transcribing chunk: Requested int8 compute type, but the target device or backend do not support efficient int8 computation 的报错，通常表示你的 GPU 不支持所请求的 int8 计算。

解决方案：

升级到最新版本 —— 近期更新已改进 compute type 的持久化配置，以解决已知 CUDA 兼容性问题。
改用标准 Docker 镜像 而不是 :cuda 镜像 —— 较旧 GPU（Maxwell 架构，约 2014-2016 年）可能不受现代 CUDA 加速库支持。

使用 WHISPER_COMPUTE_TYPE 环境变量调整计算类型：

environment:
  - WHISPER_COMPUTE_TYPE=float16  # 或 float32

提示

对于 Whisper 这类较小模型，CPU 模式通常也能提供相近的体验，同时避免 GPU 兼容性问题。:cuda 镜像主要加速的是 RAG embedding，对大多数用户的 STT 速度提升并不明显。

麦克风无法工作

检查浏览器权限 —— 确保浏览器已获得麦克风权限
使用 HTTPS —— 某些浏览器要求安全连接才允许麦克风访问
尝试其他浏览器 —— Chrome 通常对 Web Audio API 支持最好

识别准确率较差

使用 WHISPER_LANGUAGE=en 显式设置语言（使用 ISO 639-1 代码）
切换多语言支持 —— 如果需要支持英语以外的语言，可设置 WHISPER_MULTILINGUAL=true。关闭时（默认值）会使用仅英语版本模型，以获得更好的英文任务性能。
使用更大的 Whisper 模型 —— 可选：tiny、base、small、medium、large
模型越大通常越准确，但速度也越慢

更多排查信息请参阅音频故障排查指南。

本内容仅供参考，不构成任何保证、担保或合同承诺。Open WebUI 按“现状”提供。请参阅您的许可协议以了解适用条款。

云端 / 远程语音转文本提供商​

配置你的 STT 提供商​

限制可接受的音频扩展名​

用户级设置​

使用 STT​

STT 录音模式操作​

故障排查​

常见问题​

“int8 compute type not supported” 错误​

麦克风无法工作​

识别准确率较差​