自动补全

✨ 自动补全

Open WebUI 提供 AI 驱动的自动补全 功能，可在你输入提示词时实时给出文本续写建议。它就像聊天输入框里的 “Copilot”，利用你配置的任务模型帮助你更快组织提示词。

工作原理

启用后，Open WebUI 会持续监测你在聊天框中的输入。当你暂停打字时，它会将当前文本发送给一个轻量级 Task Model。该模型会预测接下来最可能出现的词句，并以覆盖在输入框上的“幽灵文本”形式显示。

接受建议：按 Tab（或 Right Arrow 键）接受建议
拒绝 / 忽略：继续输入即可覆盖该建议

信息

性能建议

自动补全高度依赖 任务模型 的响应速度。我们建议使用体积小、速度快、非推理型 的模型，以确保建议可以即时出现。

推荐模型：

Llama 3.2（1B 或 3B）
Qwen 3（0.6B 或 3B）
Gemma 3（1B 或 4B）
GPT-5 Nano（针对低延迟优化）

不建议为该功能使用“推理型”模型（如 o1、o3）或较重的 Chain-of-Thought 模型，否则延迟会让自动补全体验变得迟钝。

配置

自动补全功能采用两层控制：全局可用性 与 用户偏好。

1. 全局配置（管理员）

管理员可控制服务器上是否开放自动补全功能。

1. 配置自动补全（全局）

管理面板设置： 前往 管理面板 > 设置 > 界面 > 任务模型，切换 自动补全生成。

2. 用户配置（个人）

即使全局已启用，单个用户如果觉得干扰，也可以自行关闭。

前往 设置 > 界面
切换 自动补全生成

备注

如果管理员已在全局关闭自动补全，用户将无法在个人设置中重新启用。

性能与故障排查

为什么没有出现建议？

检查设置：确认它在管理员和用户两侧设置中都已启用
任务模型：前往 管理面板 > 设置 > 界面，确认已选择 任务模型；如果没有选模型，功能就无法生成预测
延迟：如果任务模型太大，或运行在较慢硬件上，预测结果可能到得太晚，不具备使用价值；请改用更小的模型
推理模型：确认你没有使用“推理型”模型（如 o1 或 o3），因为它们的内部思考过程会引入额外延迟，破坏实时自动补全体验

性能影响

自动补全几乎会在你每次暂停输入时向 LLM 发送一次请求（带防抖）。

本地模型：这可能显著消耗宿主机的 GPU / CPU 资源
API 提供商：这会产生大量 API 调用（虽然通常 token 数很少）。请留意服务商的 速率限制（每分钟请求数 RPM、每分钟 token 数 TPM），避免被限流

注意

对于运行在有限本地硬件上的多用户实例，我们建议关闭自动补全，以优先保障实际聊天生成的资源。

本内容仅供参考，不构成任何保证、担保或合同承诺。Open WebUI 按“现状”提供。请参阅您的许可协议以了解适用条款。

✨ 自动补全​

工作原理​

配置​

1. 全局配置（管理员）​

1. 配置自动补全（全局）​

2. 用户配置（个人）​

性能与故障排查​

为什么没有出现建议？​

性能影响​