跳到主要内容

自动补全

✨ 自动补全

Open WebUI 提供 AI 驱动的自动补全 功能,可在你输入提示词时实时给出文本续写建议。它就像聊天输入框里的 “Copilot”,利用你配置的任务模型帮助你更快组织提示词。

工作原理

启用后,Open WebUI 会持续监测你在聊天框中的输入。当你暂停打字时,它会将当前文本发送给一个轻量级 Task Model。该模型会预测接下来最可能出现的词句,并以覆盖在输入框上的“幽灵文本”形式显示。

  • 接受建议:按 Tab(或 Right Arrow 键)接受建议
  • 拒绝 / 忽略:继续输入即可覆盖该建议
信息

性能建议

自动补全高度依赖 任务模型 的响应速度。我们建议使用体积小、速度快、非推理型 的模型,以确保建议可以即时出现。

推荐模型:

  • Llama 3.2(1B 或 3B)
  • Qwen 3(0.6B 或 3B)
  • Gemma 3(1B 或 4B)
  • GPT-5 Nano(针对低延迟优化)

不建议为该功能使用“推理型”模型(如 o1、o3)或较重的 Chain-of-Thought 模型,否则延迟会让自动补全体验变得迟钝。

配置

自动补全功能采用两层控制:全局可用性用户偏好

1. 全局配置(管理员)

管理员可控制服务器上是否开放自动补全功能。

1. 配置自动补全(全局)

管理面板设置: 前往 管理面板 > 设置 > 界面 > 任务模型,切换 自动补全生成

2. 用户配置(个人)

即使全局已启用,单个用户如果觉得干扰,也可以自行关闭。

  • 前往 设置 > 界面
  • 切换 自动补全生成
备注

如果管理员已在全局关闭自动补全,用户将无法在个人设置中重新启用。

性能与故障排查

为什么没有出现建议?

  1. 检查设置:确认它在管理员和用户两侧设置中都已启用
  2. 任务模型:前往 管理面板 > 设置 > 界面,确认已选择 任务模型;如果没有选模型,功能就无法生成预测
  3. 延迟:如果任务模型太大,或运行在较慢硬件上,预测结果可能到得太晚,不具备使用价值;请改用更小的模型
  4. 推理模型:确认你没有使用“推理型”模型(如 o1 或 o3),因为它们的内部思考过程会引入额外延迟,破坏实时自动补全体验

性能影响

自动补全几乎会在你每次暂停输入时向 LLM 发送一次请求(带防抖)。

  • 本地模型:这可能显著消耗宿主机的 GPU / CPU 资源
  • API 提供商:这会产生大量 API 调用(虽然通常 token 数很少)。请留意服务商的 速率限制(每分钟请求数 RPM、每分钟 token 数 TPM),避免被限流
注意

对于运行在有限本地硬件上的多用户实例,我们建议关闭自动补全,以优先保障实际聊天生成的资源。

本内容仅供参考,不构成任何保证、担保或合同承诺。Open WebUI 按“现状”提供。请参阅您的许可协议 以了解适用条款。