跳到主要内容

文档提取

Open WebUI 中的文档提取

Open WebUI 提供强大的文档提取能力,使你可以在 RAG(Retrieval Augmented Generation)工作流中处理并分析多种类型的文档。文档提取是把非结构化文档内容转换为结构化数据的关键步骤,从而让语言模型更有效地使用这些内容。

什么是文档提取?

文档提取指的是自动识别并提取各种文件格式中的文本与数据的过程,其中包括:

  • PDF(包括文本型 PDF 与扫描版 PDF)
  • 含文字的图片
  • 手写文档
  • 以及更多格式

通过恰当的文档提取,Open WebUI 可以帮助你:

  • 将基于图像的文档转换为可搜索文本
  • 尽量保留文档结构与版面信息
  • 以结构化格式提取数据,供后续处理
  • 支持多语言内容识别
临时聊天中的隐私

临时聊天 模式下,文档提取会仅在浏览器中执行,以防止数据在后端被存储或处理。由于这一严格隐私策略,某些依赖后端解析器的复杂文件格式(例如部分 DOCX 文件)可能无法被正确处理。

可用提取方式

Open WebUI 支持多种文档提取引擎,以适配不同需求与文档类型。每种提取方式都有各自优势,适合不同场景。

你可以查阅各个提取方式的专门文档,了解如何配置并在 Open WebUI 实例中有效使用它们。

本内容仅供参考,不构成任何保证、担保或合同承诺。Open WebUI 按“现状”提供。请参阅您的许可协议 以了解适用条款。