作者:杨雨虹  历史版本:1  最后编辑:杨雨虹  更新时间:2025-06-04 13:50

概述

由于LLM 自身无法直接读取或解释文档的内容,因此需要将用户上传的文档,通过文档提取器节点解析并读取文档文件中的信息,转化文本之后再将内容传给 LLM 以实现对于文件内容的处理。

节点配置

文档提取器可以理解为一个信息处理中心,通过识别并读取输入变量中的文件,提取信息后并转化为 string 类型输出变量,供下游节点调用。

  • 输入变量:文档提取器仅接受file、Array[File]数据结构的变量,且仅能够提取文档类型文件中的信息,例如 TXT、Markdown、PDF、HTML、DOCX 格式文件的内容,无法处理图片、音频、视频等格式文件。

  • 输出变量:固定命名为 text。输出的变量类型取决于输入变量:

    • 输入变量为 File,输出变量为 string
    • 输入变量为 Array[File],输出变量为 array[string]

示例说明

用户上传文档后,文档提取器可以作为 LLM 节点的前置步骤,提取应用的文件信息并传递至下游的 LLM 节点,回答用户关于文件的问题。

步骤如下:

  1. 在应用功能中开启文件上传功能(注意默认为图片,需要手动设置为文档)

  2. 文档提取器节点,选中文件变量

  3. LLM节点,通过引入文档提取器节点的输出变量,从而读取文件内容

  4. 效果预览