作者：杨雨虹历史版本：1 最后编辑：杨雨虹更新时间：2025-11-12 16:08

概述

由于LLM 自身无法直接读取或解释文档的内容，因此需要将用户上传的文档，通过文档提取器节点解析并读取文档文件中的信息，转化文本之后再将内容传给 LLM 以实现对于文件内容的处理。

节点配置

文档提取器可以理解为一个信息处理中心，通过识别并读取输入变量中的文件，提取信息后并转化为 string 类型输出变量，供下游节点调用。

输入变量：文档提取器仅接受file、Array[File]数据结构的变量，且仅能够提取文档类型文件中的信息，例如 TXT、Markdown、PDF、HTML、DOCX 格式文件的内容，无法处理图片、音频、视频等格式文件。
输出变量：固定命名为 text。输出的变量类型取决于输入变量：
- 输入变量为 File，输出变量为 string
- 输入变量为 Array[File]，输出变量为 array[string]

用户上传文档后，文档提取器可以作为 LLM 节点的前置步骤，提取应用的文件信息并传递至下游的 LLM 节点，回答用户关于文件的问题。

步骤如下：