Nó Extrator de Arquivos
O nó Extrator de Arquivos é responsável por processar documentos brutos (como PDFs, planilhas e imagens) e extrair seu conteúdo textual. Ele funciona como um "tradutor", convertendo arquivos binários em texto puro que pode ser lido e analisado pelos Modelos de Linguagem (LLMs).
Configuração
Este nó possui uma configuração simplificada, focada apenas em identificar quais arquivos devem ser processados.

Entrada (Input)
Você precisa selecionar a variável que contém a lista de arquivos. Geralmente, esses arquivos vêm do nó de Entrada.
- Campo: "Entrada".
- O que selecionar: Procure pela variável do tipo
Arquivosdefinida no início do seu fluxo (ex:{{ entrada.documentos_upload }}).
Formatos Suportados
A plataforma suporta extração automática de uma ampla variedade de formatos:
| Categoria | Extensões Suportadas | Observação |
|---|---|---|
| Documentos | .pdf, .docx, .doc, .txt, .rtf | Extração de texto estruturado. |
| Planilhas | .xlsx, .xls, .csv | Converte tabelas em texto legível. |
| Apresentações | .pptx, .ppt | Extrai texto dos slides. |
| Imagens | .png, .jpg, .jpeg, .tiff | Utiliza OCR (Reconhecimento Óptico de Caracteres) para ler textos dentro da imagem. |
| Outros | .html, .xml, .json | - |
Variáveis de Saída
Após o processamento, este nó gera uma saída estruturada pronta para ser enviada para uma LLM.
contents: Uma lista contendo o texto extraído de cada arquivo.
Como usar na LLM?
No nó seguinte (geralmente uma LLM), você pode referenciar o conteúdo extraído assim:
Analise os seguintes documentos e faça um resumo:
{{ extrator_de_arquivos.contents }}
Exemplo de Fluxo
Um caso de uso comum é criar um assistente que analisa currículos ou contratos:
-
Nó de Entrada: Define um campo arquivos do tipo "Arquivos".
-
Extrator de Arquivos: Recebe
{{ entrada.arquivos }}. -
LLM: Recebe
{{ extrator.contents }}e instrução: "Extraia o nome e data de validade destes documentos". -
Saída: Retorna os dados estruturados.