Pular para o conteúdo principal

Nó Extrator de Arquivos

O nó Extrator de Arquivos é responsável por processar documentos brutos (como PDFs, planilhas e imagens) e extrair seu conteúdo textual. Ele funciona como um "tradutor", convertendo arquivos binários em texto puro que pode ser lido e analisado pelos Modelos de Linguagem (LLMs).

Nó Extrator de Arquivos

Configuração

Este nó possui uma configuração simplificada, focada apenas em identificar quais arquivos devem ser processados.

Painel de Configuração Extrator

Entrada (Input)

Você precisa selecionar a variável que contém a lista de arquivos. Geralmente, esses arquivos vêm do nó de Entrada.

  • Campo: "Entrada".
  • O que selecionar: Procure pela variável do tipo Arquivos definida no início do seu fluxo (ex: {{ entrada.documentos_upload }}).

Formatos Suportados

A plataforma suporta extração automática de uma ampla variedade de formatos:

CategoriaExtensões SuportadasObservação
Documentos.pdf, .docx, .doc, .txt, .rtfExtração de texto estruturado.
Planilhas.xlsx, .xls, .csvConverte tabelas em texto legível.
Apresentações.pptx, .pptExtrai texto dos slides.
Imagens.png, .jpg, .jpeg, .tiffUtiliza OCR (Reconhecimento Óptico de Caracteres) para ler textos dentro da imagem.
Outros.html, .xml, .json-

Variáveis de Saída

Após o processamento, este nó gera uma saída estruturada pronta para ser enviada para uma LLM.

  • contents: Uma lista contendo o texto extraído de cada arquivo.

Como usar na LLM?

No nó seguinte (geralmente uma LLM), você pode referenciar o conteúdo extraído assim:

Analise os seguintes documentos e faça um resumo:
{{ extrator_de_arquivos.contents }}

Exemplo de Fluxo

Um caso de uso comum é criar um assistente que analisa currículos ou contratos:

  • Nó de Entrada: Define um campo arquivos do tipo "Arquivos".

  • Extrator de Arquivos: Recebe {{ entrada.arquivos }}.

  • LLM: Recebe {{ extrator.contents }} e instrução: "Extraia o nome e data de validade destes documentos".

  • Saída: Retorna os dados estruturados.