Skip to content

Entender Mídia · media_understand

Para que serve

Imagina que o cliente manda uma foto do documento com defeito, um áudio explicando o problema ou um vídeo de uma situação. Em vez de precisar de um atendente humano para ver e entender esse conteúdo, o nó Entender Mídia usa IA para analisar o que foi enviado e transformar isso em texto — um resumo, uma descrição, uma transcrição — que o fluxo pode usar para continuar o atendimento.

Quando usar
  • Transcrever mensagens de áudio enviadas pelo cliente no WhatsApp
  • Analisar fotos de documentos, produtos com defeito ou situações relatadas por imagem
  • Descrever o conteúdo de um vídeo curto enviado pelo cliente
  • Extrair texto ou informações de imagens (OCR estendido com IA)
  • Verificar se uma imagem enviada corresponde ao que foi solicitado

Tipos de mídia suportados

TipoFormatos comunsO que a IA entrega
ImagemPNG, JPG, WEBP, GIFDescrição, texto extraído, análise
ÁudioMP3, OGG, WAV, M4ATranscrição completa do que foi dito
VídeoMP4, MOVDescrição das cenas, transcrição do áudio
DocumentoPDF, DOCXAnálise e resumo do conteúdo

Passo a passo
  1. Certifique-se de que o arquivo de mídia já está disponível no fluxo — geralmente vindo de um nó Esperar Texto que recebeu um arquivo do cliente pelo WhatsApp.
    CAPTURAR: fluxo com nó esperar_texto conectado ao media_understand, destacando que o cliente enviou um arquivo de áudio

    CAPTURAR: fluxo com nó esperar_texto conectado ao media_understand, destacando que o cliente enviou um arquivo de áudio

  2. Arraste o nó **Entender Mídia** para o canvas e conecte ao nó que fornece o arquivo.
  3. Configure a **Fonte da mídia** — referência ao arquivo recebido (ex.: {{esperar_texto.file}}).
    CAPTURAR: painel do media_understand com o campo de fonte preenchido com a referência ao arquivo do nó anterior

    CAPTURAR: painel do media_understand com o campo de fonte preenchido com a referência ao arquivo do nó anterior

  4. Selecione o **Modelo** a usar (modelos com capacidade multimodal são recomendados para imagens e vídeos).
  5. Escreva o **Prompt** — o que você quer que a IA faça com o arquivo. Exemplos: - Para áudio: "Transcreva o que foi dito em português." - Para imagem: "Descreva o que você vê nesta imagem. Se houver texto, transcreva-o." - Para vídeo: "Resuma o conteúdo deste vídeo em 2 parágrafos."
    CAPTURAR: campo de prompt do media_understand preenchido com instrução de transcrição para áudio

    CAPTURAR: campo de prompt do media_understand preenchido com instrução de transcrição para áudio

  6. Salve. O resultado fica em {{media_understand.output}} como texto.

Campos
CampoO que faz
Fonte da mídiaReferência ao arquivo (URL, variável do fluxo)
Tipo de mídiaDetecção automática ou especificação manual
ModeloLLM multimodal que vai processar o arquivo
PromptInstrução para a IA — o que analisar ou extrair

Saídas

VariávelConteúdo
outputTexto gerado pela IA (descrição, transcrição, resumo)
typeTipo de mídia detectado

Exemplo

Cenário: o cliente manda um áudio pelo WhatsApp descrevendo seu problema jurídico.

Configuração:

  • Fonte: {{esperar_texto.file}}
  • Prompt: "Transcreva o que foi dito em português, mantendo o texto original sem corrigir erros de fala."

Uso da saída: A transcrição em {{media_understand.output}} é passada para o Classificador de Perguntas, que identifica o assunto e roteia o atendimento para o departamento correto.

CAPTURAR: fluxo completo: esperar_texto (áudio) → media_understand (transcrição) → question_classifier (classificação) → caminho correto

CAPTURAR: fluxo completo: esperar_texto (áudio) → media_understand (transcrição) → question_classifier (classificação) → caminho correto

Dica

Para áudios em português com sotaque ou ruído, especifique no prompt o idioma e peça ao modelo para interpretar mesmo que o áudio não esteja perfeito: "Transcreva em português. Se alguma palavra estiver inaudível, indique com [inaudível]."