Pular para o conteúdo
Bruno Fraga
AULÃO #027··18 min

Como Analisar Metadados em Massa: Do ExifTool ao FOCA em Investigações Digitais

Capítulos

7 seções
Neste artigo

O que você vai aprender neste aulão

Analisar metadados em massa é a técnica que separa o investigador digital amador do profissional. Neste aulão eu demonstrei ao vivo, passo a passo, como extrair informações ocultas de milhares de arquivos de uma vez — nomes de usuário, localizações GPS, caminhos de diretórios internos e versões de software que seu alvo nem sabe que está expondo.

Eu peguei um site governamental com 28 mil PDFs públicos e mostrei que basta um único arquivo com metadado vazado para abrir uma investigação. E encontramos. Com poucos arquivos baixados manualmente, já apareceram dois nomes completos de pessoas, caminhos de pastas internas do servidor e até o modelo exato de uma câmera Nikon usada para tirar uma foto oficial.

Você vai sair deste artigo sabendo usar o ExifTool para ler metadados de pastas inteiras, o wget para baixar arquivos sem alterar metadados, o Metagoofil para automatizar a coleta via Google, o HTTrack para clonar sites completos e o FOCA para quem quer tudo numa interface gráfica. Tudo baseado em demonstração ao vivo, com erros reais e soluções na hora.

Por que metadados são um problema de privacidade (e uma arma para investigação)

Metadados são informações embutidas automaticamente em arquivos digitais — data de criação, autor, software usado, coordenadas GPS, nome do computador, versão do sistema operacional. A maioria das pessoas nem sabe que essas informações existem dentro dos seus PDFs, fotos e documentos.

E aqui mora o perigo: isso é um problema de duas faces. Para quem quer privacidade, é um pesadelo silencioso. Para quem investiga, é ouro.

Um ex-diretor da NSA já afirmou publicamente: "A gente mata com base em metadados." Pessoas na rede Tor foram identificadas e presas por causa de metadados nos arquivos que compartilharam. Eu já resolvi casos inteiros lendo metadados de documentos que o alvo nem imaginava que estavam expostos. E Criminosos na dark web foram presos exatamente por esse descuido. Mas quando publiquei um vídeo sobre isso no YouTube, dezenas de comentários reclamaram: "Não funciona", "as redes sociais tiram os metadados", "testei com uma foto e não tinha nada."

E o erro dessas pessoas é simples: analisar um arquivo só.

"Você não quer que todos os arquivos tenham metadados expostos. Você quer um só. Você quer um vazamento, um arquivo que expõe."

É exatamente isso. Se eu mostrei anteriormente no Aulão #10 — Descobrindo Segredos Ocultos: A Arte de Investigar Metadados como ler metadados de um arquivo individual, agora eu vou te ensinar a ler 28 mil de uma vez.

Como usar Google Hacking para encontrar arquivos com metadados expostos

Google Hacking é a técnica de usar operadores avançados de busca para localizar arquivos específicos dentro de um domínio. Com dois operadores simples — site: e filetype: — você consegue mapear todos os documentos públicos de qualquer organização.

E na prática, eu demonstrei ao vivo assim: digitei site:gov.br prefeitura filetype:pdf e o Google retornou 28 mil resultados. Vinte e oito mil arquivos PDF públicos de um único site governamental. Cada um deles potencialmente vazando o nome de quem criou o documento, qual software usou, em que computador, em qual pasta salvou.

E não para em PDF. Você pode filtrar por filetype:xls para planilhas, filetype:docx para documentos Word, filetype:pptx para apresentações. Se eu já mostrei em detalhes como funcionam esses operadores no Aulão #8 — 7 Buscas Perigosas que Revelam Informações Sensíveis no Google, aqui a pergunta é diferente: como analisar tudo isso em massa?

A resposta começa com o download. Mas por onde começar? Pelo detalhe que a maioria ignora.

Como baixar arquivos sem alterar metadados usando wget

O wget preserva a integridade dos metadados originais do arquivo durante o download. Quando você faz download pelo browser, especialmente no Windows, o sistema pode alterar metadados como data de acesso e data de modificação. Isso compromete a análise forense.

Para instalar o wget no Windows, o processo é direto: baixe o executável do site oficial, copie para a pasta C:\Windows\System32 e pronto. No Linux e macOS já vem instalado por padrão.

O uso básico é simples:

wget URL-DO-ARQUIVO

No meu caso: wget seguido da URL copiada direto do Google.

Mas o poder real aparece quando você combina wget com uma lista de URLs. Durante o aulão, eu usei o Metagoofil para coletar 40 URLs de PDFs de um site governamental. A ferramenta listou tudo, mas não baixou automaticamente (falhas acontecem ao vivo — faz parte). E aí entrou o wget com o parâmetro -i:

wget -i lista.txt

Esse comando lê cada URL do arquivo lista.txt e baixa todos os arquivos sequencialmente. Criei o arquivo texto com as URLs coletadas, executei o comando e em minutos tinha dezenas de PDFs prontos para análise. Sem browser, sem clique manual, sem alteração de metadados.

Eu usei o ChatGPT ao vivo para descobrir esse parâmetro do wget quando o Metagoofil falhou. Isso não é vergonha — é método. Quando uma ferramenta falha parcialmente, você combina com outra e resolve. Investigação digital é composição de ferramentas. E Quanto mais ferramentas você domina, mais rápido resolve.

Se você ainda não tem essa base de linha de comando, recomendo começar pelo Aulão #25 — Programação do Zero para Investigação Digital, onde mostrei como automatizar tarefas com Python.

Como usar ExifTool para ler metadados em massa no Linux e Windows

O ExifTool é a ferramenta mais completa para leitura de metadados — suporta mais de 400 formatos de arquivo, roda em Windows, Linux e macOS, e é totalmente gratuita. Para ler metadados de um único arquivo, basta arrastar para o executável ou digitar no terminal.

Mas a mágica está na leitura em massa.

Ler todos os arquivos de uma pasta

exiftool *

E esse asterisco faz o ExifTool processar cada arquivo no diretório atual. Se a pasta tem 20 mil arquivos, ele lê os 20 mil. Simples assim.

Leitura recursiva em subdiretórios

exiftool -r /caminho/da/pasta/

O parâmetro -r faz a varredura entrar em todas as subpastas. Eu demonstrei ao vivo: executei exiftool -r no diretório raiz de um site clonado e ele vasculhou cada imagem, cada PDF, cada documento em todas as pastas e subpastas.

Filtrar campos específicos

exiftool -create_date arquivo.pdf

Ao invés de exibir todos os metadados, você puxa só a data de criação. Para um advogado validando a autenticidade de uma prova digital, isso é suficiente. E funciona com qualquer campo: -author, -GPS*, -software, -creator.

Combinação com grep para análise em massa

Aqui é onde fica poderoso de verdade:

exiftool * | grep -i "author"

Executei esse comando na pasta com os arquivos que baixei do site de leilão. Resultado: encontrei Guilherme Gregório da Silva e Maria Helena como autores de documentos. Com apenas 5 arquivos baixados. Dois nomes completos de pessoas que criaram documentos naquele site — sem nenhuma ferramenta sofisticada, só ExifTool e grep. E isso com um site que convertia imagens para WebP, supostamente "protegido".

Outros filtros que usei ao vivo:

exiftool * | grep -i "creator"     # quem criou o arquivo
exiftool * | grep -i "GPS"         # coordenadas geográficas
exiftool * | grep -i "email"       # endereços de e-mail
exiftool * | grep -i "user"        # nomes de usuário
exiftool -r * | grep -i "path"     # caminhos de diretórios internos

E com grep --color você destaca visualmente os resultados no terminal, tornando a identificação instantânea.

Varrer um computador inteiro

exiftool -r / | grep -i "GPS"

Eu sugeri isso ao vivo: execute no seu próprio computador ou Android e descubra se alguma foto sua está vazando coordenadas GPS. O resultado pode surpreender. E Se você acha que seu celular está limpo, teste antes de afirmar.

Como coletar arquivos de um domínio automaticamente com Metagoofil

O Metagoofil automatiza a busca no Google por arquivos de um domínio específico e coleta seus metadados. Você informa o domínio-alvo e os tipos de arquivo, e ele faz o trabalho pesado.

A instalação é por git clone:

git clone REPO-DO-METAGOOFIL
cd metagoofil
pip install -r requirements.txt

O repositório oficial está no GitHub do opsdisk.

E o uso básico:

python metagoofil.py -d dominio-alvo.com -t pdf -l 40 -n 40 -o /pasta/alvo/

Onde -d é o domínio, -t é o tipo de arquivo, -l é o limite de resultados da busca, -n é o máximo de downloads e -o é o diretório de saída.

No aulão eu executei contra um site gov.br e ele encontrou dezenas de PDFs. Teve um problema: a ferramenta listou as URLs mas não completou o download automaticamente. Isso acontece — versões mudam, dependências quebram, servidores bloqueiam. Mas as URLs foram coletadas, e com o wget -i lista.txt que mostrei antes, resolvi em segundos.

O Metagoofil vem instalado por padrão no Kali Linux. Se você usa outra distribuição, a instalação via git funciona sem problemas.

Uma observação: ferramentas que fazem muitas requisições ao Google podem ter seu IP bloqueado temporariamente. Durante o aulão, meu IP já estava com timeout por ter feito um dump grande antes da aula. Coloque um delay entre requisições (parâmetro -e) para evitar isso.

Como clonar um site inteiro com HTTrack para análise de metadados

O HTTrack baixa um site completo para um diretório local, incluindo todas as imagens, documentos, scripts e arquivos que normalmente não aparecem na interface pública. Ele segue todos os links recursivamente e reconstrói a estrutura de diretórios do servidor original.

Por que isso importa para metadados? Porque a maioria dos sites comprime as imagens que aparecem nas páginas — convertem para WebP, removem metadados para performance. Mas os arquivos originais, aqueles que estão em subdiretórios que ninguém acessa diretamente, frequentemente mantêm os metadados intactos.

Eu demonstrei clonando o site da prefeitura de Natal/RN:

httrack DOMINIO-ALVO -O /pasta/alvo/

Enquanto o HTTrack rodava em background, eu já fui analisando os primeiros arquivos baixados. E os resultados foram imediatos:

exiftool -r www.site-alvo/ | grep -i "author"

Encontrei João Gabriel, Mariana e Renê Carvalho como autores de documentos. Mas o achado mais interessante foi uma foto de um secretário municipal que mantinha o GPS version ID nos metadados — indicando que a câmera (uma Nikon Corporation) tinha gravado informações de geolocalização. O arquivo tinha sido editado com o GIMP no Windows, e os metadados revelaram até o caminho completo de pastas internas: Antigos/Marte/Comunicação.

"Eu vou clonar o site dele e vou baixar tudo que ele tem na internet."

Se você trabalha com investigação de phishing, fraudes ou crimes digitais, clonar o site-alvo é o primeiro passo. Preserva evidências antes que sejam removidas. E aqui entra um ponto que pouca gente pensa: no Aulão #26 — Como Remover Conteúdo da Internet eu mostrei o outro lado: como mapear e solicitar remoção de conteúdo exposto.

O que o ExifTool revela em metadados: dados reais encontrados ao vivo

Para que fique claro o que metadados podem expor, aqui estão dados reais que encontrei durante a demonstração ao vivo:

Nomes de pessoas encontrados nos metadados:

  • Guilherme Gregório da Silva (author em PDF de site de leilão)
  • Maria Helena (author em PDF do mesmo site)
  • Esp Santos, PMS, JRP, Alves, Marco Aurélio, Giovanna, Leandro, Solange (authors em PDFs de site governamental)
  • João Gabriel, Mariana, Renê Carvalho (authors em arquivos de site de prefeitura clonado)
  • TRT apareceu como author institucional

Software e versões identificadas:

  • Microsoft Word 2016
  • ilovepdf.com (serviço online de PDF)
  • Adobe InDesign
  • GIMP (editor de imagens open source)
  • Corel Draw
  • Adobe Photoshop
  • Adobe Illustrator

Informações de hardware:

  • Câmera Nikon Corporation com modelo específico
  • GPS version ID indicando geolocalização ativa
  • ISO, sensibilidade e configurações de exposição da câmera
  • Plataforma Windows identificada nos metadados de edição

Estrutura organizacional vazada:

  • Caminhos de diretórios internos como Antigos/Marte/Comunicação
  • Caminhos como fotos/espetáculos/suspiros/arquivo.jpg
  • Mapeamento de volumes e pastas de rede
  • Diretórios de servidor revelando organização interna de departamentos

E isso com poucos arquivos. Imagine o que apareceria com os 28 mil PDFs completos.

Como usar FOCA Metadata para análise automatizada no Windows

O FOCA (Fingerprinting Organizations with Collected Archives) automatiza todo o processo que mostrei manualmente: busca no Google e DuckDuckGo, baixa os arquivos encontrados, extrai metadados e organiza tudo em um sumário visual com usuários, pastas, impressoras, softwares e e-mails.

Para instalar, você precisa de:

  1. Windows 10 ou superior
  2. .NET Framework instalado
  3. SQL Server Express (gratuito)
  4. FOCA — baixe a última versão em github.com/ElevenPaths/FOCA

No aulão eu tentei instalar ao vivo, mas o SQL Server deu erro de configuração no Windows recém-instalado. Coisas de Windows — "tem que reiniciar a máquina", como sempre. Mas o conceito é simples:

  1. Abra o FOCA e insira o domínio-alvo
  2. Ele varre Google, DuckDuckGo e faz fuzzing de diretórios
  3. Lista todos os arquivos encontrados (PDF, DOC, XLS, PPT)
  4. Você seleciona e manda baixar
  5. Seleciona novamente e manda extrair metadados
  6. O FOCA monta um sumário com todas as informações extraídas

"O FOCA é uma ferramenta que faz tudo que eu te mostrei de forma automatizada."

Mas eu sou honesto: eu pessoalmente não uso o FOCA no dia a dia. Prefiro fazer pelo terminal, com as ferramentas que mostrei neste aulão. O FOCA é excelente para quem quer resultado rápido no Windows sem aprender linha de comando. Mas entender o processo manual te dá flexibilidade para adaptar quando a ferramenta automática falha — como aconteceu ao vivo com o Metagoofil.

Se você está começando do zero e quer conhecer mais ferramentas antes de decidir qual usar, veja o Aulão #22 — Como Começar na Investigação Digital onde apresentei mais de 20 ferramentas OSINT gratuitas.

Pipeline completo: do Google Hacking ao relatório de metadados

Aqui está o fluxo de trabalho completo que demonstrei ao vivo, do início ao fim:

1. Reconhecimento com Google Hacking

site:alvo.com filetype:pdf
site:alvo.com filetype:xls
site:alvo.com filetype:docx

Mapeie todos os arquivos públicos do seu alvo. Eu encontrei 28 mil PDFs em um único site.

2. Coleta automatizada com Metagoofil

python metagoofil.py -d alvo.com -t pdf,xls,doc -l 500 -n 500 -o /pasta/alvo/

Ou coleta manual das URLs e download com wget -i lista.txt.

3. Clonagem completa com HTTrack

httrack DOMINIO-ALVO -O /pasta/clone/

Para pegar imagens, assets e arquivos que o Google não indexa.

4. Download seletivo com wget

wget -r -A pdf,doc,xls,jpg,png DOMINIO-ALVO

O parâmetro -r faz download recursivo e -A filtra por extensão.

5. Análise em massa com ExifTool + grep

exiftool -r /pasta/alvo/ | grep -i "author"
exiftool -r /pasta/alvo/ | grep -i "GPS"
exiftool -r /pasta/alvo/ | grep -i "creator"
exiftool -r /pasta/alvo/ | grep -i "user"
exiftool -r /pasta/alvo/ | grep -i "path"

Esse é o processo que eu uso em investigações reais. E não precisa de ferramenta cara, não precisa de curso de mil reais. Precisa de curiosidade e persistência.

Como eu demonstrei no Aulão #7 — O Guia Definitivo para Descobrir Quem Está Por Trás de Qualquer Site, investigação digital é sobre combinar técnicas. Os metadados que você extrai aqui complementam as informações de WHOIS, DNS e footprinting que já cobrimos em aulões anteriores.

Metadados em dispositivos móveis: como varrer seu Android

Você pode executar o ExifTool diretamente no seu celular Android para descobrir se alguma foto ou arquivo está vazando informações. O Aulão #18 — Ferramentas de Investigação Digital para Celular Android mostra como transformar seu celular em um laboratório de investigação — e a análise de metadados é parte fundamental disso.

No terminal do Android (via Termux ou similar):

exiftool -r /sdcard/ | grep -i "GPS"

Isso varre todas as fotos e arquivos do seu dispositivo buscando coordenadas GPS. O resultado pode revelar que fotos que você achava seguras estão com geolocalização ativa.

Mas atenção: redes sociais como WhatsApp, Instagram e Facebook removem metadados das imagens enviadas. O vazamento acontece quando você compartilha o arquivo original — por e-mail, nuvem, site, ou transferência direta.

A mentalidade do investigador digital: por que persistência importa mais que ferramentas

Eu podia ter começado este aulão mostrando o FOCA e pronto. Mas fiz questão de mostrar o processo manual, as falhas, as gambiarras. Porque investigação digital não é sobre ter a ferramenta certa. É sobre pensar certo.

"Nem tudo expõe algo. Nem tudo vaza algo, nem tudo é uma vulnerabilidade. No hacking também, nem toda falha te dá acesso. Você roda um scanner no alvo, aparece 10 mil falhas. 90% das falhas é falso positivo. Mas você precisa de uma só que invada."

Com metadados é a mesma lógica. Funciona sempre? Não. Em 10 arquivos pode não ter nada. Em 100, talvez um GPS. Em mil, certamente um nome de usuário. Em 28 mil, você vai mapear a estrutura inteira da organização.

E tem mais: o diferencial entre o investigador e o criminoso é que o criminoso tem todo o tempo do mundo. Não é o tempo de contrato de um mês de teste. Ele espera uma falha. Ele espera o momento. Se você é investigador, policial, detetive, perito — adote essa mentalidade. Analise tudo. Não desista no primeiro arquivo sem resultado.

Se você ainda está construindo essa base de fundamentos OSINT, volte ao Aulão #1 e trace seu caminho até aqui.

Ferramentas Utilizadas Neste Aulão

FerramentaFinalidadeLink
ExifToolLeitura e extração de metadados de mais de 400 formatos de arquivoExifTool
FOCA MetadataAutomação completa de busca, download e análise de metadadosFOCA
wgetDownload de arquivos pelo terminal sem alterar metadadosGNU Wget
MetagoofilColeta automatizada de arquivos de um domínio via GoogleMetagoofil
HTTrackClonagem completa de sites para análise offlineHTTrack
HyperTerminal moderno para Windows como alternativa ao CMDHyper
Google Hacking DatabaseReferência de operadores avançados de busca do GoogleGHDB

Perguntas Frequentes

Como ler metadados de 100+ arquivos ao mesmo tempo?

Use o ExifTool com asterisco (exiftool *) para ler todos os arquivos de uma pasta, ou com -r para varrer subpastas recursivamente. Combine com grep para filtrar campos específicos como author, GPS ou creator. Em um comando: exiftool -r /pasta/ | grep -i "author".

Baixar arquivos pelo browser altera os metadados?

Sim, o browser (especialmente no Windows) pode modificar metadados como data de acesso e data de modificação durante o download. Use o wget pelo terminal para manter a integridade original dos metadados. É uma diferença sutil, mas em investigação forense pode invalidar uma prova.

O que é FOCA Metadata e como funciona?

FOCA (Fingerprinting Organizations with Collected Archives) é uma ferramenta gratuita da ElevenPaths que automatiza a busca, download e análise de metadados de um domínio-alvo. Ela pesquisa no Google e DuckDuckGo, baixa os arquivos encontrados e gera um sumário com usuários, pastas, impressoras, softwares e e-mails. Funciona apenas no Windows e requer .NET Framework e SQL Server Express.

É possível encontrar a localização GPS de uma pessoa pelos metadados?

Sim, se a câmera ou celular estava com geolocalização ativa no momento da captura. Os dados EXIF da foto armazenam latitude e longitude exatas. Use exiftool foto.jpg | grep GPS para verificar. Redes sociais removem esses dados, mas o arquivo original compartilhado por e-mail ou nuvem mantém tudo.

Como clonar um site inteiro para análise de metadados?

Use o HTTrack com o domínio-alvo e a pasta de destino. Ele baixa todas as páginas, imagens, documentos e scripts recursivamente, reconstruindo a estrutura de diretórios do servidor. Depois, execute exiftool -r /pasta/destino/ para analisar todos os metadados de uma vez.

Metagoofil funciona no Windows?

Sim, mas funciona melhor no Linux (vem pré-instalado no Kali Linux). No Windows, instale Python, clone o repositório do GitHub e execute pip install -r requirements.txt. O Metagoofil pesquisa no Google por arquivos do domínio-alvo e pode baixá-los automaticamente — ou listar as URLs para download manual com wget.

Quais metadados são mais úteis em uma investigação digital?

Depende do objetivo. Para identificar pessoas: author, creator, user. Para localização: GPS, coordenadas. Para mapear infraestrutura: file path, diretórios, versão de software. Para timeline: create_date, modify_date. Para ataque técnico: software, versão do sistema operacional, configuração de rede. Cada campo conta uma parte da história.

As redes sociais realmente removem metadados das fotos?

WhatsApp, Instagram, Facebook e Twitter removem metadados EXIF das imagens enviadas — incluindo GPS, modelo de câmera e data. Mas o arquivo original no dispositivo mantém tudo. E documentos (PDF, DOC, XLS) compartilhados por e-mail, Google Drive ou links diretos geralmente preservam todos os metadados originais.

Referências e Recursos

Conteudo Relacionado