Como Analisar Metadados em Massa: Do ExifTool ao FOCA em Investigações Digitais
Capítulos
7 seçõesNeste artigo
- O que você vai aprender neste aulão
- Por que metadados são um problema de privacidade (e uma arma para investigação)
- Como usar Google Hacking para encontrar arquivos com metadados expostos
- Como baixar arquivos sem alterar metadados usando wget
- Como usar ExifTool para ler metadados em massa no Linux e Windows
- Como coletar arquivos de um domínio automaticamente com Metagoofil
- Como clonar um site inteiro com HTTrack para análise de metadados
- O que o ExifTool revela em metadados: dados reais encontrados ao vivo
- Como usar FOCA Metadata para análise automatizada no Windows
- Pipeline completo: do Google Hacking ao relatório de metadados
- Metadados em dispositivos móveis: como varrer seu Android
- A mentalidade do investigador digital: por que persistência importa mais que ferramentas
- Ferramentas Utilizadas Neste Aulão
- Perguntas Frequentes
- Como ler metadados de 100+ arquivos ao mesmo tempo?
- Baixar arquivos pelo browser altera os metadados?
- O que é FOCA Metadata e como funciona?
- É possível encontrar a localização GPS de uma pessoa pelos metadados?
- Como clonar um site inteiro para análise de metadados?
- Metagoofil funciona no Windows?
- Quais metadados são mais úteis em uma investigação digital?
- As redes sociais realmente removem metadados das fotos?
- Referências e Recursos
O que você vai aprender neste aulão
Analisar metadados em massa é a técnica que separa o investigador digital amador do profissional. Neste aulão eu demonstrei ao vivo, passo a passo, como extrair informações ocultas de milhares de arquivos de uma vez — nomes de usuário, localizações GPS, caminhos de diretórios internos e versões de software que seu alvo nem sabe que está expondo.
Eu peguei um site governamental com 28 mil PDFs públicos e mostrei que basta um único arquivo com metadado vazado para abrir uma investigação. E encontramos. Com poucos arquivos baixados manualmente, já apareceram dois nomes completos de pessoas, caminhos de pastas internas do servidor e até o modelo exato de uma câmera Nikon usada para tirar uma foto oficial.
Você vai sair deste artigo sabendo usar o ExifTool para ler metadados de pastas inteiras, o wget para baixar arquivos sem alterar metadados, o Metagoofil para automatizar a coleta via Google, o HTTrack para clonar sites completos e o FOCA para quem quer tudo numa interface gráfica. Tudo baseado em demonstração ao vivo, com erros reais e soluções na hora.
Por que metadados são um problema de privacidade (e uma arma para investigação)
Metadados são informações embutidas automaticamente em arquivos digitais — data de criação, autor, software usado, coordenadas GPS, nome do computador, versão do sistema operacional. A maioria das pessoas nem sabe que essas informações existem dentro dos seus PDFs, fotos e documentos.
E aqui mora o perigo: isso é um problema de duas faces. Para quem quer privacidade, é um pesadelo silencioso. Para quem investiga, é ouro.
Um ex-diretor da NSA já afirmou publicamente: "A gente mata com base em metadados." Pessoas na rede Tor foram identificadas e presas por causa de metadados nos arquivos que compartilharam. Eu já resolvi casos inteiros lendo metadados de documentos que o alvo nem imaginava que estavam expostos. E Criminosos na dark web foram presos exatamente por esse descuido. Mas quando publiquei um vídeo sobre isso no YouTube, dezenas de comentários reclamaram: "Não funciona", "as redes sociais tiram os metadados", "testei com uma foto e não tinha nada."
E o erro dessas pessoas é simples: analisar um arquivo só.
"Você não quer que todos os arquivos tenham metadados expostos. Você quer um só. Você quer um vazamento, um arquivo que expõe."
É exatamente isso. Se eu mostrei anteriormente no Aulão #10 — Descobrindo Segredos Ocultos: A Arte de Investigar Metadados como ler metadados de um arquivo individual, agora eu vou te ensinar a ler 28 mil de uma vez.
Como usar Google Hacking para encontrar arquivos com metadados expostos
Google Hacking é a técnica de usar operadores avançados de busca para localizar arquivos específicos dentro de um domínio. Com dois operadores simples — site: e filetype: — você consegue mapear todos os documentos públicos de qualquer organização.
E na prática, eu demonstrei ao vivo assim: digitei site:gov.br prefeitura filetype:pdf e o Google retornou 28 mil resultados. Vinte e oito mil arquivos PDF públicos de um único site governamental. Cada um deles potencialmente vazando o nome de quem criou o documento, qual software usou, em que computador, em qual pasta salvou.
E não para em PDF. Você pode filtrar por filetype:xls para planilhas, filetype:docx para documentos Word, filetype:pptx para apresentações. Se eu já mostrei em detalhes como funcionam esses operadores no Aulão #8 — 7 Buscas Perigosas que Revelam Informações Sensíveis no Google, aqui a pergunta é diferente: como analisar tudo isso em massa?
A resposta começa com o download. Mas por onde começar? Pelo detalhe que a maioria ignora.
Como baixar arquivos sem alterar metadados usando wget
O wget preserva a integridade dos metadados originais do arquivo durante o download. Quando você faz download pelo browser, especialmente no Windows, o sistema pode alterar metadados como data de acesso e data de modificação. Isso compromete a análise forense.
Para instalar o wget no Windows, o processo é direto: baixe o executável do site oficial, copie para a pasta C:\Windows\System32 e pronto. No Linux e macOS já vem instalado por padrão.
O uso básico é simples:
wget URL-DO-ARQUIVONo meu caso: wget seguido da URL copiada direto do Google.
Mas o poder real aparece quando você combina wget com uma lista de URLs. Durante o aulão, eu usei o Metagoofil para coletar 40 URLs de PDFs de um site governamental. A ferramenta listou tudo, mas não baixou automaticamente (falhas acontecem ao vivo — faz parte). E aí entrou o wget com o parâmetro -i:
wget -i lista.txtEsse comando lê cada URL do arquivo lista.txt e baixa todos os arquivos sequencialmente. Criei o arquivo texto com as URLs coletadas, executei o comando e em minutos tinha dezenas de PDFs prontos para análise. Sem browser, sem clique manual, sem alteração de metadados.
Eu usei o ChatGPT ao vivo para descobrir esse parâmetro do wget quando o Metagoofil falhou. Isso não é vergonha — é método. Quando uma ferramenta falha parcialmente, você combina com outra e resolve. Investigação digital é composição de ferramentas. E Quanto mais ferramentas você domina, mais rápido resolve.
Se você ainda não tem essa base de linha de comando, recomendo começar pelo Aulão #25 — Programação do Zero para Investigação Digital, onde mostrei como automatizar tarefas com Python.
Como usar ExifTool para ler metadados em massa no Linux e Windows
O ExifTool é a ferramenta mais completa para leitura de metadados — suporta mais de 400 formatos de arquivo, roda em Windows, Linux e macOS, e é totalmente gratuita. Para ler metadados de um único arquivo, basta arrastar para o executável ou digitar no terminal.
Mas a mágica está na leitura em massa.
Ler todos os arquivos de uma pasta
exiftool *E esse asterisco faz o ExifTool processar cada arquivo no diretório atual. Se a pasta tem 20 mil arquivos, ele lê os 20 mil. Simples assim.
Leitura recursiva em subdiretórios
exiftool -r /caminho/da/pasta/O parâmetro -r faz a varredura entrar em todas as subpastas. Eu demonstrei ao vivo: executei exiftool -r no diretório raiz de um site clonado e ele vasculhou cada imagem, cada PDF, cada documento em todas as pastas e subpastas.
Filtrar campos específicos
exiftool -create_date arquivo.pdfAo invés de exibir todos os metadados, você puxa só a data de criação. Para um advogado validando a autenticidade de uma prova digital, isso é suficiente. E funciona com qualquer campo: -author, -GPS*, -software, -creator.
Combinação com grep para análise em massa
Aqui é onde fica poderoso de verdade:
exiftool * | grep -i "author"Executei esse comando na pasta com os arquivos que baixei do site de leilão. Resultado: encontrei Guilherme Gregório da Silva e Maria Helena como autores de documentos. Com apenas 5 arquivos baixados. Dois nomes completos de pessoas que criaram documentos naquele site — sem nenhuma ferramenta sofisticada, só ExifTool e grep. E isso com um site que convertia imagens para WebP, supostamente "protegido".
Outros filtros que usei ao vivo:
exiftool * | grep -i "creator" # quem criou o arquivo
exiftool * | grep -i "GPS" # coordenadas geográficas
exiftool * | grep -i "email" # endereços de e-mail
exiftool * | grep -i "user" # nomes de usuário
exiftool -r * | grep -i "path" # caminhos de diretórios internosE com grep --color você destaca visualmente os resultados no terminal, tornando a identificação instantânea.
Varrer um computador inteiro
exiftool -r / | grep -i "GPS"Eu sugeri isso ao vivo: execute no seu próprio computador ou Android e descubra se alguma foto sua está vazando coordenadas GPS. O resultado pode surpreender. E Se você acha que seu celular está limpo, teste antes de afirmar.
Como coletar arquivos de um domínio automaticamente com Metagoofil
O Metagoofil automatiza a busca no Google por arquivos de um domínio específico e coleta seus metadados. Você informa o domínio-alvo e os tipos de arquivo, e ele faz o trabalho pesado.
A instalação é por git clone:
git clone REPO-DO-METAGOOFIL
cd metagoofil
pip install -r requirements.txtO repositório oficial está no GitHub do opsdisk.
E o uso básico:
python metagoofil.py -d dominio-alvo.com -t pdf -l 40 -n 40 -o /pasta/alvo/Onde -d é o domínio, -t é o tipo de arquivo, -l é o limite de resultados da busca, -n é o máximo de downloads e -o é o diretório de saída.
No aulão eu executei contra um site gov.br e ele encontrou dezenas de PDFs. Teve um problema: a ferramenta listou as URLs mas não completou o download automaticamente. Isso acontece — versões mudam, dependências quebram, servidores bloqueiam. Mas as URLs foram coletadas, e com o wget -i lista.txt que mostrei antes, resolvi em segundos.
O Metagoofil vem instalado por padrão no Kali Linux. Se você usa outra distribuição, a instalação via git funciona sem problemas.
Uma observação: ferramentas que fazem muitas requisições ao Google podem ter seu IP bloqueado temporariamente. Durante o aulão, meu IP já estava com timeout por ter feito um dump grande antes da aula. Coloque um delay entre requisições (parâmetro -e) para evitar isso.
Como clonar um site inteiro com HTTrack para análise de metadados
O HTTrack baixa um site completo para um diretório local, incluindo todas as imagens, documentos, scripts e arquivos que normalmente não aparecem na interface pública. Ele segue todos os links recursivamente e reconstrói a estrutura de diretórios do servidor original.
Por que isso importa para metadados? Porque a maioria dos sites comprime as imagens que aparecem nas páginas — convertem para WebP, removem metadados para performance. Mas os arquivos originais, aqueles que estão em subdiretórios que ninguém acessa diretamente, frequentemente mantêm os metadados intactos.
Eu demonstrei clonando o site da prefeitura de Natal/RN:
httrack DOMINIO-ALVO -O /pasta/alvo/Enquanto o HTTrack rodava em background, eu já fui analisando os primeiros arquivos baixados. E os resultados foram imediatos:
exiftool -r www.site-alvo/ | grep -i "author"Encontrei João Gabriel, Mariana e Renê Carvalho como autores de documentos. Mas o achado mais interessante foi uma foto de um secretário municipal que mantinha o GPS version ID nos metadados — indicando que a câmera (uma Nikon Corporation) tinha gravado informações de geolocalização. O arquivo tinha sido editado com o GIMP no Windows, e os metadados revelaram até o caminho completo de pastas internas: Antigos/Marte/Comunicação.
"Eu vou clonar o site dele e vou baixar tudo que ele tem na internet."
Se você trabalha com investigação de phishing, fraudes ou crimes digitais, clonar o site-alvo é o primeiro passo. Preserva evidências antes que sejam removidas. E aqui entra um ponto que pouca gente pensa: no Aulão #26 — Como Remover Conteúdo da Internet eu mostrei o outro lado: como mapear e solicitar remoção de conteúdo exposto.
O que o ExifTool revela em metadados: dados reais encontrados ao vivo
Para que fique claro o que metadados podem expor, aqui estão dados reais que encontrei durante a demonstração ao vivo:
Nomes de pessoas encontrados nos metadados:
- Guilherme Gregório da Silva (author em PDF de site de leilão)
- Maria Helena (author em PDF do mesmo site)
- Esp Santos, PMS, JRP, Alves, Marco Aurélio, Giovanna, Leandro, Solange (authors em PDFs de site governamental)
- João Gabriel, Mariana, Renê Carvalho (authors em arquivos de site de prefeitura clonado)
- TRT apareceu como author institucional
Software e versões identificadas:
- Microsoft Word 2016
- ilovepdf.com (serviço online de PDF)
- Adobe InDesign
- GIMP (editor de imagens open source)
- Corel Draw
- Adobe Photoshop
- Adobe Illustrator
Informações de hardware:
- Câmera Nikon Corporation com modelo específico
- GPS version ID indicando geolocalização ativa
- ISO, sensibilidade e configurações de exposição da câmera
- Plataforma Windows identificada nos metadados de edição
Estrutura organizacional vazada:
- Caminhos de diretórios internos como
Antigos/Marte/Comunicação - Caminhos como
fotos/espetáculos/suspiros/arquivo.jpg - Mapeamento de volumes e pastas de rede
- Diretórios de servidor revelando organização interna de departamentos
E isso com poucos arquivos. Imagine o que apareceria com os 28 mil PDFs completos.
Como usar FOCA Metadata para análise automatizada no Windows
O FOCA (Fingerprinting Organizations with Collected Archives) automatiza todo o processo que mostrei manualmente: busca no Google e DuckDuckGo, baixa os arquivos encontrados, extrai metadados e organiza tudo em um sumário visual com usuários, pastas, impressoras, softwares e e-mails.
Para instalar, você precisa de:
- Windows 10 ou superior
- .NET Framework instalado
- SQL Server Express (gratuito)
- FOCA — baixe a última versão em github.com/ElevenPaths/FOCA
No aulão eu tentei instalar ao vivo, mas o SQL Server deu erro de configuração no Windows recém-instalado. Coisas de Windows — "tem que reiniciar a máquina", como sempre. Mas o conceito é simples:
- Abra o FOCA e insira o domínio-alvo
- Ele varre Google, DuckDuckGo e faz fuzzing de diretórios
- Lista todos os arquivos encontrados (PDF, DOC, XLS, PPT)
- Você seleciona e manda baixar
- Seleciona novamente e manda extrair metadados
- O FOCA monta um sumário com todas as informações extraídas
"O FOCA é uma ferramenta que faz tudo que eu te mostrei de forma automatizada."
Mas eu sou honesto: eu pessoalmente não uso o FOCA no dia a dia. Prefiro fazer pelo terminal, com as ferramentas que mostrei neste aulão. O FOCA é excelente para quem quer resultado rápido no Windows sem aprender linha de comando. Mas entender o processo manual te dá flexibilidade para adaptar quando a ferramenta automática falha — como aconteceu ao vivo com o Metagoofil.
Se você está começando do zero e quer conhecer mais ferramentas antes de decidir qual usar, veja o Aulão #22 — Como Começar na Investigação Digital onde apresentei mais de 20 ferramentas OSINT gratuitas.
Pipeline completo: do Google Hacking ao relatório de metadados
Aqui está o fluxo de trabalho completo que demonstrei ao vivo, do início ao fim:
1. Reconhecimento com Google Hacking
site:alvo.com filetype:pdf
site:alvo.com filetype:xls
site:alvo.com filetype:docxMapeie todos os arquivos públicos do seu alvo. Eu encontrei 28 mil PDFs em um único site.
2. Coleta automatizada com Metagoofil
python metagoofil.py -d alvo.com -t pdf,xls,doc -l 500 -n 500 -o /pasta/alvo/Ou coleta manual das URLs e download com wget -i lista.txt.
3. Clonagem completa com HTTrack
httrack DOMINIO-ALVO -O /pasta/clone/Para pegar imagens, assets e arquivos que o Google não indexa.
4. Download seletivo com wget
wget -r -A pdf,doc,xls,jpg,png DOMINIO-ALVOO parâmetro -r faz download recursivo e -A filtra por extensão.
5. Análise em massa com ExifTool + grep
exiftool -r /pasta/alvo/ | grep -i "author"
exiftool -r /pasta/alvo/ | grep -i "GPS"
exiftool -r /pasta/alvo/ | grep -i "creator"
exiftool -r /pasta/alvo/ | grep -i "user"
exiftool -r /pasta/alvo/ | grep -i "path"Esse é o processo que eu uso em investigações reais. E não precisa de ferramenta cara, não precisa de curso de mil reais. Precisa de curiosidade e persistência.
Como eu demonstrei no Aulão #7 — O Guia Definitivo para Descobrir Quem Está Por Trás de Qualquer Site, investigação digital é sobre combinar técnicas. Os metadados que você extrai aqui complementam as informações de WHOIS, DNS e footprinting que já cobrimos em aulões anteriores.
Metadados em dispositivos móveis: como varrer seu Android
Você pode executar o ExifTool diretamente no seu celular Android para descobrir se alguma foto ou arquivo está vazando informações. O Aulão #18 — Ferramentas de Investigação Digital para Celular Android mostra como transformar seu celular em um laboratório de investigação — e a análise de metadados é parte fundamental disso.
No terminal do Android (via Termux ou similar):
exiftool -r /sdcard/ | grep -i "GPS"Isso varre todas as fotos e arquivos do seu dispositivo buscando coordenadas GPS. O resultado pode revelar que fotos que você achava seguras estão com geolocalização ativa.
Mas atenção: redes sociais como WhatsApp, Instagram e Facebook removem metadados das imagens enviadas. O vazamento acontece quando você compartilha o arquivo original — por e-mail, nuvem, site, ou transferência direta.
A mentalidade do investigador digital: por que persistência importa mais que ferramentas
Eu podia ter começado este aulão mostrando o FOCA e pronto. Mas fiz questão de mostrar o processo manual, as falhas, as gambiarras. Porque investigação digital não é sobre ter a ferramenta certa. É sobre pensar certo.
"Nem tudo expõe algo. Nem tudo vaza algo, nem tudo é uma vulnerabilidade. No hacking também, nem toda falha te dá acesso. Você roda um scanner no alvo, aparece 10 mil falhas. 90% das falhas é falso positivo. Mas você precisa de uma só que invada."
Com metadados é a mesma lógica. Funciona sempre? Não. Em 10 arquivos pode não ter nada. Em 100, talvez um GPS. Em mil, certamente um nome de usuário. Em 28 mil, você vai mapear a estrutura inteira da organização.
E tem mais: o diferencial entre o investigador e o criminoso é que o criminoso tem todo o tempo do mundo. Não é o tempo de contrato de um mês de teste. Ele espera uma falha. Ele espera o momento. Se você é investigador, policial, detetive, perito — adote essa mentalidade. Analise tudo. Não desista no primeiro arquivo sem resultado.
Se você ainda está construindo essa base de fundamentos OSINT, volte ao Aulão #1 e trace seu caminho até aqui.
Ferramentas Utilizadas Neste Aulão
| Ferramenta | Finalidade | Link |
|---|---|---|
| ExifTool | Leitura e extração de metadados de mais de 400 formatos de arquivo | ExifTool |
| FOCA Metadata | Automação completa de busca, download e análise de metadados | FOCA |
| wget | Download de arquivos pelo terminal sem alterar metadados | GNU Wget |
| Metagoofil | Coleta automatizada de arquivos de um domínio via Google | Metagoofil |
| HTTrack | Clonagem completa de sites para análise offline | HTTrack |
| Hyper | Terminal moderno para Windows como alternativa ao CMD | Hyper |
| Google Hacking Database | Referência de operadores avançados de busca do Google | GHDB |
Perguntas Frequentes
Como ler metadados de 100+ arquivos ao mesmo tempo?
Use o ExifTool com asterisco (exiftool *) para ler todos os arquivos de uma pasta, ou com -r para varrer subpastas recursivamente. Combine com grep para filtrar campos específicos como author, GPS ou creator. Em um comando: exiftool -r /pasta/ | grep -i "author".
Baixar arquivos pelo browser altera os metadados?
Sim, o browser (especialmente no Windows) pode modificar metadados como data de acesso e data de modificação durante o download. Use o wget pelo terminal para manter a integridade original dos metadados. É uma diferença sutil, mas em investigação forense pode invalidar uma prova.
O que é FOCA Metadata e como funciona?
FOCA (Fingerprinting Organizations with Collected Archives) é uma ferramenta gratuita da ElevenPaths que automatiza a busca, download e análise de metadados de um domínio-alvo. Ela pesquisa no Google e DuckDuckGo, baixa os arquivos encontrados e gera um sumário com usuários, pastas, impressoras, softwares e e-mails. Funciona apenas no Windows e requer .NET Framework e SQL Server Express.
É possível encontrar a localização GPS de uma pessoa pelos metadados?
Sim, se a câmera ou celular estava com geolocalização ativa no momento da captura. Os dados EXIF da foto armazenam latitude e longitude exatas. Use exiftool foto.jpg | grep GPS para verificar. Redes sociais removem esses dados, mas o arquivo original compartilhado por e-mail ou nuvem mantém tudo.
Como clonar um site inteiro para análise de metadados?
Use o HTTrack com o domínio-alvo e a pasta de destino. Ele baixa todas as páginas, imagens, documentos e scripts recursivamente, reconstruindo a estrutura de diretórios do servidor. Depois, execute exiftool -r /pasta/destino/ para analisar todos os metadados de uma vez.
Metagoofil funciona no Windows?
Sim, mas funciona melhor no Linux (vem pré-instalado no Kali Linux). No Windows, instale Python, clone o repositório do GitHub e execute pip install -r requirements.txt. O Metagoofil pesquisa no Google por arquivos do domínio-alvo e pode baixá-los automaticamente — ou listar as URLs para download manual com wget.
Quais metadados são mais úteis em uma investigação digital?
Depende do objetivo. Para identificar pessoas: author, creator, user. Para localização: GPS, coordenadas. Para mapear infraestrutura: file path, diretórios, versão de software. Para timeline: create_date, modify_date. Para ataque técnico: software, versão do sistema operacional, configuração de rede. Cada campo conta uma parte da história.
As redes sociais realmente removem metadados das fotos?
WhatsApp, Instagram, Facebook e Twitter removem metadados EXIF das imagens enviadas — incluindo GPS, modelo de câmera e data. Mas o arquivo original no dispositivo mantém tudo. E documentos (PDF, DOC, XLS) compartilhados por e-mail, Google Drive ou links diretos geralmente preservam todos os metadados originais.
Referências e Recursos
Conteudo Relacionado

Como Remover Conteúdo da Internet: Do Mapeamento à Notificação Extrajudicial

A Nova Era dos Crimes Digitais: Como se Proteger e Investigar Golpes na Internet

Desvendando Perfis no Twitter: Técnicas de Investigação que Poucos Conhecem
