Você abriu um contrato escaneado no leitor de PDF, tentou buscar uma palavra com Ctrl+F, e nada aparece. Tentou copiar um parágrafo — também não dá. Isso acontece porque o PDF é uma imagem das páginas, não um documento de texto. O OCR (Reconhecimento Óptico de Caracteres) é o que transforma imagem em texto pesquisável.
Este guia mostra como fazer OCR em PDFs em português, sem instalar nada e sem enviar o arquivo para servidores de terceiros.
O que é OCR e quando você precisa
OCR é a tecnologia que lê o texto de uma imagem e o transforma em caracteres editáveis. Aplicado a PDFs escaneados, ele adiciona uma camada de texto invisível sobre as imagens das páginas — o visual do PDF não muda, mas agora você consegue:
- Buscar texto com
Ctrl+F - Selecionar e copiar trechos
- Indexar o documento em sistemas de gestão (DMS, Google Drive, OneDrive)
- Tarjar dados automaticamente (CPF, CNPJ) — pré-requisito para nossa ferramenta de Tarjar CPF e CNPJ
Você precisa de OCR sempre que tem um PDF que foi gerado a partir de escaneamento ou foto — qualquer documento físico que virou PDF passa por isso.
Quando saber se um PDF precisa de OCR
Teste simples: abra o PDF e tente selecionar uma frase. Se você consegue selecionar palavra por palavra como em um texto normal, o PDF já tem texto (não precisa de OCR). Se a seleção pega um retângulo da página inteira ou nada acontece, é um PDF imagem (precisa de OCR).
Outro teste: Ctrl+F e digite uma palavra que você sabe que está no documento. Se não encontra nada apesar da palavra estar visível, é PDF imagem.
Passo a passo: como aplicar OCR em PDF
1. Abra a ferramenta
Acesse /ferramentas/ocr-pdf. É uma ferramenta Pro do pdfbr — o motor é o Tesseract.js com modelo de português brasileiro otimizado, rodando no seu navegador via WebAssembly.
2. Carregue o PDF escaneado
Arraste o arquivo para a área de upload. Funciona em PDFs com qualquer resolução, mas 300 DPI ou mais é o recomendado para boa precisão. Resolução baixa (150 DPI ou menos) pode prejudicar o reconhecimento.
Também aceita imagens individuais (JPG, PNG) — elas são convertidas para PDF antes do OCR.
3. Aguarde o processamento
O Tesseract.js carrega o modelo de português brasileiro (~20 MB, baixado uma única vez e mantido em cache do navegador) e processa cada página. Tempos típicos:
- 5 páginas em 300 DPI: 15-30 segundos
- 20 páginas em 300 DPI: 1-2 minutos
- 50 páginas em 300 DPI: 3-5 minutos
O processamento continua mesmo se você minimizar a aba. Mantenha a aba aberta — fechar interrompe.
4. Baixe o PDF pesquisável
O arquivo resultante tem o visual idêntico ao original, mas agora com a camada de texto invisível sobreposta. Você consegue selecionar, copiar e buscar texto normalmente.
OCR de PDF em Português
Transforme PDFs escaneados em arquivos pesquisáveis com texto selecionável. Motor Tesseract.js em português, processamento 100% no navegador.
Precisão: o que esperar
O Tesseract com modelo de português brasileiro tem precisão típica de 95-99% em documentos bem digitalizados:
| Tipo de documento | Precisão típica |
|---|---|
| Documento impresso em 300 DPI, fonte padrão (Arial, Times) | 98-99% |
| Documento impresso em 300 DPI, fonte serifada | 96-98% |
| Documento impresso em 200 DPI | 90-95% |
| Documento manuscrito | 30-60% (variável) |
| Fax digitalizado | 70-90% |
| Documento amarelado / antigo | 80-92% |
⚠️Sempre revise documentos críticos
Para tarefas críticas — tarjar dados pessoais, indexação para sistema oficial, citação literal em peça processual — sempre revise o texto extraído. OCR é estatístico, não 100% preciso.
Quando o OCR não funciona bem
Há documentos onde nenhum OCR atinge boa precisão:
- Documentos manuscritos: o Tesseract foi treinado em texto impresso. Manuscritos exigem modelos especializados (HTR — Handwritten Text Recognition).
- Fontes muito decorativas ou estilizadas: gótico, manuscrito digital, fontes "estilo carimbo" — precisão cai significativamente.
- Páginas inclinadas ou tortas: escaneamentos com inclinação > 5° prejudicam o reconhecimento. Endireite antes de aplicar OCR.
- Documentos com baixo contraste: papel amarelado com texto desbotado. Aumente o contraste antes de escanear.
- Páginas com layout muito complexo: jornais, revistas com texto em colunas com fundos coloridos podem confundir o motor.
Para casos onde a precisão é insuficiente, considere:
- Refazer o escaneamento em melhor qualidade
- Usar serviços OCR especializados pagos (Google Document AI, Amazon Textract — mas atenção: esses serviços fazem upload para servidores)
OCR e LGPD: por que processar localmente importa
Aqui está o que muita gente não considera ao usar serviços OCR online: o texto extraído é tão sensível quanto o documento original. Se você roda OCR em um contrato com dados pessoais via Google Document AI ou outra API, esse texto fica nos logs do serviço.
Para advogados, contadores e profissionais de RH que processam:
- Contratos com cláusulas confidenciais
- Holerites e folhas de pagamento
- Autos de processos sob segredo de justiça
- Documentos médicos
- Comprovantes de renda
...usar OCR em servidores externos é uma exposição de dados pessoais que viola a LGPD por design.
O pdfbr resolve isso porque o OCR roda inteiramente no seu navegador. O motor Tesseract.js é JavaScript+WebAssembly que executa no seu próprio dispositivo. Nem o documento nem o texto extraído passam por servidor nenhum. Você pode auditar isso desligando a internet após carregar o modelo (~20 MB) — o OCR continua funcionando.
Veja também: LGPD e PDFs: O que você precisa saber em 2026.
Casos de uso comuns
Advocacia
- Tarjar CPF/CNPJ em autos escaneados — o OCR é pré-requisito para detecção automática. Depois do OCR, use Tarjar CPF e CNPJ.
- Buscar precedentes em decisões antigas — autos digitalizados nos anos 2000-2010 vieram sem OCR. Aplique OCR e indexe.
- Citar literalmente decisões físicas — copie texto da decisão escaneada para a petição.
Contabilidade
- Notas fiscais físicas — DANFEs antigas escaneadas ficam pesquisáveis para buscar fornecedor/valor.
- Extratos bancários impressos — convertidos em pesquisáveis para indexação por competência.
RH
- Carteiras de trabalho escaneadas — buscar funções, datas, salários em CTPS digitalizadas.
- Atestados médicos — indexação por CID ou data.
Saúde
- Prontuários antigos — clínicas com arquivo físico que digitalizaram autos antigos.
- Exames laboratoriais físicos — busca por parâmetros específicos.
OCR multilíngue: e documentos em inglês ou espanhol?
Por padrão, o pdfbr otimiza para português brasileiro. Documentos em outros idiomas funcionam, mas com precisão menor:
- Português europeu: precisão similar ao Brasil (modelos compatíveis)
- Inglês: precisão ~85-95% (modelo PT-BR consegue mas não é ideal)
- Espanhol: precisão ~85-95% (muitas palavras compartilhadas com português)
- Outros idiomas: precisão variável, geralmente baixa
Para documentos em inglês ou espanhol em volume significativo, considere serviços especializados — mas verifique a política de privacidade deles primeiro.
Perguntas frequentes
Quanto custa o OCR no pdfbr?
O OCR é uma ferramenta Pro — incluída no plano único de R$ 147 (pagamento único, sem mensalidade). Diferente de serviços online que cobram por página processada, no pdfbr você usa quantas vezes quiser.
O OCR consome muita memória?
O modelo de português ocupa ~20 MB em memória durante o processamento. Para documentos de 50+ páginas, recomendamos pelo menos 4 GB de RAM disponível no navegador. Em celulares com pouca RAM, prefira processar em desktop.
Posso aplicar OCR e depois editar o texto?
O OCR adiciona uma camada de texto invisível sobre a imagem da página — o visual do PDF permanece intacto. Editar o texto requer uma operação separada: extrair o texto via copiar/colar para Word ou usar nossa ferramenta de PDF para Excel (para tabelas) ou softwares de edição de PDF que reorganizam o conteúdo.
Funciona em PDFs que já têm OCR (vou aplicar de novo)?
Sim, mas não traz benefício. Se o PDF já tem camada de texto, aplicar OCR novamente apenas duplica o trabalho. Confira primeiro com Ctrl+F se já consegue buscar texto.
Como verificar que o OCR funcionou?
Após baixar o PDF, abra-o e tente selecionar texto. Se você consegue selecionar palavras individuais e fazer Ctrl+F para buscar uma palavra que sabe estar no documento, o OCR funcionou.
O OCR no pdfbr suporta documentos com fórmulas matemáticas?
Parcialmente. Símbolos matemáticos básicos (+, -, =, frações simples) são reconhecidos. Notação científica complexa, integrais, matrizes — não. Para esses casos, ferramentas especializadas como MathPix são melhores (mas fazem upload).