Como Fazer OCR em PDF Escaneado em Português (2026)

Você abriu um contrato escaneado no leitor de PDF, tentou buscar uma palavra com Ctrl+F, e nada aparece. Tentou copiar um parágrafo — também não dá. Isso acontece porque o PDF é uma imagem das páginas, não um documento de texto. O OCR (Reconhecimento Óptico de Caracteres) é o que transforma imagem em texto pesquisável.

Este guia mostra como fazer OCR em PDFs em português, sem instalar nada e sem enviar o arquivo para servidores de terceiros.

O que é OCR e quando você precisa

OCR é a tecnologia que lê o texto de uma imagem e o transforma em caracteres editáveis. Aplicado a PDFs escaneados, ele adiciona uma camada de texto invisível sobre as imagens das páginas — o visual do PDF não muda, mas agora você consegue:

Buscar texto com Ctrl+F
Selecionar e copiar trechos
Indexar o documento em sistemas de gestão (DMS, Google Drive, OneDrive)
Tarjar dados automaticamente (CPF, CNPJ) — pré-requisito para nossa ferramenta de Tarjar CPF e CNPJ

Você precisa de OCR sempre que tem um PDF que foi gerado a partir de escaneamento ou foto — qualquer documento físico que virou PDF passa por isso.

Quando saber se um PDF precisa de OCR

Teste simples: abra o PDF e tente selecionar uma frase. Se você consegue selecionar palavra por palavra como em um texto normal, o PDF já tem texto (não precisa de OCR). Se a seleção pega um retângulo da página inteira ou nada acontece, é um PDF imagem (precisa de OCR).

Outro teste: Ctrl+F e digite uma palavra que você sabe que está no documento. Se não encontra nada apesar da palavra estar visível, é PDF imagem.

Passo a passo: como aplicar OCR em PDF

1. Abra a ferramenta

Acesse /ferramentas/ocr-pdf. É uma ferramenta Pro do pdfbr — o motor é o Tesseract.js com modelo de português brasileiro otimizado, rodando no seu navegador via WebAssembly.

2. Carregue o PDF escaneado

Arraste o arquivo para a área de upload. Funciona em PDFs com qualquer resolução, mas 300 DPI ou mais é o recomendado para boa precisão. Resolução baixa (150 DPI ou menos) pode prejudicar o reconhecimento.

Também aceita imagens individuais (JPG, PNG) — elas são convertidas para PDF antes do OCR.

3. Aguarde o processamento

O Tesseract.js carrega o modelo de português brasileiro (~20 MB, baixado uma única vez e mantido em cache do navegador) e processa cada página. Tempos típicos:

5 páginas em 300 DPI: 15-30 segundos
20 páginas em 300 DPI: 1-2 minutos
50 páginas em 300 DPI: 3-5 minutos

O processamento continua mesmo se você minimizar a aba. Mantenha a aba aberta — fechar interrompe.

4. Baixe o PDF pesquisável

O arquivo resultante tem o visual idêntico ao original, mas agora com a camada de texto invisível sobreposta. Você consegue selecionar, copiar e buscar texto normalmente.

OCR de PDF em Português

Transforme PDFs escaneados em arquivos pesquisáveis com texto selecionável. Motor Tesseract.js em português, processamento 100% no navegador.

Aplicar OCR →

Precisão: o que esperar

O Tesseract com modelo de português brasileiro tem precisão típica de 95-99% em documentos bem digitalizados:

Tipo de documento	Precisão típica
Documento impresso em 300 DPI, fonte padrão (Arial, Times)	98-99%
Documento impresso em 300 DPI, fonte serifada	96-98%
Documento impresso em 200 DPI	90-95%
Documento manuscrito	30-60% (variável)
Fax digitalizado	70-90%
Documento amarelado / antigo	80-92%

⚠️Sempre revise documentos críticos

Para tarefas críticas — tarjar dados pessoais, indexação para sistema oficial, citação literal em peça processual — sempre revise o texto extraído. OCR é estatístico, não 100% preciso.

Quando o OCR não funciona bem

Há documentos onde nenhum OCR atinge boa precisão:

Documentos manuscritos: o Tesseract foi treinado em texto impresso. Manuscritos exigem modelos especializados (HTR — Handwritten Text Recognition).
Fontes muito decorativas ou estilizadas: gótico, manuscrito digital, fontes "estilo carimbo" — precisão cai significativamente.
Páginas inclinadas ou tortas: escaneamentos com inclinação > 5° prejudicam o reconhecimento. Endireite antes de aplicar OCR.
Documentos com baixo contraste: papel amarelado com texto desbotado. Aumente o contraste antes de escanear.
Páginas com layout muito complexo: jornais, revistas com texto em colunas com fundos coloridos podem confundir o motor.

Para casos onde a precisão é insuficiente, considere:

Refazer o escaneamento em melhor qualidade
Usar serviços OCR especializados pagos (Google Document AI, Amazon Textract — mas atenção: esses serviços fazem upload para servidores)

OCR e LGPD: por que processar localmente importa

Aqui está o que muita gente não considera ao usar serviços OCR online: o texto extraído é tão sensível quanto o documento original. Se você roda OCR em um contrato com dados pessoais via Google Document AI ou outra API, esse texto fica nos logs do serviço.

Para advogados, contadores e profissionais de RH que processam:

Contratos com cláusulas confidenciais
Holerites e folhas de pagamento
Autos de processos sob segredo de justiça
Documentos médicos
Comprovantes de renda

...usar OCR em servidores externos é uma exposição de dados pessoais que viola a LGPD por design.

O pdfbr resolve isso porque o OCR roda inteiramente no seu navegador. O motor Tesseract.js é JavaScript+WebAssembly que executa no seu próprio dispositivo. Nem o documento nem o texto extraído passam por servidor nenhum. Você pode auditar isso desligando a internet após carregar o modelo (~20 MB) — o OCR continua funcionando.

Veja também: LGPD e PDFs: O que você precisa saber em 2026.

Casos de uso comuns

Advocacia

Tarjar CPF/CNPJ em autos escaneados — o OCR é pré-requisito para detecção automática. Depois do OCR, use Tarjar CPF e CNPJ.
Buscar precedentes em decisões antigas — autos digitalizados nos anos 2000-2010 vieram sem OCR. Aplique OCR e indexe.
Citar literalmente decisões físicas — copie texto da decisão escaneada para a petição.

Contabilidade

Notas fiscais físicas — DANFEs antigas escaneadas ficam pesquisáveis para buscar fornecedor/valor.
Extratos bancários impressos — convertidos em pesquisáveis para indexação por competência.

RH

Carteiras de trabalho escaneadas — buscar funções, datas, salários em CTPS digitalizadas.
Atestados médicos — indexação por CID ou data.

Saúde

Prontuários antigos — clínicas com arquivo físico que digitalizaram autos antigos.
Exames laboratoriais físicos — busca por parâmetros específicos.

OCR multilíngue: e documentos em inglês ou espanhol?

Por padrão, o pdfbr otimiza para português brasileiro. Documentos em outros idiomas funcionam, mas com precisão menor:

Português europeu: precisão similar ao Brasil (modelos compatíveis)
Inglês: precisão ~85-95% (modelo PT-BR consegue mas não é ideal)
Espanhol: precisão ~85-95% (muitas palavras compartilhadas com português)
Outros idiomas: precisão variável, geralmente baixa

Para documentos em inglês ou espanhol em volume significativo, considere serviços especializados — mas verifique a política de privacidade deles primeiro.

Perguntas frequentes

Quanto custa o OCR no pdfbr?

O OCR é uma ferramenta Pro — incluída no plano único de R$ 147 (pagamento único, sem mensalidade). Diferente de serviços online que cobram por página processada, no pdfbr você usa quantas vezes quiser.

O OCR consome muita memória?

O modelo de português ocupa ~20 MB em memória durante o processamento. Para documentos de 50+ páginas, recomendamos pelo menos 4 GB de RAM disponível no navegador. Em celulares com pouca RAM, prefira processar em desktop.

Posso aplicar OCR e depois editar o texto?

O OCR adiciona uma camada de texto invisível sobre a imagem da página — o visual do PDF permanece intacto. Editar o texto requer uma operação separada: extrair o texto via copiar/colar para Word ou usar nossa ferramenta de PDF para Excel (para tabelas) ou softwares de edição de PDF que reorganizam o conteúdo.

Funciona em PDFs que já têm OCR (vou aplicar de novo)?

Sim, mas não traz benefício. Se o PDF já tem camada de texto, aplicar OCR novamente apenas duplica o trabalho. Confira primeiro com Ctrl+F se já consegue buscar texto.

Como verificar que o OCR funcionou?

Após baixar o PDF, abra-o e tente selecionar texto. Se você consegue selecionar palavras individuais e fazer Ctrl+F para buscar uma palavra que sabe estar no documento, o OCR funcionou.

O OCR no pdfbr suporta documentos com fórmulas matemáticas?

Parcialmente. Símbolos matemáticos básicos (+, -, =, frações simples) são reconhecidos. Notação científica complexa, integrais, matrizes — não. Para esses casos, ferramentas especializadas como MathPix são melhores (mas fazem upload).

Este guia mostra como fazer OCR em PDFs em português, sem instalar nada e sem enviar o arquivo para servidores de terceiros.

O que é OCR e quando você precisa

Buscar texto com Ctrl+F
Selecionar e copiar trechos
Indexar o documento em sistemas de gestão (DMS, Google Drive, OneDrive)
Tarjar dados automaticamente (CPF, CNPJ) — pré-requisito para nossa ferramenta de Tarjar CPF e CNPJ

Você precisa de OCR sempre que tem um PDF que foi gerado a partir de escaneamento ou foto — qualquer documento físico que virou PDF passa por isso.

Quando saber se um PDF precisa de OCR

Outro teste: Ctrl+F e digite uma palavra que você sabe que está no documento. Se não encontra nada apesar da palavra estar visível, é PDF imagem.

Passo a passo: como aplicar OCR em PDF

1. Abra a ferramenta

Acesse /ferramentas/ocr-pdf. É uma ferramenta Pro do pdfbr — o motor é o Tesseract.js com modelo de português brasileiro otimizado, rodando no seu navegador via WebAssembly.

2. Carregue o PDF escaneado

Também aceita imagens individuais (JPG, PNG) — elas são convertidas para PDF antes do OCR.

3. Aguarde o processamento

O Tesseract.js carrega o modelo de português brasileiro (~20 MB, baixado uma única vez e mantido em cache do navegador) e processa cada página. Tempos típicos:

5 páginas em 300 DPI: 15-30 segundos
20 páginas em 300 DPI: 1-2 minutos
50 páginas em 300 DPI: 3-5 minutos

O processamento continua mesmo se você minimizar a aba. Mantenha a aba aberta — fechar interrompe.

4. Baixe o PDF pesquisável

O arquivo resultante tem o visual idêntico ao original, mas agora com a camada de texto invisível sobreposta. Você consegue selecionar, copiar e buscar texto normalmente.

OCR de PDF em Português

Transforme PDFs escaneados em arquivos pesquisáveis com texto selecionável. Motor Tesseract.js em português, processamento 100% no navegador.

Aplicar OCR →

Precisão: o que esperar

O Tesseract com modelo de português brasileiro tem precisão típica de 95-99% em documentos bem digitalizados:

Tipo de documento	Precisão típica
Documento impresso em 300 DPI, fonte padrão (Arial, Times)	98-99%
Documento impresso em 300 DPI, fonte serifada	96-98%
Documento impresso em 200 DPI	90-95%
Documento manuscrito	30-60% (variável)
Fax digitalizado	70-90%
Documento amarelado / antigo	80-92%

⚠️Sempre revise documentos críticos

Para tarefas críticas — tarjar dados pessoais, indexação para sistema oficial, citação literal em peça processual — sempre revise o texto extraído. OCR é estatístico, não 100% preciso.

Quando o OCR não funciona bem

Há documentos onde nenhum OCR atinge boa precisão:

Documentos manuscritos: o Tesseract foi treinado em texto impresso. Manuscritos exigem modelos especializados (HTR — Handwritten Text Recognition).
Fontes muito decorativas ou estilizadas: gótico, manuscrito digital, fontes "estilo carimbo" — precisão cai significativamente.
Páginas inclinadas ou tortas: escaneamentos com inclinação > 5° prejudicam o reconhecimento. Endireite antes de aplicar OCR.
Documentos com baixo contraste: papel amarelado com texto desbotado. Aumente o contraste antes de escanear.
Páginas com layout muito complexo: jornais, revistas com texto em colunas com fundos coloridos podem confundir o motor.

Para casos onde a precisão é insuficiente, considere:

Refazer o escaneamento em melhor qualidade
Usar serviços OCR especializados pagos (Google Document AI, Amazon Textract — mas atenção: esses serviços fazem upload para servidores)

OCR e LGPD: por que processar localmente importa

Para advogados, contadores e profissionais de RH que processam:

Contratos com cláusulas confidenciais
Holerites e folhas de pagamento
Autos de processos sob segredo de justiça
Documentos médicos
Comprovantes de renda

...usar OCR em servidores externos é uma exposição de dados pessoais que viola a LGPD por design.

Veja também: LGPD e PDFs: O que você precisa saber em 2026.

Casos de uso comuns

Advocacia

Tarjar CPF/CNPJ em autos escaneados — o OCR é pré-requisito para detecção automática. Depois do OCR, use Tarjar CPF e CNPJ.
Buscar precedentes em decisões antigas — autos digitalizados nos anos 2000-2010 vieram sem OCR. Aplique OCR e indexe.
Citar literalmente decisões físicas — copie texto da decisão escaneada para a petição.

Contabilidade

Notas fiscais físicas — DANFEs antigas escaneadas ficam pesquisáveis para buscar fornecedor/valor.
Extratos bancários impressos — convertidos em pesquisáveis para indexação por competência.

RH

Carteiras de trabalho escaneadas — buscar funções, datas, salários em CTPS digitalizadas.
Atestados médicos — indexação por CID ou data.

Saúde

Prontuários antigos — clínicas com arquivo físico que digitalizaram autos antigos.
Exames laboratoriais físicos — busca por parâmetros específicos.

OCR multilíngue: e documentos em inglês ou espanhol?

Por padrão, o pdfbr otimiza para português brasileiro. Documentos em outros idiomas funcionam, mas com precisão menor:

Português europeu: precisão similar ao Brasil (modelos compatíveis)
Inglês: precisão ~85-95% (modelo PT-BR consegue mas não é ideal)
Espanhol: precisão ~85-95% (muitas palavras compartilhadas com português)
Outros idiomas: precisão variável, geralmente baixa

Para documentos em inglês ou espanhol em volume significativo, considere serviços especializados — mas verifique a política de privacidade deles primeiro.