Criando um idioma de OCR

Ao executar o OCR em um documento, o ABBYY FineReader usa algumas informações sobre o idioma do documento (esse idioma deve ser selecionado na lista suspensa Idiomas do documento na janela Documento). Se houver muitas abreviações ou palavras incomuns no texto, é possível que o programa não as reconheça corretamente. Nesse caso, talvez seja interessante criar o seu próprio idioma de reconhecimento para este documento.

  1. No menu Ferramentas, selecione Editor de idiomas….
  2. Na caixa de diálogo Editor de idiomas clique em Novo….
  3. Na caixa de diálogo Novo idioma ou grupo selecione Criar um novo idioma com base em um idioma existente e na lista suspensa abaixo, selecione o idioma desejado. Clique em OK.
  4. Na caixa de diálogo Propriedades do idioma especifique as propriedades do novo idioma do OCR.
    1. Nome do idioma - Digite um nome para o seu idioma de OCR neste campo.
    2. Idioma de origem — O idioma no qual seu novo idioma do OCR será baseado. (Exibe o idioma selecionado na caixa de diálogo Novo idioma ou grupo. Clique na seta para a direita para selecionar um idioma diferente).
    3. Alfabeto — Lista os caracteres do alfabeto do idioma de origem. Clique em Finereader dotbutton Criando um idioma de OCR para adicionar ou remover caracteres.
    4. Dicionário - O dicionário que o ABBYY FineReader usará para executar o OCR no documento e verificar o texto reconhecido. As seguintes opções estão disponíveis:

      • Nenhum
        Nenhum dicionário será usado.
      • Dicionário interno
        O dicionário fornecido com o ABBYY FineReader será usado.
      • Dicionário do usuário
        Um dicionário do usuário será usado. Clique no botão Editar… para adicionar palavras ao dicionário ou importar um dicionário existente do usuário ou um arquivo de texto na codificação do Windows (ANSI) ou Unicode. As palavras no arquivo de texto a ser importado deverão estar separadas por espaços ou outros caracteres não alfabéticos.

        Observação. As palavras do dicionário do usuário podem ocorrer no texto reconhecido nas seguintes definições: 1) apenas minúsculas, 2) apenas maiúsculas, 3) primeira letra em maiúsculas, 4) como digitado no dicionário do usuário. As quatro possibilidades são resumidas na tabela abaixo.

        Palavra conforme a grafia existente no dicionário do usuário Possíveis ocorrências da palavra no texto
        abc abc, Abc, ABC
        Abc abc, Abc, ABC
        ABC abc, Abc, ABC
        aBc aBc, abc, Abc, ABC
      • Expressão regular
        É possível usar uma expressão regular para criar o novo idioma.
        Finereader listpicture Criando um idioma de OCR Para obter detalhes, consulte Expressões Regulares.
    5. Avançado… — Abre a caixa de diálogo Propriedades avançadas do idioma onde é possível especificar mais propriedades avançadas para seu idioma:

      • Caracteres não alfabéticos que podem ocorrer no início ou no fim das palavras
      • Caracteres não alfabéticos independentes (sinais de pontuação, etc.)
      • Caracteres a serem ignorados caso ocorram em palavras
      • Caracteres proibidos que talvez nunca ocorram em textos escritos neste idioma
      • Todos os caracteres do idioma que será reconhecido
      • O texto pode conter números arábicos, números romanos e abreviações.
  5. Após concluir a criação do novo idioma, selecione-o como o idioma de reconhecimento para o documento.

    Finereader listpicture Criando um idioma de OCR Para obter detalhes, consulte Idiomas dos Documentos.

Por padrão, os idiomas do usuário são salvos na pasta de documentos do ABBYY FineReader. Para alterar esta pasta, selecione Ferramentas>Opções…, clique na guia Avançado e especifique uma nova pasta em Pasta de idiomas do usuário.

Criando um idioma de OCR