Een OCR-taal maken

Wanneer u OCR op een document toepast, maakt ABBYY FineReader gebruik van informatie over de taal van het document. (U dient deze taal in te stellen met behulp van de vervolgkeuzelijst Documenttalen in het venster Document.) Als de tekst te veel ongebruikelijke afkortingen of woorden bevat, kan het programma deze woorden mogelijk niet goed herkennen. Wanneer dit zich voordoet, kunt u zelf een OCR-taal voor dit document maken.

  1. Selecteer in het menu Gereedschappen de optie Taleneditor….
  2. In het dialoogvenster Taleneditor klikt u op Nieuw.
  3. In het dialoogvenster Nieuwe taal of groep selecteert u Een nieuwe taal aanmaken gebaseerd op een bestaande taal en vervolgens kiest u uit de vervolgkeuzelijst de gewenste taal. Klik op OK.
  4. In het dialoogvenster Taaleigenschappen dat nu wordt geopend, specificeert u de eigenschappen van de nieuwe OCR-taal.
    1. Taalnaam – Typ in dit veld een naam voor de OCR-taal.
    2. Brontaal – Dit is de taal waarop de nieuwe OCR-taal wordt gebaseerd. (Toont de taal die u in het dialoogvenster Nieuwe taal of groep hebt geselecteerd. Klik op de pijl naar rechts als u een andere taal wilt selecteren.)
    3. Alfabet – Toont de tekens uit het alfabet van de brontaal. Klik op Finereader dotbutton Een OCR taal maken om tekens toe te voegen of te verwijderen.
    4. Woordenboek – Dit is het woordenboek dat wordt gebruikt bij de uitvoering van OCR op uw document en bij de controle van de herkende tekst. De volgende opties zijn beschikbaar:
      • Geen
        Er wordt geen woordenboek gebruikt.
      • Ingebouwd woordenboek
        Het met ABBYY FineReader meegeleverde woordenboek wordt gebruikt.
      • Gebruikerswoordenboek
        Er wordt een gebruikerswoordenboek gebruikt. Klik op de knop Bewerken… als u woorden aan het woordenboek wilt toevoegen of als u een bestaand gebruikerswoordenboek of een tekstbestand in Windows- (ANSI) of Unicode-indeling wilt importeren. De woorden in het tekstbestand dat u wilt importeren, moeten van elkaar worden gescheiden door spaties of andere niet-alfabetische tekens.

        Opmerking. Voor woorden uit het gebruikerswoordenboek kunnen in de herkende tekst de volgende types van hoofdlettergebruik voorkomen: 1) alleen kleine letters, 2) alleen hoofdletters, 3) eerste letter is hoofdletter, 4) zoals gespeld in het gebruikerswoordenboek. De onderstaande tabel geeft een overzicht van de vier mogelijkheden.

        Woord volgens de spelling in het gebruikerswoordenboek Mogelijke vormen waarin het woord in de tekst voorkomt
        abc abc, Abc, ABC
        Abc abc, Abc, ABC
        ABC abc, Abc, ABC
        aBc aBc, abc, Abc, ABC

      • Normale uitdrukking
        U kunt gebruikmaken van een reguliere expressie om een nieuwe taal te maken.

        Finereader listpicture Een OCR taal maken Zie Reguliere expressies voor meer informatie.

    5. Geavanceerd… – Hiermee opent u het dialoogvenster Geavanceerde taalgroepeigenschappen, waarmee u geavanceerde eigenschappen voor de taal kunt instellen:

      • Tekens die geen letters zijn en die aan het begin of aan het eind van woorden kunnen voorkomen
      • Tekens die geen letters zijn en die op zichzelf mogen voorkomen (bijvoorbeeld leestekens)
      • Tekens die moeten worden genegeerd wanneer ze binnen een woord voorkomen
      • Verboden tekens die nooit mogen voorkomen in teksten die in deze taal zijn geschreven
      • Alle tekens in de taal die moeten worden herkend
  5. Nadat u de nieuwe taal hebt gemaakt, stelt u deze taal in als de OCR-taal voor uw document.

    Finereader listpicture Een OCR taal maken Zie Documenttalen voor meer informatie.

De standaardinstelling is dat de gebruikerstalen worden opgeslagen in de documentenmap van ABBYY FineReader. Als u deze map wilt wijzigen, selecteert u Gereedschappen>Opties…. Klik vervolgens op het tabblad Geavanceerd en specificeer een nieuwe map onder Map met door gebruiker gedefinieerde talen.

Een OCR-taal maken