Vytváranie jazyka rozpoznávania OCR

Počas rozpoznávania OCR v dokumente používa program ABBYY FineReader niektoré informácie o jazyku dokumentu (tento jazyk treba vybrať v rozbaľovacom zozname Jazyky dokumentu v okne Dokument). Ak je v texte priveľa nezvyklých skratiek alebo slov, program ich nemusí správne rozpoznať. V takomto prípade možno budete chcieť vytvoriť pre daný dokument vlastný rozpoznávací jazyk.

  1. V ponuke Nástroje vyberte možnosť Editor jazykov….
  2. V dialógovom okne Editor jazykov kliknite na položku Nový….
  3. V dialógovom okne Nový jazyk alebo skupina vyberte možnosť Vytvoriť nový jazyk na základe existujúceho jazyka a v rozbaľovacom zozname nižšie vyberte jazyk, ktorý chcete používať. Kliknite na tlačidlo OK
  4. V dialógovom okne Vlastnosti jazyka vyberte vlastnosti nového jazyka OCR.
    1. Názov jazyka – do tohto poľa zadajte názov vášho jazyka rozpoznávania OCR.
    2. Zdrojový jazyk – jazyk, na základe ktorého vytvoríte svoj nový jazyk rozpoznávania OCR. (Zobrazuje jazyk, ktorý ste vybrali v dialógovom okne Nový jazyk alebo skupina. Ak chcete vybrať iný jazyk, kliknite na šípku vpravo.)
    3. Abeceda – zobrazí zoznam znakov abecedy zdrojového jazyka. Kliknutím na možnosť Finereader dotbutton Vytváranie jazyka rozpoznávania OCR pridajte alebo odstráňte znaky.
    4. Slovník – slovník, ktorý bude program ABBYY FineReader používať na vykonanie rozpoznávania OCR v dokumente a na kontrolu rozpoznaného textu. K dispozícii sú nasledujúce možnosti:

      • Žiadny
        Nepoužije sa nijaký slovník.
      • Vstavaný slovník
        Použije sa slovník, ktorý sa dodáva s programom ABBYY FineReader.
      • Používateľský slovník
        Použije sa používateľský slovník. Na tlačidlo Upraviť… kliknite vtedy, ak chcete do slovníka pridať nové slová, alebo ak chcete importovať existujúci používateľský slovník alebo textový súbor v kódovaní Windows (ANSI) alebo Unicode. Slová v textovom súbore, ktorý chcete importovať, musia byť oddelené medzerami alebo inými neabecednými znakmi.

        Poznámka: Slová z používateľského slovníka môžu mať v rozpoznávanom texte nasledujúce veľkosti písmen: 1) iba malé písmená, 2) iba veľké písmená, 3) prvé písmeno veľké,  4) veľkosť podľa zápisu v používateľskom slovníku. Tieto štyri možnosti sú zhrnuté v nižšie uvedenej tabuľke.

        Slovo podľa zápisu v používateľskom slovníku Možnosti zobrazenia slova v texte
        abc abc, Abc, ABC
        Abc abc, Abc, ABC
        ABC abc, Abc, ABC
        aBc aBc, abc, Abc, ABC
      • Bežný výraz
        Správny výraz môžete použiť na vytvorenie nového jazyka.
        Finereader listpicture Vytváranie jazyka rozpoznávania OCR Podrobnosti sú uvedené v časti Regulárne výrazy.
    5. Rozšírené… – otvorí sa dialógové okno Rozšírené vlastnosti jazyka, kde môžete určiť rozšírené vlastnosti svojho jazyka:

      • Nepísmenové znaky, ktoré sa môžu vyskytnúť na začiatku alebo na konci slov
      • Samostatne stojace nepísmenové znaky (interpunkčné znamienka, atď.)
      • Znaky, ktorých výskyt v slovách bude ignorovaný
      • Zakázané znaky, ktoré sa v texte napísanom týmto jazykom nesmú nikdy vyskytnúť
      • Všetky znaky jazyka, ktoré sa majú rozpoznávať
      • Text môže obsahovať arabské číslice, rímske číslice a skratky.
  5. Keď dokončíte vytváranie nového jazyka, vyberte ho ako rozpoznávací jazyk pre váš dokument.

    Finereader listpicture Vytváranie jazyka rozpoznávania OCR Podrobnosti sú uvedené v časti Jazyky dokumentu.

Používateľské jazyky sa štandardne ukladajú do priečinka dokumentov programu ABBYY FineReader. Ak chcete tento priečinok zmeniť, vyberte položku Nástroje>Možnosti…, kliknite na kartu Rozšírené a v časti Priečinok s používateľskými jazykmi špecifikujte nový priečinok.

Vytváranie jazyka rozpoznávania OCR