Co je optické rozpoznávání znaků (OCR)?

Optické rozpoznávání znaků (OCR) označuje software, který vytváří digitální verzi tištěného, ​​napsaného nebo ručně psaného dokumentu, který mohou počítače číst bez nutnosti ručního psaní nebo zadávání textu. OCR se obecně používá na naskenovaných dokumentech ve formátu PDF , ale může také vytvořit v počítači obrazovou verzi textu.

Co je OCR?

OCR, označovaný také jako rozpoznávání textu, je softwarová technologie, která transformuje znaky jako jsou čísla, písmena a interpunkce (také nazývané glyfy) z tištěných nebo psaných dokumentů do elektronické podoby, která je snadněji rozpoznává a čte počítačem a jinými softwarovými programy. Některé programy OCR to udělají, když se dokument skenuje nebo fotografuje pomocí digitálního fotoaparátu a jiní mohou tento proces použít na dokumenty, které byly dříve skenovány nebo fotografovány bez OCR. OCR umožňuje uživatelům vyhledávat v dokumentech PDF, upravovat text a přeformátovat dokumenty.

Co je OCR používáno?

Pro rychlé, každodenní skenování je třeba, že OCR nemusí být velký problém. Pokud provádíte velké množství skenování, vyhledávání ve formátu PDF a nalezení toho, co potřebujete, může ušetřit poměrně málo času a tím je důležitější funkce OCR v programu skeneru. Zde jsou některé další věci, které OCR pomáhá:

Proč používat OCR?

Proč ne jen fotografovat? Protože byste nemohli nic upravovat nebo hledat text, protože by to byl jen obrázek. Skenování dokumentu a spuštění OCR softwaru může tento soubor změnit na něco, co můžete upravit a vyhledat.

Historie OCR

Zatímco nejdříve bylo použito rozpoznávání textu do roku 1914, rozsáhlý vývoj a používání technologií souvisejících s OCR začalo v padesátých letech vážně, a to zejména vytvořením velmi zjednodušených písem, které bylo jednodušší převést na digitálně čitelný text. První z těchto zjednodušených písem vytvořil David Shepard a obecně známý jako OCR-7B. OCR-7B je dnes ve finančním odvětví stále používán pro standardní fonty používané na kreditních kartách a debetních kartách. V šedesátých letech začaly poštovní služby v několika zemích používat technologii OCR, která značně urychlila třídění pošty, včetně Spojených států, Velké Británie, Kanady a Německa. OCR je stále jádrová technologie, která slouží k třídění pošty pro poštovní služby po celém světě. V roce 2000 byla klíčová znalost limitů a schopností technologie OCR použita při vývoji programů CAPTCHA používaných k zastavení robotů a spamerů.

Během desetiletí se OCR stala přesnější a sofistikovanější díky pokroku v oblastech souvisejících s technologiemi, jako je umělá inteligence , strojní učení a počítačové vidění. Dnešní software OCR používá rozpoznávání vzorků, detekci funkcí a textové dolování, aby dokázaly rychleji a přesněji přeměňovat dokumenty než kdykoli předtím.