Wat is Optical Character Recognition (OCR)?

Optical Character Recognition (OCR) verwijst naar software die een digitale versie van een gedrukt, getypt of met de hand geschreven document maakt dat computers kunnen lezen zonder dat u de tekst handmatig hoeft in te voeren of in te voeren. OCR wordt over het algemeen gebruikt op gescande documenten in PDF-indeling, maar kan ook een computerleesbare tekstversie in een afbeeldingsbestand maken.

Wat is OCR?

OCR, ook wel tekstherkenning genoemd, is softwaretechnologie die tekens zoals getallen, letters en interpunctie (ook wel glyphs genoemd) uit afgedrukte of geschreven documenten omzet in een elektronische vorm die gemakkelijker wordt herkend en gelezen door computers en andere softwareprogramma's. Sommige OCR-programma's doen dit omdat een document wordt gescand of gefotografeerd met een digitale camera en anderen dit proces kunnen toepassen op documenten die eerder zonder OCR zijn gescand of gefotografeerd. Met OCR kunnen gebruikers zoeken in PDF-documenten, tekst bewerken en documenten opnieuw formatteren.

Waarvoor wordt OCR gebruikt?

Voor snelle, dagelijkse scanbehoeften is OCR misschien geen probleem. Als u veel scant, kunt u in PDF's zoeken naar de exacte map die u nodig hebt en u kunt veel tijd besparen en maakt OCR-functionaliteit in uw scannerprogramma belangrijker. Hier zijn enkele andere dingen die OCR helpt bij:

Geautomatiseerde gegevensverwerking en gegevensinvoer (voorbeeld: traceersystemen voor sollicitanten voor cv's)
Gescande boeken doorzoekbaar maken
Handgeschreven scans omzetten in computerleesbare tekst
Documenten beter bruikbaar maken door lezerprogramma's die visueel gehandicapte gebruikers helpen
Behoud van historische documenten en kranten, terwijl ze ook doorzoekbaar zijn
Data-extractie en overdracht naar boekhoudprogramma's (Voorbeeld: ontvangsten en facturen)
Indexeren van documenten voor gebruik door zoekmachines
Erkenning van rijbewijsplaten door flitspaal en rossecamera-software
Spraaksynthesizers voor mensen die niet kunnen spreken - theoretisch fysicus, Stephen Hawking, is misschien de meest bekende gebruiker van een spraaksynthesizerprogramma

Waarom OCR gebruiken?

Waarom niet gewoon een foto maken, toch? Omdat je niets zou kunnen bewerken of de tekst zou kunnen doorzoeken omdat het gewoon een afbeelding zou zijn. Als u het document scant en OCR-software uitvoert, kunt u dat bestand omzetten in iets dat u kunt bewerken en kunt zoeken.

Geschiedenis van OCR

Terwijl het allereerste gebruik van tekstherkenning dateert van 1914, begon de wijdverspreide ontwikkeling en het gebruik van OCR-gerelateerde technologieën in de jaren vijftig serieus, met name door het creëren van zeer vereenvoudigde lettertypen die gemakkelijker konden worden omgezet in digitaal leesbare tekst. De eerste van deze vereenvoudigde lettertypen is gemaakt door David Shepard en staat algemeen bekend als OCR-7B. OCR-7B is nog steeds in gebruik in de financiële sector voor het standaardlettertype dat wordt gebruikt op creditcards en betaalpassen. In de jaren zestig begonnen de postdiensten in verschillende landen OCR-technologie te gebruiken om het sorteren van post enorm te versnellen, waaronder de Verenigde Staten, Groot-Brittannië, Canada en Duitsland. OCR is nog steeds de kerntechnologie die wordt gebruikt om post voor postdiensten over de hele wereld te sorteren. In 2000 werd belangrijke kennis van de limieten en mogelijkheden van OCR-technologie gebruikt om de CAPTCHA-programma's te ontwikkelen die worden gebruikt om bots en spammers te stoppen.

In de loop van de decennia is OCR nauwkeuriger en geavanceerder geworden als gevolg van ontwikkelingen op gerelateerde technologische gebieden zoals kunstmatige intelligentie, machinaal leren en computervisie. Tegenwoordig maakt OCR-software gebruik van patroonherkenning, functieherkenning en text mining om documenten sneller en nauwkeuriger dan ooit tevoren te transformeren.