Optical Character Recognition (OCR)
“Optical character recognition (OCR), of in het Nederlands: optische tekenherkenning is een transformatie waarbij uit een afbeelding van een tekst door middel van patroonherkenning alle tekens uit de afbeelding als zodanig worden herkend en apart opgeslagen door een computer(programma). Oftewel, de tekst uit een afbeelding wordt omgezet in bewerkbare tekst.
Meestal wordt een scanner gebruikt om een afbeelding van het papier te maken en naar de computer te sturen. De afbeelding wordt meestal aangemaakt met een resolutie van 150-300 dpi en opgeslagen in het TIFF formaat.
Wanneer alle tekens herkend zijn kan de OCR-software verschillende bewerkingen uitvoeren. De bekendste bewerking is het opslaan van de tekens in een verder bewerkbaar bestandsformaat, waarbij dikwijls zowel de taal van het origineel, als de fonts en de opmaak worden gereproduceerd. In dit geval wordt het een “”full text OCR”” genoemd.
Door OCR is wordt de tekst doorzoekbaar gemaakt, bijvoorbeeld in een digitale bibliotheek of in een zoekmachine.”