Optische Zeichenerkennung (OCR)

„Bei der optischen Zeichenerkennung (Optical character recognition, OCR) wird eine Abbildung in einem Text mittels Mustererkennung, wobei alle Zeichen der Abbildung als solche erkannt und mit einem Computer (-programm) separat gespeichert werden, umgewandelt. Auf diese Weise wird der Text der Abbildung in einen bearbeitbaren Text umgewandelt.

Normalerweise wird ein Scanner verwendet, um eine Abbildung des Papiers zu erstellen und es an den Computer zu senden. Die Abbildung wird normalerweise mit einer Auflösung von 150-300 dpi erstellt und im TIFF-Format gespeichert.

Sobald alle Zeichen erkannt wurden, kann die OCR-Software verschiedene Operationen durchführen. Die bekannteste Bearbeitung ist das Speichern der Zeichen in einem weiteren bearbeitbaren Dateiformat, wobei oft die Sprache des Originals sowie Schriftarten und Formatierungen reproduziert werden. In diesem Fall spricht man von einer „Volltext-OCR“.

Durch OCR wird der Text durchsuchbar gemacht, beispielsweise für Dateien in einer digitalen Bibliothek oder für die Nutzung einer Suchmaschine”.

Terug