PDFs + OCR
7. Oktober 2020
Die Digitalisierung von Papierdokumenten ist schon lange kein Graus mehr.
Scanner anschließen, xsane starten, das listet beim Start die verfügbaren Bildquellen (dazu gehört z.B. auch eine Webcam) auf, Scanner auswählen, Scanvorschau anfertigen, Ausschnitt festlegen, scannen.
Wenn es sich um ein mehrseitiges Dokument handelt, legt man die Scans sinnvoll nummeriert ab, d.h. scan01.jpg
, scan02.jpg
, …
Die führenden Nullen sind notwendig, damit im nächsten Schritt mit ImageMagick ein richtig sortiertes Dokument erstellt werden kann.
$ convert scan*.jpg MeinDokument.pdf
Die PDF-Datei besteht nun aus Bildern und kann im PDF-Viewer nicht durchsucht werden. Um das zu ermöglichen, bedient man sich noch des Python-Skipts ocrmypdf.
$ ocrmypdf MeinDokument.pdf MeinDokument_mitOcr.pdf