PDFs + OCR

7. Oktober 2020

Die Digitalisierung von Papierdokumenten ist schon lange kein Graus mehr. Scanner anschließen, xsane starten, das listet beim Start die verfügbaren Bildquellen (dazu gehört z.B. auch eine Webcam) auf, Scanner auswählen, Scanvorschau anfertigen, Ausschnitt festlegen, scannen. Wenn es sich um ein mehrseitiges Dokument handelt, legt man die Scans sinnvoll nummeriert ab, d.h. scan01.jpg, scan02.jpg, … Die führenden Nullen sind notwendig, damit im nächsten Schritt mit ImageMagick ein richtig sortiertes Dokument erstellt werden kann.

$ convert scan*.jpg MeinDokument.pdf

Die PDF-Datei besteht nun aus Bildern und kann im PDF-Viewer nicht durchsucht werden. Um das zu ermöglichen, bedient man sich noch des Python-Skipts ocrmypdf.

$ ocrmypdf MeinDokument.pdf MeinDokument_mitOcr.pdf

dotfiles

6. April 2023

git dotfiles linux

Screenshots nach PDF

9. Dezember 2021

linux zoom imagemagick ocrmypdf ocr

Liederliste aus Radiostream extrahieren

22. November 2019

streaming linux