PDFs + OCR

7. Oktober 2020

Die Digitalisierung von Papierdokumenten ist schon lange kein Graus mehr. Scanner anschließen, xsane starten, das listet beim Start die verfügbaren Bildquellen (dazu gehört z.B. auch eine Webcam) auf, Scanner auswählen, Scanvorschau anfertigen, Ausschnitt festlegen, scannen. Wenn es sich um ein mehrseitiges Dokument handelt, legt man die Scans sinnvoll nummeriert ab, d.h. scan01.jpg, scan02.jpg, … Die führenden Nullen sind notwendig, damit im nächsten Schritt mit ImageMagick ein richtig sortiertes Dokument erstellt werden kann.

$ convert scan*.jpg MeinDokument.pdf

Die PDF-Datei besteht nun aus Bildern und kann im PDF-Viewer nicht durchsucht werden. Um das zu ermöglichen, bedient man sich noch des Python-Skipts ocrmypdf.

$ ocrmypdf MeinDokument.pdf MeinDokument_mitOcr.pdf

Liederliste aus Radiostream extrahieren

22. November 2019

csv nach png

15. Oktober 2019

Debian in Qemu unter Windows

30. August 2019