2007-04-18

Google Book Search – noch ein beispiel

Frauendienst, oder: Geschichte und Liebe des Ritters und Sängers Ulrich von Lichtenstein, von... By Ludwig Tieck, 1812 - Original from Oxford University (Digitized Dec 12, 2006). – Bei diesem e-book lassen sich fast alle techniken studieren, die man beim erstellen eines PDF-digitalisats vermeiden sollte (bei s. 100 habe ich die überprüfung eingestellt, da sich das buch im derzeitigen zustand nicht als vorlage bei www.pgdp.net verwenden lässt):

  • Die ersten seiten sind doppelt vorhanden, ebenso s. 60/61.
  • Die seiten 47 und 79 sind in ebenen (»layered«) realisiert. Das schwarz-weiße hintergrundsbild weist rechteckige leerstellen auf, in denen der jeweilige inhalt als graustufenbild in einer sehr geringen auflösung (72 dpi?) übergeblendet ist – mittels pdfimages lassen sich die einzelnen bestandteile extrahieren. Diese ebenen-technik mag bei abbildungen wie fotos oder bei sehr vergilbten und somit kontrastarmen seiten ihre berechtigung haben, die willkürliche anwendung auf einige textpartien beeinträchtigt jedoch die erscheinung des digitalisats und erschwert das einlesen mit einer OCR-software. Auf 150dpi herunterskaliert und nach graustufen gewandelt lässt die seite sich mit dem folgenden kommando einebnen und nach PNG wandeln:

    pdftoppm -r 150 -gray -f 73 -l 73 \
    Frauendienst__oder.pdf tmp
    convert tmp-000073.pgm 047_150dpi.png
  • Die seiten 66(68)/69 und 96/97 fehlen – dabei erscheint anstelle der eigentlichen s. 66 die s. 68. Eine derartige rösselsprung-sortierung ist auch bei einigen anderen werden festzustellen.

Es bleibt zu hoffen, dass Google ggf. nachscannen und das PDF neu erstellen lässt, oder dass die gleiche veröffentlichung im rahmen einer anderen digitalisierungsmaßnahme (z.b. bei der BSB München, falls das buch dort vorhanden ist) noch einmal bearbeitet wird.

No comments: