Discussion:
PDF platzsparend mit Scanner erzeugen
(zu alt für eine Antwort)
arno
2005-03-21 11:23:52 UTC
Permalink
Hallo,

ich möchte A4 Dokumente scannen und in möglichst kleinen PDF-Dateien
speichern. Wie macht ihr das?

Derzeit scanne ich mit 256 Graustufen, 200 dpi in eine Worddatei (dh.
der HP PSC 2210 Scanner stellt mir eine Grafik in eine Worddatei,
direkt PDF erzeugen geht glaub ich nicht). Diese Worddatei drucke ich
dann mittels CutePDF oder PDFCreator und erzeuge damit die PDF-Dateien.
Optisch bin ich sehr zufrieden, aber die PDF-Datei einer A4-Seite
benötigt ca. 450kb Speicherplatz, das ist mir zu viel. Allerdings habe
ich keine Erfahrungswerte und weiss nicht, ob 450kb wirklich viel od.
wenig sind.

Meine Dokumente haben meist schwach sichtbare Hintergrundmuster. Diese
Muster müssen zumindest andeutungsweise mitgescannt werden. Ich nehme
an, das trägt zur Dateigrösse wesentlich bei, aber es muss halt so
sein.

Viele Grüsse

arno
Michael Landenberger
2005-03-21 23:01:22 UTC
Permalink
Hallo,
Post by arno
ich möchte A4 Dokumente scannen und in möglichst kleinen PDF-Dateien
speichern.
Warum PDF? Scans sind zunächst einmal Bilder und für die ist PDF nicht das
optimale Format.
Post by arno
Wie macht ihr das?
Ich speichere die Scans je nach Vorlage als TIF (Texte) oder JPG (Fotos).
Post by arno
Derzeit scanne ich mit 256 Graustufen, 200 dpi in eine Worddatei
Kann dein Scanner kein reines Grafikformat erzeugen?
Post by arno
der HP PSC 2210 Scanner stellt mir eine Grafik in eine Worddatei,
direkt PDF erzeugen geht glaub ich nicht). Diese Worddatei drucke ich
dann mittels CutePDF oder PDFCreator und erzeuge damit die PDF-Dateien.
Optisch bin ich sehr zufrieden, aber die PDF-Datei einer A4-Seite
benötigt ca. 450kb Speicherplatz, das ist mir zu viel.
Du wirst sie in kaum einem Format (außer JPG) kleiner bekommen. Die erzeugte
PDF-Datei enthält nichts weiter als eine Grafik, und wie bereits geschrieben
ist PDF kein optimales Grafikformat.

Wenn du mindestens bei Textvorlagen eine deutliche Verkleinerung erreichen
willst, musst du die gescannte Grafik mit einem OCR-Programm in eine Textdatei
umwandeln. Die ist zwar bei hoher Ausgabequalität drastisch kleiner als die
Grafik, weicht aber im Aussehen vom Original ab bzw. der Text muss erst mühsam
so formatiert werden, dass er so wie im Original aussieht.
Eine andere Verbesserungsmöglichkeit besteht darin, dafür zu sorgen, dass
einfarbige Bereiche auf der Vorlage auch im Scan nur aus einer Farbe bestehen.
Große einfarbige Flächen lassen sich sehr effektiv komprimieren. Da der
Scanner aber u. A. die Papierstruktur der Vorlage und jedes Staubkörnchen
mitscannt, gibt es im Scan zunächst keine wirklich einfarbigen Bereiche, auch
wenn die Farbunterschiede so minimal sind, dass das Auge sie gar nicht
wahrnimmt. Hier muss man mit einem Bildbearbeitungsprogramm nachträglich dafür
sorgen, dass zusammenhängende einfarbige Flächen wirklich mit ein und
demselben Farbwert gefüllt werden.
Post by arno
Allerdings habe
ich keine Erfahrungswerte und weiss nicht, ob 450kb wirklich viel od.
wenig sind.
DIN A4 ist ca. 8 x 11,5 Zoll groß. Bei 200 dpi ergeben sich also 1600 x 2300
Pixel. Bei 256 Farben belegt jedes Pixel 1 Byte, die resultierende
unkomprimierte Datei wäre also immerhin 1600 x 2300 = 3,68 Megabyte groß. Da
bedeutet eine Reduktion auf 450 KByte schon eine recht ordentliche
Kompression.
Post by arno
Meine Dokumente haben meist schwach sichtbare Hintergrundmuster. Diese
Muster müssen zumindest andeutungsweise mitgescannt werden. Ich nehme
an, das trägt zur Dateigrösse wesentlich bei, aber es muss halt so
sein.
Ja, das erschwert eine Kompression erheblich. Meine obigen Ausführungen mit
den einfarbigen Flächen habe ich auch eher auf Vorlagen ohne jedes
Hintergrundmuster bezogen. Die OCR-Methode berücksichtigt das
Hintergrundmuster überhaupt nicht, kommt also vermutlich für dich nicht in
Frage.

Du kannst mal versuchen, ob das JPG-Format für deinen Einsatzzweck Vorteile
hat. Fotos lassen sich mit JPG sehr gut komprimieren, ohne dass die Qualität
nennenswert leidet, für Grafiken und Texte ist es allerdings weniger geeignet.
Da JPG verlustbehaftet ist, könnte das Ergebnis Artefakte enthalten, speziell
bei dem von dir erwähnten Hintergrundmuster. Um diese Artefakte zu minimieren,
brauchst du ein hochwertiges Bildbearbeitungsprogramm (z. B. Paint Shop Pro
oder Photoshop) und musst ein bisschen mit den Kompressionseinstellungen
herumexperimentieren.

Gruß

Michael
arno
2005-03-22 07:22:52 UTC
Permalink
Hallo Michael,

danke für deine Antwort!
Post by Michael Landenberger
Warum PDF?
Weil als Endresultat eine PDF-Datei produziert werden soll, die auch
ausgedruckt werden soll. Die ersten paar Seiten sind ein Word-Dokument,
dann folgen eingescannte Dokumente, das alles wird eine Produktdoku.
Post by Michael Landenberger
Ich speichere die Scans je nach Vorlage als TIF (Texte) oder JPG (Fotos).
Gut, wie machst du dann weiter wenn die Dokumente in einer pdf-Datei
zusammengefasst werden sollen?

Mit der Scanfunktion von Paint hab ich mittlerweile sehr kleine Dateien
erstellen können (35kb), allerdings nur S/W (also ohne Graustufen,
dafür fehlt das Hintergrundmuster).
Post by Michael Landenberger
Kann dein Scanner kein reines Grafikformat erzeugen?
Doch, aber es ist kein Unterschied, ob ich zuerst eine Grafik erzeuge
und die dann in ein Worddokument einfüge, diese Handgriffe übernimmt
das Scanprogramm, mehr steckt da nicht dahinter.
Post by Michael Landenberger
3,68 Megabyte groß. Da bedeutet eine Reduktion auf 450 KByte schon
eine recht ordentliche Kompression.
Hmm..., also bleibt nichts anderes übrig, als nur S/W zu scannen. Denn
10x450kb = 4,5 MB und das ist zu viel.
Post by Michael Landenberger
hochwertiges Bildbearbeitungsprogramm (z. B. Paint Shop Pro oder
Photoshop) und musst ein bisschen mit den Kompressionseinstellungen
herumexperimentieren.
Das könnte ich noch probieren, da ich ja nicht tägl. scannen muss,
sondern nur einmalig bestimmte Dokumente.

Viele Grüsse

arno
Michael Landenberger
2005-03-22 08:42:40 UTC
Permalink
Hallo,
Post by arno
Post by Michael Landenberger
Warum PDF?
Weil als Endresultat eine PDF-Datei produziert werden soll, die auch
ausgedruckt werden soll. Die ersten paar Seiten sind ein Word-Dokument,
dann folgen eingescannte Dokumente, das alles wird eine Produktdoku.
Welcher Art sind die eingescannten Dokumente? Bilder oder Texte oder gemischt?
Ich würde jedenfalls Texte nicht als Grafiken einbinden, vor allem nicht, weil
du ja ohnehin mit einer Textverarbeitung arbeitest. Bei Bildern hast du
allerdings keine Wahl. Hier kannst du aber noch optimieren, indem du das
geeignetste Grafikformat wählst.
Post by arno
Post by Michael Landenberger
Ich speichere die Scans je nach Vorlage als TIF (Texte) oder JPG
(Fotos).
Gut, wie machst du dann weiter wenn die Dokumente in einer pdf-Datei
zusammengefasst werden sollen?
Ich würde sie wie du in eine Textverarbeitung importieren und das Ganze dann
durch einen PDF-Konverter schicken. Texte (incl. Bildunterschriften) würde ich
allerdings nur in Ausnahmefällen als Grafik einbinden.
Post by arno
Mit der Scanfunktion von Paint hab ich mittlerweile sehr kleine Dateien
erstellen können (35kb), allerdings nur S/W (also ohne Graustufen,
dafür fehlt das Hintergrundmuster).
Das sieht je nach Vorlage wahrscheinlich nicht sonderlich gut aus.
Post by arno
Hmm..., also bleibt nichts anderes übrig, als nur S/W zu scannen. Denn
10x450kb = 4,5 MB und das ist zu viel.
Bevor ich die optischen Nachteile einer Monochrom-Grafik in Kauf nähme, würde
ich wie gesagt erst einmal versuchen, nur die grafischen Partien deiner
gescannten Dokumente als Grafik einzubinden und alle Texte mit Word zu
erstellen/layouten.

Gruß

Michael
arno
2005-03-29 14:15:25 UTC
Permalink
Hi,

bin zufrieden:

Die Dateien mit 256 Graustufen waren mir zu gross. Schlussendlich hab
ich meinen Scanner überreden können in S/W (1bit), 300dpi ordentlich zu
scannen, falls es nicht "schön" genug war, konnte ich den "Schwellwert"
(also welcher Grauwert schon als Schwarz gewertet wird) einstellen.
Erstellt hab ich damit tiff-Dateien, die ich in Word eingefügt habe.
Anschliessend hab ich mit einem PDF-Printer die pdf-Datei erzeugt.
Funktioniert alles bestens, die pdf-Datei mit 12 Seiten tiff-Dateien
hatte nur 350kB.

danke für die Tips

arno

Ulf Junghans
2005-03-21 21:34:14 UTC
Permalink
Hi

Also ich nutze das komerzille PDF-XChange Pro 3.0 mittlerweile.
Du kannst auch Freepdf nutzen allerdings ist Ghostscript vorausetzung.

Mfg Ulf
Loading...