Raster, Vektoren und Text – woraus besteht eigentlich meine PDF-Datei?

Übersicht

So finden Sie heraus, ob Sie es mit einer raster- oder vektorbasierten PDF-Datei zu tun haben und was dies für das Ausrichten eines Objekts bzw. Auswählen von Text bedeutet.

Relevante Produkte

Revu® für Windows® und Revu für Mac®


Problem

  • Ein Objekt lässt sich beim Messen nicht ausrichten.
  • Sie können Text nicht mit Bearbeiten > PDF-Inhalt > Text bearbeiten bearbeiten.
  • Das Auswählen oder Durchsuchen von Text funktioniert nicht.

Warum passiert das?

Das liegt in beiden Fällen daran, dass PDF-Dateien nicht auf gleiche Weise erstellt werden. Selbst wenn zwei Dateien auf den ersten Blick gleich aussehen, kann es sein, dass die eine mehr Daten enthält als die andere.

Der Anschein, dass eine Seite Linien und Zeichen enthält, kann trügen. Das Ausrichten am Inhalt und Durchsuchen und Auswählen von Text funktioniert indes nur bei PDF-Dateien, die tatsächlich aus Vektorlinien und Textelementen bestehen.

Raster- und Vektorinhalte im Vergleich

Worin besteht nun der Unterschied zwischen PDF-Dateien mit Raster- bzw. Vektorinhalten?

PDF-Datei mit Rasterinhalten PDF-Datei mit Vektorinhalten

Raster

Ein Rasterbild besteht aus rechteckigen Punkten, sogenannten Pixeln. Wenn Sie beispielsweise ein Dokument scannen, wird eine Datei mit Rasterinhalten erstellt. Beim Scannen wird ein Bitmap-Bild (wie ein JPEG oder TIFF) der jeweiligen Seite erstellt und auf der PDF-Seite positioniert. Anstelle von Linien und Text, die für den Computer als solche erkennbar sind, enthalten eingescannte PDF-Dateien also nur ein Raster aus Punkten, die Linien und Text repräsentieren. Folglich haben sie weder Linien, an denen Inhalte ausgerichtet werden können, noch Text, der ausgewählt oder durchsucht werden kann.

Wenn Sie herausfinden wollen, ob es sich bei einer PDF-Datei um ein Rasterbild oder einen Scan handelt, müssen Sie sie in der Bildschirmansicht stark vergrößern. Dann erscheinen die Linien und Zeichen auf der Seite entweder als Raster aus rechteckigen Punkten, oder sie verschwimmen.

Vektorinhalte

In einer vektorbasierten PDF-Datei werden sämtliche geometrischen Elemente auf der Seite mit Liniensegmenten definiert. PDF-Dateien, die mit CAD-Programmen erstellt wurden, sind in den meisten Fällen vektorbasiert. Vektorbasierte PDFs sind PDFs mit Rasterinhalten in aller Regel vorzuziehen, weil sie mehr Daten enthalten und sich daher besser bearbeiten lassen. Falls möglich, sollten Sie immer mit vektorbasierten PDFs arbeiten, die direkt aus der Quelldatei erstellt wurden, anstatt PDFs aus eingescannten Dokumenten zu erstellen.

Vektorbasierte PDF-Dateien haben u. a. den Vorteil, dass die geometrischen Elemente weiterhin scharf dargestellt werden, wenn einzelne Details einer Zeichnung vergrößert werden. Mithilfe der Funktion „Am Inhalt ausrichten“ sind in einer vektorbasierten PDF-Datei präzise Messungen und Materialberechnungen (einschließlich ihrer Kalibrierung) möglich.

Text

In PDF-Dateien ist Text ein eigenständiger Inhaltstyp. So können Sie nicht automatisch davon ausgehen, dass es sich bei Textzeichen in PDF-Dateien tatsächlich um PDF-Textelemente handelt. Es kann auch sein, dass sie aus Rasterpunkten oder vektoriellen Liniensegmenten bestehen. Diese Elemente sehen zwar aus wie Text, enthalten jedoch nicht die Daten, die sie für den Computer als Text erkennbar machen. Insofern handelt es sich eigentlich nicht um Texte, sondern um Bilder, die sich weder auswählen noch durchsuchen oder bearbeiten lassen.

Um keine weitere Verwirrung zu stiften, bezieht sich die Bezeichnung „Zeichen“ im Folgenden auf Text im allgemeinen Sinn. Als „Text“ werden nur PDF-Textelemente bezeichnet, also Text, der für den Computer als solcher erkennbar ist.

Bevor wir ins Detail gehen, gibt es einen Schnelltest, um festzustellen, ob Ihr PDF Text enthält. Klicken Sie in der Menüleiste auf Bearbeiten > PDF-Inhalt > Gesamten Text auswählen (in Revu 2017 und älteren Versionen gehen Sie zu Bearbeiten > Auswählen > Gesamten Text auswählen). Alle in Ihrer PDF-Datei enthaltenen Textelemente werden nun blau hervorgehoben. Wenn Zeichen nicht hervorgehoben werden, handelt es sich um raster- bzw. vektorbasiert Bilder.

Hervorgehobener Text
  1. PDF-Textelemente (oder echter Text) – Für PDFs immer vorzuziehen, da sich Inhalte dadurch besser bearbeiten lassen. PDF-Dateien, die aus textbasierten Programmen wie Word® und Excel® erstellt werden, enthalten so gut wie immer echten Text. Beim Vergrößern sehen die Zeichenränder immer scharf und sauber aus, auch wenn Sie noch so nahe heranzoomen. Der Text kann immer durchsucht und ausgewählt werden.
  2. Mithilfe der optischen Zeichenerkennung (OCR) (nur bei Revu eXtreme) können gescannte PDF-Dokumente in durchsuchbare Daten umgewandelt werden. OCR übersetzt sozusagen die Bilder in einer eingescannten PDF-Datei und legt dann eine unsichtbare Textschicht darüber. Dadurch wird es möglich, Bilder, die keinen Text enthalten, zu durchsuchen, auszuwählen und zu markieren.
  3. Vektorbasierte Zeichen – Die Form der einzelnen Zeichen wird mit Liniensegmenten gezeichnet. Dies betrifft vor allem PDF-Dateien, die mit CAD-Programmen (zumeist AutoCAD®) erstellt wurden oder Schriftarten enthalten, die nicht zu den TrueType-Schriftarten gehören.
    • Warum verwenden CAD-Programme nicht einfach TrueType-Schriftarten zum Erstellen von Text? Das liegt daran, dass es AutoCAD bereits vor Macintosh®, Windows® und TrueType-Schriftarten gab. Die Programmierer mussten damals eigene Systemschriften entwickeln, die als SHX-Schriften bezeichnet werden. SHX-Schriften werden aus Liniensegmenten aufgebaut. Diese Liniensegmente werden anstelle von Textdaten in die PDF-Datei übernommen.
    • Zum Erstellen von PDF-Dateien sind TrueType-Fonts in CAD-Programmen vorzuziehen. Das Bluebeam-Plug-in für Auto CAD konvertiert TrueType-Schriftarten automatisch in durchsuchbaren Text.
    • Vektor-Zeichen weisen beim Vergrößern klumpige Konturen auf. Diese Klümpchen werden durch die Liniensegmente verursacht, aus denen die einzelnen Zeichen zusammengesetzt sind.
    • In Grafikprogrammen wie Adobe Illustrator® werden Zeichen ebenfalls aus Vektoren zusammengesetzt. Hier sehen die Ränder beim Vergrößern der Bildschirmansicht jedoch scharf und sauber aus.
  4. Rasterbasierte Zeichen – Wie bereits erläutert, besteht jedes Zeichen aus einzelnen Pixeln.
Beispiele für Zeichen, die jeweils als Text, Vektorinhalt und rasterbasierte Zeichen formatiert sind.

Weitere Informationen

AutoCAD: Erstellen von PDFs mit durchsuchbarem Text – Erfahren Sie, wie Sie mit AutoCAD durchsuchbare PDFs erzeugen.

 

Anleitungen

Revu 2017 und älter

Revu 2018

Revu 2019

Revu für Mac 2

Revu für Mac 1

Dokumentenverarbeitung