OCR
Mithilfe der optischen Zeichenerkennung (Optical Character Recognition, OCR) bzw. Texterkennung können gescannte PDF-Dokumente in durchsuchbare Daten umgewandelt werden.
OCR kann nicht auf PDF-Dateien angewendet werden, die zertifiziert oder digital signiert sind.
Notiz: OCR steht nur in der Version Bluebeam Revu eXtreme zur Verfügung. Die OCR-Funktion sowie Menü- und Symbolleisten-Elemente werden nicht in Bluebeam Revu Standard oder Bluebeam Revu CAD angezeigt.
Anwenden von OCR auf ein einzelnes Dokument- Öffnen Sie das Dokument, für das die OCR ausgeführt werden soll.
- Wählen Sie Dokument > OCR, oder drücken Sie STRG+UMSCHALT+O. Das Dialogfeld OCR wird geöffnet.
- Unter Erkennungssprachen sind die Sprachen für den OCR-Vorgang aufgeführt. Standardmäßig wird die Bibliothek für Englisch (USA) geladen. Mit Hinzufügen können Sie weitere Bibliotheken hinzufügen. Zum Entfernen einer Bibliothek wählen Sie die gewünschte Bibliothek aus, und klicken Sie auf Entfernen. Bei Bedarf können mehrere Bibliotheken für ein einziges Dokument verwendet werden.
Legen Sie die Optionen für die OCR-Konfiguration fest:
- Verzerrung korrigieren: Winkelabweichungen in gescannten Dokumenten werden korrigiert.
- Ausrichtung erkennen: Die Seitenausrichtung (90, 180 oder 270 Grad) der einzelnen Seiten wird erkannt und ggf. korrigiert.
- Text in Bildern und Zeichnungen erkennen: Text in Grafiken wird erkannt.
- Markups drehen: Wenn Verzerrung korrigieren aktiviert ist, können Sie mit dieser Option auch vorhandene Markups an Text oder Bildern ausrichten, deren Verzerrung bereits korrigiert wurde.
- Vektorseiten überspringen: Seiten mit Vektorinhalten werden nicht verarbeitet.
Seiten pro Stapel: Legen Sie die maximale Anzahl der Seiten fest, die jeweils gleichzeitig an die OCR-Engine gesendet werden sollen. Größere Stapel können die Geschwindigkeit steigern, belasten die Ressourcen des Computers jedoch stärker.
Notiz: Bei PDF-Dateien mit zahlreichen Seiten, hoher Dateigröße oder großformatigen Zeichnungen wird empfohlen, die Option Seiten pro Stapel zu aktivieren und den Wert 1 festzulegen. Falls die OCR ergebnislos für eine PDF-Datei ausgeführt wurde, kann die Option Seiten pro Stapel mit dem Wert 1 dieses Problem unter Umständen beheben.
- Max. Vektorgröße: Legen Sie die maximale Vektorgröße fest, die während des OCR-Vorgangs analysiert werden sollen. Alle größeren Vektoren werden dann schon bei der Vorverarbeitung verworfen. Ein niedrigerer Wert für diese Einstellung kann die Geschwindigkeit erhöhen, führt jedoch unter Umständen dazu, dass größerer Text (z. B. größere Schriftarten) unbeabsichtigt ignoriert wird.
- Optimieren für: Der OCR-Prozess wird für den ausgewählten Dokumenttyp optimiert. Bei der Einstellung CAD-Zeichnung werden beispielsweise Textformatierungen in der Regel ignoriert, bei der Einstellung Textdokument dagegen nicht.
Zum Auswählen eines Seitenbereichs klicken Sie auf das Menü Seiten , und wählen Sie unter Folgendem:
- Alle Seiten: Legt alle Seiten als Bereich fest.
- Aktuell: Legt nur die aktuelle Seite als Bereich fest. Die aktuelle Seitenzahl wird in Klammern angezeigt, beispielsweise Aktuell (2), wenn Seite 2 die aktuelle Seite ist.
- Ausgewählt: Legt die aktuelle Auswahl als Bereich fest. Diese Option wird nur dann eingeblendet, wenn Sie vor dem Aufrufen des Befehls eine oder mehrere Seiten ausgewählt haben.
- Benutzerdefiniert : Legt einen benutzerdefinierten Wert für den Bereich fest. Wenn Sie diese Option wählen, wird die Liste durch ein Textfeld ersetzt. So geben Sie einen benutzerdefinierten Bereich ein:
- Geben Sie die erste und die letzte Seitenzahl ein, getrennt von einem Bindestrich. Damit definieren Sie diese beiden Seiten und alle dazwischenliegenden Seiten als Bereich.
- Trennen Sie Seitenzahlen, die nicht aufeinanderfolgen, durch Komma voneinander ab.
Mit der Eingabe 1-3, 5, 9 definieren Sie beispielsweise die Seiten 1, 2, 3, 5 und 9 für den Bereich.
- Starten Sie die OCR mit OK.
Anwenden von OCR auf mehrere DokumenteWählen Sie Datei > Batch > OCR. Das Dialogfeld Batch: OCR wird geöffnet.
Fügen Sie Dokumente mit einer (oder beiden) der folgenden Methoden hinzu:
- Um alle aktuell in Revu geöffneten PDFs hinzuzufügen, klicken Sie auf Geöffnete Dateien hinzufügen.
- Um Dateien auf einem lokalen oder Netzlaufwerk auszuwählen, klicken Sie auf Hinzufügen.
Zum Auswählen eines Seitenbereichs klicken Sie auf das Menü Seiten , und wählen Sie unter Folgendem:
- Alle Seiten: Legt alle Seiten als Bereich fest.
- Benutzerdefiniert : Legt einen benutzerdefinierten Wert für den Bereich fest. Wenn Sie diese Option wählen, wird die Liste durch ein Textfeld ersetzt. So geben Sie einen benutzerdefinierten Bereich ein:
- Geben Sie die erste und die letzte Seitenzahl ein, getrennt von einem Bindestrich. Damit definieren Sie diese beiden Seiten und alle dazwischenliegenden Seiten als Bereich.
- Trennen Sie Seitenzahlen, die nicht aufeinanderfolgen, durch Komma voneinander ab.
Mit der Eingabe 1-3, 5, 9 definieren Sie beispielsweise die Seiten 1, 2, 3, 5 und 9 für den Bereich.
- Wählen Sie in den Menüs Anwenden auf die Option Nur gerade Seiten, Nur ungerade Seiten oder Gerade und ungerade Seiten sowie die Option Seiten im Querformat, Seiten im Hochformat oder Seiten im Hoch- und Querformat. Diese Optionen bilden zusammen den Filter; alle zu verarbeitenden Seiten müssen also beide ausgewählten Kriterien erfüllen.
- Wählen Sie die nächste PDF-Datei in der Dateiliste aus, und wiederholen Sie Schritt 3 und 4, bis die Optionen Seitenbereich und Seitenfilter für alle PDF-Dateien festgelegt sind.
Klicken Sie auf OK. Das Dialogfeld OCR wird geöffnet.
- Unter Erkennungssprachen sind die Sprachen für den OCR-Vorgang aufgeführt. Standardmäßig wird die Bibliothek für Englisch (USA) geladen. Mit Hinzufügen können Sie weitere Bibliotheken hinzufügen. Zum Entfernen einer Bibliothek wählen Sie die gewünschte Bibliothek aus, und klicken Sie auf Entfernen. Bei Bedarf können mehrere Bibliotheken für ein einziges Dokument verwendet werden.
Legen Sie die Optionen für die OCR-Konfiguration fest:
- Verzerrung korrigieren: Winkelabweichungen in gescannten Dokumenten werden korrigiert.
- Ausrichtung erkennen: Die Seitenausrichtung (90, 180 oder 270 Grad) der einzelnen Seiten wird erkannt und ggf. korrigiert.
- Text in Bildern und Zeichnungen erkennen: Text in Grafiken wird erkannt.
- Markups drehen: Wenn Verzerrung korrigieren aktiviert ist, können Sie mit dieser Option auch vorhandene Markups an Text oder Bildern ausrichten, deren Verzerrung bereits korrigiert wurde.
- Vektorseiten überspringen: Seiten mit Vektorinhalten werden nicht verarbeitet.
Seiten pro Stapel: Legen Sie die maximale Anzahl der Seiten fest, die jeweils gleichzeitig an die OCR-Engine gesendet werden sollen. Größere Stapel können die Geschwindigkeit steigern, belasten die Ressourcen des Computers jedoch stärker.
Notiz: Bei PDF-Dateien mit zahlreichen Seiten, hoher Dateigröße oder großformatigen Zeichnungen wird empfohlen, die Option Seiten pro Stapel zu aktivieren und den Wert 1 festzulegen. Falls die OCR ergebnislos für eine PDF-Datei ausgeführt wurde, kann die Option Seiten pro Stapel mit dem Wert 1 dieses Problem unter Umständen beheben.
- Max. Vektorgröße: Legen Sie die maximale Vektorgröße fest, die während des OCR-Vorgangs analysiert werden sollen. Alle größeren Vektoren werden dann schon bei der Vorverarbeitung verworfen. Ein niedrigerer Wert für diese Einstellung kann die Geschwindigkeit erhöhen, führt jedoch unter Umständen dazu, dass größerer Text (z. B. größere Schriftarten) unbeabsichtigt ignoriert wird.
- Optimieren für: Der OCR-Prozess wird für den ausgewählten Dokumenttyp optimiert. Bei der Einstellung CAD-Zeichnung werden beispielsweise Textformatierungen in der Regel ignoriert, bei der Einstellung Textdokument dagegen nicht.
- Starten Sie die OCR mit OK.
Siehe auch
Erstellen einer PDF-Datei von Scanner oder Kamera