Problemer med rasterbaserede PDF-filer

Resumé

Sådan finder du ud af, om din PDF-fil er raster- eller vektorbaseret, og hvordan dette påvirker muligheden for at fastgøre til et objekt eller vælge tekst.

Problem

Du kan ikke fastgøre til et objekt, når du foretager opmålinger.
Du kan ikke redigere tekst ved hjælp af Rediger > PDF-indhold > Rediger tekst.
Du kan ikke vælge eller søge efter tekst.

Hvorfor sker dette?

Begge dele sker, fordi ikke alle PDF-filer er skabt på samme måde. Nogle PDF-filer indeholder flere oplysninger end andre, selvom de ser ens ud ved første øjekast.

Siden ser måske ud til at indeholde linjer og tegn, men underliggende elementer, der repræsenterer dem i PDF-filen er måske ikke vektorlinjer og tekstelementer, der er nødvendige for at fastgøre til indhold og søge og vælge tekst.

Raster- vs. vektorindhold

Lad os kigge på forskellen mellem raster- og vektorindhold i en PDF-fil.

PDF-fil med raster	PDF-fil med vektor

Raster

Et rasterbillede er oprettet fra en serie af firkantede prikker kaldet pixels. Et eksempel på en PDF-fil med raster er en fil oprettet fra et indscannet papirark. En scannet PDF-fil oprettes ved at lave et bitmap-billede (som et JPEG eller TIFF) af siden og placere billedet på PDF-siden. Dette betyder, at en scannet PDF-fil eller PDF-fil med raster kun indeholder et gitter af prikker, der repræsenterer linjer og tekst. Den indeholder rent faktisk ikke linjer eller tekst, som en computer kan genkende. Der er derfor ingen linjer, som funktionen Fastgør til indhold kan fastgøre til og ingen tekst at vælge eller søge i.

Find ud af, om en PDF-fil er et rasterbillede eller scanning ved at zoome helt tæt på. Linjerne eller tegnene på siden ændres enten til et gitter med firkantede prikker eller bliver sløret.

Vektor

En vektorbaseret PDF-fil bruger linjesegmenter til at definere al geometrien på siden. De fleste PDF-filer oprettet fra CAD (Computer-Aided Design) er vektor-baserede. PDF-filer med vektor er normalt at foretrække i forhold til PDF-filer med raster, da de indeholder flere data, der gør det nemmere at arbejde med filen. Du bør normalt altid prøve at arbejde med PDF-filer med vektor oprettet fra kilden i stedet for at oprette PDF-filer fra indscanninger.

Fordelen ved at arbejde med en PDF-fil med vektor er, at visningen af geometrien forbliver skarp, når du zoomer ind for at se tegningens detaljer. Derfor er opmålinger og materialeforbrug (samt kalibrering) nøjagtigt i en PDF-fil med vektor, da du kan bruge Fastgør til indhold til at fastgøre til vektorlinjerne i PDF-filen.

Tekst

Tekst er en uafhængig indholdstype i PDF-filer. Du kan se teksttegn i PDF-filen, men disse tegn er ikke nødvendigvis PDF-tekstelementer. De kan i stedet for være defineret af raster-prikker eller vektor-linjeelementer. Selvom disse elementer ser ud til at være tekst, har de ikke dataene, der gør det muligt for en computer at genkende dem som tekst. Som sådan er denne type "tekst" egentligt et billede, der ikke kan vælges, søges eller redigeres.

For at undgå forvirring vil "tegn" referere til tekst generelt, mens "tekst" vil referere til PDF-tekstelementer eller "rigtig tekst".

Før vi går i detaljer, er der en hurtig test til at afgøre, om din PDF-fil indeholder tekst. Fra menulinjen skal du gå til Rediger > PDF-indhold > Vælg al tekst (i Revu 2017 og ældre skal du gå til Rediger > Vælg > Vælg al tekst). Al tekst i PDF-filen skal fremhæves med blåt. Hvis tegnene ikke fremhæves, er de enten et raster- eller et vektorbillede.

Fremhævet tekst

PDF-tekstelementer (eller rigtig tekst) – Altid foretrukket til PDF-filer, fordi det resulterer i mere responsivt indhold. PDF-filer oprettet fra tegnbaserede programmer (f.eks. Word og Excel) skaber næsten altid PDF-filer, der indeholder rigtig tekst. Når du zoomer ind på teksten, ser kanterne på tegnene altid skarpe og sprøde ud – uanset hvor tæt du zoomer ind. Teksten er søgbar og kan altid vælges.
Optical Character Recognition (OCR)-tekst – kørsel af OCR (kun til Revu eXtreme) giver mulighed for at oversætte raster- og vektorbilleder til søgbare data. OCR fortolker med andre ord billederne i en scannet PDF-fil og opretter et usynligt tekstlag oven på dem. Dette lag er det, der gør det muligt at søge, vælge og fremhæve billeder, der ikke indeholder rigtig tekst.
Vektortegn – Oprettet af linjesegmenter, der bruges til at tegne formen på hvert tegn. Dette sker normalt, når PDF-filen er oprettet fra CAD (ofte AutoCAD), eller der bruges en ikke-TrueType-skrifttype.
- Hvorfor bruger CAD ikke TrueType-skrifttyper til at oprette rigtig tekst? Svaret er, at AutoCAD er ældre end Macintosh, Windows og TrueType-skrifttyper. De havde brug for at oprette deres eget system af skrifttyper, kaldet SHX-skrifttyper. SHX-skrifttyper defineres ved hjælp af linjesegmenter. Disse linjesegmenter oversættes til PDF-filen i stedet for tekstdata.
- Det foretrækkes at bruge TrueType-skrifttyper i CAD til at oprette PDF-filer. Bluebeam-plugin'et til AutoCAD konverterer automatisk TrueType-skrifttyper til søgbar test.
- Vektortegn kan genkendes på deres ujævne udseende, når der zoomes ind. Disse ujævnheder oprettes af de linjesegmenter, der udgør hvert tegn.
- Grafiske designprogrammer (f.eks Adobe Illustrator), også oprette vektortegn. Disse vektortegn har dog klare, skarpe kanter, når de zoomes ind.
Rastertegn –individuelle pixels bruges som nævnt tidligere til at definere hvert tegn.

Eksempler på tegn, der er henholdsvis tekst, vektor og raster.

Flere oplysninger

AutoCAD: oprettelse af PDF-filer med søgbar tekst – lær, hvordan du opretter søgbare PDF-filer fra AutoCAD.

Fejlfinding

Revu 21

Revu 20

Dokumentbehandling

Sådan finder du ud af, om din PDF-fil er raster- eller vektorbaseret, og hvordan dette påvirker muligheden for at fastgøre til et objekt eller vælge tekst.