Problemer med rasterbaserte PDF-er

Sammendrag

Slik fastslår du om din PDF er raster- eller vektorbasert og hvordan dette påvirker muligheten til å feste til et objekt eller velge tekst.

Problem

Du kan ikke feste til et element når du måler.
Du kan ikke redigere tekst ved å bruke Rediger > PDF-innhold > Rediger tekst.
Du kan ikke velge eller søke etter tekst.

Hvorfor skjer dette?

Grunnen til at begge disse tingene skjer er at ikke alle PDF-dokumenter opprettes på samme måte. Noen PDF-dokumenter inneholder mer informasjon enn andre, selv om de virker identiske ved første øyekast.

Siden kan se ut til å inneholde linjer og tegn, men de underliggende elementene som representerer dem i PDF-en, er kanskje ikke vektorlinjer og tekstelementer, som er nødvendige for å feste til innhold og søke og velge tekst.

Raster- eller vektorinnhold

La oss se på forskjellen mellom raster- og vektorinnhold i et PDF-dokument.

Raster-PDF	Vektor-PDF

Raster

Et rasterbilde opprettes av en rekke firkantede prikker, kjent som piksler. Ett eksempel på en raster-PDF er en fil som er opprettet ved å skanne et ark. En skannet PDF opprettes ved å lage et bitmap-bilde (som en JPEG eller TIFF) av siden, og plassere dette bildet på PDF-siden. Dette betyr at en skannet PDF eller raster-PDF kun inneholder et rutenett av prikker som representerer linjer og tekst – den inneholder ikke faktiske linjer og faktisk tekst en datamaskin kan gjenkjenne. Det finnes derfor ingen linjer som «fest til innhold»-funksjonen kan festes til, og ingen tekst som kan velges eller søkes i.

For å fastslå om en PDF er et rasterbilde eller en skanning trenger du bare å zoome godt inn. Linjer og tegn på siden vil enten endres til et rutenett av firkantede prikker, eller bli uklare.

Vektor

En vektorbasert PDF bruker linjesegmenter for å angi all geometrien på siden. De fleste PDF-er som skapes via CAD (dataassistert konstruksjon), er vektorbaserte. Vektorbaserte PDF-er foretrekkes som regel fremfor raster-PDF-er fordi de inneholder mer data, slik at de er enklere å jobbe med. Du bør alltid prøve å jobbe med vektor-PDF-er som er opprettet fra kilden, heller enn via skanning.

Fordelene ved å jobbe med en vektor-PDF er at visningen av geometrien holder seg klar når du zoomer inn for å se detaljene i tegningen. Derfor er målingene og materialberegningen (i tillegg til kalibreringen av dem) presise i en vektor-PDF, fordi du kan bruke «fest til innhold» til å feste til vektorlinjene i PDF-en.

Tekst

Tekst er en uavhengig type innhold i PDF-er. Du kan se teksttegn i PDF-en, men disse tegnene er ikke nødvendigvis de samme PDF-tekstelementene. Isteden kan de bestå av rasterprikker eller vektorlinjesegmenter. Selv om disse elementene ser ut som tekst, har de ikke data en datamaskin kan gjenkjenne som tekst. Derfor er denne «teksten» i bunn og grunn et bilde som ikke kan velges, søkes i eller redigeres.

For å unngå forvirring vil «tegn» referere til tekst generelt, mens «tekst» vil referere til PDF-tekstelementer eller «ekte tekst».

Før vi går inn på detaljene, er det en rask test for å avgjøre om PDF-filen din inneholder tekst. Fra menylinjen går du til Rediger > PDF-innhold > Merk all tekst (i Revu 2017 og eldre går du til Rediger > Merk > Merk all tekst). All tekst i PDF-filen skal være uthevet i blått. Hvis tegnene ikke er uthevet, er de enten et raster- eller vektorbilde.

Uthevet tekst

PDF-tekstelementer (eller «ekte tekst») – Alltid foretrukket for PDF-er, fordi det fører til mer responsivt innhold. PDF-er som er opprettet fra tegnbaserte programmer (f.eks. Word og Excel), skaper nesten alltid PDF-er som inneholder ekte tekst. Når du zoomer inn på teksten, er kantene på tegnene alltid klare og tydelige, uansett hvor langt inn du zoomer. Teksten er søkbar, og kan alltid velges.
Optisk tegngjenkjenning (OCR)-tekst – Hvis du kjører OCR (kun for Revu eXtreme), lar raster- og vektorbilder konverteres til søkbare data. Med andre ord tolker OCR bildene i en skannet PDF og skaper et usynlig tekstlag oppå dem. Dette laget er grunnen til at du kan søke, velge og utheve bilder som ikke har ekte tekst.
Vektortegn – Opprettet av linjesegmenter som brukes til å tegne formen av hvert tegn. Dette forekommer som regel når PDF-en er opprettet fra CAD (ofte AutoCAD) eller en ikke-TrueType-skrifttype brukes.
- Hvorfor bruker ikke CAD TrueType-skrifter til å lage ekte tekst? Svaret er fordi AutoCAD er eldre enn Macintosh-, Windows- og TrueType-skrifter. De trengte å lage sitt eget system med fonter, kalt SHX-fonter. SHX-fonter defineres ved hjelp av linjesegmenter. Disse linjesegmentene oversettes til PDF-filen i stedet for tekstdata.
- Det er bedre å bruke TrueType-skrifttyper i CAD for å opprette PDF-er. Bluebeam-pluginmodulen for AutoCAD vil automatisk konvertere TrueType-skrifttyper til søkbar tekst.
- Vektortegn kjennetegnes av sitt klumpete utseende når du zoomer inn. Disse klumpene skapes av linjesegmentene hvert tegn består av.
- Grafiske designprogrammer (f.eks. Adobe Illustrator), og lag også vektortegn. Disse vektortegnene har imidlertid klare, skarpe kanter når de zoomes inn.
Raster-tegn – Som tidligere nevnt, brukes individuelle piksler til å definere hvert tegn.

Eksempler på tegn er henholdsvis tekst, vektor og raster.

Mer informasjon

AutoCAD: Opprette PDF-dokumenter med søkbar tekst – Finn ut hvordan du oppretter søkbare PDF-dokumenter i AutoCAD.

Feilsøking

Revu 21

Revu 20

Dokumentbehandling

Slik fastslår du om din PDF er raster- eller vektorbasert og hvordan dette påvirker muligheten til å feste til et objekt eller velge tekst.