Kaj se skriva v PDF-ju, ki ga pošljete v tiskarno
Večina ljudi misli, da PDF vsebuje le tisto, kar je videti. V resnici vsak dokument s seboj nosi zgodovino nastanka: imena, poti do datotek, včasih tudi vsebino, za katero ste mislili, da ste jo izbrisali. Ko tak dokument odide k zunanjemu ponudniku, te informacije gredo z njim.
Ko ste nazadnje poslali PDF v center za kopiranje ali zunanjo tiskarno prek spletnega obrazca, verjetno niste razmišljali o tem, kaj vse gre skupaj z datoteko. Večina nas tega ne počne, dokler se ne zgodi kaj neprijetnega. Ravno tako nastajajo nenačrtovana notranja uhajanja podatkov. Ne prek izpopolnjenih napadov, temveč preprosto zato, ker nihče ni pogledal, kaj je v datoteki ostalo.
PDF ni le slika vašega besedila. Je vsebnik, ki nosi v sebi veliko več, kot vidite na zaslonu.
Kaj vse je v tej datoteki?
Odprite katerokoli delovno PDF v Adobe Readerju in kliknite Datoteka → Lastnosti. Videli boste ime avtorja, programsko opremo, v kateri je bil dokument ustvarjen, in datume urejanja. To je le delček vsega, kar tam tiči.
Metapodatki in zgodovina dokumenta
Vsak PDF ima vgrajeno zgodovino: ime avtorja, organizacijo, notranje komentarje, programsko opremo in njeno različico. Besedilo, izbrisano v prejšnjih različicah dokumenta, morda ni zares izginilo. Slike, vstavljene s telefona, lahko vsebujejo GPS-koordinate kraja, kjer so bile posnete, odvisno od tega, ali je imela naprava vklopljeno geooznačevanje in ali je izvožena datoteka te podatke ohranila. To ni pravilo, le možnost, ki jo velja poznati.
Poti do datotek
Se vam je kdaj zgodilo, da ste prejeli PDF in v metapodatkih videli ime osebe, ki je dokument urejala pred tremi različicami? To je pogosto. Manj pričakovano pa je naslednje: iz metapodatkov PDF-ja je mogoče pridobiti polne poti do map, iz katerih so bile vstavljene slike ali priloge. Na primer: C:\Users: ime.priimek\Projekti\Stranka_ABC\finance_Q3.docx. Iz takega niza so razberljivi ime zaposlenega, struktura map v podjetju in projekti v teku. To ni informacija, ki bi jo kdo zavestno delil.
Vdelana koda
PDF podpira JavaScript (v praksi npr. za interaktivne obrazce). Ista funkcija se da zlorabiti: zlonamerna koda, skrita v dokumentu, lahko ob odprtju sproži prenos zlonamerne programske opreme ali vzpostavi povezavo z zunanjim strežnikom. To ne velja za vaše lastne delovne dokumente. Postane relevantno pri PDF-jih, prejetih od neznanih ali nepreverjenih pošiljateljev, kar je situacija, v kateri se lahko znajdete tudi vi, ko vam nekdo pošlje dokument.
Zakaj je tiskarna poseben primer
PDF, poslan kolegu po e-pošti, je eno. PDF, poslan zunanjemu subjektu, je nekaj drugega.
Večina spletnih tiskarn deluje tako: datoteko naložite prek spletnega obrazca na njihov strežnik, obdelava pa poteka pri ponudniku, ne v vašem brskalniku. V tem procesu ima ponudnik popoln dostop do strukture dokumenta, vključno z vsemi metapodatki. Pri zaupanja vrednem partnerju z jasnimi pogodbenimi pogoji to morda ni problem. Pri novem ali nepreverjenim dobavitelju, ki mu pošiljate občutljivo ponudbo ali pogodbo, je tveganje nenamerne uhajanja realno.
Drugačna situacija nastane pri omrežnih tiskalnikih v podjetjih. Produktivne naprave so vse bolj povezane z omrežjem in nekatere shranjujejo obdelane datoteke določen čas. Če naprava ni ustrezno zaščitena, so te datoteke dostopne tudi brez fizičnega dostopa do tiskalnika. To ni tipičen napadalni vektor, a v okolju, kjer se tiskajo pogodbe ali ponudbe, velja vedeti za to možnost.
Primer, ki se citira še danes: leta 2003 je britanska vlada objavila poročilo o iraških orožjih za množično uničevanje v obliki PDF-ja. Metapodatki so razkrili imena konkretnih avtorjev, izkazalo pa se je, da so bili deli besedila kopirani iz akademskih virov brez navedbe – vključno z dejanskimi napakami iz izvirnikov. Datoteka je šla v javnost brez kakršnegakoli čiščenja. Škandal okoli plagiarizma je imel takojšnje posledice in primer se od takrat pojavlja v vsakem resnem besedilu o varnosti dokumentov.
Kako to preverite sami
Preden se lotite rešitev, priporočam en konkreten test: vzemite navaden delovni dokument, ponudbo, pogodbo, predstavitev in poglejte, kaj vsebuje. Na voljo so tri orodja:
Adobe Reader (Datoteka → Lastnosti → zavihki Opis in Po meri) je najhitrejši način za povprečnega uporabnika. Prikaže osnovne metapodatke neposredno, brez namestitve česar koli dodatnega.
ExifTool je brezplačno orodje za ukazno vrstico: exiftool datoteka.pdf izpiše vse metapodatke, vključno s skritimi polji. Za tiste, ki redno delajo z ukazno vrstico, je to najhitrejša in najnatančnejša diagnostika.
PDF Analyzer je grafična alternativa za tiste, ki jim ukazna vrstica ne ustreza.
Rezultat vas bo morda presenetil. Morda pa ne. V vsakem primeru boste vedeli, s čim delate in enako velja v nasprotni smeri: ko prejmete PDF od nekoga drugega, z istimi orodji ugotovite, kaj vsebuje. Včasih pove več, kot je avtor nameraval.
Kdaj je to težava in kdaj ne
Vsak PDF ni problematičen. Javna zloženka, katalog ali dokument brez kakršne koli notranje vsebine, tam so metapodatki nepomembni.
Situacija se spremeni, če ste kdaj pošiljali ponudbo novemu naročniku, pogodbo nepreverjenemu dobavitelju ali dokument, ki je nastal z urejanjem starejše datoteke z lastno zgodovino. V takih primerih se splača preveriti, kaj je v datoteki ostalo, in jo pred pošiljanjem počistiti.
Kako datoteko počistiti
Navidezni tiskalnik je najhitrejša in brezplačna rešitev. V Windows uporabite Microsoft Print to PDF, v macOS Shrani kot PDF. S tiskanjem na navidezni tiskalnik dejansko ustvarite novo datoteko iz tiskalnega izhoda, večina metapodatkov in interaktivnih elementov pa se pri tem izgubi. Za navadne delovne dokumente to zadostuje.
Adobe Acrobat Pro je najtemeljitejša možnost. Pot: Vsa orodja → Uredi PDF → Počisti dokument → Remove all. Funkcija odstrani metapodatke, vdelane datoteke, JavaScript, skrite sloje in komentarje. Ni brezplačen, a če redno delate z dokumenti, ki jih pošiljate navzven, je naložba smiselna.
Ghostscript je brezplačna alternativa za bolj tehnično usmerjenega uporabnika. Deluje prek ukazne vrstice in pri pretvorbi PDF-ja odstrani večino neželenih elementov. Primeren je zlasti takrat, ko obdelujete večje število dokumentov in želite postopek avtomatizirati.
Dve podcenjeni stvari
Prekrivanje besedila v PDF-ju. Če prek besedila narišete črn pravokotnik, prvotna informacija ostane v strukturi datoteke in jo je mogoče pridobiti z navadnimi orodji. Ta napaka se je pojavila tudi v vladnih dokumentih z javno dokumentiranimi posledicami.
ExifTool pri nekaterih vrstah PDF-jev natančneje pri tistih z XMP-metapodatki, shranjenimi v ločenem toku, ne prepiše zapisov trajno. Doda le novo plast, medtem ko prvotne vrednosti ostanejo ohranjene globlje v strukturi. Za diagnostiko je odličen. Kot edino orodje za čiščenje občutljivih dokumentov ne zadostuje, tam je zanesljivejša sanitizacija prek Acrobata ali metoda navideznega tiskalnika.
En konkreten korak
Ni treba takoj uvajati procesov ali kupovati orodij. Dovolj je, da začnete z naslednjim PDF-jem, ki ga pošljete navzven: odprite ga v Adobe Readerju in poglejte Lastnosti. Če tam piše ime zaposlenega, notranja pot do datoteke ali opis projekta, veste, kaj je treba narediti. Enak princip velja za vse navadne pisarniške formate: Word, Excel in PowerPoint enako skrbno skrivajo metapodatke, preverite pa jih enako preprosto prek Datoteka → Lastnosti ali Informacije.
Varnost dokumentov je v večini primerov stvar navad, ne dragih orodij.