Over documenten en bestandsformaten

Inleiding

Het beheren van digitale informatie en informatieobjecten zoals documenten en het verzekeren van het voortbestaan daarvan lijkt op het eerste gezicht eenvoudig maar schijn bedriegt. Het is eigenlijk een complexe uitdaging, waarvoor kennis op conceptueel en technisch niveau nodig is en die verder gaat dan de kennis die nodig is om deze informatie op een gegevensdrager vast te leggen.

De belangrijkste oorzaak voor de complexiteit van het beheer van digitale informatie is dat zij zich aan de buitenkant anders voordoet dan dat ze in de technische werkelijkheid is. Dat zou niet zo erg zijn ware het niet dat in de meeste gevallen de bewaartermijnen van informatie de levensduur van de technische systemen en bestandsformaten waarin de informatie is ontstaan en vastgelegd overstijgt.

Voor overheden bestaan er echter wettelijke verplichtingen om de integriteit en het voortbestaan van informatie en dus ook documenten te verzekeren. Bij (her)gebruik, verantwoording en bewijs mag er geen twijfel zijn aan de kwaliteit van een document.

Daarom zijn er maatregelen nodig om het ongestoorde voortbestaan van de documenten (ook e–mails) op toetsbare manier in goede banen te leiden. Met dit onderdeel van deze site wordt een achtergrond geboden een beeld te vomen voor de problematiek rond het in standhouden van de integriteit van digitale documenten.

Complexiteit

Volledig digitaal werken stelt hoge eisen aan de kwaliteit van de digitale documenten, bestandsformaten, de functionaliteiten van de systemen waarbinnen de digitale documenten worden verwerkt en de manier waarop het voortbestaan daarvan op aantoonbare wijze wordt verzekerd. Verwerkingen als creëren, wijzigen, registreren, opslaan, converteren, migreren en beheren zullen op zorgvuldige manier moeten gebeuren om elke mogelijke twijfel over de betrouwbaarheid en bruikbaarheid van de documenten weg te kunnen nemen.

Een probleem is dat digitale documenten zich aan de buitenkant anders voordoen dan dat ze in de technische werkelijkheid zijn. Ook overstijgt de bewaartermijn van de informatie en documenten in de meeste gevallen de levensduur van de technische systemen en de gebruikte bestandsformaten.

Integriteit

Bij het beheer van digitale documenten moet de integriteit van het oorspronkelijke document gerespecteerd en in stand gehouden worden1. Het oorspronkelijke document bevat een intentie en boodschap van de opsteller die op verschillend technische manieren tot uiting komen. Wanneer er veranderingen plaatsvinden aan een document op wat voor manier dan ook kan dat leiden tot verminking van de boodschap en het teniet doen van de oorspronkelijke intentie van de opsteller.

Standaarden

Het moet voorop staan dat een digitaal document gedurende zijn bestaan, van ontstaan tot vernietiging, integraal en zonder verstoring door de daartoe geautoriseerde gebruiker kan worden gevonden, gebruikt en bewaard2. Wanneer dit technisch niet meer mogelijk is zullen conversies of migraties moeten plaatsvinden. Die moeten op een dusdanige manier uitgevoerd worden dat aangetoond kan worden dat het resultaat van de conversie of de migratie van dezelfde kwaliteit is als het oorspronkelijke origineel en dus beschouwd mag worden als een nieuw origineel3In eerste instantie zijn voor de digitale documenten open bestandsformaten4te gebruiken die worden gepropageerd door het Forum Standaardisatie.5 en Digitaal Erfgoed Nederland (DEN) in de BASIS6.

Ten aanzien van veel soorten documenten is het toepassen van de open formaten geen groot probleem. Het is echter van belang om uit te zoeken op welke manier en wanneer grootschalige conversies van bijvoorbeeld office documenten uit gevoerd moeten worden. Het toepassen van open formaten is wel een probleem in het geval van MS-Access en vooral Outlook (Exchange).

Zoals bekend wordt vooral het bestandsformaat PDF/A beschouwd als de gedroomde oplossing voor het langdurig kunnen bewaren van digitale documenten. Dat is een niet terechte aanname omdat ook hier de nodige adders onder het gras liggen.

 

  • 1. De op een bepaald moment gegenereerde representatie (verschijningsvorm) van een informatieobject moet gedurende de voor dat informatieobject geldende bewaartermijn kunnen worden gereproduceerd. Zie uitgangspunt nr. 101
  • 2. Voor overheden zijn de Archiefwet 1995, het Archiefbesluit 1995 en de Archiefregeling de formele basis.
  • 3. Hiervoor bieden de Archiefwet 1995 (art. 2a, 7), het Archiefbesluit 1995 (art. 6 en 8) en de Archiefregeling (art. 25) ook de formele basis.
  • 4. Archiefregeling artikel 26 lid 1:
    Digitale archiefbescheiden worden, uiterlijk op het tijdstip van overbrenging, opgeslagen in een valideerbaar en volledig gedocumenteerd bestandsformaat dat voldoet aan een open standaard, tenzij dit redelijkerwijs niet van de zorgdrager kan worden verlangd. Alsdan vindt met de beheerder van de voor overbrenging aangewezen archiefbewaarplaats overleg plaats over een alternatief bestandsformaat.
  • 5. Het Forum Standaardisatie beheert een lijst met open standaarden voor 'pas toe of leg uit', zie: https://www.forumstandaardisatie.nl/open-standaarden/lijst/verplicht
    De Tweede Kamer heeft op 11 oktober 2016 een motie aangenomen om het gebruik van open standaarden bij wet te verplichten. (Gewijzigde motie van het lid Oosenbrug over het bij wet verplichten van het gebruik van opensourcesoftware (t.v.v. 32802, nr. 31) https://www.tweedekamer.nl/kamerstukken/moties/detail?id=2016Z18418&did=2016D37878 (Geraadpleegd 14 juli 2018)
  • 6. Het acroniem DE BASIS staat voor Digitaal Erfgoed: Bouwen Aan Succesvolle ICT-Strategie. DE BASIS is een set van minimale eisen voor de digitalisering van erfgoed en maakt onderdeel uit van de kennisbank van DEN. Zie:  http://www.den.nl/standaarden?sl=all&q=&std-status[]=DE+BASIS&std-status[]=NEN%2FISO+Norm&std-status[]=Europeana&formfill=&formaction=posted (Geraadpleegd 14 juli 2018)
Datum eerste publicatie: 
zaterdag, 14 juli 2018 - 11:56pm
Share/Deel

Wat is een document en waaruit bestaat het?

In dit onderdeel wordt aandacht besteed aan de gezichtspunten van waaruit tegen informatie aangekeken wordt en aan de opbouw van een (digitaal) informatieobject (document) met kenmerken als

  1. inhoud
  2. structuur
  3. contrext
  4. gedrag
  5. techniek.1

Speciale aandacht is er daarbij voor het 4e onderdeel ‘gedrag’.

Levenscyclus:

Datum eerste publicatie: 
zondag, 15 juli 2018 - 12:21am
Share/Deel

Gezichtspunten

Bij het woord document bestaat vaak het beeld dat het gaat om een brief, een rapport, een nota, een verslag etc. Een beeld dat is geërfd van een eeuwenoude analoge werkelijkheid. Maar in de digitale wereld vallen onder dit begrip bijvoorbeeld ook e-mail berichten, berichten uit het berichtenverkeer tussen het digitaal loket en tussen de verschillende applicaties, de website en onderdelen van de website, audio- en videostreams en zelfs applicaties voor het GBA, BAG en de financiële administratie. De laatsten zijn in feite digitale registers. In de huidige tijd is de reikwijdte van het begrip ‘document’ veel ruimer dan voorheen. Met als gevolg dat de materie ook veel complexer is geworden dan voorheen.

De invulling van het antwoord op de vraag wat digitale informatie, of een digitaal document, is hangt af van de achtergrond en het gezichtspunt van de persoon die de vraag stelt of ermee werkt.

Primair zijn er een drietal gezichtspunten te onderkennen

  1. De gebruiker
  2. De ICT-er
  3. De archivaris

Voor een gebruiker is een document het ding waar hij of zij in zijn of haar dagelijkse werkzaamheden mee te maken heeft. Een document moet kunnen worden gecreëerd, geraadpleegd, gekopieerd, gewijzigd, gewist, ontvangen, gevonden, verzonden, afgedrukt. Op het scherm wordt het vaak weergegeven als een representatie van de papieren werkelijkheid. De metafoor is dan de A4, zoals ook de map of een ladekast de metafoor is voor de directory. Zijn werkomgeving is een bureaublad dat afhankelijk van het type gebruiker netjes en opgeruimd is of een wirwar van iconen. Voor de gebruiker is dus, het document gelijk aan datgene wat als informatie wordt gepresenteerd. Ook de ICT-er en de archivaris/records manager zijn in dit geval nog gewone gebruikers.

Voor de ICT-er als beheerder gaat het om digitale bestanden, files, applicaties, de netwerken, de werkstations en de servers. In feite de voorzieningen die het de gebruiker mogelijk maken met digitale documenten te werken. Een ICT-er zal een document vaak gelijk stellen aan een bestand1.

Voor een archivaris is een document een verzameling gestructureerde gegevens die op een bepaald moment in het kader van een proces, project of andere activiteit is vastgelegd. Een archivaris heeft weer een eigen benadering die voortkomt uit het vakgebied van oorkondenleer2 en verwerkt is in wettelijke verplichtingen, de wensen van de organisatie en de (maatschappelijke) bewaarbelangen3. Om aan deze eisen, wensen en behoeften te kunnen voldoen zal het mogelijk moeten zijn om documenten en informatie in een dynamische omgeving te fixeren en te bewaren, zoals ze zijn aangetroffen of worden aangeleverd. De fixatie en bewaring zullen moeten gebeuren op een manier dat het voortbestaan over vele jaren is verzekerd, met de garanties voor de betrouwbaarheid, vindbaarheid en bruikbaarheid.

Een archivaris heeft vervolgens ook nog te maken met de papieren én met de digitale realiteit. Om greep op de problematiek van fixeren, bewaren en gebruiken te krijgen moet hij daarom uitgaan van een bepaalde abstractie van die realiteiten. Een dergelijk abstract model moet aan de ene kant onafhankelijk zijn van het soort gebruik en de toegepaste techniek en aan de andere kant juist daarmee rekening houden. Dit gezichtspunt van de archivaris is het vertrekpunt van deze tekst.

Natuurlijk bestaat er ook nog zoiets als het gezichtspunt van verantwoordelijken zoals de zorgdrager (bestuurlijk verantwoordelijke), de procesverantwoordelijke, de auditor en de jurist,. Deze verantwoordelijkheid uit zich in de manier waarop de aanbevelingen ten aanzien van de digitale bestanden en bestandsformaten worden omgezet in beleid en geïmplementeerd in de bestaande processen en digitale systemen.

 
 
 
  • 1. Is een bestand/file een document?

    A file is not a document in its own right, it merely describes a document that comes into existence when the file is interpreted by the program that produced it. Without this program (or equivalent software), the document is a cryptic hostage of its own encoding.

    Jeff Rothenberg, Ensuring the Longevity of Digital Documents, Scientific American, 1995. (Vol. 272, Number 1, blz. 26)

  • 2. tekst
  • 3. Zie bijvoorbeeld het eerste lid van artikel 11 van het Archiefbesluit 1995:

    De zorgdrager treft zodanige voorzieningen ten aanzien van de door hem opgemaakte archiefbescheiden die ingevolge een voor hem geldende selectielijst voor bewaring in aanmerking komen, dat bij het raadplegen van die archiefbescheiden na ten minste honderd jaar geen noemenswaardige achteruitgang zal zijn te constateren.

    (onderstreping van mij, http://wetten.overheid.nl/BWBR0007748/#HoofdstukIV_Artikel11 )

    De manier waarop daaraan vorm gegeven moet worden is opgenomen in de Archiefregeling uit 2010, de artikelen 16-25. (http://wetten.overheid.nl/BWBR0027041#Hoofdstuk3)

Informatiemodel:

Datum eerste publicatie: 
zondag, 15 juli 2018 - 12:27am
Share/Deel

Digitale documenten

Nog meer dan analoge documenten of gedigitaliseerde documenten, te weten digitale documenten die zijn ontstaan via imaging en scanning, verdienen zogenaamde ‘born digital’ documenten speciale aandacht.

Met ‘born digital’ worden die documenten bedoeld die als origineel binnen digitale werkomgevingen met behulp van digitale systemen zijn ontstaan en verder verwerkt. Zij onderscheiden zich van de gedigitaliseerde documenten op twee punten die onderling wel met elkaar verbonden zijn:

  1. ‘Born digital’ documenten zijn niet statisch, maar beschikken over functionaliteiten die gebruikt worden om een boodschap over te brengen. Deze functionaliteiten zijn als gevolg daarvan onderdeel van de kenmerken van de authenticiteit van het document.
  2. Voor conservering en behoud, raadpleging en eventuele bewerking zullen verschillende technisch hulpmiddelen beschikbaar moeten zijn.

Voor ‘born digital’ documenten geldt  als informatieobjecten als uitgangspunt:

De op een bepaald moment gegenereerde representatie (verschijningsvorm) van een informatieobject moet gedurende de voor dat informatieobject geldende bewaartermijn kunnen worden gereproduceerd1

Dat heeft als consequentie dat het document na een X aantal jaren op precies dezelfde manier zich moet voordoen aan de toekomstige gebruiker als nu het geval is. Het kunnen garanderen van het voortbestaan van de vorm en gedrag van die documenten is een punt van zorg2

  • 1. Uitgangspunt 101
  • 2. Behalve dat de concepten en modellen moeten kloppen is het, om het voortbestaan van de digitale documenten te verzekeren, noodzakelijk bij bestandsformaten zoveel mogelijk gebruik te maken van open formaten die door erkende lichamen zoals de ISO en het W3 consortium worden genormeerd. Voorbeelden daarvan zijn ODF (NEN-ISO/IEC 26300) en PDF/A (ISO 19005).

Informatiemodel:

Datum eerste publicatie: 
donderdag, 9 augustus 2018 - 10:47pm
Share/Deel