Categorieën
Taalmateriaal uitgelicht

Namen herkennen in historische teksten

Om namen in historische bronnen gemakkelijker te identificeren is er een AI-trainingset beschikbaar voor Named Entity Recognition.

Archiefonderzoek is een boeiende maar tijdrovende bezigheid. Soms ben je uren documenten aan het doornemen om informatie te vinden over een verre voorouder die heeft aangemonsterd bij de Verenigde Oost-Indische Compagnie of over een testament dat twee echtelieden in de achttiende eeuw hebben laten opstellen. Persoonsnamen, locaties en tijdsaanduidingen spelen bij die speurtocht een belangrijke rol.

vermelding van Pieter Serrarius en zijn dochter Judith [via Wikimedia Commons]

AI-trainingsset

Om het zoeken in historische bronnen te vergemakkelijken is er in 2020 een Artificial Intelligence-trainingsset ontwikkeld voor Named Entity Recognition (NER). Dit was niet mogelijk geweest zonder de hulp van de circa 150 vrijwilligers van het crowdsourcingsproject Tag de tekst op Velehanden.nl. In zorgvuldig nagekeken transcripties van 10.567 scans van Nederlandstalige archiefstukken uit de 17de tot en met de 19e eeuw hebben zij alle persoonsnamen, locaties en tijdsaanduidingen aangegeven. Vervolgens zijn die annotaties door drie ervaren super users gecontroleerd.

De Artificial Intelligence-trainingsset voor Named Entity Recognition is ontwikkeld in het kader van de projecten De IJsberg zichtbaar maken (zoekintranscripties.nl) en Slimmer zoeken in archieven (archieveninbeeld.nl; alleen toegankelijk met gebruikersnaam en wachtwoord).

De PAGE-XML-bestanden uit het project Tag de Tekst waarin de vrijwilligers tags hebben toegevoegd, worden beschikbaar gesteld aan onderzoekers en andere belangstellenden. De labels in deze XML-bestanden zijn terug te vinden aan de hand van de vermelding van ‘Locatie-aanduiding’, ‘Tijds-aanduiding’ of ‘Persoons-aanduiding’.

Meer informatie over deze AI-trainingsset is op taalmaterialen.ivdnt.org

Het resultaat van dit project is voor iedereen te bekijken op www.archieveninbeeld.nl


Bekijk hier het archief van Taalmateriaal uitgelicht.