Korpusbaseret udvælgelse og prioritering af lemmakandidater

v. Jørg Asmussen, DSL

Medlemsmøde

I de kommende år skal der tilføjes flere tusinde nye ord til Den Danske Ordbog på ordnet.dk. Hovedkilden til ordbogen er korpusset "Tidsmaskinen", som indeholder ca. 1 milliard ords løbende tekst fra perioden 1983 frem til i dag. I dette korpus gemmer der sig givetvis mange ord, som burde optages i ordbogen. Men hvordan finder man dem? Hvilke relevanskriterier kan man opstille? Og hvordan prioriterer man lemmakandidaterne?

Ud over de ord, som man direkte kan trække ud af korpus, er der andre, som stammer fra en række korpuseksterne kilder, for eksempel ord, som der er blevet søgt forgæves på på ordbogens website, brugerindberetninger og redaktionsinterne forslag. Hvordan kan man bestemme relevansen af ord fra korpuseksterne kilder og eventuelt prioritere dem?

Jeg vil prøve at give nogle forsøgsvise svar på spørgsmålene ved at vise, hvilke fremgangsmåder og værktøjer der bruges til udvælgelse og prioritering af lemmakandidater på Den Danske Ordbogs redaktion.

Alle er velkomne
Der serveres kaffe/te i pausen