Lemmaselektion ud fra kendte ord ved hjælp af semantisk model

v. Nicolai Hartvig Sørensen, DSL

Medlemsmøde

Hvordan finder man det næste ord til en ordbog når man redigerer og udvider en eksisterende betydningsordbog? Det hyppigste ord i korpus er ikke altid det mest leksikografisk relevante, og det er svært at sikre sig at hele sproget bliver dækket ensartet hvis man udelukkende forlader sig på forslag der stammer fra brugere og leksikografers årvågenhed i hverdagen.

På Det Danske Sprog- og Litteraturselskab har vi eksperimenteret med forskellige anvendelser af en semantisk model baseret på såkaldte word embeddings  - en sprogteknologisk metode til automatisk at foreslå ord der semantisk minder om hinanden ud fra deres kontekst i meget store korpora. Til foredraget vil jeg fremlægge to forskellige eksperimenter: 

  1. Et eksperiment der generelt leder efter oversete ord i ordbogen. 
  2. Et eksperiment der specifikt leder efter nye ord i sproget. 

Jeg vil desuden demonstrere et prototypisk værktøj baseret på modellen der er beregnet til at effektivisere ordbogsredigering og lette arbejdet med at ensrette semantisk lignende ords definitioner. Værktøjet er i brug på Den Danske Ordbogs redaktion.

Alle er velkomne.
Der vil blive serveret kaffe og te i pausen.