AI og leksikografi

Program: 
14.00-14.05: Velkomst
14.05-14.35: Sanni Nimb og Nathalie Hau Norman (Den Danske Ordbog og Center for Sprogteknologi): Den Danske Ordbog: Eksperimenter med at anvende sprogmodeller i redigeringsarbejdet
14.35-14.45: Spørgsmål og kommentarer til Sanni og Nathalie
14.45-15.15: Sussi Olsen og Nathalie Hau Norman (Center for Sprogteknologi): Hvorfor er ordbøger gode at evaluere sprogmodeller med?
15.15-15.25: Spørgsmål og kommentarer til Sussi og Nathalie
15.15-15.45: Kaffepause
15.45-16.15 Maja Bressendorf (Lex): Den danske chatbot
16.15-16.25: Spørgsmål og kommentarer til Maja
16.25-16.45: Afsluttende diskussion
16.45-16.50: Afslutning

Resumeer

Sanni Nimb og Nathalie Hau Norman (Den Danske Ordbog og Center for Sprogteknologi): Den Danske Ordbog: Eksperimenter med at anvende sprogmodeller i redigeringsarbejdet
Vi fremlægger og diskuterer tre eksperimenter med at anvende AI til ordbogsarbejde.
Det første omhandler automatisk generering af definitioner. Vi tog udgangspunkt i definitionerne af en række endnu ikke publicerede monoseme lemmaer og supplerede disse med tre automatisk genererede definitioner. To redaktører ranglistede begge de i alt fire definitioner, vel at mærke uden at vide hvilken der var udarbejdet af en ordbogsredaktør. Dermed opnåede vi viden om hvilke modeller og prompter der gav de bedste resultater, og om hvorvidt de automatiske definitioner kunne måle sig i kvalitet med de manuelt udarbejdede.
Det andet eksperiment omhandler automatisk identificering af kontroversielle og potentielt diskriminerende citater fra første udgave af DDO. Holdninger til køn og minoriteter har ændret sig siden 1990’erne, og redaktionen ønsker i dag at nedtone denne type indhold i onlineudgaven. Vi har testet om OpenAI’s harmful-model er i stand til at identificere 250 kontroversielle citater der allerede er blevet nedgraderet af redaktionen, og sammenlignet med de 250 gangbare citater der er indsat som erstatning. Ud fra disse erfaringer er vi i gang med at anvende modellen på alle ældre citater.
I det tredje eksperiment har vi undersøgt om ChatGPT kan vurdere sprogbrug og valør for en række (potentielt kontroversielle) lemmaer som supplement til redaktørens egen sprogfornemmelse og korpusundersøgelser.

Sussi Olsen og Nathalie Hau Norman (Center for Sprogteknologi): Hvorfor er ordbøger gode at evaluere sprogmodeller med?
Store sprogmodeller har en tendens til at udvise alvorlige sproglige og kulturelle bias når man arbejder med sprog med begrænsede træningsdata i forhold til fx engelsk. Vi vil her præsentere vores arbejde med evaluering af sprogmodellers danskkundskaber, hvor formålet mere præcist er at påvise og potentielt afhjælpe denne type bias. Vi tager afsæt i en række eksisterende danske leksikalsk-semantiske ressourcer udarbejdet ved DSL og CST igennem en årrække og sammensætter et antal danske sprogforståelsesopgaver der afspejler bredden og nuancerne i det danske ordforråd inklusive visse implicitte danske kulturelle og sproglige værdier. Datasættet (Danish Semantic Reasoning Benchmark) omfatter otte sådanne forståelsesopgaver som fx at entydiggøre ord i kontekst, at bestemme semantisk afvigende ord, at løse inferens- og fortolkningsopgaver baseret på semantiske relationer samt at vælge den korrekte omskrivning af talemåder. Vi har også udarbejdet et metafor-datasæt, DAMETA, hvor sætninger indeholdende en metafor forsynes med én korrekt omskrivning samt tre forkerte. Sprogmodellerne skal så afgøre hvilken af de fire omskrivninger der er den korrekte. Ud over at præsentere selve datasættene viser vi også hvor godt de forskellige sprogmodeller løser de stillede sprogforståelsesopgaver.
Datasættene er udarbejdet i et Carlsberg infrastrukturprojekt og tillige støttet af Digitaliseringsministeriets AI-satsning, Danish Foundation Models. Deltagerne er Bolette S. Pedersen, Nathalie Hau Norman, Nina Schneidermann, Sanni Nimb og Sussi Olsen.

Maja Bressendorf (Lex): Den danske chatbot
Kunstig intelligens vinder frem, og i dag er det vanskeligt at finde viden på nettet uden at det foregår med hjælp af AI. Det er let og smart, men desværre er det ofte svært at vide om man kan stole på de svar man får. Lex har valgt at tage udfordringen op og sammen med Center for Humanities Computing på Aarhus Universitet udvikler nationalleksikonet den danske chatbot. I sessionen vil du høre om hvordan AI ændrer vores måde at tilgå viden og få indblik i arbejdet med at udvikle en chatbot til Lex, der vil gøre det muligt at interagere med indholdet.

~~~

Alle er velkomne.
Temaeftermiddagen efterfølges af LEDAs generalforsamling kl. 17.00.