Kunstig intelligens skal lære bornholmsk

Kunstig intelligens skal lære bornholmsk
Dan Saattrup Nielsen har en ph.d. i matematik og en postdoc i machine learning. (Privatfoto).
NYHED | 14. SEP 2024 • 14:01
NYHED
14. SEP 2024 • 14:01

I to år har forskere arbejdet på at træne en tjeneste til at forstå de danske dialekter.

Mange ovrefra har knas med at forstå bornholmere, når de ruller sig ud i fuld dialekt. Nu skal kunstig intelligens lære at begå sig på bornholmsk i forbindelse med en ny talegenkendelsestjeneste, som er ved at blive udviklet. Tjenesten er blevet trænet med 2.000 danskeres stemmer og dialekter fra Mols til Skagen. Og Fyn. Og Sjælland. Og alle andre landsdele, hvor Bornholm naturligvis også er med på paletten.

– Det kan godt være, at nogle fra Vestegnen har svært ved at forstå bornholmsk, men hvis man giver modellen nok data, vil den kunne klare det, siger Dan Saattrup Nielsen til Tidende.

Kan bruges til journaler

Han er ai-specialist og ansat i firmaet Alexandra Instituttet, der er én af partnerne bag projektet, som udvikles sammen med Datalogisk Institut på Københavns Universitet og Digitaliseringsstyrelsen.

De nuværende talegenkendelsessystemer er nogle sprogsnobber, hvor kun personer fra de større danske byer har lagt stemme til datagrundlaget. Men den nye tjeneste er allerede fodret med tilpas mange gloser, så den burde være klar til at begå sig nogenlunde fra næste uge, men bliver dog ikke sluppet løs endnu.

– Hvis man skal bruge en talegenkendelsesløsning på Bornholm, er det rent faktisk mulig allerede nu at bruge det til forskellige ting. Eksempelvis journalisering, hvis borgerne giver lov til, at man må optage samtalen, siger Dan Saattrup Nielsen.

Lav din egen tjeneste

Der skal dog lige indtales yderligere nogle hundrede timers tale med de forskellige danske dialekter, før præcisionen er helt på toppen. De første 375 timer er registreret, men tallet skulle gerne op på 1.000. Så det kæmper forskerne videre med.

Der er afsat 22 millioner kroner til projektet. Foreløbig har 33 bornholmere bidraget med det talte ord til den nye dialektmaskine.

Alle modeller og data er baseret på såkaldt open source. Det betyder, at man kan få lov til at bruge hele herligheden, hvis man selv vil udvikle sin egen udgave.

Rønne-fint er fint

Den nye talegenkendelsestjeneste kan dog få visse udfordringer på Bornholm. Sådan lyder vurderingen fra Alex Speed Kjeldsen. Han er sprogforsker og har faktisk givet et nap med, da udviklerne skulle finde nogle ægte bornholmsktalende bornholmere.

– Jeg har været med inde over i den forstand, at jeg har hjulpet med at få nogle folk til at melde sig. Jeg skrev ud til min gruppe ordbogsfolk og andre, jeg kendte. Det skulle ikke kun være gamle damer, de snakkede med; det var vigtigt at få et repræsentativt udvalg, siger han

Noget vil blive let for maskineriet. Noget vil blive knap så let.

– Rønne-fint bliver nok enklest for den at forstå. Hvis man taler Allinge-svensk til den, vil det være lidt sværere. Her er en del andre ord, der kommer fra svensk, siger han.

Tandløs fisker

Sprogforskeren mener dog ikke, at det er udtalen af ordene, der kommer til at give knas det kunstige intelligensmaskinrum.

– Det er nok mere intonation eller sætningsmelodien, som vil give problemer. Bornholmerne synger lidt, når de taler, og der vil det nogle gange kunne komme til at lyde af et helt andet sprog, siger Alex Speed Kjeldsen.

Selvom sprogforskeren ikke frygter, at talegenkendelsesmodellen kører kronisk sur i bornholmsk, er der områder, hvor det kan blive en kende vanskeligt for den at få hold på det hele.

– Hvis folk bruger de forskellige bornholmske ord, tror jeg, de kan få problemer. Der vil det i nogle tilfælde reelt være en oversættelse, der er brug for. Det er ikke sikkert, den vil være i stand til at vide, at en jylkat er et pindsvin, siger han og kommer samtidig med et eksempel på, hvor den kunstige intelligens må give op, næsten uanset hvor meget data, man fylder i den.

– En tandløs fisker fra Hasle kunne godt være noget, de ville få problemer med.

Følg debatten på facebook!
FÅ ABONNEMENT