Julie 2022

NWU doen navorsing wat relevant is

Welkom by die vierde uitgawe van die Noordwes-Universiteit se nuusbrief, Navorsing@NWU.

Nuwe taalhulpbronne vir die vier Suid-Afrikaanse Nguni-tale

immagine1

Dr Martin Puttkammer

Beter tegnologie-instrumente is op pad vir Suid-Afrika se vier Nguni-tale.

Navorsing wat by die Sentrum vir Tekstegnologie (CTexT®) aan die NWU gedoen word, help met die invul van die ontbrekende skakels oor hoe hierdie tale gebruik word, wat weer sal lei tot die ontwikkeling van taalgereedskap wat op die jongste tegnologieë gebou word, veral kunsmatige intelligensie (KI).

"Die onlangse navorsing het gefokus op die verkryging en annotering van hulpbronne vir vier van ons Suid-Afrikaanse tale: Ndebele, Xhosa, Zulu en Swati.
immagine1

Dr Tanja Gaustad

"Kerntegnologieë is ook vir hierdie tale beskikbaar gestel deur te kyk na morfologiese ontleders (sien tekskassie onder), rededeelmerkers en lemmatiseerders," verduidelik die primêre navorsingspan se drie lede, dr Tanja Gaustad, dr Martin Puttkammer en Jaco du Toit.

Die voordeel van hierdie soort navorsing is dat dit 'n geleentheid bied om bestaande taaltegnologieë te verbeter. Masjienvertalingstelsels vir Suid-Afrikaanse tale kan byvoorbeeld uitgebrei word deur hierdie hulpbronne te gebruik om wedersydse begrip en beter kommunikasie verder te bevorder. Die ontwikkeling van beter kerntegnologieë baan die weg vir beter instrumente soos speltoetsers, inligtingherwinningstelsels en teksontginningsinstrumente.
immagine1

Jaco du Toit


Die belangrikheid van data

Volgens dr Gaustad, wat die senior rekenaarlinguis by CTexT® is, "is die huidige navorsing in kunsmatige intelligensie – veral diepleer – datagedrewe. Dit beteken dat om beter instrumente vir Suid-Afrikaanse tale te ontwikkel, datahulpbronne benodig word. Aangesien Suid-Afrikaanse tale min hulpbronne het, lewer dit 'n probleem op vir die verkryging van beter insig in die manier waarop hierdie tale gebruik word en maak die ontwikkeling van hierdie noodsaaklike instrumente moontlik."

Taalkundige hulpbronne maak verwante navorsingspogings moontlik en fasiliteer dit.

Volgens die navorsers is hierdie kennis in die verlede meestal opgeteken deur die opname van reëlgebaseerde voorstellings van die binnewerkings van natuurlike taal.

"Sulke benaderings vereis kundigheid om die reëls te handhaaf sowel as uit te brei en is nie omvattend genoeg nie, aangesien dit nie enige skaars of onopgetekende morfologiese prosesse insluit wat buite die omvang van gedefinieerde reëls val nie," verduidelik Jaco, CTexT® se rekenaarlinguis.

Hoe die huidige navorsing uitgevoer is

Die meeste grammatika vir Suid-Afrika se Nguni-tale is tans redelik oud (uit die 1950's). Om dus masjienleer toe te pas om te verstaan hoe hierdie tale werk, kan help om die ou linguistiese beskrywings te verbeter en moderne taalgebruik te weerspieël.

Aangesien die vier tale 'n soortgelyke taalkundige struktuur deel, kan die tekstuele data parallel ingesamel en ontleed word om navorsers in staat te stel om vergelykende rekenaar- taalkundige studies te doen. Met behulp van hierdie data is kerntegnologieë in die vorm van morfologiese ontleders, rededeelmerkers en lemmatiseerders ontwikkel.

Met behulp van die nuwe morfologiese ontleder om die teks te ontleed, is die oorkoepelende akkuraatheid na tussen 82% en 92% verbeter, wat die vorige reëlgebaseerde ontleders vir dieselfde tale oortref het.

SADiLaR is 'n navorsingsinfrastruktuur wat deur die Departement van Wetenskap en Innovasie (DWI) van die Suid-Afrikaanse regering as deel van die Suid-Afrikaanse Infrastruktuurpadkaart (SARIR) daargestel is.

Hierdie hulpbronne is as oophulpbron op hulle pakhuis se webwerf beskikbaar.

Definisies van kerntegnologieë

Morfologiese ontleder:
verwys na die ontleding van 'n woord wat gebaseer is op die betekenisvolle dele wat daarbinne vervat is en het ten doel om die kleinste eenhede van betekenis in 'n taal te vind.

Rededeelmerkers:
is 'n sagteware-instrument wat etikette aan woorde verskaf in een van verskeie kategorieë om 'n woord se funksie in 'n gegewe taal aan te dui, soos 'n selfstandige naamwoord, werkwoord, ens.

Lemmatiseerder:
om verskillende flekterende vorms van dieselfde woord saam te groepeer.

 TERUG:
Mikroskopiese wonder op geelbuik-seeslang
is 'n wetenskaplike deurbraak
 VOLGENDE:
Hoe Afrika 'n "samelewing vir
alle ouderdomme" kan ontwikkel
facebook
twitter
youtube
More research news

Deel asseblief jou kommentaar en insette deur 'n e-pos aan die nuusbriefredakteur, willie.duplessis@nwu.ac.za te stuur.