Hoe die huidige navorsing uitgevoer is
Die meeste grammatika vir Suid-Afrika se Nguni-tale is tans redelik oud (uit die 1950's). Om dus masjienleer toe te pas om te verstaan hoe hierdie tale werk, kan help om die ou linguistiese beskrywings te verbeter en moderne taalgebruik te weerspieël.
Aangesien die vier tale 'n soortgelyke taalkundige struktuur deel, kan die tekstuele data parallel ingesamel en ontleed word om navorsers in staat te stel om vergelykende rekenaar- taalkundige studies te doen. Met behulp van hierdie data is kerntegnologieë in die vorm van morfologiese ontleders, rededeelmerkers en lemmatiseerders ontwikkel.
Met behulp van die nuwe morfologiese ontleder om die teks te ontleed, is die oorkoepelende akkuraatheid na tussen 82% en 92% verbeter, wat die vorige reëlgebaseerde ontleders vir dieselfde tale oortref het.
SADiLaR is 'n navorsingsinfrastruktuur wat deur die Departement van Wetenskap en Innovasie (DWI) van die Suid-Afrikaanse regering as deel van die Suid-Afrikaanse Infrastruktuurpadkaart (SARIR) daargestel is.
Hierdie hulpbronne is as oophulpbron op hulle pakhuis se webwerf beskikbaar.
|
Definisies van kerntegnologieë
Morfologiese ontleder: verwys na die ontleding van 'n woord wat gebaseer is op die betekenisvolle dele wat daarbinne vervat is en het ten doel om die kleinste eenhede van betekenis in 'n taal te vind.
Rededeelmerkers: is 'n sagteware-instrument wat etikette aan woorde verskaf in een van verskeie kategorieë om 'n woord se funksie in 'n gegewe taal aan te dui, soos 'n selfstandige naamwoord, werkwoord, ens.
Lemmatiseerder: om verskillende flekterende vorms van dieselfde woord saam te groepeer.
|