Članek opisuje zasnovo nove leksikalne baze za slovenščino, ki je nastala pri projektu Sporazumevanje v slovenskem jeziku. Baza ima dvojni namen: je osnova za prihodnjo pripravo različnih slovarjev slovenščine, in sicer tako eno- kot dvojezičnih, kar pomeni, da ima leksikografski poudarek; hkrati pa je baza uporabljena tudi za razvoj slovenščini prilagojenih orodij za procesiranje naravnih jezikov. Baza ima šest ravni z leksikalnimi in slovničnimi informacijami, ki segajo od preprostih morfoloških podatkov na prvi ravni do semantičnih, skladenjskih in kolokacijskih podatkov na nižjih ravneh, na koncu pa so primeri iz korpusa. Uporaba orodij Sketch Engina z besednimi skicami, »tickbox« leksikografijo in moduli GDEX je omobočila hitrejše in bolj učinkovito pridobivanje korpusnih podatkov iz 620-milijonskega korpusa FidaPLUS, ki je vir podatkov za leksikalno bazo.
COBISS.SI-ID: 33264429
Dobri zgledi za slovar ali GDEX (good dictionary examples) je orodje v programu Sketch Engine, s katerim si leksikografi lahko pomagajo pri identifikaciji slovarskih primerov na ta način, da razvrstijo stavke glede na to, koliko je verjetnosti, da gre za dobre »kandidate«. Do pred kratkim je GDEX obstajal le za angleščino. Prispevek predstavlja značilnosti in ovrednotenje GDEX-a za slovenščini, ki je bil uporabljen pri pridobivanju dobrih zgledov pri novi leksikalni bazi za slovenščino (gre za eno od aktivnosti projekta Sporazumevanje v slovenskem jeziku). GDEX smo ovrednotili z ročnim pregledom povedi, v katerih so nastopale leme, ki pripadajo različnim besednim vrstam. Dobri zgledi so bili shranjeni za nadaljnjo analizo s programom WEKA. Analizi je sledila prilagoditev GDEX-ovih parametrov. Verjamemo, da je identificiranje značilnosti dobrih zgledov in njihova vrednost, predstavljena v prispevku, uporabna za razvoj GDEX-a za katerikoli jezik.
COBISS.SI-ID: 33344045