V prispevku opišemo leksikalno analizo kolokacij iz korpusov Janes in Kres ter predstavimo rezultate, ki so zanimivi za spremljanje leksikalnih novosti v slovenščini. Izluščene podatke smo analizirali z vidika še neregistriranega besedišča, z vidika vstopanja v tipične kolokacije in stalne zveze ter z vidika pomenskih sprememb. Jezikoslovna analiza izluščenih kolokacij je pokazala, da je mogoče s primerjalno analizo prepoznati glavne značilnosti in trende leksikalnih novosti ter zaznati problematične točke, kjer leksikalne novosti zlasti pod vplivom tujejezičnih elementov v slovenščino vnašajo tudi spremembe v zapisu in skladenjskih značilnostih.
COBISS.SI-ID: 1538097859
Prispevek predstavlja kategorije glagolskih večbesednih enot (GVBE), kot so bile oblikovane v okviru mednarodne COST akcije PARSEME Shared Task 1.1. S kategorijami, ki so nadjezikovne in obenem prilagojene posameznim vključenim jezikom, smo označili 13.511 povedi učnega korpusa ssj500k 2.0. Rezultat označevanja je 3.364 identificiranih večbesednih glagolskih enot, ki so klasificirane kot: inherentno povratni glagoli, zveze z glagoli v pomensko oslabljeni rabi, predložnomorfemski glagoli in glagolski idiomi. V prispevku rezultate označevanja predstavimo kvantitativno in kvalitativno in sopostavimo predlagani sistem klasifikacije ob obstoječe prakse na področju slovenistične obravnave GVBE.
COBISS.SI-ID: 1538298563
Raziskava opisuje identifikacijo, analizo in primerjavo slovarsko relevantnih formulaičnih nizov v referenčnih korpusih pisne in govorjene slovenščine. Nizi so bili identificirani s polavtomatskim pristopom, pri čemer so bile najpogostejše besedne kombinacije v posameznem korpusu razvrščene glede na statistično pomembnost in ročno pregledane z vidika slovaropisne relevantnosti. Kljub pomenski raznolikosti dobljeni seznam razkriva specifične lastnosti formulaičnih večbesednih enot, kot so izredna pogostost rabe, prevladujoča vsebovanost funkcijskih besed in nepropozijski pomen, zlasti v govoru, kjer so bili identificirane številne do sedaj slabo raziskane formulaične besedne zveze.
COBISS.SI-ID: 24446723
Prispevek predstavlja dopolnjevanje leksikona Sloleks z oblikoslovnimi vzorci, in sicer na primeru samostalnikov. Vzorci so strojno pridobljeni iz leksikona na osnovi oblikoskladenjskih oznak in spremenljivih delov besednih oblik. Sledi ročna analiza, v kateri ločimo sistemsko in v rabi utemeljene vzorce od primerov, ki se pojavljajo spričo šuma pri strojnem luščenju in nedoslednosti v leksikonu Sloleks; uredimo skupine glede na sorodnost podatkov in opredelimo oblikovno variantnost. Priprava vzorcev je razkrila številne možnosti za dopolnitev slovničnega opisa slovenščine, ki bi z upoštevanjem empiričnih podatkov lahko postal pravilnejši, preglednejši in bolj razumljiv.
COBISS.SI-ID: 69559906
V prispevku so predstavljeni rezultati ročnega označevanja slovenskega učnega korpusa z večbesednimi enotami (MWU), ki so pomembne za vključitev v leksikon slovenskih večbesednih enot. Ugotovitve bodo pripomogle k reviziji meril za identifikacijo in kategorizacijo slovarsko relevantnih enot glede na proste besedne zveze ter k jasnejši opredelitvi razlike med leksikaliziranimi elementi in bolj ali manj stabilnimi elementi njihovega besedilnega okolja, kar bo koristno pri določanju kanoničnih oblik MWU v leksikonu na eni strani ter njihovega razmerja do spremenljivih elementov in skladenjskih pretvorb na drugi strani.
COBISS.SI-ID: 1538554563