REDAKCIJA REKOMENDUOJA
SUSIJĘ STRAIPSNIAI
Aktualijos2021 m. Rugsėjo 8 d. 08:23

Lingvistinės technologijos ir lietuvių kalba skaitmeninėje terpėje

Vilnius

Asociatyvi Unsplash.com nuotr.

Reporteris BrigitaŠaltinis: Etaplius.lt


187172

Gyvename technologijų eroje. Tai, kas dar visai neseniai atrodė tik mokslinė fantastika, šiandien tampa realybe. Kalbėti apie komunikaciją tarp dviejų ar kelių asmenų nebepakanka, žmogaus balsu prabyla ir išmanūs prietaisai. Natūraliai kyla klausimas, kokią vietą šiame procese užima lietuvių kalba? Ar ji turi pakankamai potencialo konkuruoti su plačiai pasaulyje paplitusiomis užsienio kalbomis? Kokią reikšmę kalbų išlikimui turi persikėlimas į skaitmeninę erdvę?

Kalbos persikėlimas į skaitmeninę erdvę. Kodėl tai svarbu?

Pasauliui modernėjant, augant informacijos srautams, lietuvių kalba, kaip ir kitos pasaulio kalbos, atsidūrė kryžkelėje, kai perdavimo iš lūpų į lūpas ar užrašymo knygose tiesiog nebepakanka. Prasidėjęs kalbų skaitmenizavimo procesas įtraukė populiariąsias pasaulio kalbas. Išmanieji įrenginiai prabilo užsienio kalba, o gimtoji kalba tarsi liko nuošalyje, antrame plane. Iškilus realiai grėsmei, kalbininkai, mokslininkai suprato – ateityje išliks tik tos kalbos, kurios sugebės persikelti į skaitmeninę erdvę.

Vytauto Didžiojo universiteto Informatikos fakulteto profesoriaus Gailiaus Raškinio ir docento Dariaus Amilevičiaus teigimu, šis persikėlimas labai svarbus, nes kitu atveju lietuvių kalba ilgainiui tiesiog būtų išstumta kitų kalbų.

„Kalba, kuri nepersikelia į skaitmeninę erdvę, negali būti integruota išmaniuosiuose įrenginiuose, bendraujančiuose su žmogumi jam įprastais būdais. Pastarieji tampa nebe tokie patogūs naudoti ir nebe tokie efektyvūs, lyginant su tais įrenginiais, kuriuose integruotos į skaitmeninę erdvę persikėlusios užsienio kalbos. Taip skaitmenizuota kalba palaipsniui išstumia neskaitmenizuotą iš kasdienės vartosenos. Pavyzdžiui, balsu valdomas automobilis, kompiuteris išstumia lietuvių kalbą, jei jam valdyti reikalinga anglų kalba“, – teigia mokslininkai.

Procesas kelia daug iššūkių

Visgi Darius Amilevičius pripažįsta, kad perkeliant nedaug vartotojų turinčią kalbą į skaitmeninę erdvę tenka susidurti su iššūkiais: IT gigantų, verslo abejingumu, technologiniams sprendimams reikalingų investicijų trūkumu.

„Kalbos technologijų, kaip ir kitų technologijų, vystymosi tempus sąlygoja rinkos paklausa. Lietuvių kalbos technologijų naudotojų skaičius neprilygsta anglų ir kitų gausių kalbų technologijų naudotojų skaičiui, todėl pasauliniai IT gigantai jai skiria gana paviršutinišką dėmesį. Ko gero, verslas tai vertina, kaip niekada neatsipirksiančias investicijas.

Kita vertus, lietuvių kalbai dėl jos savitumo tik iš dalies tinka technologiniai sprendimai, kuriami kitoms kalboms. O naujų sprendimų kūrimas ar anglų kalbai tinkamų sprendimų adaptavimas lietuvių kalbai, susijęs su nemažomis investicijomis.

Atsižvelgdami į tai, turime tik du garantus, leidžiančius viltis, kad lietuvių kalba tinkamai ir laiku įsitvirtins skaitmeninėje erdvėje: Europos Sąjungos įsipareigojimai rūpintis mažųjų šalių narių nacionalinėmis kalbomis ir Lietuvos Respublikos politikos formuotojų tinkamas rūpestis valstybinės kalbos skaitmenizacijos procesais. Iki šiol viskas vyksta tinkama linkme.

Jei pati Lietuva nepasirūpins lietuvių kalbos bent pagrindinių kalbos technologijų sprendimų kūrimu ir kalbos išteklių formavimu ir nesudarys sąlygų juos pateikti rinkai kaip nemokamus, atvirojo kodo sprendimus bei atvirus duomenis, niekas kitas už mus pačius to nepadarys“, – nuogąstavo mokslininkai.

befunky-collage-3.jpg

Žmogus ir mašina turi bendradarbiauti

Kalbos perkėlimas į skaitmeninę erdvę sukuria galimybę mašinai prabilti mums įprasta gimtąja kalba. Darius Amilevičius ir Gailius Raškinis vienbalsiai tvirtina, kad gyvename tokiame amžiuje, kai žmogaus ir mašinos bendradarbiavimas yra labai svarbus.

„Mes manome, kad humanistinėje visuomenėje, kurios centre yra žmogus, mašina privalo su žmogumi bendrauti žmogui priimtinu būdu. Spartus dirbtinio intelekto technologijų proveržis lėmė, kad mašina kai kuriose srityse jau pasiekė žmogaus galimybių lygį. Bet žmogaus kalbos supratimas mašinai yra vis dar sunkiai įveikiamas barjeras. Tai didžiausia problema, nes kol šis barjeras veiksmingai neperžengtas, neįmanoma kalbėti apie visų procesų ir paslaugų skaitmenizavimą srityse, kurios neatsiejamos nuo žmogaus kalbos (teisinė, medicina, viešasis sektorius, švietimas ir t. t.)“, – teigia mokslininkai.

Šnekos atpažinimas ir šnekos sintezė

Mokslininkai Darius Amilevičius ir Gailius Raškinis jau daug metų tiria ir vysto natūralios kalbos (rašytinės ir sakytinės) automatinės analizės, šnekos atpažinimo (angl. speech to text) ir šnekos sintezės (angl. text to speech) technologijas, kuria šių sprendimų vystymui reikalingus kalbos išteklius.

Mokslininkai pripažįsta, kad įgalinti mašiną atpažinti šneką – nelengvas uždavinys, reikalaujantis daugybės apgalvotų technologinių sprendimų, konsultacijų su kalbininkais. Neužtenka, kad mašina atpažintų žodžius ir pateiktų juos kaip atskirą kratinį. Siekiamybė – vientisas tekstas, tarpusavyje derančios žodžių formos, reikšmingi sakiniai. Norint visa tai įgyvendinti, svarbu parinkti tinkamus technologinius sprendimus.

„Šnekos atpažinimas – tai technologiniai sprendimai, kurie garso įrašą paverčia tekstu. Tai sudėtinga užduotis, kurios sprendimas reikalauja tarpdisciplininės kompetencijos. Dėl šios priežasties mūsų komandoje dirba informatikai ir kalbininkai. Pavyzdžiui, skirtingi žmonės įvairiai ištaria garsą „o“, bet mašina visais atvejais tai turi atpažinti ir užrašyti raidę „o“.

Tačiau, iš naudotojo požiūrio taško, nepakanka tinkamai atpažinti žodžius. Žmogui bus mažai naudos iš automatinės transkripcijos rezultato, jei mašina pusės valandos trukmės interviu garso įrašo atpažinimo rezultatą žmogui pateiks vien kaip atskirų žodžių sąrašą.

Mašina transkripcijos tekstą turi suskaidyti pagal kalbėtojus ir žodžius sugrupuoti į prasmę turinčias semantines struktūras, kurias vadiname sakiniais. Vystant šias technologijas didžiausi kliuviniai – garso įraše esantis aplinkos triukšmas bei aidas ir tas faktas, kad dažnai keli kalbėtojai kalba vienu metu.

Jei aplinkos triukšmą ir aidą galima sušvelninti specialiais filtrais, tai kelių kalbėtojų šneka yra mašinai sunkiai įveikiamas kliuvinys. Šią problemą galima spręsti dviem būdais: kiekvienas kalbėtojas įrašomas atskiru kanalu (kaip tai daro, pavyzdžiui, ZOOM vaizdo konferencijų platforma) arba bendravimo kultūros pokyčiai organizacijoje, kai įrašomo susirinkimo metu kalbėtojai vienas kito nenutraukia, visi kalba paeiliui ir pan.

Mūsų sukurtas sprendimas skirtas atpažinti neribotos apimties laisvai formuluojamą šneką. Tai papildomas iššūkis, kurio išvengia balso komandas atpažįstančios sistemos. Žmogus, kalbėdamas spontaniškai, kalba kitaip, nei rašo. Spontaninės kalbos žodynas skiriasi nuo rašytinės (literatūrinės) kalbos žodyno. Dažnai pradėdamas sakinį, žmogus dar nežino, kuo jis pasibaigs. Todėl pokalbio metu sakinys dažnai tampa nesklandus ar gramatiškai netaisyklingas. Žmogus dažnai taiso save, papildo, pakartotinai persako tai, kas jau buvo pasakyta. Visa tai yra papildomi iššūkiai mašinai ir technologinio sprendimo kūrėjams“, – apie iššūkius pasakojo mokslininkai.

Lietuviškai prabylanti mašina – ilgo ir sudėtingo darbo rezultatas

Priešingas procesas vyksta tada, kai mašina prabyla žmogaus balsu, t. y. užrašytas tekstas įgarsinamas. Kalbėdami apie šnekos sintezę Darius Amilevičius ir Gailius Raškinis pasidžiaugia, kad ši ilgą laiką buvusi pamiršta interesų sritis pagaliau sulaukė pelnyto susidomėjimo ir mokslinių tyrimų.

„Šnekos sintezė – tai technologiniai sprendimai, kurie leidžia mašinai tekstą perskaityti žmogaus balsu. Kai šiuose sprendimuose naudojame neuroninius tinklus ir gilųjį mokymą, mašinos generuojamas sintetinis balsas natūralumu nedaug nusileidžia natūraliam žmogaus balsui.

Deja, ilgą laiką Lietuvoje šioms technologijoms nebuvo skiriamas tinkamas dėmesys ir finansavimas, todėl mūsų komanda jas vystė kone iš entuziazmo laisvu nuo darbo metu. Buvo sukurta daug šnekos sintezės technologijai reikalingų komponentų, kaip, pavyzdžiui, dr. G. Norkevičiaus garsų trukmės modelis, prof. A. Kazlauskienės automatinis lietuviško teksto kirčiavimo algoritmas ir kiti“, – pasakojo mokslininkai.

 

pexels-karolina-grabowska-4497814.jpg

 

Naudojasi valstybinės įstaigos

Šiuo metu lietuvių šnekos atpažintuvus diegia ir šnekos sintezės paslaugomis naudojasi valstybinės įstaigos, žiniasklaida. Mokslininkų Dariaus Amilevičiaus ir Gailiaus Raškinio teigimu, tai ne tik palengvina darbą, bet yra ir svarbus postūmis kalbos skaitmenizacijos link.

„Vykdydami priemonės „Lietuvių kalba informacinėse technologijose“ projektą „Semantika 2“, sukūrėme giliojo mokymo ir neuroninių tinklų technologijomis grįstą lietuvių šnekos fonogramų transkripcijos tekstu sprendimą, kuris transkribuoja bendrinės, medicinos ir teisinės sričių tekstus. Šia vieša ir nemokama paslauga gali pasinaudoti kiekvienas norintysis projekto svetainėje www.semantika.lt.

Vartotojas paprasčiausiai pateikia garso failą ir nurodyto elektroninio pašto adresu gauna transkripcijos tekstą trimis formatais: pats tekstas, sinchronizavimo failas, skirtas transkripciją redaguoti nemokamu specialiu transkripcijų redaktoriumi ir subtitravimui skirtą failą, kuris pateikiamas tarptautiniu VTT standartu.

Specialus redaktorius leidžia redaguoti transkripciją, išklausant tik pasirinktą garso failo vietą. Tai labai patogu, nes nereikia atitraukti dėmesio, skirti papildomo laiko reikiamos vietos paieškai garso įraše. Tačiau dėl ribotų kompiuterinės technikos pajėgumų viešosios paslaugos teikimas ribojamas.

Kita problema – duomenų saugumas. Dažna įmonė ar organizacija nepasitiki debesijos paslaugomis, nes garso įrašuose pasitaiko komercinių ar netgi valstybinių paslapčių. Spręsdami šias problemas, mūsų sukurtą šnekos atpažintuvą vartotojams ir vystytojams pateikėme nemokamo, atvirojo kodo sprendimu, kurį galima parsisiųsti ir įsidiegti savo sistemoje. Šiuo atveju jokių ribojimų nėra, todėl visi norintieji gali saugiai ir efektyviai transkribuoti reikiamus garso įrašų masyvus. Tą padarė jau nemažai valstybinių įstaigų“, – pasakojo D. Amilevičius.

Palengvina žmogaus darbą

VDU mokslininkų teigimu, platesnis šių technologinių sprendimų taikymas įvairiose socialinio gyvenimo srityse taptų tikru perversmu, galinčiu stipriai pakeisti žmogiškųjų išteklių darbą. Be to, tai būtų nepakeičiama priemonė tiems, kurie turi klausos negalią.

„Automatinis šnekos transkribavimas tekstu duoda daug naudos. Tai, visų pirma, darbo mokos fondo taupymas ir galimybė išlaisvinti žmogų nuo neįdomaus rutininio darbo. Vienos valandos trukmės įrašo transkripcija rankiniu būdu reikalauja bent trijų valandų įtempto žmogaus darbo, tuo tarpu, kai mašina tai atlieka nepalyginamai greičiau. Praktika rodo, kad jei įskaičiuosime ir tą laiką, kuris reikalingas automatiškai gautą transkripciją patikrinti ir galutinai suredaguoti – tai šis technologinis sprendimas sutrumpina žmogaus darbo laiką.

Kitą apčiuopiamą naudą patiria žmonės su klausos negalia, nes šis technologinis sprendimas jiems padaro prieinamus garso resursus (paskaitų, posėdžių įrašus, filmų garso takelius ir pan.), paversdamas juos tekstu. Neatmestina galimybė, kad ateityje panašus technologinis sprendimas, veikiantis realaus laiko režimu, galėtų iš dalies pakeisti sinchroninius vertėjus į kurčnebylių kalbą TV laidose.

Nors komerciškai tai mažiau patrauklu, bet nemokamas sprendimas leidžia ženkliai pagerinti sveikatos priežiūros įstaigų darbą. Žmogus pasirenka gydytojo profesiją tam, kad gelbėtų kitų žmonių gyvybes, o ne tam, kad ilgai ir nuobodžiai rankomis suvedinėtų duomenis į sistemą. Šnekos atpažintuvas leidžia gydytojams daugiau laiko skirti pacientams, o mažiau biurokratijai.

O kur susirinkimų, posėdžių, interviu ir kiti įrašai. Technologinio sprendimo naudingų panaudojimų sąrašą galima plėsti iki begalybės. Dar viena nauda – informacijos apdorojimo sparta sprendimų priėmėjams.

Kai turima valandą trukusio susirinkimo transkripcija, sprendimų priėmėjas ją analizuoja ženkliai sparčiau ir efektyviau, nei klausydamas garso įrašo. Labai svarbi ir teisinių problemų apsaugą suteikianti nauda. Daug efektyviau susitikimus su partneriais įrašyti garso įrašo forma, o paskui iš jo transkripcijos pagaminti protokolą. Apsidraudžiame, nes po kurio laiko partneris gali pradėti teigti, kad protokolas buvo surašyta neteisingai, nes „jis taip niekada nesakė“. Tokiu atveju iš archyvo paimamas ir išklausomas pradinis garso įrašas.

Labai svarbu ir tai, kad šnekos atpažintuvas garso įrašą (vieno formato skaitmeninį turinį) verčia elektroniniu tekstu (kito formato skaitmeniniu turiniu). Todėl jo gautą rezultatą iš karto galima duoti analizuoti automatinės analizės priemonėmis, pvz. atlikti paiešką ir saugoti įmonės/organizacijos duomenų bazėse“, – pasakojo D. Amilevičius.

Lietuviškai prabilti turėtų ir Kinijoje pagaminti prietaisai

Šnekos sintezavimas neuroniniu balsu yra kitas sprendimas, kurį Vytauto Didžiojo universiteto mokslininkai vysto kartu su universiteto atžalinės įmonės UAB „Intelektika“ tyrėjais, vykdydami mokslas-verslas inovacijų vystymo projektą. Šios paslaugos teikimas yra susijęs su specifine technine infrastruktūra, kurioje balso sintezei naudojami grafiniai procesoriai.

Sukurtomis paslaugomis jau naudojasi Lietuvos radijo ir televizijos naujienų portalas, Lietuvos Respublikos Seimo kanceliarija ir Vytauto Didžiojo universiteto naujienų portalas, kurie savo svetainėse skelbiamus tekstus įgarsina ir neuroniniu balsu. Todėl straipsnius gali išklausyti regos negalią turintys žmonės.

„Tekstų sintezavimas neuroniniu balsu leidžia pailsėti akims, nes nereikia teksto skaityti ekrane. Studentams, turintiems negalią, tai leidžia studijų medžiagą išklausyti. Išmaniųjų įrenginių gamintojams paslauga leidžia įrenginio atsakymus generuoti žmogaus balsu, todėl taip įgalinama visavertė sąsaja žmogus-mašina. Lietuvoje gyvenantis vartotojas gi turi teisę tikėtis, kad Kinijoje pagamintas šaldytuvas su juo bendraus Lietuvos valstybine kalba, o ne kinų arba anglų“, – teigė D. Amilevičius.

Ateities vizija – apsaugoti tarmes

Visi šie moksliniai tyrimai, technologiniai sprendimai neabejotinai turi įtakos ir lietuvių kalbos išlikimui. Skaitmeninėje erdvėje esanti kalba turi kur kas didesnes galimybes išlikti globalėjančiame pasaulyje. D. Amilevičius ir G. Raškinis neslepia, kad jų komanda turi ir platesnių užmojų – išsaugoti tarmes ateities kartoms.

„Nors lėtai, bet lietuvių kalba įsitvirtina skaitmeninėje erdvėje ir turi prielaidas išlikti technologinėje eroje. Verta paminėti ir kultūrines mūsų vykdomų darbų perspektyvas. Pavyzdžiui, tarmės yra sparčiai nykstanti realybė. Mes turime unikalią viziją, kaip išsaugoti tarmes, paverčiant jas neuroniniais balsais.

Galbūt net ir po šimto metų, net jei neliks nė vieno kalbančio kuria nors lietuvių kalbos tarme, mašina galės labai sklandžiai sintezuoti ta tarme tekstus. Visa tai galėtų būti realizuota ateities projektuose“, – ateities vizijomis dalijosi mokslininkai.

 

Parengta bendradarbiaujant su VLKK. Publikaciją remia Kalbos komisija iš Lietuvių kalbos prestižo stiprinimo programos lėšų.



REDAKCIJA REKOMENDUOJA