Logo

Elhuyar – Hizketaren sintesi (TTS) pertsonalizatua prentsa idatzian, irisgarritasunerako eta multimodaltasunerako

Elhuyar 

Sektorea: Zerbitzuak

Negozio-kasua

Azken urteetan, testu-formatuko albisteen kontsumoa murriztu egin da, eta pixkanaka ikus-entzunezko formatuko edo audio hutseko kontsumora igaro da. Gero eta gutxiagotan ikusten da jendea egunkaria irakurtzen, eta gero eta arruntagoa da kaskoekin podcastak, irratia eta abar entzuten ikustea. Era berean, irakurtzen den kasuetan, paperean gutxiago egiten da, eta gehiago telefono mugikorra bezalako gailuetan. Gailu horiek zailtasunak ematen dituzte aire zabalean edo garraio publikoan irakurtzeko, hala nola kontraste falta, letra-tamaina eskasa, ibileraren mugimendua, garraiobidearen bibrazioa…, baita pertsona itsuen edo testuak irakurtzean ikusmen-urritasunak dituztenen arazoak ere.

Helburuak

Hizketaren sintesi-teknologia erabiltzea (TTS edo Text-To-Speech) komunikabideetako testuen lokuziorako. Horrela, idatzizko komunikabide bat irakurri beharrean (edo horrez gain), entzuna izatea lortzen da, telefono mugikorraren bidez hainbat ingurunetan testuak kontsumitzea erraztuz (kalean oinez, garraio publikoan bidaiatuz, ikusmen zailtasunak edo ezgaitasunak, etab.), eskuragarriago eginez. Hori guztia hainbat hizkuntzatan (euskara, gaztelania, ingelesa, frantsesa, katalana, galiziera…).

Erabilera-kasua

Komunikabide bakoitzari hizketaren sintesi-sistema pertsonalizatuak sortzen zaizkio, ahots batekin edo gehiagorekin, hizkuntza batean baino gehiagotan hitz egiteko gai direnak hizkuntza bakar batean bere esatariek grabatutako minutu gutxi batzuetatik abiatuta. Hedabidearen web guneko albiste edo artikulu bakoitzean barra erreproduzitzaile bat sartzen da, eta, Play sakatzean, albistea entzuten da komunikabideko esatarien ahotsekin. Gainera, audio-fitxategi gisa ere deskarga daiteke artikulu osoaren irakurketa, ondoren entzuteko edo podcast-ak sortzeko.

Azpiegitura

On Premises edo Cloud, bezeroaren eskakizunen arabera

Erabilitako teknologiak

NLP

Erabilitako datuak

Komunikabideetako esatariei egindako grabazioak (10 minutu inguru)

Erabilitako baliabideak

Kontratuak idazteko eta datu pertsonalak (ahots-grabazioak) gordetzeko lege- eta segurtasun-aholkularitza. NLPn eta, bereziki, hizketaren sintesian espezializatutako ikertzaileak. Garatutako sintesi-sistemak ostatatzeko zerbitzarien azpiegitura (On Premises instalaziorik behar ez denean). API garatzaileak, sintesi-sistemaren urruneko deirako. Audioa erreproduzitzeko barra komunikabidearen webgunean sartzeko frontend garatzaileak.

Zailtasunak eta ikaskuntza

Komunikabideen inguruan etengabe agertzen diren toponimo, izen propio, teknizismo… berriak behar bezala ahoskatzeko zailtasuna. Hori dela eta, hitz-mota horien eta haien ahoskeren datu-basea etengabe eguneratzeko sistema diseinatu zen.

KPIak (negozioan duen inpaktua eta ereduaren metrikak)

Inplementazioa euskarazko egunkari bakarrean (Berria) eta Tokikomeko komunikabide guztietan (78 hedabidek baino gehiagok osatutako euskarazko tokiko komunikabideen sarea). Idatzizko edukien eskuragarritasuna handitzea. Komunikabideen multimodalitatea handitzea, idatzizko komunikabideak entzuteko aukera gehitzean.

Finantzaketa

Hazitek, Adimen Artifizial Aplikatua

Kolaboratzaileak

Berria, Goiena, Tokikom

Scroll to Top