U RANGU PROFESIONALACA

Računalno prepoznavanje govora nikad nije bilo bolje

22.08.2017 u 15:25

Bionic
Reading

Još prošle godine Microsoftov istraživački tim objavio je kako su postavili novi industrijski standard po kvaliteti prepoznavanja govora. Ostvareni su rezultati o kojima se prije pet godina moglo samo i sanjati, a sada su u najnovijim testovima stvari postale još bolje

Uz WER (Word Error Rate) od 5,9 posto, lani je Microsoft tako osigurao računalno prepoznavanje glasa u rangu većine ljudi. WER je nedavno spušten na rekordno niskih 5,1 posto, a dok je raniji rezultat već bio povijesnog karaktera - što onda reći na novosti?

Microsoftov sustav za repoznavanje govora sada je u rangu profesionalaca koji slušanje mogu pretočiti u riječi - uz tu prednost da stvari mogu slušati i više puta. U praksi ovo znači da je po jedinici slušanja Microsoftov sustav bolji!

U sklopu istraživanja, Microsoft Artifical Intelligence i Microsoft Research odjeli su pripremili kolekciju 2.400 telefonskih poziva koje istraživači koriste još od 90-tih godina za testiranje sustava za prepoznavanje govora. U odnosu na lanjske rezultate, novi su bolji za 12 posto, a ostvareni su poboljšanjima vezanim uz akustičke i jezične modele neuralnih mreža koje razvijaju u Redmondu.

Kako je kod ranije postavljenog rekorda već bilo riječi, Microsoftovi sustavi, a posebno asistent Cortana, zahvaljujući ovom podvigu postat će bolji nego ikad - i osigurati stvaranje osnova za istinski AI. Jasno, mjesta za poboljšanje u prepoznavanju govora još uvijek ima. To posebno vrijedi stoga što ni ljudi nisu u stanju bez greške prepoznavati svaku izrečenu riječ sugovornika.