Głosowe interfejsy użytkownika

Zmiana paradygmatu

Dla wszyst­kich fanów scien­ce-fic­tion kon­cept gło­so­we­go inter­fej­su użyt­kow­ni­ka (VUI- voice user inter­fa­ce) jest zna­ny od dzie­się­cio­le­ci. Każ­dy, kto wie­le lat temu oglą­dał Star Trek lub 2001: Ody­se­ja Kosmicz­na spo­dzie­wał się pew­nie, że oko­ło roku 2000 wszy­scy będzie­my kon­tro­lo­wać kom­pu­te­ry za pomo­cą gło­su. Zresz­tą nie tyl­ko auto­rzy sci-fi dostrze­ga­li poten­cjał tego typu inter­fej­sów. W 1986 roku Nie­lsen zapy­tał 57 spe­cja­li­stów z bran­ży IT jaka ich zda­niem będzie naj­więk­sza zmia­na w inter­fej­sach użyt­kow­ni­ka do roku 2000. Naj­czę­ściej wska­zy­wa­li oni wła­śnie na roz­wój gło­so­wych inter­fej­sów. Nadzie­je pokła­da­ne w tego typu roz­wią­za­niach mają swo­ją przy­czy­nę. Komu­ni­ka­cja wer­bal­na jest prze­cież naj­bar­dziej natu­ral­nym spo­so­bem świa­do­mej komu­ni­ka­cji mię­dzy ludź­mi, więc wyko­rzy­sta­nie tego spo­so­bu do inte­rak­cji czło­wiek-maszy­na wyda­je się być rów­nie natu­ral­nym roz­wią­za­niem.

Tym­cza­sem maso­wo pro­du­ko­wa­ne urzą­dze­nia z inter­fej­sem gło­so­wym  poja­wia­ły się już w poło­wie lat 90-tych, ale popu­lar­no­ści nie zdo­by­ły. Pierw­szym tele­fo­nem, któ­ry umoż­li­wiał obsłu­gę gło­so­wą (wybie­ra­nie nume­ru) był Phi­lips Spark, któ­ry poja­wił się na ryn­ku w 1996 roku. Rekla­mo­wa­ny jako prze­ło­mo­we i pro­ste w obsłu­dze urzą­dze­nie, nie był jed­nak wol­ny od pew­nych pro­ble­mów i ogra­ni­czeń tech­no­lo­gicz­nych.

Kolej­ne tele­fo­ny (wyda­wa­ne przez fir­my takie jak RIM, Sam­sung czy Moto­ro­la) wypo­sa­żo­ne w jakąś for­mę gło­so­we­go inter­fej­su poja­wia­ły się na ryn­ku regu­lar­nie, pozwa­la­jąc użyt­kow­ni­kom na gło­so­we wybie­ra­nie nume­ru czy wysy­ła­nie wia­do­mo­ści tek­sto­wych. Wszyst­kie one wyma­ga­ły jed­nak, aby użyt­kow­ni­cy pamię­ta­li okre­ślo­ne pole­ce­nia i wyma­wia­li je w wymu­szo­nej, sztucz­nej for­mie, dosto­so­wa­nej do moż­li­wo­ści ówcze­snych urzą­dzeń. Gene­ro­wa­ło to dużą ilość błę­dów, co w efek­cie pro­wa­dzi­ło do obni­żo­nej satys­fak­cji użyt­kow­ni­ków.

Naj­now­szy­mi roz­wią­za­nia­mi w dzie­dzi­nie VUI są wir­tu­al­ny asy­stent Siri (2011) oraz jego Andro­ido­wy odpo­wied­nik S-Voice (2012) – pierw­sze maso­wo dostęp­ne i sto­so­wa­ne sys­te­my, któ­re mają szan­sę na ryn­ko­wy suk­ces (Siri wła­ści­wie już ten suk­ces odnio­sło). Za spra­wą Siri może­my mówić o kolej­nej (po inter­fej­sach doty­ko­wych, któ­re upo­wszech­ni­ły się prze­cież nie tak daw­no temu) zmia­nie para­dyg­ma­tu w spo­so­bie obsłu­gi i komu­ni­ka­cji z maszy­na­mi. Nie ozna­cza to oczy­wi­ście wyeli­mi­no­wa­nia bar­dziej tra­dy­cyj­nych inter­fej­sów – dostęp­ne raczej będą inter­fej­sy hybry­do­we – łączą­ce kil­ka spo­so­bów inte­rak­cji.

Zalety i zastosowanie

Wyko­rzy­sta­nie tego typu inter­fej­sów w tele­fo­nach wyda­je się dobrym roz­wią­za­niem głów­nie ze wzglę­du na to, że pozwa­la­ją na ope­ro­wa­nie tele­fo­nem bez koniecz­no­ści kli­ka­nia, stu­ka­nia oraz patrze­nia na ekran. Teo­re­tycz­nie więc, w sytu­acjach kie­dy nie mamy moż­li­wo­ści lub nie powin­ni­śmy korzy­stać z inter­fej­sów doty­ko­wych (patrz na dro­gę, obie ręce na kie­row­ni­cy – man­tra instruk­to­rów jaz­dy), gło­so­wy inter­fejs jest ide­al­nym roz­wią­za­niem.

Car_VUI

Oczy­wi­ście gło­so­wy inter­fejs nie nada­je się do wyko­ny­wa­nia wszyst­kich zadań w kon­tek­ście mobil­nym – moż­na za jego pomo­cą zadzwo­nić do zna­jo­me­go pro­wa­dząc auto, nawet wysłać mu SMS ale już spraw­dze­nie ostat­nich prze­le­wów może być zbyt skom­pli­ko­wa­ne ze wzglę­du na ilość infor­ma­cji prze­ka­zy­wa­nych do sys­te­mu (user input) oraz gene­ro­wa­nych przez sys­tem (sys­tem out­put). Jak suge­ru­je Rachel Hin­man w Mobi­le Fron­tier, sto­so­wa­nie VUI jest naj­bar­dziej wydaj­ne pod­czas wyko­ny­wa­nia zadań, w któ­rych ilość infor­ma­cji na wej­ściu i wyj­ściu jest nie­wiel­ka.

(za: “The Mobi­le Fron­tier”, Rachel Hin­man)

Inne­go rodza­ju pro­ble­mem jest sku­tecz­ne zapre­zen­to­wa­nie moż­li­wych do wybo­ru opcji sys­te­mo­wych oraz unik­nię­cie „zapę­tle­nia” w ich obrę­bie. Sytu­acja jest podob­na do pro­ble­mu zna­ne­go choć­by z róż­ne­go rodza­ju linii pomo­cy gdzie, aby wybrać wła­ści­wą opcję, czę­sto musi­my wysłu­chać wszyst­kich moż­li­wych:

  • aby zgło­sić kra­dzież tele­fo­nu naci­śnij 1…
  • aby spraw­dzić stan kon­ta naci­śnij 2 …
  • aby …

Tego typu nawigacja/menu (opie­ra­ją­ca się na dużej licz­bie opcji oraz ści­śle okre­ślo­nej sekwen­cji ich pre­zen­ta­cji) to chy­ba jeden z głów­nych powo­dów dla któ­rych VUI nie odno­si­ły przez dłuż­szy czas suk­ce­su. Oczy­wi­ście w dużej czę­ści winę za to pono­si­ły pro­ble­my imple­men­ta­cyj­ne i wdro­że­nio­we z zakre­su cho­ciaż­by sztucz­nej inte­li­gen­cjio­raz roz­po­zna­wa­nia mowy. Nie­mniej, w ostat­nim cza­sie poja­wi­ły się sys­te­my, któ­re pozwa­la­ją na ope­ro­wa­nie tele­fo­nem w spo­sób przy­ja­zny dla użyt­kow­ni­ka, nie są sche­ma­tycz­ne i pozwa­la­ją w ela­stycz­ny spo­sób wyko­nać okre­ślo­ne zada­nie.

Stan obecny

Naj­lep­szym przy­kła­dem postę­pu w obrę­bie VUI jest Siri. Apli­ka­cja dzię­ki połą­cze­niu tech­no­lo­gii roz­po­zna­wa­nia mowy, prze­twa­rza­nia języ­ka natu­ral­ne­go oraz syn­te­zy mowy potra­fi traf­nie inter­pre­to­wać komen­dy użyt­kow­ni­ka, odpo­wia­dać na pyta­nia nie-wprost (zna­ne Do I need an umbrel­la today?) czy reko­men­do­wać naj­lep­sze roz­wią­za­nia. A wszyst­ko to przy uży­ciu natu­ral­ne­go języ­ka, bez koniecz­no­ści zna­jo­mo­ści spe­cy­ficz­nych dla tego sys­te­mu komend. Wła­śnie Siri jako pierw­szy sys­tem poka­zał jak dobrze VUI może się spraw­dzić przy zada­niach typu: wysy­ła­nie maila, doda­nie notat­ki, usta­wie­nie spo­tka­nia czy zna­le­zie­nie znaj­du­ją­cych się w pobli­żu restau­ra­cji.

Siri

Po poja­wie­niu się Siri poja­wi­ły się gło­sy, że podob­ne tech­no­lo­gie na ryn­ku ist­nia­ły od daw­na, choć­by Google Voice Actions na plat­for­mę Andro­id. Jak dra­stycz­na była jed­nak róż­ni­ca mię­dzy nimi moż­na zaob­ser­wo­wać porów­nu­jąc fil­my je pro­mu­ją­ce:

Intro­du­cing Voice Actions – Andro­id

Intro­du­cing Siri

Pod­czas, gdy Siri pozwa­la na swo­bod­ną inte­rak­cję czło­wiek – kom­pu­ter, zbli­ża­jąc obsłu­gę tele­fo­nu do nor­mal­nej roz­mo­wy (speł­nia­jąc tym samym defi­ni­cję wir­tu­al­ne­go asy­sten­ta), pro­dukt Google był zbli­żo­ny do bar­dziej tra­dy­cyj­nych, ste­ro­wa­nych za pomo­cą okre­ślo­nych pole­ceń sys­te­mów. W Google Voice Actions, jeśli użyt­kow­nik chciał­by spraw­dzić pogo­dę w War­sza­wie to pole­ce­nie musia­ło­by być zbli­żo­ne do: War­saw waether today. A infor­ma­cja zwrot­na była przed­sta­wia­na w posta­ci gra­ficz­nej na wyświe­tla­czu. Ale to już prze­szłość… W Gala­xy S3 dostęp­ny jest już bar­dziej ela­stycz­ny sys­tem S-Voice. Porów­na­nie obu sys­te­mów moż­na zoba­czyć na tym fil­mie:

Siri vs S-Voice

Apple jed­nak nie próż­nu­je i dalej roz­wi­ja Siri – w nowej wer­sji iOS poja­wi się sys­tem Eyes-free – dedy­ko­wa­ny spe­cjal­nie do uży­cia w samo­cho­dzie i zin­te­gro­wa­ny z sys­te­ma­mi pokła­do­wy­mi takich firm jak BMW czy Toyo­ta. Eyes-free pozwo­li prze­jąć kon­tro­lę nad więk­szo­ścią nie­kry­tycz­nych funk­cji w samo­cho­dzie (takich jak kli­ma­ty­za­cja, nawi­ga­cja, tele­fon itp.) bez odry­wa­nia rąk od kie­row­ni­cy. Kon­tro­la gło­sem wyda­je się być tutaj naj­bar­dziej sen­sow­nym roz­wią­za­niem (chy­ba że korzy­sta­my z Google Dri­ver­less Car).

Przyszłość

Głos może być dosko­na­łym spo­so­bem inte­rak­cji czło­wiek – kom­pu­ter ze wzglę­du na jego fun­da­men­tal­ne zna­cze­nie w komu­ni­ka­cji mię­dzy ludź­mi. Postęp w obsza­rze inter­fej­sów gło­so­wych w cią­gu ostat­nich dzie­się­ciu lat jest zna­czą­cy a ich poten­cjał ogrom­ny. W cią­gu naj­bliż­szych kil­ka lat cze­ka nas prze­nie­sie akcen­tu na komu­ni­ka­cję gło­so­wą w urzą­dze­niach mobil­nych. I cho­ciaż nie zre­zy­gnu­je­my cał­ko­wi­cie z doty­ko­wych inter­fej­sów gra­ficz­nych to przy­szłość w tym sek­to­rze tech­no­lo­gicz­nym nale­ży do inter­fej­sów hybry­do­wych (doty­ko­wo-gło­so­we). I na pro­jek­to­wa­nie takich inter­fej­sów będzie­my musie­li się wkrót­ce prze­sta­wić…

0 odpowiedzi

Odpowiedz

Want to join the discussion?
Feel free to contribute!

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *