Głosowe interfejsy użytkownika

Zmiana paradygmatu

Dla wszys­t­kich fanów sci­ence-fic­tion kon­cept głosowego inter­fe­j­su użytkown­i­ka (VUI- voice user inter­face) jest znany od dziesię­ci­ole­ci. Każdy, kto wiele lat temu oglą­dał Star Trek lub 2001: Odyse­ja Kos­micz­na spodziewał się pewnie, że około roku 2000 wszyscy będziemy kon­trolować kom­put­ery za pomocą gło­su. Zresztą nie tylko autorzy sci-fi dostrze­gali potenc­jał tego typu inter­fe­jsów. W 1986 roku Nielsen zapy­tał 57 spec­jal­istów z branży IT jaka ich zdaniem będzie najwięk­sza zmi­ana w inter­fe­jsach użytkown­i­ka do roku 2000. Najczęś­ciej wskazy­wali oni właśnie na rozwój głosowych inter­fe­jsów. Nadzieje pokładane w tego typu rozwiąza­ni­ach mają swo­ją przy­czynę. Komu­nikac­ja wer­bal­na jest prze­cież najbardziej nat­u­ral­nym sposobem świadomej komu­nikacji między ludź­mi, więc wyko­rzys­tanie tego sposobu do inter­akcji człowiek-maszy­na wyda­je się być równie nat­u­ral­nym rozwiązaniem.

Tym­cza­sem masowo pro­dukowane urządzenia z inter­fe­jsem głosowym  pojaw­iały się już w połowie lat 90-tych, ale pop­u­larnoś­ci nie zdobyły. Pier­wszym tele­fonem, który umożli­wiał obsługę głosową (wybieranie numeru) był Philips Spark, który pojaw­ił się na rynku w 1996 roku. Reklam­owany jako przeło­mowe i proste w obsłudze urządze­nie, nie był jed­nak wol­ny od pewnych prob­lemów i ograniczeń tech­no­log­icznych.

Kole­jne tele­fony (wydawane przez firmy takie jak RIM, Sam­sung czy Motoro­la) wyposażone w jakąś for­mę głosowego inter­fe­j­su pojaw­iały się na rynku reg­u­larnie, pozwala­jąc użytkown­ikom na głosowe wybieranie numeru czy wysyłanie wiado­moś­ci tek­stowych. Wszys­tkie one wyma­gały jed­nak, aby użytkown­i­cy pamię­tali określone polece­nia i wymaw­iali je w wymus­zonej, sztucznej formie, dos­tosowanej do możli­woś­ci ówczes­nych urządzeń. Gen­erowało to dużą ilość błędów, co w efek­cie prowadz­iło do obniżonej satys­fakcji użytkown­ików.

Najnowszy­mi rozwiąza­ni­a­mi w dziedzinie VUI są wirtu­al­ny asys­tent Siri (2011) oraz jego Android­owy odpowied­nik S-Voice (2012) – pier­wsze masowo dostęp­ne i stosowane sys­te­my, które mają szan­sę na rynkowy sukces (Siri właś­ci­wie już ten sukces odniosło). Za sprawą Siri może­my mówić o kole­jnej (po inter­fe­jsach dotykowych, które upowszech­niły się prze­cież nie tak dawno temu) zmi­an­ie paradyg­matu w sposo­bie obsłu­gi i komu­nikacji z maszy­na­mi. Nie oznacza to oczy­wiś­cie wye­lim­i­nowa­nia bardziej trady­cyjnych inter­fe­jsów – dostęp­ne raczej będą inter­fe­jsy hybry­dowe – łączące kil­ka sposobów inter­akcji.

Zalety i zastosowanie

Wyko­rzys­tanie tego typu inter­fe­jsów w tele­fonach wyda­je się dobrym rozwiązaniem głównie ze wzglę­du na to, że pozwala­ją na oper­owanie tele­fonem bez koniecznoś­ci klika­nia, stuka­nia oraz patrzenia na ekran. Teo­re­ty­cznie więc, w sytu­ac­jach kiedy nie mamy możli­woś­ci lub nie powin­niśmy korzys­tać z inter­fe­jsów dotykowych (patrz na drogę, obie ręce na kierown­i­cy – mantra instruk­torów jazdy), głosowy inter­fe­js jest ide­al­nym rozwiązaniem.

Car_VUI

Oczy­wiś­cie głosowy inter­fe­js nie nada­je się do wykony­wa­nia wszys­t­kich zadań w kon­tekś­cie mobil­nym – moż­na za jego pomocą zadz­wonić do zna­jomego prowadząc auto, nawet wysłać mu SMS ale już sprawdze­nie ostat­nich przelewów może być zbyt skom­p­likowane ze wzglę­du na ilość infor­ma­cji przekazy­wanych do sys­te­mu (user input) oraz gen­erowanych przez sys­tem (sys­tem out­put). Jak sugeru­je Rachel Hin­man w Mobile Fron­tier, stosowanie VUI jest najbardziej wyda­jne pod­czas wykony­wa­nia zadań, w których ilość infor­ma­cji na wejś­ciu i wyjś­ciu jest niewiel­ka.

(za: “The Mobile Fron­tier”, Rachel Hin­man)

Innego rodza­ju prob­le­mem jest skuteczne zaprezen­towanie możli­wych do wyboru opcji sys­te­mowych oraz uniknię­cie „zapętle­nia” w ich obrę­bie. Sytu­ac­ja jest podob­na do prob­le­mu znanego choć­by z różnego rodza­ju linii pomo­cy gdzie, aby wybrać właś­ci­wą opcję, częs­to musimy wysłuchać wszys­t­kich możli­wych:

  • aby zgłosić kradzież tele­fonu naciśnij 1…
  • aby sprawdz­ić stan kon­ta naciśnij 2 …
  • aby …

Tego typu nawigacja/menu (opier­a­ją­ca się na dużej licz­bie opcji oraz ściśle określonej sek­wencji ich prezen­tacji) to chy­ba jeden z głównych powodów dla których VUI nie odnosiły przez dłuższy czas sukce­su. Oczy­wiś­cie w dużej częś­ci winę za to ponosiły prob­le­my imple­men­ta­cyjne i wdroże­niowe z zakre­su cho­ci­aż­by sztucznej inteligencjio­raz rozpoz­nawa­nia mowy. Niem­niej, w ostat­nim cza­sie pojaw­iły się sys­te­my, które pozwala­ją na oper­owanie tele­fonem w sposób przy­jazny dla użytkown­i­ka, nie są schematy­czne i pozwala­ją w elasty­czny sposób wykon­ać określone zadanie.

Stan obecny

Najlep­szym przykła­dem postępu w obrę­bie VUI jest Siri. Aplikac­ja dzię­ki połącze­niu tech­nologii rozpoz­nawa­nia mowy, przetwarza­nia języ­ka nat­u­ral­nego oraz syn­tezy mowy potrafi trafnie inter­pre­tować komendy użytkown­i­ka, odpowiadać na pyta­nia nie-wprost (znane Do I need an umbrel­la today?) czy rekomen­dować najlep­sze rozwiąza­nia. A wszys­tko to przy uży­ciu nat­u­ral­nego języ­ka, bez koniecznoś­ci zna­jo­moś­ci specy­ficznych dla tego sys­te­mu komend. Właśnie Siri jako pier­wszy sys­tem pokazał jak dobrze VUI może się sprawdz­ić przy zada­ni­ach typu: wysyłanie maila, dodanie notat­ki, ustaw­ie­nie spotka­nia czy znalezie­nie zna­j­du­ją­cych się w pobliżu restau­racji.

Siri

Po pojaw­ie­niu się Siri pojaw­iły się głosy, że podob­ne tech­nolo­gie na rynku ist­ni­ały od daw­na, choć­by Google Voice Actions na plat­for­mę Android. Jak drasty­cz­na była jed­nak różni­ca między nimi moż­na zaob­ser­wować porównu­jąc filmy je pro­mu­jące:

Intro­duc­ing Voice Actions — Android

Intro­duc­ing Siri

Pod­czas, gdy Siri pozwala na swo­bod­ną inter­akcję człowiek — kom­put­er, zbliża­jąc obsługę tele­fonu do nor­mal­nej roz­mowy (speł­ni­a­jąc tym samym definicję wirtu­al­nego asys­ten­ta), pro­dukt Google był zbliżony do bardziej trady­cyjnych, sterowanych za pomocą określonych pole­ceń sys­temów. W Google Voice Actions, jeśli użytkown­ik chci­ał­by sprawdz­ić pogodę w Warsza­w­ie to polece­nie musi­ało­by być zbliżone do: War­saw waether today. A infor­ma­c­ja zwrot­na była przed­staw­iana w postaci graficznej na wyświ­et­laczu. Ale to już przeszłość… W Galaxy S3 dostęp­ny jest już bardziej elasty­czny sys­tem S-Voice. Porów­nanie obu sys­temów moż­na zobaczyć na tym filmie:

Siri vs S-Voice

Apple jed­nak nie próżnu­je i dalej rozwi­ja Siri — w nowej wer­sji iOS pojawi się sys­tem Eyes-free – dedykowany spec­jal­nie do uży­cia w samo­chodzie i zin­te­growany z sys­tema­mi pokład­owy­mi takich firm jak BMW czy Toy­ota. Eyes-free poz­woli prze­jąć kon­trolę nad więk­szoś­cią niekry­ty­cznych funkcji w samo­chodzie (takich jak kli­matyza­c­ja, naw­igac­ja, tele­fon itp.) bez odry­wa­nia rąk od kierown­i­cy. Kon­tro­la głosem wyda­je się być tutaj najbardziej sen­sownym rozwiązaniem (chy­ba że korzys­tamy z Google Dri­ver­less Car).

Przyszłość

Głos może być doskon­ałym sposobem inter­akcji człowiek – kom­put­er ze wzglę­du na jego fun­da­men­talne znacze­nie w komu­nikacji między ludź­mi. Postęp w obszarze inter­fe­jsów głosowych w ciągu ostat­nich dziesię­ciu lat jest znaczą­cy a ich potenc­jał ogrom­ny. W ciągu najbliższych kil­ka lat czeka nas prze­niesie akcen­tu na komu­nikację głosową w urządzeni­ach mobil­nych. I cho­ci­aż nie zrezygnu­je­my całkowicie z dotykowych inter­fe­jsów graficznych to przyszłość w tym sek­torze tech­no­log­icznym należy do inter­fe­jsów hybry­dowych (dotykowo-głosowe). I na pro­jek­towanie takich inter­fe­jsów będziemy musieli się wkrótce przestaw­ić…

0 odpowiedzi

Odpowiedz

Want to join the discussion?
Feel free to contribute!

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *