Szybko rośnie liczba aplikacji i znaczenie interfejsów głosowych
Technologia

Szybko rośnie liczba aplikacji i znaczenie interfejsów głosowych

Amerykańska rodzina z Portland w stanie Oregon dowiedziała się niedawno, że asystent głosowy Alexa nagrywał ich prywatne rozmowy i wysyłał je do znajomego. Właścicielka domu, nazwana przez media Danielle, powiedziała dziennikarzom, że „nigdy więcej nie podłączy tego urządzenia, ponieważ nie można jej ufać”.

Alexa, dostarczany przez głośniki Echo (1) i inne gadżety w dziesiątkach milionów domów w USA, zaczyna nagrywać, gdy usłyszy swoją nazwę lub „wywołanie” wypowiedziane przez użytkownika. Oznacza to, że nawet jeśli w reklamie telewizyjnej pojawi się słowo „Alexa”, urządzenie może rozpocząć nagrywanie. Dokładnie tak się stało w tym przypadku, mówi Amazon, dystrybutor sprzętu.

„Reszta rozmowy została zinterpretowana przez asystenta głosowego jako polecenie wysłania wiadomości” – podała firma w oświadczeniu. „W pewnym momencie Alexa głośno zapytała: „Do kogo?” Kontynuacja rodzinnej rozmowy na temat podłóg drewnianych powinna była zostać odebrana przez maszynę jako pozycja na liście kontaktów klienta.” Przynajmniej tak myśli Amazon. W ten sposób tłumaczenie sprowadza się do serii wypadków.

Niepokój jednak pozostaje. Bo z jakiegoś powodu w domu, w którym nadal czuliśmy się swobodnie, musimy wejść w jakiś „tryb głosowy”, oglądać to, co mówimy, co nadaje telewizor i oczywiście, co ten nowy głośnik na piersi szuflady mówi . nas.

Jednakże, Pomimo niedoskonałości technologii i obaw o prywatność, wraz ze wzrostem popularności urządzeń takich jak Amazon Echo, ludzie zaczynają przyzwyczajać się do interakcji z komputerami za pomocą głosu..

Jak zauważył Werner Vogels, CTO firmy Amazon podczas sesji AWS re:Invent pod koniec 2017 r., technologia jak dotąd ograniczała naszą zdolność do interakcji z komputerami. Słowa kluczowe wpisujemy do Google za pomocą klawiatury, ponieważ jest to nadal najczęstszy i najłatwiejszy sposób wprowadzania informacji do maszyny.

— powiedział Vogels. -

Wielka Czwórka

Korzystając z wyszukiwarki Google w telefonie, prawdopodobnie już dawno zauważyliśmy znak mikrofonu z wezwaniem do rozmowy. Ten Google teraz (2), które można wykorzystać do dyktowania zapytania wyszukiwania, głosowego wprowadzania wiadomości itp. W ostatnich latach Google, Apple i Amazon znacznie się poprawiły technologia rozpoznawania głosu. Asystenci głosowi, tacy jak Alexa, Siri i Asystent Google, nie tylko nagrywają Twój głos, ale także rozumieją, co do nich mówisz, i odpowiadają na pytania.

Google Now jest dostępny bezpłatnie dla wszystkich użytkowników Androida. Aplikacja może np. ustawić alarm, sprawdzić prognozę pogody oraz sprawdzić trasę na mapach Google. Rozszerzenie konwersacyjne stanów Google Now Asystent Google () – wirtualna pomoc dla użytkownika sprzętu. Dostępna jest głównie na urządzeniach mobilnych i smart home. W przeciwieństwie do Google Now może uczestniczyć w wymianie dwukierunkowej. Asystent zadebiutował w maju 2016 roku w komunikatorze Google Allo, a także w głośniku głosowym Google Home (3).

3. Strona główna Google

System IOS posiada również własnego wirtualnego asystenta, Siri, który jest programem dołączonym do systemów operacyjnych Apple iOS, watchOS, tvOS homepod i macOS. Siri zadebiutowała z iOS 5 i iPhone 4s w październiku 2011 roku na konferencji Let's Talk iPhone.

Oprogramowanie bazuje na interfejsie konwersacyjnym: rozpoznaje mowę naturalną użytkownika (w iOS 11 możliwe jest również ręczne wpisywanie poleceń), odpowiada na pytania i realizuje zadania. Dzięki wprowadzeniu uczenia maszynowego asystent z czasem analizuje osobiste preferencje użytkownikowi, aby zapewnić bardziej trafne wyniki i zalecenia. Siri wymaga stałego połączenia z Internetem – głównymi źródłami informacji są tutaj Bing i Wolfram Alpha. iOS 10 wprowadził obsługę rozszerzeń innych firm.

Kolejny z wielkiej czwórki Cortana. Jest to inteligentny osobisty asystent stworzony przez firmę Microsoft. Jest obsługiwany na platformach Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android i iOS. Cortana została po raz pierwszy zaprezentowana na konferencji Microsoft Build Developer Conference w kwietniu 2014 r. w San Francisco. Nazwa programu pochodzi od imienia postaci z serii gier Halo. Cortana jest dostępna w języku angielskim, włoskim, hiszpańskim, francuskim, niemieckim, chińskim i japońskim.

Użytkownicy wspomnianego już programu Alexa muszą również wziąć pod uwagę ograniczenia językowe – cyfrowy asystent mówi tylko po angielsku, niemiecku, francusku i japońsku.

Amazon Virtual Assistant został po raz pierwszy użyty w inteligentnych głośnikach Amazon Echo i Amazon Echo Dot opracowanych przez Amazon Lab126. Umożliwia interakcję głosową, odtwarzanie muzyki, tworzenie list rzeczy do zrobienia, ustawianie alarmów, strumieniowe przesyłanie podcastów, odtwarzanie audiobooków oraz bieżące informacje o pogodzie, natężeniu ruchu, sporcie i innych wiadomościach, takich jak wiadomości (4). Alexa może sterować wieloma inteligentnymi urządzeniami, aby stworzyć system automatyki domowej. Można go również wykorzystać do wygodnych zakupów w sklepie Amazon.

4. Do czego użytkownicy używają echa (według badań)

Użytkownicy mogą poprawić wrażenia z korzystania z Alexy, instalując „umiejętności” Alexy (), dodatkowe funkcje opracowane przez strony trzecie, częściej określane jako aplikacje, takie jak programy pogodowe i dźwiękowe w innych ustawieniach. Większość urządzeń Alexa umożliwia aktywację wirtualnego asystenta za pomocą hasła budzenia, zwanego .

Amazon zdecydowanie dominuje dziś na rynku inteligentnych głośników (5). IBM, który wprowadził nową usługę w marcu 2018 roku, stara się wejść do pierwszej czwórki Asystent Watsona, przeznaczony dla firm, które chcą tworzyć własne systemy wirtualnych asystentów ze sterowaniem głosowym. Jaka jest zaleta rozwiązania IBM? Zdaniem przedstawicieli firmy przede wszystkim o znacznie większych możliwościach personalizacji i ochrony prywatności.

Po pierwsze, Watson Assistant nie jest marką. Na tej platformie firmy mogą tworzyć własne rozwiązania i oznaczać je własną marką.

Po drugie, mogą trenować swoje systemy wspomagające przy użyciu własnych zestawów danych, co według IBM ułatwia dodawanie funkcji i poleceń do tego systemu niż inne technologie VUI (głosowego interfejsu użytkownika).

Po trzecie, Watson Assistant nie dostarcza IBM informacji o aktywności użytkowników - twórcy rozwiązań na platformie mogą jedynie zachować dla siebie cenne dane. Tymczasem każdy, kto buduje urządzenia, na przykład z Alexą, powinien mieć świadomość, że jego cenne dane trafią do Amazona.

Watson Assistant ma już kilka wdrożeń. Z systemu korzystała m.in. firma Harman, która stworzyła asystenta głosowego do samochodu koncepcyjnego Maserati (6). Na lotnisku w Monachium asystent IBM zasila robota Pepper, aby pomóc pasażerom w poruszaniu się. Trzecim przykładem jest firma Chameleon Technologies, w której w inteligentnym liczniku domowym zastosowano technologię głosową.

6. Asystent Watsona w samochodzie koncepcyjnym Maserati

Warto dodać, że podstawowa technologia również nie jest nowa. Watson Assistant obejmuje funkcje szyfrowania dla istniejących produktów IBM, Watson Conversation i Watson Virtual Agent, a także interfejsy API do analizy języka i czatu.

Amazon jest nie tylko liderem inteligentnej technologii głosowej, ale przekształca ją w bezpośredni biznes. Jednak niektóre firmy eksperymentowały z integracją Echo znacznie wcześniej. Sisense, firma z branży BI i analityki, wprowadziła integrację Echo w lipcu 2016 roku. Z kolei startup Roxy postanowił stworzyć własne sterowane głosem oprogramowanie i sprzęt dla branży hotelarskiej. Na początku tego roku firma Synqq wprowadziła aplikację do robienia notatek, która wykorzystuje przetwarzanie głosu i języka naturalnego do dodawania notatek i wpisów w kalendarzu bez konieczności wpisywania ich na klawiaturze.

Wszystkie te małe firmy mają duże ambicje. Przede wszystkim jednak dowiedzieli się, że nie każdy użytkownik chce przenosić swoje dane do Amazona, Google, Apple czy Microsoftu, które są najważniejszymi graczami w budowaniu platform komunikacji głosowej.

Amerykanie chcą kupować

W 2016 r. wyszukiwanie głosowe stanowiło 20% wszystkich wyszukiwań Google dla telefonów komórkowych. Osoby korzystające z tej technologii na co dzień wymieniają jej wygodę i wielozadaniowość jako jedne z jej największych zalet. (na przykład możliwość korzystania z wyszukiwarki podczas jazdy samochodem).

Analitycy Visiongain szacują obecną wartość rynkową inteligentnych asystentów cyfrowych na 1,138 miliarda dolarów, takich mechanizmów jest coraz więcej. Według Gartnera już do końca 2018 r. 30% naszych interakcji z technologią będzie poprzez rozmowy z systemami głosowymi.

Brytyjska firma badawcza IHS Markit szacuje, że do końca tego roku rynek cyfrowych asystentów wykorzystujących sztuczną inteligencję osiągnie 4 miliardy urządzeń, a do 2020 roku liczba ta może wzrosnąć do 7 miliardów.

Według raportów eMarketer i VoiceLabs, w 2017 roku 35,6 miliona Amerykanów korzystało ze sterowania głosowego co najmniej raz w miesiącu. Oznacza to wzrost o prawie 130% w stosunku do roku poprzedniego. Oczekuje się, że sam rynek asystentów cyfrowych wzrośnie o 2018% w 23. Oznacza to, że będziesz ich już używał. 60,5 miliona Amerykanów, co zaowocuje konkretnymi pieniędzmi dla ich producentów. RBC Capital Markets szacuje, że do 2020 r. interfejs Alexa wygeneruje dla Amazona do 10 miliardów dolarów przychodu.

Umyj, upiecz, wyczyść!

Interfejsy głosowe coraz śmielej wkraczają na rynek AGD i elektroniki użytkowej. Widać to było już podczas zeszłorocznej wystawy IFA 2017. Amerykańska firma Neato Robotics wprowadziła np. robota odkurzającego, który łączy się z jedną z kilku platform smart home, w tym z systemem Amazon Echo. Rozmawiając z inteligentnym głośnikiem Echo, możesz poinstruować urządzenie, aby posprzątało cały dom o określonych porach dnia lub nocy.

Na targach zaprezentowano także inne produkty aktywowane głosem, od inteligentnych telewizorów sprzedawanych pod marką Toshiba przez turecką firmę Vestel po podgrzewane koce niemieckiej firmy Beurer. Wiele z tych urządzeń elektronicznych można również aktywować zdalnie za pomocą smartfonów.

Jednak zdaniem przedstawicieli Boscha jest za wcześnie, aby stwierdzić, która z opcji asystenta domowego stanie się dominująca. Na targach IFA 2017 niemiecka grupa techniczna zaprezentowała pralki (7), piekarniki i ekspresy do kawy, które łączą się z Echo. Bosch chce również, aby w przyszłości jego urządzenia były kompatybilne z platformami głosowymi Google i Apple.

7. Pralka Bosch, która łączy się z Amazon Echo

Firmy takie jak Fujitsu, Sony i Panasonic opracowują własne rozwiązania asystentów głosowych oparte na sztucznej inteligencji. Sharp dodaje tę technologię do piekarników i małych robotów wchodzących na rynek. Nippon Telegraph & Telephone zatrudnia producentów sprzętu i zabawek, którzy zaadaptują sterowany głosem system sztucznej inteligencji.

Stara koncepcja. Czy wreszcie nadszedł jej czas?

W rzeczywistości koncepcja Voice User Interface (VUI) istnieje od dziesięcioleci. Każdy, kto oglądał Star Trek lub 2001: A Space Odyssey lata temu, prawdopodobnie spodziewał się, że około 2000 roku wszyscy będziemy sterować komputerami za pomocą naszych głosów. Nie tylko pisarze science fiction dostrzegli potencjał tego typu interfejsu. W 1986 roku badacze firmy Nielsen zapytali specjalistów IT, jaka ich zdaniem będzie największa zmiana w interfejsach użytkownika do 2000 roku. Najczęściej wskazywali na rozwój interfejsów głosowych.

Są powody, by mieć nadzieję na takie rozwiązanie. Komunikacja werbalna jest przecież najbardziej naturalnym sposobem świadomej wymiany myśli, dlatego używanie jej do interakcji człowiek-maszyna wydaje się jak dotąd najlepszym rozwiązaniem.

Jeden z pierwszych VUI, zwany pudełko na buty, został stworzony na początku lat 60. przez IBM. Był prekursorem dzisiejszych systemów rozpoznawania głosu. Rozwój urządzeń VUI ograniczały jednak ograniczenia mocy obliczeniowej. Analiza i interpretacja ludzkiej mowy w czasie rzeczywistym wymaga wiele wysiłku i zajęło ponad pięćdziesiąt lat, zanim stało się to możliwe.

Urządzenia z interfejsem głosowym zaczęły pojawiać się w masowej produkcji w połowie lat 90-tych, ale nie zyskały na popularności. Pierwszy telefon ze sterowaniem głosowym (wybieraniem) był Philips Sparkwydany w 1996 roku. To innowacyjne i proste w obsłudze urządzenie nie było jednak wolne od ograniczeń technologicznych.

Na rynek regularnie trafiają inne telefony wyposażone w formy interfejsu głosowego (stworzone przez takie firmy jak RIM, Samsung czy Motorola), które pozwalają na wybieranie głosowe lub wysyłanie wiadomości tekstowych. Wszystkie wymagały jednak zapamiętywania określonych poleceń i wypowiadania ich w wymuszonej, sztucznej formie, dostosowanej do możliwości ówczesnych urządzeń. Generowało to dużą liczbę błędów, co z kolei prowadziło do niezadowolenia użytkowników.

Jednak teraz wkraczamy w nową erę informatyki, w której postępy w uczeniu maszynowym i rozwoju sztucznej inteligencji odblokowują potencjał konwersacji jako nowego sposobu interakcji z technologią (8). Liczba urządzeń obsługujących interakcję głosową stała się ważnym czynnikiem, który miał duży wpływ na rozwój VUI. Dziś prawie 1/3 światowej populacji posiada już smartfony, które można wykorzystać do tego typu zachowań. Wygląda na to, że większość użytkowników jest wreszcie gotowa na dostosowanie swoich interfejsów głosowych.

8. Współczesna historia rozwoju interfejsu głosowego

Zanim jednak będziemy mogli swobodnie rozmawiać z komputerem, jak zrobili to bohaterowie Odysei kosmicznej, musimy pokonać szereg problemów. Maszyny wciąż nie radzą sobie zbyt dobrze z niuansami językowymi. Oprócz wiele osób nadal czuje się nieswojo, wydając polecenia głosowe wyszukiwarce.

Statystyki pokazują, że z asystentów głosowych korzysta się przede wszystkim w domu lub wśród bliskich znajomych. Żaden z ankietowanych nie przyznał się do korzystania z wyszukiwania głosowego w miejscach publicznych. Jednak ta blokada prawdopodobnie zniknie wraz z upowszechnieniem się tej technologii.

pytanie trudne technicznie

Problemem, z jakim borykają się systemy (ASR), jest wydobywanie użytecznych danych z sygnału mowy i kojarzenie ich z określonym słowem, które ma określone znaczenie dla danej osoby. Wytwarzane dźwięki są za każdym razem inne.

Zmienność sygnału mowy jest jego naturalną właściwością, dzięki której rozpoznajemy np. akcent lub intonację. Każdy element systemu rozpoznawania mowy ma określone zadanie. Na podstawie przetworzonego sygnału i jego parametrów tworzony jest model akustyczny, który jest powiązany z modelem językowym. System rozpoznawania może działać w oparciu o małą lub dużą liczbę wzorców, co determinuje wielkość słownictwa, z którym pracuje. Oni mogą być małe słowniki w przypadku systemów rozpoznających pojedyncze słowa lub polecenia, a także duże bazy danych zawierające odpowiednik zestawu językowego i uwzględniający model języka (gramatyka).

Przede wszystkim problemy z interfejsami głosowymi poprawnie rozumiesz mowę, w którym często pomijane są np. całe ciągi gramatyczne, występują błędy językowe i fonetyczne, błędy, pominięcia, wady wymowy, homonimy, nieuzasadnione powtórzenia itp. Wszystkie te systemy AKP muszą działać szybko i niezawodnie. Przynajmniej takie są oczekiwania.

Źródłem trudności są również sygnały akustyczne inne niż rozpoznana mowa, które wchodzą na wejście systemu rozpoznawania, tj. wszystkie rodzaje zakłócenia i hałas. W najprostszym przypadku ich potrzebujesz odfiltrować. To zadanie wydaje się rutynowe i proste - w końcu różne sygnały są filtrowane i każdy elektronik wie, co w takiej sytuacji zrobić. Należy to jednak zrobić bardzo ostrożnie i ostrożnie, jeśli wynik rozpoznawania mowy ma spełnić nasze oczekiwania.

Stosowane obecnie filtrowanie umożliwia usunięcie, wraz z sygnałem mowy, zewnętrznego szumu odbieranego przez mikrofon oraz wewnętrznych właściwości samego sygnału mowy, które utrudniają jego rozpoznanie. Jednak dużo bardziej złożony problem techniczny powstaje, gdy zakłóceniem analizowanego sygnału mowy jest… inny sygnał mowy, czyli np. głośne dyskusje wokół. To pytanie znane jest w literaturze jako tzw. Wymaga to już zastosowania skomplikowanych metod, tzw. dekonwolucja (rozplątanie) sygnału.

Na tym nie kończą się problemy z rozpoznawaniem mowy. Warto zdać sobie sprawę, że mowa niesie ze sobą wiele różnych rodzajów informacji. Głos ludzki sugeruje płeć, wiek, różne charaktery właściciela czy stan jego zdrowia. Istnieje rozbudowany dział inżynierii biomedycznej zajmujący się diagnostyką różnych chorób na podstawie charakterystycznych zjawisk akustycznych występujących w sygnale mowy.

Istnieją również aplikacje, w których głównym celem analizy akustycznej sygnału mowy jest identyfikacja mówcy lub weryfikacja tego, za kogo się podaje (głos zamiast klucza, hasło lub kod PUK). Może to być ważne, zwłaszcza w przypadku technologii inteligentnych budynków.

Pierwszym elementem systemu rozpoznawania mowy jest: микрофон. Jednak sygnał odbierany przez mikrofon zwykle pozostaje mało przydatny. Badania pokazują, że kształt i przebieg fali dźwiękowej są bardzo zróżnicowane w zależności od osoby, szybkości mówienia, a częściowo nastroju rozmówcy – choć w niewielkim stopniu odzwierciedlają samą treść wypowiadanych poleceń.

Dlatego sygnał musi być poprawnie przetworzony. Współczesna akustyka, fonetyka i informatyka razem zapewniają bogaty zestaw narzędzi, które można wykorzystać do przetwarzania, analizowania, rozpoznawania i rozumienia sygnału mowy. Dynamiczne widmo sygnału, tzw spektrogramy dynamiczne. Są one dość łatwe do uzyskania, a mowa prezentowana w postaci dynamicznego spektrogramu stosunkowo łatwa do rozpoznania przy użyciu technik podobnych do stosowanych w rozpoznawaniu obrazów.

Proste elementy mowy (na przykład polecenia) można rozpoznać po prostym podobieństwie całych spektrogramów. Na przykład, aktywowany głosem słownik telefonu komórkowego zawiera tylko kilkadziesiąt do kilkuset słów i fraz, zwykle ułożonych w stos, aby można je było łatwo i skutecznie zidentyfikować. Jest to wystarczające do prostych zadań kontrolnych, ale poważnie ogranicza ogólne zastosowanie. Systemy budowane według schematu z reguły obsługują tylko określonych mówców, dla których głosy są specjalnie przeszkolone. Jeśli więc pojawi się ktoś nowy, kto chce używać swojego głosu do sterowania systemem, najprawdopodobniej nie zostanie zaakceptowany.

Wynik tej operacji nazywa się Spektrogram 2-W, czyli widmo dwuwymiarowe. W tym bloku jest jeszcze jedna czynność, na którą warto zwrócić uwagę - segmentacja. Mówiąc ogólnie, mówimy o rozbiciu ciągłego sygnału mowy na części, które można oddzielnie rozpoznać. Dopiero z tych indywidualnych diagnoz dokonuje się rozpoznania całości. Ta procedura jest konieczna, ponieważ nie można za jednym razem zidentyfikować długiej i złożonej mowy. O tym, jakie segmenty wyróżnić w sygnale mowy, napisano już całe tomy, więc nie będziemy teraz decydować, czy wyróżnione segmenty mają być fonemami (odpowiednikami dźwiękowymi), sylabami, czy może alofonami.

Proces automatycznego rozpoznawania zawsze odnosi się do pewnych cech przedmiotów. Dla sygnału mowy przetestowano setki zestawów różnych parametrów podzielone na rozpoznane klatki i mając wybrane funkcjedzięki czemu te klatki są prezentowane w procesie rozpoznawania możemy wykonać (dla każdej klatki osobno) kategoryzacja, tj. przypisanie do ramki identyfikatora, który będzie ją reprezentował w przyszłości.

Następny etap montaż ramek w osobne słowa - najczęściej opiera się na tzw. model niejawnych modeli Markowa (HMM-). Potem następuje montaż słów dokończ zdania.

Możemy teraz na chwilę wrócić do systemu Alexa. Jego przykład pokazuje wieloetapowy proces maszynowego „rozumienia” człowieka, a dokładniej: wydanego przez niego polecenia lub zadanego pytania.

Zrozumienie słów, zrozumienie znaczenia i zrozumienie intencji użytkownika to zupełnie inne rzeczy.

Dlatego kolejnym krokiem jest praca modułu NLP(), którego zadaniem jest rozpoznawanie intencji użytkownika, tj. znaczenie polecenia/pytania w kontekście, w jakim zostało wypowiedziane. Jeśli intencja zostanie zidentyfikowana, to przypisanie tzw. umiejętności i zdolności, czyli specyficzna funkcja obsługiwana przez inteligentnego asystenta. W przypadku pytania o pogodę wywoływane są źródła danych pogodowych, które pozostają do przetworzenia na mowę (mechanizm TTS). W efekcie użytkownik słyszy odpowiedź na zadane pytanie.

Głos? Grafiki? A może jedno i drugie?

Większość znanych nowoczesnych systemów interakcji opiera się na pośredniku zwanym Graficzny interfejs użytkownika (interfejs graficzny). Niestety, GUI nie jest najbardziej oczywistym sposobem interakcji z produktem cyfrowym. Wymaga to od użytkowników najpierw nauczenia się obsługi interfejsu i zapamiętywania tych informacji przy każdej kolejnej interakcji. W wielu sytuacjach głos jest znacznie wygodniejszy, ponieważ możesz wchodzić w interakcję z VUI po prostu mówiąc do urządzenia. Interfejs, który nie zmusza użytkowników do zapamiętywania i zapamiętywania niektórych poleceń lub metod interakcji, powoduje mniej problemów.

Oczywiście ekspansja VUI nie oznacza rezygnacji z bardziej tradycyjnych interfejsów – dostępne będą raczej interfejsy hybrydowe, które łączą kilka sposobów interakcji.

Interfejs głosowy nie nadaje się do wszystkich zadań w kontekście mobilnym. Za jego pomocą zadzwonimy do znajomego jadącego samochodem, a nawet wyślemy mu SMS-a, ale sprawdzenie ostatnich przelewów może być zbyt trudne – ze względu na ilość informacji przesyłanych do systemu () i generowanych przez system (system). Jak sugeruje Rachel Hinman w swojej książce Mobile Frontier, korzystanie z VUI staje się najbardziej efektywne podczas wykonywania zadań, w których ilość informacji wejściowych i wyjściowych jest niewielka.

Smartfon podłączony do internetu jest wygodny, ale też niewygodny (9). Za każdym razem, gdy użytkownik chce coś kupić lub skorzystać z nowej usługi, musi pobrać inną aplikację i utworzyć nowe konto. Stworzono tutaj pole do wykorzystania i rozwoju interfejsów głosowych. Zamiast zmuszać użytkowników do instalowania wielu różnych aplikacji lub tworzenia oddzielnych kont dla każdej usługi, eksperci twierdzą, że VUI przeniesie ciężar tych niewygodnych zadań na asystenta głosowego opartego na sztucznej inteligencji. Wygodne będzie dla niego wykonywanie forsownych czynności. Wydamy mu tylko rozkazy.

9. Interfejs głosowy za pośrednictwem smartfona

Dziś do Internetu podłączony jest nie tylko telefon i komputer. Inteligentne termostaty, oświetlenie, czajniki i wiele innych urządzeń zintegrowanych z IoT jest również podłączonych do sieci (10). Tak więc wokół nas są urządzenia bezprzewodowe, które wypełniają nasze życie, ale nie wszystkie z nich w naturalny sposób pasują do graficznego interfejsu użytkownika. Korzystanie z VUI pomoże Ci łatwo zintegrować je z naszym środowiskiem.

10. Interfejs głosowy z Internetem Rzeczy

Tworzenie głosowego interfejsu użytkownika wkrótce stanie się kluczową umiejętnością projektanta. To prawdziwy problem – konieczność wdrożenia systemów głosowych zachęci Cię do większego skupienia się na proaktywnym projektowaniu, czyli próbie zrozumienia początkowych intencji użytkownika, przewidywaniu jego potrzeb i oczekiwań na każdym etapie rozmowy.

Głos jest skutecznym sposobem wprowadzania danych — pozwala użytkownikom na szybkie wydawanie poleceń systemowi na własnych warunkach. Z drugiej strony ekran zapewnia wydajny sposób wyświetlania informacji: pozwala systemom wyświetlać jednocześnie dużą ilość informacji, zmniejszając obciążenie pamięci użytkowników. To logiczne, że połączenie ich w jeden system brzmi zachęcająco.

Inteligentne głośniki, takie jak Amazon Echo i Google Home, w ogóle nie oferują wizualnego wyświetlacza. Znacząco poprawiając dokładność rozpoznawania głosu przy umiarkowanych odległościach, pozwalają na obsługę bez użycia rąk, co z kolei zwiększa ich elastyczność i wydajność – są pożądane nawet dla użytkowników, którzy posiadają już smartfony ze sterowaniem głosowym. Ogromnym ograniczeniem jest jednak brak ekranu.

Tylko sygnały dźwiękowe mogą być używane do informowania użytkowników o możliwych poleceniach, a odczytywanie wyników na głos staje się nużące, z wyjątkiem najbardziej podstawowych zadań. Ustawianie minutnika za pomocą polecenia głosowego podczas gotowania jest świetne, ale pytanie, ile czasu zostało, nie jest konieczne. Otrzymanie regularnej prognozy pogody staje się testem pamięci dla użytkownika, który przez cały tydzień musi słuchać i przyswajać sobie szereg faktów, zamiast odrywać je jednym spojrzeniem z ekranu.

Projektanci już rozwiązanie hybrydowe, Echo Show (11), który dodał ekran wyświetlacza do podstawowego inteligentnego głośnika Echo. To znacznie rozszerza funkcjonalność sprzętu. Echo Show jest jednak nadal znacznie mniej zdolne do wykonywania podstawowych funkcji, które od dawna dostępne są na smartfonach i tabletach. Nie może (jeszcze) surfować po Internecie, wyświetlać recenzji ani wyświetlać zawartości koszyka zakupów Amazon.

Wyświetlacz wizualny jest z natury skuteczniejszym sposobem dostarczania ludziom bogactwa informacji niż tylko dźwięk. Projektowanie z priorytetem głosu może znacznie poprawić interakcję głosową, ale na dłuższą metę arbitralne nieużywanie menu wizualnego ze względu na interakcję będzie jak walka z jedną ręką związaną za plecami. Ze względu na zbliżającą się złożoność kompleksowych inteligentnych interfejsów głosowych i wyświetlających, programiści powinni poważnie rozważyć hybrydowe podejście do interfejsów.

Zwiększenie wydajności i szybkości systemów generowania i rozpoznawania mowy umożliwiło wykorzystanie ich w takich aplikacjach i obszarach jak np.:

• wojskowe (polecenia głosowe w samolotach lub śmigłowcach np. F16 VISTA),

• automatyczna transkrypcja tekstu (mowa na tekst),

• interaktywne systemy informacyjne (Prime Speech, portale głosowe),

• urządzenia mobilne (telefony, smartfony, tablety),

• robotyka (Cleverbot – systemy ASR połączone ze sztuczną inteligencją),

• motoryzacja (sterowanie bez użycia rąk podzespołami samochodowymi, takimi jak Blue & Me),

• aplikacje domowe (systemy inteligentnego domu).

Uważaj na bezpieczeństwo!

Motoryzacja, sprzęt AGD, ogrzewanie/chłodzenie i systemy bezpieczeństwa w domu oraz wiele innych urządzeń domowych zaczyna korzystać z interfejsów głosowych, często opartych na sztucznej inteligencji. Na tym etapie dane pozyskane z milionów rozmów z maszynami są przesyłane do chmury obliczeniowe. Widać, że interesują się nimi marketerzy. I nie tylko oni.

Niedawny raport ekspertów ds. bezpieczeństwa firmy Symantec zaleca, aby użytkownicy poleceń głosowych nie kontrolowali funkcji bezpieczeństwa, takich jak zamki do drzwi, nie mówiąc już o systemach bezpieczeństwa w domu. To samo dotyczy przechowywania haseł lub informacji poufnych. Bezpieczeństwo sztucznej inteligencji i inteligentnych produktów nie zostało jeszcze wystarczająco zbadane.

Gdy urządzenia w całym domu słuchają każdego słowa, ryzyko włamania się do systemu i niewłaściwego użycia staje się ogromnym problemem. Jeśli atakujący uzyska dostęp do sieci lokalnej lub powiązanych z nią adresów e-mail, ustawienia urządzenia inteligentnego mogą zostać zmienione lub przywrócone do ustawień fabrycznych, co doprowadzi do utraty cennych informacji i usunięcia historii użytkownika.

Innymi słowy, specjaliści od bezpieczeństwa obawiają się, że sterowana głosem sztuczna inteligencja i VUI nie są jeszcze wystarczająco inteligentne, aby chronić nas przed potencjalnymi zagrożeniami i trzymać gębę na kłódkę, gdy nieznajomy o coś prosi.

Dodaj komentarz