Amazon wytycza drogę gigantom. Ludzie dobrowolnie zaprosili do domów ponad 100 mln "zbieraczy danych"

Gadżety sterowane głosem są dla konsumentów użytecznymi, a niekiedy też zabawnymi "asystentami". Dla Amazona i innych gigantów technologicznych, którzy je wytwarzają – i podłączają do komputerów w swoich centrach danych – to mali, ale niezwykle wydajni zbieracze danych - czytamy w książce "Bezonomika. Jak Amazon zmienia nasze życie i czego uczą się od niego najlepsze firmy na świecie" autorstwa Briana Dumaine.

Alexa, Siri i inne "mówiące maszyny" to dla użytkownika praktyczny gadżet, dla firm bezcenne źródło danych

Źródło zdjęć: © Pixabay

Brian Dumaine

31 stycznia 2021, 15:49

Od stuleci ludzkość marzyła o zbudowaniu mówiącej maszyny. Pod koniec X wieku wybitny uczony Gerbert z Aurillac, późniejszy papież Sylwester II, pojechał ponoć do Al-Andalus i wykradł księgę z wiedzą tajemną, a potem skonstruował mechaniczną głowę z mosiądzu. Legenda głosi, że głowa ta potrafiła odpowiadać "tak” lub "nie" na pytania. Gerbertowi przepowiedziała, że zostanie papieżem, a zapytana, czy umrze on po odprawieniu mszy w Jerozolimie, przytaknęła. Sylwester II zmarł otruty podczas odprawiania mszy w Bazylice Krzyża Świętego z Jerozolimy w Rzymie.

Musiało minąć niemal tysiąc lat, zanim gadające głowy stały się czymś więcej niż tylko legendą. Pierwszym przełomowym wynalazkiem był "Audrey", system stworzony przez Bell Labs w latach pięćdziesiątych XX wieku, potrafiący rozpoznawać cyfry od jednego do dziewięciu. W tym samym mniej więcej czasie profesor informatyki na Uniwersytecie Stanforda John McCarthy wprowadził termin "sztuczna inteligencja". Zgodnie z jego definicją była to maszyna umiejąca wykonywać zadania charakterystyczne dla ludzi, takie jak rozumienie języka i mowy, rozpoznawanie przedmiotów i dźwięków, uczenie się i rozwiązywanie problemów.

Amazon wchodzi do Polski. Otwiera sklep w naszym kraju

Już w latach osiemdziesiątych mówiące lalki, takie jak Julie amerykańskiej firmy Worlds of Wonder, umiały odpowiadać na proste pytania. Dopiero jednak w następnym dziesięcioleciu na rynek trafiło pierwsze porządne oprogramowanie do rozpoznawania mowy. Program o nazwie Dragon potrafił przetwarzać proste wypowiedzi bez potrzeby robienia sztucznych odstępów między wyrazami przez mówcę. W następnych dwóch dziesięcioleciach, mimo niewątpliwego postępu, programy do rozpoznawania głosu, a także inne rodzaje sztucznej inteligencji nie spełniły oczekiwań swoich zwolenników. Co pewien czas następowała zima sztucznej inteligencji, jak to nazywano w środowisku akademickim, czyli okres, w którym ustawał wszelki postęp, a wraz z nim wysychały źródła finansowania prac badawczych. Nie chodziło o to, że naukowcy nie umieli pisać dobrych programów. Trudność polegała na tym, że programy sztucznej inteligencji wymagały ogromnej i bardzo kosztownej mocy obliczeniowej.

Włodzimierz Cimoszewicz: po ujawnieniu kontraktów będziemy wiedzieć, kto popełnił błąd

Losy tej technologii zmieniły się dopiero wtedy, gdy zgodnie z prawem Moore’a (moc obliczeniowa komputerów podwaja się co dwa lata) przeliczanie gór danych niezbędnych dla głosu sztucznej inteligencji stało się bardziej dostępne. W 2010 roku moc obliczeniowa staniała na tyle, że Apple mógł wprowadzić na rynek asystenta głosowego Siri, będącego aplikacją na iPhone’a. Smartfony ze swoimi miniaturowymi klawiaturami były idealnym urządzeniem do korzystania z funkcji rozpoznawania mowy. Takiemu telefonowi łatwiej wydać polecenie za pomocą głosu, niż wystukiwać je na maleńkich klawiszach. W ślady Apple’a rychło poszedł Google ze swoim programem Voice Search.

Te aplikacje głosowe rozumiały większość słów – nawet z żargonu – i odpowiadały z dużą swobodą. Na razie jednak programy były tylko tak dobre, jak informatycy, którzy pisali je mozolnie linijka po linijce. Zmieniła to dopiero sztuczna inteligencja. Dziś aplikacje te mogą być coraz inteligentniejsze, działają bowiem nie tylko na inteligentnym urządzeniu, ale są też podłączone poprzez internet do potężnych komputerowych baz danych. Skomplikowane modele matematyczne przeszukują masy informacji – większe, niż mogłyby się zmieścić w pamięci laptopa albo telefonu komórkowego – i uczą się rozpoznawać charakterystyczne cechy mowy. Z czasem coraz lepiej identyfikują słownictwo, regionalny akcent, kolokwializmy i konteksty, analizując na przykład nagrania rozmów telefonicznych klientów z centrum obsługi klienta. Maszyny się uczą.

Elon Musk najbogatszym człowiekiem na świecie. Wyprzedził Jeffa Bezosa. "Jak dziwnie"

Gwałtowny rozwój techniki rozpoznawania mowy nie uszedł uwadze Jeffa Bezosa. Na początku drugiej dekady XXI wieku jego program Prime złapał wiatr w żagle i wciągał rzesze nowych klientów w świat Amazona. Bezos jednak szukał kolejnego narzędzia, dzięki któremu jego inteligentne koło zamachowe mogłoby się obracać jeszcze szybciej. I właśnie w dziedzinie rozpoznawania mowy dostrzegł wielkie możliwości.

W Amazonie, gdzie roi się od miłośników cyklu Star Trek– z Bezosem na czele – zaczęto marzyć o zbudowaniu mówiącego komputera, podobnego do tego, w który był wyposażony serialowy statek kosmiczny Enterprise. "Wyobrażaliśmy sobie, że w przyszłości ludzie będą mogli sterować dowolnymi urządzeniami za pomocą głosu – opowiada Rohit Prasad, autor ponad stu artykułów naukowych o mówiącej sztucznej inteligencji i innych zagadnieniach, który w Amazone kieruje pracami nad Alexą. – A gdyby tak klienci Amazona mogli za pomocą głosu zamawiać książki i inne towary, ściągać filmy i utwory muzyczne? Nie musieliby już siedzieć przy komputerze i stukać w klawisze, sięgać do kieszeni albo przewracać dom do góry nogami, żeby znaleźć telefon komórkowy". W listopadzie 2014 roku Amazon wprowadził na rynek swój inteligentny głośnik Echo z asystentką głosową Alexą, która miała ułatwić klientom porozumiewanie się z Amazonem.

Alexa i Echo okazały się przebojami rynkowymi. Do 2019 roku Amazon sprzedał ponad 100 milionów urządzeń sterowanych Alexą. Wynalazek Amazona zyskał taką popularność, że w sezonie świątecznym w 2018 roku firma sprzedała wszystkie inteligentne głośniki Echo Dot w cenie 29 dolarów za sztukę, chociaż pospiesznie ściągała je samolotami Boenig 747 z Hong Kongu, gdzie były produkowane tak szybko, jak to możliwe. Dziś oprócz Echa Amazon sprzedaje setki produktów z wbudowaną Alexą, jak choćby kuchenki mikrofalowe i kamery nadzorujące. Namówił też producentów sprzętu elektronicznego i gospodarstwa domowego do wmontowywania Alexy w takie produkty jak żarówki, termostaty, alarmy. Wystarczy powiedzieć: "Nastaw Nicki Minaj na Spotify w głośniku Sonos w salonie" i Alexa wykonuje polecenie.

Inteligentne głośniki Amazona korzystają ze sztucznej inteligencji, aby wysłuchiwać pytań, przeszukiwać miliony słów w dostępnej przez internet bazie danych i udzielać odpowiedzi we wszystkich sprawach: od ważnych do prozaicznych. W 2019 roku Alexa służyła klientom w ponad 80 krajach świata, od Albanii do Zambii, odpowiadając średnio na 500 milionów pytań dziennie. Nastawia muzykę, informuje o sytuacji na drogach i pozwala wyłączyć alarm. Umie zapisywać terminy w rodzinnym kalendarzu iCloud, opowiadać dowcipy, udzielać odpowiedzi na pytania z wiedzy ogólnej i robić niewyrafinowane, wręcz dziecinne sztuczki. (Jeśli musisz, poproś Alexę, żeby powiedziała "fuj").

Dzięki wszechobecnemu głośnikowi Echo i jego systemowi rozpoznawania mowy Alexa Amazon dokonał największej rewolucji w komunikacji elektronicznej od czasu iPhone’a Steve’a Jobsa. W niedalekiej przyszłości "inteligentne" urządzenia domowe takie jak Amazon Echo będą nie mniej ważne od komputerów osobistych, a nawet smartfonów. Najpowszechniejszym sposobem łączności z internetem staną się komendy głosowe, a nie klawiatury i ekrany dotykowe. "Chcieliśmy ułatwić naszym klientom życie, a najbardziej naturalnym środkiem porozumiewania się jest mowa – tłumaczy Rohit Prasad z Amazona. – To nie wyszukiwarka podająca zestaw wyników i mówiąca: «Wybierz któryś». To odpowiada ci na pytanie".

Dla koła zamachowego napędzanego sztuczną inteligencją mowa jest niezwykle ważna – inaczej Amazon nie zainwestowałby w tę technologię miliardów dolarów. Firma nie podaje dokładnych danych, ale Gene Munster z firmy inwestycyjnej Loup Ventures szacuje, że Amazon i inne giganty technologiczne wydają na systemy rozpoznawania mowy 10 proc. swoich rocznych budżetów na badania i rozwój. Bezos traktuje Alexę z największą powagą: dość powiedzieć, że nad doskonaleniem systemu rozpoznawania mowy i jej czarnoksięskiej latarni Echo pracuje w Amazonie około 10 000 osób. Armia ta stara się, by program Alexy był szybszy, inteligentniejszy i bardziej rozmowny, żeby odpowiadał dokładnie i wyczerpująco na jak najwięcej pytań. Alexa ma być stałą towarzyszką abonentów Prime, aby ci, którzy korzystają z jej usług, zanurzyli się jeszcze głębiej w odmęty Amazona.

Programy rozpoznawania mowy stają się coraz lepsze – dzięki rosnącej i taniejącej mocy obliczeniowej komputerów – więc Amazon może coraz łatwiej budować działającą bez zakłóceń sieć, w której głos łączy inteligentne urządzenia domowe z inny- mi systemami. W kręgach informatycznych nazywa się to "przetwarzaniem bez granic". Internet będzie towarzyszył człowiekowi wszędzie, o każdej porze dnia i nocy (w zasadzie bez świadomości odbiorcy, niejako naturalnie – przyp. red.). Alexa jest wbudowywana w bezprzewodowe głośniki Sonos, w słuchawki Jabra, samochody BMW, Ford i Toyota. Kierowcy mogą rozkazać Aleksie, żeby włączyła klimatyzację, dezaktywowała alarm, włączyła światła i złożyła zamówienie w sklepie Whole Foods, które mogliby ode- brać po drodze do domu. Jesienią 2019 roku Amazon wprowadził na rynek szereg nowych produktów, dzięki którym Alexa stała się prawie wszechobecna. Były to między innymi okulary Echo Frames, słuchawki Echo Buds i tytanowy pierścień Echo Loop. Wszystkie te urządzenia mają wmontowane mikrofony i łączą się ze smartfonem za pośrednictwem bluetooth. Idąc ulicą, możemy dzięki nim dowiedzieć się na przykład o godziny seansów kinowych albo o adres najbliższego sklepu Amazon Go. Wiceprezes Google Nick Fox, który nadzoruje prace nad Google Assistant, czyli systemem głosowym konkurującym z Alexą, mówi: "Nie muszę otwierać telefonu i uruchamiać aplikacji. Wystarczy, że powiem urządzeniu: «Pokaż mi, kto stoi pod drzwiami» i zaraz wszystko widzę na ekranie. To upraszczanie przez unifikację".

Tak, z jednej strony system ten upraszcza życie, ale z drugiej komplikuje je, bo użytkownik musi nieraz godzinami rwać sobie włosy z głowy, by skonfigurować i połączyć ze sobą wszystkie inteligentne urządzenia.

[…]

Sztuczna inteligencja była od dawna stałym rekwizytem dystopijnej kultury, szczególnie filmów fantastyczno-naukowych takich jak Terminator i Matrix, w których inteligentne, ale złe maszyny buntują się i wypowiadają wojnę ludziom. Na szczęście jeszcze to nam nie grozi. Programy do rozpoznawania mowy, mimo szybkiego rozwoju, są nadal w powijakach. W porównaniu z tym, do czego dążą naukowcy, ich zastosowania mają na razie charakter zalążkowy. "Systemy rozpoznawania mowy oparte na sztucznej inteligencji przeszły z epoki dwupłatów do epoki odrzutowców" – mówi Mari Ostendorf, profesor elektrotechniki Uniwersytetu Waszyngtońskiego i jedna z czołowych specjalistek od technologii mowy i języka. Ostendorf zauważa, że komputery potrafią już odpowiadać na proste pytania, ale w prawdziwej rozmowie wciąż wypadają fatalnie. "To naprawdę imponujące, ile słów sztuczna inteligencja głosowa potrafi już rozpoznać i ile poleceń rozumie. Ale daleko nam jeszcze do epoki kosmicznej".

[…]

Gadżety sterowane głosem są dla konsumentów użytecznymi, a niekiedy też zabawnymi "asystentami". Dla Amazona i innych gigantów technologicznych, którzy je wytwarzają – i podłączają do komputerów w swoich centrach danych – to mali, ale niezwykle wydajni zbieracze danych. Według badań Consumer Intelligence Research Partners prawie 70 proc. użytkowników Amazon Echo i Google Home ma w domu przynajmniej jedno takie urządzenie: termostat, alarm lub połączony z nimi sprzęt. Sterowane głosem urządzenie domowe może gromadzić nieskończenie wiele informacji o codziennych zwyczajach użytkownika. A im więcej danych zgromadzą Amazon, Google i Apple, tym lepiej będą służyć konsumentom, czy to poprzez dodatkowe urządzenia, subskrybowane usługi czy reklamy innych firm.

Zalety handlowe są oczywiste. Konsument, który podłączy swoje Echo do inteligentnego termostatu, może odpowiedzieć na ofertę zakupu inteligentnego systemu oświetleniowego. Amazon, jakkolwiek może to brzmieć groźnie dla zwolenników ochrony prywatności, ma klucz do wielkiego banku osobistych danych, co ułatwia mu dotarcie do konsumentów. Firma zapewnia, że korzysta z danych z Alexy tylko po to, żeby uczynić ją bardziej inteligentną i bardzie użyteczną dla klientów. Im lepiej działa Alexa, tym więcej klientów dostrzeże zalety produktów i usług Amazona, w tym programu Prime – a koło zamachowe napędzane sztuczną inteligencją znów zwiększy obroty. Chociaż Amazon wchodzi ofensywnie w reklamę cyfrową, jego rzecznik zapewnia, że firma nie używa danych z Alexy do sprzedawania reklam. Zważywszy, że reklama to jedna z najszybciej rosnących i najzyskowniejszych nowych gałęzi działalności Amazona, trudno sobie wyobrazić, aby firma nie próbowała jakoś zarobić na Aleksie bez narażania się przy tym na gniew abonentów Prime. Niektórzy producenci towarów konsumpcyjnych eksperymentują już z płatnymi treściami, takimi jak przepisy kulinarne albo porady domowe, jako odpowiedziami na poszukiwania Alexy.

Ponieważ w naszych domach działa już ponad 100 milionów tych urządzeń, prędzej czy później głos stanie się głównym sposobem komunikacji ludzi z maszynami. Alexa i jej konkurenci skłaniają więc do stawiania pytań: czy zmierzamy w stronę świata lakonicznych odpowiedzi i krótkich chwil skupienia uwagi, świata, w którym nie ma miejsca na słowo pisane? Nawet jeśli Alexa rzeczywiście stanie się na tyle inteligentna, że będzie umiała prowadzić długie, skomplikowane rozmowy – a na to trzeba czekać jeszcze lata, a może nawet dziesięciolecia – z pewnością byłoby dziwne, gdybyśmy takie rozmowy prowadzili z algorytmem. Językoznawca John McWhorter stawia w książce "The Power of Babel" przerażającą hipotezę, że pismo może być tylko krótkotrwałym epizodem w ewolucji człowieka. Ludzie, dowodzi, wolą rozmawianie i esemesowanie z emotikonami i skrótami niż normalne pisanie.

Powszechne zastosowanie głosu jest z wielu powodów bardzo prawdopodobne. Głos na przykład może mieć demokratyzujący wpływ na branżę, w której nowicjuszy i specjalistów dzieli przepaść. Umożliwia korzystanie z systemu ludziom słabiej wykształconym. Chorym na Parkinsona, którzy nie są w stanie posługiwać się klawiaturą, zapewnia dostęp do internetu. Pozwala niewidomym żeglować po sieci i wydawać komputerowi polecenia, by na przykład włączył domowy alarm. Pomaga osobom starszym, które nie radzą sobie z nowoczesną techniką, i umożliwia korzysta- nie z internetu podczas prowadzenia samochodu. Krótko mówiąc, dzięki głosowi więcej ludzi może trać do świata Amazona.

Bezonomika. Jak Amazon zmienia nasze życie i czego uczą się od niego najlepsze firmy na świecie

AUTOR: Brian Dumaine

PREMIERA: 3 lutego 2020

Wydawnictwo Studio Emka

Źródło artykułu: money.pl