Polska firma wybija się w wyścigu AI. "Tam luka była największa"

Mati Staniszewski z ElevenLabs rozwinął motywacje, które stoją za wdrożeniem narzędzia najnowszej generacji v4, które zamienia tekst na mowę. Jego zdaniem dzięki temu sztuczna inteligencja może stać się bardziej dostępna, intuicyjna i użyteczna. - Zaczęliśmy od głosu, ponieważ właśnie tam luka między AI a ludzką komunikacją była największa - przyznał współtwórca ElevenLabs.

Mati Staniszewski, współzałożyciel ElevenLabsMati Staniszewski, współzałożyciel ElevenLabs
Źródło zdjęć: © screen | money.pl
Bartłomiej Chudy

Mati Staniszewski podkreślił, że głos to nie tylko słowa. - Trzeba nauczyć model tonu, intencji, rytmu wypowiedzi i wszystkich kulturowych niuansów - mówił przedsiębiorca. W tym kontekście wspomniał o pierwszym modelu głosowym rozwijanym w Warszawie, który miał być kontekstowo świadomy i zdolny do oddawania emocji. To z tego punktu ElevenLabs rozwinęło szerszy zestaw modeli i produktów: od transkrypcji, przez dubbing, po orkiestrację i wykorzystanie głosu w aplikacjach biznesowych.

ElevenLabs i potęga głosu w AI

Jednym z głównych elementów wystąpienia była prezentacja nowych modeli. Pierwszy dotyczył dubbingu. Staniszewski mówił, że inspiracją dla ElevenLabs były m.in. filmy dubbingowane po polsku, w których jeden lektor lub głos zastępował wiele postaci i emocji.

Nowy model ma iść dalej: słyszeć emocje oryginalnego nagrania i przenosić je do nowego języka. - Automatyczny dubbing nie powinien być tylko tłumaczeniem. Powinien zachowywać jakość, emocje i charakter oryginału - przyznał Mati Staniszewski. Zwrócił uwagę na krok w stronę głosu, którym można sterować bardziej precyzyjnie niż dotąd.

Ma 31 lat i firmę wartą 11 mld dol. Polak walczy o talenty z Muskiem

Staniszewski mocno akcentował, że aby AI działała w realnych firmach, potrzebny jest całe zaplecze: modele, produkty, API, integracje, monitorowanie i wdrożenia. W tym miejscu opisał platformę ElevenLabs jako zestaw powiązanych narzędzi dla firm: Eleven Creative do tworzenia i lokalizacji treści oraz rozwiązania agentowe do budowania głosowych doświadczeń konwersacyjnych.

Według Staniszewskiego agenci głosowi mogą zmienić, a zwłaszcza usprawnić sposób obsługi klientów, sprzedaży i usług publicznych. - Z agentami głosowymi klient nie musi wypełniać formularza i czekać. Może od razu rozpocząć rozmowę - podkreślił przedsiębiorca. Przywołał przykład z systemu opieki zdrowotnej - agenci mogliby przypominać pacjentom o wizytach, terapii czy kolejnych krokach leczenia, działając bardziej proaktywnie niż tradycyjna infolinia.

ElevenLabs zamierza rozwijać technologię, ale nie chce być wyłącznie dostawcą realistycznych głosów. Jej ambicją jest budowa infrastruktury do komunikacji człowieka z AI — od modeli, przez produkty dla twórców i firm, po agentów, którzy mogą obsługiwać realne procesy w sprzedaży, zdrowiu, turystyce czy usługach publicznych.

- Naszym celem jest stworzenie AI, która komunikuje się na poziomie człowieka przez wszystkie kanały i modalności - podsumował Staniszewski.

Wybrane dla Ciebie