Czatboty w świecie tłumaczeń

2019-01-03
Czatboty w świecie tłumaczeń

Czatboty w świecie tłumaczeń

Kilka lat temu odebrałem telefon z jednego z banków. Głos po drugiej stronie beznamiętnie odczytywał serię pytań i komunikatów głosem nieco przypominającym syntezator mowy Ivona. Po moich odpowiedziach następowała chwila ciszy, po której następowały kolejne komunikaty. Automaty telefoniczne nie były już wówczas niczym specjalnie nowym i szybko zdałem sobie sprawę, że rozmawiam z maszyną, przez co moje odpowiedzi stały się zdawkowe i zniecierpliwione. Przy ostatnim pytaniu maszyna wprawiła mnie w osłupienie, gdy ze słuchawki dobiegło „panie Agenorze, czy jest Pan nadal na linii? Proszę o jeszcze chwilę cierpliwości”. Tak, poczułem się nieswojo. W tej sytuacji chyba najbardziej przerażające było to, że to człowiek zbliżył się do maszyny, a nie odwrotnie. Nawiasem mówiąc, podobny problem obserwowało swego czasu wielu tłumaczy-postedytorów, przyznając, że z czasem zaczynają coraz bardziej pisać jak maszyna.

Gdy tylko komputery przestały przypominać nieślubne dziecko przerośniętej trafostacji i kombinatu hutniczego, szybko okazało się, że to, do czego zostały stworzone — wykonywanie obliczeń — umożliwia realizowanie zadań znacznie wykraczających poza ściśle księgowo-matematyczne zastosowania. Wykonywanie skomplikowanych operacji na danych, a więc przesyłanie przez jednostkę obliczeniową sekwencji liczb z jednego miejsca w drugie i zmiana statusów określonych rejestrów, stało się sposobem na wykonywanie przeróżnych zadań z codziennego życia, przesyłanie i magazynowanie informacji, a w końcu również na tworzenie pierwszych projektów z zakresu sztucznej inteligencji. Nic w tym dziwnego. Maszyny mają z założenia zmniejszać nakład pracy i czynem pochwalać wrodzone lenistwo homo sapiens. Automatyzacja sprawia też podobno, że mamy mniej wymówek do zajmowania się rzeczami istotnymi, gdy przycisk włącza gustownie zaprojektowany automat, który wykonuje jakąś niezmiernie nużącą czynność.

Nadal jednak jesteśmy ludźmi. Mamy swoich ludzi, swoje sprawy (i nie chodzi o naprawę wzmacniacza). O ile automatyczny odkurzacz jest świetny w swojej pierwotnej roli, włączenie go przyciskiem zasilania nie sprawi, że będziemy mogli odbyć miłą pogawędkę („Chyba mam alergię na kurz, czy mógłbyś przeczyścić mój filtr HEPA?”), ani że otrzymamy ponaglenie o autobusie odjeżdżającym za 13 minut i o tym, że akurat pada, a parasol został w samochodzie. Do tego potrzebne są rozwiązania, które patrzą na problem bardziej kompleksowo i lepiej dopasowują się do niedoskonałego, ludzkiego podejścia do życia. Sztucznej inteligencji. Sztucznej, czyli będącej efektem procesów obliczeniowych maszyny. Sztucznej, ale jednak prawdziwej, no bo przecież realizującej określone cele. Sztucznej, bo… ktoś tak to ładnie określił w czasach, gdy rozróżnienie między inteligencją człowieka a inteligencją maszyny było bardziej oczywiste. Ale już w 1950 roku Alan Turing zadał pytania o sens takiego rozróżnienia. I nie chodzi tu o warstwę lingwistyczną, ani nawet emocjonalno-filozoficzną, ale o bardziej praktyczną kwestię. Czy będziemy wiedzieć, że rozmawiamy z maszyną? Jakie testy można wykonać? Kiedy można ocenić, że maszyna przeszła test?

Zainspirowało to całe pokolenia pisarzy science-fiction, a już w wydanej kilkanaście lat później powieści Philipa K. Dicka „Czy androidy śnią o elektrycznych owcach” motyw testu na człowieczeństwo był nieodłączną częścią wykreowanego świata. Ale — poza akademickimi konkursami — nikt nie buduje rozmawiających maszyn tylko po to, by przeszły test. Jest już zresztą wiele przykładów, w których tzw. test Turinga został zaliczony. Maszyna oszukała odbiorcę, że jest człowiekiem w krótkiej, swobodnej rozmowie. Te rozwiązania realizowały w praktyce cel, który jest ściśle akademicki i który nie wnosi zbyt wiele do codzienności. Warto jednak popatrzeć poza mierzalną warstwę takiego testu. Kluczem jest w nim bowiem prowadzenie naturalnej rozmowy. Oznacza to, że sama konstrukcja zdań musi być naturalna, tempo pisania zbliżone do ludzkiego, a pytania i odpowiedzi powinny być powiązane z wątkami, które przed chwilą pojawiły się w rozmowie. To oraz cała masa innych spraw, które w sposób całkowicie dla nas niezauważalny sprawiają, że rozmawiamy znowu z „tym gościem, który wiecznie robi literówki i używa stanowczo zbyt wiele emotikonów”. Bo maszyna doskonale udająca człowieka, to też maszyna robiąca błędy. Ale również maszyna uwzględniająca emocje odbiorcy i nie zawsze mówiąca mu całą prawdę na temat jego wyglądu, zdrowia, perspektyw itd.

No dobrze, mamy więc maszyny z namiastką AI oraz ludzi, którzy chcą wszystko szybciej, łatwiej i natychmiast. Przez tysiące lat nie nauczyliśmy się nadal komunikować na co dzień inaczej niż mówiąc lub pisząc. I robimy to naturalnie i płynnie. Mniej więcej tak, jak myślimy (no, po pewnej autocenzurze). Dziś, A.D. 2019, liczne rozwiązania przyzwyczajają nas do myśli o rozmowie z maszyną. A żeby było nam łatwiej, maszyna ukryta jest za miłym imieniem. Siri, Cortana, Alexa. Dziś sprawdzają nam połączenia i pogodę. Za kilka lat mogą wziąć użytkownika na kozetkę i pomagać mu w walce z depresją. Bo właściwie czemu nie? Od kilku dekad uczelnie prowadzą prace w kierunku tworzenia tzw. agentów informacyjnych, czyli programów, które samodzielnie podejmą określone działania wg reguł ustalonych przez użytkownika. Zamówią mleko, gdy się skończy. Sprzedadzą akcje, gdy kurs przekroczy ustaloną tolerancję. Odbiorą dzieci ze szko… nie, to jeszcze nie. Choć nie zdziwię się, jeśli jest do tego apka.

Całe pokolenia wychowały się już na tekstowej komunikacji zdalnej. Bez wideo, bez dźwięku. Jedynie z przeświadczeniem, że rozmowa prowadzona jest z człowiekiem, który myśli, czuje, rozumie. I nawet jeśli w tle będzie działać odpowiednio wytrenowana, wielowarstwowa sieć neuronowa (wzorem bieżących trendów z dziedziny Deep Learning), to może okazać się, że szybko przestaniemy to zauważać. Już teraz AI jest w stanie wygenerować obraz zawierający fotorealistyczną twarz człowieka bez korzystania z rzeczywistych zdjęć. Nasz wirtualny rozmówca może więc też wyglądać jak człowiek.

Gdzie w tym wszystkim tłumaczenia? Bliżej niż nam się wydaje. Podstawą wszelkiej komunikacji tekstowej jest Święty Graal tłumaczeń — przetwarzanie języka naturalnego. Nieodłączny element wszelkich prac nad tłumaczeniem maszynowym. Pomysł udoskonalany od dekad, dzięki ogromnej mocy obliczeniowej znacznie łatwiej osiągalny dziś niż 10-20 lat temu. W każdym ze wspomnianych asystentów wirtualnych w pracach nad AI tkwi wiele milionów dolarów pochłoniętych przez prace badawcze. Systemy te muszą też rozpoznawać różne języki i w każdym z nich komunikować się w sposób naturalny. Z perspektywy branży tłumaczeniowej jest to jednak świat zamknięty — ogromne korpusy (zdaniem wiodących badaczy w dziedzinie MT/NLP wymagany jest korpus o wielkości od 100 milionów do nawet miliarda słów), przepotężne serwerownie i efekt końcowy w postaci szybkiej odpowiedzi Siri. Codzienność to jednak automatyzacja komunikacji w zupełnie innych obszarach.

Aby zrozumieć ten trend, warto przypomnieć sobie jak radzono sobie z tym problemem przed epoką AI. Po pierwsze: agregowanie powtarzalnej treści. Do dziś tworzenie stron FAQ (ang. Frequently Asked Questions — najcześciej zadawane pytania) funkcjonuje w branżach, gdzie pytania klientów mogą się powtarzać. Po drugie: skorowidze, szybkie wyszukiwanie słów kluczowych. Po trzecie: kierowanie we właściwe miejsca, formularze, skrypty, automatyczne reguły przesyłania wiadomości. To wszystko działało prymitywnie, bez jakichkolwiek cech AI, a jednak skutecznie. W tym czasie pojawiły się też niesławne boty.

Boty — jak wiele zjawisk w IT — niejedno mają imię (i znaczenie). Przyjrzyjmy się dwóm znaczeniom: pierwsze jest złośliwe, agresywne i ma na celu osiągnięcie szybko określonego, często złowieszczego celu. Takie boty zwykle wysyłają komunikaty, logują się z różnych miejsc, zapychają łącza, dzwonią automatycznie pod wybrane numery, utrudniają życie, spamują, komentują wg pewnego klucza zdefiniowanych tekstów, zmieniają nicki, tworzą chaos informacyjny, wpływają na zachowania tłumów i wizerunek osób lub firm obranych za cel. Aby odróżnić je od swych zdemoralizowanych kuzynów, boty z drugiej kategorii warto nazywać czatbotami. Jak sama nazwa wskazuje, mają realizować niezbyt chwalebne zadanie czatowania lub tworzenia wrażenia rozmowy. Mimo tego, już w tej chwili mają realny wpływ na nasze życie. Czatboty wpływają na politykę, zalewając Internet postami, komentarzami i wirusowymi treściami.

Dla firm jednak zadanie to stanowi coraz większy zakres działań. Całe pokolenia przyzwyczajone do tekstowej komunikacji znacznie szybciej wyślą wiadomość na komunikatorze niż zadzwonią. Nawet pisanie maila powoli staje się passé. Staje się więc oczywiste, że przesunięcie ciężaru komunikacji na warstwę bardziej bezpośrednią musi wpłynąć na pracę tłumacza. Niewiele firm stać będzie na rozwiązania światowej klasy, a chałupniczo tworzone systemy będą w dużej mierze zależne od tego, jakie dane wejściowe staną się podstawą systemu. Przygotowywanie danych wejściowych to ogromne wyzwanie. Ich odpowiednie spreparowanie to zadanie z pogranicza IT i lingwistyki. Większość systemów z zakresu MT/NLP nadal funkcjonuje w oparciu o dwujęzyczną informację (sparowane dane). Tu oczywistą rolą tłumacza jest weryfikacja językowa i kontrola jakości. Dość częstym rozwiązaniem są czatboty na stronach internetowych i w sklepach, które są do pewnego stopnia rozszerzeniem wspomnianej wcześniej koncepcji FAQ. Najprostsze czatboty to w praktyce zbiór reguł i słów kluczowych. Każda strona firmowa na Facebooku ma obecnie wbudowany mechanizm predefniowanych pytań i odpowiedzi, które mają zautomatyzować proces uzyskiwania odpowiedzi na najczęstsze pytania. Rolą tłumacza w takim przypadku będzie zbudowanie takiej listy pytań i odpowiedzi, która będzie zgodna z wymaganiami kulturowymi i która będzie dostosowana do naturalnego języka. Naturalnego, a więc takiego, którym rzeczywiście posługują się użytkownicy. Jest to proces bardzo zbliżony do budowania listy słów kluczowych witryny pod kątem SEO. Tam również istotne są frazy, które ktoś rzeczywiście wpisze w wyszukiwarce. Czy nam się to podoba, czy nie — musimy w przypadku takich czatbotów uwzględnić uzus (Skąd ściągnąć fakturę? Czy moja wpłata doszła?).

Te bardziej skomplikowane będą generować tekst w języku naturalnym na podstawie analizy tekstu zapytania użytkownika i wyszukania w nim kluczowych, znanych systemowi fraz w określonym języku. Ograniczeniem takiego systemu jest zawsze zakres słownictwa. Czatbot na stronie gazowni zapewne chętnie wyjaśni, jak wygenerować ostatnią fakturę, jaka jest procedura podłączenia lokalu itp., ale może nie rozumieć pytań dotyczących pogody.

Bardzo interesującym kierunkiem rozwoju rozwiązań z pogranicza machine learning (a właściwie jej specjalistycznej dziedziny, deep learning) jest tzw. uczenie bez nauczyciela (lub też uczenie bez wspomagania). Sieć otrzymuje wówczas jedynie dane wejściowe, bez żadnych danych wyjściowych, z którymi może porównywać otrzymane wyniki. Odpowiednia analiza powtarzających się sygnałów, powiązań między danymi w postaci liczbowej (a właściwie wektorowej) powoduje często, że system tworzy bardzo zaskakujące mapowanie dotyczące danych wejściowych. W przypadku języka są to odległości lingwistyczne między słowami lub pojęciami (nie mylić z tzw. odległością edycyjną). Okazuje się, że analizując występowanie słów w różnych tekstach taka samoucząca się sieć neuronowa jest w stanie zrozumieć, że kot i tygrys to słowa, które są sobie bliższe niż np. pies i dom. Jeszcze ciekawiej robi się, gdy wynik pracy takiej sieci w postaci specyficznej mapy odległości przełoży się wprost na inny język, tworząc błyskawicznie zadziwiająco trafny słownik (i to bez znajomości drugiego języka i jakichkolwiek danych dwujęzycznych!). Możliwości są nieograniczone — często nawet zmiana dziedzin, w których stosowana jest taka wielowarstwowa sieć neuronowa, tworzy zaskakujące efekty. Sieć wytrenowana na danych graficznych odnajduje niezwykłe, niewidoczne dla człowieka elementy w danych dźwiękowych i vice versa. Nie znamy więc jeszcze prawdziwego potencjału sztucznej inteligencji w dziedzinie przetwarzania języka naturalnego. Może już wkrótce dokumentacja będzie się sama pisać? Może odpowiednio wytrenowana sieć neuronowa będzie w stanie uchwycić styl określonego nieżyjącego artysty i dokończyć za niego niekompletne utwory? Na pewno warto poświęcić temu myśl przy kawie. Lub porozmawiać z czatbotem.

- Agenor Hofmann-Delbor

 

Warto przeczytać:

https://futurism.com/incredibly-realistic-faces-generated-neural-network

https://www.technologyreview.com/s/611832/future-elections-may-be-swayed-by-intelligent-weaponized-chatbots/

 

 

Localize.pl korzysta z plików cookie, dzięki którym strona może utrzymywać stan zalogowania, zawartość koszyka sklepowego oraz informacje pomocnicze. Prosimy o zapoznanie się z naszą Polityką Prywatności, a w szczególności z rozdziałem o plikach cookie. W każdym momencie możesz zmienić ustawienia zapisywania plików cookie.
Zamknij
pixel