Newsy

Ze sztuczną inteligencją szybko nie porozmawiamy w języku polskim. Brakuje wystarczającej liczby danych, w tym tysięcy godzin nagrań mowy

2019-06-18 | 06:00

Pobierz video Pobierz audio Transkrypcja wypowiedzi Pobierz obraz

Tagi: przetwarzanie języka naturalnego NLP, sztuczna inteligencja, uczenie maszynowe, zbiory danych, boty, asystenci głosowi

Mówi:	dr hab. inż. Maciej Piasecki
Firma:	Katedra Inteligencji Obliczeniowej, Wydział Informatyki i Zarządzania, Politechnika Wrocławska

MP4

wersja z lektorem

Przetwarzanie języka naturalnego umożliwia maszynom czytanie i rozumienie języków ludzkich. Obecnie NLP pozwala np. na rozpoznawanie i przewidywanie chorób w oparciu o elektroniczne dane medyczne i mowę pacjenta. Największe firmy analizują e-maile za pomocą NLP i zatrzymują spam. Siri i Alexa to przykłady inteligentnych interfejsów sterowanych głosem, które wykorzystują NLP do reagowania na komunikaty głosowe. Pojawiają się też pierwsze przykłady sztucznej inteligencji mówiącej po polsku, jednak na razie jedynie w prostych i ograniczonych komunikatach. Główną barierą jest niewystarczająca baza danych.

– Szacowałbym poziom zaawansowania rozwoju technologii dla języka polskiego gdzieś w połowie krajów europejskich. Nie jest to już złym wynikiem, jeszcze 10 lat temu byliśmy na jednym z ostatnich miejsc, jeśli chodzi o dostępność słowników, zbiorów tekstów, rozwiązań dla języka polskiego. Wykorzystanie technologii dla języka polskiego w rozwiązaniach czołowych komercyjnych firm jest bardzo niskie, ponieważ one bazują wyłącznie na swoich językach, nie postrzegają języka polskiego jako wyróżniającego się w masie innych języków niż angielski – ocenia w rozmowie z agencją Newseria Innowacje dr hab. inż. Maciej Piasecki z Katedry Inteligencji Obliczeniowej na Politechnice Wrocławskiej.

Przetwarzanie języka naturalnego (NLP) reprezentuje automatyczną obsługę naturalnego języka ludzkiego, takiego jak mowa lub tekst. Prawdziwa wartość tej technologii wynika jednak z możliwości zastosowania. NLP umożliwia np. rozpoznawanie i przewidywanie chorób w oparciu o elektroniczne dane medyczne i mowę pacjenta – od chorób układu krążenia do depresji czy schizofrenii. Amazon Comprehend Medical wykorzystuje z kolei NLP do wyodrębniania stanów chorobowych, leków i wyników leczenia z raportów z badań klinicznych. IBM opracował asystenta kognitywnego, który działa jak spersonalizowana wyszukiwarka, uczy się wszystkiego o użytkowniku, a następnie przypomina potrzebne informacje. LegalMation, obsługiwana przez technologię IBM Watson NLP, opracowała zaś platformę do automatyzacji rutynowych zadań sądowych, pomaga zaoszczędzić czas i obniżyć koszty.

Chociaż możliwości NLP są praktycznie nieograniczone, to wciąż brakuje jeszcze rozwiązań bazujących na języku polskim. Sytuacja jednak powoli się zmienia.

– Coraz więcej polskich start-upów, małych i średnich firm zidentyfikowało niszę, jaką są systemy, które są stworzone dla języka polskiego czy obsługują język polski w bardziej świadomy sposób. Liczba rozwiązań rośnie. Rośnie też liczba projektów, które wspólnie realizujemy, m.in. dzięki finansowaniu unijnemu – zaznacza Maciej Piasecki.

Jak wskazuje ekspert, problemem dla szerszego wprowadzenia rozwiązań bazujących na języku polskim, jest stosunkowo niewielka baza danych. Choć nasz język stwarza ogromne możliwości, zwłaszcza w kontekście innych języków o rozbudowanej morfologii, to większość rozwiązań dostępnych w Polsce bazuje na przetworzonym języku angielskim.

– Niewiele jest firm, które gromadzą takie liczby danych jak czołowe firmy na świecie. Paradoksalnie te firmy, które działają na polskim rynku, mają trochę trudniej, ponieważ polskie prawo jest dość restrykcyjne, jeśli chodzi o wykorzystanie danych. Natomiast wielkie firmy światowe trochę nie przejmują się polskimi ograniczeniami i trudno z tym cokolwiek zrobić. Zbierają dane, które chcą, i nie sposób tego zablokować – twierdzi ekspert.

Podobny problem mają też inne kraje regionu. Liczba rozwiązań wykorzystujących rodzimy język jest jeszcze niewielka, pojawiają się dopiero pierwsze rozwiązania, najczęściej opracowane przez rodzime start-upy. Tym samym ich zasięg jest dość mały.

– Jest duży problem w zbudowaniu zasobów, na których można trenować. Potrzebujemy tysięcy godzin nagrań mowy opisanych za pomocą tzw. transkrypcji czy opisanych tekstem ilustrującym, przy czym obecnie całkowity zasób takich nagrań mowy dla polszczyzny dostępnych publicznie to sto kilkadziesiąt godzin. Dopóki nie ma dostatecznie dużego zbioru danych, dopóty jakość będzie trochę niższa – ocenia dr hab. inż. Maciej Piasecki.

Według analityków MarketsandMarkets rynek przetwarzania języka naturalnego (NLP) osiągnie do 2021 r. wartość ponad 16 mld dol.

Czytaj także

Więcej ważnych informacji

Wśród Polaków rośnie zainteresowanie produktami emerytalnymi. Coraz chętniej wpłacają oszczędności na konta IKE i IKZE

Zaspokajanie potrzeb behawioralnych kota pomaga w budowaniu z nim pozytywnych relacji. Kluczem jest poznanie jego typu osobowości

1 października ruszy w Polsce system kaucyjny. Część sieci handlowych może nie zdążyć z przygotowaniami przed tym terminem

Nestlé w Polsce podsumowuje wpływ na krajową gospodarkę. Firma wygenerowała 0,6 proc. polskiego PKB [DEPESZA]

Nie tylko konsumenci starają się kupować bardziej odpowiedzialne. Część firm już stawia na to mocny nacisk

Jedynka Newserii

A. Bryłka: Ograniczenie emisyjności nie musi się odbywać za pomocą celów klimatycznych. Są absurdalne, nierealne i niszczące europejską gospodarkę

Polityka

Wśród Polaków rośnie zainteresowanie produktami emerytalnymi. Coraz chętniej wpłacają oszczędności na konta IKE i IKZE

Wzrosła liczba osób, które oszczędzają na cele emerytalne, jak również wartość zgromadzonych środków. Liczba uczestników systemu emerytalnego wyniosła w 2024 roku ponad 20,8 mln osób, a wartość aktywów – 307,5 mld zł – wynika z najnowszych danych Urzędu Komisji Nadzoru Finansowego (UKNF). Wyraźny wzrost odnotowano w przypadku rachunków IKE i IKZE, na których korzyść działają m.in. zachęty podatkowe. Wpłacane na nie oszczędności są inwestowane, a tym samym wspierają gospodarkę i mogą przynosić atrakcyjną stopę zwrotu.

Grupa nowych biednych emerytów stale się powiększa. Ich świadczenie jest znacznie poniżej minimalnej emerytury Polacy chcą jak najszybciej przechodzić na emeryturę i nie chcą na niej pracować. Potrzebne zachęty do dłuższej aktywności zawodowej Seniorzy zyskają na rencie wdowiej średnio 350 zł miesięcznie. Od 2027 roku świadczenie jeszcze wzrośnie Migranci mogą być ratunkiem dla polskiego rynku pracy. Pracodawcy chcą uwzględnienia ich potrzeb w strategii migracyjnej W ciągu 10 lat w Polsce może brakować 2,1 mln pracowników. Ratunkiem dla rynku pracy wzrost zatrudnienia cudzoziemców

Robotyka i SI

Sztuczna inteligencja może zrewolucjonizować rolnictwo. Pomaga w zbiorach i dzięki niej koszty działania gospodarstw są niższe

Algorytmy sztucznej inteligencji są dziś wykorzystywane m.in. do analizy zdjęć roślin, prognozowania plonów czy automatycznego sterowania maszynami. AI wspiera dziś produkcję rolną na wielu poziomach – od siewu po zbiór, a nawet sprzedaż, pomaga też ograniczyć koszty i adaptować się do zmian klimatu. Dlatego, choć teraz w Polsce z nowych technologii korzystają przede wszystkim właściciele największych gospodarstw, skala wykorzystania AI szybko rośnie.

Firma

Dzięki zdalnej weryfikacji tożsamości z wykorzystaniem AI firmy zminimalizowały liczbę oszustw. Rozwiązania wykorzystuje głównie sektor finansowy

Z najnowszych danych Eurostatu wynika, że w 2024 roku 5,9 proc. polskich firm korzystało z rozwiązań z zakresu sztucznej inteligencji. W 2023 roku był to odsetek na poziomie 3,67 proc. Wciąż jednak jest to wynik poniżej średniej unijnej, która wyniosła 13,48 proc. Jednym z obszarów, który cieszy się coraz większym zainteresowaniem wśród przedsiębiorców, jest weryfikacja tożsamości przez AI, zwłaszcza w takich branżach jak bankowość, ubezpieczenia czy turystyka. Jej zastosowanie ma na celu głównie przeciwdziałać oszustwom i spełniać wymogi regulacyjne.

Szkolenia

Akademia Newserii

Akademia Newserii to projekt, w ramach którego najlepsi polscy dziennikarze biznesowi, giełdowi oraz lifestylowi, a także szkoleniowcy z wieloletnim doświadczeniem dzielą się swoją wiedzą nt. pracy z mediami.