Newsy

Ze sztuczną inteligencją szybko nie porozmawiamy w języku polskim. Brakuje wystarczającej liczby danych, w tym tysięcy godzin nagrań mowy

2019-06-18  |  06:00
Mówi:dr hab. inż. Maciej Piasecki
Firma:Katedra Inteligencji Obliczeniowej, Wydział Informatyki i Zarządzania, Politechnika Wrocławska
  • MP4
  • Przetwarzanie języka naturalnego umożliwia maszynom czytanie i rozumienie języków ludzkich. Obecnie NLP pozwala np. na rozpoznawanie i przewidywanie chorób w oparciu o elektroniczne dane medyczne i mowę pacjenta. Największe firmy analizują e-maile za pomocą NLP i zatrzymują spam. Siri i Alexa to przykłady inteligentnych interfejsów sterowanych głosem, które wykorzystują NLP do reagowania na komunikaty głosowe. Pojawiają się też pierwsze przykłady sztucznej inteligencji mówiącej po polsku, jednak na razie jedynie w prostych i ograniczonych komunikatach. Główną barierą jest niewystarczająca baza danych.

    – Szacowałbym poziom zaawansowania rozwoju technologii dla języka polskiego gdzieś w połowie krajów europejskich. Nie jest to już złym wynikiem, jeszcze 10 lat temu byliśmy na jednym z ostatnich miejsc, jeśli chodzi o dostępność słowników, zbiorów tekstów, rozwiązań dla języka polskiego. Wykorzystanie technologii dla języka polskiego w rozwiązaniach czołowych komercyjnych firm jest bardzo niskie, ponieważ one bazują wyłącznie na swoich językach, nie postrzegają języka polskiego jako wyróżniającego się w masie innych języków niż angielski – ocenia w rozmowie z agencją Newseria Innowacje dr hab. inż. Maciej Piasecki z Katedry Inteligencji Obliczeniowej na Politechnice Wrocławskiej.

    Przetwarzanie języka naturalnego (NLP) reprezentuje automatyczną obsługę naturalnego języka ludzkiego, takiego jak mowa lub tekst. Prawdziwa wartość tej technologii wynika jednak z możliwości zastosowania. NLP umożliwia np. rozpoznawanie i przewidywanie chorób w oparciu o elektroniczne dane medyczne i mowę pacjenta – od chorób układu krążenia do depresji czy schizofrenii. Amazon Comprehend Medical wykorzystuje z kolei NLP do wyodrębniania stanów chorobowych, leków i wyników leczenia z raportów z badań klinicznych. IBM opracował asystenta kognitywnego, który działa jak spersonalizowana wyszukiwarka, uczy się wszystkiego o użytkowniku, a następnie przypomina potrzebne informacje. LegalMation, obsługiwana przez technologię IBM Watson NLP, opracowała zaś platformę do automatyzacji rutynowych zadań sądowych, pomaga zaoszczędzić czas i obniżyć koszty.

    Chociaż możliwości NLP są praktycznie nieograniczone, to wciąż brakuje jeszcze rozwiązań bazujących na języku polskim. Sytuacja jednak powoli się zmienia.

    – Coraz więcej polskich start-upów, małych i średnich firm zidentyfikowało niszę, jaką są systemy, które są stworzone dla języka polskiego czy obsługują język polski w bardziej świadomy sposób. Liczba rozwiązań rośnie. Rośnie też liczba projektów, które wspólnie realizujemy, m.in. dzięki finansowaniu unijnemu – zaznacza Maciej Piasecki.

    Jak wskazuje ekspert, problemem dla szerszego wprowadzenia rozwiązań bazujących na języku polskim, jest stosunkowo niewielka baza danych. Choć nasz język stwarza ogromne możliwości, zwłaszcza w kontekście innych języków o rozbudowanej morfologii, to większość rozwiązań dostępnych w Polsce bazuje na przetworzonym języku angielskim.

    – Niewiele jest firm, które gromadzą takie liczby danych jak czołowe firmy na świecie. Paradoksalnie te firmy, które działają na polskim rynku, mają trochę trudniej, ponieważ polskie prawo jest dość restrykcyjne, jeśli chodzi o wykorzystanie danych. Natomiast wielkie firmy światowe trochę nie przejmują się polskimi ograniczeniami i trudno z tym cokolwiek zrobić. Zbierają dane, które chcą, i nie sposób tego zablokować – twierdzi ekspert.

    Podobny problem mają też inne kraje regionu. Liczba rozwiązań wykorzystujących rodzimy język jest jeszcze niewielka, pojawiają się dopiero pierwsze rozwiązania, najczęściej opracowane przez rodzime start-upy. Tym samym ich zasięg jest dość mały.

    – Jest duży problem w zbudowaniu zasobów, na których można trenować. Potrzebujemy tysięcy godzin nagrań mowy opisanych za pomocą tzw. transkrypcji czy opisanych tekstem ilustrującym, przy czym obecnie całkowity zasób takich nagrań mowy dla polszczyzny dostępnych publicznie to sto kilkadziesiąt godzin. Dopóki nie ma dostatecznie dużego zbioru danych, dopóty jakość będzie trochę niższa – ocenia dr hab. inż. Maciej Piasecki.

    Według analityków MarketsandMarkets rynek przetwarzania języka naturalnego (NLP) osiągnie do 2021 r. wartość ponad 16 mld dol.

    Czytaj także

    Kalendarium

    Więcej ważnych informacji

    Kongres MOVE

    Jedynka Newserii

    Jedynka Newserii

    Venture Cafe Warsaw

    Infrastruktura

    Sektor ochrony zdrowia odpowiada za większe emisje CO2 niż lotnictwo. Zielone zmiany wymagają drastycznego przyspieszenia

    Sektor ochrony zdrowia ponosi znaczące konsekwencje wynikające z rosnącej liczby ekstremalnych zjawisk klimatycznych, ale też poważnego zanieczyszczenia powietrza, a koszty z tym związane będą rosły. Z drugiej strony sam sektor też się przyczynia do zmian klimatycznych – odpowiada za 4 proc. emisji CO2, czym wyprzedza takie branże jak żegluga czy lotnictwo. O potrzebie przyspieszenia zielonych zmian w ochronie zdrowia coraz więcej się mówi, ale to wymaga konkretnych działań. Temu ma służyć powołana właśnie do życia Zielona Koalicja dla Zdrowia, w której uczestniczy prawie 30 podmiotów i której patronuje m.in. Narodowy Fundusz Zdrowia.

    Prawo

    Postęp technologiczny rewolucjonizuje pracę specjalistów ds. finansów. Stają się strategicznymi doradcami biznesu

    Częste zmiany regulacyjne i postęp technologiczny wymuszają na specjalistach ds. finansów ciągłe nabywanie nowych kompetencji, doszkalanie i uaktualnianie swojej wiedzy. Ci, którzy potrafią się dostosować do szybkich zmian i wesprzeć swoimi umiejętnościami rozwój biznesu, mogą jednak liczyć na większe możliwości rozwoju kariery. – Finanse operują w świecie, który coraz szybciej się zmienia. To powoduje, że w przyszłości ludzie z obszaru finansów będą musieli poświęcać dużo więcej energii na to, żeby dotrzymać tempa – mówi Kuba Neneman, head of finance.ai, commercial data science manager w Shellu.

    Polityka

    Poparcie Europejczyków dla Ukrainy pozostaje silne. Bardziej kontrowersyjna jest kwestia jej wejścia do NATO

    Silne poparcie dla Ukrainy w Europie sprawia, że politycy prezentujący odmienną wizję nie mają przestrzeni na próby wykorzystywania prorosyjskich postaw w kształtowaniu polityki zagranicznej. Badania naukowców z Uniwersytetu w Exeter przeprowadzone w kilkunastu europejskich krajach wskazują, że poparcie dla Ukrainy i polityki skupiającej się na pomocy zaatakowanemu krajowi jest szerokie, ale najsilniejsze w państwach mających doświadczenia z polityką Kremla w czasach Związku Radzieckiego. Najsilniejsza polaryzacja nastrojów w Europie jest zauważalna w kwestii ewentualnego przystąpienia Ukrainy do Paktu Północnoatlantyckiego.

    Szkolenia

    Akademia Newserii

    Akademia Newserii to projekt, w ramach którego najlepsi polscy dziennikarze biznesowi, giełdowi oraz lifestylowi, a  także szkoleniowcy z wieloletnim doświadczeniem dzielą się swoją wiedzą nt. pracy z mediami.