Mówi: | dr hab. inż. Maciej Piasecki |
Firma: | Katedra Inteligencji Obliczeniowej, Wydział Informatyki i Zarządzania, Politechnika Wrocławska |
Ze sztuczną inteligencją szybko nie porozmawiamy w języku polskim. Brakuje wystarczającej liczby danych, w tym tysięcy godzin nagrań mowy
Przetwarzanie języka naturalnego umożliwia maszynom czytanie i rozumienie języków ludzkich. Obecnie NLP pozwala np. na rozpoznawanie i przewidywanie chorób w oparciu o elektroniczne dane medyczne i mowę pacjenta. Największe firmy analizują e-maile za pomocą NLP i zatrzymują spam. Siri i Alexa to przykłady inteligentnych interfejsów sterowanych głosem, które wykorzystują NLP do reagowania na komunikaty głosowe. Pojawiają się też pierwsze przykłady sztucznej inteligencji mówiącej po polsku, jednak na razie jedynie w prostych i ograniczonych komunikatach. Główną barierą jest niewystarczająca baza danych.
– Szacowałbym poziom zaawansowania rozwoju technologii dla języka polskiego gdzieś w połowie krajów europejskich. Nie jest to już złym wynikiem, jeszcze 10 lat temu byliśmy na jednym z ostatnich miejsc, jeśli chodzi o dostępność słowników, zbiorów tekstów, rozwiązań dla języka polskiego. Wykorzystanie technologii dla języka polskiego w rozwiązaniach czołowych komercyjnych firm jest bardzo niskie, ponieważ one bazują wyłącznie na swoich językach, nie postrzegają języka polskiego jako wyróżniającego się w masie innych języków niż angielski – ocenia w rozmowie z agencją Newseria Innowacje dr hab. inż. Maciej Piasecki z Katedry Inteligencji Obliczeniowej na Politechnice Wrocławskiej.
Przetwarzanie języka naturalnego (NLP) reprezentuje automatyczną obsługę naturalnego języka ludzkiego, takiego jak mowa lub tekst. Prawdziwa wartość tej technologii wynika jednak z możliwości zastosowania. NLP umożliwia np. rozpoznawanie i przewidywanie chorób w oparciu o elektroniczne dane medyczne i mowę pacjenta – od chorób układu krążenia do depresji czy schizofrenii. Amazon Comprehend Medical wykorzystuje z kolei NLP do wyodrębniania stanów chorobowych, leków i wyników leczenia z raportów z badań klinicznych. IBM opracował asystenta kognitywnego, który działa jak spersonalizowana wyszukiwarka, uczy się wszystkiego o użytkowniku, a następnie przypomina potrzebne informacje. LegalMation, obsługiwana przez technologię IBM Watson NLP, opracowała zaś platformę do automatyzacji rutynowych zadań sądowych, pomaga zaoszczędzić czas i obniżyć koszty.
Chociaż możliwości NLP są praktycznie nieograniczone, to wciąż brakuje jeszcze rozwiązań bazujących na języku polskim. Sytuacja jednak powoli się zmienia.
– Coraz więcej polskich start-upów, małych i średnich firm zidentyfikowało niszę, jaką są systemy, które są stworzone dla języka polskiego czy obsługują język polski w bardziej świadomy sposób. Liczba rozwiązań rośnie. Rośnie też liczba projektów, które wspólnie realizujemy, m.in. dzięki finansowaniu unijnemu – zaznacza Maciej Piasecki.
Jak wskazuje ekspert, problemem dla szerszego wprowadzenia rozwiązań bazujących na języku polskim, jest stosunkowo niewielka baza danych. Choć nasz język stwarza ogromne możliwości, zwłaszcza w kontekście innych języków o rozbudowanej morfologii, to większość rozwiązań dostępnych w Polsce bazuje na przetworzonym języku angielskim.
– Niewiele jest firm, które gromadzą takie liczby danych jak czołowe firmy na świecie. Paradoksalnie te firmy, które działają na polskim rynku, mają trochę trudniej, ponieważ polskie prawo jest dość restrykcyjne, jeśli chodzi o wykorzystanie danych. Natomiast wielkie firmy światowe trochę nie przejmują się polskimi ograniczeniami i trudno z tym cokolwiek zrobić. Zbierają dane, które chcą, i nie sposób tego zablokować – twierdzi ekspert.
Podobny problem mają też inne kraje regionu. Liczba rozwiązań wykorzystujących rodzimy język jest jeszcze niewielka, pojawiają się dopiero pierwsze rozwiązania, najczęściej opracowane przez rodzime start-upy. Tym samym ich zasięg jest dość mały.
– Jest duży problem w zbudowaniu zasobów, na których można trenować. Potrzebujemy tysięcy godzin nagrań mowy opisanych za pomocą tzw. transkrypcji czy opisanych tekstem ilustrującym, przy czym obecnie całkowity zasób takich nagrań mowy dla polszczyzny dostępnych publicznie to sto kilkadziesiąt godzin. Dopóki nie ma dostatecznie dużego zbioru danych, dopóty jakość będzie trochę niższa – ocenia dr hab. inż. Maciej Piasecki.
Według analityków MarketsandMarkets rynek przetwarzania języka naturalnego (NLP) osiągnie do 2021 r. wartość ponad 16 mld dol.
Czytaj także
- 2024-12-18: Inżynierowie z Warszawy pracują nad innowacjami dla całej Grupy Orange. Ich specjalności to AI i cyberbezpieczeństwo
- 2024-12-17: Polscy badacze pracują nad kwantowym przetwarzaniem sygnału. To rozwiązanie pomoże zapewnić superbezpieczną łączność
- 2024-12-12: Wdrażanie GenAI może oznaczać nasilenie stresu wśród pracowników. Firmy potrzebują odpowiedniej strategii komunikacyjnej
- 2024-11-26: Sztuczna inteligencja rewolucjonizuje marketing. Narzędzia AI dają drugie życie tradycyjnym formom reklamy
- 2024-12-11: Coraz większa rola sztucznej inteligencji w marketingu. Wirtualni influencerzy na razie pozostają ciekawostką
- 2024-11-27: Sztuczna inteligencja nie zastąpi pisarzy. Nie tworzy literatury, tylko książki dla zabicia czasu
- 2024-11-22: Artur Barciś: Od sztucznej inteligencji dowiedziałem się, że zmarłem na scenie. Dla niej jestem kompletnie nikim
- 2024-10-28: Martyna Wojciechowska: Sztuczna inteligencja zastępująca dziennikarzy i artystów to niepokojący trend. To prowadzi do dezinformacji
- 2024-11-04: Sztuczna inteligencja wzbudza w Polakach głównie ciekawość i obawy. Ponad połowa widzi w niej zagrożenie
- 2024-10-09: Szwedzka Akademia Nauk uhonorowała lata pracy nad sztuczną inteligencją. Nagroda Nobla trafiła do twórców sztucznych sieci neuronowych
Kalendarium
Więcej ważnych informacji
Jedynka Newserii
Jedynka Newserii
Problemy społeczne
Przeciętny Polak spędza w sieci ponad trzy godziny dziennie. Tylko 11 proc. podejmuje próby ograniczenia tego czasu
Polacy średnio spędzają w internecie ponad trzy godziny dziennie. Jednocześnie, według badania na temat higieny cyfrowej, jedynie 14 proc. respondentów kontroluje swój czas ekranowy, a co piąty ogranicza liczbę powiadomień w telefonie czy komputerze. Nadmierne korzystanie z ekranów może wpływać na zaniedbywanie obowiązków i relacji z innymi, a także obniżenie nastroju i samooceny. Kampania Fundacji Orange „Nie przescrolluj życia” zwraca uwagę na potrzebę dbania o higienę cyfrową. Szczególnie okres świątecznego wypoczynku sprzyja takiej refleksji.
Prawo
Pediatrzy: Słodkie e-papierosy nie są przebadane. Państwo musi przejąć inicjatywę w sprawie kontroli ich jakości
Co trzeci uczeń pierwszą styczność z nikotyną miał w wieku 13 lat. Dla 70 proc. pierwszym w życiu wyrobem z nikotyną był e-papieros. Wśród uczniów używających obecnie nikotyny najwięcej, bo 80 proc., używa e-papierosów, najczęściej o słodkich smakach – wynika z badań CBOS. W dodatku z badań wynika, że zakaz sprzedaży takich produktów niepełnoletnim jest skutecznie omijany. Polskie Towarzystwo Pediatryczne, wspierane przez lekarzy innych specjalności, apeluje do premiera o wycofanie ze sprzedaży smakowych e-papierosów z nikotyną i bez niej. Zwłaszcza słodkie substancje smakowe dodawane do e-liquidów dla osiągnięcia atrakcyjnego smaku wciąż nie są wystarczająco przebadane – alarmują toksykolodzy.
Infrastruktura
Prąd z największej prywatnej inwestycji energetycznej w Polsce popłynie w 2027 roku. Polenergia dostała właśnie potężny zastrzyk finansowania
Polenergia S.A. i Bank Gospodarstwa Krajowego podpisały umowę pożyczki ze środków Krajowego Planu Odbudowy (KPO) na budowę morskich farm wiatrowych. Finansowanie wyniesie 750 mln zł i zostanie wykorzystane do budowy dwóch farm o łącznej mocy 1440 MW. Największa prywatna grupa energetyczna w Polsce realizuje ten projekt z norweskim Equinorem. Prace związane z budową fundamentów turbin na Bałtyku mają się rozpocząć w 2026 roku. Projekty offshorowe będą jednym z filarów nowej strategii Polenergii, nad którą spółka właśnie pracuje.
Szkolenia
Akademia Newserii
Akademia Newserii to projekt, w ramach którego najlepsi polscy dziennikarze biznesowi, giełdowi oraz lifestylowi, a także szkoleniowcy z wieloletnim doświadczeniem dzielą się swoją wiedzą nt. pracy z mediami.