Mówi: | dr hab. inż. Wiesław Cetera |
Firma: | Centrum Rafinacji Informacji |
Algorytmy rafinacji informacji uporządkują i przeanalizują dane ukryte w internecie. W Google jest tylko 10 proc. wszystkich informacji
Internet to potężny zbiór informacji, z którego tylko ok. 10 proc. jest zaindeksowana w wyszukiwarce Google. Do pozostałych starają się dotrzeć badacze z Centrum Rafinacji Informacji, którzy dzięki opracowanej technologii są w stanie zebrać, oczyścić i przeanalizować dane z wielu cyfrowych źródeł. Zebrane informacje pozwalają im nie tylko określić zachodzące aktualnie procesy, lecz także prognozować np. preferencje wyborcze, zmiany gospodarcze czy nastroje społeczne.
Internet rozrósł się do takich rozmiarów, że bez pomocy zaawansowanych programów rafinacyjnych przeprowadzenie miarodajnej analizy jest niemożliwe. Do 2020 roku świat wyprodukuje 44 zettabajtów danych (1 zettabajt to bilion gigabajtów). Korzystanie z wyszukiwarki Google w celu monitorowania bieżących trendów w sieci nie wystarczy, aby przeprowadzić wiarygodne badania naukowe.
– Szukamy źródeł internetowych, szukamy różnego rodzaju repozytoriów, dostępu do bibliotek. W niektórych tematach możemy również posiłkować się mediami społecznościowymi, które są otwarte. Może się pojawić zarzut, dlaczego nie korzystamy z Google? W Google znajduje się nie więcej jak 10 proc. tej rzeczywistości wirtualnej, z którą mamy do czynienia, musimy do tych danych dotrzeć samodzielnie, próbujemy to robić i robimy to chyba dosyć skutecznie – mówi agencji informacyjnej Newseria Innowacje Wiesław Cetera z Centrum Rafinacji Informacji.
W początkowej fazie każdego projektu roboty pobierają informacje z otwartych źródeł. Dane zbierane są w różnej postaci, a następnie sprowadzane są do postaci cyfrowej. W ten sposób powstają tzw. brudne dane. Po ich oczyszczeniu (rafinacji) przystępuje się do analizy poprzez wyszukiwanie najbardziej istotnych słów oraz powiązanych z nimi innych słów (sentymentów), mających wydźwięk pozytywny lub negatywny.
– Wyszukujemy terminy podstawowe, czyli słowa klucze, artefakty czy słowa słupy, następnie szukamy tego, co wokół nich się znajduje, nie przetwarzamy całości, ale szukamy tego co najważniejsze, i na tej podstawie jesteśmy w stanie określić, czy termin związany z tematem naszych badań zmienia się pozytywnie, negatywnie, rozwija się bądź po prostu zanika. Ta dokładność prognoz jest dosyć duża, bo w przeciwieństwie do badań ankietowych nie mamy do czynienia z populacją 200 czy 1000 badanych, ale przetwarzamy terabajty danych – mówi Wiesław Cetera.
W ramach projektu Culturnomics 2.0, naukowcy z Uniwersytetu Harvarda udowodnili, że algorytmy rafinacyjne sprawdzają się do identyfikacji i przewidywania procesów, które mają dopiero nastąpić. Badacze analizowali informacje upubliczniane przez media tradycyjne i cyfrowe w czasie rzeczywistym w celu określenia nadchodzących zmian społeczno-kulturalnych. Wykorzystując tę technologię, trafnie przewidziano m.in. wybuch rewolucji na Bliskim Wschodzie, ustąpienie prezydenta Egiptu Hosniego Mubaraka, a nawet przybliżone miejsce pobytu Osamy bin Ladena.
– Badania rafinacji informacji przede wszystkim można wykorzystać do identyfikowania różnego rodzaju procesów, które zachodzą w przestrzeni gospodarczej i społecznej. To preferencje wyborcze, trendy gospodarcze, udziały w rynku, pomiary marki itd., ale możemy też spróbować odpowiedzieć na pytanie: jak będzie? Jeżeli znajdziemy jakiś odnośnik czy proces, który toczy się obiektywnie, który jest mierzalny i znajdziemy relację między światem wirtualnym a danymi rzeczywistymi, to możemy poprzez po pierwsze korelacje, po drugie analizę regresji, starać się przewidzieć, co będzie w przyszłości – przekonuje ekspert.
Analitycy Research Cosmos szacują, że wartość narzędzi analitycznych Big Data ma sięgnąć 9 mld dol. w 2023 roku, przy średniorocznym tempie wzrostu na poziomie 21,15 proc. Według szacunków Cisco w 2017 roku użytkownicy internetu przesyłali każdego miesiąca 94,55 eksabajty danych, a do 2021 roku wartość ta ma wzrosnąć do 235,66 eksabajtów.
Do pobrania
Czytaj także
- 2025-04-18: Rzecznik MŚP: Obniżenie składki zdrowotnej to nie jest szczyt marzeń. Ideałem byłby powrót do tego, co było przed Polskim Ładem
- 2025-04-08: Alkohol najbardziej rozpowszechnioną substancją psychoaktywną u młodzieży. Coraz większa popularność e-papierosów
- 2025-04-04: Spada spożycie alkoholu wśród młodzieży. Coraz mniej nastolatków wskazuje na jego łatwą dostępność
- 2025-04-02: Zapobieganie cyberuzależnieniom wśród dzieci wymaga dużego zaangażowania rodziców. Zakazy nie są wystarczające
- 2025-02-28: Samotność coraz bardziej dotyka Polaków. Dla 90 proc. z nich problemem są też narastające podziały
- 2025-03-31: Coraz więcej dronów dzieli przestrzeń powietrzną z załogowymi statkami powietrznymi. Powstaje system do koordynacji lotów
- 2025-02-26: Przez brak więzi z rodzicami dziecko szuka wsparcia w smartfonie. Psychiatrzy ostrzegają przed taką pułapką
- 2025-03-11: Nowe prawo ograniczy dostęp dzieci do niebezpiecznych treści w sieci. Obecnie większość nastolatków ma dostęp do pornografii czy hazardu
- 2025-01-28: Powstała koalicja na rzecz zmniejszenia dopuszczalnego limitu alkoholu u kierowców do 0,0 promila. Jest wniosek o zmiany prawne w tym zakresie
- 2025-01-24: M. Kobosko: Obowiązkiem Europy jest wspieranie białoruskiej opozycji i wolnych mediów. Najgorszym scenariuszem dla Polski jest wchłonięcie Białorusi przez Rosję
Kalendarium
Więcej ważnych informacji
Jedynka Newserii

Prawo

UE lepiej przygotowana na reagowanie na klęski żywiołowe. Od czasu powodzi w Polsce pojawiło się wiele usprawnień
Na tereny dotknięte ubiegłoroczną powodzią od rządu trafiło ponad 4 mld zł. Pierwsze formy wsparcia, w tym zasiłki, pomoc materialna czy wsparcie dla przedsiębiorców, pojawiły się już w pierwszych dniach od wystąpienia kataklizmu. Do Polski ma też trafić 5 mld euro z Funduszu Spójności UE na likwidację skutków powodzi. Doświadczenia ostatnich lat powodują, że UE jest coraz lepiej przygotowana, by elastycznie reagować na występujące klęski żywiołowe.
Bankowość
Phishing największym cyberzagrożeniem. Przestępcy będą coraz częściej sięgać po AI, by skutecznie docierać do potencjalnych ofiar

Choć liczba zablokowanych przez CyberTarczę fałszywych stron internetowych wyłudzających dane spadła w ubiegłym roku z 360 tys. do 305 tys., to wciąż najczęstszym typem ataku, po jaki sięgają cyberprzestępcy, jest phishing. Ten trend prawdopodobnie utrzyma się w najbliższych latach, m.in. dlatego że sztuczna inteligencja umożliwia hakerom dużo łatwiejsze podszywanie się pod cudzą tożsamość. Choć CyberTarcza działająca w sieci Orange Polska skutecznie chroni internautów przed atakami, to wciąż jednak to właśnie człowiek jest ich głównym celem.
Medycyna
Komisja Europejska pracuje nad nową dyrektywą tytoniową. Papierosy w Polsce mogą znacznie podrożeć

W Brukseli trwa dyskusja nad zmianami w unijnej dyrektywie tytoniowej. Minimalna stawka akcyzy na paczkę papierosów w UE może wzrosnąć nawet dwukrotnie: z 1,8 euro do 3,6 euro. Doprowadziłoby to do wyrównania cen papierosów pomiędzy państwami UE. Wzrost cen byłby najbardziej dotkliwy dla palaczy z tych państw, które przystąpiły do UE w 2004 roku, w tym Polski, z uwagi na znacznie niższy udział akcyzy w cenie paczki papierosów niż nowe minima unijne. Nad Wisłą paczka papierosów mogłaby kosztować nawet ok. 40 zł. Nowa dyrektywa tytoniowa może zostać otwarta już podczas duńskiej prezydencji w Radzie Unii Europejskiej.
Szkolenia

Akademia Newserii
Akademia Newserii to projekt, w ramach którego najlepsi polscy dziennikarze biznesowi, giełdowi oraz lifestylowi, a także szkoleniowcy z wieloletnim doświadczeniem dzielą się swoją wiedzą nt. pracy z mediami.