Mówi: | dr hab. inż. Wiesław Cetera |
Firma: | Centrum Rafinacji Informacji |
Algorytmy rafinacji informacji uporządkują i przeanalizują dane ukryte w internecie. W Google jest tylko 10 proc. wszystkich informacji
Internet to potężny zbiór informacji, z którego tylko ok. 10 proc. jest zaindeksowana w wyszukiwarce Google. Do pozostałych starają się dotrzeć badacze z Centrum Rafinacji Informacji, którzy dzięki opracowanej technologii są w stanie zebrać, oczyścić i przeanalizować dane z wielu cyfrowych źródeł. Zebrane informacje pozwalają im nie tylko określić zachodzące aktualnie procesy, lecz także prognozować np. preferencje wyborcze, zmiany gospodarcze czy nastroje społeczne.
Internet rozrósł się do takich rozmiarów, że bez pomocy zaawansowanych programów rafinacyjnych przeprowadzenie miarodajnej analizy jest niemożliwe. Do 2020 roku świat wyprodukuje 44 zettabajtów danych (1 zettabajt to bilion gigabajtów). Korzystanie z wyszukiwarki Google w celu monitorowania bieżących trendów w sieci nie wystarczy, aby przeprowadzić wiarygodne badania naukowe.
– Szukamy źródeł internetowych, szukamy różnego rodzaju repozytoriów, dostępu do bibliotek. W niektórych tematach możemy również posiłkować się mediami społecznościowymi, które są otwarte. Może się pojawić zarzut, dlaczego nie korzystamy z Google? W Google znajduje się nie więcej jak 10 proc. tej rzeczywistości wirtualnej, z którą mamy do czynienia, musimy do tych danych dotrzeć samodzielnie, próbujemy to robić i robimy to chyba dosyć skutecznie – mówi agencji informacyjnej Newseria Innowacje Wiesław Cetera z Centrum Rafinacji Informacji.
W początkowej fazie każdego projektu roboty pobierają informacje z otwartych źródeł. Dane zbierane są w różnej postaci, a następnie sprowadzane są do postaci cyfrowej. W ten sposób powstają tzw. brudne dane. Po ich oczyszczeniu (rafinacji) przystępuje się do analizy poprzez wyszukiwanie najbardziej istotnych słów oraz powiązanych z nimi innych słów (sentymentów), mających wydźwięk pozytywny lub negatywny.
– Wyszukujemy terminy podstawowe, czyli słowa klucze, artefakty czy słowa słupy, następnie szukamy tego, co wokół nich się znajduje, nie przetwarzamy całości, ale szukamy tego co najważniejsze, i na tej podstawie jesteśmy w stanie określić, czy termin związany z tematem naszych badań zmienia się pozytywnie, negatywnie, rozwija się bądź po prostu zanika. Ta dokładność prognoz jest dosyć duża, bo w przeciwieństwie do badań ankietowych nie mamy do czynienia z populacją 200 czy 1000 badanych, ale przetwarzamy terabajty danych – mówi Wiesław Cetera.
W ramach projektu Culturnomics 2.0, naukowcy z Uniwersytetu Harvarda udowodnili, że algorytmy rafinacyjne sprawdzają się do identyfikacji i przewidywania procesów, które mają dopiero nastąpić. Badacze analizowali informacje upubliczniane przez media tradycyjne i cyfrowe w czasie rzeczywistym w celu określenia nadchodzących zmian społeczno-kulturalnych. Wykorzystując tę technologię, trafnie przewidziano m.in. wybuch rewolucji na Bliskim Wschodzie, ustąpienie prezydenta Egiptu Hosniego Mubaraka, a nawet przybliżone miejsce pobytu Osamy bin Ladena.
– Badania rafinacji informacji przede wszystkim można wykorzystać do identyfikowania różnego rodzaju procesów, które zachodzą w przestrzeni gospodarczej i społecznej. To preferencje wyborcze, trendy gospodarcze, udziały w rynku, pomiary marki itd., ale możemy też spróbować odpowiedzieć na pytanie: jak będzie? Jeżeli znajdziemy jakiś odnośnik czy proces, który toczy się obiektywnie, który jest mierzalny i znajdziemy relację między światem wirtualnym a danymi rzeczywistymi, to możemy poprzez po pierwsze korelacje, po drugie analizę regresji, starać się przewidzieć, co będzie w przyszłości – przekonuje ekspert.
Analitycy Research Cosmos szacują, że wartość narzędzi analitycznych Big Data ma sięgnąć 9 mld dol. w 2023 roku, przy średniorocznym tempie wzrostu na poziomie 21,15 proc. Według szacunków Cisco w 2017 roku użytkownicy internetu przesyłali każdego miesiąca 94,55 eksabajty danych, a do 2021 roku wartość ta ma wzrosnąć do 235,66 eksabajtów.
Do pobrania
Czytaj także
- 2024-12-19: Polska centralna przyciąga coraz więcej inwestycji. W Łodzi powstaje nowe centrum dystrybucyjne dla Della
- 2024-12-16: Pierwsze lasy społeczne wokół sześciu dużych miast. Trwają prace nad ustaleniem zasad ich funkcjonowania
- 2024-12-17: Polscy badacze pracują nad kwantowym przetwarzaniem sygnału. To rozwiązanie pomoże zapewnić superbezpieczną łączność
- 2024-11-18: Sprzedaż kart telemetrycznych M2M mocno przyspieszyła. Dzięki nim internet rzeczy wspiera cyfryzację firm
- 2024-11-22: Dane satelitarne będą częściej pomagać w walce z żywiołami w Polsce. Nowy system testowany był w czasie wrześniowej powodzi
- 2024-11-08: Katarzyna Ankudowicz: Jestem zdruzgotana i przerażona, że Donald Trump został prezydentem. On przecież się chwali, że Putin to jego najlepszy kumpel
- 2024-11-05: Wyniki wyborów w USA kluczowe dla przyszłości NATO i Ukrainy. Ewentualna wygrana Donalda Trumpa będzie bardziej nieprzewidywalna
- 2024-11-04: Wynik wyborów prezydenckich w USA zależeć będzie od kilku stanów. Jest ryzyko nieuznania przegranej jednej ze stron, zwłaszcza przez Donalda Trumpa
- 2024-11-05: Polski rynek odzieży sportowej i outdoorowej notuje stabilne wzrosty. Kupujący szukają technologicznych nowinek
- 2024-11-26: Polscy naukowcy pracują nad personalizowaną terapią raka płuca. Faza badań klinicznych coraz bliżej
Kalendarium
Więcej ważnych informacji
Jedynka Newserii
Jedynka Newserii
Problemy społeczne
Przeciętny Polak spędza w sieci ponad trzy godziny dziennie. Tylko 11 proc. podejmuje próby ograniczenia tego czasu
Polacy średnio spędzają w internecie ponad trzy godziny dziennie. Jednocześnie, według badania na temat higieny cyfrowej, jedynie 14 proc. respondentów kontroluje swój czas ekranowy, a co piąty ogranicza liczbę powiadomień w telefonie czy komputerze. Nadmierne korzystanie z ekranów może wpływać na zaniedbywanie obowiązków i relacji z innymi, a także obniżenie nastroju i samooceny. Kampania Fundacji Orange „Nie przescrolluj życia” zwraca uwagę na potrzebę dbania o higienę cyfrową. Szczególnie okres świątecznego wypoczynku sprzyja takiej refleksji.
Prawo
Pediatrzy: Słodkie e-papierosy nie są przebadane. Państwo musi przejąć inicjatywę w sprawie kontroli ich jakości
Co trzeci uczeń pierwszą styczność z nikotyną miał w wieku 13 lat. Dla 70 proc. pierwszym w życiu wyrobem z nikotyną był e-papieros. Wśród uczniów używających obecnie nikotyny najwięcej, bo 80 proc., używa e-papierosów, najczęściej o słodkich smakach – wynika z badań CBOS. W dodatku z badań wynika, że zakaz sprzedaży takich produktów niepełnoletnim jest skutecznie omijany. Polskie Towarzystwo Pediatryczne, wspierane przez lekarzy innych specjalności, apeluje do premiera o wycofanie ze sprzedaży smakowych e-papierosów z nikotyną i bez niej. Zwłaszcza słodkie substancje smakowe dodawane do e-liquidów dla osiągnięcia atrakcyjnego smaku wciąż nie są wystarczająco przebadane – alarmują toksykolodzy.
Infrastruktura
Prąd z największej prywatnej inwestycji energetycznej w Polsce popłynie w 2027 roku. Polenergia dostała właśnie potężny zastrzyk finansowania
Polenergia S.A. i Bank Gospodarstwa Krajowego podpisały umowę pożyczki ze środków Krajowego Planu Odbudowy (KPO) na budowę morskich farm wiatrowych. Finansowanie wyniesie 750 mln zł i zostanie wykorzystane do budowy dwóch farm o łącznej mocy 1440 MW. Największa prywatna grupa energetyczna w Polsce realizuje ten projekt z norweskim Equinorem. Prace związane z budową fundamentów turbin na Bałtyku mają się rozpocząć w 2026 roku. Projekty offshorowe będą jednym z filarów nowej strategii Polenergii, nad którą spółka właśnie pracuje.
Szkolenia
Akademia Newserii
Akademia Newserii to projekt, w ramach którego najlepsi polscy dziennikarze biznesowi, giełdowi oraz lifestylowi, a także szkoleniowcy z wieloletnim doświadczeniem dzielą się swoją wiedzą nt. pracy z mediami.