Newsy

Algorytmy rafinacji informacji uporządkują i przeanalizują dane ukryte w internecie. W Google jest tylko 10 proc. wszystkich informacji

2018-08-09  |  06:00

Internet to potężny zbiór informacji, z którego tylko ok. 10 proc. jest zaindeksowana w wyszukiwarce Google. Do pozostałych starają się dotrzeć badacze z Centrum Rafinacji Informacji, którzy dzięki opracowanej technologii są w stanie zebrać, oczyścić i przeanalizować dane z wielu cyfrowych źródeł. Zebrane informacje pozwalają im nie tylko określić zachodzące aktualnie procesy, lecz także prognozować np. preferencje wyborcze, zmiany gospodarcze czy nastroje społeczne.

Internet rozrósł się do takich rozmiarów, że bez pomocy zaawansowanych programów rafinacyjnych przeprowadzenie miarodajnej analizy jest niemożliwe. Do 2020 roku świat wyprodukuje 44 zettabajtów danych (1 zettabajt to bilion gigabajtów). Korzystanie z wyszukiwarki Google w celu monitorowania bieżących trendów w sieci nie wystarczy, aby przeprowadzić wiarygodne badania naukowe.

– Szukamy źródeł internetowych, szukamy różnego rodzaju repozytoriów, dostępu do bibliotek. W niektórych tematach możemy również posiłkować się mediami społecznościowymi, które są otwarte. Może się pojawić zarzut, dlaczego nie korzystamy z Google? W Google znajduje się nie więcej jak 10 proc. tej rzeczywistości wirtualnej, z którą mamy do czynienia, musimy do tych danych dotrzeć samodzielnie, próbujemy to robić i robimy to chyba dosyć skutecznie ­– mówi agencji informacyjnej Newseria Innowacje Wiesław Cetera z Centrum Rafinacji Informacji.

W początkowej fazie każdego projektu roboty pobierają informacje z otwartych źródeł. Dane zbierane są w różnej postaci, a następnie sprowadzane są do postaci cyfrowej. W ten sposób powstają tzw. brudne dane. Po ich oczyszczeniu (rafinacji) przystępuje się do analizy poprzez wyszukiwanie najbardziej istotnych słów oraz powiązanych z nimi innych słów (sentymentów), mających wydźwięk pozytywny lub negatywny.

– Wyszukujemy terminy podstawowe, czyli słowa klucze, artefakty czy słowa słupy, następnie szukamy tego, co wokół nich się znajduje, nie przetwarzamy całości, ale szukamy tego co najważniejsze, i na tej podstawie jesteśmy w stanie określić, czy termin związany z tematem naszych badań zmienia się pozytywnie, negatywnie, rozwija się bądź po prostu zanika. Ta dokładność prognoz jest dosyć duża, bo w przeciwieństwie do badań ankietowych nie mamy do czynienia z populacją 200 czy 1000 badanych, ale przetwarzamy terabajty danych – mówi Wiesław Cetera.

W ramach projektu Culturnomics 2.0, naukowcy z Uniwersytetu Harvarda udowodnili, że algorytmy rafinacyjne sprawdzają się do identyfikacji i przewidywania procesów, które mają dopiero nastąpić. Badacze analizowali informacje upubliczniane przez media tradycyjne i cyfrowe w czasie rzeczywistym w celu określenia nadchodzących zmian społeczno-kulturalnych. Wykorzystując tę technologię, trafnie przewidziano m.in. wybuch rewolucji na Bliskim Wschodzie, ustąpienie prezydenta Egiptu Hosniego Mubaraka, a nawet przybliżone miejsce pobytu Osamy bin Ladena.

– Badania rafinacji informacji przede wszystkim można wykorzystać do identyfikowania różnego rodzaju procesów, które zachodzą w przestrzeni gospodarczej i społecznej. To preferencje wyborcze, trendy gospodarcze, udziały w rynku, pomiary marki itd., ale możemy też spróbować odpowiedzieć na pytanie: jak będzie? Jeżeli znajdziemy jakiś odnośnik czy proces, który toczy się obiektywnie, który jest mierzalny i znajdziemy relację między światem wirtualnym a danymi rzeczywistymi, to możemy poprzez po pierwsze korelacje, po drugie analizę regresji, starać się przewidzieć, co będzie w przyszłości – przekonuje ekspert.

Analitycy Research Cosmos szacują, że wartość narzędzi analitycznych Big Data ma sięgnąć 9 mld dol. w 2023 roku, przy średniorocznym tempie wzrostu na poziomie 21,15 proc. Według szacunków Cisco w 2017 roku użytkownicy internetu przesyłali każdego miesiąca 94,55 eksabajty danych, a do 2021 roku wartość ta ma wzrosnąć do 235,66 eksabajtów.

Do pobrania

Czytaj także

Kalendarium

Więcej ważnych informacji

Newseria na XVI Europejskim Kongresie Gospodarczym

Jedynka Newserii

Jedynka Newserii

Venture Cafe Warsaw

Ochrona środowiska

Temperatury w Europie rosną dwukrotnie szybciej niż globalnie. Za tym idą rekordowe zjawiska klimatyczne

Marzec 2024 roku był 10. miesiącem z rzędu, który pobił rekord temperatur w historii globalnych pomiarów dla danego miesiąca roku – wskazują dane Copernicus Climate Change Service (C3S). Średnia temperatura wyniosła 14,14 st. C, czyli o 0,73 st. C więcej niż średnia dla marca z lat 1991–2020. Marzec był też o 1,68 st. cieplejszy niż w okresie przedindustrialnym, do którego odnoszą się globalne cele zawarte w porozumieniu paryskim. Kolejny miesiąc z rekordem ciepła oznacza nasilone zjawiska klimatyczne, również te ekstremalne. 2023 rok był w Europie okresem rekordów w tym zakresie, m.in. największych pożarów, powodzi czy fal upałów – wynika z raportu C3S i Światowej Organizacji Meteorologicznej.

Transport

Bezpieczeństwo paliwowe w Polsce wymaga inwestycji w nowe moce magazynowe. Branża przyspiesza też zieloną transformację

Branża paliwowa dobrze poradziła sobie z zawirowaniami, które przez ostatnie dwa lata wpływały na polski rynek. Wciąż jednak kwestia bezpieczeństwa paliwowego wymaga dużego wysiłku. Wśród priorytetowych zadań stojących przed sektorem i rządem jest rozbudowa infrastruktury paliwowej, szczególnie nowych mocy magazynowych, ale też kolei i morskich terminali – wskazują eksperci POPiHN. Wyzwaniem w kolejnych latach będzie także zielona transformacja oparta m.in. na elektryfikacji transportu i paliwach alternatywnych, która – w opinii ekspertów – wymaga w Polsce znacznego przyspieszenia.

Konsument

Techniki genomowe mogą zrewolucjonizować europejskie rolnictwo i uodpornić je na zmiany klimatu. UE pracuje nad nowymi ramami prawnymi

Techniki genomowe (NTG) pozwalają uzyskiwać rośliny o większej odporności na susze i choroby, a ich hodowla wymaga mniej nawozów i pestycydów. Komisja Europejska wskazuje, że NTG to innowacja, która może m.in. zwiększyć odporność systemu żywnościowego na zmiany klimatu. W tej chwili wszystkie rośliny uzyskane w ten sposób podlegają tym samym, mocno wyśrubowanym zasadom, co GMO. Dlatego w ub.r. KE zaproponowała nowe rozporządzenie dotyczące roślin uzyskiwanych za pomocą technik genomowych. W lutym br. przychylił się do niego Parlament UE, co otworzyło drogę do rozpoczęcia negocjacji z rządami państw UE w Radzie. Wątpliwości wielu państw członkowskich, również Polski, budzi kwestia patentów NGT pozostających w rękach globalnych koncernów, które mogłyby zaszkodzić pozycji europejskich hodowców.

Szkolenia

Akademia Newserii

Akademia Newserii to projekt, w ramach którego najlepsi polscy dziennikarze biznesowi, giełdowi oraz lifestylowi, a  także szkoleniowcy z wieloletnim doświadczeniem dzielą się swoją wiedzą nt. pracy z mediami.