IBM analizuje wydźwięk opinii podczas Światowych Dni Młodzieży – Kraków 2016


22 lipca 2016

Łukasz Ćmielowski

IBM analizuje wydźwięk opinii podczas Światowych Dni Młodzieży – Kraków 2016

Już 26 lipca w Krakowie spotkają się pielgrzymi z całego świata. Tegoroczne uroczystości – również z udziałem Papieża Franciszka – potrwają do 31 lipca. W tym czasie Polskę, a w szczególności Małopolskę, odwiedzą setki tysięcy osób, udających się na spotkania i pielgrzymki w ramach Światowych Dni Młodzieży. Jak młodzi goście z zagranicy widzą Kraków, Polskę i Polaków? Co najbardziej ich zaskakuje? A co najbardziej im się podoba? Co jest dla nich ważne?

By odpowiedzieć na te pytania, Laboratorium Oprogramowania IBM w Krakowie przeanalizuje posty w mediach społecznościowych, opinie uczestników i przy pomocy oprogramowania analitycznego wyciągnie z tego strumienia danych najważniejsze wnioski. Codziennie, od 26 lipca, zespół analityków IBM będzie podsumowywać informacje płynące z sieci.

Analiza wydźwięku opinii wykorzystuje zaawansowane algorytmy eksploracji danych oraz technologie przetwarzania języka naturalnego. Umożliwia analizę dużych ilości informacji w mediach społecznościowych, aby badać opinię publiczną. Analiza wydźwięku pozwala identyfikować oraz mierzyć pozytywne, negatywne i neutralne opinie udostępniane na forach publicznych takich jak Twitter, Facebook, blogi, tablice ogłoszeń w Internecie oraz w innych mediach społecznościowych. Więcej informacji dotyczących rozwiązań IBM Business Analytics znajduje się na: www.ibm.com/analytics

Skąd płyną dane?

By przeanalizować informacje na temat Światowych Dni Młodzieży (World Youth Days) organizowanych w Krakowie, skupiliśmy się na danych dostępnych na Twitterze i Facebooku. Posty będą agregowane przy pomocy udostępnionych przez serwisy społecznościowe publicznych API – zarówno Twitter, jak i Facebook (Graph Api) pozwalają na łatwe przetwarzanie interesujących nas informacji. Do wyszukiwania i pobierania danych napisaliśmy prostą aplikację node.js z wykorzystaniem platformy IBM Cloud.

Przy użyciu wybranych narzędzi oraz zebranych danych, algorytmy mogą wykonać następujące akcje:

  • analizę danych geolokalizacyjnych (skąd piszą osoby zainteresowane Światowymi Dniami Młodzieży, które miejsca i atrakcje Krakowa są najbardziej popularne wśród pielgrzymów)
  • analizę tekstu (o czym piszą osoby zainteresowane ŚDM)
  • analizę wydźwięku (czy przeważa nastawienie pozytywnie, neutralnie, czy też negatywnie do ŚDM)
  • statystykę opisową (jak duże jest zainteresowanie ŚDM, w jakich językach piszą Polacy, które z języków, krajów, miast są najbardziej popularne)

Przykłady:

  • „Word Cloud” w kształcie lajkonika przy użyciu Jupyter Notebook
  • Tweety w różnych językach w czasie, z naniesionymi chmurami wyrażeń przy użyciu SPSS Modeler plus Jupyter Notebook

Jak to działa – opis techniczny

Dane w oryginalnym formacie (json) po pobraniu z serwisów społecznościowych są zapisywane w bazie danych Cloudant (NoSQL Cloud DB). W kolejnym kroku dane w formacie json są konwertowane do relacyjnej bazy danych (SQL) DashDB (Cloud Data Warehouse for Analytics). Zarówno Cloudant, jak i DashDB są dostępne na platformie Bluemix i łatwo integrowalne z naszą aplikacją. Na tym etapie nasze dane są już dostępne do dalszej analizy.

Platforma Bluemix oraz produkty z grupy IBM SPSS dostarczają nam szeroki zestaw narzędzi do analizy danych. W przypadku analizy danych dotyczących Światowych Dni Młodzieży zdecydowaliśmy się na użycie SPSS Modelera z Text Analytics, Apache Spark z Jupyter Notebooks oraz Node-RED na platformie Bluemix. Zamiast komponentu do analizy wydźwięku (Node-RED), możemy również użyć dedykowanego serwisu Watson Tone Analyzer. Jako język programowania wybraliśmy pythona, zarówno dla Jupyter Notebooks, jak i SPSS Modelera. Dodatkowo skorzystaliśmy z następujących bibliotek pythonowych i rozszerzeń do SPSS Modelera:

  • biblioteki pythonowe do wizualizacji: seaborn, plotly, wordcloud
  • rozszerzenia do SPSS Modelera: googleMaps
    • Zapraszamy na relację!

Zainteresował Cię nasz blog i chcesz wiedzieć więcej?

Zapisz się na nasz newsletter

Na Twój e-mail wyślemy ciekawe informacje związane z blogiem i IBM