utworzone przez Sentimenti Team | lip 4, 2019 | SentiStocks
Analiza emocji to fakt. W projekcie Sentimenti stworzyliśmy narzędzia oparte o badania językoznawcze i uczenie maszynowe. To rozwiązania służące do analizy emocji oraz monitorowania ich zmian w różnego typu publikacjach: od postów w social mediach po poważne, naukowe artykuły. Narzędzia te znajdują szereg praktycznych zastosowań: można przy ich pomocy analizować treści płynące od klientów przez fanpejdże, komunikatory i chatboty, prowadzić komunikację PR (również zapobiegać kryzysom), a nawet tworzyć i lokować bardziej trafne treści reklamowe i marketingowe. Ale narzędzia te można wykorzystywać też w sektorze finansowym. Zobaczcie, jak.
Kurs na giełdę: wiadomo jaki!
W Sentimenti postanowiliśmy sprawdzić przydatność naszych narzędzi dla sektora finansowego i wypróbować je w różnych sytuacjach. Zaczęliśmy od próby przewidywania kursów akcji na podstawie emocji zawartych w artykułach, komentarzach oraz w wypowiedziach na forach czy w portalach społecznościowych. Analiza uwzględniająca wyznaczenie natężenia 8 emocji z teorii Plutchika, pozwoliła na wskazanie pewnych wzorców zachowań inwestorów i powiązanie ich z kursami giełdowymi danych spółek.
Po przeanalizowaniu kursów wybranych przez nas 37 notowanych na GPW spółek, różnego typu wzmianek na ich temat i skorelowaniu całości danych nasze narzędzie SentiStock wyznaczyło poprawnie zmiany kursów akcji wspomnianych spółek aż w 87% przypadków; badanie to znalazło później potwierdzenie w rzeczywistości! Okazało się, że prognozowanie trendów kursów po analizie emocji w treści jest możliwe. Jak konkretnie? W Sentimenti możemy się tą wiedzą podzielić na Wasze potrzeby.
Kryzys marki na horyzoncie? Dowiecie się prędzej dzięki analizie emocji
O ile opisaną powyżej analizę można potraktować jako próbę przewidzenia przyszłości, o tyle Sentimenti stosowało już swoje narzędzia do analizy danych świadczących o nadchodzącym kryzysie ekonomicznym w firmie. Pod lupę wzięliśmy na przykład emocje związane z akcjami ORBIS S.A. pokazując, że pogłębiona analiza emocjonalności reakcji akcjonariuszy na pozornie neutralne wzmianki o kondycji spółki w prasie i mediach społecznościowych mogła zapobiec kryzysowi, a przynajmniej zwiastować jego nadejście.
Sprawdziliśmy ogólnodostępne sprawozdania finansowe ORBIS-u i zebraliśmy publikacje różnego typu oraz zmierzyliśmy wydźwięk reakcji na nie z okresu poprzedzającego kryzys sprzedażowy akcji w III kwartale 2018 r. Nasze wyniki wskazały istotny wzrost odczuć o konotacji ujemnej – smutku, złości i wstrętu. Rosnący kierunek ich natężenia znalazł potwierdzenie w skokowym spadku akcji, sugerując konkretne decyzje zakupowe czy kierunek zachowania akcjonariuszy.
Taka analiza, w połączeniu ze szczegółowymi danymi dostępnymi władzom firm jest dobrym narzędziem ostrzegawczym przed nadchodzącym kryzysem. Oczywiście, są to przykłady badania na danych z zaistniałego wcześniej, a nie z toczącego się na bieżąco kryzysu. Udowadniają one jednak sprawność SentiToola i jego przydatność do diagnozy sytuacji kryzysowych w firmach i spółkach giełdowych.
Kryzys wizerunkowy może uderzyć w całą branżę
Dużo emocji w opinii publicznej wywołał kryzys związany z aferą wokół Komisji Nadzoru Finansowego. Postanowiliśmy więc sprawdzić, czy i jak przełożył się on na zmiany w indeksach bankowych. Analizowaliśmy wzmianki z mediów i social mediów, komentarze, fora itp. podczas najważniejszych momentów kryzysu. Doniesienia medialne co do poszczególnych etapów afery znalazły odbicie w komentarzach o negatywnym wydźwięku, a więc i w nastrojach inwestorskich. Potwierdzeniem tego były niskie kursy zamknięcia indeksu WIG-Banki dla sektora w kluczowych dniach. A jednak w ogólnym rozliczeniu stabilność notowanych na giełdzie banków wygrała.
Sektor jak dotąd był odporny na takie zawirowania. Jak długo to potrwa w obliczu, gdy przepisy kształtują się dla niego niekorzystnie? Żeby móc zapobiegać kryzysom wizerunkowym w sektorze finansowym (i nie tylko), warto analizować przekaz płynący z opinii publicznej. Może się bowiem okazać, że ukryty w wypowiedziach akcjonariuszy i potencjalnych kupców sentyment ostrzeże przed zbliżającym się kryzysem. Taki monitoring to także cenne narzędzie inwestorskie!
Analiza emocji. Gdzie jeszcze narzędzia Sentimenti?
Potencjał narzędzi stworzonych przez Sentimenti wciąż rośnie, bo projekt znajduje się ciągle w fazie rozbudowy i rozwoju. Istotną z punktu widzenia usługobiorcy cechą tych narzędzi jest możliwość wyznaczenia aż 8 emocji ze skali Plutchika. Pozwalają one poznać nieco lepiej i zrozumieć emocjonalność inwestorów (szczególnie tych mniejszych), co przekłada się później na ich decyzje zakupowe. Ale inwestorzy ci nie ograniczają się wyłącznie do tradycyjnej giełdy. Coraz chętniej sięgają po transakcje na giełdach kryptowalut, narzędzia Sentimenti mogą więc i tu znaleźć zastosowanie.
utworzone przez Sentimenti Team | cze 27, 2019 | SentiBrand, Styl życia
Czy negatywny sentyment świadczy o porażce marki HBO? Niekoniecznie. Pokazujemy jak poruszać się w gąszczu danych, aby ocenić reakcje widzów na serial wywołujący swoim tematem dużo smutku i wstrętu.
Na początku maja HBO wypuściło miniserial Czarnobyl, który okazał się kolejnym hitem tej platformy, a dla widzów czymś w rodzaju zadośćuczynienia za 8. sezon Gry o tron.
Robiąc analizę sentymentu i emocji wzmianek o Czarnobylu spodziewaliśmy się wielu pozytywnych emocji – miniserial ma bardzo entuzjastyczne opinie. Wiedzieliśmy jednak także, że pojawią się smutek oraz wstręt – pisząc o tej produkcji internauci na pewno wspomną o chorobie popromiennej i jej strasznych skutkach, będą też źli na niekompetencję zarządu elektrowni.
Odcinek po odcinku
Kolejne części serialu ukazywały się co tydzień, i wielu polskich widzów oglądało je właśnie w tym tempie. Jednocześnie stopniowo dołączało do nich wiele nowych osób – więc emocje wyrażane we wzmiankach publikowanych w okolicach premiery drugiego odcinka mogą dotyczyć także pierwszego. Zmiany emocjonalnej temperatury tych rozmów są dla nas wciąż bardzo interesujące.
Powyższy wykres pokazuje wyniki analizy emocji wyrażanych we wzmiankach wrzuconych do sieci w dniu premiery i przez dwa kolejne. Wybraliśmy je, bo to wtedy najwięcej pisano o serialu. Wyniki pokazane wyżej to porównanie każdego odcinka do średniej z 15 interesujących nas dni w sumie.

Jak pokazuje wykres, podczas emisji serialu mieliśmy do czynienia z trendem narastającym w przypadku emocji wstrętu. Czy to niezadowolenie ze scenariusza? Niekoniecznie, zwłaszcza, że nie towarzyszą mu inne negatywne emocje – na przykład złość jest obecna we wzmiankach, ale w niskim natężeniu, nie rośnie też tak gwałtownie jak wstręt.
Wstręt i polityka w słowach
Żeby dowiedzieć się, o czym mówiono, jakim tematom towarzyszył wzrost natężenia wstrętu, sprawdziliśmy, jakie słowa pojawiają się w rozmowach o ostatnim odcinku Czarnobyla istotnie częściej niż w pozostałych badanych przez nas okresach. Zastosowaliśmy metodę znaną z językoznawstwa korpusowego: analizę słów kluczowych (keyword analysis).
Okazuje się, że powodem negatywnych reakcji był nie tyle sam serial, ile polityczne skojarzenia z nim związane. W tych wzmiankach pojawiają się (znacznie częściej niż dotąd) słowa “PiS”, “głosować”, “państwo”. Poza tym sporo mówiono o bezpieczeństwie wspominając o “odzieży ochronnej” czy “rękawiczkach” (i skutkach nienoszenia ich). Bardzo ważna dla tego etapu wspólnego przeżywania Czarnobyla stała się wiedza. Dyskusje po zakończeniu serialu ewidentnie brały na warsztat kwestie świadomości tego, jak niebezpieczne może być promieniowanie oraz (co świadczy o sukcesie przesłania serialu) kłamstwa władz i propaganda, więc kontrolowanie “wiedzy” tak, by była dostępna jedynie dla wybranych.
O czym mówiono wcześniej?
Zaraz po premierze serialu w dyskusjach pojawiło się kilka wyraźnych wątków. Zastanawiano się, czy warto omawiać temat osób “czarnoskórych” lub wręcz “murzynów” – wielkich nieobecnych produkcji, których w 1986 roku w Prypeci zwyczajnie nie było. Pojawiały się także (znacznie częściej niż w kolejnych tygodniach) słowa “reaktor”, “Rosjanin” i “szpieg”. Sporo rozmawiano także o “rowerach” i “rowerzystach”.
Drugi odcinek spowodował wysyp reklam proponujących zakładanie “darmowych kont użytkowników” w celu umiarkowanie legalnego “pobrania” coraz sławniejszej produkcji. Spam jest przekleństwem wielu publicznych dyskusji, w tym wypadku jego pojawienie się świadczy także o finansowym sukcesie produkcji HBO. Sami widzowie omawiali za to postać jasnowidza “Jackowskiego” i jego ostrzeżenia o nadchodzącym “drugim Czarnobylu”.
Odcinki 3. i 4. wywołały rozmowy o “ekologii” i “ekologach”. Bardzo często pojawiało się w nich także słowo “dziecko”. Chodziło tu o losy mieszkańców Prypeci, na przykład Ludmiły, ciężarnej ofiary wybuchu, ale także nasze własne wspomnienia. “Już za dzieciaka” interesowaliśmy się tym tematem, a niektórzy z nas pamiętali swoje zabawy na dworze w maju 1986. Wiele osób wspomniało, że “poleca” cały serial – ale niekoniecznie osobom “wrażliwym”.
Odcinki na tle całego miesiąca
Pisząc nasz przewodnik po analizie emocji wspomnieliśmy, że warto mieć średnią lub szersze tło, do którego porównamy wyniki pomiaru emocji podstawowych. Pozwala nam ono ocenić nie tylko, jakie emocje pojawiają się w analizowanych tekstach, ale także, czy różnią się od tego, co uznamy za przeciętny tekst o charakterystycznej dla danego tematu temperaturze emocjonalnej. Jak wybrać dane do porównania?
Do naszej analizy emocji wybraliśmy jedynie trzy dni rozmów o każdym kolejnym odcinku – a przecież nowe wzmianki pojawiały się codziennie. O Czarnobylu pisano przez cały maj. Wcześniej pokazaliśmy każdy odcinek na tle pozostałych – w wybranych dniach. Żeby sprawdzić, na ile miarodajna może być taka fragmentaryczna analiza skontrolowaliśmy, jak 15 przeanalizowanych przez nas dni wygląda na tle całego miesiąca.

Jak widać w tym zestawieniu, każdy kolejny odcinek otaczały rozmowy o coraz większym natężeniu wstrętu (z wyjątkiem trzeciego), jednak natężenie tej emocji w interesujących nas trzech dniach zawsze było niższe niż w pozostałych. Majowe rozmowy o Czarnobylu, serialu i nie tylko, charakteryzowały się podbitym wstrętem i strachem. Z kolei dni premier i kolejne miały w porównaniu z tym tłem podwyższone natężenie radości, a czasami także zaufania – pochodzących z pochwał produkcji HBO.
Które porównanie jest poprawne?
Odpowiedź na pytanie zadane w tytule tego rozdziału jest prosta: to zależy. Gdy interesuje nas przede wszystkim moment najbardziej intensywnej dyskusji – wówczas lepiej było skupić się w analizie Czarnobyla na dniu premiery odcinka i jednym lub dwóch kolejnych. To wtedy najwięcej pisano, pojawiali się różni rozmówcy i głosy.
Z kolei jeśli zależy nam na odniesieniu momentów natężonej dyskusji do jej całości – kiedy serial nadganiali kolejni widzowie czasem coś pisząc o swoich wrażeniach, warto spojrzeć na całość miesiąca. Podobnie będzie z każdym monitoringiem marki – może nas interesować wysyp wzmianek zaraz po jakimś działaniu firmy, ale także porównanie tego okresu do następującego po nim stopniowego wyciszania się rozmów.
Hejterzy są słyszalni poza intensywną dyskusją?
Nasze wyniki pokazują dość jasno, że o ile reakcje na kolejne odcinki się zmieniały, zawsze były one bardziej pozytywne zaraz po premierze niż podczas całego tygodnia. A przecież mówimy o wzmiankach o tym samym serialu.
Czyżby osoby niezadowolone, skłonne do katastroficznych wizji, dzielące się smutnymi wnioskami były słyszalne dopiero, gdy spada intensywność rozmowy? A może smutne refleksje nachodzą nas dopiero po kilku dniach po obejrzeniu odcinka?
Text mining i emocje
Analiza słów kluczowych pokazała nam opiniotwórczy potencjał produkcji HBO. Komentujący pisali nie tylko o treści serialu, ale o swoich wspomnieniach, a wreszcie aktualnej sytuacji politycznej lub obawach co do jej rozwoju.
Porównanie wyników analizy emocji i słów kluczowych dało nam lepszy wgląd w to, co konkretnie omawiają internauci przy okazji Czarnobyla – a więc skąd biorą się ich emocje. Jednocześnie jedno i drugie jest przykładem analizy tekstu i wydobywania z niego wiedzy, text mining, niezbędnego w epoce big and small data.
utworzone przez Sentimenti Team | cze 6, 2019 | SentiBrand
Emotywne pozycjonowanie reklam, czyli targetowanie reklam wg emocji od niedawna nabrało nowego wymiaru. Okazało się, że komunikat można oprzeć nie tylko o kontekst, analizę ruchu na stronie, badania demograficzne, płeć i wiek ankietowanych, ale po dane sięgnąć też niemal w głąb ich serc. Jak to możliwe? Wystarczy rozpoznać ich emocje.
Emotywne pozycjonowanie reklam i przykład: New York Times
W 2018 roku „New York Times” przeprowadził badania emocji swoich czytelników. Oparto je o samouczące się algorytmy i połączono z analizą zebranych od czytelników opinii o ich odczuciach po przeczytaniu treści konkretnych artykułów. W wyniku tych badań powstało narzędzie do przewidywania emocji, wskazujące u czytelników m.in. radość, smutek, nadzieję oraz 15 innych emocji.
Nie zasypiając gruszek w popiele, postanowiono zaprząc je do przewidywania emocji, które czytelnicy NYT mogą potencjalnie przeżyć podczas czytania następnych publikacji i jednocześnie przystąpiono od razu do sprzedaży powierzchni reklamowej. Oferowano ją właścicielom produktów o charakterze emocjonalnym zbliżonym do zawartych w danych artykułach emocjach. Możliwości okazały się imponujące: narzędzie pozwoliło zbadać i stworzyć emocjonalną zawartość danego artykułu i lepiej dopasować do niego komunikat marketingowy.
Tak emocjonalnie stargetowana i odpowiednio umieszczona pośród innych treść marketingowa uzyskała nawet do 80% lepsze wyniki, niż klasyczne targetowanie behawioralne (średnio o 40%). Narzędzie umożliwiło nawet separację treści o negatywnym czy niepokojącym nacechowaniu tak, by nie dodawać do nich przekazów reklamowych, które co prawda pasowałyby do treści czy profilu czytelnika – ale zupełnie nie idą w parze z wydźwiękiem tekstu.
Targetowanie emocjami – reklamy emocjonalne: perspektywy
Agorytm można zastosować nie tylko do zawartych w tym serwisie artykułów, ale i wiadomości i publikacji innego typu. Dlatego otworzyło to przed twórcami kampanii całkiem nowe pole do zagospodarowania. Zaowocowało to 50 kampaniami i ponad 30 milionami zebranych odczuć, sentymentów i emocji. Przekazy reklamowe najczęściej lokowano w sąsiedztwie treści rozrywkowych lub dotyczących społecznej odpowiedzialności biznesu.
Co ciekawe, analogiczne badania prowadzone były również w innych redakcjach, w tym w „USA Today” czy „The Daily Beast”. Podstawą analizy były tam frazy (słowa kluczowe) i powiązane z ich znaczeniami emocje oraz próba odpowiedzenia na pytanie, w jakim nastroju są aktualni czytelnicy danego tekstu na podstawie analizy behawioralnej ich działania na stronie serwisu oraz częstości powracania do określonych, nacechowanych emocjonalnie treści. Badania „USA Today” pokazały, że czytelnicy nie ograniczają się wyłącznie do pozytywnych wiadomości, a czytają wszystko. Oznacza to możliwość kierowania do nich przekazu nie tylko w zbliżonym do reszty treści kontekście, ale i gdy czytelnicy są w podobnym do kontekstu treści nastroju. Dlatego taka metoda pozwala skuteczniej tworzyć content do potrzeb lepszej komunikacji marek. Z kolei rozwiązanie „The Daily Beast”, zamiast próbować odgadywać nastroje wskazuje, gdzie na stronie czytelnicy portalu spędzą najwięcej czasu; w tych popularnych miejscach stara się kontekstowo umieścić przekaz marketingowy. Wszystko w oparciu o emocje pozytywne i emocje negatywne w reklamie.
Przyszłość rynku reklamowego?
Opisane działania oparte o analizę danych, algorytmy i sztuczną inteligencję zaczynają być przyszłością rynku reklamowego i public relations. Jak postrzega te nowe rozwiązania rynek zleceniodawców? Wydawałoby się, że dostając tak precyzyjne narzędzia do targetowania odbiorców nie trzeba się już o nic więcej martwić. A jednak opinie są podzielone. Oparcie kampanii wyłącznie na takiej „kupionej emocjonalności” jest według części ekspertów jednowymiarowe, ogranicza i zawęża pole działania, powinno być więc wiązane z innymi metodami komunikacji. Z drugiej strony to doskonałe rozwiązanie dla firm poszukujących bezpiecznych rozwiązań, doprecyzowujących swój przekaz marketingowy i kierujących go do najbardziej zdecydowanych na zakup klientów.
Sentimenti i reklama emocjonalna. Identyfikacja emocji w reklamie on-line
Skoro New York Times uwzględnia na swoich stronach pozycjonowanie reklam emocjami, to rozwiązanie musi działać i być skuteczne. Pod uwagę bierze się pozytywne i negatywne emocje. A czy da się zastosować podobne mechanizmy w języku polskim?

Dotąd nie było to wcale oczywiste. Algorytmy automatycznego przetwarzania naszego języka zostały udoskonalone na tyle, że świetnie sprawdzają się podczas analizy tekstów. Ale co z emocjami w nich wyrażanymi? Nie istniała też dotychczas baza danych o słowach, frazach czy nawet całych tekstach pisanych po polsku. Dlatego stworzył ją dopiero zespół Sentimenti. Baza ta powstawała w trakcie badań, o których opowiadamy na blogu i naukowych konferencjach. Okazało się, że z dobrymi danymi możliwe jest stworzenie efektywnego systemu analizy sentymentu i emocji, a z nim – pozycjonowanie reklam.
Interia Emotions – różne emocje, jeden cel
Obecnie jesteśmy na zbliżonym etapie do tego, w którym był New York Times około rok temu. Dysponujemy aplikacją sprawnie analizującą tekst i zawarte w nim emocje. Rozpoczęliśmy współpracę z portalem Interia – tworzymy emotywną mapę jego serwisów tematycznych. Stąd już tylko krok do uwzględniania wydźwięku artykułu w pozycjonowaniu reklam.
Co bardzo ważne, emotywne pozycjonowanie reklam nie oznacza kolejnych obowiązków dla dziennikarzy. Nie będziemy nikomu mówić, jakie emocje ma wyrażać, bo w praktyce każda z nich stwarza odpowiednie środowisko dla reklam. Tekst ma smutną wymowę? Najlepiej umieścić w nim reklamę o ekologicznym wydźwięku. Wyraża strach? To dobry kontekst na sparowanie artykułu z reklamą ubezpieczeń lub suplementów diety.

Kolejnym krokiem projektu Interia Emotions będzie zbadanie, jak dokładnie emocje w tekście reagują z reklamami. Dlatego kiedy to sprawdzimy, emotywne i skuteczne pozycjonowanie reklam stanie się faktem. Takie narzędzie z pewnością okaże się przydatne. Reklamy pozycjonowane na podstawie treści artykułów (a nie śledzenia aktywności internautów) są dla nich mniej drażniące.

DOWIEDZ SIĘ WIĘCEJ:
utworzone przez Sentimenti Team | maj 30, 2019 | Kategoryzacja komentarzy, Okiem badacza
Sposób w jaki ludzie przekazują sobie emocje przez lata nie poddawał się algorytmizacji, czyli opisowi zrozumiałemu dla komputerów. Wydawało się, że maszyny będą sobie radzić doskonale z liczeniem, zapamiętywaniem, może nawet z rezerwowaniem stolików w restauracji czy biletów lotniczych – ale sfera “serca” pozostanie domeną czysto ludzką.
Tak rzeczywiście się działo, kiedy próbowaliśmy wyjaśniać komputerom “krok po kroku” jak rozumieć emocje. Algorytmy regułowe stawały się bezradne przy każdej wieloznaczności czy zmianie struktury wypowiedzi.
Rewolucyjne podejście do analizy emocji. Rola maszyny
Od kilku lat do analizy tekstu wkraczają algorytmy uczenia maszynowego (ang. machine learning), w tym ich najnowsza wersja – sieci neuronowe (ang. neural networks), które uczą się “tak jak małe dziecko”, czyli przez oglądanie przykładów. To zupełnie zmieniło sytuację – teraz, jeśli mamy dobre dane i dobry algorytm, możemy nauczyć komputer prawie wszystkiego.
Zespół SENTIMENTI przygotował publikację naukową dotyczącą tego właśnie tematu, która została zaprezentowana podczas międzynarodowej konferencji Language Technology Conference. Publikacji przewodniczy dr Jan Kocoń z Politechniki Wrocławskiej, a jej tytuł to “Recognition of emotions, valence and arousal in large-scale multi-domain text reviews”. Pełna treść pracy będzie wkrótce dostępna w zbiorze pokonferencyjnym, natomiast tutaj prezentujemy najważniejsze wnioski z naszych badań.

Dr Jan Kocoń prezentuje wyniki badań SENTIMENTI na LTC 2019
Uczenie maszynowe w Sentimenti
Zacznijmy od podstawowych kroków uczenia maszynowego dla analizy emocji w tekście:
- Anotacja – przygotowanie zbioru uczącego i testowego (ang. train and test set).
- Wybór algorytmu uczącego (np. SVM, BiLSTM i in.)
- Dobór zbioru cech (ręczny lub automatyczny)
- Trening i dostrajanie sieci neuronowej.
- Testowanie efektywności otrzymanego modelu (miara F-score lub inna).
Co to znaczy, że sieci neuronowe “działają jak ludzki mózg”? Tak jak niemowlę, sieć zaczyna z pewną gotową do uczenia się strukturą, ale bez żadnej wiedzy. Musi zobaczyć wiele, wiele przykładów, aby “zrozumieć” jak działają różne zjawiska (skala liczebności tych przykładów zaczyna się od dziesiątek lub setek tysięcy). Nauczona sieć potrafi samodzielnie analizować nowe, wcześniej nie widziane przykłady, korzystając z rozpoznanych wcześniej cech.

Jakich informacji potrzebuje sieć neuronowa, aby nauczyć się rozpoznawać emocje? Tak jak dziecko, potrzebuje informacji zwrotnej o tym co jest, a co nie jest prawidłowe. Ten rodzaj uczenia maszynowego nazywamy uczeniem nadzorowanym (ang. supervised machine learning). Dla danych językowych, sieć potrzebuje szeregu anotacji, czyli przykładów o postaci np.:
- przepiękny = szczęście 0,8
- znalezisko = zaskoczenie 0,7
- nieuczciwość = złość 0,4
Najważniejsze są nie maszyny, a dane
Jak jednak zdobyć dziesiątki tysięcy takich przykładów potrzebnych do nauczenia sieci neuronowych? I co zrobić ze słowami, które będą wzbudzały różne emocje u różnych osób? Jeśli słowo “kolejka górska” wzbudza we mnie radość, a w tobie strach, to czyją wersję powinniśmy przekazać naszemu “neuronowemu dziecku”?
Problem dobrej jakości danych do uczenia maszynowego był bolączką wielu poprzednich projektów uczenia maszynowego, dlatego w Sentimenti zaangażowaliśmy zespół doświadczonych psychologów z LOBI PAN i przeprowadziliśmy największe w Polsce badania emocji w słowach. Zapytaliśmy ponad 20 tys. osób o ponad 30tys. słów i 7 tys. tekstów, z których każdy był oceniony ok. 25 -50 razy (więcej szczegółów na naszym blogu link). Mamy dzięki temu najbardziej reprezentatywną informację o 8 emocjach, jakie poszczególne słowa i teksty wzbudzają u Polek i Polaków.
Lepsza automatyczna analiza emocji w tekście
Stworzenie dobrej bazy danych pozwoliło nam przejść do kolejnego kroku, czyli wyboru algorytmu uczenia maszynowego, który najlepiej podoła zadaniu “odgadywania” emocji w tekście. Przetestowaliśmy następujące rozwiązania, które “nakarmiliśmy” naszymi danymi:
- word embeddings i word2vec (czyli metodę przekształcania słów i tekstów na postać matematyczną);
- fastText (jako podstawową metodę, punkt odniesienia);
- BiLSTM (ang. bidirectional long-short-term memory neural network, czyli dwukierunkowe sieci oparte na krótko- i długoterminowej pamięci);
Nasze algorytmy rozpoznawały sentyment trafnie w 89%, natomiast emocje w ok. 80-85% (dla wybranej grupy tekstów). Szczegółowe miary i informacje o dziedzinach, a także wiele pomiętych tutaj szczegółów badania, można znaleźć w naszej publikacji na stronie LTC.
Dzięki temu badaniu mamy dostępne modele, które rozpoznają emocje szybciej niż człowiek – są w stanie przetworzyć w ciągu kilku minut miliony tekstów.
W dziale B+R Sentimenti ciągle pracujemy nad nowymi rozwiązaniami, dlatego już teraz eksperymentujemy z technologiami, które zrewolucjonizowały świat NLP (ang. Natural Language Processing) w 2018 roku, takimi jak BERT i ELMo, ciągle rozwijamy też własne modele i rozwiązania dla lepszego zrozumienia emocji w języku.
Współpraca przy tej notce: dr Barbara Konat, kierowniczka badawcza w SENTIMENTI
utworzone przez Sentimenti Team | maj 23, 2019 | Kategoryzacja komentarzy, Polityka i społeczeństwo, Styl życia
Najwięcej wstrętu wyrażają tytuły Wolności 24 i Do Rzeczy. Z kolei pozytywne emocje najczęściej pojawiają się w nagłówkach portali finansowych, a Niezależna i Oko Press wcale tak bardzo się od siebie nie różnią…
Tytuł – pierwszy krok w komunikacji z czytelnikiem
Tytuł to pierwsze zetknięcie się odbiorcy z tekstem. Albo go zainteresuje i skłoni do przeczytania treści, albo nie wydarzy się nic więcej. To jasne, że wobec tego muszą się w nim pojawiać informacje i emocje, które najskuteczniej przyciągną czytelnika.
Jakie emocje pojawiały się w ostatnim miesiącu w tytułach najbardziej znanych polskich portali informacyjnych? Czy te prawicowe lub lewicowe przemawiają do czytelnika inaczej zanim zacznie czytać dłuższy tekst? Które są najbardziej pesymistyczne? Epatują złością lub strachem?
Polskie portale informacyjne
Przeanalizowaliśmy 25 portali, w tym wielkich dostawców treści (Interia, Onet, Wirtualna Polska), gazety internetowe (Dziennik, Rzeczpospolita, Wyborcza), portale finansowe (Money.pl i Bankier.pl), strony telewizji informacyjnych (TVP Info, TVN 24). Zebraliśmy tytuły pojawiające się na ich głównych stronach lub (w przypadku największych dostawców) na podstronie o tematyce fakty czy newsy.
Analiza sentymentu tytułów artykułów
Tytuł to jedynie kilka słów, które nie tylko zapowiadają szerszą treść, ale w dodatku pojawiają się w towarzystwie innych fraz, czasem bardzo różnych. To pierwsze wskazówki o nastroju tych treści, z którymi zetknie się czytelnik. Stanowią zatem punkt wyjścia dla jego dalszej interakcji z artykułami.

Analiza zbioru nagłówków publikowanych w portalu w danym momencie pozwoli nam określić, jaki nastrój odczuwałaby osoba, która w tym czasie w miarę regularnie przeglądałaby poszczególne portale. Uzyskany wynik pokaże nam, jakie emocje są charakterystycznych dla danego portalu. Na potrzeby tego badania przeanalizowaliśmy tytuły opublikowane na wybranych stronach od 15 kwietnia.
Dla ułatwienia posortowaliśmy portale od wyrażających w tytułach najwięcej pozytywnego sentymentu po te najbardziej negatywne. “Najprzyjemniej” prezentują się finansowe, za nimi Wirtualne Media (piszące sporo o popkulturze), potem Radio Zet i Dziennik. Po drugiej stronie rankingu znajdują się Wolność 24, Fakty Interii, Polsat News czy Do Rzeczy.
Jak można od razu zauważyć, portale nie rozkładają się pod względem sentymentu według “partyjnej” linii. Niezależna i Oko Press są do siebie w tym ujęciu bardzo podobne. TVP Info sąsiaduje z Na Temat.
Emocje w tytułach artykułów
Tym razem chcemy skupić się na 8 skrajnych przypadkach (wg pokazanego wcześniej sentymentu), chociaż z puli odejmiemy portale finansowe.
Emocje w tytułach poszczególnych portali porównano do średniej, więc wykres pokazuje, o jaki procent różnią się od przeciętnego wyniku.

emocje w tytułach polskich portali informacyjnych
Po prawej stronie wykresu znajdują się portale o przewadze negatywnego sentymentu w tytułach. Jak widać, emocjami decydującymi o takim wydźwięku są strach i wstręt. Pojawia się także sporo złości, w podobnym natężeniu w przypadku Wolności 24, Faktów Interii i Do Rzeczy. Pozytywna połowa wykresu opiera się na radości, zaufaniu oraz emocjach uznawanych w modelu Plutchika za ambiwalentne: oczekiwaniu i zaskoczeniu. Te ostatnie, co ciekawe, wydają się mieć spory udział w tytułach publikowanych przez portale z drugiego końca spektrum sentymentu, zwłaszcza Wirtualne Media czy Dziennik.
Relacje między emocjami
Ważną częścią teorii Plutchika są tzw. diady. Dwie sąsiadujące ze sobą emocje (np. radość i zaufanie) tworzą harmonijną parę, miłość. Z kolei przeciwstawne tworzą konflikt, czasem także stanowiący złożone uczucie (np. smutek i radość naraz dają nostalgię). Przeciwstawne pary w tym modelu niekoniecznie opierają się na różnicy pozytywna-negatywna emocja. Na przykład wstręt i zaufanie tworzą diadę opartą na różnicy unikanie-dążenie, podobnie jak złość i strach. Jednak żeby mówić o diadzie zgodnie z założeniami modelu, dwie emocje muszą wystąpić w tekście jednocześnie, w tym samym zdaniu czy wręcz słowie. W tytułach gazetowych, nawet na stronach portali, niekoniecznie pojawiają się w taki sposób. Za to już zmiany proporcji w natężeniu sparowanych lub “skonfliktowanych” emocji pozwalają nam pokazać do pewnego stopnia, jaką retoryką posługują się dane redakcje.

Wstręt i zaufanie w tytułach polskich portali informacyjnych
Najwięcej wstrętu wyrażają tytuły portali Wolność 24 i Do Rzeczy. Co ważne, wysokie natężenie wstrętu niekoniecznie wiąże się ze znikaniem zaufania z tytułów danego portalu. Większość z przebadanych przez nas dostawców treści nie różni się znacząco pod względem natężenia tej emocji, jedynie Wirtualne Media, portale finansowe, Gazeta.pl czy W Polityce posługują się tą emocją częściej niż pozostałe.
Jak portale informacyjne komunikują się przez tytuły artykułów
Z analizy sentymentu i emocji w tytułach artykułów publikowanych na poczytnych portalach wyłania się obraz, którego się nie spodziewaliśmy. Portale różnią się, ale w poprzek ideologicznych podziałów.
Gazeta.pl i Rzeczpospolita są do siebie podobne pod względem sentymentu. Oko Press wyraża najwięcej złości ze wszystkich portali, a zaraz za nim jest Do Rzeczy. Z kolei w strachu przodują Wiadomości WP.pl, Wolność 24 i Fakty Interii. Wolność wydaje się tu najbardziej konsekwentna w tonie wypowiedzi kierowanych do odbiorcy, bazuje zawsze na negatywnych emocjach. Podobnie konsekwentne, choć w stronę pozytywnych tonów, są portale finansowe.
Jak widać, portale mogą różnić się też wielkością i częstością publikowania, ale być do siebie podobne pod względem wydźwięku tytułów. Co oczywiście nie znaczy, że podobieństwa dotyczą także emocjonalnego tonu artykułów – to musimy jeszcze sprawdzić
Portale i gazety internetowe
Wyniki naszego badania pokazały jeszcze coś: tytuł nie musi wyrażać negatywnych emocji, żeby pojawić się na stronie głównej ważnego dostawcy treści. Największe portale, Interia, WP czy Onet, uplasowały się w naszym rankingu po stronie przewagi negatywnego sentymentu, ale portale gazetowe można było znaleźć w różnych miejscach całego spektrum – niezależnie od przypisywanej im orientacji politycznej. Być może właśnie ten wynik najlepiej ilustruje różnice pomiędzy stylami i retorykami panującymi w różnych obszarach branży informacyjnej.