Zaznacz stronę
Sentimenti wkracza w 2019

Sentimenti wkracza w 2019

Cała ekipa skupiona wokół projektu Sentimenti rozmawia ze sobą przynajmniej raz na tydzień, a co miesiąc podsumowujemy kolejne sprinty (pracujemy w miesięcznym harmonogramie i metodologii scrum). Większość naszych spotkań odbywamy zdalnie, ale od czasu do czasu organizujemy takie, na którym wreszcie spotykamy się na żywo. W tym tygodniu w naszym poznańskim biurze omówiliśmy efekty prac z ostatniego kwartału i plany na kolejny rok. Jesteśmy w przełomowym momencie, wypracowaliśmy produkt gotowy do puszczenia w świat, więc z dwóch filarów R&D zaczynamy wreszcie stawać pewniej na tym biznesowym. Będziemy rozwijać SentiToola i EmoToola, ale myślimy już też o kolejnych projektach badawczo-rozwojowych.

Szykują się dla nas spore zmiany, bo dotychczasowy biznesplan powoli się kończy. Zwracają się do nas nowi klienci, rozmawiamy z zainteresowanymi, pokazujemy kolejne funkcjonalności SentiToola. Wraz ze wzrostem naszej organizacji rozpoczęto prace nad wprowadzeniem – dla osób zaangażowanych w projekcie Sentimenti – programu pozwalającego na kapitałową partycypację w jego efektach.

Zespół Sentimenti, od lewej: Jan Kocoń, Katarzyna Klessa, Grzegorz Stefański, Małgorzata Wierzba, Agnieszka Czoska, Konrad Juszczyk, Dariusz Gall, Damian Grimling i Maciej Piasecki

Sukcesy projektu

SentiTool był najważniejszym tematem naszego spotkania. Rozwijamy go nie tylko dokładając kolejne rozwiązania techniczne, ale także gromadząc wiedzę. Właśnie kończy się kolejne z naszych badań, prowadzona we współpracy z panelem Ariadna „ewaluacja emocjonalna” kilkudziesięciu tysięcy polskich słów. Wyniki naszych analiz sentymentu i emocji w tekstach staną się dzięki nim jeszcze trafniejsze, bardziej odpowiadające prawdziwym reakcjom ludzi na to, co czytają. Jednocześnie przygotowaliśmy już kolejne badanie, którego uczestnicy będą oceniać wydźwięk dłuższych tekstów. Niektóre z nich zawierają emotikony, więc pogłębimy naszą znajomość tej “pisanej intonacji”, której zaczęliśmy się przyglądać już kilka miesięcy temu.

Etyka w badaniu emocji

Poruszyliśmy też temat, który wyłonił się w naszych rozmowach niedawno. Zajmowanie się emocjami wymaga od nas nie tylko rzetelności, ale także etycznego postępowania. Wiemy, że SentiTool może przeanalizować każdy tekst na dowolny temat. Jednocześnie uważamy, że nie powinniśmy brać na warsztat osobistych tragedii, nawet szeroko dyskutowanych w mediach. Analizy emocji związanych z żałobą nie będą przez nas publikowane. Zastanawialiśmy się także, jakie stanowisko przyjąć w stosunku do tak aktualnych zjawisk jak hejt czy mowa nienawiści, zwłaszcza że jednym z flagowych celów SentiToola jest wykrywanie potencjalnych konfliktów między rozmówcami.

Plany na przyszłość

Chcemy zrobić coś naprawdę wielkiego. Przygotowujemy się do otwarcia kolejnych projektów biznesowo-naukowych. Nie możemy póki co zdradzić szczegółów, ale pogłębimy i poszerzymy SentiToola, może stworzymy kolejne narzędzia do jeszcze bardziej zaawansowanej analizy emocji w tekście.

Z bliższych planów – dodamy kolejne funkcjonalności do naszych narzędzi, żeby powoli wyłaniała się z nich całość, którą będzie można oferować jako aplikację SaaS. W międzyczasie sprzedajemy usługi – przeprowadzane przez nas analizy emocji, raporty i interpretacje (np. podpowiedzi, jaki tekst ma najlepszy efekt na odbiorcę, wnioski z monitoringu mediów społecznościowych). Szykujemy także publikacje naukowe i popularnonaukowe opisujące wyniki naszych badań.

Chwalimy się koszulką Sentimenti podczas spotkania w poznańskim biurze projektu

Co robią narzędzia Sentimenti? Opowiada dr Jan Kocoń

Co robią narzędzia Sentimenti? Opowiada dr Jan Kocoń

Dr Jan Kocoń jest inżynierem języka naturalnego – to on odpowiada za uczenie maszynowe zamknięte w SentiToolu, naszym narzędziu do analizy emocji w tekście. Koordynuje prace zespołu językoznawczego, integruje poszczególne elementy narzędzia, ściśle współpracuje z zespołem informatycznym.

Kiedy masz komuś pierwszy raz opowiedzieć o Sentimenti i naszych narzędziach, co mówisz najpierw?

Sentimenti jest projektem, w którym zajmujemy się analizą emocji w tekście. W odróżnieniu od rozwiązań konkurencji, w których rozpoznaje się wyłącznie wydźwięk tekstu (pozytywny, neutralny, negatywny), nasze narzędzia są w stanie zrozumieć tekst, przypisać wyrazom w tekście konkretne znaczenia oraz emocje, jakie ludzie odczuwają w związku z tymi znaczeniami. Emocje te stanowią z kolei bazę wiedzy dla mechanizmu uczenia maszynowego, który dokonuje automatycznego rozpoznawania emocji na poziomie zdań oraz całego tekstu.

Co to znaczy, że analizujemy emocje w tekście?

W badaniach prowadzonych w projekcie zaadaptowaliśmy model Plutchika, obejmujący osiem emocji podstawowych: radość, smutek, zaufanie, wstręt, oczekiwanie, strach, zaskoczenie oraz złość. Jesteśmy w stanie oszacować, w jakim stopniu te emocje są wyrażone w tekście.

Skąd wiemy, jakie emocje ludzie czują?

Baza wiedzy, która jest pomocą dla naszego projektu, obejmuje ponad 30000 znaczeń słów, dla których 20000 unikatowych respondentów przypisuje oceny dotyczące wydźwięku oraz emocji. Mówimy tu o “znaczeniach”, a nie “słowach”, bo wyrazy są wieloznaczne, na przykład “ciemny” znaczy co innego w “ciemny błękit” lub “ciemny lud” i tylko w tym drugim przypadku niesie emocje. Każde znaczenie docelowo otrzyma 50 ocen od różnych osób. Dzięki temu wiemy, jakie odczucia wywołują określone znaczenia w tekście. Jednak emocja tekstu nie jest prostą sumą emocji przypisanych do znaczeń występujących w tym tekście…

Co jeszcze sprawia, że narzędzia do analizy emocji w tekście działają?

Z pomocą przychodzą nam dwie rzeczy. Pierwszą z nich jest nasza gigantyczna baza opinii z przyporządkowanym wydźwiękiem, które pochodzą z różnych dziedzin: podróże, medycyna, produkty i wiele innych. Mamy ponad 10 milionów takich tekstów, co stanowi doskonałe źródło informacji o ogólnym odczuciu twórcy tekstu. Jednak aby stwierdzić, jakie emocje dany tekst wywołuje u czytelnika, prowadzimy także własne badania, analogiczne od badań prowadzonych na pojedynczych znaczeniach. Przedmiotem tych badań są tym razem teksty. Osoby ankietowane przypisują im emocje podstawowe, dokładnie tak samo jak znaczeniom słów. Drugi filar naszego narzędzia to kombinacja wielu metod uczenia maszynowego. Eksperci od przetwarzania języka naturalnego dostarczają nam narzędzi do analizy tekstu na poziomie składniowym oraz semantycznym, dodatkowo tworzą reguły analizy znaczeń w kontekście jak: negacja, przypuszczenie, osłabienie lub wzmocnienie wydźwięku itp. Jest to dodatkowa pomoc dla metod automatycznych, na przykład głębokich sieci neuronowych, za pomocą których odbywa się właściwe wnioskowanie na temat emocji w tekście.

Do czego może się według ciebie przydać automatyczna analiz emocji?

Docelowo widzę wiele zastosowań dla naszych narzędzi. Pierwszy obszar obejmuje rynek reklam wyświetlanych w kontekście artykułów internetowych i dopasowywanie ich do emocji, jakie tekst publikacji wzbudza u czytelników. Przykładowo w smutnym tekście mogłaby pojawić się reklama towarzystwa ubezpieczeniowego, a w radosnym – reklama wycieczki. Kolejnym obszarem jest monitoring marki, czyli analizowanie jak klienci firm piszą w Internecie o danej firmie, jej produktach, jakie emocje im przy tym towarzyszą. Kolejne interesujące obszary to sortowanie skarg mailowych od klientów względem emocji w nich zawartych, detekcja konfliktów rodzących się w korespondencji pracowników, wykrywanie kryzysów w mediach społecznościowych, a nawet możliwość diagnozowania chorób psychicznych – potencjał jest naprawdę ogromny.

Co jeszcze planujesz zrobić w Sentimenti?

Póki co, jest gotowy prototyp z prostą analizą tekstu na poziomie znaczeń oraz z analizą wydźwięku z wykorzystaniem naszych wielkich zasobów opinii. Obecnie we Wrocławskim zespole Sentimenti zarządzam budową mechanizmu uczenia maszynowego, w którym możliwe będzie zagregowanie zarówno informacji z bazy wiedzy dotyczącej znaczeń, jak i informacji pochodzących z potoku przetwarzania języka naturalnego. Wciąż spływają nam nowe dane o odczuciach osób czytających teksty, stanowiące nasz zbiór uczący. Im więcej danych, tym lepsza jakość narzędzia.

Co oznaczają emotki? Czy dodawanie ich do treści zmienia coś w przekazie?

Co oznaczają emotki? Czy dodawanie ich do treści zmienia coś w przekazie?

Dwie poprzednie części analizy wyników naszego badania nad wpływem emotikon na wydźwięk emocjonalny zdań zakończyliśmy pytaniem: czy zawsze wpływają tak samo? Wiemy, że zdaniom z „: )„, a nawet z „: *” zdarzało się dostać od uczestników naszej ankiety jedynkę, czyli oceniali je jako negatywne. Oczywiście mogli się pomylić. Ale z drugiej strony zobaczyliśmy też, że chociaż da się ułożyć buźki od najbardziej negatywnej do pozytywnej, te drugie wcale nie układają się za bardzo równo… A poza tym, łączą je słabe korelacje, więc nie jest tak, że „: D” to „: )” ale bardziej. Warto sprawdzić, co takiego jest z różnymi uśmiechami, że nie nie zawsze dodają zdaniu radości.

Żeby było ciekawiej, ale także bardziej poprawnie metodologicznie, popracujemy na innych danych niż dotąd. Usuniemy z nich wartości odstające, tzw. outliery. Nie ręcznie, ale automatycznie (w programie KNiME, korzystając z filtra do danych numerycznych). Czyszczenie danych okazało się dość radykalne, w jego efekcie aż pięć z dziewięciu badanych przez nas emotikon zamiast pięciu kategorii ocen zostało jedynie z trzema. Oznacza to, że wykres ilustrujący kontinuum negatywne-pozytywne nieco się zmienił i jest teraz bardziej jednoznaczny.

Kiedy uśmiech staje się niemiły. Co oznaczają emotki?

Nawet po odrzuceniu outlierów okazuje się, że „: |” na końcu zdania może w efekcie dawać pozytywny komunikat, a „X D” – negatywny. Co więcej, nawet dodanie emotki może nie ocieplić ani nie ochłodzić zdania, ale pozostawić je w średnich regionach oceny 3.

Testowaliśmy wpływ emotikon z wykorzystaniem pięciu różnych zdań, raczej neutralnych, choć ocenianych przez uczestników badania różnie. Jak pokazaliśmy w pierwszym wpisie, faktycznie neutralne jest „Powiedział, że nic się nie stało”.

Przypuszczamy, że wyjściowy wydźwięk emocjonalny zdania będzie miał wpływ na to, czy po dodaniu danej emotikony czytelnik odczyta je inaczej, czy wciąż tak samo. Czy “Jedziemy na wycieczkę do Grecji” zmieni się tak samo mocno po dodaniu „: („, co „: )„? Poniżej pokazujemy średnią zmianę (na plus lub minus) po dodaniu emotikony, w stosunku do zdania w formie wyjściowej, bez ozdób.

Jak widać na powyższym wykresie, nie każda emotikona działa równie silnie. Zmiany na minus są większe niż na plus, największe, jeśli dodamy „: |” lub „: /” (dwie najsilniej ze sobą skorelowane emotki). Uśmiechy zawsze działają słabiej, a nie mają prawie żadnego wpływu na zdanie o Grecji czy „Teraz rozumiem” – a więc te najbardziej pozytywne już w punkcie wyjścia. Co więcej, można dostrzec niewielki, ale negatywny wpływ dodania „: P„, a nawet „: *„, do informacji o wycieczce! Przy okazji na powyższym wykresie widać, że „: 0„, choć ma wyrażać zaskoczenie czy nawet zachwyt, jest odbierane jako obniżające wydźwięk zdania, zwłaszcza uznawanego za pozytywne.

Emotikony. Co oznaczają? Symbole z pustymi przebiegami i paradoksalnymi efektami

Zdania niosące pozytywne emocje nie robią się zdecydowanie bardziej entuzjastyczne po dodaniu pozytywnej emotikony. Najbardziej zyskują na nich te „wyjściowo” negatywne, na przykład dodanie „: D” do słów o deszczu lub poniedziałku sprawi, że zrobią się neutralne, a nawet radosne. „: *” i „: P” mogą mieć paradoksalne działanie – zwykle ocieplają zdanie, jednak mogą sprawić, że pozytywne stwierdzenia staną się negatywne, być może ironiczne lub nabierają złośliwych odcieni. Nie skupialibyśmy się na tym być może jedynie na podstawie wyników naszych badań, ale mamy za sobą kilka kłótni biorących się z wysłania bliskim źle odebranego całuska…

Emotikony działają trochę jak intonacja – jakbyśmy wypowiadali zdanie innym tonem, bardziej radośnie, ze smutkiem, z rozczarowaniem, albo okazując szczęście. I właśnie jak ton mogą wywoływać paradoksalne efekty – przybijające treść podana lekkim tonem raczej nie pociesza, może wręcz wywołać agresję i niechęć wobec mówiącego. Badając reakcje odbiorcy w momencie, gdy emotikony są integralnym, używanym od dłuższego czasu elementem komunikacji on-line możemy wreszcie sprawdzić, jaki mogą mieć efekt na odbiór różnych informacji.

Chcemy wiedzieć o emotikonach jeszcze więcej, dlatego prowadzimy kolejne badanie. Można wziąć w nim udział klikając w ten link. Zajmie 10 minut.

Emocje online – gdzie ich szukać? Śledzimy Wiedźmina

Emocje online – gdzie ich szukać? Śledzimy Wiedźmina

Analiza sentymentu, czyli pojawiająca się zwykle w towarzystwie business intelligence czy data science, bardzo modna i skuteczna sentiment analysis najczęściej jest wykorzystywana w monitoringu mediów. Chcecie wiedzieć, czy wasz produkt się podoba? Wobec tego analizujecie pojawianie się jego nazwy w mediach społecznościowych i mierzycie ich nacechowanie. Zbieracie liczbę pozytywnych i negatywnych słów lub całych tekstów. Porównujecie proporcję skarg i pochwał.

Analiza emocji i sentymentu – Wiedźmin

Między innymi w tym celu powstał SentiTool. Można go powiązać z dowolną metodą zbierania wzmianek na konkretny temat i na bieżąco, z dnia na dzień, z godziny na godzinę, sprawdzać, czy coś się zmienia: ogólne, pozytywne lub negatywne, nacechowanie wzmianek lub proporcje ośmiu podstawowych emocji z modelu Plutchika. O takim zastosowaniu SentiTool będziemy pisać wielokrotnie, właśnie w taki sposób korzystaliśmy z naszej aplikacji analizując wypowiedzi wyborców na temat polityków, czyli otwierając naszego bloga.

Dzisiaj spojrzymy na monitoring emocji w mediach z nieco innej perspektywy. Żeby monitorować wzmianki, trzeba wiedzieć, skąd je wziąć. I nie chodzi nam tu o wybór aplikacji zbierającej je dla nas. Chcemy wiedzieć, gdzie w sieci możemy natknąć się na coś ciekawego.

Możemy się założyć, że większość z nas – obojętnie czy zajmuje się w jakikolwiek sposób mediami, promocją, reklamą – pomyśli od razu o serwisach społecznościowych. Facebook, Twitter (stosunkowo słabo obecny w Polsce), Instagram… To na pewno dobry trop, ale sprawdźmy, o ile lepszy, bardziej emocjonalny, od innych.

Już jakiś czas temu zebraliśmy wzmianki o „Wiedźminie” zapowiadanym przez Netflix. Chcemy wziąć na warsztat te niekoniecznie najnowsze, ale pochodzące z ważnego momentu: z okolic daty ogłoszenia, że postać tytułową zagra Henry Cavill. Na oko i ucho ten wybór wywołał w ojczyźnie Sapkowskiego sporo kontrowersji. Niektórzy byli zachwyceni, inni zupełnie nie czuli Supermana jako łowcy potworów z Rivii.

1500 słów wyrażających emocje

Zebraliśmy 1500 słów wyrażających emocje. Dla większości z nich (prawie 50%) dominującą, najsilniejszą emocją jest radość, 20% wyraża smutek, 9% zaufanie, a prawie tyle samo – oczekiwanie. Jak widać, w sieci przeważają pozytywne opinie i emocje na temat nowej produkcji Netflixa.

Zobaczmy, ile i jakie emocje wyrażano w różnych mediach. Wzięliśmy pod uwagę Facebook, prasę oraz blogi – bo w takich miejscach najczęściej pojawiają się informacje o wydarzeniach kulturalnych. Blogi zainteresowały nas także dlatego, że publikują w większości teksty osobiste, wyrażające odczucia konkretnego recenzenta, pisane często znacznie mniej formalnym językiem niż artykuły gazetowe.

Proporcje radości i smutku są podobne we wszystkich typach mediów, około 2:1, jedynie wpisy blogowe wykazują większą przewagę entuzjazmu, 3:1. Jak zakładaliśmy, w artykułach prasowych są emocje, ale mniej niż na Facebooku – także dlatego, że po prostu mniej się tam o „Wiedźminie” pisze.

Spójrzmy na „mniejsze” emocje, czyli szóstkę zostającą nam po odfiltrowaniu dwóch najliczniejszych.

Oczekiwanie i zaufanie dominują w krajobrazie emocjonalnym blogów i Facebooka, za to w prasie na prowadzenie wyszło zaskoczenie. To także jedyne miejsce, w którym strach niemal zrównuje się z oczekiwaniem. Różnice pomiędzy tymi mediami są istotne statystycznie gdy liczymy wszystkie osiem lub jedynie 6 emocji (w tym wypadku Chi=23,64, p=0,009). Nieistotna jest różnica między blogami i Facebookiem. To oznacza, że możemy traktować je jako jeden zbiór spontanicznych wypowiedzi. Możemy skontrastować go z bardziej formalnymi tekstami z gazet czy portali informacyjnych.

Krajobraz emocjonalny, czyli co pokazała analiza?

SentiTool to dobre narzędzie do monitoringu mediów. Sprawdza się przy różnych typach wpisów, a nawet pozwala przeanalizować różnice pomiędzy tymi mniej i bardziej formalnymi. Co najważniejsze, pokazuje jak szeroka publiczność, profesjonalnie zajmująca się danym tematem lub nie, na niego reaguje. Pozwala także uniknąć błędu zakładającego, że skoro pojawia się krytyka, to „internet jest niezadowolony” lub „wylała się fala hejtu”.

W analizie krajobrazu emocjonalnego interesuje nas zasięg różnych opinii. Ale także statystyki mówiące o tym, czego jest więcej, które emocje przeważają. To one, lepiej niż głośni krytykanci, pokazują nam opinię przeciętnego odbiorcy, klienta, partnera.

Tęczowy piątek. Czy internet naprawdę nienawidzi LGBT?

Tęczowy piątek. Czy internet naprawdę nienawidzi LGBT?

Tęczowy Piątek za nami. Hasztagi dominujące w dyskusji na ten temat były bardzo negatywne, wręcz brzydkie. Wyrażały sprzeciw i pogardę dla samej akcji i jej twórców. Wrzucenie tego hasła w Google także nie sugerowało entuzjazmu, chociaż tu przeważają jednak artykuły informujące o wydarzeniu w tonie neutralnym.

Tęczowy Piątek i LGBT. Google Trends, social media i fala nienawiści

Postanowiliśmy przyjrzeć się emocjom wyrażanym w sieci – w prasie, na Facebooku i Twitterze. Czy faktycznie akcja Tęczowy Piątek wywołała falę nienawiści i sprzeciwu? Czy w tekstach o niej dominują strach i wstręt? A może złość? Z drugiej strony, być może okazała się sukcesem, a jedynie kilku głośnych przeciwników Kampanii Przeciw Homofobii (KPH) zdołało nabić liczniki twitterowych hasztagów?

Zanim przejdziemy do omówienia naszego badania, szybkie spojrzenie na Google Trends. Popularność haseł tęczowy piątek i homofobia koncentrowała się wokół daty samej akcji i gwałtownie spadła po jej zakończeniu. W działania KPH włączyło się jedynie 211 szkół, więc nietrwałość zainteresowania nie powinna dziwić. Co prawda, o Piątku informowały ogólnopolskie media, jednak nie można twierdzić, że samo wydarzenie miało szeroki zasięg. Większość z nas po prostu nie miała z nim do czynienia.

Jakie emocje?

Przejdźmy do badania SentiTool. Zebraliśmy materiał korzystając z Brand24. Nasz korpus liczył w sumie niecałe 1,5 tysiąca słów z czego 12% wyrażało emocje. Czy były one w większości negatywne? Nasze wyniki temu przeczą. Klasyczna analiza sentymentu pokazuje proporcję 65% do 35%, z przewagą pozytywnego wydźwięku emocjonalnego. Tym razem nie liczyliśmy ile słów miało dodatnią, a ile ujemną polaryzację, ale zsumowaliśmy wartości polaryzacji (osobno powyżej i poniżej zera). Taka statystyka pozwala nam mierzyć nacechowanie emocjonalne tekstu z większą trafnością.

Jak rozkładają się proporcje poszczególnych emocji? Znowu zsumowaliśmy nie tyle słowa, ile natężenie emocji w całym tekście. Wyniki są zbliżone do uzyskanych w analizie sentymentu: jednoznacznie pozytywne emocje (radość, zaufanie, oczekiwanie) stanowią 43% krajobrazu emocjonalnego zebranych wypowiedzi, a jeśli dodamy do nich zaskoczenie 53%. W analizie uwzględniającej model 8 emocji podstawowych wyraźniej niż powyżej widać udział złości i wstrętu, jednak nie są to uczucia dominujące dyskurs o Tęczowym Piątku.

Analiza kontekstów w dyskusji o Tęczowym Piątku

Na koniec chcielibyśmy przyjrzeć się jeszcze najbardziej pozytywnie i negatywnie nacechowanym słowom pojawiającym się w naszym korpusie. Niebieskie słowa są nacechowane pozytywnie (im są większe, tym bardziej), pozostałe – negatywnie.

Jak widać, najsilniej nacechowane słowa to uczucie i zwyrodnialec. Pojawiają się obelgi, ale także rozwój i misja. Jeśli przyjrzymy się tej chmurze słów, możemy nabrać przekonania, że dyskusja o Tęczowym Piątku faktycznie roiła się od negatywnych sformułowań, ale wyniki analizy sentymentu i emocji składowych wskazują, że choć zdarzały się w niej silnie nacechowane negatywne treści, wiele osób wypowiadało się także w tonie tolerancji i przychylności dla tej akcji edukacyjnej.

Dane językowe, być może zwłaszcza te dotyczące kontrowersyjnych, budzących silne emocje (lub za takie uznawanych) tematów, powinny być analizowane odpowiedzialnie, z wielu stron, oglądane pod każdym możliwym kątem. Gdybyśmy spojrzeli tylko na chmurę słów, nie zauważylibyśmy wielu pozytywnych emocji wyrażanych przy okazji Tęczowego Piątku.

Z kolei zatrzymując się na analizie sentymentu nie dotarlibyśmy do znaczenia negatywnych odczuć wyrażanych w zebranym przez nas korpusie – to okazało się możliwe dopiero po spojrzeniu na poszczególne składowe emocjonalne i najsilniej nacechowane słowa. Teraz wiemy, że wyrażano się o niej raczej pozytywnie, choć najgłośniej krzyczeli jej przeciwnicy.