utworzone przez Sentimenti Team | mar 4, 2020 | Okiem badacza
Analiza wydźwięku emocjonalnego tekstu stała się prosta! Wieloletnie badania Sentimenti zmieściliśmy w małych lekkich wtyczkach do najbardziej popularnych przeglądarek, dzięki którym przeanalizujecie dowolny tekst. Także ten, który dopiero zamierzacie opublikować na Facebooku lub Twitterze.
Rozszerzenia do przeglądarek poprawiają naszą interakcję ze stronami WWW (nieocenione ad-blockery). Inne pozwalają poprawiać teksty i analizować dane. Nasza wtyczka należy niewątpliwie do tej drugiej kategorii, ale mamy nadzieję, że przy okazji umożliwi użytkownikom odkrycie przyjaznych emocjonalnie miejsc w sieci.
Analiza wydźwięku emocjonalnego – jak odkryć go w tekście?
To bardzo proste. Po zainstalowaniu wtyczki trzeba się w niej zarejestrować i zalogować. Zalogowany użytkownik może zaznaczyć na stronie internetowej tekst gazetowy, reklamowy, post – każdy. Ważne, żeby nie przekraczał długości 250 słów (ograniczenie dla niekomercyjnych zastosowań).
Informacje o wyniku analizy emocji w tekście pojawiają się na nowej stronie. Wszystko pozostaje w domenie Sentimenti, więc możecie potem zajrzeć na naszego bloga albo zapoznać się z ofertą. Wyświetli się tekst, który badacie, jego adres oraz nasze wykresy z wynikami. Tych samych rozwiązań, które schowaliśmy we wtyczce, używamy podczas naszej codziennej pracy nad raportami czy monitoringiem opinii w sieci.
Tak wygląda wydźwięk emocjonalny pierwszego fragmentu tekstu na naszej stronie startowej. Jesteśmy zadowoleni z tego wyniku – emocji negatywnych są śladowe ilości, dominują zaufanie i radość, napisaliśmy pozytywnie nacechowany tekst, ale nie reklamę. Dokładnie o to chodziło. Pokazujemy ten wynik, żeby uczulić użytkownika na to, że większość tekstów wyraża wiele emocji naraz. Jedynie bardzo krótkie i proste komunikaty mogą ograniczać się do pojedynczej.
Im więcej emocji w tekście lub im wyższe jest natężenie którejś z nich, tym większym pobudzeniem emocjonalnym charakteryzuje się dany komunikat. To także mierzymy, wynik pokazuje drugi wykres. Jeśli macie ochotę na wywołanie w odbiorcy silniejszej odpowiedzi emocjonalnej, na pewno celujecie w słupek wyższy niż 50%. Co dość oczywiste, dużo łatwiej go podbić negatywnymi emocjami niż pozytywnymi. Naszym zdaniem liczy się jednak komfort i przyjazny ton komunikacji. Z wtyczką Sentimenti będzie łatwiej o niego zadbać.
Podziel się emocjami
Chyba wszyscy mamy chociaż jedno konto w jakimś serwisie społecznościowym. Udzielamy się na forach, zwołujemy znajomych do wydarzeń i akcji społecznych, opowiadamy im o swoim dniu. To najczęściej bardzo krótkie wypowiedzi, w końcu żyjemy w epoce too long; didn’t read. Upewnienie się, że wydźwięk tak zwięzłego komunikatu jest taki, jaki chcieliśmy, zwłaszcza na prestiżowej grupie czy fanpage’u, to poważna sprawa. Obojętnie, czy jesteś administratorem konta marki, czy piszesz dla siebie, możesz wykorzystać naszą analizę emocji do dopracowania tekstu.
Wyniki waszych eksperymentów z analizą emocji mogą zobaczyć wasi znajomi i klienci. Udało się poprawić tekst posta dla znanej marki? Mała modyfikacja dała bardziej pozytywny wydźwięk? A może znaleźliście w sieci entuzjastycznie napisaną opinię o waszej firmie? Analizowany tekst i nasze wykresy możecie udostępnić na Facebooku jednym kliknięciem. Wtyczka sama stworzy infografikę, która zilustruje taki post.
Chcemy usprawniać komunikację międzyludzką i dać Wam narzędzia do sprawdzania, jakie emocje panują w różnych miejscach sieci. Monitorujemy opinie w mediach społecznościowych i nagłówki portali informacyjnych. Wszystko to pomoże w content marketingu, pracy z klientem, pisaniu, wreszcie w znalezieniu takich stron, które nie zalewają nas złością czy wstrętem. Korzystajcie i mówcie nam, co ciekawego znaleźliście, jak możemy usprawniać nasze narzędzia i wspomagać codzienne kontakty.
Link do wtyczki Sentimenti możecie zawsze znaleźć na naszej stronie startowej, pod przyciskiem PRZETESTUJ NAS.
Zobacz także:
utworzone przez Sentimenti Team | sie 29, 2019 | Kategoryzacja komentarzy
Jak mówimy o klimacie i jego zmianach? Oczekiwanie i strach – to częstość wyrażania tych dwóch emocji zmieniła się najbardziej od 2017 roku. Najrzadziej w przebadanych przez nas wypowiedziach pojawia się zaufanie.
W sieci dyskutujemy na różne tematy, w tym o klimacie i jego zmianach. Z roku na rok takich wzmianek pojawia się coraz więcej. Jednocześnie zmieniają się wyrażane w nich emocje.
Klimat. Największa intensywność dyskusji
Od września 2017 do lipca 2019 najwięcej pisano w sieci o klimacie w grudniu 2018 – kiedy trwał Szczyt Klimatyczny w Katowicach. Poruszano wówczas tematy zmiany klimatu i jej znaczenia dla zwykłych ludzi – pokazujemy to w poniższej chmurze słów.
Kolejna intensyfikacja następuje w czerwcu i lipcu 2019, już bez związku z konkretnym wydarzeniem silnie obecnym w mediach, za to przy okazji mówienia o upałach i globalnym ociepleniu. Używano także słów “katastrofa klimatyczna”.
Jeśli przyjrzymy się udziałowi pozytywnych i negatywnych wzmianek w dyskusjach toczących się w kolejnych miesiącach zauważymy, że oprócz października 2018 pozytywne wypowiedzi nigdy nie są częstsze od negatywnych.
Jednym z ważniejszych wskaźników intensywności dyskusji jest proporcja wzmianek o silnym nacechowaniu emocjonalnym (pozytywnym lub negatywnym) w porównaniu do tych bardziej umiarkowanych i neutralnych. W przypadku rozmów o klimacie widzimy, że w grudniu 2018 procent takich wzmianek był najwyższy w analizowanym okresie. To pokrywa się z wnioskami opartymi na liczbie wzmianek. Jednak kolejny okres intensyfikacji, lato 2019, nie wiąże się ze zwiększeniem temperatury dyskusji. Jaki z tego wniosek? Choć temat klimatu, jego zmian i zanieczyszczenia, był często poruszany, nie wywoływał więcej emocji niż w poprzednich miesiącach 2019. Zobaczmy, czy zmianie uległa częstość wyrażania którejś z 8 emocji podstawowych.
Jak zmieniają się nasze emocje?
Emocjami pojawiającymi się najczęściej w wypowiedziach o klimacie są złość i smutek. Do kwietnia 2018 roku dużo wzmianek wyrażano także oczekiwanie, jednak jego udział spadał stopniowo w kolejnych miesiącach. Najrzadziej pojawiają się wzmianki wyrażające zaufanie czy radość. Co ciekawe, wstręt także jest emocją rzadko okazywaną, gdy tematem dyskusji jest klimat.
Dwie emocje, które uległy największym zmianom w ciągu badanego przez nas okresu to strach i oczekiwanie. Obie wykazują wyraźne trendy: strach wzrostowy, a oczekiwanie spadkowy. Poza tym, o ile w 2017 przeważało oczekiwanie, więc wyraziliśmy więcej optymizmu i nadziei na lepsze, w 2019 przeważać zaczyna strach.
Klimat. O co boimy się coraz bardziej?
Kiedy piszemy w sieci o klimacie i jego zmianach, jesteśmy źli i coraz częściej wyrażamy strach. Robimy to przy okazji uskarżania się na falę upałów lub rozmawiania o szczycie klimatycznym. Przeanalizowane przez nas wzmianki bardzo rzadko niosą pozytywne emocje, w oczy rzuca się przede wszystkim brak zaufania, które tym razem pojawiało się w wypowiedziach internautów rzadziej niż zaskoczenie będące zwykle emocją najsłabiej obecną w naszych wynikach.
Polskojęzyczni użytkownicy Internetu piszący o klimacie nie mają wątpliwości, że zachodzące zmiany są straszne. Nie okazują także nadziei na poprawę sytuacji Ziemi – coraz rzadziej oczekują, że w jakiś sposób powstrzymamy katastrofę klimatyczną. Oczywiście, wyniki dotyczą opinii osób, które biorą czynny udział w tej dyskusji.
Analiza emocji pozwala prześledzić, jak zmieniają się nastroje społeczne i temperatura publicznych dyskusji na dowolny temat. Pozwala nam dużo lepiej zrozumieć, co oznacza wzrost lub spadek liczby wzmianek na jakiś temat. Tym razem skupiliśmy się na wzmiankach o klimacie, co pozwoliło nam potwierdzić nasze intuicje o coraz większym pesymizmie tej części społeczeństwa, która zabiera głos w sieciowych rozmowach na ten temat. W podobny sposób możemy podejść do innych ważnych kwestii społecznych, tak jak analizowaliśmy temat Brexitu. Uzupełniona o analizę częstości słów lub słów kluczowych pozwala nam także pokazać, że nawet przy okazji rozmów o serialach bardzo często mówimy o polityce czy społeczeństwie.
utworzone przez Sentimenti Team | lip 4, 2019 | SentiStocks
Analiza emocji to fakt. W projekcie Sentimenti stworzyliśmy narzędzia oparte o badania językoznawcze i uczenie maszynowe. To rozwiązania służące do analizy emocji oraz monitorowania ich zmian w różnego typu publikacjach: od postów w social mediach po poważne, naukowe artykuły. Narzędzia te znajdują szereg praktycznych zastosowań: można przy ich pomocy analizować treści płynące od klientów przez fanpejdże, komunikatory i chatboty, prowadzić komunikację PR (również zapobiegać kryzysom), a nawet tworzyć i lokować bardziej trafne treści reklamowe i marketingowe. Ale narzędzia te można wykorzystywać też w sektorze finansowym. Zobaczcie, jak.
Kurs na giełdę: wiadomo jaki!
W Sentimenti postanowiliśmy sprawdzić przydatność naszych narzędzi dla sektora finansowego i wypróbować je w różnych sytuacjach. Zaczęliśmy od próby przewidywania kursów akcji na podstawie emocji zawartych w artykułach, komentarzach oraz w wypowiedziach na forach czy w portalach społecznościowych. Analiza uwzględniająca wyznaczenie natężenia 8 emocji z teorii Plutchika, pozwoliła na wskazanie pewnych wzorców zachowań inwestorów i powiązanie ich z kursami giełdowymi danych spółek.
Po przeanalizowaniu kursów wybranych przez nas 37 notowanych na GPW spółek, różnego typu wzmianek na ich temat i skorelowaniu całości danych nasze narzędzie SentiStock wyznaczyło poprawnie zmiany kursów akcji wspomnianych spółek aż w 87% przypadków; badanie to znalazło później potwierdzenie w rzeczywistości! Okazało się, że prognozowanie trendów kursów po analizie emocji w treści jest możliwe. Jak konkretnie? W Sentimenti możemy się tą wiedzą podzielić na Wasze potrzeby.
Kryzys marki na horyzoncie? Dowiecie się prędzej dzięki analizie emocji
O ile opisaną powyżej analizę można potraktować jako próbę przewidzenia przyszłości, o tyle Sentimenti stosowało już swoje narzędzia do analizy danych świadczących o nadchodzącym kryzysie ekonomicznym w firmie. Pod lupę wzięliśmy na przykład emocje związane z akcjami ORBIS S.A. pokazując, że pogłębiona analiza emocjonalności reakcji akcjonariuszy na pozornie neutralne wzmianki o kondycji spółki w prasie i mediach społecznościowych mogła zapobiec kryzysowi, a przynajmniej zwiastować jego nadejście.
Sprawdziliśmy ogólnodostępne sprawozdania finansowe ORBIS-u i zebraliśmy publikacje różnego typu oraz zmierzyliśmy wydźwięk reakcji na nie z okresu poprzedzającego kryzys sprzedażowy akcji w III kwartale 2018 r. Nasze wyniki wskazały istotny wzrost odczuć o konotacji ujemnej – smutku, złości i wstrętu. Rosnący kierunek ich natężenia znalazł potwierdzenie w skokowym spadku akcji, sugerując konkretne decyzje zakupowe czy kierunek zachowania akcjonariuszy.
Taka analiza, w połączeniu ze szczegółowymi danymi dostępnymi władzom firm jest dobrym narzędziem ostrzegawczym przed nadchodzącym kryzysem. Oczywiście, są to przykłady badania na danych z zaistniałego wcześniej, a nie z toczącego się na bieżąco kryzysu. Udowadniają one jednak sprawność SentiToola i jego przydatność do diagnozy sytuacji kryzysowych w firmach i spółkach giełdowych.
Kryzys wizerunkowy może uderzyć w całą branżę
Dużo emocji w opinii publicznej wywołał kryzys związany z aferą wokół Komisji Nadzoru Finansowego. Postanowiliśmy więc sprawdzić, czy i jak przełożył się on na zmiany w indeksach bankowych. Analizowaliśmy wzmianki z mediów i social mediów, komentarze, fora itp. podczas najważniejszych momentów kryzysu. Doniesienia medialne co do poszczególnych etapów afery znalazły odbicie w komentarzach o negatywnym wydźwięku, a więc i w nastrojach inwestorskich. Potwierdzeniem tego były niskie kursy zamknięcia indeksu WIG-Banki dla sektora w kluczowych dniach. A jednak w ogólnym rozliczeniu stabilność notowanych na giełdzie banków wygrała.
Sektor jak dotąd był odporny na takie zawirowania. Jak długo to potrwa w obliczu, gdy przepisy kształtują się dla niego niekorzystnie? Żeby móc zapobiegać kryzysom wizerunkowym w sektorze finansowym (i nie tylko), warto analizować przekaz płynący z opinii publicznej. Może się bowiem okazać, że ukryty w wypowiedziach akcjonariuszy i potencjalnych kupców sentyment ostrzeże przed zbliżającym się kryzysem. Taki monitoring to także cenne narzędzie inwestorskie!
Analiza emocji. Gdzie jeszcze narzędzia Sentimenti?
Potencjał narzędzi stworzonych przez Sentimenti wciąż rośnie, bo projekt znajduje się ciągle w fazie rozbudowy i rozwoju. Istotną z punktu widzenia usługobiorcy cechą tych narzędzi jest możliwość wyznaczenia aż 8 emocji ze skali Plutchika. Pozwalają one poznać nieco lepiej i zrozumieć emocjonalność inwestorów (szczególnie tych mniejszych), co przekłada się później na ich decyzje zakupowe. Ale inwestorzy ci nie ograniczają się wyłącznie do tradycyjnej giełdy. Coraz chętniej sięgają po transakcje na giełdach kryptowalut, narzędzia Sentimenti mogą więc i tu znaleźć zastosowanie.
utworzone przez Sentimenti Team | cze 6, 2019 | SentiBrand
Emotywne pozycjonowanie reklam, czyli targetowanie reklam wg emocji od niedawna nabrało nowego wymiaru. Okazało się, że komunikat można oprzeć nie tylko o kontekst, analizę ruchu na stronie, badania demograficzne, płeć i wiek ankietowanych, ale po dane sięgnąć też niemal w głąb ich serc. Jak to możliwe? Wystarczy rozpoznać ich emocje.
Emotywne pozycjonowanie reklam i przykład: New York Times
W 2018 roku „New York Times” przeprowadził badania emocji swoich czytelników. Oparto je o samouczące się algorytmy i połączono z analizą zebranych od czytelników opinii o ich odczuciach po przeczytaniu treści konkretnych artykułów. W wyniku tych badań powstało narzędzie do przewidywania emocji, wskazujące u czytelników m.in. radość, smutek, nadzieję oraz 15 innych emocji.
Nie zasypiając gruszek w popiele, postanowiono zaprząc je do przewidywania emocji, które czytelnicy NYT mogą potencjalnie przeżyć podczas czytania następnych publikacji i jednocześnie przystąpiono od razu do sprzedaży powierzchni reklamowej. Oferowano ją właścicielom produktów o charakterze emocjonalnym zbliżonym do zawartych w danych artykułach emocjach. Możliwości okazały się imponujące: narzędzie pozwoliło zbadać i stworzyć emocjonalną zawartość danego artykułu i lepiej dopasować do niego komunikat marketingowy.
Tak emocjonalnie stargetowana i odpowiednio umieszczona pośród innych treść marketingowa uzyskała nawet do 80% lepsze wyniki, niż klasyczne targetowanie behawioralne (średnio o 40%). Narzędzie umożliwiło nawet separację treści o negatywnym czy niepokojącym nacechowaniu tak, by nie dodawać do nich przekazów reklamowych, które co prawda pasowałyby do treści czy profilu czytelnika – ale zupełnie nie idą w parze z wydźwiękiem tekstu.
Targetowanie emocjami – reklamy emocjonalne: perspektywy
Agorytm można zastosować nie tylko do zawartych w tym serwisie artykułów, ale i wiadomości i publikacji innego typu. Dlatego otworzyło to przed twórcami kampanii całkiem nowe pole do zagospodarowania. Zaowocowało to 50 kampaniami i ponad 30 milionami zebranych odczuć, sentymentów i emocji. Przekazy reklamowe najczęściej lokowano w sąsiedztwie treści rozrywkowych lub dotyczących społecznej odpowiedzialności biznesu.
Co ciekawe, analogiczne badania prowadzone były również w innych redakcjach, w tym w „USA Today” czy „The Daily Beast”. Podstawą analizy były tam frazy (słowa kluczowe) i powiązane z ich znaczeniami emocje oraz próba odpowiedzenia na pytanie, w jakim nastroju są aktualni czytelnicy danego tekstu na podstawie analizy behawioralnej ich działania na stronie serwisu oraz częstości powracania do określonych, nacechowanych emocjonalnie treści. Badania „USA Today” pokazały, że czytelnicy nie ograniczają się wyłącznie do pozytywnych wiadomości, a czytają wszystko. Oznacza to możliwość kierowania do nich przekazu nie tylko w zbliżonym do reszty treści kontekście, ale i gdy czytelnicy są w podobnym do kontekstu treści nastroju. Dlatego taka metoda pozwala skuteczniej tworzyć content do potrzeb lepszej komunikacji marek. Z kolei rozwiązanie „The Daily Beast”, zamiast próbować odgadywać nastroje wskazuje, gdzie na stronie czytelnicy portalu spędzą najwięcej czasu; w tych popularnych miejscach stara się kontekstowo umieścić przekaz marketingowy. Wszystko w oparciu o emocje pozytywne i emocje negatywne w reklamie.
Przyszłość rynku reklamowego?
Opisane działania oparte o analizę danych, algorytmy i sztuczną inteligencję zaczynają być przyszłością rynku reklamowego i public relations. Jak postrzega te nowe rozwiązania rynek zleceniodawców? Wydawałoby się, że dostając tak precyzyjne narzędzia do targetowania odbiorców nie trzeba się już o nic więcej martwić. A jednak opinie są podzielone. Oparcie kampanii wyłącznie na takiej „kupionej emocjonalności” jest według części ekspertów jednowymiarowe, ogranicza i zawęża pole działania, powinno być więc wiązane z innymi metodami komunikacji. Z drugiej strony to doskonałe rozwiązanie dla firm poszukujących bezpiecznych rozwiązań, doprecyzowujących swój przekaz marketingowy i kierujących go do najbardziej zdecydowanych na zakup klientów.
Sentimenti i reklama emocjonalna. Identyfikacja emocji w reklamie on-line
Skoro New York Times uwzględnia na swoich stronach pozycjonowanie reklam emocjami, to rozwiązanie musi działać i być skuteczne. Pod uwagę bierze się pozytywne i negatywne emocje. A czy da się zastosować podobne mechanizmy w języku polskim?
Dotąd nie było to wcale oczywiste. Algorytmy automatycznego przetwarzania naszego języka zostały udoskonalone na tyle, że świetnie sprawdzają się podczas analizy tekstów. Ale co z emocjami w nich wyrażanymi? Nie istniała też dotychczas baza danych o słowach, frazach czy nawet całych tekstach pisanych po polsku. Dlatego stworzył ją dopiero zespół Sentimenti. Baza ta powstawała w trakcie badań, o których opowiadamy na blogu i naukowych konferencjach. Okazało się, że z dobrymi danymi możliwe jest stworzenie efektywnego systemu analizy sentymentu i emocji, a z nim – pozycjonowanie reklam.
Interia Emotions – różne emocje, jeden cel
Obecnie jesteśmy na zbliżonym etapie do tego, w którym był New York Times około rok temu. Dysponujemy aplikacją sprawnie analizującą tekst i zawarte w nim emocje. Rozpoczęliśmy współpracę z portalem Interia – tworzymy emotywną mapę jego serwisów tematycznych. Stąd już tylko krok do uwzględniania wydźwięku artykułu w pozycjonowaniu reklam.
Co bardzo ważne, emotywne pozycjonowanie reklam nie oznacza kolejnych obowiązków dla dziennikarzy. Nie będziemy nikomu mówić, jakie emocje ma wyrażać, bo w praktyce każda z nich stwarza odpowiednie środowisko dla reklam. Tekst ma smutną wymowę? Najlepiej umieścić w nim reklamę o ekologicznym wydźwięku. Wyraża strach? To dobry kontekst na sparowanie artykułu z reklamą ubezpieczeń lub suplementów diety.
Kolejnym krokiem projektu Interia Emotions będzie zbadanie, jak dokładnie emocje w tekście reagują z reklamami. Dlatego kiedy to sprawdzimy, emotywne i skuteczne pozycjonowanie reklam stanie się faktem. Takie narzędzie z pewnością okaże się przydatne. Reklamy pozycjonowane na podstawie treści artykułów (a nie śledzenia aktywności internautów) są dla nich mniej drażniące.
DOWIEDZ SIĘ WIĘCEJ:
utworzone przez Sentimenti Team | maj 30, 2019 | Kategoryzacja komentarzy, Okiem badacza
Sposób w jaki ludzie przekazują sobie emocje przez lata nie poddawał się algorytmizacji, czyli opisowi zrozumiałemu dla komputerów. Wydawało się, że maszyny będą sobie radzić doskonale z liczeniem, zapamiętywaniem, może nawet z rezerwowaniem stolików w restauracji czy biletów lotniczych – ale sfera “serca” pozostanie domeną czysto ludzką.
Tak rzeczywiście się działo, kiedy próbowaliśmy wyjaśniać komputerom “krok po kroku” jak rozumieć emocje. Algorytmy regułowe stawały się bezradne przy każdej wieloznaczności czy zmianie struktury wypowiedzi.
Rewolucyjne podejście do analizy emocji. Rola maszyny
Od kilku lat do analizy tekstu wkraczają algorytmy uczenia maszynowego (ang. machine learning), w tym ich najnowsza wersja – sieci neuronowe (ang. neural networks), które uczą się “tak jak małe dziecko”, czyli przez oglądanie przykładów. To zupełnie zmieniło sytuację – teraz, jeśli mamy dobre dane i dobry algorytm, możemy nauczyć komputer prawie wszystkiego.
Zespół SENTIMENTI przygotował publikację naukową dotyczącą tego właśnie tematu, która została zaprezentowana podczas międzynarodowej konferencji Language Technology Conference. Publikacji przewodniczy dr Jan Kocoń z Politechniki Wrocławskiej, a jej tytuł to “Recognition of emotions, valence and arousal in large-scale multi-domain text reviews”. Pełna treść pracy będzie wkrótce dostępna w zbiorze pokonferencyjnym, natomiast tutaj prezentujemy najważniejsze wnioski z naszych badań.
Dr Jan Kocoń prezentuje wyniki badań SENTIMENTI na LTC 2019
Uczenie maszynowe w Sentimenti
Zacznijmy od podstawowych kroków uczenia maszynowego dla analizy emocji w tekście:
- Anotacja – przygotowanie zbioru uczącego i testowego (ang. train and test set).
- Wybór algorytmu uczącego (np. SVM, BiLSTM i in.)
- Dobór zbioru cech (ręczny lub automatyczny)
- Trening i dostrajanie sieci neuronowej.
- Testowanie efektywności otrzymanego modelu (miara F-score lub inna).
Co to znaczy, że sieci neuronowe “działają jak ludzki mózg”? Tak jak niemowlę, sieć zaczyna z pewną gotową do uczenia się strukturą, ale bez żadnej wiedzy. Musi zobaczyć wiele, wiele przykładów, aby “zrozumieć” jak działają różne zjawiska (skala liczebności tych przykładów zaczyna się od dziesiątek lub setek tysięcy). Nauczona sieć potrafi samodzielnie analizować nowe, wcześniej nie widziane przykłady, korzystając z rozpoznanych wcześniej cech.
Jakich informacji potrzebuje sieć neuronowa, aby nauczyć się rozpoznawać emocje? Tak jak dziecko, potrzebuje informacji zwrotnej o tym co jest, a co nie jest prawidłowe. Ten rodzaj uczenia maszynowego nazywamy uczeniem nadzorowanym (ang. supervised machine learning). Dla danych językowych, sieć potrzebuje szeregu anotacji, czyli przykładów o postaci np.:
- przepiękny = szczęście 0,8
- znalezisko = zaskoczenie 0,7
- nieuczciwość = złość 0,4
Najważniejsze są nie maszyny, a dane
Jak jednak zdobyć dziesiątki tysięcy takich przykładów potrzebnych do nauczenia sieci neuronowych? I co zrobić ze słowami, które będą wzbudzały różne emocje u różnych osób? Jeśli słowo “kolejka górska” wzbudza we mnie radość, a w tobie strach, to czyją wersję powinniśmy przekazać naszemu “neuronowemu dziecku”?
Problem dobrej jakości danych do uczenia maszynowego był bolączką wielu poprzednich projektów uczenia maszynowego, dlatego w Sentimenti zaangażowaliśmy zespół doświadczonych psychologów z LOBI PAN i przeprowadziliśmy największe w Polsce badania emocji w słowach. Zapytaliśmy ponad 20 tys. osób o ponad 30tys. słów i 7 tys. tekstów, z których każdy był oceniony ok. 25 -50 razy (więcej szczegółów na naszym blogu link). Mamy dzięki temu najbardziej reprezentatywną informację o 8 emocjach, jakie poszczególne słowa i teksty wzbudzają u Polek i Polaków.
Lepsza automatyczna analiza emocji w tekście
Stworzenie dobrej bazy danych pozwoliło nam przejść do kolejnego kroku, czyli wyboru algorytmu uczenia maszynowego, który najlepiej podoła zadaniu “odgadywania” emocji w tekście. Przetestowaliśmy następujące rozwiązania, które “nakarmiliśmy” naszymi danymi:
- word embeddings i word2vec (czyli metodę przekształcania słów i tekstów na postać matematyczną);
- fastText (jako podstawową metodę, punkt odniesienia);
- BiLSTM (ang. bidirectional long-short-term memory neural network, czyli dwukierunkowe sieci oparte na krótko- i długoterminowej pamięci);
Nasze algorytmy rozpoznawały sentyment trafnie w 89%, natomiast emocje w ok. 80-85% (dla wybranej grupy tekstów). Szczegółowe miary i informacje o dziedzinach, a także wiele pomiętych tutaj szczegółów badania, można znaleźć w naszej publikacji na stronie LTC.
Dzięki temu badaniu mamy dostępne modele, które rozpoznają emocje szybciej niż człowiek – są w stanie przetworzyć w ciągu kilku minut miliony tekstów.
W dziale B+R Sentimenti ciągle pracujemy nad nowymi rozwiązaniami, dlatego już teraz eksperymentujemy z technologiami, które zrewolucjonizowały świat NLP (ang. Natural Language Processing) w 2018 roku, takimi jak BERT i ELMo, ciągle rozwijamy też własne modele i rozwiązania dla lepszego zrozumienia emocji w języku.
Współpraca przy tej notce: dr Barbara Konat, kierowniczka badawcza w SENTIMENTI