Które słowa są pozytywne, a które negatywne? Sentimenti opowiada o swoich badaniach naukowych

Analiza emocji w Sentimenti opiera się na rezultatach badań nad tym, jakie emocje użytkownicy języka polskiego kojarzą z konkretnymi słowami, frazami i dłuższymi tekstami. Dzięki wynikom kolejnych etapów badawczych, nasze narzędzie jest wciąż udoskonalane. Jakie badania przeprowadziliśmy do tej pory?

Tysiące słów i uczestników badań

Najważniejsza część projektu to zebranie ocen ponad 30 tys. słów, fraz i tekstów od ponad 20. tys grupy Polaków. Przez wzgląd na skalę projektu, badania postanowiliśmy realizować dwoma metodami: CAPI (Computer Assisted Personal Interview) oraz CAWI (Computer Assisted Web Interview). Dzięki temu byliśmy w stanie połączyć korzyści wynikające z obu podejść: badania CAPI umożliwiły zachowanie ścisłej kontroli i wysokiej rzetelności badań, a natomiast badania CAWI pozwoliły na efektywne dotarcie do tak dużej, reprezentatywnej grupy Polaków. Wreszcie, mając do dyspozycji dane CAPI i CAWI możemy bezpośrednio porównać oceny zebrane za pośrednictwem obu metod i sprawdzić, czy badania realizowane on-line są tak samo wiarygodne, jak te realizowane w warunkach laboratoryjnych.

EmoTool – nasze narzędzie badawcze

W obydwu badaniach posłużyliśmy się naszą autorską aplikacją EmoTool, za pośrednictwem której badani wskazywali emocje, związane z poszczególnymi słowami. Aplikacja obejmuje 2 podstawowe panele oceny: panel wymiarów emocji oraz panel kategorii emocji. Panel wymiarów emocji (lewa strona) służy określeniu wydźwięku emocjonalnego w najbardziej ogólnym sensie, tj. określeniu kierunku i siły emocji. Panel kategorii emocji (prawa strona) pozwala natomiast określić, z jakimi emocjami podstawowymi kojarzy się respondentom dane słowo.

Połączenie metodologii CAPI i CAWI

Jakie dane udało się zebrać? Do laboratorium przyszło w sumie 560, a w badaniach on-line wzięło ich udział ponad 20 tysięcy unikalnych respondentów. Uczestnicy badania CAPI ocenili blisko 3000 słów, natomiast uczestnicy badania CAWI ponad 30000 słów (w tym także wszystkie słowa z CAPI). Powstała dzięki temu największa w Polsce i jedna z największych na świecie baza otagowanych emotywnie słów. Każde z nich zostało ocenione przynajmniej 50 razy, dzięki czemu jesteśmy w stanie oszacować, w jaki sposób poszczególne słowa postrzegane są w populacji Polaków. Jednocześnie mamy tu do czynienia z reprezentatywną grupą Polaków, co dodatkowo zwiększa wiarygodność wyników. Zgromadzone dane demograficzne umożliwią w przyszłości dostrojenie narzędzia SentiTool do bardziej konkretnych zastosowań, sprofilowanych pod kątem wybranych grup demograficznych. Innymi słowy, będziemy w stanie przybliżyć nie tylko przeciętny odbiór danego tekstu, ale także to, jak może się on różnić w zależności od wieku, przekonań czy wykształcenia odbiorcy.

Jednym z ważniejszych wniosków wynikających z dotychczasowych badań jest to, że wyniki CAWI i CAPI okazały się zaskakująco spójne. Oznacza to, że obie metody pozwalają nam na uzyskanie podobnych jakościowo ocen. Jest to dla nas ważna informacja, ponieważ okazuje się, że realizując badania na tak dużą skalę, nie rezygnujemy z wysokiej jakości zebranych danych. Innymi słowy, wykazaliśmy, że o emocje można pytać równie skutecznie w internecie, co w laboratorium. Co więcej, stosując tę metodę możemy przebadać emocje związane nie tylko z tekstem, ale też z innym, wybranym przez Klienta materiałem, takim jak emojis, logotypy, grafika, nagrania, czy klipy wideo.

Najbardziej pozytywne i negatywne słowa

Wśród słów uznanych przez respondentów za najbardziej pozytywne znalazły się:

przepiękny, kochać, słońce, pogodny, czule, prezent, rozkosz, radośnie, ciepło i opiekuńczość.

Z kolei najgorzej kojarzą się:

terrorysta, bić, wojna, pedofil, ludobójstwo, przemoc, agresywny, zboczeniec, zabójstwo i oszukiwać.

Wyniki te są dość intuicyjne i tym samym potwierdzają wiarygodność danych zebranych przez Sentimenti. Do mniej oczywistych wniosków prowadzi nas następne zestawienie. Czasami wydaje nam się, że negatywne wypowiedzi są silniej nacechowane emocjonalnie, bardziej uderzające, po prostu mocniejsze. Tymczasem w pierwszej dziesiątce słów na skali siły nacechowania są prawie same pozytywne:

kochać rozkosz, pocałunek, orgazm, matka, agresywny, zakochany, kolacja, zdać i euforia.

Wyniki dotychczasowych badań zebranych za pośrednictwem aplikacji EmoTool mają bezpośrednie zastosowanie w działaniu SentiTool, czyli naszego narzędzia do automatycznej analizy tekstu. Choć projekt Sentimenti może pochwalić się już kilkoma sukcesami (na przykład analizami SentiStock), wciąż pracujemy nad udoskonalaniem naszych narzędzi. Niedawno skończyliśmy kolejny etap badań, w ramach którego uczestnicy oceniali nie tylko słowa, ale także frazy i całe teksty. Dane zebrane w ramach tego badania pozwolą nam uwzględnić szerszy kontekst w procesie analizy tekstu i tym samym podniosą skuteczność i trafność wykrywania emocji.

Tekst napisany wspołnie z Moniką Riegel i Małgorzatą Wierzbą z LOBI.