Zaznacz stronę

Instrukcja Sentitool

Celem tego dokumentu jest zaznajomienie użytkownika z narzędziem Sentitool dostępnym jako aplikacja webowa pod adresem https://sentitool.sentimenti.pl. Serwis pozwala na rozpoznawanie emocji wyrażanych przez teksty według statystycznego użytkownika w 18 dostępnych językach, w szczególności: polski, czeski, angielski, francuski, włoski, portugalski, hiszpański, duński, estoński, niemiecki, norweski, rosyjski, szwedzki, duński, fiński, grecki, słoweński, turecki. Dostęp do języków i innych opisanych w instrukcji opcji zależy od poziomu konta użytkownika.

Analizie mogą być poddawane dłuższe artykuły, jak i krótkie wzmianki, w tym posty z mediów społecznościowych. Istnieje możliwość analizy emotywnej dla każdego z akapitów analizowanego tekstu osobno.

Podstawową funkcją narzędzia jest automatyczne dodawanie do tekstów metadanych w postaci 11 wartości:

1. Emocje

Złość, Strach, Smutek, Wstręt, Zaskoczenie, Oczekiwanie, Radość, Zaufanie

2. Sentyment

Sentyment pozytywny, Sentyment negatywny

3. Pobudzenie

Logowanie

Logowanie do systemu wymaga podania nazwy użytkownika, nazwy organizacji/firmy oraz hasła.

Do nazwy organizacji/firmy przypisane są dostępne metody analizy oraz konta użytkowników mających do niego dostęp. Z kolei do danego użytkownika przypisane jest Archiwum, w którym dostępne są wszystkie przeanalizowane przez danego użytkownika pliki.

Dostępne serwisy (metody analizy)

W ramach najbardziej rozbudowanego konta, dostępne są następujące mechanizmy oceny emotywnej w tekście (szersze opisy w tabeli poniżej).

  1. Agregatory – najprostsze modele, agregujące dane, różnią się od siebie ilością danych,
  2. Klasyfikatory – modele zero-jedynkowe, różniące się sposobem analizy danych,
  3. Regresory – najbardziej zaawansowane modele.

Inne typy kont mogą zawierać mniejszą liczbę metod analizy do wyboru lub dawać użytkownikowi dostęp tylko do jednej metody.

Po zalogowaniu do systemu użytkownik widzi ekran pozwalający na wybór metody analiz (lista rozwijana), rodzaju analizowanego pliku oraz rozpoczęcie analizy.

Widok użytkownika pozwala na wczytanie pliku (panel po lewej) do analizy oraz przeglądanie archiwum – historii analiz danego użytkownika (panel po prawej).

Wczytywanie i przetwarzanie pliku źródłowego

Okno drag & drop pozwala na wczytanie pliku do analizy. Narzędzie przyjmuje pliki XLSX (XLS) zawierające przynajmniej jedną kolumnę z tekstem (kolejne wzmianki w wierszach) lub pliki TXT zebrane w ZIP (jeden lub więcej TXT, mogą znajdować się w podfolderach).

Po wczytaniu pliku XLSX aktywne stają się okna wyboru serwisu (Serwis), arkusza i kolumny z tekstami do analizy. Wszystkie otwierają listy jednokrotnego wyboru: metod, arkuszy i kolumn. Dopiero po wskazaniu, jaką metodą i jakie dane mają zostać przeanalizowane (wskazanie odpowiedniej kolumny) możliwe jest rozpoczęcie przetwarzania, czyli automatycznej analizy emocji wybraną metodą. Po rozpoczęciu analizy plik zostaje przeniesiony do archiwum.

Możliwe jest także usunięcie pliku wczytanego na serwer, dla którego nie zaczęła się jeszcze analiza – ikona kosza obok zielonej ikony startu.

Pliki na wyjściu zawierające wyniki analizy emocji zawsze mają format XLSX, zawierają kolumny z wynikami (8 emocji, 2 zmienne opisujące sentyment oraz dodatkowo pobudzenie emocjonalne), „doklejone” do kolumn pliku poddanego analizie (lub umieszczone w pliku stworzonym w trakcie przetwarzania plików TXT). W przypadku analizy TXT każdy wiersz tabeli wynikowej jest dodatkowo oznaczony nazwą pliku TXT, który został przeanalizowany (automatycznie tworzona jest pierwsza kolumna pliku wynikowego).

Wczytanie pliku ZIP przebiega analogicznie jak XLSX opisane powyżej, ale zamiast wyboru arkusza i kolumny możliwe jest zaznaczenie opcji “analiza wieloakapitowa”. Wówczas analizowany jest nie tylko cały tekst, ale także jego poszczególne akapity zdefiniowane jako fragmenty rozdzielone znakami końca linii (“\n”, czyli “enter”). W wynikowym XLSX każdy akapit zostanie ponumerowany oraz zaklasyfikowany jako “pierwszy”, “ostatni” lub “środkowy” (wszystkie pozostałe akapity).

Pliki na wejściu

Po wczytaniu na serwer pliku XLSX należy wybrać arkusz i kolumnę z tekstem do analizy. Plik excelowy musi mieć przynajmniej jedną kolumnę posiadającą nazwę (w pierwszym wierszu pliku zawierającym jakiekolwiek dane), w której jest tekst przeznaczony do analizy. Poza tym arkusz może zawierać inne kolumny z dowolnymi danymi, w tym z datą czy godziną publikacji wzmianki. Te dane nie zostaną utracone ani nadpisane.

Jeśli podczas wybierania kolumny na liście pojawiają się puste linie lub nazwy, których nie było w oglądanym przez nas XLSX, oznacza to, że plik nie został poprawnie wczytany lub zawiera błędy. Po wybraniu arkusza i kolumny z danymi oraz kliknięciu na zieloną ikonę startu analizowany plik zostaje przeniesiony na listę archiwum, gdzie po przeanalizowaniu można obejrzeć wyniki.

Pliki TXT muszą zostać zapisane z kodowaniem UTF-8 oraz zebrane w plik ZIP, który może zawierać podfoldery – wówczas adres pliku TXT (podfolder lub zagnieżdżone podfoldery) zostanie uwzględniony w jego nazwie wskazanej w wynikowym XLSX.

Po wczytaniu na serwer i zainicjowaniu analizy status wczytanego na serwer pliku zmieni się z INIT w kolumnie “Download” na liczenie kolejnych przetworzonych wzmianek (np. 64/2158). Kiedy przetwarzanie wzmianek się zakończy, pojawi się zielona ikona oznaczająca, że wyniki w XLSX są gotowe do pobrania. Wówczas można pobrać wynikowy XLSX lub obejrzeć podsumowanie i wizualizacje.

W widoku archiwum można śledzić postępy przetwarzania pliku (kolumna „Wpisy”) lub zatrzymać jego analizę (jeśli na przykład wybrało się zły arkusz lub złą kolumnę do analizy). Należy wówczas nacisnąć żółtą ikonę aktywną w jedynie w czasie przetwarzania pliku. Po zakończeniu analizy, wyniki można usunąć z archiwum (czerwona ikona kosza) – wówczas nie będą więcej dostępne do pobrania. Po kliknięciu na ikonę „i” przechodzi się z kolei do wizualizacji wyników.

Analiza pojedynczego tekstu

Analizie można poddać także pojedynczy tekst. Należy go wpisać lub przekopiować do pola tekstowego w zakładce „Pojedynczy tekst”, wybrać metodą analizy i kliknąć ikonę startu. W przypadku pojedynczego tekstu nie można pobrać wyników, ale ich podsumowanie jest dostępne w wizualizacjach (ikona „i” w archiwum).

Pliki na wyjściu

Dla pliku wejściowego XLSX

Wyniki analizy emocji są umieszczane po kolumnach z oryginalnego pliku XLSX i zapisywane w tym samym formacie, przy czym do nazwy pliku na wejściu dodawana jest nazwa metody analizy. Przykładowy plik wynikowy pokazany jest poniżej:

Wyniki mają postać 11 kolumn – 8 z wynikami analizy emocji, 2 polaryzacji (pozytywna i negatywna) oraz pobudzenia (emocjonalne nacechowania wzmianki oraz w jakim stopniu). W przypadku klasyfikatora anotacja 1 oznacza obecność cechy (danego wydźwięku, danej emocji), a 0 jej brak. Agregatory zwracają wartości liczbowe w zakresie 0-1 (interpretowane jako natężenie emocji od 0-100%), a regresor od 0 do 100% (jak pokazano powyżej).

Zamieszczony powyżej zrzut ekranu pokazuje wyniki pomiaru emocji w tekstach umieszczonych w pierwszej widocznej kolumnie („videoTitle”). Kolumna „usługa” zawiera informację o serwisie. Kolumna „procent słów emotywnych” dotyczy jedynie agregatorów i zawiera informację o tym, ile tokenów składających się na tekst miało w danej bazie dowolną anotację emotywną. Z kolei kolumna „treść” stanowi kopię danych z kolumny analizowanej i jest jedynym miejscem, gdzie w pliku wynikowym zachowuje się informacja o tym, jakie teksty opisują wyniki analizy emocji.

Dla pliku wejściowego TXT

Wyniki analizy emocji dla wszystkich plików TXT zebranych w jednym ZIP (w podziale na akapity lub nie) zwracane są w pliku XLSX generowanym przez narzędzie do analizy. Ma on taką samą strukturę jak wyniki dodawane do przetwarzanego pliku XLSX. W przypadku analizy TXT akapit po akapicie w wynikowym XLSX każdy akapit zostanie ponumerowany oraz zaklasyfikowany jako „całość”, „pierwszy”, „ostatni” lub „środkowy” (wszystkie pozostałe akapity). Nazwa XLSX tworzona jest na bazie nazwy pliku ZIP z dodaną nazwą serwisu, a nazwa pliku zawiera nazwę TXT (jak poniżej) poprzedzoną nazwą folderu i znakiem „/”, jeśli ZIP zawierał podfoldery.

W przypadku użycia agregatora (poniżej plik statistics.xlsx) wyniki analizy emocji zawierają informację o procencie słów emotywnych (czyli posiadających anotację emotywne oraz wyrażające przynajmniej jedną emocję).

Pliki w Archiwum

W archiwum przechowywane są wszystkie pliki przetworzone dotąd przez danego użytkownika. Jego struktura zorganizowana jest chronologicznie, z najnowszymi plikami u góry listy.

Jak widać, zgromadzone są w nim wszystkie wyniki z dowolnych modeli przetwarzania tekstu. Można tu pobrać XLSX z wynikami analizy (zielona ikona). Plik można także usunąć z archiwum, wówczas nie będzie możliwe pobranie go po raz kolejny i zniknie z listy archiwum (ikona kosza). Z tej listy można także przejść do podsumowania i wizualizacji wyników z danego pliku (niebieska ikona „i”).

Archiwum pozwala śledzić postępy przetwarzania pliku właśnie wczytanego na serwer i poddawanego analizie. Analizę pliku można przerwać i anulować (żółta ikona), wówczas nie powstanie żaden wynikowy XLSX.

Archiwum pozwala przejrzeć historię analiz, z uwzględnieniem dat, użytych metod oraz specyfikacji ustawień analizy dla danego pliku wejściowego.

Umożliwia także na filtrowanie plików według ich nazwy, nazwy arkusza lub kolumny oraz użytej metody (pole „Filtruj” nad listą).

Wizualizacje wyników

Z widoku archiwum można przejść (granatowa ikona „i”) do podsumowania i wizualizacji wyników z danego pliku.

Ograniczenia przetwarzania danych

Maksymalny rozmiar pliku przesłanego do analizy przez aplikację Sentitool to 5MB. W przypadku większych plików, konieczne jest ich przygotowanie, tzn. podzielenie na mniejsze, przed wysłaniem do aplikacji.

Sentitool umożliwia przetwarzanie jednego pliku na raz przez jednego użytkownika.

Poszczególne konta w ramach aplikacji Sentitool mają wbudowane ograniczenia ilości danych, które mogą zostać przeanalizowane danego dnia. Limit dotyczy wszystkich plików XLSX, ZIP i pojedynczych tekstów w sumie.

Limitowane może być także liczba wzmianek w danym pliku i tylko taka ilość zostanie przeanalizowana, niezależnie od rzeczywistej długości analizowanych plików.

Podsumowanie zostało podzielone na opis wyników (po lewej), gdzie znajdują się informacje o pliku i serwisie oraz wyniki – średnie w przypadku regresora i agregatorów, sumy w przypadku klasyfikatora. Dostępne są dwa typy wykresów. Pierwszy wykres (u góry) zawsze podsumowuje 8 emocji podstawowych, drugi – sentyment i pobudzenie (poniżej).

Dodatek: opis narzędzia Sentimenti

Narzędzia Sentimenti umożliwiają automatyczną analizę emocji w tekstach w dostępnych językach. Podstawową funkcją narzędzia jest automatyczne przypisywanie tekstom 11 wartości będących wynikiem analizy sentymentu i emocji. Pod uwagę brane są następujące elementy wydźwięku tekstu:

Złość, Strach, Smutek, Wstręt, Zaskoczenie, Oczekiwanie, Radość, Zaufanie, Sentyment pozytywny, Sentyment negatywny, Pobudzenie

Pierwszych osiem wartości to emocje podstawowe z modelu Plutchika. Każda z nich ma inną jakość i wiąże się z innymi zachowaniami – na przykład wstręt z unikaniem, złość z agresją, zaufanie z poczuciem bezpieczeństwa.

Uzupełnieniem dla modelu emocji jest model sentymentu opisywany przez trzy ostatnie wartości: pozytywny i negatywny sentyment oraz pobudzenie. Wzmianki jednoznacznie negatywne lub pozytywne wyrażają przede wszystkim jeden rodzaj sentymentu, jednak tekst może być ambiwalentny (wyrażać pozytywny, jak i negatywny sentyment w podobnym natężeniu) lub neutralny. Pobudzenie może być rozumiane jako ogólne natężenie wszystkich emocji w tekście, jego „temperatura”. Wzmianki neutralne mają niskie pobudzenie, a nacechowane emocjonalnie – umiarkowane do wysokiego.

Analiza emocji Sentimenti została oparta na wynikach badań, w których słowa i teksty oceniała reprezentatywna grupa użytkowników języka polskiego. Oznacza to, że jej wyniki odzwierciedlają odbiór tekstów według modelowej osoby mówiącej w wybranym języku.