utworzone przez Sentimenti Team | sie 5, 2021 | Badania rynku, Konferencje, Publikacje naukowe
Miejsce publikacji:
- Conference: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing
Tytuł:
Personal Bias w przewidywaniu emocji wywołanych przez opinie tekstowe.
Autorzy:
Jan Kocoń, Piotr Miłkowski, Damian Grimling, Marcin Gruza, Kamil Kanclerz, Przemysław Kazienko
Abstrakt:
W analizie emocji wywołanych przez opinie, komentarze czy artykuły powszechnie wykorzystuje się korpusy anotowane, w których etykiety przypisane do dokumentów są uśrednieniem poglądów wszystkich anotatorów lub reprezentują decyzję większości. Modele wytrenowane na takich danych są skuteczne w identyfikowaniu ogólnych poglądów populacji. Jednak ich przydatność do przewidywania emocji wywoływanych przez treści tekstowe u konkretnej osoby jest ograniczona. W niniejszej pracy przedstawiamy badanie przeprowadzone na zbiorze danych zawierającym 7000 opinii, z których każda została zaanotowana przez około 50 osób na dwóch wymiarach: walencja, pobudzenie, oraz z intensywnością ośmiu emocji z modelu Plutchika. Nasze badanie wykazało, że indywidualne odpowiedzi często znacząco odbiegały od średniej. Dlatego też zaproponowaliśmy nową miarę do oszacowania tego efektu – Personal Emotional Bias (PEB). Opracowaliśmy również nową architekturę transformaty opartej na BERT, aby przewidzieć emocje z indywidualnej perspektywy człowieka. Stwierdziliśmy, że PEB jest głównym czynnikiem poprawiającym jakość spersonalizowanego rozumowania. Zarówno metoda jak i miara mogą podnieść jakość systemów rekomendacji treści oraz spersonalizowanych rozwiązań chroniących użytkowników przed mową nienawiści lub niepożądanymi treściami, które mają wysoce subiektywny charakter.
Link: ResearchGate
utworzone przez Sentimenti Team | lip 22, 2021 | Publikacje naukowe
Miejsce publikacji:
Behavior Research Methods
Tytuł:
Emotion norms for 6000 Polish word meanings with a direct mapping to the Polish wordnet
Autorzy:
Jan Kocoń, Arkadiusz Janz, Piotr Miłkowski, Monika Riegel, Małgorzata Wierzba, Artur Marchewka, Agnieszka Czoska, Damian Grimling, Barbara Konat, Konrad Juszczyk, Katarzyna Klessa, Maciej Piasecki
Abstrakt:
Leksykony emocji są przydatne w badaniach z różnych dziedzin, ale dostępność takich zasobów dla większości języków pozostaje ograniczona. Podczas gdy istniejące leksykony emocji zazwyczaj zawierają słowa, to konkretne znaczenie słowa (a nie samo słowo) przekazuje emocje. Aby złagodzić ten problem, przedstawiamy zbiór danych Emotion Meanings, nowatorski zbiór 6000 polskich znaczeń słów. Znaczenia słów pochodzą z polskiego wordnetu (plWordNet), dużej sieci semantycznej łączącej słowa za pomocą relacji leksykalnych i konceptualnych. Znaczenia słów były ręcznie oceniane pod kątem walencji i pobudzenia, wraz z różnymi podstawowymi kategoriami emocji (gniew, obrzydzenie, strach, smutek, oczekiwanie, szczęście, zaskoczenie i zaufanie). Adnotacje okazały się wysoce wiarygodne, o czym świadczy podobieństwo danych zebranych w dwóch niezależnych próbach: nienadzorowanej ( n = 21 317) i nadzorowanej ( n = 561). Chociaż stwierdziliśmy, że adnotacje są stosunkowo stabilne dla kobiet, mężczyzn, młodszych i starszych uczestników, dzielimy zarówno dane zbiorcze, jak i indywidualne, aby umożliwić badania emocji na różnych demograficznie specyficznych podgrupach. Znaczenia słów są dodatkowo uzupełnione o odpowiednie metadane, pochodzące z zasobów lingwistycznych typu open-source. Bezpośrednie mapowanie do Princeton WordNet sprawia, że zbiór danych nadaje się do badań nad wieloma językami. W sumie, ten zbiór danych stanowi wszechstronny zasób, który może być wykorzystany w badaniach nad emocjami w psychologii, kognitywistyce, psycholingwistyce, lingwistyce obliczeniowej i przetwarzaniu języka naturalnego.
Cytowanie BibTeX:
@incollection { ,
title = “Recognition of emotions, valence and arousal in large-scale multi-domain text reviews”,
author = “Kocoń, Jan and Janz, Arkadiusz and …, … and Juszczyk, Konrad and Klessa, Katarzyna and Piasecki, Maciej”,
editor = “Vetulani, Zygmunt and Paroubek, Patrick”,
booktitle = “Human Language Technologies as a Challenge for Computer Science and Linguistics”,
year = “2019”,
pages = “274-280”,
}
utworzone przez Sentimenti Team | cze 29, 2021 | Publikacje naukowe
Miejsce publikacji:
- 9th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics
Tytuł:
Recognition of emotions, valence and arousal in large-scale multi-domain text reviews
Autorzy:
Jan Kocoń, Arkadiusz Janz, Piotr Miłkowski, Monika Riegel, Małgorzata Wierzba, Artur Marchewka, Agnieszka Czoska, Damian Grimling, Barbara Konat, Konrad Juszczyk, Katarzyna Klessa, Maciej Piasecki
Abstrakt:
W tym artykule prezentujemy nowy, wielodziedzinowy zbiór danych polskich recenzji tekstowych. Dane zostały zaanotowane w ramach dużego badania z udziałem ponad 20 000 uczestników. Łącznie 7000 tekstów zostało opisanych metadanymi, każdy tekst otrzymał około 25 anotacji dotyczących polaryzacji, pobudzenia i ośmiu podstawowych emocji, oznaczonych na wielopoziomowej skali. Przedstawiamy wstępne podejście do etykietowania danych na podstawie rozkładu ręcznych adnotacji oraz do klasyfikacji etykietowanych danych z wykorzystaniem regresji logistycznej i dwukierunkowych rekurencyjnych sieci neuronowych z pamięcią długotrwałą i krótkotrwałą.
Link:
ResearchGate
Cytowanie BibTeX:
@incollection { ,
title = “Recognition of emotions, valence and arousal in large-scale multi-domain text reviews”,
author = “Kocoń, Jan and Janz, Arkadiusz and …, … and Juszczyk, Konrad and Klessa, Katarzyna and Piasecki, Maciej”,
editor = “Vetulani, Zygmunt and Paroubek, Patrick”,
booktitle = “Human Language Technologies as a Challenge for Computer Science and Linguistics”,
year = “2019”,
pages = “274-280”,
}
Pełna treść:
LTC2019_Recognition_of_emotions__polarity_and_arousal_in_large_scale_multi_domain_text_reviews
utworzone przez Agnieszka Czoska | kwi 9, 2020 | Okiem badacza
Jesteś w Sentimenti od samego początku. Jak to wyglądało w 2016 roku?
Pomysł biznesowy na badania emocji w tekście wyszedł od firmy W3A.PL z Poznania. Po konsultacjach ze środowiskiem poznańskich psychologów, kognitywistów i lingwistów powstał szkic projektu do NCBiR (Narodowe Centrum Badań i Rozwoju) i rozpoczęło się poszukiwanie podwykonawców. Po szacowaniu rynku okazało się, że dwie jednostki są w stanie podjąć się tak zaawansowanych prac badawczych: LOBI IBD PAN oraz Grupa Technologii Językowych Politechniki Wrocławskiej.
Kiedy już dostaliście grant – jak zaczynaliście pracę?
Jako kierowniczka badawcza byłam odpowiedzialna za organizację pracy zespołu. Ważne dla mnie było, aby zespoły naukowe podwykonawców oraz zespół biznesowy połączyć w jeden zespół. Styk biznesu i nauki nie jest łatwy. W zespole Sentimenti wszyscy – prezesi, doktorzy habilitowani i magistranci – zwracają się do siebie po imieniu, każda osoba ma prawo wypowiedzieć swoją opinię i podejmować decyzje.
Jesteś kierowniczką badawczą i scrum masterką naszego zespołu – ile musiałaś się nauczyć, żeby nią zostać?
Metodyki zarządzania Scrum dla projektów B+R nauczyłam się w Wielkiej Brytanii, gdzie pracowałam w projekcie Argument Analitycs prowadzonym we współpracy z University of Dundee, a finansowanym przez Innovate UK, czyli brytyjski odpowiednik NCBiR. Zrozumiałam wtedy, że kluczową sprawą we współpracy nauki i biznesu jest dobra komunikacja. Wspólny zespół, najlepiej pracujący w jednym miejscu, częste spotkania i ewaluacja wyników, aby sprawdzić, czy faktycznie o to nam chodzi – to serce dobrych projektów. Wiele innych projektów B+R, które obserwowałam, nie osiągało wyznaczonych celów właśnie przez taki brak komunikacji.
Jak metoda scrum różni się od Twoich dotychczasowych doświadczeń projektowych?
Jestem naukowczynią i większość swojego doświadczenia zdobywałam w pracy akademickiej i badaniach podstawowych. Przejście do badań stosowanych nie było łatwe, ale dużo dała mi brytyjska kultura otwartości, komunikacji i szacunku – które to wartości są wpisane w Scrum i które przenosimy na nasz zespół.
Ważne są też trzy filary Scrum: przejrzystość, inspekcja i adaptacja. Przejrzystość oznacza, że każda osoba w zespole – nawet nowa i nie znająca tematu – ma dostęp do wszystkich informacji (oczywiście, za wyjątkiem informacji poufnych). Bardzo pomaga to w przezwyciężaniu kryzysów, szukaniu rozwiązania.
A czym są inspekcja i adaptacja?
Inspekcja to częste i krótkie spotkania “przeglądowe”, podczas których sprawdzamy, co udało się już zakończyć, czy nie mamy jakichś przeszkód, którymi kierownictwo projektu powinno się zająć, czy ktoś nie ma za dużo lub za mało pracy. Pomaga to opanować naturalną cechę projektów badawczych – nieprzewidywalność. Kiedy wyniki są inne niż oczekiwaliśmy lub kiedy dostajemy od biznesu informację, że jakieś rozwiązanie nie działa – możemy szybko przeprowadzić adaptację.
Jak widzisz dalszy rozwój Sentimenti?
W lutym zakończyliśmy już prace badawcze i przeszliśmy do prac rozwojowych, czyli korzystamy z zebranej wiedzy i danych w pracach nad Sentitoolem – naszym głównym narzędziem do analizy tekstów. Dzięki temu, że stosujemy podejście iteracyjne, wdrażamy funkcjonalności dodając je w kolejnych wersjach produktu, a jednocześnie – zgodnie z metodyką Scrum – każdy Sprint (etap prac w Scrum) kończymy działającym produktem. Mamy w tej chwili działające oprogramowanie rozpoznające osiem emocji w tekstach w języku polskim, dzięki badaniom na ponad 20 tys. osób. Już teraz jest to rozwiązanie przewyższające zakresem inne obecne na rynku, a szykujemy dwie kolejne wersje.
W kolejnej wersji Sentimenti włączymy moduł używający LSS (ang. Lexical Syntactic Structures), czyli takich elementów języka, które wpływają na ocenę, np dobry + nie, + bardzo, + trochę. Następnie dołączymy moduł, który stosuje technologię głębokich sieci neuronowych (ang. deep neural networks), a ściślej – BiLSTM (ang. bidirectional long short-term memory neural networks), dzięki czemu potrafi oceniać emocje w całym tekście od razu – i to jest rozwiązanie unikalne na skalę polską, ale też światową. Wkrótce ukaże się nasza publikacja naukowa o tym module.
W projekcie stosujemy zatem szybkie prototypowanie, a równolegle do prac zespołu naukowego firma wdraża każde nowe rozwiązanie dla klientów – ponieważ mamy ogromne zainteresowanie rynku naszymi rozwiązaniami. Dzięki temu osiągnęliśmy już znacznie lepsze wyniki (i szybciej), niż planowaliśmy na początku.