Badania

Osiem systemów i kierunków badawczych. Wszystkie łączy ta sama nić: nauczyć komputer rozumieć ludzkie emocje i ludzki język — zwłaszcza japoński, zwłaszcza w sieci, a coraz częściej również dla języków, dla których nikt inny nie buduje narzędzi.

ML-Ask · system analizy afektu

Elementy emotywne, wyrażenia emotywne i 2D mapa afektu Russella — dla japońskiego.

ML-Ask — eMotive eLement and Expression Analysis system — to słownikowy, zależny od języka system automatycznej anotacji afektu dla wypowiedzi w języku japońskim. Opiera się na prostym założeniu lingwistycznym: stan emocjonalny mówcy przekazują wyrażenia emocjonalne pojawiające się w wypowiedziach emotywnych. ML-Ask najpierw rozstrzyga, czy zdanie w ogóle jest emotywne, a następnie — wyłącznie wewnątrz zdań emotywnych — szuka wyrażeń konkretnych typów emocji.

System opiera się na dwóch składnikach. Emotemy to słowa-sygnały oznaczające emotywność bez wskazywania konkretnej emocji — wykrzykniki (すごい sugoi), wyrażenia mimetyczne (わくわく wakuwaku), morfemy wulgarne (〜やがる -yagaru) oraz emotywne znaki interpunkcyjne („!”, „??”). Wyrażenia emotywne to słowa nazywające samą emocję — rzeczowniki (愛情 aijou, miłość), czasowniki (悲しむ kanashimu, smucić się), przymiotniki i utarte zwroty. Baza wyrażeń bazuje na słowniku Emotive Expression Dictionary autorstwa Akiry Nakamury, posortowanym na dziesięć klasycznych japońskich typów emocji (radość, gniew, smutek, strach, wstyd, sympatia, niechęć, podniecenie, ulga, zaskoczenie) — łącznie około 2 100 wyrażeń.

ML-Ask implementuje również Contextual Valence Shifters (Polanyi & Zaenen, 2006) — 108 japońskich wzorców negacji — i rzutuje wykrytą emocję na dwuwymiarowy model afektu Russella (walencja × pobudzenie), tak aby aplikacje wyższego rzędu mogły operować na nastrojach pozytywnie pobudzonych czy negatywnie wyciszonych zamiast na dziesięciu dyskretnych etykietach.

Wypróbujdemo ML-Ask online ↗

Pobierz Leksykon v2024 (2,4 MB) Struktury CVS ML-Ask 4.3 (Perl)

LicencjaNew BSD (3-Clause)

Preferowane cytowania

Michal Ptaszynski, Pawel Dybala, Rafal Rzepka, Kenji Araki, "Affecting Corpora: Experiments with Automatic Affect Annotation System — A Case Study of the 2channel Forum". PACLING-09, Sapporo, 2009.
Michal Ptaszynski, Pawel Dybala, Wenhan Shi, Rafal Rzepka, Kenji Araki, "A System for Affect Analysis of Utterances in Japanese Supported with Web Mining". J. Japan Society for Fuzzy Theory and Intelligent Informatics, 21(2), 2009. PDF ↗

CAO · system analizy emotikonów

Ponad 10 000 japońskich kaomoji, rozłożonych na oczy / usta / obramowanie i z powrotem złożonych w emocje.

CAO to w pełni automatyczny analizator japońskich emotikonów typu kaomoji — rodziny piktograficznych glifów ((^_^) / orz / (╯°□°)╯) dominujących w japońskiej komunikacji online. Z dowolnego łańcucha tekstowego identyfikuje emotikony i przypisuje je do konkretnych typów emocji.

Potok pracuje dwuetapowo. Najpierw — wyszukiwanie w bazie liczącej ponad dziesięć tysięcy wstępnie zebranych emotikonów. Dla glifów spoza bazy — a zawsze pojawiają się nowe — CAO wykonuje dekompozycję strukturalną na regiony semantyczne: oczy, usta i znaki obramowujące. Każdy region nosi własny rozkład emocji wyuczony ze współwystąpień w bazie, a etykietą wynikową jest łączne prawdopodobieństwo wszystkich regionów. Projekt jest osadzony w kinesyce — teorii komunikacji niewerbalnej Birdwhistella.

Pobierz Wszystkie emotikony (posortowane) Trójki (oko-usta-oko) Usta + częstości Oczy + częstości Samodzielny detektor (Perl)

LicencjaNew BSD (3-Clause)

NagrodaIEEE Sapporo Section Encouragement Award 2011.

Preferowane cytowania

Michal Ptaszynski, Jacek Maciejewski, Pawel Dybala, Rafal Rzepka, Kenji Araki, "CAO: A Fully Automatic Emoticon Analysis System Based on Theory of Kinesics". IEEE Transactions on Affective Computing, 1(1), pp. 46–59, 2010.
Michal Ptaszynski, Jacek Maciejewski, Pawel Dybala, Rafal Rzepka, Kenji Araki, "CAO: A Fully Automatic Emoticon Analysis System". AAAI-10, Atlanta, 2010.

Automatyczne wykrywanie cyberprzemocy

Od ML-Ask + SVM do opatentowanej metody PMI-IR — na jedynym anotowanym zbiorze rzeczywistych japońskich treści cyberprzemocowych.

Badania zaczęły się we wrześniu 2009 r., podczas bankietu PACLING-u, gdy prof. Fumito Masui wspomniał, że od dłuższego czasu zbiera wpisy z nieoficjalnych witryn japońskich szkół — tych, których japońskie Centrum Praw Człowieka Prefektury Mie próbowało dotąd doglądać ręcznie. Liczba podejrzanych stron przerosła możliwości nauczycieli i rodziców z komitetów rodzicielskich, więc pojawiło się naturalne pytanie: czy można zautomatyzować segregację?

Pierwsza opublikowana metoda (AISB 2010) używała ML-Ask do wykazania, że najmocniejszymi cechami dyskryminacyjnymi są słownictwo wulgarne i agresywne; następnie zasilała tym leksykonem klasyfikator SVM. SVM-y w pewnym momencie się zatrzymały — japońska cyberprzemoc obfituje w grę słów, a same słowa gubią kontekst — więc przeszliśmy na SO-PMI-IR. Sztuczka polegała na zastosowaniu metody Turneya nie do pojedynczych słów, lecz do fraz; rozwiązało to większość niejednoznaczności, a dalsze grupowanie słów zarodkowych (Nitta i in., IJCNLP 2013) podniosło skuteczność na tyle, że metoda została w końcu opatentowana (JP 2015-103210).

Aktualne prace idą w trzech kierunkach: (1) opracowanie wersji preprocessingu nadającej się do udostępnienia — maskowanie danych osobowych na poziomie pozwalającym dzielić zbiór z innymi laboratoriami bez ujawniania ofiar; (2) dalsze ulepszanie metody PMI w projektach studenckich poświęconych rozszerzaniu leksykonu i optymalizacji parametrów; (3) odkrywanie powtarzalnych konstrukcji cyberprzemocowych metodą eksploracji wzorców opartą na kombinatoryce językowej.

PatentJP 2015-103210 (SO-PMI-IR do wykrywania szkód) ↗

Promocja strona projektu na Facebooku

PartnerzyCentrum Praw Człowieka Prefektury Mie · Parental Options (USA)

Kluczowe pozycje

Michal Ptaszynski, Pawel Dybala, Tatsuaki Matsuba, Fumito Masui, Rafal Rzepka, Kenji Araki, "Machine Learning and Affect Analysis Against Cyber-Bullying". AISB'10, Leicester, 2010.
Michal Ptaszynski, Pawel Dybala, Tatsuaki Matsuba, Fumito Masui, Rafal Rzepka, Kenji Araki, Yoshio Momouchi, "In the Service of Online Order: Tackling Cyber-Bullying with Machine Learning and Affect Analysis". Int'l J. Computational Linguistics Research, 1(3), 135–154, 2010.
Taisei Nitta, Fumito Masui, Michal Ptaszynski, Yasutomo Kimura, Rafal Rzepka, Kenji Araki, "Detecting Cyberbullying Entries on Informal School Websites Based on Category Relevance Maximization". IJCNLP 2013, Nagoya, pp. 579–586. PDF ↗
Michal Ptaszynski, Fumito Masui, Yasutomo Kimura, Rafal Rzepka, Kenji Araki, "Brute Force Works Best Against Bullying". IJCAI-15 IP Workshop, Buenos Aires, 2015.

YACIS · Yet Another Corpus of Internet Sentences

5,6 miliarda słów japońskich blogów — największy znany nam jednogatunkowy japoński korpus z anotacją afektywną.

korpus

YACIS to wielkoskalowy korpus japońskich zdań blogowych — pobranych ze stron Ameby, odfiltrowanych z duplikatów i zlematyzowanych — przeznaczony do badań z zakresu NLP i obliczeń afektywnych. Najgłośniejsza liczba to ~5,6 mld tokenów słownych, ale ciekawszą technicznie warstwą jest warstwa anotacji: cały korpus przeszedł przez ML-Ask 4.2 (gałąź „fast and furious”) i CAO, co dało etykiety afektywne na poziomie zdań oraz oznaczenia emocji dla każdego emotikonu. Dzięki temu YACIS jest niezwykle użyteczny dla zadań wymagających rzeczywistych rozkładów emocji w nieformalnym japońskim — rozkładów, których nie da się uzyskać z korpusów formalnych w rodzaju KWDLC.

Prekompilacja wyrażeń regularnych i przepisanie wykrywania emotikonów w ML-Ask 4.2 (≈10× szybciej niż ML-Ask 4.0) wzięły się bezpośrednio z tego, co było potrzebne, by zaanotować YACIS w skończonym czasie.

SPEC · Sentence Pattern Extraction Architecture

Niezależna od języka ekstrakcja n-elementowych uporządkowanych kombinacji — elastyczniejszy kuzyn n-gramów.

SPEC formalizuje „wzorzec zdaniowy” jako n-elementową uporządkowaną kombinację elementów zdania (tokenów, znaków, etykiet POS lub dowolnych jednostek zdefiniowanych przez użytkownika). W przeciwieństwie do n-gramów kombinacja nie musi być ciągła: wzorzec A … B … C dopasowuje się do dowolnego zdania zawierającego A, B, C w tej kolejności i z dowolnym materiałem pomiędzy. Czyni to SPEC bardziej ekspresywnym niż n-gramy w zadaniach takich jak wykrywanie konstrukcji cyberprzemocowych (「お前」… 「死ね」) czy ironii, gdzie wskaźniki słowne bywają oddalone od siebie.

Architektura jest niezależna od języka: tokenizacja jest wymienialna, a ten sam silnik wykorzystaliśmy dla japońskiego (z MeCabem), polskiego oraz ajnuskiego.

POST-AL · tager POS dla języka ajnuskiego

Narzędzia NLP dla krytycznie zagrożonego języka rdzennej ludności północnej Japonii.

Język ajnuski — rdzenny język Hokkaido i Sachalinu — jest przez UNESCO sklasyfikowany jako krytycznie zagrożony wymarciem. Pozostało mniej niż stu biegłych użytkowników, a narzędzi cyfrowych prawie nie ma: brak tokenizera, brak tagera POS, brak użytecznego leksykonu dla dalszego NLP. POST-AL jest naszym skromnym wkładem w wypełnienie tej luki.

Tager powstaje równolegle z pracami nad: (1) zbieraniem korpusu z Archiwum Ustnej Literatury Ajnuskiej przy Narodowym Muzeum Ajnuskim; (2) transliteracją z romanizacji na katakanę; (3) eksperymentami z tłumaczeniem maszynowym przy bardzo małych zbiorach uczących. Szerszy projekt mieści się pod hasłem technologii rewitalizacji języków — chodzi o stworzenie wystarczająco rozbudowanego zestawu narzędzi NLP, aby przyszłe aplikacje dla osób uczących się, słowniki czy wyszukiwarki miały na czym się oprzeć.

DemoPOST-AL — demo online

Powiązanemodele na Hugging Face ↗

Kontekstowa adekwatność emocji

Nie tylko jaka emocja została wyrażona — czy była adekwatna do kontekstu?

Analiza sentymentu zwykle kończy się na etykiecie: „ta wypowiedź jest gniewna”. Tymczasem gniew w odpowiednim kontekście jest zdrową reakcją; gniew w niewłaściwym kontekście to nękanie, ironia albo trollowanie. Ten projekt nakłada na standardową analizę afektu drugi osąd: czy wyrażona emocja była adekwatna w danej sytuacji.

Metoda łączy moduł analizy afektu (ML-Ask) z krokiem eksploracji sieci: zbiera z otwartego internetu zdania opisujące, co ludzie zwykle czują w sytuacjach tego samego rodzaju, a następnie zestawia uzyskany „oczekiwany” rozkład emocji z rozkładem rzeczywistym. Zaimplementowana wewnątrz agenta konwersacyjnego, sygnał adekwatności pozwala mu odróżnić wypowiedzi szczere od ironicznych czy nieodpowiednich — i odpowiednio dobrać reakcję.

Automatyczna ewaluacja agentów konwersacyjnych

Analiza afektu jako wskaźnik zastępczy zadowolenia użytkowników japońskich chatbotów.

Budowanie japońskich agentów konwersacyjnych jest trudne; ewaluacja jest trudniejsza. Ankiety po rozmowie są wolne, kosztowne i obciążone efektem świeżości. Proponujemy używać analizy afektu w trakcie samej rozmowy jako ciągłego, zerokosztowego wskaźnika zastępczego: na ile użytkownik jest emocjonalnie zaangażowany, rozmawiając z agentem.

Operacyjnie ML-Ask działa na bieżąco na wypowiedziach użytkownika, dostarczając sygnał afektywny w każdej turze. Zagregowany w obrębie całego dialogu, dobrze koreluje (w naszych eksperymentach) z punktacją zadowolenia, jaką użytkownicy podaliby później w ankiecie — co sugeruje, że ślad analizy afektywnej jest sensownym ciągłym odpowiednikiem dyskretnych danych ankietowych.