ML-Ask(eMotive eLement and Expression Analysis system)は、キーワード方式・言語依存型の日本語感情自動解析システムです。発話における話者の感情状態は 情緒的 な発話に含まれる情緒表現によって伝達される、という素朴な言語学的仮定に基づいています。まず文が情緒的か否かを判定し、情緒的な文に限って、どのタイプの感情が表現されているかを推定します。
Michal Ptaszynski, Pawel Dybala, Rafal Rzepka, Kenji Araki, "Affecting Corpora: Experiments with Automatic Affect Annotation System — A Case Study of the 2channel Forum". PACLING-09, Sapporo, 2009.
Michal Ptaszynski, Pawel Dybala, Wenhan Shi, Rafal Rzepka, Kenji Araki, "A System for Affect Analysis of Utterances in Japanese Supported with Web Mining". J. Japan Society for Fuzzy Theory and Intelligent Informatics, 21(2), 2009. PDF ↗
CAO · 顔文字解析システム
1 万種を超える日本語顔文字を、目・口・両端の枠に分解し、感情ラベルへと再構成。
CAO は日本語の絵記号系顔文字((^_^) / orz / (╯°□°)╯ など、オンラインコミュニケーションで広く用いられる象形的グリフ)を全自動で解析するシステムです。入力文字列から顔文字を検出し、それぞれを特定の感情タイプに割り当てます。
Michal Ptaszynski, Jacek Maciejewski, Pawel Dybala, Rafal Rzepka, Kenji Araki, "CAO: A Fully Automatic Emoticon Analysis System Based on Theory of Kinesics". IEEE Transactions on Affective Computing, 1(1), pp. 46–59, 2010.
Michal Ptaszynski, Jacek Maciejewski, Pawel Dybala, Rafal Rzepka, Kenji Araki, "CAO: A Fully Automatic Emoticon Analysis System". AAAI-10, Atlanta, 2010.
Michal Ptaszynski, Pawel Dybala, Tatsuaki Matsuba, Fumito Masui, Rafal Rzepka, Kenji Araki, "Machine Learning and Affect Analysis Against Cyber-Bullying". AISB'10, Leicester, 2010.
Michal Ptaszynski, Pawel Dybala, Tatsuaki Matsuba, Fumito Masui, Rafal Rzepka, Kenji Araki, Yoshio Momouchi, "In the Service of Online Order: Tackling Cyber-Bullying with Machine Learning and Affect Analysis". Int'l J. Computational Linguistics Research, 1(3), 135–154, 2010.
Taisei Nitta, Fumito Masui, Michal Ptaszynski, Yasutomo Kimura, Rafal Rzepka, Kenji Araki, "Detecting Cyberbullying Entries on Informal School Websites Based on Category Relevance Maximization". IJCNLP 2013, Nagoya, pp. 579–586. PDF ↗
Michal Ptaszynski, Fumito Masui, Yasutomo Kimura, Rafal Rzepka, Kenji Araki, "Brute Force Works Best Against Bullying". IJCAI-15 IP Workshop, Buenos Aires, 2015.
SPEC は「文パターン」を、文の構成要素(トークン、文字、品詞タグ、あるいはユーザー定義の任意の単位)の n 要素順序付き組合せとして定式化します。n-gram と違って組合せが連続である必要はなく、A … B … C というパターンは、間に任意の要素を挟んで A、B、C をこの順で含む文すべてにマッチします。これにより、ネットいじめ表現(「お前」… 「死ね」)や、手がかり語が離れた皮肉表現の検出といったタスクで、n-gram より高い表現力を発揮します。