研究

8 つのシステム・研究ラインを紹介します。共通するテーマは コンピュータに人間の感情と言語を理解させること — とりわけ日本語、とりわけオンライン上のテキスト、そして近年では、誰も道具を作っていないような言語の支援にも取り組んでいます。

ML-Ask · 感情分析システム

情緒要素・情緒表現・Russell の二次元感情空間に基づく、日本語向け感情分析。

ML-Ask 感情辞書

ML-Ask(eMotive eLement and Expression Analysis system)は、キーワード方式・言語依存型の日本語感情自動解析システムです。発話における話者の感情状態は 情緒的 な発話に含まれる情緒表現によって伝達される、という素朴な言語学的仮定に基づいています。まず文が情緒的か否かを判定し、情緒的な文に限って、どのタイプの感情が表現されているかを推定します。

システムの二つの中核は 情緒素(emotemes)と 情緒表現 です。情緒素は感情の種類は特定せず、情緒性そのものを示すマーカーで、間投詞(すごい)、擬音語・擬態語(わくわく)、俗語的形態素(〜やがる)、感嘆文末記号(「!」「??」)などが含まれます。情緒表現は感情そのものを名指す語彙群で、名詞(愛情)、動詞(悲しむ)、形容詞、定型句などです。表現データベースは中村明『感情表現辞典』をもとに、古典的な日本語 10 感情(喜・怒・哀・恐・恥・好・厭・昂・安・驚)に分類された約 2,100 表現で構成されます。

ML-Ask は 文脈的価値転換子(Contextual Valence Shifters)(Polanyi & Zaenen, 2006)も実装しており、日本語の否定パターン 108 種類を扱います。また検出された感情を Russell の二次元感情モデル(快–不快 × 覚醒–沈静)上に写像することで、下流タスクが 10 種の離散ラベルではなく、ポジティブ・覚醒ネガティブ・沈静 といったムード次元で扱えるようにしています。

試すML-Ask オンラインデモ ↗
ダウンロード 辞書 v2024(2.4 MB) CVS 構造 ML-Ask 4.3(Perl)
ライセンスNew BSD(3 条項)

推奨引用文献

  • Michal Ptaszynski, Pawel Dybala, Rafal Rzepka, Kenji Araki, "Affecting Corpora: Experiments with Automatic Affect Annotation System — A Case Study of the 2channel Forum". PACLING-09, Sapporo, 2009.
  • Michal Ptaszynski, Pawel Dybala, Wenhan Shi, Rafal Rzepka, Kenji Araki, "A System for Affect Analysis of Utterances in Japanese Supported with Web Mining". J. Japan Society for Fuzzy Theory and Intelligent Informatics, 21(2), 2009. PDF ↗

CAO · 顔文字解析システム

1 万種を超える日本語顔文字を、目・口・両端の枠に分解し、感情ラベルへと再構成。

CAO ロゴ

CAO は日本語の絵記号系顔文字((^_^) / orz / (╯°□°)╯ など、オンラインコミュニケーションで広く用いられる象形的グリフ)を全自動で解析するシステムです。入力文字列から顔文字を検出し、それぞれを特定の感情タイプに割り当てます。

処理は二段階で進みます。まず、あらかじめ収集された 1 万種以上の顔文字データベース との照合を行います。データベースに無い新しい顔文字に対しては、目・口・枠の意味的部分への 構造分解 を行い、各部分が持つ感情分布(データベース内の共起から学習)から、結合確率として最終ラベルを求めます。設計は Birdwhistell の非言語コミュニケーション理論(kinesics)に基づいています。

ダウンロード 全顔文字(長さ順) 三つ組(目-口-目) 口 + 頻度 目 + 頻度 単体検出ツール(Perl)
ライセンスNew BSD(3 条項)
受賞2011 年 IEEE 札幌支部奨励賞。

推奨引用文献

  • Michal Ptaszynski, Jacek Maciejewski, Pawel Dybala, Rafal Rzepka, Kenji Araki, "CAO: A Fully Automatic Emoticon Analysis System Based on Theory of Kinesics". IEEE Transactions on Affective Computing, 1(1), pp. 46–59, 2010.
  • Michal Ptaszynski, Jacek Maciejewski, Pawel Dybala, Rafal Rzepka, Kenji Araki, "CAO: A Fully Automatic Emoticon Analysis System". AAAI-10, Atlanta, 2010.

ネットいじめの自動検出

ML-Ask + SVM から、特許化された PMI-IR 法まで — 日本語の実データに基づくアノテーション付きデータセットを基盤に。

ネットいじめプロジェクト ポスター

本研究は 2009 年 9 月、PACLING の懇親会で桝井文人先生から、学校の非公式サイトに書き込まれたネットいじめの収集を続けているという話を伺ったところから始まりました。三重県人権センターが手作業で監視を試みていたものの、対象ページが急増し、教員や PTA の人手では追いつかない状況にありました。「自動でトリアージできないか」という問いは、ごく自然なものでした。

最初の手法(AISB 2010)では、ML-Ask により 俗語と暴力的語彙 が最も識別力の高い特徴であることを示し、専用辞書を SVM に投入しました。SVM はやがて性能の頭打ちに達します — 日本語のネットいじめは言葉遊びが多く、語のみでは文脈を捉えきれません。そこで SO-PMI-IR に移行しました。鍵となったのは、Turney の手法を単語ではなく フレーズ に適用したことです。これで多くの曖昧性が解消され、さらに種語をグループ化することで(Nitta et al., IJCNLP 2013)精度が向上し、最終的に特許として出願されました(特開 2015-103210)。

現在は次の 3 方向で研究を進めています。(1) 公開可能な前処理 — 個人情報を被害者の特定ができない程度に十分マスクし、他研究機関と共有可能なデータ形式にする。(2) 学生プロジェクトと連携した辞書拡張・パラメータ最適化による PMI 法の精緻化。(3) 言語コンビナトリクスに基づくパターンマイニングによる、頻出するネットいじめ表現構造の自動抽出。

特許特開 2015-103210(被害検出のための SO-PMI-IR) ↗
広報活動 Facebook プロジェクトページ
協力機関三重県人権センター・Parental Options(米国)

主要文献

  • Michal Ptaszynski, Pawel Dybala, Tatsuaki Matsuba, Fumito Masui, Rafal Rzepka, Kenji Araki, "Machine Learning and Affect Analysis Against Cyber-Bullying". AISB'10, Leicester, 2010.
  • Michal Ptaszynski, Pawel Dybala, Tatsuaki Matsuba, Fumito Masui, Rafal Rzepka, Kenji Araki, Yoshio Momouchi, "In the Service of Online Order: Tackling Cyber-Bullying with Machine Learning and Affect Analysis". Int'l J. Computational Linguistics Research, 1(3), 135–154, 2010.
  • Taisei Nitta, Fumito Masui, Michal Ptaszynski, Yasutomo Kimura, Rafal Rzepka, Kenji Araki, "Detecting Cyberbullying Entries on Informal School Websites Based on Category Relevance Maximization". IJCNLP 2013, Nagoya, pp. 579–586. PDF ↗
  • Michal Ptaszynski, Fumito Masui, Yasutomo Kimura, Rafal Rzepka, Kenji Araki, "Brute Force Works Best Against Bullying". IJCAI-15 IP Workshop, Buenos Aires, 2015.

YACIS · Yet Another Corpus of Internet Sentences

56 億語の日本語ブログ本文 — 単一ジャンル日本語コーパスとして我々の知る限り最大の感情アノテーション付きデータセット。

コーパス

YACIS は、NLP と感情情報処理の研究のためにスクレイピング・重複除去・原形化を施した大規模日本語ブログコーパスです。看板は約 56 億語のトークン規模(Ameba ブログ群を中心に)ですが、技術的に興味深いのは アノテーション層 です。全コーパスを ML-Ask 4.2(「fast and furious」ブランチ)と CAO に通し、文単位の感情ラベルと顔文字単位の感情タグを付与しました。KWDLC のような整った書き言葉コーパスでは得られない、口語的日本語における実世界の感情分布を提供する点で、下流タスクに有用です。

ML-Ask 4.2 の正規表現プリコンパイルと顔文字検出の書き直し(ML-Ask 4.0 比 約 10 倍高速化)は、YACIS を有限時間でアノテーションするために必要だったことが直接の動機です。

SPEC · 文パターン抽出アーキテクチャ

言語非依存に、n 要素の順序付き組み合わせを抽出する — n-gram のより柔軟な親戚。

SPEC ロゴ

SPEC は「文パターン」を、文の構成要素(トークン、文字、品詞タグ、あるいはユーザー定義の任意の単位)の n 要素順序付き組合せとして定式化します。n-gram と違って組合せが連続である必要はなく、A … B … C というパターンは、間に任意の要素を挟んで A、B、C をこの順で含む文すべてにマッチします。これにより、ネットいじめ表現(「お前」… 「死ね」)や、手がかり語が離れた皮肉表現の検出といったタスクで、n-gram より高い表現力を発揮します。

アーキテクチャは言語非依存です。トークナイザは差し替え可能で、同一エンジンを日本語(MeCab)、ポーランド語、アイヌ語に適用しています。

POST-AL · アイヌ語品詞タガー

北日本の先住民言語であり、消滅危機にあるアイヌ語のための NLP ツール。

アイヌ語研究

アイヌ語(北海道とサハリンの先住民言語)は UNESCO により 消滅の危機が極めて深刻 に分類されています。流暢な話者は 100 名を切り、下流 NLP のためのデジタル基盤 — トークナイザ、品詞タガー、使い物になる辞書 — はほぼ存在しません。POST-AL はそのギャップを少しでも埋めるための取り組みです。

タガーには次の関連研究が並行して進んでいます。(1) 国立アイヌ民族博物館のアイヌ語口承文芸アーカイブからのコーパス収集、(2) ローマ字 ⇔ カタカナの転写、(3) 極小規模学習データでの機械翻訳実験。プロジェクト全体は 言語復興技術 という大きな傘の下にあります — 学習者用アプリ、辞書、検索 UI など、将来の応用がよりどころにできる NLP ツールキットの整備を目指しています。

感情の文脈的適切性

「どの感情か」だけでなく — その感情はその文脈にふさわしかったか?

感情分析は通常「この発話は怒りだ」というラベル付けで止まります。しかし、適切な文脈での怒りは健全な感情表現である一方、不適切な文脈での怒りはハラスメント、皮肉、あるいは荒らしになり得ます。本プロジェクトは標準的な感情分析の上に第二の判断を加えます — 表出された感情はその発話状況に対して 適切 だったか。

本手法は感情分析エンジン(ML-Ask)と ウェブマイニング 段を組み合わせます。同種の状況において人々が通常どう感じるかを記述した文をオープンウェブから収集し、そこから得られる「期待される感情分布」と、実際に観測された感情分布とを比較します。対話エージェント内に組み込むと、適切性シグナルにより誠実な発話と皮肉的・不適切な発話を区別し、それに応じた応答を生成できるようになります。

対話エージェントの自動評価

感情分析をユーザー満足度の代理指標として用いる、日本語チャットボット評価。

日本語の対話エージェントを作るのは難しいですが、評価する のはさらに難しい。会話後アンケートは遅く、コストが高く、新近性バイアスもかかります。私たちは 会話中の感情分析そのもの を、ゼロコストの連続値プロキシとして用いることを提案しています — ユーザーがエージェントと話している最中、感情的にどれだけ関与しているか。

運用上は、ユーザー発話に対して ML-Ask をリアルタイム実行し、ターン単位の感情シグナルを出力します。対話全体で集約したシグナルは、私たちの実験では、事後アンケートでの満足度評価とよく相関しました。つまり感情分析の時系列は、離散的なアンケート値の連続時間的代替として十分に妥当性があると示唆されます。