» ENGLISH
Kumiko Tanaka-Ishii's Group

コミュニケーションや自然言語に内在する普遍性を、ビッグデータを計算することを通して数理的に捉える試みを行っています。 そこで得られる基礎的な理解に基づき、コミュニケーションを支援するソフトウエアを構築しています。
計算言語学
x 言語の複雑さに関する数理モデル
x 文構造や語彙範疇に内在する数理
x 言語データに内在する普遍的性質
コミュニケーションの複雑系科学
x コミュニケーションのネットワーク構造
x 大規模情報拡散シミュレーター
x 情報拡散の制御
自然言語処理
x 教師無し手法に基づく文の解析
x 多言語処理
x 機械学習に基づく言語処理
コミュニケーションを支援するソフトウエア
x Web情報処理(検索、抽出、マイニングなど)
x 言語ユーザインターフェース
x 翻訳・校正・語学学習支援
情報検索・抽出
x 構造情報の検索・抽出手法
x 動的辞書
x web情報処理
最近の研究例
計算言語学
さまざまな言語データが入手可能となり、大規模な素材を前に言語研究は新たな局面を迎えています。当研究室では、言語に内在する普遍的性質を統計や情報理論の観点から数理モデルとして記述し、言語の基本的な性質を数理的観点から捉え直そうとしています。ここ数年は文構造に内在する数理に関する研究と、大域的な言語データに内在する普遍的性質の研究に力を入れています。
文書量に依存しない統計量 ---言語や文書の複雑さを調べる--- x
さまざまな文章の統計量の分散は、文章が長くなればなるほど増大します。しかし、各文書は全体であろうと一部であろうと、それ固有の性質を持つから一つの文書を為すとの考え方もあり、この固有の性質を指標として表すことが試みられてきました。特に文長に依存しない統計量としての文書定数が模索され、YuleがKを、GolcherがVを提案したことなどが知られています(右図は文書長に対するYuleのK)。このような定数の研究を通して、自然言語のもつ複雑さと、その幅のようなものを捉えようとしています。 初期のこの研究の成果により、言語処理学会論文誌『自然言語処理』の論文賞を2012年に受賞しました。
言語のエントロピーレート x
人の言語はどの程度複雑なのでしょうか?長さnの時系列の場合の数を、パラメータhを用いて2のhn乗として考えてみます。まずランダムなビット列の場合はh=1です。英語を仮に26文字と考えると英語の場合の数は26のn乗にはなりません。なぜなら、自然言語の場合、qの後にはuしか続かないなど言語的な制約がさまざまにあるからです。シャノンはh=1.3と算出していますが、hを推定することは難しい問題で、自然言語のhは未だにわかっていません。昨今では地球上のあらゆる自然言語のデータが集められています。さまざまな自然言語の複雑さをhの推定を通して数理的に捉えようとしています。
分節の統計的性質 ---言語単位はどのように得られるのか--- x
言語を単語や文字の要素列と見た場合、部分列に後続する要素の不確かさは文脈内では減少しますが、文脈を抜けた直後に増大します。図は、単語の切れ目ごとに後続文字の不確かさが増大する様子を図示しています。この性質は、音素列から形態素への分節、形態素列から単語への分節、単語から句への分節においてさまざまな言語に観察される現象です。この性質の普遍性を検証し、動的辞書の要素技術などに応用しています。


コミュニケーションネットワークの複雑系科学
ソーシャルメディアは社会に浸透し、多くの人にとって生活の一部となっています。ソーシャルメディアは人と人とのつながりから成り、複雑系ネットワークを構成します。そこで行われるコミュニケーションは社会に大きな影響をもたらします。本研究室では、複雑ネットワーク上でのコミュニケーションに関する研究を行っています。
大規模情報拡散シミュレーター             x
2011年に発生した東日本大震災時にはTwitterを用いて情報発信・収集が行われました。従来のテレビやラジオといったメディアとは異なり、ソーシャルメディア上での情報伝達は、人と人が直接に繋がって双方向で行われる点に特徴があります。災害時だけでなく、平時にもソーシャルメディア上で情報が拡散します。情報拡散に内在する数理的性質を調べるため、本研究室では、実際のソーシャルネットワーク構造をクローリングして収集し、1億ノードを超えるグラフ構造を再現し、その上で大規模な情報拡散シミュレーターを構築しています。情報拡散の速度や範囲を調べ、それを再現する情報伝搬の数理モデルを探求します。またネットワーク上では誤情報など問題ある情報も流れますが、それを検出し、抑制する方策にも考察しています。
ネットワーク構造と社会現象の関係 Logue screenshot
ソーシャルメディアに構築される複雑ネットワーク上では様々な社会現象が発生します。Twitterを例にとれば、情報の伝播や意見形成等の現象を見る事ができます。これらの現象は、個々のユーザの相互関係によって起きるため、その多くはネットワーク構造の影響を強く受けます。このネットワークの構造は多岐にわたります。様々なネットワーク構造上での数理モデルを用いたシミュレーションによって、ネットワーク構造とこれらの社会現象の関係について統計的な分析を行います。この研究について、臼井翔平が2013年人工知能学会全国大会奨励賞、2015年社会システム部会研究会奨励賞を受賞しました。
誤情報の拡散抑制 x
ソーシャルメディア上には様々な情報が行き交っています。ほとんどのユーザは情報の真偽を確かめずにそのまま他者に伝達してしまうため、誤情報が拡散することがあります。このようなフェイクニュースやデマはユーザを惑わし、混乱の原因となります。特に、災害時の誤情報は生命に関わる場合すらあります。誤情報の拡散の特性を、拡散経路や関わるユーザの特徴から調べ、誤情報を抑制する手法を考案します。
自然言語処理 情報検索・抽出
莫大量のデータがあふれ、高度な言語処理技術が求められています。当研究室では、言語処理に内在する共通の問題を数理的に捉え、新しい要素技術を研究しています。
穴空き定型携表現の抽出 x
「_月_日_時より_スタート!」「regard _ as _」など、穴空きの定型表現は文書には頻出し、特にツイートやブログでは多用されています。穴空きの定型表現は文法導出に相当し、難しい問題の一つです。研究室では、穴空きの定型表現を最小オートマトンを作成して抽出することを試みています。最小オートマトンは、できる限り重複を重ね合わせた構造を作ります。重複した部分は定型部分、そうでない部分は穴部分として捉えることによって穴空きの定型表現を得ます。基礎的な検証を経て、SNSからのパターン抽出など大規模な応用を考えています。

文書内のスタイル変化の検出 x
昨今の文書は一文書内に異なる性質のものが複数混じっていることがあります。たとえば、日本語の文書に英語やフランス語が混じっていたり、あるいは、異なる著者の文書が混じっていることもあります。異種の文書を切り分けて分離することは、高性能な言語処理を行うための前処理としての必要性があります。当研究室では、文書のスタイルの変化点を圧縮などの技法を用いて検出する方法を研究しています。山口洋君と共に取り組みました。

ソーティングによる文書の難易度判定 x
文書群を難易度の観点から評価することは、リーダビリティの分野において1940年前後から研究されてきています。昨今では機械学習を用いて回帰に基づく方法か、文書分類に基づく方法として実現されてきています。これに対し、当研究室は2文書の難易度を比較する比較器を機械学習により構成し、文書集合をこれを用いて整列することによる、まったく新しい難易度判定手法を考案しました。この手法では、文書の難易度は文書集合中の「順位」としてモデル化されます。文書に得点を付ける他の問題にも同じ手法は適用可能です。この研究は寺田博視君ならびに手塚智史君と共に行いました。

コミュニケーションを支援するソフトウエア
多様な人が多様なデバイスで多様な言語を用いる中、人間同士のコミュニケーションを支援することや、人と機械とのより良いインターフェースが求められています。当研究室では、特に言語の観点から、さまざまなソフトウエアやユーザインターフェースを構築しています。
Logue: 話し方分析システム Logue screenshot
人とコミュニケーションを行う上で、正しい話し方をすることは大切です。しかし、誰しも話し方に問題を持っています。たとえば、先生はいつもちょっとばかり声が大きいですし、Logueを開発したDaniel君は早口です。この他にも「えーと」が多かったり、滑舌が不明瞭などさまざまな問題があります。Logueは、そのような問題を指摘するiPhoneアプリです。スマートフォンの計算能力はそれほど高くはありませんし、現在の音声認識は上のような問題を抱える発話は認識しません。スマートフォン上でも動作する音声解析プログラムを独自に開発し、Logueはそれを利用して動作します。 Logueは、東大情報理工所属のDaniel Heffernan君の修士研究の成果です。ゆくゆくはアプリとして皆がダウンロードできるものになります。
picoTrans : 指さし翻訳              x
「旅の指さし会話帳」のように誰でもわかる絵(アイコン)を指さすことによるコミュニケーションは、古くから外交官の会話の手段でした。このアイコンの指さし機能を電子化して統計的機械翻訳を組み合わせ、携帯端末上の便利な翻訳インターフェースを構築しています。君を中心とし、NICTのAndrew Finch研究員ならびに隅田英一郎氏との共同研究を通して行っています。IUI2011においてBest Paper Awardを受賞しました。

非漢字圏母語話者のための漢字検索システム: 漢輔 x
日本語や中国語を学ぶ西洋人にとって漢字の検索はとても頭の痛い問題です。日本人にとって書き順は当然のことですが、外国人にとって書き順は未知のものですし、漢和辞典をひくこと自体が大変です。そこで、漢字に関する事前の知識なしで漢字を検索するためのシステム「漢輔」を構築しました。漢輔では、漢字を縦、横、その他の線の本数で検索します。たとえば、「東」は縦3本、横4本、そのほか2本として検索することができます。本研究テーマで2007年にJulian Godon君と共に言語処理学会大会優秀発表賞を受賞しています。