» ENGLISH
Kumiko Tanaka-Ishii Group

ー 自然言語を複雑系として数理的に捉える ー
自然言語を複雑系と捉え、言語データに内在する大域的性質ならびにその言語構造との関係を、フラクタルやカオスの視点から基礎的に研究しています。言語の数理構造をふまえ、言語の数理モデルを構築し、自然言語処理に応用しています。 (近刊とその改訂表)

複雑系としての言語の大域的特性は、金融やコミュニケーションネットワークなど社会的複雑系に共通する性質でもあります。この共通性を生かし、社会的複雑系の大規模な解析や予測を、言語的な視点から行っています。
計算言語学、自然言語の複雑系科学
x 統計に基づく言語の数理的性質
x 言語の非定常性特性、長期記憶の計測
x 言語の系のスケーリング則
x 言語の複雑さの量の計測
言語の数理モデル・言語構造の計算論的表現
x 言語の統計的性質を再現する言語の数理モデル
x 埋め込み表現手法
x 長期記憶と文法構造の数理的関係
x 複雑系の性質を持つ系列の機械学習手法
自然言語処理、言語的視点からの社会的複雑系の解析・予測
x 社会的対象の埋め込み表現獲得手法
x 記号的な観点からの金融データの深層学習
x 記号系の複雑系視点からの計算機表現とそれに基づく解析・予測
x 自然言語処理を利用したコミュニケーションネットワークマイニング
計算言語学、言語の複雑系科学
人の言語の系には、統計物理学的な経験則が成り立つことが知られています。研究室では大規模な実データに基づき、言語系を特徴付ける数理構造を探求しています。
長相関・ゆらぎ解析 x
複雑系の本質的な一面として、イベントが「塊として現れる性質」があります。たとえば、右図は、ある特定の単語群が時系列の中で現れる位置を示しており、上段ほど「稀」な単語に絞って表示しています。最上段を見ると、稀なイベントが塊として現れていることがわかります。統計物理学では、このような性質をゆらぎ解析や長相関として捉える方法論が研究されてきましたが、それは主として数値時系列に対する解析手法となっており、非数値的な時系列での計測方法は確立したとはいえません。研究室では、既存手法を改良し、安定してこのようなゆらぎを計測する方法を模索しています。得られた方法を利用し、系の複雑さを計量することも試みています。 関連論文例
言語の構造的複雑さの計量 x
大人に比べて子供の話し言葉はどの程度構造的に複雑なのでしょうか? また、歴史に残る名作は、Wikipediaに比べてどうでしょうか? 言語の構造的複雑さの考察については、文法に対する『チョムスキー階層』が知られ、 書き換えルールの制約によって言語が階層的に捉えられます。 研究室ではこれとは別に、文書に内在するスケーリング則から得られる統計量を利用し、 構造の複雑さを計量する方法を探求しています。 関連論文例
データの特性を表す統計量 x
様々な種類のデータに対して様々な統計量が数理的に考察されてきました。自然言語のテキストに対しては著者や言語種、ジャンルなど、その種類を量的に峻別する統計量とは何かが考えられてきました。例えば統計学者Yuleが提案したKがその一つで、これはRenyiの2次エントロピーと等価です。YuleのKはデータ量に依存しない統計量となっており、データの性質を安定的に表す統計量となっています。研究室では、データのスケーリング則との関連をふまえ、このような統計量として何があるかを探究しています。 (関連研究)

言語の数理モデル・言語構造の計算論的表現
複雑系として示される言語の性質を、現行の数理モデルが再現しえるのか、 その可能性と限界を吟味し、モデルの改善の方向性を探ります。 また、その性質が、言語の単語や文法などとどのように数理的に関係しているのかを探究しています。
深層学習と冪乗則 x
深層学習はデータのどのような側面を捉え、または捉えきれないのでしょうか。 複雑系としての記号の系にはさまざまな経験則が成り立つことが知られています。 研究室では、深層学習が生成する擬似データにどの程度の冪乗則が成り立っているか検証し、 従来の観点からは異なる観点から深層学習を吟味し、深層学習の改良につなげることを考えています。 たとえば右図は、文書は成り立つ長相関が文字レベル深層言語モデルでは成立しないことを示しています。 このような議論は自然言語以外の系、例えば金融市場にも適用することができます。 関連論文例 関連論文例
複雑な時系列の生成モデル x
生成モデルは、工学上の一つ重要なテーマで、ある系のサンプルを、擬似的に実現する方式のことです。生成モデルを探求することは、系の本質を捉え、それを実現する学習器の能力を吟味し、その構成を再考することにつながります。研究室では、マルコフモデル、文法的モデル、Simon生成過程など既存のモデルに加え、複雑系ネットワーク上のランダムウォーク、AutoencoderやAdversarialなど深層学習生成モデルも含め、複雑系を包括的に再現する試みを行っています。 (関連論文)
教師無し穴空き定型表現の抽出 x
「_月_日_時より_スタート!」「regard _ as _」など、穴空きの定型表現は文書には頻出し、特にツイートやブログでは多用されています。穴空きの定型表現は文法導出に相当し、難しい問題の一つです。研究室では、穴空きの定型表現を最小オートマトンを作成して抽出することを試みています。最小オートマトンは、できる限り重複を重ね合わせた構造を作ります。重複した部分は定型部分、そうでない部分は穴部分として捉えることによって穴空きの定型表現を得ます。基礎的な検証を経て、深層学習で実装し、SNSからのパターン抽出など応用を考えています。 関連論文例arxivへのリンク

自然言語処理、言語の視点からの社会的複雑系の解析・予測
言語、金融、コミュニケーションは社会的な系で、このような大規模な社会的な系にはいくつか普遍的な共通の数理的性質があることが知られています。研究室ではビッグデータを検証することを通して、この性質を正確に捉える試みを行い、得られた基礎的な理解に基づいて、社会実装につながる工学応用を言語の視点から模索しています。
テキストやコミュニケーション構造の価格に対する影響 x
2018年初頭のビットコインの暴落の背景には、社会的な要因がさまざまにあり ます。中でも、メディアの影響は大きく、ニュース報道や、TwitterなどのSNS での真偽入れ混じった情報拡散が大影響を与えています。 研究室では、株価や仮想通貨のデータを集積し、ニュースやTwitterが価格変動に与える影響を分析し, 文書の中から価格に影響を与えるであろう情報のマイニングを試みています。 関連論文例
記号の時系列のエントロピーレート x
言語、音楽、プログラムなど記号に基づく時系列のエントロピーレートを算出し、 人の記号の時系列に内在する複雑さを探求しています。長さnの時系列の場合の数を、パラメータhを用いて2hnとして考えてみます。まずランダムなビット列の場合はh=1です。では英語を仮に27文字と考えたとしてその数は27n、にはなりません。なぜなら自然言語の場合、qの後にはuしか続かないなど言語的な制約がさまざまにあるからです。情報理論の父シャノンはh=1.3と算出していますが、hの推定は難しい問題で、自然言語のhが正なのかすら未だにわかっていません。研究室では自然言語に加え、音楽・プログラム・金融データなどさまざまな記号時系列の複雑さを推定する研究を行っています。 関連論文例 関連論文例