» ENGLISH
Kumiko Tanaka-Ishii Group

ー 記号系を数理的に探求する : 言語・金融・コミュニケーション ー
言語、金融、コミュニケーションは「記号」の系で、さまざまな社会活動は記号を媒介として行われます。 大規模な社会的な記号系には、いくつかの普遍的な共通の数理的性質があることが知られています。本研究室ではビッグデータを検証することを通して、この性質を正確に捉える試みを行い、得られた基礎的な理解に基づいて、社会実装につながる工学応用を模索しています。
記号系のダイナミクスの複雑系科学
x 記号系の統計物理学的経験則
x 経験則を説明する数理モデル
x 長期記憶のモデルと計測方法
x 記号系の複雑さ
記号系と深層学習・機械学習手法
x 経験則を生成する深層学習アーキテクチャ
x 教師無し・半教師有り手法に基づく機械学習手法
x 非記号列の記号的な取り扱い
ビッグデータを利用した言語・金融・コミュニケーションの数理
x 計算言語学
x 金融情報学
x メディア分析
x コミュニケーションネットワークの数理
情報記号論
x 記号の系が有する基本的性質
x 記号系に内在する自己相似性
x 非記号に見える対象の記号的取り扱い
最近の研究例
記号系のダイナミクスの複雑系科学
記号系には、異なる種類の系をまたがって、共通の統計物理学的な経験則が成り立つことが知られています。研究室では大規模な実データに基づき、系を特徴付ける数理構造を探求しています。
データ固有の性質を数量化する統計量 x
様々な種類のデータに対して様々な統計量が数理的に考察されてきました。自然言語のテキストに対しては著者や言語種、ジャンルなど、その種類を量的に峻別する統計量とは何かが考えられてきました。例えば統計学者Yuleが提案したKがその一つで、これはRenyiの2次エントロピーと等価です。YuleのKはデータ量に依存しない統計量となっており、データ固有の性質を表す統計量となっています。研究室では、 データのスケーリング則の中にこのような統計量を探求しています。このような研究により、自然言語・プログラミング言語・音楽など、異なる表現を同じ土俵に載せ、特性を議論することが可能になります。
記号時系列の複雑さ x
言語、音楽、プログラムなど時系列は どの程度複雑なのでしょうか?長さnの時系列の場合の数を、パラメータhを用いて2hnとして考えてみます。まずランダムなビット列の場合はh=1です。では英語を仮に27文字と考えたとしてその数は27n、にはなりません。なぜなら自然言語の場合、qの後にはuしか続かないなど言語的な制約がさまざまにあるからです。情報理論の父シャノンはh=1.3と算出していますが、hの推定は難しい問題で、自然言語のhが正なのかすら未だにわかっていません。研究室では自然言語に加え、音楽・プログラム・金融などさまざまな記号時系列の複雑さを推定する研究を行っています。
長相関・ゆらぎ解析 x
記号系の本質的な一面として、イベントが「塊として現れる構造」があります。たとえば、右図は、ある人の時系列中に生起するイベントを時間軸の中で示しており、上段ほど「稀」なイベントに絞って、現れる様子を表しています。最上段を見ると、稀なイベントが塊として現れていることがわかります。統計物理学では、このような性質をゆらぎ解析として捉える方法論が研究されてきましたが、それは主として数値時系列に対する解析手法となっており、非数値的な時系列での計測方法は確立したとはいえません。研究室では、既存手法を改良し、安定して長相関を捉える方法を模索しています。また、探求を通して、系の複雑さを計量することを試みています。


記号系と深層学習・機械学習手法
記号系に関する数理的理解を元に、深層学習・機械学習が適切な処理を行いうるのか、その可能性と限界を吟味し、学習方法の改良の方向性を探ります。また、現行の学習の技法を基礎として、半教師有り・教師無し学習の手法を模索しています。
深層学習と冪則 x
深層学習によりこれまで困難と思われてきた様々なタスク(画像認識、機械翻訳など)の自動化が進んでいます。 では、深層学習は一体データのどういった側面を学び、または無視してしまっているのでしょうか。 記号系にはさまざまな冪則が成り立つことが知られています。研究室では、深層学習が生成するデータにどの程度冪則が成り立っているか検証し、 従来の性能とは異なる指標を模索しています。 たとえば右図は人の文書では成り立つ長相関が文字レベル深層言語モデルでは成立しないことを示しています。 このような議論は自然言語以外の系、例えば金融市場にも適用することができます。
深層学習による包括的な系の複製 x
生成モデルは、工学上の一つ重要なテーマで、ある系のサンプルを、擬似的に実現する方式のことです。生成モデルを探求することは、系の本質を捉え、それを実現する学習器の能力を吟味し、その構成を再考することにつながります。研究室では、深層学習の枠組みの中でも、Adversarialと呼ばれる手法などを基礎に、複雑系(例えば金融市場)そのものを包括的に複製する試みを行っています。
穴空き定型表現の抽出 x
「_月_日_時より_スタート!」「regard _ as _」など、穴空きの定型表現は文書には頻出し、特にツイートやブログでは多用されています。穴空きの定型表現は文法導出に相当し、難しい問題の一つです。研究室では、穴空きの定型表現を最小オートマトンを作成して抽出することを試みています。最小オートマトンは、できる限り重複を重ね合わせた構造を作ります。重複した部分は定型部分、そうでない部分は穴部分として捉えることによって穴空きの定型表現を得ます。基礎的な検証を経て、SNSからのパターン抽出など大規模な応用を考えています。

ビッグデータを利用した言語・金融・コミュニケーションの数理
多種多様の大規模なデータを用いて、言語や金融といった社会的な記号系がどのような性質を持つかを、統計、情報理論、ネットワーク科学の観点から探ります。個別分野に絞った研究に加え、分野横断的なアプローチをとることで、共通する現象の中に本質を捉える試みを行っています。たとえば、報道やブログを利用した金融予測や、大規模な情報伝搬シミュレーションなどを試みています。
大規模情報拡散シミュレーター             x
2011年に発生した東日本大震災時にはTwitterを用いて情報発信・収集が行われました。従来のテレビやラジオといったメディアとは異なり、ソーシャルメディア上での情報伝達は、人と人が直接に繋がって双方向で行われる点に特徴があります。災害時だけでなく、平時にもソーシャルメディア上で情報が拡散します。情報拡散に内在する数理的性質を調べるため、本研究室では、実際のソーシャルネットワーク構造をクローリングして収集し、1億ノードを超えるグラフ構造を再現し、その上で大規模な情報拡散シミュレーターを構築しています。情報拡散の速度や範囲を調べ、それを再現する情報伝搬の数理モデルを探求します。またネットワーク上では誤情報など問題ある情報も流れますが、それを検出し、抑制する方策にも考察しています。
ビットコイン価格とツイッター x
2018年初頭のビットコインの暴落の背景には、社会的な要因がさまざまにあります。中でも、 メディアの影響は大きく、ニュース報道や、TwitterなどのSNSでの真偽入れ混じった情報配信が大影響を与えています。 研究室では、仮想通貨のデータを集積し、Twitterが価格変動に与える影響を分析します。 価格に影響を与えるであろう情報のマイニングも視野に入れています。

文法の複雑さの定量化 x
大人に比べて子供の話し言葉はどの程度文法的に複雑なのでしょうか? また、歴史に残る名作は、Wikipediaに比べると、どの程度の構造的に複雑なのでしょうか? 言語の構造的複雑さについては『チョムスキー階層』が知られ、 書き換えルールとして記述される文法に対する制約の大きさによって層が定義されます。 ですが、それでは具体的な数値としてある対象の文法上の複雑さを計量することはできません。 研究室では文書に内在するスケーリング則から得られる統計量を利用し、 文法の複雑さを計量する方法を探求しています。

情報記号論
記号やコミュニケーションの系において、計算や数式では記述が難しい本質について、主として記号論の方法論を用いて考察しています。
「香り」の記号論 x
視覚に関しては、RGBや明度彩度など人間の受容体に対応する基本軸に分解することができ、言語にも基本軸に直接に対応する「赤」「青」などといった単語があります。一方、嗅覚は、基本軸相当の人間の受容体がないとされ、直接香りを表す用語は他の感覚に比べて非常に少なく、「xxのような香り」などの間接的な表現に拠っているので、香りの全貌は言葉の中にあります。 香りに関する用語を網羅的に収集して体系化し、人間の嗅覚を捉える研究は、嗅覚同定能力の測定キットなど医療上の応用も考えられます。
『記号と再帰』 x
記号とは本来的に再帰的で、投機的な性質をもっています。記号単体がどのように生まれ、 それがどのように使用されて意味を有するのようになるのか、また 記号にはどのような種類があるのか。そして、記号の系とは本来的にどのようなものなのか。 さまざまな記号系を比較しながら、原理的に探求しています。