データマイニング入門

大量のデータから自明ではなかった何か役立つ情報を取り出すことをデータマイニング(data mining)という。 データ分析は統計学や人工知能で従来より行われてきたことであるが、強力なコンピュータパワーとソフトウエアエンジニアリングの進歩によって、より広範な分野において柔軟で豊富なデータ処理が可能になり、データマイニングという言葉がつかわれる機会が多くなってきた。

データ様式として記号列データ、とくに文字列からなるテキストを取り上げる。 テキストには、HTML、XML、$\rm \TeX$などの文書構造が明示化されたマークアップ(markup)テキストと平文と空行からなるプレインテキストがある(その中間に、プレインテキストを構造化テキストに変換するためのマークダウン(markdown)ソフトウエアのための書式もある)。

重要なテキストデータに、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4つの塩基からなるDNA配列がある。 同一固体のDNAをあつめて、4つの塩基ごとにDNAを切断した塩基依存配列の断片からなる多数の塩基文字列から,元のDNA配列(塩基順序)を求めるDNA列解析(DNA Sequencing)は、データマイニングの最重要テーマの1つである。 この手法を開発したWalter GilbertとFrederick Sangerは1980年ノーベル化学賞を受けている(Sangerは1958年のインシュリンの研究で既にノーベル化学賞を受けている)。

染色体上のジャンクDNAなどを含む全ての塩基配列をゲノム(Genom)といい、約31億の塩基対すべてを解読するヒトゲノム計画は1991年から実施され2003年4月14日に解読宣言がだされた。 人遺伝子数は、3万以下(2万2千程度)で、人の多様性と複雑性に比べて少なく、しかも下等生物とその多くを共有していることが判明して世界を驚かせた(人の遺伝子は全生物種で圧倒的に最大であると予想されていた)。

23andMe社では99ドルで個人の遺伝子を調査してくれる。 個人ゲノム全体ではなく、健康上の危険性や身体的病変を引き起こすと推定される既知の遺伝的変異位置100万カ所だけを分析する。 それでもDNA解析は高速化され安価になっている。

ここではプレインテキストを対象に、ごく簡単な言語データ処理を実施して極簡単なテキストマイニングをおこなってみよう。

テキストマイニング

blue_square形態素解析エンジン
blue_square形態素の頻度
blue_squareRパッケージRMeCabで用意されている関数
blue_square検索語・文書行列
blue_squareNグラム統計
blue_squareコロケーションと語彙分析