多言語検索を実装しているサーチエンジンを使用して、Webにおける言語の分布状況を調査しました(調査日時:02/21/2001)。
方法論
20億以上と言われるWebページの言語分布についてセンサスを行うことは困難ですので、サンプリングを行う必要があります。
ロボットによって収集されたページ集合は、お世辞にもランダムなサンプルであるとは言えませんが、大規模なサーチエンジンは常時数億のページを保持していますし、さらに、多言語サポートを行っているものについては、多様な言語圏のページを収集対象としている可能性が高いですから、ある程度実態に近い値が得られるものと期待しています。
という訳で、使用するサーチエンジンは、@インデックス・サイズが巨大であること、A多言語検索を実装していることが条件です。
ここでは、Fast Search(46言語)、AltaVista(25言語)、Lycos(25言語)、Northern Light(5言語)を使用しました。
Lycosは言語指定のみで検索式をたてることが可能ですが、
他のサーチエンジンについては、言語を指定した上で、URL中にhttpを含むページを検索しています。
ちなみに、Google(25言語)のURL検索ではhttpを含むページをうまく検索できませんでしたのでここでは除外しています。
結果
調査は2001年2月21日に行いました。
表1は英語ページと非英語ページの比率の比較です(↓Table1)。
not engの値は、URLにhttpを含む全てのページから英語ページを引いたものです。
Table1. Percentage of English v.s. Not English Pages
| FS | AV | LC | NL |
eng | 57.76% | 70.72% | 58.47% | 58.00% |
not eng | 42.24% | 29.28% | 41.53% | 42.00% |
total | 574,739,661 | 583,399,256 | 576,589,856 | 323,847,959 |
|
ほとんどのサーチエンジンにおいて、英語ページは60%弱、非英語ページは40%強と一致していますが、AltaVistaだけは英語ページが70%を越えています。
この要因としては、言語の判別方法が異なっているのかも知れませんし、もっと根本的に、ロボットのクローリングやページの収集方針に違いがあるのかも知れません。
ドメイン名の分布では、米国を中心とした英語圏の比率がきわめて高いことが知られていますが、AltaVistaを除けば、言語の分布ではさほどでもないようです。
これは、一般に米国(北米)のホストと捉えられているインターナショナル・ドメインの中に他言語/他国のものが多く含まれているためでしょう。
次に、表2では各言語の分布状況を示しています(↓Table2)。
英語からは大きく水を開けられていますが、ドイツ語と日本語が二位争いをしています。
その他、中国語、フランス語、スペイン語、ロシア語、イタリア語などが上位にランク・インしていますが、いずれも1〜2パーセントに過ぎません。
Table2. Language Distribution on WWW
| FS | AV | LC | NL |
english | 57.76% | 70.72% | 58.47% | 58.00% |
german | 5.86% | 5.37% | 6.10% | 4.28% |
japanese | 5.13% | 5.24% | | |
chinese(simp) | 2.93% | 2.22% | | |
french | 2.87% | 2.35% | 2.97% | 2.09% |
spanish | 2.56% | 1.63% | 2.59% | 1.89% |
russian | 1.86% | 1.13% | 1.93% | |
italian | 1.52% | 0.90% | 1.57% | 1.03% |
korean | 1.43% | 0.99% | | |
portuguese | 1.34% | 0.62% | 1.38% | |
dutch | 0.98% | 0.63% | 1.02% | |
chinese(trad) | 0.95% | | | |
swedish | 0.78% | 0.71% | 0.79% | |
polish | 0.51% | 0.17% | 0.53% | |
czech | 0.49% | 0.41% | 0.51% | |
danish | 0.43% | 0.19% | 0.45% | |
finnish | 0.41% | 0.25% | 0.42% | |
norwegian | 0.37% | 0.22% | 0.39% | |
hungarian | 0.23% | 0.17% | 0.23% | |
turkish | 0.18% | | | |
thai | 0.13% | | | |
indonesian | 0.13% | | | |
catalan | 0.12% | | 0.12% | |
slovak | 0.11% | | | |
greek | 0.10% | 0.09% | 0.10% | |
arabic | 0.08% | | | |
estonian | 0.08% | 0.09% | 0.08% | |
croatian | 0.07% | | | |
slovenian | 0.06% | | 0.06% | |
hebrew | 0.05% | 0.05% | 0.05% | |
romanian | 0.04% | 0.02% | 0.05% | |
ukrainian | 0.04% | | | |
icelandic | 0.03% | 0.02% | 0.03% | |
lithuanian | 0.03% | 0.02% | 0.03% | |
vietnamese | 0.03% | | | |
bulgarian | 0.02% | | 0.02% | |
malay | 0.02% | | | |
latvian | 0.015% | 0.013% | 0.015% | |
garician | 0.013% | | | |
afrikaans | 0.009% | | | |
basque | 0.007% | | | |
welsh | 0.006% | | | |
latin | 0.004% | | | |
albanian | 0.004% | | | |
byelorussian | 0.003% | | | |
faeroese | 0.002% | | | |
frisian | 0.002% | | | |
|
最後に、各サーチエンジンの結果を比較してみると、かなりの一貫性が見受けられます。
Fast Search、Lycos、Northern Lightについては、相対順位が完全に一致していますし、とくに、Fast SearchとLycosについては、パーセンテージだけでなく、出力URLの件数自体もほぼ同じでした。
AltaVistaは、他のサーチエンジンと若干異なっていますが、これも大きな差とはなっていません。
各サーチエンジンの結果の一貫性から、この方法論に一定の有効性が認められますが、別途、言語の判別がどの程度まで正確に行われているかについて把握しておく必要があるでしょう。
|