多彩な検索オプションを実装しているサーチエンジンを用いてWebの統計調査を行い、統計調査ツールとしてのサーチエンジンの有効性について考察を加えました(調査日時:03/31/2003)。
はじめに
ロボットによって収集されたページ群がランダムな集合となっていないことは明らかです。
一つには、各ページの被リンク数に大きな偏りがあるため、被リンクの多いページには到達しやすく、そうでないページには到達し難くなり、インデクシングされる可能性が大きく異なってきます。
また、サーチエンジン用のロボットの場合、検索性能を向上させるため、独自のアルゴリズムを設定しており、さらに偏った集合となっているものと考えられます。
例えば、後に見るように、安形1)によれば、サーチエンジンにキーワードを投げて収集されたページ集合は、他の方法によって収集されたページよりも平均サイズが大きいという結果が得られています。
しかしながら、常に、数億から数十億のページを保持しているデータベースの内容は、必ずしもWeb全体のスナップ・ショットではないとしても、それだけで興味深い情報源であると言えるでしょう。
サーチエンジンの中には、検索キーで指定した語彙を含むページを検索するだけでなく、ドメインやリンク先ページ等による絞り込み機能を備えたサーチエンジンも存在しますが、とくに検索キーを指定しなくても、一般に絞り込み機能と考えられているものだけで検索を行えるサーチエンジンもあります。
例えば、Googleでは、「検索対象にするサイト・ドメイン」を「com」とだけ指定して「Google検索」ボタンをクリックすると、検索結果は表示されず、
com 内を検索するには、site: の他に検索するキーワードを入力してください。
といったエラーが表示されます。
これに対して、AlltheWebの場合、「Domain Fileters」の「Include results from」欄に「com」とだけ指定すれば、comドメインのページ数を返してくれます。
現在、検索キーワードを指定しなくとも、そういった検索の行えるサーチエンジンは、AlltheWeb(Lycos)、AltaVista、Teomaの三つです(※LycosはFAST[AlltheWeb]のデータベースを使用)。
これら三つのサーチエンジンのうち、AltaVistaは、検索結果が大規模になり過ぎると、タイムアウトのため、表示結果が安定しないという難点があります。
これはかつてから指摘されていたものですが2)、個人的な印象としては、昨年、システムを一新してから3)、とくに、その傾向が顕著になったように思えます。
もちろん、通常の検索のためには全く支障はないのですが、統計調査の場合は大きな問題となります。
例えば、「url:http」と指定して検索した場合、結果は5億〜16億の範囲に分布してしまします。
したがって、AltaVistaによる調査結果には含めませんでした。
また、Teomaは、インデックス・サイズが約5億ページとやや小さいことや、サポートしている言語が比較的少ないこと、さらに、検索結果が大きくなると、表示件数のうち10,000件以下が丸められるため、若干、正確性に欠けることなどが挙げられます。
一方、AlltheWebについては、規模、検索機能、言語ともに申し分ないと言えるでしょう。
そこで、ここでは、AlltheWebを中心にして、サーチエンジンからみたWebの状況を把握していきたいと思います。
調査項目
一般に、Webの統計調査において用いられる指標としては、以下のようなものが挙げられます。
- ドメインの分布(とくに、.comをはじめとするインターナショナル・ドメインの比率)
- 平均ファイル・サイズ(文字数を含む)
- リンク数
- 画像タグ数
一方、サーチエンジンを用いた統計調査における調査項目は、サポートしている検索機能に依存することは言うまでもありません。
ここでは、以下の7項目について調査を行いました。
- データベースの規模(AlltheWeb, Teoma)
- ドメインの分布(AlltheWeb, Teoma)
- 言語の分布(AlltheWeb, Teoma)
- ファイルの新鮮度(AlltheWeb, Teoma)
- ファイル・サイズ(AlltheWeb)
- マルチメディア・コンテンツの比率(AlltheWeb)
- ファイル・タイプの比率(AlltheWeb)
データベースの規模
ここでは、URL中にhttpを含む全てのページを検索することによって、サーチエンジンの規模を測定しています。
したがって、FTPサーバへのリンクは含まれていません。
調査結果は以下の通りです。
- AlltheWeb: 2,124,765,527 pages
- Teoma: 500,710,000 pages
AlltheWebがTeomaの4.2倍となっています。
Table 1(↓)には、今回の調査とほぼ同時に行われた浅井勇夫氏の検索デスクにおける検索数調査4)の結果を示しています。
検索数調査は、15の調査キーを用いて、各サーチエンジンのヒット数をそれぞれ合算したものであり、毎週行われています。
ちなみに、調査キーは、biology, hardware, holiday, java, literature, market, movie, museum, outdoor, photography, activex, intranet, realaudio, shockwave, vrmlとなっています。
これによれば、AlltheWeb(=FAST)は最も大きいサーチエンジンの一つであり、やはりTeomaの4.2倍であることが分かります。
Table 1. 検索数調査 by 検索デスク
Open | FAST | Lycos | Yahoo | Wise | HotBot | Alta | Teoma | Google |
2003/03/28 |
378,675 | 354,355 | 354,485 | 223,130 | 198,133 | 118,055 | 116,374 | 99,113 | 64,162 |
100% | 93.58% | 93.61% | 58.92% | 52.32% | 31.18% | 30.73% | 26.17% | 16.94% |
2003/04/04 |
378,675 | 337,784 | 337,777 | 219,870 | 198,133 | 122,657 | 100,222 | 99,393 | 64,074 |
100% | 89.20% | 89.20% | 58.06% | 52.32% | 32.39% | 26.47% | 26.25% | 16.92% |
※検索数の単位は1,000件
※Source: 検索デスク(http://www.searchdesk.com/)
また、やや遡って、Greg R. NotesのSearch Engine Showdownにおける2002年12月31日の調査5)では、AlltheWebの規模は約21億ページで2位、Teomaは10億で7位となっています。
ここでは、25の調査キーを用いて検索を行い、サーチエンジンの相対的な規模を測定した上で、データベースの規模が明かであるサーチエンジン(AlltheWeb)を基準として、それぞれの絶対的規模を算出するとともに、サーチエンジン・サイト自らが公表している規模との比較を行っています。
Table 2(↓)には、Search Engine Showdownによる推定値(estimate)、最大のサーチエンジン(ここではGoogle)との比率(%)、サーチエンジンが公表している値(claim)、推定値と公表値との差(differ)を示しました。
Table 2. サーチエンジンの規模の推定 by Search Engine Showdown
_ | Google | All | Alta | Wise | Hotbot | MSN | Teoma | NL | Giga |
estimate | 3,033 | 2,106 | 1,689 | 1,453 | 1147 | 1,018 | 1,015 | 733 | 275 |
% | 100% | 69.4% | 55.7% | 47.9% | 37.8% | 33.6% | 33.5% | 24.2% | 9.1% |
claim | 3,083 | 2,112 | 1,000 | 1,500 | 3,000 | 3,000 | 500 | 125 | 150 |
differ | -50 | -6 | 689 | -47 | -1,853 | -1,982 | 515 | 608 | 125 |
※単位は100万ページ
※Source: Search Engine Showdown (http://www.searchengineshowdown.com/)
一般に、サーチエンジンについては、公表値の方が高い場合が多いのですが、Teomaは公表値が約5億ページであるのに対して、推定値が約10億ページとなっています。
ドメインの分布
トップ・レベル・ドメイン(TLD)の分布は、Webの統計調査においてしばしば採用される指標の一つです。
「Webにおけるドメイン名の分布について」の中でも触れたように、サーバ単位のドメインの分布については、Internet Software Consortium(ISC)が半年に一度調査を行っています。
Table 3(↓)は、サイト単位におけるcomドメインの比率の経年的推移を示したものです6)。
ISCによる調査においてもそうですが、これによれば、comドメインの比率が次第に高くなっていることが分かります。
Table 3. comドメインの比率の経年的変化
Month | % of .com |
6/93 | 1.5% |
12/93 | 4.6% |
6/94 | 13.5% |
12/94 | 18.3% |
6/95 | 31.3% |
1/96 | 50% |
6/96 | 68% |
1/97 | 62.6% |
※Source: Web Growth Summary(http://www.mit.edu/people/mkgray/net/web-growth-summary.html)
一方、ページ単位のドメインの分布については、単なる統計的調査7), 8), 9)だけではなく、ランダムなページ集合を作成するための方法論との関連でしばしば調査が行われています10), 11)。
やはり、初期の調査では、comドメインの比率は低くなっていますが、後に行われた調査では、約50%程度となっています。
Table 4(↓)では、AlltheWebとTeomaを用いたページ単位の調査結果と、ISCによるサーバ単位の調査結果(2002年12月)12)とを比較しています。
Table 4. Webにおけるドメインの分布
TLD | AlltheWeb | Teoma | ISC | Max | (all)-(isc) |
.com | 48.30% | 49.71% | 23.63% | 49.71% | 24.67% |
.net | 6.54% | 5.15% | 36.09% | 36.09% | -29.55% |
.org | 6.33% | 9.06% | 0.65% | 9.06% | 5.68% |
.edu | 2.20% | 7.90% | 4.35% | 7.90% | -2.14% |
.de | 6.82% | 3.99% | 1.68% | 6.82% | 5.14% |
.jp | 2.61% | 0.22% | 5.40% | 5.40% | -2.79% |
.uk | 2.96% | 4.13% | 1.51% | 4.13% | 1.45% |
.ru | 2.31% | 0.18% | 0.28% | 2.31% | 2.04% |
.it | 1.29% | 1.67% | 2.25% | 2.25% | -0.96% |
.au | 0.88% | 1.79% | 1.49% | 1.79% | -0.61% |
.ca | 1.00% | 1.74% | 1.74% | 1.74% | -0.75% |
.br | 1.62% | 1.12% | 1.30% | 1.62% | 0.32% |
.us | 0.68% | 1.62% | 1.01% | 1.62% | -0.33% |
.gov | 0.47% | 1.41% | 0.35% | 1.41% | 0.12% |
.nl | 1.34% | 1.02% | 1.41% | 1.41% | -0.07% |
.kr | 1.39% | 0.07% | 0.24% | 1.39% | 1.15% |
.fr | 1.31% | 0.96% | 1.26% | 1.31% | 0.05% |
.tw | 0.37% | 0.07% | 1.26% | 1.26% | -0.89% |
.mil | 0.07% | 0.33% | 1.10% | 1.10% | -1.03% |
.pl | 0.99% | 0.15% | 0.49% | 0.99% | 0.50% |
※三者の最大値(Max.)の上位20位まで
※Source: Internet Software Consortium (http://www.isc.org/)
ページ単位とサーバ単位との比較では、comドメインとnetドメインの順位が入れ替わっており、両者の比率に大きな格差のあることが分かります。
但し、既往調査の結果を概観しても、comドメインのページの比率は、いずれも50%弱となっていることから(Henzinger10): 47.03%, Bar-Yossef11): 49.15%)、今回の調査結果も妥当な値が導かれたものといえるでしょう。
但し、サイト単位ではnetドメインの数が極めて高くなっていることから、今後、netドメインのページも大幅に増加するかも知れません。
また、Teomaは英語圏のドメインの比率が高く、例えば、jpドメインなどは、他の調査結果と較べて大きく下回っていることから、やや偏った収集を行っているものと推察されます。
言語の分布
AlltheWebは49言語、Teomaは10言語をサポートしており、それぞれ、特定の言語を指定した検索が行えるようになっています。
Table 5(↓)に、それぞれの調査結果を示しました。
Table 5. Webにおける言語の分布
Language | AlltheWeb | Teoma |
English | 1,232,219,134 | 57.99% | 418,200,000 | 83.52% |
German | 177,576,827 | 8.36% | 21,690,000 | 4.33% |
French | 98,210,409 | 4.62% | 15,810,000 | 3.16% |
Japanese | 84,694,266 | 3.99% | - | - |
Korean | 69,764,481 | 3.28% | - | - |
Spanish | 54,262,731 | 2.55% | 13,770,000 | 2.75% |
Russian | 52,722,566 | 2.48% | - | - |
Chinese(simp) | 51,142,024 | 2.41% | - | - |
Portuguese | 43,429,176 | 2.04% | 7,309,000 | 1.46% |
Italian | 37,446,108 | 1.76% | 10,830,000 | 2.16% |
Dutch | 33,472,055 | 1.58% | 5,107,000 | 1.02% |
Polish | 20,116,482 | 0.95% | - | - |
Czech | 14,010,349 | 0.66% | - | - |
Chinese(trad) | 12,610,430 | 0.59% | - | - |
Swedish | 12,573,388 | 0.59% | 3,636,000 | 0.73% |
Danish | 12,323,625 | 0.58% | 2,031,000 | 0.41% |
Norwegian | 8,554,028 | 0.40% | 2,072,000 | 0.41% |
Hebrew | 5,273,231 | 0.25% | - | - |
Finnish | 5,224,201 | 0.25% | - | - |
Hungarian | 4,689,208 | 0.22% | - | - |
※AlltheWebによる上位20位まで
まず、英語ページの比率に着目すると、AlltheWebは60%弱であるのに対して、Teomaは80%を超えています。
「Webにおける言語の分布について」では、四つのサーチエンジンを用いて言語の分布を調べていますが、それらのうち三つにおいて、やはり英語ページが60%弱となっていました。
さらに、Teomaは、サポートしている10言語のページだけで、全体の99.95%を占めており、その他の言語はほとんど収集されていません。
したがって、Teomaが英語圏に偏った収集を行っていることは疑いないようです。
次に、comドメイン中の英語ページの比率を調べてみると、AlltheWebでは75.60%、Teomaでは92.36%でした。
AlltheWebによれば、comドメイン中の25%程度は英語以外の言語のページということになります。
例えば、jpドメインのページ(2.61%)に対して、日本語ページの比率(3.99%)は高くなっていますが、これらが、.comをはじめとするインターナショナル・ドメインに含まれているものと考えられます。
ファイルの新鮮度
サーチエンジンを用いて、ファイルの新鮮度を調査することには二つの意義があります。
一つは、各サーチエンジンのデータベースの新鮮度(更新頻度)であり、もう一つは、Web全体のファイル群の新鮮度を明らかにすることです。
AlltheWebもTeomaも期日及び期間を指定してページを検索することが可能ですが、基本的に、ファイルのタイムスタンプについては、サーバによる情報が頼りですので、タイムスタンプを返さないサーバや、誤ったタイムスタンプを返すサーバなどが存在し、正確なデータが得られない可能性は否めません。
常識的には、WWWが構想された1989年以前のファイルは存在しないはずですが、実際には、そういったファイルも僅かながら存在していますし、AlltheWebについては、調査日時(2003年3月31日)以降に作成されたファイルも検索されてしまいました。
まず、Graph 1(↓)では、2003年1月1日から2003年3月31日までに更新されたファイルを調査し、一日ごとにその数をカウントしています。
ちなみに、AlltheWebは調査日直前までのファイルが存在しますが、Teomaは2月8日以降のファイルは存在しません。

Graph 1. サーチエンジンごとのページの新鮮度(per Day)
次に、Graph 2(↓)には、1990年1月から2003年3月まで、各月の1日以降に更新されたページ数を測定し、データベース全体との比率を求めるとともに、その経年変化をプロットしています。
Teomaは2月7日以前に更新されたファイルしか存在しません。
2003年1月1日以降に更新されたファイルの比率は、AlltheWebは61.70%、Teomaは32.59%です。
また、AlltheWebは、2001年9月1日以降に更新されたページで、データベース全体の90%を超えており、Teomaは一年遡って2000年10月1日以降となっています。

Graph 2. サーチエンジンごとのページの新鮮度と累積比率との関係
ファイル・サイズ
Webページのファイル・サイズもまた、Webの統計調査においてしばしば採用される指標です。
AlltheWebでは、advanced searchの中で、ファイル・サイズを指定した検索が行えます。
ここでは、1kbまでは100byte刻み、1KBから20,000KBまでは1KB刻みで調査を行いました(最大値は24.5MB)。
Graph 1(↓)は、バイト数と累積ページ数との関係を示したものです(100KBを超える部分は割愛しています)。
これによれば、10KBまでで累積ページ数は10億ページに達しており、49KBで20億ページを突破しています。

Graph 1. ページ・サイズと累積ページ数との関係
さらに、Table 6(↓)では、今回の調査によるファイル・サイズの平均値と、既存の調査結果との比較を行っています。
Table 6. Webページの平均サイズの比較
_ | average file size |
AlltheWeb, 2003 | 18,297 bytes |
Mauldin, 19957) | 6,340 bytes* |
Woodruff et al., 19968) | 4,400 bytes* |
Bray, 19969) | 6,518 bytes |
Bar-Yossef et al., 200011) | 11,655 bytes |
Bar-Yossef et al., 200013) | 8,390 bytes |
Cyveillance, 200014) | 10,060 bytes |
Lawrence & Giles, 199915) | 18,700 bytes |
Lawrence & Giles, 199915) | 7,300 bytes* |
安形(サーバ単位), 20011) | 7,385 bytes |
安形(キーワード検索), 20011) | 29,096 bytes** |
安形(ディレクトリ), 20011) | 6,831 bytes** |
Average | 12,992 bytes |
S.D. | 7,172 bytes |
*はHTMLタグを除いたテキスト部分のみ(平均値には含まず)
**は日本語ページのみ
これらの調査におけるWebページ集合の収集方法とサンプル数は、それぞれ異なっています(詳細についてはReferenceの原文献を参照して下さい)。
概ね、最近の調査の方がサイズは大きい傾向が見られるようです。
AlltheWebによる平均サイズは18,297bytesであり、全体の平均値より高く、Lawrence & Giles15)によるサーバ単位で収集されたページ群のファイル・サイズの平均値と似通っています。
但し、ほぼ同じ方法論によって収集されたLawrence & Gilesと安形(サーバ単位)との結果は大きく異なっている点が指摘されます。
この点に関しては、やはり、同じ方法論を用いて行われたBar-Yossefらによる二回の調査結果7), 9)にも差異が認められることから、数KBの差異は誤差の範囲内であると言えるのかも知れません。
これらのうち、突出しているのは、安形(キーワード検索)ですが、これはサーチエンジンを用いたキーワード検索によって作成された集合であること、さらに、日本語のみの集合であることから、かなり偏った集合となっているものと推察されます。
また、安形(ディレクトリ)は、Yahoo! JAPANから3ホップまでで収集された約500万ページの集合から、無作為に選択された5,000ページの平均値であり、やはり、日本語ページのみとなっています。
マルチメディア・コンテンツ
Webページを現在のような主要なメディアへと躍進させた原動力の一つは、マルチメディア・コンテンツを視聴できるブラウザ(Mosaic)の開発であったというのが定説です。
現在では、Webの表現力は極めて高く、あらゆるメディアをWeb経由で利用することができるようになっています。
AlltheWebでは、特定のマルチメディア・コンテンツ、あるいは、スクリプトを指定して、それらを含むページを検索することができます。
その機能を利用して、ページ中のマルチメディア・コンテンツの状況を調査しました。
AlltheWebで指定できるのは以下の八つのコンテンツです。
- Images
- Audio (midi, wav, au)
- Video (mov, qt, avi)
- RealVideo & RealAudio
- Macromedia Flash
- Java applets
- JavaScript
- VBScript
Table 7(↓)は、各コンテンツを含むページ(Include)と、特定のコンテンツのみを含むページ(Include(only))の数とその比率を示したものです。
Table 7. Webにおけるマルチメディア・コンテンツの比率
- | Include | Include(only) |
Images | 1,814,533,513 | 85.40% | 779,979,405 | 42.99%* |
Audio | 9,325,397 | 0.44% | 302,695 | 3.25%* |
Video | 5,321,464 | 0.25% | 104,533 | 1.96%* |
Real | 7,977,098 | 0.38% | 119,517 | 1.50%* |
Flash | 101,245,609 | 4.77% | 10,700,205 | 10.57%* |
Java applets | 37,314,444 | 1.76% | 1,094,544 | 2.93%* |
JavaScript | 1,064,472,816 | 50.10% | 70,265,161 | 6.60%* |
VBScript | 6,720,566 | 0.32% | 245,667 | 3.66%* |
Total | 3,046,910,907 | 143.40% | 223,056,868** | 10.50% |
Database Size | 2,124,765,527 | 100% | 2,124,765,527 | 100% |
*はIncludeに対するInclude(only)の比率
**はマルチメディア・コンテンツやスクリプトを全く含まないページ
予想通り最も多いのは画像ファイルであり、全体の85%に達しています。
次に多いのはJavaScriptで、50%を超えており、HTMLを補強するスクリプト言語として、かなり一般的なものとなっていることが窺えます。
また、Flashが4.77%で第三位となっていますが、swfファイルを作成するにはMacromediaのFlashが必要であることを考慮すれば、その普及率は注目に値します。
また、特定のコンテンツしか含まないページ(Include(only))を見ると、画像ファイルを除けば、Flashが10.57%と最も高くなっており、オールイン・ワンのswfファイルの特性をよく表していると言えます。
さて、Table 8(↓)は、特定のマルチメディア・コンテンツが、同一ページ内で他のどのコンテンツと併用されているかを調査したものです。
表は行方向に読み、例えば、画像ファイル(IM)を含むページのうち、オーディオ・ファイル(AU)をも含むものが0.49%存在することを示しています。
逆に、オーディオ・ファイルを含むページのうち、画像ファイルを含むものは95.04%ということになります。
Table 8. マルチメディア・コンテンツ間の関係
| IM | AU | VI | RE | FL | JA | JS | VS |
IM | _ | 0.49% | 0.28% | 0.43% | 4.80% | 1.98% | 54.56% | 0.33% |
AU | 95.04% | _ | 5.22% | 10.08% | 5.99% | 3.61% | 53.51% | 0.48% |
VI | 97.14% | 9.15% | _ | 11.15% | 7.34% | 2.62% | 54.48% | 0.35% |
RE | 97.47% | 11.79% | 7.44% | _ | 5.43% | 3.17% | 59.01% | 0.39% |
FL | 85.94% | 0.55% | 0.39% | 0.43% | _ | 2.44% | 68.45% | 1.03% |
JA | 96.05% | 0.90% | 0.37% | 0.68% | 6.63% | _ | 56.83% | 0.53% |
JS | 93.00% | 0.47% | 0.27% | 0.44% | 6.51% | 1.99% | _ | 0.52% |
VS | 89.51% | 0.67% | 0.28% | 0.47% | 15.55% | 2.94% | 81.76% | _ |
調査結果は列方向に読むと一定の傾向を読みとることができます。
例えば、オーディオ・ファイル、ビデオ・ファイル、Realファイルはそれぞれ、他のコンテンツと比較して、相互に併用されることが多いようです。
また、Flashは画像ファイルと併用される比率が他のコンテンツと比較して低くなっていることが分かります。
ファイル・タイプ
近年、HTMLファイル以外のファイルを検索できるサーチエンジンが増加しつつあります。
Web上では、質の高い学術情報がpdf形式やps形式で提供されることが多く、個人的には大変重宝しています。
これに関して、Search Engine Showdownでは、Google、AlltheWeb、AltaVista、HotBotの四つのサーチエンジンにおけるHTMLファイルやPDFファイルの比率を調査しています(Table 9(↓))。
Table 9. サーチエンジンに占めるHTMLとPDFの比率 by Search Engine Showdown
- | Web | PDFs | Other Files |
Google | 8,565 | 88.0% | 1,008 | 10.4% | 159 | 1.6% |
AlltheWeb | 6,133 | 90.8% | 591 | 8.7% | 33 | 0.5% |
AltaVista | 4,977 | 91.8% | 442 | 8.2% | - | - |
HotBot | 3,529 | 95.9% | 151 | 4.1% | - | - |
※Source: Search Engine Showdown (http://www.searchengineshowdown.com/)
次に、AlltheWebを用いた調査結果をTable 10(↓)示します。
AlltheWebでは、PDF、Flash、Wordの三つのファイル形式を指定して検索することができます。
これによれば、HTMLファイル以外のファイル形式の比率はかなり低いものとなっています。
Table 10. Webにおけるファイル・タイプごとの比率
file format | number of files | percentage |
Adobe pdf | 15,786,144 | 0.74% |
Macromedia Flash | 1,306,044 | 0.06% |
MS Word | 2,920,871 | 0.14% |
the others | 2,104,752,468 | 99.06% |
Database Size | 2,124,765,527 | 100% |
Web統計の標準化について
既往研究を概観すると、ページの収集方法、サンプル数、調査時期、調査項目は区々です。
こういった様々な調査間における円滑な比較が行えるよう、Web統計の標準化について触れておきたいと思います。
標準的な統計項目としては、@Webの特徴を端的に示しているもの、かつまた、A調査コストの低いものが選定されるべきでしょう。
とくに、後者の観点は、しばしば見落とされがちですが、とても重要です。
既往調査において最も調査されている項目は、ファイル・サイズとドメインの分布ですが、これらはWebの特性をよく表しているというよりもむしろ、その調査コストが低いからに他なりません。
一方、付加的な操作をしなければならない場合、やや調査回数は少なくなります。
例えば、ページ内の文字数、リンク数、画像数等はWebページの状態を記述するのに、極めて特徴的な指標であると考えられますが、ファイル・サイズやドメインと比較して、調査コストは高いと言えます。
また、多言語を扱う場合、文字コードの問題から、完全に正確にタグ情報を処理できているかどうかという精度の問題もあるでしょう。
一方、言語の分布については、是非とも調査したい項目ですが、通常の統計的調査ではほとんど顧みられることがありません。
これは、多言語を扱うには、その分野に精通していなければならず、一般的なコンピュータ・サイエンスの研究者が全てそういった分野に精通している訳ではないからです。
そういう意味で、サーチエンジンを用いた調査は、調査コストの面だけでなく、簡単に、言語の分布を調査できるという意味でも優れていると言えるでしょう。
おわりに
ここでは、AlltheWebとTeomaを用いて、Webの統計調査を行いました。
既往調査の結果との比較においても明かなように、AlltheWebのような、極めて規模が大きく、複数の言語に対応しているサーチエンジンを用いれば、充分に、Webの統計調査のためのツールとして実用性があると言えるでしょう。
但し、残念ながら、AltaVista、HotBot、NorthernLightのように、かつては統計調査に利用できたサーチエンジンが、何らかの理由で、利用できなくなっており、その数は減少傾向にあります。
また、Googleのように、サーバへの過負荷を排除するために、オート・クエリをリジェクトするサーチエンジンも今後、増加する可能性があります(但し、Googleの場合、Google APIを利用すれば、一日1,000件のオート・クエリを送信することが可能です)。
サーチエンジンの商業化が一層進展し、もはやボランティアでやっている時代ではありませんので、今後、どうなっていくかは分かりません。
Reference
- 安形輝. "Web調査におけるサンプル集合の収集法," 亜細亜大学国際関係紀要. Vol.11, No.2, p.269-293(2001)
- Notes, Greg R. "AltaVista Inconsistencies," Search Engine Showdown: The User's Guide to Web Searching.
- Morrissey, Brian. "AltaVista Makes a Comeback," internetnews.com. November 12, 2002.(日本語版はコチラ)
- 浅井勇夫. "検索力データ 2003年," 検索デスク.
- Notes, Greg R. "Search Engine Statistics: Database Total Size Estimates," Search Engine Showdown: The User's Guide to Web Searching.
- Gray, Matthew. "Web Growth Summary," Internet Statistics: Growth and Usage of the Web and the Internet.
- Mauldin, Michael L. "Measuring the Web with Lycos
," proceedings of the the 3rd International World Wide Web Conference, Darmstadt, Germany(1995)
- Woodruff, Allison., Aoki, Paul M., Brewer, Eric., Gauthier, Paul., Rowe, Lawrence A., "An Investigation of Documents from the World Wide Web," proceedings of the the 5th International World Wide Web Conference, Paris, France(1996)
- Bray, Tim. "Measuring the Web," proceedings of the the 5th International World Wide Web Conference, Paris, France(1996)
- Henzinger, Monika R., Heydon, Allan., Mitzenmacher, Michael, Najork, Marc. "On Near-Uniform URL Sampling," Proceedings of the 9th International World Wide Web Conference.
- Bar-Yossef, Ziv., Berg, Alexander., Chien Steve., Fakcharoenphol, Jittat., Weitz, Dror. "Approximating Aggregate Queries about Web Pages via Random Walks," 26th International Conference on Very Large Databases(VLDB 2000).
- Internet Software Consortium. "Distribution of Top-Level Domain Names by Host Count: Jan 2003,"
- Bar-Yossef, Ziv., Berg, Alexander., Chien Steve., Fakcharoenphol, Jittat., Weitz, Dror. "Uniform Sampling from the Web via Random Walks,"
- Johanson, Aimee. "Internet Exceeds 2 Billion Pages: Cyveillance Study Projects Internet Will Double in Size by Early 2001," Cyveillance: Newsroom: 2000 Press Releases. 10 July 2000.
- Lawrence, Steve., Giles, Lee. "Accessibility and Distribution of Information on the Web," Nature. Vol.400, pp107-109(1999)
|