ドメイン検索を実装しているサーチエンジンを使用して、Webにおけるトップ−レベル・ドメイン・ネーム(TLDN)の分布状況を調査しました(調査日時:02/21/2001)。
背景
インターネット上のドメイン名の分布については、1987年以来、International Software Consortium(ISC)による年二回の統計調査が行われています。
その2000年7月時点での調査結果(↓Table1)によれば、第1位のcomと第2位のnetだけで、全体の60%強を占めており、3文字のインターナショナル・ドメイン(一応)を総合すると71.62%にも達します。
また、国別ドメインでは、言語の分布と同様に、第4位のjp、第7位のdeなどが健闘していますが、やはり英語圏の国が上位にランクされているようです。
Table1. Distribution of TLDN(Jul. 2000)
1 | com | 32,696,253 | 35.14% | 9 | ca | 1,814,505 | 1.95% |
2 | net | 23,432,135 | 25.18% | 10 | it | 1,574,380 | 1.69% |
3 | edu | 6,678,055 | 7.18% | 11 | au | 1,311,492 | 1.41% |
4 | jp | 3,413,281 | 3.67% | 12 | org | 1,087,665 | 1.17% |
5 | us | 2,251,445 | 2.42% | 13 | nl | 1,082,089 | 1.16% |
6 | uk | 2,080,906 | 2.24% | 14 | fr | 983,450 | 1.06% |
7 | de | 1,916,512 | 2.06% | other | 10,809,591 | 11.62% |
8 | mil | 1,916,026 | 2.06% | total | 93,047,785 | 100% |
|
Source: Internet Software Consortium (http://www.isc.org/)
さて、ISCの調査はインターネットに接続しているホストのドメイン名の分布状況ですが、Webページについてはどうなっているのでしょうか。
直感的には、Webページについても、ホスト数の場合と似通った結果になるものと予想されますが、よく分かりません。
例えば、2000年7月に、全世界のWebページが21億ページに達しているとセンセーショナルに報じたCyveillanceの調査1)によれば、米国のページはWeb全体の84.63%とのことでした。
個人的には、Cyveillanceのロボットは、やや偏ったクローリングを行ったのではないかと思うのですが、仮に、ここでいう米国のページを、インターナショナル・ドメインとusドメインを足し合わせたものと解釈するならば、ISCの調査でも74.04%になります。
また、比較的最近のものとして、1999年11月中旬に行われたGoogleのHenzinger氏らによる調査2)によれば、milを除くインターナショナル・ドメインとusドメインのURLを総合すると、77.26%に達します。
ちなみに、この調査では、8000万URLのクローリングによる結果と、1万URLのランダム・ウォークによる結果との比較が行われています。
方法論
ドメイン検索(≠URL検索)が可能なサーチエンジンはいくつかありますが、通常は、トップ・レベルだけでなく、セカンド・レベルやサード・レベルのドメインも検索対象となりますので、正確な数を特定することは困難です。
代表的な例として、coの場合、トップ・レベルではコロンビアですが、セカンド・レベルでも企業を意味するドメインとして広く用いられています。
そこで、ここでは、AltaVistaとNorthern Lightを用いて調査を行いました。
AltaVistaの場合、「domain: xx」でTLDの検索が行えるようです。
また、Northern Lightでは、TLDを判別して地域限定検索が行えるようになっていますので、地域を限定した上で、URL中にhttpを含むページを検索しました。
但し、インターナショナル・ドメインについては、地域による限定が効かず、URL中にそれぞれのドメイン名を持つページを検索していますので、実数よりも若干多い可能性があります。
ちなみに、HotBotのドメイン検索でもTLDの検索が行えるようでしたが、総ページ数が不明であったため調査結果を載せていません。
結果
調査は2001年2月21日に行いました。
表2では、AltaVistaとNorthern LightによるTLDの分布を、ISC、及び、Henzingerらによる調査結果と比較しています(↓Table2)。
AltaVistaは、ISCの上位50位までを調べています。
Northern Lightは、地域限定検索を実装している地域、及び、インターナショナル・ドメインです。
Henzingerらによる調査は上位15位までです。
Table2. TLDN Distribution on WWW
TLD | ISC | AV | NL | Hen. |
com | 35.14% | 48.03% | 45.58% | 47.03% |
net | 25.18% | 7.75% | 6.46% | 6.41% |
edu | 7.18% | 6.65% | 8.04% | 10.25% |
jp | 3.67% | 4.78% | 3.42% | 3.99% |
us | 2.42% | 1.05% | 1.44% | 2.44% |
uk | 2.24% | 3.23% | 2.86% | 2.53% |
de | 2.06% | 5.44% | 5.06% | 2.14% |
mil | 2.06% | 0.19% | 0.29% | |
ca | 1.95% | 2.19% | 1.59% | 1.93% |
it | 1.69% | 0.93% | 1.33% | 0.54% |
au | 1.41% | 1.38% | 1.16% | 1.51% |
org | 1.17% | 5.28% | 7.01% | 8.38% |
nl | 1.16% | 0.86% | 0.92% | |
fr | 1.06% | 1.25% | 1.00% | 0.80% |
tw | 0.97% | 0.54% | | |
gov | 0.89% | 0.79% | 1.72% | 2.75% |
fi | 0.76% | 0.53% | 0.52% | |
br | 0.71% | 0.53% | 0.84% | |
se | 0.67% | 0.97% | 0.79% | 0.72% |
es | 0.58% | 0.57% | 0.55% | |
no | 0.54% | 0.35% | 0.40% | |
mx | 0.53% | 0.19% | 0.24% | |
kr | 0.51% | 0.88% | | |
ch | 0.45% | 0.82% | 0.90% | 0.37% |
dk | 0.40% | 0.38% | 0.59% | |
be | 0.39% | 0.24% | 0.33% | |
at | 0.38% | 0.47% | | |
nz | 0.33% | 0.18% | 0.20% | |
ru | 0.28% | 1.47% | 1.48% | |
pl | 0.28% | 0.27% | | |
za | 0.20% | 0.20% | | |
ar | 0.19% | 0.15% | | |
il | 0.17% | 0.17% | 0.15% | |
sg | 0.17% | 0.10% | 0.09% | |
cz | 0.15% | 0.54% | | |
hu | 0.14% | 0.83% | | |
hk | 0.13% | 0.40% | | |
pt | 0.13% | 0.15% | | |
tr | 0.12% | 0.12% | | |
gr | 0.11% | 0.12% | | |
cn | 0.09% | 0.70% | 0.65% | |
ie | 0.09% | 0.14% | | |
my | 0.07% | 0.06% | 0.09% | |
th | 0.06% | 0.07% | | |
cl | 0.06% | 0.06% | | |
co | 0.05% | 0.03% | | |
is | 0.04% | 0.04% | | |
uy | 0.04% | 0.02% | | |
ee | 0.04% | 0.13% | | |
in | 0.04% | 0.02% | | |
|
さて、結果についてですが、概ね似通っているとは言うものの、ホスト数(ISC)とWebページ数(AV, NL, Hen.)とでは、一部のドメインについて分布の偏りが存在します。
まず、ホスト数に較べてページ数の比率が多いドメインとしてはcom、org、de、gov、ruなどが挙げられます。
逆に、ホスト数は多いけれどページ数の少ないドメインとしてはnet、milなどがあります。
jpドメインについては、いずれも3〜4%と比較的安定しています。
また、「Webにおける言語の分布について」で行った調査と比較すると、多くの場合、自国ドメインのページの比率よりも、自国語のページの比率の方が、かなり高いと言えます。
インターナショナル・ドメイン中の言語の分布についても調べてみる価値がありそうです。
Reference
- Johanson, Aimee. "Internet Exceeds 2 Billion Pages: Cyveillance Study Projects Internet Will Double in Size by Early 2001". Cyveillance: Newsroom: 2000 Press Releases. 10 July 2000.
- Henzinger, Monika R., Heydon, Allan., Mitzenmacher, Michael, Najork, Marc. "On Near-Uniform URL Sampling". Proceedings of the 9th International World Wide Web Conference.
>>www9 site >>compaq site
|