Amento, Brian., Terveen, Loren., Hill, Will.(AT & T Shannon Laboratories) "Does 'Authority' Mean Quality?: Predicting Expert Quality Rating of Web Documents," Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. p.296-303(2000)
※図表、注・引用文献は原文献をご参照下さい。
1. はじめに:質の問題
サーチエンジン等を用いて、特定の関心に適合するWebページを大量に検索することは容易である。しかしながら、そこには様々な質のページが散在している。
Webサイトの質とは本質的に人間による判断の問題であり、情報の量や新奇性だけでなく、サイトのデザインやレイアウトによって影響される概念である。
近年、リンク分析に基づいたアルゴリズムが多くの関心を集めている。
リンク数をカウントすることによって、ページの質の評価を行うことができるかも知れないという観点から、より洗練されたアルゴリズムが考案されている。
しかしながら、これらのアルゴリズムについては実証的な評価が殆ど行われていない。
リンク・ベースの評価尺度は人間の評価による質と関連するのだろうか?
さらに一般化して、われわれの関心は、リンク・ベースの尺度と同様にコンテント・ベースのアルゴリズムも含めて、われわれが計算可能なもののうち、いずれの尺度がページの質をより良く予測することができるのかという点にある。
この問題意識から派生して、専門家による質の判定は一致するのか、さらに、様々なリンク分析によるアルゴリズムの間に有意な差があるのかどうかについても明らかにする必要があるだろう。
2. 先行研究及び関連研究
われわれはページではなくサイト単位で分析を行っている。
サイトとは単一の個人あるいはグループによって管理されている特定のトピックに関する組織化されたページ集合であると定義され、ドメインとは異なる。
われわれのWebクローラーとアナライザーは、収集したURLの文字列を分析することによって、経験則から、ページをサイトにグループ化する。
その基本的なアイディアとは、あるURLが別のURLの部分である場合、後者は前者に属するページであると判断するというものである。
ここでは、あるサイトから別のサイトへのリンクを全てカウントしている。
近年、KleinbergやPageRankのように、リンク情報を用いて、Webページを順位付けしたり、グループ化したりといった研究が数多く行われており、様々な改良が加えられている(引用文献7〜12)。
3. 実験
われわれはかつて、Webユーザがどのように質の高いページを探し、どのようなシステムがそういった課題を持つユーザを支援することが出来るのかについての大規模な実証的調査を行った(引用文献1, 2)。
1997年3月から2000年8月までのMagellanにおける110万のクエリについての分析により、クエリの42%がポピュラー・エンタテイメントであることが明らかになったことから、まず以下のような五つのトピックを選択した。
すなわち、Babylon 5, Buffy The Vampire Slayer, The Simpsons, そして、ミュージシャンのTori AmosとSmashing Pumpkinsである。
3.1 データ集合
まず、Webディレクトリ(Yahoo)を用いて、以上のような五つのトピックについてのWebサイトを収集した。第一段階では、40人の学生を被験者として募集し、ランダムにトピックを割り当て、そのトピックについて知りたい人々にとって有用で、分かり易いかという観点から、ベスト15のサイトを選択してもらった。
第二段階では、それぞれのトピックについての専門家を自認する人々を20ドルで雇い、各々のサイトの質について、7段階の評価を行ってもらった(1:worst〜7:best)。
各々のトピックに関する被験者の数はThe Simpson(4人)の他は全て3人ずつであった。
3.2 URLとサイトのグラフ、URLとサイトの特徴
リンク及びコンテント・ベースの評価尺度を計算するために、各々のトピックについて、Yahooから得られたページを種として、隣接するページを収集した。
クローリングの後、ページをサイト単位に集計し、サイト間のリンク・被リンクを計算し、グラフ構造によって表現した。
これらのグラフから、五つのリンク・ベースの特徴(被リンク数[in degree]、リンク数[out degree]、Kleinbergのオーソリティ・スコア、Kleinbergのハブ・スコア、PageRank)、及び、四つのコンテント・ベースの特徴(適合性、ページ・サイズ、画像数、オーディオ・ファイル数)を計算した。
あるサイトから他のサイトへのリンク数は、延べ数ではなく、リンクされているか否かによって表現している。
また、適合性とは、種集合の重心ベクトルに対する各サイトの重心ベクトルの類似度(内積)である。ページ・サイズはバイト数とページ数をそれぞれ記録している。
4. 結果
4.1 専門家は一致するのか?
第一の問題は、専門家間で、質の判定はどのくらい一致するのかという問題である。
彼らの一致の程度によって、我々の調査しているトピック領域において、質が共有された概念であるという信頼を獲得することができる。
トピックごとの専門家間の積率相関係数を表1に示した(→表1)。
それぞれの相関係数は高い値を示しており、いずれも有意水準1%で有意であった。
次に、半数以上の専門家が5,6,7と評価したサイトを "良い"サイトとして、二値的な判定を行い、専門家全員が一致しているのか、さらに、二人の専門家の間で一致しているのかを明らかにした(→表2)。
その結果、同じく高い一致を示したが、専門家の好みはそれぞれ異なっており、客観的な質の基準は存在しなかった。
4.2 それぞれのリンク・ベースの尺度は異なっているのか?
第二の論点は、各々のリンク・ベースの尺度は異なっているのかについてである。
表3は、各々のトピックにおいて、被リンク、Kleinbergのオーソリティ、PageRankを用いたサイトのランキングを行い、スピアマンの順位相関係数とケンドールの順位相関係数を求めた結果である(→表3)。
相関係数は極めて高く、いずれも有意水準1%で有意であった。
次に、ランキングのトップ5及びトップ10の一致数を測定した(→表4)。
トップ5の平均一致数は3.4、トップ10の平均一致数は6.4といずれも高い値を示した。
すなわち、当初の直感に反して、洗練されたアルゴリズムを用いずとも、コンテント・ベースの適合文献を収集しておけば、被リンク数だけで充分質を予測できることが明らかになった。
4.3 われわれは人による質の判定を予測できるのか?
表5は各トピックにおける良いサイトの数とその比率である(→表5)。
表6では、上述の10のランキング・アルゴリズムによってサイトを順位付けし、各トピックについて、再現数5サイト、及び、10サイト時点での平均精度を示している(→表6)。
その結果、被リンク数が最も良い精度を示しており、次いで、オーソリティ・スコアやPageRankなどとともに、サイトのページ数という極めて単純なランキング法が高い値を示した。
次に、専門家による判定値の平均値を用い、平均値が5以上であるものを良いサイトであると見なして、同様に、再現数5サイト、及び、10サイト時点での平均精度を求めた(→表7)。
ここで、「Majority Score」とは、(専門家が良いと判定した数)/(専門家による判定の数)であり、これ以上良いランキング法はない。ここでもまた、表6の結果を支持していることが分かる。
5. 結論:要約と今後の研究課題
われわれはWebサイトの質を評価するために、様々な計算可能な評価尺度の有効性について調査を行った。
その結果、トピックごとの専門家間の質の認識には高い一致が見られること、さらに、単純な被リンク数やサイトのページ数などが高い精度を示すことが明らかになった。
今後、より大きなデータ集合で実験を行い、今夏の調査結果が一般化できるか否かを明らかにすることが必要である。
|