概要
Google,Yahooのような検索エンジンは、日々世界中をクロールして検索のネタを集めて、その膨大な情報をインデックス化しています。
当然、各社のアルゴリズムに従って半自動的にクロールを行っているわけですが、自動的にクロールしているだけでは、やはり見つけられないページや、発見できたとしても適切にインデックス化できないページといったものが出てくることは十分考えられます。
そこで、この問題を緩和し、インデックス生成を最適化するために考えられた手法がサイトマップです。
サイトマップでは、サイト管理者側が、自サイト内でインデックス化して欲しいページを重要度や更新日時、更新間隔などとともに検索エンジン側に通知することが出来ます。
サイトマップは特にそのURLは決まっていないようですが、通常 sitemap.xml というファイルをトップディレクトリに置くことが多いようです。
作成方法
サイトマップは簡単な構造のXMLファイルなので、手動で作ることも可能です。
しかし、サイトが大規模になるにつれて管理が大変になっていくので、サイトマップを作成するためのツールが、Web/ローカル環境ともにいくつかあります。
ちなみに、私は WWW::Google::SiteMap を使ったPerlのサイトマップスクリプトを作成し、これを1日1回走らせるようにしています。
通知方法
サイトマップを作成したら検索エンジンに対して通知をします。
とりあえず、GoogleとYahoo! に対してだけ通知方法を紹介しておきます。
robots.txt
robots.txtにサイトマップの記述をしておくだけで、対応する検索エンジンはサイトマップを見に行ってくれます。
とりあえず、これだけでも設定しておけばサイトマップの効力は発揮されるはずです。
Sitemap: http://fujisawa.homedns.org/sitemap.xml
Googleには、Search Console(旧 Google ウェブマスターツール) というものがあり、ここでサイトマップ関連の設定も行えます。
詳しくは、Googleウェブマスターツール をどうぞ。
Yahoo!
※このサービスは既に廃止されてしまったようですが、参考までに残しておきます
Yahoo! には、Yahooサイトエクスプローラー があり、ここでサイトマップ関連の設定も行えます。
詳しくは、Yahooサイトエクスプローラー をどうぞ。
YahooもGoogleと同様に、Yahooサイトエクスプローラーで毎回通知することも可能ですが、以下の URL を叩くことでサイトマップを通知することが可能なので、2回目以降はこちらの方法で通知するのがおすすめです。
http://search.yahooapis.com/SiteExplorerService/V1/ping\?sitemap=http://fujisawa.homedns.org/sitemap.xml
コメント