百度抓取網頁判斷該頁面質量時,會受到該頁面發(fā)布時間的影響。
而由于網站有時會面臨著更換域名,而百度不會由于某個網站更換域名后,在重新收錄時,就認為所有頁面都是最新更新的。
所以為了避免這種不公平的判斷,百度會把頁面內的文章發(fā)布日期作為其中一個判斷標準,去判斷該頁面的發(fā)布時間,從而生成對應的快照時間。
所以,對于新站,若一次需要更新很多篇文章,又怕百度誤認為是采集的,那么在每篇文章里,就一定要加上文章發(fā)布日期,從而“幫助”百度去“了解”該文章的發(fā)布時間。
百度爬到的文章時間幾乎都不一樣,百度會認為這個網站只是新域名,但是是舊數(shù)據,所以就不會隨便把一次性更新的大量文章誤認為是采集的了。
當然不是絕對的,因為百度判斷頁面質量的因素非常多,所以這個因素只是降低新站進入沙河的概率。
我們來看下面這個例子:
我的這個域名是在2012年9月份注冊的。在發(fā)布文章時,文章發(fā)布時間直接填寫的這篇新聞出來的時間,百度在收錄此頁面時,便以頁面內的發(fā)布時間做了參考依據,給出了相同時間的快照。但事實上,在2012年3月26日,這個域名還沒有注冊呢。
以上是新站,下面我們再來看一個老站的例子:
我的這個域名是在2012年9月份注冊的。在發(fā)布文章時,文章發(fā)布時間直接填寫的這篇新聞出來的時間,百度在收錄此頁面時,便以頁面內的發(fā)布時間做了參考依據,給出了相同時間的快照。但事實上,在2012年3月26日,這個域名還沒有注冊呢。
以上是新站,下面我們再來看一個老站的例子:
這篇文章是我2013年1月10日發(fā)布的。發(fā)布時我填寫的時間是2012年12月25日。百度收錄時,同樣把快照時間定成了我填寫的發(fā)布時間,而非真實發(fā)布時間。
由此可以看出,百度爬蟲在爬網頁時,由于并不一定爬一次就能爬到網站的每個頁面上,有時會由于網站的用戶體驗做的不好,使得即使有文章頁鏈接,爬蟲也不會去爬。因此,百度在爬到某一個頁面時,并不會立刻認為這篇文章就是剛剛發(fā)布的,而是會根據百度自己的算法去判斷這篇文章的發(fā)布時間。
當然,大部分情況,百度還是收錄的爬到的時間。但對于少數(shù)這種時間不正確的情況也是不能忽視的,因為對于采集的新站,如果用戶體驗做的好,百度有可能會認為是一個老站更換了域名,因此同樣會給予此新站較好的收錄和排名。
更多信息請查看IT技術專欄