淺談百度谷歌蜘蛛機器人活動規律
我們大家一定知道百度和谷歌有一個蜘蛛機器人,換句話說就是百度和谷歌的一套收錄網站的程序或系統,我們都稱它為蜘蛛機器人,他們是程序不是人,也不是神,所以它們總有自己的活動規律,下面就來談談。 一.網站收錄初期 網站被百度收錄初期的活動規律,首先進入你提交的網站首頁或頁面,然後從源文件中分析提取出你提交頁面下的內鏈,然後逐一的提取你的網頁。當然它不會一天兩天的就給你把你加的內容,全部爬行完,它們會分不同的時間段進行爬,然後給你計算出蜘蛛在你網站的活動時間及時間的長短。如果百度蜘蛛機器人一旦發現你網站有死鏈或打不開的網頁,會馬上終止爬行。所以我們網站的初期,一定不要加外鏈或少加。網站沒有建設好或內容不是很多的時候,一定不要放到網上去,網站放到網上去之前一定要檢查一下是否有死鏈。我們一個網站放到網上去的時候,一定要是一個成形了的網站、有足夠內容的網站。因為這樣的網站你放上去的時候,然後在去向百度提交收錄,他們第一次來,會給你網站留下一個好的印象。這樣有一個好印象的話,他們會來第二次,第三次……就向我們一個人遇見一個新朋友似的,第一印象好的話,以後辦事方便些,一個道理。 當然,谷歌收錄網站初期的活動規律,要比百度要強一些,谷歌的蜘蛛似乎要比百度的要勤。但還是和百度一樣,一旦發現有死鏈,或打不開網頁,就會馬上終止。不過他們判斷一個網頁是否打不開的時間好像要比百度的要長。我原來用一個新網站做過測試,百度一旦打開的時間超過8秒左右,谷歌是十秒左右,就判斷死鏈或無效網頁。所以說我的在做網站的時候,源代碼能少的一定要少,不要加一些無用的代碼進去,因為那樣它們打開的時間長了就會判斷無效的。 二.網站收錄穩定期 網站被百度收錄穩定期後,蜘蛛機器人首先從首頁進入,每天會有十分之一的爬行是從首頁進入,如果與上次的首頁同就馬上停止。谷歌就不一樣,還是和前面一個階段一樣,從首頁進入然後進行大量的分析爬行。所以說我們在做網站的後期,也就是更新網站內容的時候,一定要分不同時間段更新,讓你更新的內容都出現在首頁,不要一下全部更新了,有一些頁面出現在首頁的機會就沒有,那樣的話,百度就會把你加的內容給遺忘的。在這個時間你就會發現他們蜘蛛機器人給你網站的一定時間規律,也就是你在什麼時候加內容,他收錄的時間與你加內容的時間最短。只要你長期的注意一下,你會發現他們來的規律的。當然說了這麼多,你不是很細心的人,要發現這些規律是有一定難度的。給大家推薦一款源碼露珠CMS,這個建站源碼後台能比較清晰的記錄各大搜索機器人的痕跡,有各個機器人來訪的時間,來訪的頁面,對來訪的詳細數據作了分析,進行 24小時時間段分析,對各個頻道的分析,對你所加的內容的版塊進行分析。對各大搜索機器人喜歡你網站的哪個頻道,哪個版塊都進行了分析,同時也給你提出了補救其它頻道和版塊的建議,哪個時間加內容收錄最快等等。 百度在穩定期第一天收錄的頁面,經過分析後會在第二天的早上8:30左右的時候全部給你放出來。谷歌就不一樣了,一般會在第二天的七點之前給你放出來的。
