網(wǎng)站頻繁出現(xiàn)304狀態(tài)碼及抓取蜘蛛次數(shù)較少的原因

閱讀 ?·? 發(fā)布日期 2021-08-11 15:50 ?·? admin

經(jīng)常會碰到站長們訴苦蜘蛛抓取回來碼老是304狀況,且抓取的次數(shù)越來越少的問題。查找引擎為了本身的用戶體會,會想盡辦法來進步檢索調(diào)用率、準確性、新鮮度,這將導致引擎不得不把首要的精力放在具有優(yōu)質(zhì)內(nèi)容源的網(wǎng)站上。惟其如此,查找成果的質(zhì)量才干愈加契合查找者的體會。

 
    由此咱們聯(lián)想到:查找引擎爬蟲會愈加喜愛內(nèi)容源更新頻頻的網(wǎng)站。經(jīng)過特定時間內(nèi)對網(wǎng)站抓取回來的狀況碼來調(diào)理對該網(wǎng)站的抓取頻頻。若網(wǎng)站在必定時間內(nèi)一向處于[304:沒有改變]的狀況,那么引擎爬蟲可能會降低對網(wǎng)站的抓取次數(shù)。相反,若網(wǎng)站改變的頻率十分之快,每次抓取都能獲取新版本,那么日積月累,爬蟲的回訪率也會進步。
 
    無論是抓取少仍是304,這都是一種現(xiàn)象,并不是問題的原因,假設(shè)網(wǎng)站回來的都是200,就能達到進步排名帶來流量的意圖么?相比之下更應該思考發(fā)生304的原因是什么?改304對網(wǎng)站方針能夠有什么樣的作用?不能忽視整體的方針而側(cè)重過程的細節(jié),為了200而去處理304。
 
    304狀況是怎么發(fā)生?
 
    服務器為了進步網(wǎng)站拜訪速度,對之前拜訪的部分頁面制定緩存機制,當客戶端在此對這些頁面進行懇求,服務器會根據(jù)緩存內(nèi)容判別頁面與之前是否相同,若相同便直接回來304,此刻客戶端調(diào)用緩存內(nèi)容,不用進行二次下載,能夠說304從某種角度起到了削減服務器帶寬并進步蜘蛛匍匐效率的作用。
 
    304狀況發(fā)生原因?
 
    1、頁面更新周期長或不更新
 
    2、純靜態(tài)頁面或強制生成靜態(tài)html
 
    304狀況處理思路?
 
    1、先對發(fā)生304頁面進行細分,到底是哪類頁面回來了304?這些頁面是否應該回來304?
 
    2、這些頁面生成的方法是怎樣的?是否有更新機制?更新機制是否契合蜘蛛對網(wǎng)站的抓取頻率?
 
    3、頁面更新區(qū)域的方位是否合理?是否坐落該頁面首要內(nèi)容的承載區(qū)域?
 
    咱們論壇的 @李亮堂 同學也對此情況做了剖析:
 
    304狀況碼呈現(xiàn)過多會造成以下問題:
 
    1、網(wǎng)站快照中止
 
    2、錄入削減
 
    3、權(quán)重下降
 
    那么怎么削減304回來碼呢?
 
    據(jù)我所知,首要內(nèi)容更新方面要投合百度蜘蛛,剖析日志,把蜘蛛到訪的時間記錄下來,能夠大致得出蜘蛛到訪的頻率,然后以此為根據(jù),更新文章:必定是原創(chuàng)+轉(zhuǎn)載,不能純收集。轉(zhuǎn)載也需求新的優(yōu)質(zhì)資源。讓蜘蛛這個點過來能有吃的。然后回來更多 200 正常碼。
 
    其次呢,增加個互動版塊,現(xiàn)在大網(wǎng)站基本已經(jīng)都做了這方面,比方談論、留言等,大網(wǎng)站更新起來改變可能會很小,但是有了這些互動,用戶會在上面發(fā)些內(nèi)容,網(wǎng)站會有許多新的東西。如seowhy,就會把新回復以及問題放在重要方位。
 
    結(jié)束
 
    本期咱們側(cè)重評論了關(guān)于頻頻回來 304 狀況以及抓取次數(shù)較少的問題,意圖是為了讓網(wǎng)站充沛的被抓取。除了以上達人剖析的原因外,小編覺得引擎蜘蛛相同也會參閱網(wǎng)站歸納權(quán)重,對于權(quán)重高的網(wǎng)站抓取頻率會很頻頻,比方 Google 可能會參閱 PR 值來決議網(wǎng)站的抓取頻率。