蜘蛛抓取不同的IP是什么意思 |
作者:本站 發(fā)布時(shí)間:2018-09-14 瀏覽:2306次 |
我們做網(wǎng)站的都知道互聯(lián)網(wǎng)上的頁(yè)面都是由蜘蛛抓取的,其實(shí)蜘蛛本身就是一段代碼程序,當互聯(lián)網(wǎng)出 現新頁(yè)面時(shí)蜘蛛就會(huì )過(guò)來(lái)爬。由于互聯(lián)網(wǎng)每天將產(chǎn)生幾千億個(gè)頁(yè)面,那么一個(gè)蜘蛛是絕對無(wú)法在短時(shí)間內爬完的,所以搜索引擎會(huì )產(chǎn)生大量的蜘蛛盡可能的爬完整個(gè) 互聯(lián)網(wǎng)。每個(gè)蜘蛛代表的意義又不同,那么我們怎么知道哪些蜘蛛是抓取首頁(yè),哪些是抓取內頁(yè)呢?
下面就按照IIS日記上的百度蜘蛛IP為例: 123.125.68.* 這個(gè)蜘蛛經(jīng)常來(lái),別的來(lái)的少,表示網(wǎng)站可能要進(jìn)入沙盒了,或被者降權。 220.181.68.* 每天這個(gè)IP 段只增不減很有可能進(jìn)沙盒或K站。 220.181.7.*、123.125.66.* 代表百度蜘蛛IP造訪(fǎng),準備抓取你東西。 121.14.89.* 這個(gè)ip段作為度過(guò)新站考察期。 203.208.60.* 這個(gè)ip段出現在新站及站點(diǎn)有不正?,F象后。 210.72.225.* 這個(gè)ip段不間斷巡邏各站。 125.90.88.* 廣東茂名市電信也屬于百度蜘蛛IP 主要造成成分,是新上線(xiàn)站較多,還有使用過(guò)站長(cháng)seo工具,或SEO技術(shù)綜合檢測造成的。 220.181.108.95 這個(gè)是百度抓取首頁(yè)的專(zhuān)用IP,如是220.181.108段的話(huà),基本來(lái)說(shuō)你的網(wǎng)站會(huì )天天隔夜快照,絕對錯不了的,我保證。 220.181.108.92 同上98%抓取首頁(yè),可能還會(huì )抓取其他 (不是指內頁(yè))220.181段屬于權重IP段此段爬過(guò)的文章或首頁(yè)基本24小時(shí)放出來(lái)。 123.125.71.106 抓取內頁(yè)收錄的,權重較低,爬過(guò)此段的內頁(yè)文章不會(huì )很快放出來(lái),因不是原創(chuàng )或采集文章。 220.181.108.91 屬于綜合的,主要抓取首頁(yè)和內頁(yè)或其他,屬于權重IP 段,爬過(guò)的文章或首頁(yè)基本24小時(shí)放出來(lái)。 220.181.108.75 重點(diǎn)抓取更新文章的內頁(yè)達到90%,8%抓取首頁(yè),2%其他。權重IP 段,爬過(guò)的文章或首頁(yè)基本24小時(shí)放出來(lái)。 220.181.108.86 專(zhuān)用抓取首頁(yè)IP 權重段,一般返回代碼是304 0 0 代表未更新。 123.125.71.95 抓取內頁(yè)收錄的,權重較低,爬過(guò)此段的內頁(yè)文章不會(huì )很快放出來(lái),因不是原創(chuàng )或采集文章。 123.125.71.97 抓取內頁(yè)收錄的,權重較低,爬過(guò)此段的內頁(yè)文章不會(huì )很快放出來(lái),因不是原創(chuàng )或采集文章。 220.181.108.89 專(zhuān)用抓取首頁(yè)IP 權重段,一般返回代碼是304 0 0 代表未更新。 220.181.108.94 專(zhuān)用抓取首頁(yè)IP 權重段,一般返回代碼是304 0 0 代表未更新。 220.181.108.97 專(zhuān)用抓取首頁(yè)IP 權重段,一般返回代碼是304 0 0 代表未更新。 220.181.108.80 專(zhuān)用抓取首頁(yè)IP 權重段,一般返回代碼是304 0 0 代表未更新。 220.181.108.77 專(zhuān)用抓首頁(yè)IP 權重段,一般返回代碼是304 0 0 代表未更新。 123.125.71.117 抓取內頁(yè)收錄的,權重較低,爬過(guò)此段的內頁(yè)文章不會(huì )很快放出來(lái),因不是原創(chuàng )或采集文章。 注:以上IP尾數還有很多,但段位一樣的123.125.71.* 段IP 代表抓取內頁(yè)收錄的權重比較低.可能由于你采集文章或拼文章暫時(shí)被收錄但不放出來(lái).(意思也就是說(shuō)待定)。 220.181.108.83專(zhuān)用抓取首頁(yè)IP 權重段,一般返回代碼是304 0 0 代表未更新。 220.181.108.* 段IP主要是抓取首頁(yè)占80%,內頁(yè)占30%,這此爬過(guò)的文章或首頁(yè),絕對24小時(shí)內放出來(lái)和隔夜快照的,這點(diǎn)我可以保證! 一般成功抓取返回代碼都200,返回304代表網(wǎng)站沒(méi)更新。 好了,說(shuō)了這么多,是不是看的眼花繚亂了,呵呵,不過(guò)沒(méi)關(guān)系,只要你了解了他的意思,你就不會(huì )這么覺(jué)得了,每天可以用日志分析工具看看哪些ip段的蜘蛛來(lái)過(guò)你的網(wǎng)站,哪些內容被抓取了,就能很好的了解你自己網(wǎng)站的哪些不足和需要改進(jìn)的地方了。 |