谷歌解釋為什麼Google不抓取和索引每個URL

谷歌的約翰穆勒寫了一篇非常詳細和誠實的解釋,解釋了為什麼Google(和第三方 SEO 工具)不抓取和索引網絡上的每個 URL 或鏈接。他解釋說,抓取不客觀,價格昂貴,效率低下,網絡變化很大,有垃圾郵件和垃圾郵件,所有這些都必須考慮在內。

約翰在Reddit上寫了這個詳細的回复,回答了為什麼“為什麼 SEO 工具不顯示所有反向鏈接?” 但他從谷歌搜索的角度回答了這個問題。他說:

没有客观的方法可以正确地爬网路。

從理論上講,不可能全部抓取所有內容,因為實際URL的數量實際上是無限的。由於沒有人能夠負擔得起在資料庫中保留無限數量的URL,因此所有網路爬蟲都會對實際值得抓取的內容進行假設,簡化和猜測。

即使這樣,出於實際目的,您也無法一直抓取所有這些內容,互聯網沒有足夠的連接性和頻寬,如果您想定期訪問大量頁面(對於爬蟲和網站擁有者),則需要花費很多錢。

除此之外,有些頁面變化很快,有些頁面已經10年沒有改變了 – 因此爬蟲試圖通過更多地關注他們希望更改的頁面而不是他們希望不會更改的頁面來節省精力。

然後,我們觸及爬蟲試圖找出哪些頁面實際上有用的部分。網路上充斥著沒人關心的垃圾,這些垃圾頁面已經被垃圾郵件變成了無用的。這些頁面可能仍然會定期更改,它們可能具有合理的URL,但它們只是註定要被填埋,任何關心其使用者的搜尋引擎都會忽略它們。有時它也不僅僅是明顯的垃圾。越來越多的網站在技術上是可以的,但只是從品質的角度來看,不要達到“酒吧”,值得被抓取更多。

因此,所有爬蟲(包括SEO工具)都處理一組非常簡化的URL,它們必須計算出抓取的頻率,更頻繁地抓取哪些URL以及要忽略Web的哪些部分。對於這些都沒有固定的規則,因此每個工具都必須在此過程中做出自己的決定。這就是為什麼搜尋引擎有不同的內容索引,為什麼SEO工具列出不同的連結,為什麼建立在這些基礎上的任何指標都如此不同。

發佈留言