Lizzi Sassman 和 Martin Splitt 在他們的 Google 搜索記錄播客中邀請了一位特殊的 Google 嘉賓來討論結構化數據。來賓名叫 Ryan Levering,他在 Google 工作超過 11 年,致力於結構化數據。
谷歌過去的結構化數據
簡而言之,Ryan Levering 解釋說,當他第一次開始從事結構化數據項目時,他從事的是Search Console 中的舊數據突出顯示工具。
但在早期,谷歌似乎試圖不再要求我們突出或標記我們的內容,而是希望使用機器學習來解決所有問題,谷歌的 Gary Illyes早在 2017 年就說過,但在 2018 年又收回了這一點。所以穀歌在機器學習上投入了大量精力來解決這個問題。
谷歌提供的結構化數據
但隨著時間的推移,Ryan 說,“只要求人們向我們提供他們的數據而不是從網頁中提取數據要容易得多。” “它出奇地準確,”他補充道。因此,他們隨後將更多資源用於構建結構化數據和支持文檔,以供站點所有者使用和移交數據。
但是機器學習現在被拋到了窗外。Ryan 說,他們仍然經常將它用於(1)不使用結構化數據的網站,谷歌仍希望為這些網站顯示豐富的結果,(2)錯誤或濫用,因此谷歌可以驗證頁面的真實內容與結構化數據。所以 Ryan 說這是使用結構化數據和機器學習來理解這一切的“多管齊下的方法”。
所以這就是谷歌今天使用它的方式,但未來呢。
谷歌的結構化數據未來
“中期未來”,Ryan 表示,他們計劃使用結構化數據,“不僅是視覺處理,而且實際上有助於更多地理解頁面。” 谷歌之前提到過,結構化數據可以幫助谷歌理解頁面,但它不是排名因素。我想谷歌會在這方面做更多的工作。
另外,中期未來”Ryan 表示,谷歌想要弄清楚“如何在我們的許多功能中更普遍地使用結構化數據,而不是像四處散佈一樣。”
從長遠來看,谷歌表示谷歌如何使用結構化數據以及谷歌如何“將其解釋為我們的內部圖表”。Ryan 說,他“希望轉向我們通過結構化數據特定渠道調整越來越多數據的地方,而不是必須在網頁本身上傳達我們所有的信息。” 基本上是想出一種“在數據提供商和谷歌之間進行數據傳輸的更乾淨的方式”。他說,谷歌是如何做到這一點的,也許是通過與大型 CMS 平台合作,以便他們可以直接將其構建到他們的平台中。
以下是部分文字實錄:
Ryan Levering:所以,我的介紹是,當我開始在 Google 工作時,我們正在研究從網頁中提取。所以就像通過 ML 做的一樣。所以我們進來了,我做的第一件事是數據熒光筆產品,它是外部的。我們正在查看網頁並從非結構化文本中提取結構化數據,我的整個團隊都非常關注它的實際 ML 方面。那麼我們如何提取數據,在學術界常被稱為“包裝器歸納”呢?因此,當您使用 – 您構建一個可以將數據從模板中提取出來的包裝器。所以對數據庫進行逆向工程。但經過幾年的努力,還有另一個項目是並行提取結構化數據,這成為我們現在使用的核心。
在與人們交談了很長時間之後,我確信,讓人們向我們提供他們的數據而不是從網頁上提取數據要容易得多。出乎意料地更準確。因此可能會發生其他問題,但通常更容易做到。這對我們來說工作量要少得多,而對提供商來說要好得多。所以我是從 ML 開始的,一開始我將結構化數據視為敵人。然後我作為一個好的機制被說服了。
所以機器學習是——我認為我們獲取東西的方法有多個方面。我們希望將機器學習用於我們沒有更多信息且沒有提供給我們的情況。但我認為,將數據顯示給我們總是會更容易。所以我們會嘗試——我認為這就像一種多層方法,在我們沒有專門的數據的情況下,你可以使用機器學習。但是供應商總是可以選擇向我們提供數據,這通常會提高準確性,這通常會給實際供應商帶來更好的利益。所以我總是認為他們在一個理想的世界裡並肩工作。
隨著時間的推移,我們的大多數功能都會遷移到我們攝取它的方法。也許我們從只使用 ML 的一種方法開始。然後我們最終添加標記,以便人們可以控制。或者相反。然後我們開始——我們在一個生態系統方法中引導標記,人們向我們提供數據。然後我們通過添加 ML long run 來增強該功能的覆蓋率。所以,我認為它們非常兼容。但是,授權給你數據的人控制它總是好的。所以我認為結構化數據通常是整體戰略的一部分非常重要,這樣人們才能真正控制我們展示的內容。
主要挑戰是我們必須找到一種方法來驗證結構化數據是否準確。有時這是來自實際的濫用。有時這只是因為同步性存在問題。有時人們會為他們的網站生成結構化數據,但它會與視覺上顯示的實際內容不同步。我們都看到了很多。因此,需要有其他機制來找出執行這些事情的一些平衡行為。所以這就是結構化數據的成本,我猜,就是額外的檢查。
Lizzi Sassman:是的,談到已經完成的工作,接下來幾年的結構化數據工作呢?如果您讓我們展望未來,結構化數據的下一步是什麼?
Ryan Levering:從中期來看,我認為我們……我的意思是,我們將繼續充實結構化數據的使用,以添加更多功能並研究更多方式,我們可以將其用於更酷的事情,而不僅僅是視覺處理,但實際上有助於更多地理解頁面,我認為。並弄清楚如何在我們的許多功能中更普遍地使用結構化數據,而不是像四處散佈一樣。我認為這就是我們在中期考慮的問題。
從長遠來看,我認為它將在與我們一般將其解釋為內部圖表的方式進行交互方面發揮非常有趣的作用。所以我希望看到更多的機器學習,弄清楚——我希望轉移到我們通過結構化數據特定渠道調整越來越多數據的地方,而不是必須在網頁本身上傳達我們所有的信息。所以我認為這是一種更清潔的方法,特別是對於我們的一些結構化數據攝取路徑。因此,想辦法繞過實際的視覺表示,想辦法將結構化數據與網頁鏈接,但不一定將其嵌入網頁。所以我認為有一種更簡潔的方式可以在數據提供商和谷歌之間進行數據傳輸。
我認為這將使插件和 CMS 更容易創建這些信息。因為我覺得很多生態系統已經朝著這個方向發展,人們沒有自己實現結構化數據,而是使用內容創建工具。我認為我們擁有直接與這些內容創建工具合作的機制以編程方式攝取數據以使其更新鮮和更容易變得越來越重要。