關於 Google 的新演算法 – Rankbrain

0
565

Google 正使用一個叫做 Rankbrain 的機器學習科技來協助傳遞搜尋結果。以下是到目前為止我們所了解關於 Rankbrain 的事情。

就在昨天,Google 使用叫做”Rankbrain”的機器學習人工智慧系統來協助分類搜尋結果的消息曝光了。想知道他是怎麼運作及適應 Google 的整個系統嗎?以下是我們對於 Rankbrain 的了解。

下列被隱匿的消息有三個來源。第一,彭博故事昨天透露了關於 Rankbrain 的消息(也可以看我們的報導)。第二,Google 直接提供給 Search Engine Land 的額外資訊。第三,我們的知識以及對於 Google 未提供解答的部份給予最合適的假設。我們會講清楚這些來源被用在哪裡,有必要時會與一般背景資料分開。

什麼是 Rankbrain?

Rankbrain 是 Google 機器學習人工智慧系統的名字,被用來幫助處理搜尋結果,就像彭博所報導的以及 Google 向我們證實的一樣。

什麼是機器學習?

機器學期就是機器能夠自我學習,而不用人類來教他或是遵循複雜的程式。

什麼是人工智慧?

人工智慧就是指電腦也可以變的像人類一樣聰明,至少從意義上來說可以從被教導以及建立於他已知的事情上獲取知識並建立新的連繫。

當然,真的 AI 只存在科幻小說裡。實際上,AI 通常是指被設計用來學習及建立聯繫的電腦系統。

AI 跟電腦學習有什麼不一樣呢?從 Rankbrain 這個字來看,對我們來說好像是同義字。你可能聽過他們可以交換用,或是可能聽過機器學習可以用來形容人工智慧可以用在勞務上。

所以 Rankbrain 是 Google 用來排序搜尋結果的新方法?

不是的。Rankbrain 只是 Google 整個搜尋演算法的一部分,是用來排序數十億已知頁面的電腦程式,以及用來找到最符合查詢的結果。

這個 Google 的搜尋演算法叫什麼名字?


他叫做”蜂鳥”,就是我們過去所報導過的。在過去幾年裡,整體演算法都沒有正式的名字。不過在 2013 年中,徹底翻修了演算法並給了他名字 – 蜂鳥。

所以 Rankbrain 是 Google 蜂鳥演算法的一部分嗎?

這是我們的理解。蜂鳥是整個搜尋引算法,就像一台車有一整個引擎一樣。而引擎又由許多部分所組成,例如:濾油器、燃料幫浦、冷卻系統等。同樣地,蜂鳥包含了許多部分,而 Rankbrain 則是最新的一部分。

我們了解到 Rankbrain 是整個蜂鳥演算法的一部分,因為彭博的文章已經說明了 Rankbrain 並不負責處理全部的搜尋,因為只有整個演算法才有辦法處理。

蜂鳥也包含了其他在 SEO 界耳熟能詳的演算法名字,像是:熊貓、企鵝、Payday 要來對抗 spam,Pigeon 要來改善本地搜尋,Top Heavy 要來降等過多廣告的頁面,搜尋引擎友善則要來提升對行動裝置友善的頁面,Pirate 則是要來對抗侵害版權的問題。

我認為 Google 的演算法應該被稱為「PageRank」

PageRank 是整個蜂鳥演算法的一部份,他對於根據來自其他頁面的連結給予權重有一套特殊的方法。

PageRank 是很特別的,因為在 1998 年搜尋引擎剛開始時,PageRank 是 Google 第一次給予其中一部分演算法命名。

Google 用來排名的這些「訊號」是什麼?

訊號是 Google 用來幫助決定網頁排名。舉例來說,他會讀取網頁裡的文字,所以文字就是一個訊號。如果有些字是粗體,那可能就是另一種訊號。這些計算法通常是 PageRank 的一部分,被用來給予頁面 PageRank 分數,那就會被用來當作訊號。如果有一個頁面被標記是行動裝置友善的,那就是另一個被註冊的訊號。

所有訊號都會經由蜂鳥演算法的各部分來處理分析,以判斷最終要顯示在各種不同搜尋的頁面為何。

那有多少訊號呢?

Google 談到主要的排名訊號有超過 200 個,而可能有超過 10000 個變數或次訊號。他通常會說有「數百個」因素,就像昨天彭博的文章一樣。

如果你想要更多直觀的排名訊號指南,可以看看我們的「SEO 成功要素周期表」這篇文章

我們認為他真的是個很好的指南,可以用來幫助網頁在像 Google 這樣的搜尋引擎取得排名。

而 Rankbrain 是第三重要的訊號嗎?

沒錯。很出人意料的,這新系統已經成為 Google 所說的排序網頁第三重要的因素。彭博文章裡說到:
Corrado 說:Rankbrain 是演算法中「數百個」排名訊號中的其中一個,決定了在 Google 搜尋結果頁的呈現以及排名。他說:在過去幾個月早已經展開,Rankbrain 已經成為第三種要排名因素並對搜尋有所貢獻。

那第一跟第二重要的訊號是什麼呢?

Google 不會告訴我們第一跟第二重要的訊號是什麼。我們已經問過。而且問了兩次…

Google 不告訴我們前兩個訊號,這真的很討厭而且又會讓人迷網。Google 想利用 PR 來突破機器學習的發展。

但若真的要評估突破性以及之後 Rankbrain 的衝擊,了解 Google 現在所使用的其他重要因素會有所幫助。這就是為什麼 Google 應該要解釋的原因。

順帶一提,我個人的猜測是連結仍會是最重要的訊號,Google 會把那些連結給加總起來。這也是一個非常老的系統,如同我過去所寫的文章:Links: The Broken “Ballot Box” Used By Google & Bing

至於這第二重要的訊號,我猜測會是「文字」,文字要包含頁面上的文字及 Google 在 Rankbrain 分析中如何理解人們在搜尋框中輸入的文字。

Rankbrain 確切來說能做什麼呢?

從 Google 的來信中,我推測 Rankbrain 主要是被用來解析人們所提交可能不含有精確的文字的搜尋。

沒有精確的查詢 Google 就沒辦法找到頁面嗎?

不,Google 沒有精確字也可以找到頁面已經很久囉。舉個例子來說,很多很多年前,如果你輸入了像是「一隻鞋子」這樣的字,Google 可能就沒辦法找到關於「一雙鞋子」的頁面,因為技術上來說那是兩個不同的字。但「stemming」可以讓 Google 聰明一點,為了要了解一雙鞋子是一隻鞋子的變形,就像「跑步」是「跑」的變形。

Google 也有同義字的智慧,所已如果你搜尋「sneakers」,Google 也許會了解到你要找的是「慢跑鞋」。為了要了解科技公司「蘋果」vs 水果「蘋果」,甚至得到了概念上的智慧。

什麼是知識圖譜?

知識圖譜是從 2012 開始發展,是 Google 用來讓字詞之間的連結變的更聰明的方法。更重要的是,他學會了搜尋「事物而非字串」,Google 曾這麼描述。

字串意思是字母字串的搜尋,像是拼字符合「歐巴馬」的頁面。相反地是物是指,Google 能了解當有人搜尋「歐巴馬」,他們可能是指美國總統歐巴馬,與其他人、地點與事物有所連結的現實中的人。

知識圖譜是關於世界上的事物已及這些事物間的關聯性的資料庫。這也就是為什麼當你搜尋「歐巴馬的太太什麼時候出生」而不是用他的名字來搜尋時,你會得到像下面米歇爾‧歐巴馬這個答案:

Rankbrain 如何幫助優化搜尋?

Google 用來重新定義搜尋的方法一般要回到在某處工作的人們那,已經創建的 stemming 清單貨是同義字清單或建立事物之間聯繫的資料庫也是。當然,還是有一些是自動化的。不過大部分都是要依靠人力。

這個問題是 Google 一天處理 30 億個搜尋。2007 年,Google 說百分之 20 到 25 的查詢都是以前曾經看過的。2013 年,這數字下降到百分之 15,這又被拿來當作彭博的文章,Google 也再次確認。但這些尚未被人們搜尋過的為 30 億的百分之 15 ,仍是一個巨大的數字 – 1 天有 4 億 5 千萬。

那些還可以更複雜,多組字詞的查詢,也可以做「長尾字」查詢。Rankbrain 被設計來幫助那些查詢請求以及更有效率的轉譯,在這方法的背後是要為搜尋者找到最佳的頁面。

就如同 Google 所說的,他可以了解表面上看起來毫無關係的複合查詢,他們彼此間的相似性。而這個學習可以更了解復合查詢,已及是否跟其他主題相關。最重要的是,Google 告訴我們他可以把查詢字組及搜尋者會喜歡的搜尋結果聯在一起。

Google 沒有提供查詢詞組的例子也沒提供 Rankbrain 如何猜測最佳頁面的細節。後者可能是因為如果他可以把不明確的查詢轉譯成明確的查詢,那他就可以帶來更好的結果。

來個例子如何?

雖然 Google 沒有給查詢詞組的範例,而彭博文章有個搜尋的單一範例,Rankbrain 可能有所幫助。如下:

食物鏈中最高級的消費者是誰

對於像我這樣的門外漢來說,「消費者」聽起來就像是某個買東西的人。然而,他也是某種消耗食物的物種在科學上的專有名詞。食物鏈中有多種等級的消費者。最頂層的消費者呢?他叫做「食肉動物」。

把這詞與輸入到 Google,Google 提供了不錯的答案,雖然這個查詢詞與本身還是很奇怪:

現在來細想查詢像「食物鏈頂端」的結果相似性,如下方:

想像一下,Rankbrain 把那原本很長又複雜的搜尋連結到了比較短的這個,這可能是比較一般的做法。他能夠了解他們是非常相似的。結果是,從比較常見的查詢中得到的答案來改善比較少見的查詢,Google 可以讓他知道的所有事情發揮功效。

我要強調,我不知道 Google 聯結了這兩個查詢。我只知道 Google 給了第一個範例。這是 Rankbrain 可能如何被用來連結不常見跟常見查詢來改善搜尋結果的簡單描述。

Bing 用 RankNet 也可以做到這些嗎?

回到 2005 年,微軟開始使用他們自己的機器學習系統,叫做 RankNet,是今天 Bing 搜尋引擎的一部分。實際上,RankNet 的首席研究員及創造者最近才被表揚。不過在這些年,微軟很少談論到 RankNet。

你可以打賭這將可能會有所改變。有趣的是,當我在 Bing 輸入跟上面 Google Rankbrain 一樣的例子時,Bing 給我不錯的搜尋結果,其中一條還跟 Google 的一樣。

一個搜尋不表示 Bing 的 RankNet 跟 Google 的 Rankbrain 一樣好,反之亦然。不幸的是,很難題出一份清單來做比較。

有更多例子嗎?

Google 的確有給我們新的範例:「杯子裡有幾枝湯匙?」Google 表示 Rankbrain 對澳洲或美國會提供不同的搜尋結果,因為每個國家的衡量標準不同,儘管名稱很相似。

我試著在 google.com 跟 Google 澳洲上搜尋來做測試。我發現沒有太大的不同。即使沒有 Rankbrain,結果也常常不同,只因為提供頁面的「過時的」方法是為那些使用澳洲 Google 的搜尋者提供已知的澳洲網站。

Rankbrain 真的有幫助嗎?

儘管上面的兩個例子無法當作讓人信服 Rankbrain 強大的證據,但我真的相信他可能正產生巨大的影響,就如同 Google 所說的那樣。Google 對於排名演算法是相當保守的。他總是在做些小測試。但當他有足夠的信心時,就會展開很大的改變。

到了一般相信是第三重要訊號的地步,整合 Rankbrain 是一個巨大的改變。我認為是因為他真的有幫助 Google 才會這麼做。

Rankbrain 什麼時候開始呢?

Google 告訴我們 Rankbrain 在 2015 年初會逐步的展開,而現在已經在全球展開數月了。

什麼搜尋字詞會被影響?

Google 告訴彭博有一「大部分」的查詢交由 Rankbrain 處理。我們問了 Google 想要一個精確的數字,但我們還是得到一大部分這個答案。

Rankbrian 會一直學習嗎?

Google 告訴我們,Rankbrain 的所有學習都是離線的。他被給予批次的歷史搜尋紀錄並從中學習做出預測。

那些預測都會被測試,如果預測被驗證是對的,最新版的 Rankbrian 就會開始使用。而離線學習及測試的循環會不斷的重複。

Rankbrain 能做查詢優化之外的事嗎?

通常查詢如何優化,透過 stemming 、同義字或是現在的 Rankbrain 都被認為不是排名因素或是訊號。

訊號通常跟內容有關,像是一個頁面上的字、連結指向到一個頁面、頁面是否在安全的伺服器上等等。他也可能是跟使用者有關,像是使用者的地點或是他們搜尋及瀏覽的歷史紀錄。

所以,當 Google 談論到有關 Rankbrain 做為第三重要的訊號時,他真的被當作一個排名訊號嗎?是的。Google 重新向我們確認有個元件,Rankbrain 會以某種方式直接影響到網頁排名。

究竟如何呢?是否有一些「Rankbrain 分數」類型可以用來評估品質呢?或許有,但他似乎更像是這樣,Rankbrain 以某種方式幫助 Google 根據網頁內容來分類的更好。Rankbrain 或許比 Google 目前的系統更能夠總結歸納網頁。

或者根本不是這樣。Google 除了關於排名元件之外,其他什麼也沒說。

我要如何更了解 Rankbrain?

Google 告訴我們,想了解關於「向量」這個字的人 – 字和片語在數學上是有所連結的 – 應該要來看看我們部落格的文章,這篇文章談到這系統(文章中還沒被命名為 Ranlbrain)如何藉由掃描新聞學到都市的概念:

有一篇很長的搜尋論文是依據所寫的。你甚至可以用 Google 的 word2vec 工具來建立你自己的機器學習計畫。除此之外,Google 有一整區關於他的 AI 跟機器學習的論文,微軟也有

原文出處: 點此

“2018台灣成長駭客年會早鳥優惠中"
“2018台灣成長駭客年會早鳥優惠中"