百度推薦系統登上國際最高技術講臺

分類：行業資訊日期：2012-10-12 11:36:43 來源：網絡轉載

　　信息爆炸曾給如饑似渴的網民帶來甘露，但海量信息泛濫也讓網民焦頭爛額。如今，多家互聯網公司開始嘗試通過編輯精選、智能推薦等手段為網民呈現真正“對胃口”的信息。正如《長尾理論》的作者克里斯·安德森所說，We are leaving the age of information and entering the age of recommendation.(我們正在遠離信息，而進入推薦時代。)

　　9月中旬，被譽為推薦系統領域的頂級國際會議——ACM RecSys 2012在愛爾蘭都柏林舉行，在此之前,RecSys大會已在明尼阿波利斯、洛桑、紐約、巴塞羅那、芝加哥先后成功舉辦五屆。

　　RecSys 2012吸引到了來自世界高校的頂級學者以及互聯網領域的知名公司研發人員的參與，比如LinkedIn,Yahoo!,Microsoft,Facebook等，議題涵蓋推薦算法、社會化推薦、用戶建模、機器學習和人機交互等前沿領域。在這樣的頂級國際會議上，也出現了中國互聯網公司的身影，來自中國內地的百度是唯一參加這個會議的國內公司，也是第一家以論文作者的身份參加會議的國內公司。

　　在會議上，百度發布了論文：Enlister:Baidu's Recommender System For The Biggest Chinese Q&A Website(中國最大問答平臺上的百度推薦系統服務)。這份論文受到了國外同行的一致認可，并最終被大會錄用。據悉，RecSys 2012此次共接收長論文24篇，錄取率20.2%;接收短論文21篇，錄取率31.8%。

　　百度這一課題實際上是百度產品研發的一個附帶成果，全部由百度一線工程師完成，主要來自推薦與個性化部和百度知道產品研發部門。論文的主要成果基于百度知道問題推薦系統，現在它每天都在為百度知道的兩億用戶提供問題推薦服務。同時，這些技術后續還將作為通用基礎技術，應用到推薦與個性化部門其它產品中，比如百度新首頁導航、百度貼吧個性化帖子、百度視頻個性化視頻等產品。

　　在研發過程中，面對世界性推薦技術難題，兩部門人員在研發開始時即達成共識，準備使用一系列創新的策略來解決問題。首先，他們將用戶的使用行為，經過隱私處理后，進行了多個層次的興趣、狀態和行為分析，為每一個用戶建立用戶模型，從而給出屬于個人的推薦結果，達到“一人一世界”的用戶體驗，以此完善用戶模型。

　　其次，他們創新地將推薦中的排序的任務轉化為點擊率預估的問題，使用機器學習框架來解決這個業界公認的難題，以此構建機器學習排序模型。

　　此外，他們還使用了流式計算框架，將一個問題從提出到準確推薦給對這個問題有興趣的用戶的時間縮短為10分鐘，保證合適的問題能夠快速的展現給合適的用戶來快速解決。

　　事實證明，他們采用的通用用戶模型、機器學習排序和流式計算在項目中取得了非常好的效果。項目上線后，百度知道回答量從8.4萬提升到10.2萬，提升了21.4%;轉化率從0.148%提升到0.179%，提升21.0%。

　　他們的這一成果一是證明了機器學習策略應用在推薦排序中的重要性，后續會持續優化并推廣到更多產品中;二是流式計算架構能給用戶帶來的良好體驗，使得它會作為后續推薦產品中的核心架構并推廣;三是證明百度推薦技術的研發處在推薦業界的領先水平，對百度后續的發展規劃具有一定的指導意義。

　　研發并非一帆風順。據百度工程師介紹，研發過程中，他們在機器學習排序問題的樣本和特征選擇上就曾遇到困難。

　　“按照比較流行的搜索廣告點擊率預估的思路，負樣本會選擇用戶沒有點擊過的內容。這種做法對樣本量和特征量要求極高，業界通常的廣告點擊率預估系統通常有十億或者百億級別的樣本，億級別的特征，通常需要成百上千臺機器來做模型訓練的工作，這樣的機器預算對產品線來說是沒法承受的”。

　　據一位參與研發的百度工程師介紹，這一問題困擾了他們一段時間。后來在自然語言處理部機器學習組以及百度知道的共同討論和調研中，他們逐漸摸索出一套小型的樣本選擇和特征抽取方法。他們提取了百萬級的樣本和百級別的特征，這樣就能夠在不大幅減少模型精度的情況下，用幾臺機器就能完成模型訓練的工作，“得益于機器學習組同事豐富的機器學習經驗和產品線同事對產品的深刻見解，最終大家一起漂亮的解決了這個難題”。

　　近年來，隨著以 Facebook、Twitter為代表的社會化網絡異軍突起，用戶貢獻內容，社會化途徑傳播，讓信息量幾何倍數爆炸，以用戶為核心的信息“推薦”時代已經來臨，無論互聯網格局是否會發生巨變，那些具有技術實力、富有前瞻性的互聯網公司必將引領下一個互聯網浪潮。

文章版權歸西部工控xbgk所有，未經許可不得轉載。

百度推薦系統登...