資訊頻道

      百度推薦系統(tǒng)登上國際最高技術(shù)講臺

        信息爆炸曾給如饑似渴的網(wǎng)民帶來甘露,但海量信息泛濫也讓網(wǎng)民焦頭爛額。如今,多家互聯(lián)網(wǎng)公司開始嘗試通過編輯精選、智能推薦等手段為網(wǎng)民呈現(xiàn)真正“對胃口”的信息。正如《長尾理論》的作者克里斯·安德森所說,We are leaving the age of information and entering the age of recommendation.(我們正在遠(yuǎn)離信息,而進(jìn)入推薦時代。)

        9月中旬,被譽為推薦系統(tǒng)領(lǐng)域的頂級國際會議——ACM RecSys 2012在愛爾蘭都柏林舉行,在此之前,RecSys大會已在明尼阿波利斯、洛桑、紐約、巴塞羅那、芝加哥先后成功舉辦五屆。

        RecSys 2012吸引到了來自世界高校的頂級學(xué)者以及互聯(lián)網(wǎng)領(lǐng)域的知名公司研發(fā)人員的參與,比如LinkedIn,Yahoo!,Microsoft,Facebook等,議題涵蓋推薦算法、社會化推薦、用戶建模、機器學(xué)習(xí)和人機交互等前沿領(lǐng)域。在這樣的頂級國際會議上,也出現(xiàn)了中國互聯(lián)網(wǎng)公司的身影,來自中國內(nèi)地的百度是唯一參加這個會議的國內(nèi)公司,也是第一家以論文作者的身份參加會議的國內(nèi)公司。

        在會議上,百度發(fā)布了論文:Enlister:Baidu's Recommender System For The Biggest Chinese Q&A Website(中國最大問答平臺上的百度推薦系統(tǒng)服務(wù))。這份論文受到了國外同行的一致認(rèn)可,并最終被大會錄用。據(jù)悉,RecSys 2012此次共接收長論文24篇,錄取率20.2%;接收短論文21篇,錄取率31.8%。

        百度這一課題實際上是百度產(chǎn)品研發(fā)的一個附帶成果,全部由百度一線工程師完成,主要來自推薦與個性化部和百度知道產(chǎn)品研發(fā)部門。論文的主要成果基于百度知道問題推薦系統(tǒng),現(xiàn)在它每天都在為百度知道的兩億用戶提供問題推薦服務(wù)。同時,這些技術(shù)后續(xù)還將作為通用基礎(chǔ)技術(shù),應(yīng)用到推薦與個性化部門其它產(chǎn)品中,比如百度新首頁導(dǎo)航、百度貼吧個性化帖子、百度視頻個性化視頻等產(chǎn)品。

        在研發(fā)過程中,面對世界性推薦技術(shù)難題,兩部門人員在研發(fā)開始時即達(dá)成共識,準(zhǔn)備使用一系列創(chuàng)新的策略來解決問題。首先,他們將用戶的使用行為,經(jīng)過隱私處理后,進(jìn)行了多個層次的興趣、狀態(tài)和行為分析,為每一個用戶建立用戶模型,從而給出屬于個人的推薦結(jié)果,達(dá)到“一人一世界”的用戶體驗,以此完善用戶模型。

        其次,他們創(chuàng)新地將推薦中的排序的任務(wù)轉(zhuǎn)化為點擊率預(yù)估的問題,使用機器學(xué)習(xí)框架來解決這個業(yè)界公認(rèn)的難題,以此構(gòu)建機器學(xué)習(xí)排序模型。

        此外,他們還使用了流式計算框架,將一個問題從提出到準(zhǔn)確推薦給對這個問題有興趣的用戶的時間縮短為10分鐘,保證合適的問題能夠快速的展現(xiàn)給合適的用戶來快速解決。

        事實證明,他們采用的通用用戶模型、機器學(xué)習(xí)排序和流式計算在項目中取得了非常好的效果。項目上線后,百度知道回答量從8.4萬提升到10.2萬,提升了21.4%;轉(zhuǎn)化率從0.148%提升到0.179%,提升21.0%。

        他們的這一成果一是證明了機器學(xué)習(xí)策略應(yīng)用在推薦排序中的重要性,后續(xù)會持續(xù)優(yōu)化并推廣到更多產(chǎn)品中;二是流式計算架構(gòu)能給用戶帶來的良好體驗,使得它會作為后續(xù)推薦產(chǎn)品中的核心架構(gòu)并推廣;三是證明百度推薦技術(shù)的研發(fā)處在推薦業(yè)界的領(lǐng)先水平,對百度后續(xù)的發(fā)展規(guī)劃具有一定的指導(dǎo)意義。

        研發(fā)并非一帆風(fēng)順。據(jù)百度工程師介紹,研發(fā)過程中,他們在機器學(xué)習(xí)排序問題的樣本和特征選擇上就曾遇到困難。

        “按照比較流行的搜索廣告點擊率預(yù)估的思路,負(fù)樣本會選擇用戶沒有點擊過的內(nèi)容。這種做法對樣本量和特征量要求極高,業(yè)界通常的廣告點擊率預(yù)估系統(tǒng)通常有十億或者百億級別的樣本,億級別的特征,通常需要成百上千臺機器來做模型訓(xùn)練的工作,這樣的機器預(yù)算對產(chǎn)品線來說是沒法承受的”。

        據(jù)一位參與研發(fā)的百度工程師介紹,這一問題困擾了他們一段時間。后來在自然語言處理部機器學(xué)習(xí)組以及百度知道的共同討論和調(diào)研中,他們逐漸摸索出一套小型的樣本選擇和特征抽取方法。他們提取了百萬級的樣本和百級別的特征,這樣就能夠在不大幅減少模型精度的情況下,用幾臺機器就能完成模型訓(xùn)練的工作,“得益于機器學(xué)習(xí)組同事豐富的機器學(xué)習(xí)經(jīng)驗和產(chǎn)品線同事對產(chǎn)品的深刻見解,最終大家一起漂亮的解決了這個難題”。

        近年來,隨著以 Facebook、Twitter為代表的社會化網(wǎng)絡(luò)異軍突起,用戶貢獻(xiàn)內(nèi)容,社會化途徑傳播,讓信息量幾何倍數(shù)爆炸,以用戶為核心的信息“推薦”時代已經(jīng)來臨,無論互聯(lián)網(wǎng)格局是否會發(fā)生巨變,那些具有技術(shù)實力、富有前瞻性的互聯(lián)網(wǎng)公司必將引領(lǐng)下一個互聯(lián)網(wǎng)浪潮。

      文章版權(quán)歸西部工控xbgk所有,未經(jīng)許可不得轉(zhuǎn)載。

      主站蜘蛛池模板: 2022年亚洲午夜一区二区福利| 午夜视频在线观看一区| 麻豆视频一区二区三区| 精品一区二区久久久久久久网站| 四虎在线观看一区二区| 日本成人一区二区| 中文字幕无码一区二区三区本日| 国产午夜一区二区在线观看| 亚洲福利一区二区| 日韩av无码一区二区三区| 成人区精品人妻一区二区不卡| 国产在线无码视频一区| 色一情一乱一伦一区二区三欧美| 精品无码人妻一区二区三区 | 成人免费观看一区二区| 国产精品视频一区二区三区四 | 亚洲乱码av中文一区二区| 无码AV中文一区二区三区| 国产一区二区三区久久| 国产午夜精品一区二区三区| 亚洲日韩国产精品第一页一区| 丝袜人妻一区二区三区| 国产日韩精品一区二区三区在线| 中文字幕一区视频一线| 亚洲色欲一区二区三区在线观看| 中文字幕Av一区乱码| 久久一区二区三区精品| 亚洲国产一区在线| 国产精品福利一区二区久久| 日本无卡码一区二区三区| 亲子乱av一区区三区40岁| 在线不卡一区二区三区日韩| 八戒久久精品一区二区三区| 国产精品无码不卡一区二区三区| 成人无码一区二区三区| 久久无码人妻一区二区三区午夜| 99精品国产一区二区三区2021| 成人国产精品一区二区网站公司| 国产在线步兵一区二区三区| 精品人体无码一区二区三区| 亚洲制服中文字幕第一区|