專利名稱:一種推薦產(chǎn)品介紹信息的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)涉及通信技術(shù)領(lǐng)域,特別是涉及一種推薦產(chǎn)品介紹信息的方法和裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,互聯(lián)網(wǎng)能夠提供的信息越來越豐富。因此,互聯(lián)網(wǎng)作為一個(gè)龐大的信息源,成為人們獲取信息的最方便快捷、也是最重要的途徑之一。用戶在互聯(lián)網(wǎng)上了解一個(gè)產(chǎn)品時(shí),通常希望通過相應(yīng)的產(chǎn)品網(wǎng)站的介紹頁面來了解該產(chǎn)品,產(chǎn)品網(wǎng)站通常為產(chǎn)品供應(yīng)商的官方網(wǎng)站,產(chǎn)品網(wǎng)站提供的產(chǎn)品介紹信息在真實(shí)性、權(quán)威性、及時(shí)性和全面性等方面都優(yōu)于與產(chǎn)品相關(guān)的其他信息。現(xiàn)有技術(shù)在推薦產(chǎn)品介紹信息時(shí),通常先借助于搜索引擎獲取與產(chǎn)品名稱相關(guān)的文檔,再使用產(chǎn)品名稱對(duì)所有獲取到的文檔進(jìn)行匹配,將匹配度最高的文檔作為產(chǎn)品介紹 信息推薦給用戶。在實(shí)現(xiàn)本申請(qǐng)的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在如下問題面對(duì)互聯(lián)網(wǎng)龐大的信息資源以及大量的干擾因素,搜索引擎通常會(huì)獲取到大量的與產(chǎn)品名稱相關(guān)的文檔,相應(yīng)的匹配過程的計(jì)算量也會(huì)非常龐大,從而大量地占用系統(tǒng)資源,降低了系統(tǒng)的工作效率。
發(fā)明內(nèi)容
本申請(qǐng)的目的在于提供一種推薦產(chǎn)品介紹信息的方法和裝置,以減小確定產(chǎn)品介紹信息的過程中的計(jì)算量,為此,本申請(qǐng)采用如下技術(shù)方案—種推薦產(chǎn)品介紹信息的方法,包括根據(jù)產(chǎn)品名稱獲取與所述產(chǎn)品名稱相關(guān)的文檔,從獲取的文檔中選擇來源于與所述產(chǎn)品名稱對(duì)應(yīng)的產(chǎn)品網(wǎng)站的文檔;根據(jù)選擇出的文檔的特征信息和預(yù)先構(gòu)建的文檔分類模型,從所述選擇出的文檔中確定出多個(gè)候選文檔;分別計(jì)算各個(gè)候選文檔的標(biāo)題與產(chǎn)品名稱的相關(guān)度,將相關(guān)度最大的候選文檔確定為向用戶推薦的產(chǎn)品介紹信息。一種推薦產(chǎn)品介紹信息的裝置,包括獲取模塊,用于根據(jù)產(chǎn)品名稱獲取與所述產(chǎn)品名稱相關(guān)的文檔;選擇模塊,用于從所述獲取模塊獲取的文檔中選擇來源于與所述產(chǎn)品名稱對(duì)應(yīng)的產(chǎn)品網(wǎng)站的文檔;信息確定模塊,用于根據(jù)所述選擇模塊選擇出的文檔的特征信息和預(yù)先構(gòu)建的文檔分類模型,從所述選擇出的文檔中確定出向用戶推薦的產(chǎn)品介紹信息;所述信息確定模塊,包括候選文檔確定子模塊,用于根據(jù)獲取的文檔的特征信息和預(yù)先構(gòu)建的文檔分類模型,從所述獲取的文檔中確定多個(gè)候選文檔;
計(jì)算子模塊,用于分別計(jì)算各個(gè)候選文檔的標(biāo)題與產(chǎn)品名稱的相關(guān)度;介紹信息確定子模塊,用于將相關(guān)度最大的候選文檔確定為向用戶推薦的產(chǎn)品介紹信息。本申請(qǐng)的實(shí)施例包括以下優(yōu)點(diǎn),根據(jù)與產(chǎn)品名稱對(duì)應(yīng)的產(chǎn)品網(wǎng)站對(duì)獲取到的文檔進(jìn)行過濾,并根據(jù)來源于產(chǎn)品網(wǎng)站的文檔的特征信息和預(yù)先構(gòu)建的文檔分類模型,確定出向用戶推薦的產(chǎn)品介紹信息,能夠縮小產(chǎn)品介紹信息的定位范圍,減小確定產(chǎn)品介紹信息的過程中的計(jì)算量和對(duì)系統(tǒng)資源的占用,提高推薦產(chǎn)品介紹信息的效率和準(zhǔn)確率。當(dāng)然,實(shí)施本申請(qǐng)的實(shí)施例的任一產(chǎn)品并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
圖I為本申請(qǐng)實(shí)施例中的構(gòu)建文檔分類模型的流程圖;圖2為本申請(qǐng)實(shí)施例中的推薦產(chǎn)品介紹信息的方法流程圖;圖3為本申請(qǐng)實(shí)施例中的構(gòu)建網(wǎng)站分類模型的流程圖;圖4為本申請(qǐng)實(shí)施例中的確定產(chǎn)品網(wǎng)站的方法流程圖;圖5為本申請(qǐng)實(shí)施例中的推薦產(chǎn)品介紹信息的裝置結(jié)構(gòu)示意圖。
具體實(shí)施例方式本申請(qǐng)實(shí)施例提供的技術(shù)方案中,可以根據(jù)產(chǎn)品名稱獲取與產(chǎn)品名稱相關(guān)的文檔,從獲取的文檔中選擇來源于與產(chǎn)品名稱對(duì)應(yīng)的產(chǎn)品網(wǎng)站的文檔,并根據(jù)選擇出的文檔的特征信息和預(yù)先構(gòu)建的文檔分類模型,從選擇出的文檔中確定出向用戶推薦的產(chǎn)品介紹信息。下面將結(jié)合本申請(qǐng)中的附圖,對(duì)本申請(qǐng)中的技術(shù)方案進(jìn)行清楚、完整的描述,顯然,所描述的實(shí)施例是本申請(qǐng)的一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。本申請(qǐng)實(shí)施例提供的推薦產(chǎn)品介紹信息的方法中,可以預(yù)先構(gòu)建文檔分類模型,該文檔分類模型用于確定向用戶推薦的產(chǎn)品介紹信息。構(gòu)建文檔分類模型的流程圖,如圖I所示,包括以下步驟步驟101,根據(jù)預(yù)設(shè)數(shù)量的產(chǎn)品名稱,獲取與各個(gè)產(chǎn)品名稱相關(guān)的文檔作為文檔分類模型的訓(xùn)練數(shù)據(jù)源。具體地,可以根據(jù)多個(gè)產(chǎn)品名稱獲取與各個(gè)產(chǎn)品名稱相關(guān)的文檔的內(nèi)容、URL (Uniform/Universal Resource Locator,統(tǒng)一資源定位符)和Title(標(biāo)題)等信息,其中,上述與產(chǎn)品名稱相關(guān)的文檔可以是后續(xù)向用戶推薦的產(chǎn)品介紹信息,也可以不是后續(xù)向用戶推薦的產(chǎn)品介紹信息;可以來源于與該產(chǎn)品名稱對(duì)應(yīng)的產(chǎn)品網(wǎng)站,如產(chǎn)品供應(yīng)商的官方網(wǎng)站;也可以不是來源于與該產(chǎn)品名稱對(duì)應(yīng)的產(chǎn)品網(wǎng)站,如非產(chǎn)品供應(yīng)商的官方網(wǎng)站。步驟102,從訓(xùn)練數(shù)據(jù)源中提取特征信息作為文檔分類模型的訓(xùn)練樣本。
其中,特征信息可以包括URL特征、Title特征、內(nèi)容特征、搜索排名以及是否為向用戶推薦的產(chǎn)品介紹信息。URL特征可以基于文檔的整體URL獲取得到,也可以基于文檔的除域名之外的部分URL獲取得到。例如,作為訓(xùn)練特征源的文檔A的整體URL為http://www. nokia. com/N0KIA_C0M_l/Microsites/Nokia_5800_XpressMusic/ ;相應(yīng)地,文檔 A 的除域名之外的部分 URL 為N0KIA_C0M_l/Microsites/Nokia_5800_XpressMusic/。搜索排名可以為文檔所在的網(wǎng)站在搜索引擎獲取的搜索結(jié)果中的排名,例如,網(wǎng)站的Google rank。如表I所示,為文檔分類模型的特征信息列表。表I文檔分類模型的特征信息列表
權(quán)利要求
1.一種推薦產(chǎn)品介紹信息的方法,其特征在于,包括 根據(jù)產(chǎn)品名稱獲取與所述產(chǎn)品名稱相關(guān)的文檔,從獲取的文檔中選擇來源于與所述產(chǎn)品名稱對(duì)應(yīng)的產(chǎn)品網(wǎng)站的文檔; 根據(jù)選擇出的文檔的特征信息和預(yù)先構(gòu)建的文檔分類模型,從所述選擇出的文檔中確定出多個(gè)候選文檔; 分別計(jì)算各個(gè)候選文檔的標(biāo)題與產(chǎn)品名稱的相關(guān)度,將相關(guān)度最大的候選文檔確定為向用戶推薦的產(chǎn)品介紹信息。
2.如權(quán)利要求I所述的方法,其特征在于,所述文檔分類模型通過以下方式構(gòu)建得到 根據(jù)預(yù)設(shè)數(shù)量的產(chǎn)品名稱,獲取與各個(gè)產(chǎn)品名稱相關(guān)的文檔作為文檔分類模型的訓(xùn)練數(shù)據(jù)源; 從所述訓(xùn)練數(shù)據(jù)源中提取特征信息作為文檔分類模型的訓(xùn)練樣本,根據(jù)所述訓(xùn)練樣本構(gòu)建文檔分類模型。
3.如權(quán)利要求I所述的方法,其特征在于,所述與產(chǎn)品名稱對(duì)應(yīng)的產(chǎn)品網(wǎng)站通過以下方式確定 從廣品名稱中提取對(duì)應(yīng)的品牌關(guān)鍵詞; 根據(jù)品牌關(guān)鍵詞獲取與品牌關(guān)鍵詞相關(guān)的網(wǎng)站; 根據(jù)獲取的網(wǎng)站的特征信息和預(yù)先構(gòu)建的網(wǎng)站分類模型,從獲取的網(wǎng)站中確定出與產(chǎn)品名稱對(duì)應(yīng)的產(chǎn)品網(wǎng)站。
4.如權(quán)利要求3所述的方法,其特征在于,所述網(wǎng)站分類模型通過以下方式構(gòu)建得到 從預(yù)設(shè)數(shù)量的產(chǎn)品名稱中分別提取與各個(gè)產(chǎn)品名稱對(duì)應(yīng)的品牌關(guān)鍵詞; 根據(jù)所述品牌關(guān)鍵詞獲取與所述品牌關(guān)鍵詞相關(guān)的網(wǎng)站作為網(wǎng)站分類模型的訓(xùn)練數(shù)據(jù)源; 從所述訓(xùn)練數(shù)據(jù)源中提取特征信息作為網(wǎng)站分類模型的訓(xùn)練樣本,根據(jù)所述訓(xùn)練樣本構(gòu)建網(wǎng)站分類模型。
5.如權(quán)利要求3所述的方法,其特征在于,所述根據(jù)獲取的網(wǎng)站的特征信息和預(yù)先構(gòu)建的網(wǎng)站分類模型,從獲取的網(wǎng)站中確定出與產(chǎn)品名稱對(duì)應(yīng)的產(chǎn)品網(wǎng)站,包括 根據(jù)獲取的網(wǎng)站的特征信息和預(yù)先構(gòu)建的網(wǎng)站分類模型,從獲取的網(wǎng)站中確定出多個(gè)候選網(wǎng)站; 將搜索排名最靠前的候選網(wǎng)站確定為與產(chǎn)品名稱對(duì)應(yīng)的產(chǎn)品網(wǎng)站。
6.如權(quán)利要求I所述的方法,其特征在于,其特征在于,所述計(jì)算各個(gè)候選文檔的標(biāo)題與廣品名稱的相關(guān)度,包括 分別計(jì)算所述產(chǎn)品名稱中的每個(gè)詞語與候選文檔的標(biāo)題中的每個(gè)詞語的語義相似度,并確定出與所述產(chǎn)品名稱中的每個(gè)詞語對(duì)應(yīng)的語義相似度最大的詞語對(duì); 確定所述詞語對(duì)中的兩個(gè)詞語的位置相似度和詞性相似度,并根據(jù)所述位置相似度、所述詞性相似度、所述語義相似度、所述候選文檔的標(biāo)題的詞語數(shù)和所述產(chǎn)品名稱的詞語數(shù)確定所述候選文檔的標(biāo)題與所述產(chǎn)品名稱的相關(guān)度。
7.如權(quán)利要求6所述的方法,其特征在于,所述根據(jù)所述位置相似度、所述詞性相似度、所述語義相似度、所述候選文檔的標(biāo)題的詞語數(shù)和所述產(chǎn)品名稱的詞語數(shù)確定所述候選文檔的標(biāo)題與所述產(chǎn)品名稱的相關(guān)度,具體為按照以下公式確定所述候選文檔的標(biāo)題與所述產(chǎn)品名稱的相關(guān)度
8.一種推薦產(chǎn)品介紹信息的裝置,其特征在于,包括 獲取模塊,用于根據(jù)產(chǎn)品名稱獲取與所述產(chǎn)品名稱相關(guān)的文檔; 選擇模塊,用于從所述獲取模塊獲取的文檔中選擇來源于與所述產(chǎn)品名稱對(duì)應(yīng)的產(chǎn)品網(wǎng)站的文檔; 信息確定模塊,用于根據(jù)所述選擇模塊選擇出的文檔的特征信息和預(yù)先構(gòu)建的文檔分類模型,從所述選擇出的文檔中確定出向用戶推薦的產(chǎn)品介紹信息; 所述信息確定模塊,包括 候選文檔確定子模塊,用于根據(jù)獲取的文檔的特征信息和預(yù)先構(gòu)建的文檔分類模型,從所述獲取的文檔中確定多個(gè)候選文檔; 計(jì)算子模塊,用于分別計(jì)算各個(gè)候選文檔的標(biāo)題與產(chǎn)品名稱的相關(guān)度; 介紹信息確定子模塊,用于將相關(guān)度最大的候選文檔確定為向用戶推薦的產(chǎn)品介紹信肩、。
9.如權(quán)利要求8所述的裝置,其特征在于,還包括 文檔模型構(gòu)建模塊,用于根據(jù)預(yù)設(shè)數(shù)量的產(chǎn)品名稱,獲取與各個(gè)產(chǎn)品名稱相關(guān)的文檔作為文檔分類模型的訓(xùn)練數(shù)據(jù)源;從所述訓(xùn)練數(shù)據(jù)源中提取特征信息作為文檔分類模型的訓(xùn)練樣本,根據(jù)所述訓(xùn)練樣本構(gòu)建文檔分類模型。
10.如權(quán)利要求8所述的裝置,其特征在于,還包括 網(wǎng)站確定模塊,用于從產(chǎn)品名稱中提取對(duì)應(yīng)的品牌關(guān)鍵詞,根據(jù)品牌關(guān)鍵詞獲取與品牌關(guān)鍵詞相關(guān)的網(wǎng)站,根據(jù)獲取的網(wǎng)站的特征信息和預(yù)先構(gòu)建的網(wǎng)站分類模型,從獲取的網(wǎng)站中確定出與產(chǎn)品名稱對(duì)應(yīng)的產(chǎn)品網(wǎng)站。
11.如權(quán)利要求8所述的裝置,其特征在于,還包括 網(wǎng)站模型構(gòu)建模塊,用于從預(yù)設(shè)數(shù)量的產(chǎn)品名稱中分別提取與各個(gè)產(chǎn)品名稱對(duì)應(yīng)的品牌關(guān)鍵詞,根據(jù)所述品牌關(guān)鍵詞獲取與所述品牌關(guān)鍵詞相關(guān)的網(wǎng)站作為網(wǎng)站分類模型的訓(xùn)練數(shù)據(jù)源;從所述訓(xùn)練數(shù)據(jù)源中提取特征信息作為網(wǎng)站分類模型的訓(xùn)練樣本,根據(jù)所述訓(xùn)練樣本構(gòu)建網(wǎng)站分類模型。
12.如權(quán)利要求8所述的裝置,其特征在于, 所述網(wǎng)站確定模塊,具體用于根據(jù)獲取的網(wǎng)站的特征信息和預(yù)先構(gòu)建的網(wǎng)站分類模型,從獲取的網(wǎng)站中確定出多個(gè)候選網(wǎng)站,將搜索排名最靠前的候選網(wǎng)站確定為與產(chǎn)品名稱對(duì)應(yīng)的產(chǎn)品網(wǎng)站。
13.如權(quán)利要求8所述的裝置,其特征在于, 所述計(jì)算子模塊,具體用于分別計(jì)算所述產(chǎn)品名稱中的每個(gè)詞語與候選文檔的標(biāo)題中的每個(gè)詞語的語義相似度,并確定出與所述產(chǎn)品名稱中的每個(gè)詞語對(duì)應(yīng)的語義相似度最大的詞語對(duì);確定所述詞語對(duì)中的兩個(gè)詞語的位置相似度和詞性相似度,并根據(jù)所述位置相似度、所述詞性相似度、所述語義相似度、所述候選文檔的標(biāo)題的詞語數(shù)和所述產(chǎn)品名稱的詞語數(shù)確定所述候選文檔的標(biāo)題與所述產(chǎn)品名稱的相關(guān)度。
14.如權(quán)利要求13所述的裝置,其特征在于, 所述計(jì)算子模塊,具體用于按照以下公式確定所述候選文檔的標(biāo)題與所述產(chǎn)品名稱的相關(guān)度
全文摘要
本申請(qǐng)公開了一種推薦產(chǎn)品介紹信息的方法和裝置,該方法包括根據(jù)產(chǎn)品名稱獲取與所述產(chǎn)品名稱相關(guān)的文檔,從獲取的文檔中選擇來源于與所述產(chǎn)品名稱對(duì)應(yīng)的產(chǎn)品網(wǎng)站的文檔;根據(jù)選擇出的文檔的特征信息和預(yù)先構(gòu)建的文檔分類模型,從所述選擇出的文檔中確定出多個(gè)候選文檔;分別計(jì)算各個(gè)候選文檔的標(biāo)題與產(chǎn)品名稱的相關(guān)度,將相關(guān)度最大的候選文檔確定為向用戶推薦的產(chǎn)品介紹信息。通過本申請(qǐng),可以減小確定產(chǎn)品介紹信息的過程中的計(jì)算量。
文檔編號(hào)G06F17/30GK102646101SQ20111004219
公開日2012年8月22日 申請(qǐng)日期2011年2月22日 優(yōu)先權(quán)日2011年2月22日
發(fā)明者許洋波 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司