用于網(wǎng)上購物的關聯(lián)提取的系統(tǒng)和方法
【專利摘要】本公開涉及用于向網(wǎng)頁提供數(shù)據(jù)使得以模擬真實世界購物體驗的方式向用戶呈現(xiàn)項目的計算機系統(tǒng)和由選擇性編程的數(shù)據(jù)處理器執(zhí)行的方法。所公開的技術的各個方案還涉及用于使用關聯(lián)關系提取來計算產(chǎn)品或類別關聯(lián)的系統(tǒng)和方法。所公開的技術的附加方案涉及自動話題發(fā)現(xiàn)以及事件和類別匹配。
【專利說明】用于網(wǎng)上購物的關聯(lián)提取的系統(tǒng)和方法
[0001] 要求優(yōu)先權
[0002] 本申請要求于2012年2月9日提交的美國臨時專利申請No. 61/597,032以及于 2012年9月10日提交的美國非臨時專利申請No. 13/607, 967的優(yōu)先權,其全部內(nèi)容通過引 用的方式并入本文。
【技術領域】
[0003] 本發(fā)明大體上涉及電子商務,更具體地,涉及基于網(wǎng)絡的計算機系統(tǒng)和方法,用于 實現(xiàn)性能和呈現(xiàn)增強協(xié)議以及用于促進基于web的商務的系統(tǒng)架構。
【背景技術】
[0004] 網(wǎng)上購物在很多方面與在實際商場購物極大地不同。一個明顯的區(qū)別是網(wǎng)上購物 模型是面向搜索的,即,基于用戶鍵入查詢并且在最佳結果中找到相應的產(chǎn)品。因此,網(wǎng)上 購物非常適合于心里有希望購買的特定類型的產(chǎn)品的用戶的目標。此類用戶希望能夠快速 地找到其選擇產(chǎn)品或者比較相同產(chǎn)品的接近的備選物和變體。
[0005] 另一方面,很多用戶非常享受購物活動并且喜歡在他們決定購買之前瀏覽各種不 同的項目。這種購物體驗傳統(tǒng)上僅非常適合于線下或實際商場,例如通過走進百貨公司或 者購物中心并且瀏覽。面向搜索的網(wǎng)上購物網(wǎng)站未提供全面或令人滿意的"瀏覽"功能。
[0006] 本發(fā)明試圖解決這些問題和其他問題,以提供增強的網(wǎng)上購物體驗,從而部分地 允許用戶體驗在實際商場瀏覽的網(wǎng)上等同效果并且向用戶提供相關的產(chǎn)品。
【發(fā)明內(nèi)容】
[0007] 因此,本發(fā)明的一個目的是提供具有向用戶呈現(xiàn)相關聯(lián)產(chǎn)品的訪問門戶網(wǎng)站的基 于網(wǎng)絡的計算機系統(tǒng)。
[0008] 本發(fā)明的另一目的是提供用于優(yōu)化向用戶呈現(xiàn)的相關聯(lián)產(chǎn)品的協(xié)議。
[0009] 本發(fā)明的另一目的是提供關聯(lián)關系提取。
[0010] 本發(fā)明的另一目的是提供用于產(chǎn)品/電子商務域的話題發(fā)現(xiàn)。
[0011] 本發(fā)明的另一目的是提供事件和類別匹配。
[0012] 本發(fā)明的上述目的和其他目的在其特定示意性實施例中被實現(xiàn),其中,特定示意 性實施例包括連接到web的選擇性編程的計算機平臺和系統(tǒng)。
[0013] 當結合附圖和詳細描述考慮時,本發(fā)明的其他特征和優(yōu)點將變得更加顯而易見。
【專利附圖】
【附圖說明】
[0014] 在附圖中:
[0015] 圖1是示出了根據(jù)所公開的技術的一個實施例的示例性互聯(lián)網(wǎng)商場環(huán)境的框圖。
[0016] 圖2是根據(jù)所公開的技術的一個實施例的圖1的網(wǎng)上購物服務器110中的示例性 組件的框圖。
[0017] 圖3至圖4是所公開的技術的示意性實施例的屏幕截圖。
[0018] 圖5是示出了 LDA模型及其參數(shù)的示圖。
【具體實施方式】
[0019] 本發(fā)明涉及用于向網(wǎng)頁提供數(shù)據(jù)使得以模擬真實世界購物體驗的方式向用戶呈 現(xiàn)項目的計算機系統(tǒng)和由選擇性編程的數(shù)據(jù)處理器所執(zhí)行的方法。所公開的技術的各個方 案還涉及用于使用關聯(lián)關系提取來計算產(chǎn)品或類別關聯(lián)的系統(tǒng)和方法。所公開的技術的附 加方案涉及自動話題發(fā)現(xiàn)以及事件和類別匹配。本文所描述的特定實施例是示例性的,而 不限制所公開的技術的范圍。
[0020] 現(xiàn)在參照圖1,示出了根據(jù)所公開的技術的互聯(lián)網(wǎng)商場基礎設施100的一個實施 例的框圖?;ヂ?lián)網(wǎng)商場基礎設施100包括網(wǎng)絡102,網(wǎng)絡102可以包括一個或更多個電信 設備(例如,路由器、集線器、網(wǎng)關等)以及一個或更多個連接(例如,有線連接或無線連 接)。在不同的實施例中,網(wǎng)絡102可以包括不同數(shù)量的電信設備和連接,并且可以跨越不 同地理范圍。在不同的實施例中,網(wǎng)絡102可以尤其包括有線電話基礎設施、蜂窩電話基礎 設施、有線電視基礎設施和/或衛(wèi)星電視基礎設施的全部或部分。
[0021] 各個互聯(lián)網(wǎng)商場參與者(包括一個或更多個用戶計算機104和106、零售商服務 器108和網(wǎng)上購物服務器110)與網(wǎng)絡102進行通信。本文所使用的術語"計算機"包括可 以執(zhí)行機器指令的任何系統(tǒng)或設備,包括例如:臺式計算機、膝上型計算機、服務器、手機、 智能手機、手持設備、電視機頂盒和/或聯(lián)網(wǎng)的計算系統(tǒng)或其中的多個或其組合。零售商服 務器108包括網(wǎng)頁和web服務器軟件,其中web服務器軟件可以向請求網(wǎng)頁的系統(tǒng)或設備 提供網(wǎng)頁。網(wǎng)頁可以包括大量不同的媒體和內(nèi)容,包括例如:購物內(nèi)容。網(wǎng)上購物服務器 114可操作以確定類別與產(chǎn)品之間的關聯(lián)關系,構造話題頁面,并且執(zhí)行下面詳細描述的各 種其他功能。網(wǎng)上購物服務器114可以是零售商服務器108的一部分,或者可以是單獨的 服務器。
[0022] 用戶計算機104和106、零售商服務器108和網(wǎng)上購物服務器110均可以包括硬 件,例如,網(wǎng)絡通信設備、非瞬時存儲介質/設備、處理器、存儲器和諸如操作系統(tǒng)軟件、web 服務器軟件和/或web瀏覽軟件等的軟件。在一個實施例中,用戶計算機104和106包括 web瀏覽器,web瀏覽器可以向零售商服務器108和/或網(wǎng)上購物服務器110請求網(wǎng)頁。本 領域技術人員將理解的是,"網(wǎng)頁"是指不同事物的集合,包括:在屏幕上顯示的視覺內(nèi)容 (例如,文本、圖片、視頻、按鈕等)、使視覺內(nèi)容被顯示的軟件代碼、以及不使任何事物被顯 示而是結合網(wǎng)頁執(zhí)行特定功能的其他軟件代碼。
[0023] 圖2示出了根據(jù)所公開的技術的一個實施例的圖1的網(wǎng)上購物服務器110的示例 性組件。界面軟件202允許與網(wǎng)上購物服務器110進行用戶交互。存儲介質204可操作以 存儲選擇性程序,包括:實現(xiàn)關聯(lián)關系提取引擎206和輸出引擎210所需的程序??梢栽跀?shù) 據(jù)處理器208上運行關聯(lián)關系提取引擎206,使得執(zhí)行下面所描述的算法和方法。輸出引擎 210可操作以向用戶計算機或零售商服務器輸出關聯(lián)關系提取引擎206的結果,例如,話題 頁面。
[0024] 在一個實施例中,用戶能夠在特定產(chǎn)品類別(例如,酒)中查看產(chǎn)品。系統(tǒng)的目的 之一是確定用戶將對哪些其他類別感興趣并且顯示這些類別。例如,在酒的情況下,可能存 在各種類型的酒,但也有開瓶器具和儲存器具以及酒杯或與酒一起供應的適合的食物(例 如,奶酪)??梢栽诿恳粋€零售商可能特有的"產(chǎn)品本體樹"中定義這些產(chǎn)品類別。例如, 零售商X可能具有家用項目類別(其具有開瓶器作為子類別)以及食物類別(其具有飲料 作為子類別并且具有酒作為飲料類別的子類別)。在該示例中,上文提到的所有類型的產(chǎn) 品被指派給零售商的產(chǎn)品層級中的不同類別,這些類別在產(chǎn)品本體樹中通常離得很遠。此 夕卜,用戶數(shù)據(jù)可能不足以找到這種類型的關聯(lián),這是因為它可能遇到稀少問題,或者以此方 式找到的相關內(nèi)容可能不足夠相干使得將它一起顯示將提供愉快的上網(wǎng)體驗。
[0025] 考慮到零售商產(chǎn)品層級中的類別(例如,意大利面醬)以及指派給該類別的產(chǎn)品 的描述,本發(fā)明在意大利面醬的情況下提取其他相關聯(lián)的類別,例如,意大利面、西紅柿、橄 欖油和奶酪。這是通過創(chuàng)建"類別文檔"的集合并且采用發(fā)現(xiàn)該文檔集合中的隱藏話題的 話題模型算法來實現(xiàn)的。
[0026] 然后,基于對于每一個類別是重要的的話題和類別名稱的共存來找到相關聯(lián)的類 另IJ。此外,還可以根據(jù)相關聯(lián)的類別被指派給的話題來對相關聯(lián)的話題進行分組,這提供了 布置相關聯(lián)的類別信息的自然方式。對于每一個相關類別,所公開的發(fā)明選擇示例產(chǎn)品和 產(chǎn)品描述中說明關聯(lián)的片段句子。此外,所公開的發(fā)明還構造話題頁面,該話題頁面列出了 對于給定話題主要的類別。話題頁面可以被認為是商店中的主題顯示的等同物,例如,在意 大利菜中使用的配料。
[0027] 網(wǎng)h購物范例
[0028] 網(wǎng)上購物可以被定義為網(wǎng)上購物范例,這有助于希望"瀏覽"網(wǎng)上商店的用戶瀏覽 和仔細查看各種產(chǎn)品。網(wǎng)上購物的目標用戶是不一定打算搜索特定項目、而是訪問網(wǎng)站以 仔細查看和享受購物活動的用戶。因此,網(wǎng)上購物界面的目的是捕獲用戶的意圖并且提供 娛樂。他們維持在站點上的時間越長,他們越可能發(fā)現(xiàn)他們決定購買的產(chǎn)品。網(wǎng)上購物的 另一個功能是通過在瀏覽提議中顯示用戶可能還不了解或者還未想要搜索的產(chǎn)品來使他 們接觸到這些產(chǎn)品。
[0029] 因此,在優(yōu)選的實施例中,網(wǎng)上購物界面包括多個導航選項和一個吸引人的顯示。 為了使用戶感興趣,系統(tǒng)應當提供與用戶當前正在查看的產(chǎn)品選擇相關的多個選項,所述 多個選項可以用作要仔細查看的其他可能的方向。此外,應當以有趣且吸引人的方式組織 和顯示作為相關選項顯示的項目(產(chǎn)品類別或產(chǎn)品)以促進進一步瀏覽站點。通過用于提 取產(chǎn)品類別之間的關聯(lián)關系并且將這些關聯(lián)組織為主題/話題的方法來促進這些要素。前 面的兩個部分介紹了在原型試驗中使用的方法和數(shù)據(jù)的組成部分。
[0030] 初步定義和數(shù)據(jù)
[0031] 關聯(lián)關系??紤]到典型的網(wǎng)上零售商產(chǎn)品類別層級,在不一定處于相同語義類中 (即,在產(chǎn)品樹中接近)但是仍然被感知為概念上相關的項目之間存在關聯(lián)關系。這種關 系的示例包括杯子和咖啡或者自行車和頭盔??梢哉J為項目是關聯(lián)相關的,這是因為它們 參與一個活動或事件類型(煮意大利面涉及意大利面、鍋、熱水等),一個項目類型用作另 一個項目類型的容器(茶、茶壺),或者它們經(jīng)常一起被發(fā)現(xiàn)(女士手提包中的手帕和化妝 鏡)。
[0032] 除了發(fā)現(xiàn)與給定實體關聯(lián)相關的實體集合之外,還可以根據(jù)將它們與目標實體相 聯(lián)系的主題或整個話題來對其成員進行分組。例如,與奶酪相關的實體可以包括通常在早 餐時吃的其他食物、或者與使用奶酪烹飪相關的項目,在該情況下,相關聯(lián)的實體被細分為 兩個主題組。以單個話題為例,在烹飪主題下分組的與奶酪相關的實體可以包括擦菜板 (用于擦菜的工具)、比薩(奶酪用作配料或調(diào)味配料)或者番茄汁(與奶酪搭配的配料)。 [0033] 基于手動或自動分類,類別節(jié)點可以被分為類別和屬性,其中,屬性節(jié)點出現(xiàn)在樹 的下方。例如,飯碗類別的子類別可以包括描述諸如瓷、陶瓷、塑料等的材料的屬性。
[0034] 術語類別是指在層級中的該類別節(jié)點下的產(chǎn)品集合(和相應的產(chǎn)品文檔),而術 語類別名稱是指向類別提供的標簽。在一個示例中,可以進行如下簡化假設:當在產(chǎn)品文檔 中使用類別名稱時,它是指該類別中的項目。在一個示例中,每一個類別具有一個名稱/標 簽,但是原則上,可以使用用于提及類別中的項目的同義詞或關鍵詞列表來替換該名稱。
[0035] 方法概沭
[0036] 下面描述了一種用于找到所選域(例如,食物和廚房)中的產(chǎn)品類別之間的關聯(lián) 的方法。下面參照僅考慮來自食物和廚房域的類別節(jié)點(共1088個)的具體試驗,并且將 理解的是,下面對具體示例的參考不是限制性的。在一個實施例中,用于提取關聯(lián)關系的方 法由以下步驟構成:
[0037] 1、類別文檔構造
[0038] 針對域中的每一個類別X,構造人造文檔,該人造文檔由關于其他類別Y描述該類 別的所有句子構成,更具體地,包括對X中的產(chǎn)品的描述中提到至少一個其他類別Y的名稱 的所有句子以及對類別Y中的產(chǎn)品的描述中提到類別X的名稱的所有句子。結果是文檔集 合(庫),針對每一個類別有一個文檔。
[0039] 2、使用潛在狄利克雷分配(LDA)的話題發(fā)現(xiàn)
[0040] 通過對類別文檔庫使用LDA來運行話題模型,這發(fā)現(xiàn)了文檔中的隱藏話題/主題。 模型的結果提供了文檔集合中的(由可能出現(xiàn)在每一個話題中的詞表示的)主話題以及針 對每一個類別文檔的主要話題和針對文檔集合中的每一個詞的話題標簽。必須憑經(jīng)驗建立 針對給定文檔庫的話題的數(shù)量。針對食物和廚房域,話題的數(shù)量比類別的數(shù)量少十倍是最 佳的。在一個實施例中,為了避免太籠統(tǒng)的話題,丟棄前10%的話題。
[0041] 3、選擇針對每一個類別文檔的相關類別并且向話題指派類別
[0042] 針對在單獨的類別文檔中描述的每一個目標類別,根據(jù)潛在相關話題在目標類別 文檔中的出現(xiàn)來對它們進行分類,或者基于話題模型結果來向它們指派相關分數(shù)。還基于 目標中的最佳話題之一與相關類別文檔中的最佳話題的重疊來將每一個相關類別指派給 該目標中的最佳話題之一。
[0043] 4、片段和樣本產(chǎn)品選擇
[0044] 考慮到前兩個步驟,相關類別到話題的指派是已知的,并且在目標類別文檔中存 在可以用作說明目標與相關類別之間的關系的片段候選的句子集合。針對該句子集合,包 含關聯(lián)對中的類別名稱之一的最常見的謂語變元結構被發(fā)現(xiàn),并且根據(jù)詞屬于被指派給該 特定關聯(lián)關系的話題的可能性來對這些句子進行分類。在其描述中具有高分數(shù)的片段的產(chǎn) 品被選作示例??梢酝ㄟ^根據(jù)目標類別名稱和代表話題的詞構造查詢并且將搜索結果限制 于相關類別中的項目來在產(chǎn)品索引中搜索其他示例性產(chǎn)品。
[0045] 5、類別的選擇和聚類以表示每一個話題
[0046] 因為使用LDA在類別文檔集合中發(fā)現(xiàn)了隱藏話題,因此結果還使得可以構造"話 題頁面",該話題頁面可以被視為商店中的主題顯示或主題角的等同物。為了構造話題頁 面,該話題下最可能的類別文檔被選擇并且k均值聚類版本用于根據(jù)產(chǎn)品本體樹中的距離 對其進行分組,使得類似的類別可以被顯示在一起并且使得不適合在一起的類別可以被移 除。在圖3中示出了根據(jù)所公開的發(fā)明的一個實施例的示例性話題頁面的屏幕截圖。
[0047] 6、話題標簽選擇
[0048] 話題的數(shù)量遠少于給定域中的類別的數(shù)量(例如,針對1088個類別的食物和廚房 域有100個話題),這允許手動的話題標簽選擇。然而,在一個實施例中,話題標簽選擇是自 動化的。可以由注釋器基于話題頁面上的最佳話題關鍵詞和類別的選擇來指派話題標簽。
[0049] 方法細節(jié)
[0050] 1、類別文檔構造
[0051] 該部分描述了如何考慮到該類別中的所有產(chǎn)品描述來構造類別文檔。然后,針對 給定域的此類文檔的集合可以用作在下一部分中描述的話題模型聚類的輸入。
[0052] 首先,對所有描述進行標記化,并且給詞性(P0S)加標簽并將詞性劃分到句子中。 產(chǎn)品描述中的句子分段基于簡單的樸素貝葉斯分類器,該樸素貝葉斯分類器決定當它遇到 給定的具有約20個字符(不僅可以包括標點符號,而且還可以包括星號、音符以及一些其 他符號)的集合中的分隔符之一時是否進行分段。提供給分類器的特征是:前一個詞、前一 個詞的P0S、分隔符自身以及與前一分隔符的距離(以詞為單位)。
[0053] 在分段之后,根據(jù)以下規(guī)則來清理(clean)描述數(shù)據(jù)。如果重復描述來自由相 同的零售商提供的產(chǎn)品描述,則移除重復描述,也移除重復句子。僅標點符號或者數(shù)字不 同的句子也被認為是重復的。此外,不包含任何謂語(動詞或形容詞)或格助詞(case particle)的分段被移除,以排除諸如關鍵詞列表等的非句子分段。
[0054] 基于源類別將所有句子分組到單獨的文檔中,并且向這些句子指派唯一 id,該唯 一 id包含產(chǎn)品描述所屬的類別的id。然后,進一步對句子進行過濾,從而僅留下包含域中 的另一類別的名稱的那些句子。這允許保留潛在地描述給定產(chǎn)品類別與其他類別之間的關 系的句子。這還有助于移除諸如運輸或包裝信息等的元數(shù)據(jù)。以標記化的格式保存數(shù)據(jù), 然而,與類別名稱相匹配的所有子字符串被級聯(lián)以形成單個詞(很多類別名稱由多于一個 標記構成)。
[0055] 與類別X相關的重要知識也可以包含在來自其他類別的提到類別X的名稱的產(chǎn)品 描述中。因此,在最后一個步驟中,使用從其他類別中的包含相關類別名稱的描述復制而來 的句子來增大每一個類別文檔。
[0056] 結果是文檔集合(庫),針對每一個產(chǎn)品類別有一個文檔。應當注意的是,這些文 檔不是連貫(coherent)文本或概述,它們僅將從產(chǎn)品描述中提取的相關句子聚集在一起。 因為LDA是詞包模型,因此這種類別文檔庫構成了下一個步驟的有效輸入。
[0057] 2、潛在狄利克雷分配
[0058] 除了識別與給定目標關聯(lián)相關的實體之外,另一個目的是基于目標實體的不同方 面以及它與已經(jīng)被分類為相關的實體相關聯(lián)的方式將該知識組織到主題組中。因此,利用 稱作潛在狄利克雷分配(LDA)的模型。
[0059] 為了運行LDA,必須指定三個參數(shù):話題先驗(prior)、詞先驗、以及話題群集的數(shù) 量,g卩,庫中將被模型發(fā)現(xiàn)的隱藏主題的數(shù)量。在一個實施例中,話題先驗被設置為50除以 話題的數(shù)量,并且詞先驗被設置為0. 01。小于1的話題先驗確保話題在文檔中的"峰值"分 布,其中針對每一個文檔區(qū)分幾個主要話題。應當憑經(jīng)驗來建立針對給定文檔庫的話題的 數(shù)量。對于食物和廚房域,發(fā)現(xiàn)話題數(shù)量比類別數(shù)量小十倍是最佳的。
[0060] 可以使用采用倒塌的吉布斯采樣作為推斷方法的軟件。通過利用采樣方法,可以 在采樣器的多次"老化(burn-in)"迭代之后通過多個采樣對結果進行平均。然而,實際上, 可能引入采樣之間的話題不可辨識的問題。在一個實施例中,可以在庫的對數(shù)似然已經(jīng)穩(wěn) 定(例如,2500至3000次迭代)之后使用單個采樣近似。
[0061] 在一個試驗中,以基本單調(diào)的形式呈現(xiàn)文檔中的所有詞。具有113個詞的禁用列 表用于從文檔中移除所有數(shù)字和標點符號。輸入還被格式化以增大發(fā)現(xiàn)表征關聯(lián)關系和活 動的話題的機會。除了使用文檔中的所有詞作為輸入之外,還可以對庫運行從屬解析器并 且僅保留謂語表達(動詞、形容詞和動名詞)和其原始格位形式的變元(即,格助詞被附著 到名詞以形成單個標記)。除了影響話題分布之外,后一個選項具有減小庫大小從而縮短計 算時間的優(yōu)點。
[0062] LDA的結果由每一個文檔中的推斷的話題比例以及話題的詞分布表示構成。話題 詞分布允許確定給定話題下最常見的詞。這些詞是可以由人類注釋器使用以向話題指派標 簽或者通過自動化方式使用的詞。
[0063] LDA發(fā)現(xiàn)的隱藏話題在特異性/通用性方面不同。一些話題群集對于給定域太籠 統(tǒng),例如,與食物和廚房域中的食用相關的話題??梢酝ㄟ^查看被指派該話題的類別的數(shù)量 來找出和排除此類話題(類別越多,話題越籠統(tǒng)并且越不清楚)。為了避免太籠統(tǒng)的話題, 可以設想根據(jù)文檔的數(shù)量丟棄話題的前X% (例如,10% )。
[0064] 在一個實施例中,使用被監(jiān)督的LDA,例如,合理話題模型(RTM),以發(fā)現(xiàn)產(chǎn)品本體 樹內(nèi)的相關類別。通過使用RTM,可以在產(chǎn)品本體樹中的類別之間的現(xiàn)有鏈路上訓練模型, 并且結果可以應用于預測類別層級樹中彼此遠離的類別之間的鏈路。
[0065] 3、相關類別選擇和話題指派
[0066] 針對通過單獨的類別文檔所描述的每一個目標類別,所公開的發(fā)明根據(jù)目標類別 文檔中提到相關類別或者源自相關類別中的產(chǎn)品描述的句子的數(shù)量來對潛在相關類別進 行分類。這提供了對兩個類別之間相關強度的近似度量。
[0067] 兩個類別之間的關系的另一可能度量可以直接基于LDA結果計算的分數(shù),其被表 達為考慮到主類別和話題z感測到相關類別候選的概率,其可以被定義如下:
[0068] P(c: I £?) = Σ I z)l>i<z I 6'i)
[0069] 其中,(在另外假設所有文檔是等概率的情況下)根據(jù)貝葉斯規(guī)則來計算考慮到 話題z的類別文檔c的概率:
[。_斗,丨5)="'、丨以。
[0071] 在一個實施例中,在目標類別文檔中選擇四個最佳話題以表示針對該類別的主要 主題。雖然該數(shù)量是靈活的,但是通常在單個類別中僅有3至5個話題是主要的。對于這 些話題中的每一個話題,通過迭代先前分類的類別候選列表并且基于以下公式將每一個候 選指派給話題來指派4個相關類別,其中z是話題并且c是類別。
[0072] RelZ(Ci,Cj) = maxz (P (zk | Cj)+P (zk | Cj)) (1)
[0073] 這與選擇重疊話題相對應,該重疊話題最大化兩個類別在該話題下的概率。針對 潛在重疊所核查的話題被限制于目標和相關候選類別中的前十個話題,因此如果不存在重 疊則可以拒絕候選。
[0074] 將相關類別指派給話題的另一備選方式可以是(例如,通過從主類別文檔中提取 包含相關類別的名稱的所有句子)構建由描述關系的句子構成的新文檔。然后,擬合的LDA 模型可以用于使用標準LDA預測方法之一來預測新文檔中的最佳話題。
[0075] 4、片段選擇
[0076] 為了選擇片段以表示每一個相關類別中的示例產(chǎn)品,所公開的發(fā)明使用來自目標 類別文檔的句子分段作為片段候選池。
[0077] 包含在單個相關類別的候選集合中的句子包括(a)包含目標和相關類別的名稱 的句子、(b)包含對中的一個類別的名稱并且來自另一類別中的產(chǎn)品描述的句子。這意味 著可能僅類別名稱之一出現(xiàn)在片段中并且另一個可能隱式地存在,這是因為句子來自該類 別中的產(chǎn)品的描述。產(chǎn)品所屬類別的名稱通常不存在于描述中。取而代之地,它是隱式或 空變元,例如,拉面面條的描述可能不包含詞拉面,即使它是指面條。允許僅單個類別名稱 出現(xiàn)在句子中的策略允許對句子更大的覆蓋和更可靠的頻率統(tǒng)計。
[0078] 首先,通過最常用的變元+謂語結構來對候選句子進行過濾,其中格位變元(case argument)是類別名稱。假設存在通用地表達類別之間的關系的特定謂語形式,但是因為可 能僅類別名稱之一存在于句子中,因此所公開的發(fā)明從對中的兩個類別中選擇最常用的類 別名稱+格位組合。接下來,系統(tǒng)找出該類別變元在候選集合中依據(jù)的最常見動詞。例如, 針對類別對黃瓜和腌菜,最常見變元-謂語結構可以是腌制黃瓜。
[0079] 然后,根據(jù)具有最常見的格位和謂語形式的候選句子中的詞如何緊密地反映相關 類別對被指派給的話題來對候選句子進行評分。通過對每一個句子中的詞的話題z分數(shù)進 行求和來指派分數(shù)。z分數(shù)是表示標準偏差的數(shù)量的統(tǒng)計度量,其中話題中的詞的出現(xiàn)與均 值(即,其預期的頻率,而不論話題如何)相差該標準偏差。它是作為話題t中的詞 Wi的 原始頻率與t中的Wi的預期頻率之間的差值除以庫的標準偏差來計算的(針對二項式分 布來計算的),如下所示。N是整個庫中的詞的數(shù)量。
[0080]
【權利要求】
1. 一種用于確定關聯(lián)關系的計算機實現(xiàn)的方法,包括: 構造多個類別文檔,其中所述多個類別文檔中的每一個類別文檔與類別相關聯(lián)并且包 括關于一個或更多個其他類別對相應類別的描述; 將所述多個類別文檔應用于話題模型以確定話題; 選擇針對所述多個類別文檔中的第一類別文檔的相關類別; 將所述相關類別中的一個或更多個相關類別指派給所確定的話題; 根據(jù)所述多個類別文檔中的所述第一類別文檔來選擇所述描述中的一個或更多個描 述,以說明所述多個類別文檔中的所述第一類別文檔與所述多個類別文檔中的第二類別文 檔之間的關系; 基于所選擇的一個或更多個描述來選擇代表性產(chǎn)品;以及 構建話題頁面。
2. 根據(jù)權利要求1所述的計算機實現(xiàn)的方法,其中,所述話題模型使用潛在狄利克雷 分配算法。
3. 根據(jù)權利要求1所述的計算機實現(xiàn)的方法,其中,構建所述話題頁面包括:進行k均 值聚類,以根據(jù)產(chǎn)品本體樹中的距離將話題聚集在一起。
4. 根據(jù)權利要求1所述的計算機實現(xiàn)的方法,其中,確定的話題的數(shù)量比類別的數(shù)量 少至少十倍。
5. 根據(jù)權利要求1所述的計算機實現(xiàn)的方法,其中,選擇相關類別包括:根據(jù)所述多個 類別文檔中的所述第一類別文檔中提到所述相關類別之一或者源自所述相關類別之一中 的產(chǎn)品描述的句子的數(shù)量來對潛在相關類別進行分類。
6. 根據(jù)權利要求1所述的計算機實現(xiàn)的方法,其中,所述多個類別文檔中的所述第一 類別文檔的所述描述包括所述多個類別文檔中的所述第一類別文檔中的產(chǎn)品描述中提到 與所述多個類別文檔中的所述第二類別文檔相關聯(lián)的類別名稱的所有句子。
7. -種用于確定關聯(lián)關系的系統(tǒng),包括: 數(shù)據(jù)處理器,被編程為: 構造多個類別文檔,其中所述多個類別文檔中的每一個類別文檔與類別相關聯(lián)并且包 括關于一個或更多個其他類別對相應類別的描述; 將所述多個類別文檔應用于話題模型以確定話題; 選擇針對所述多個類別文檔中的第一類別文檔的相關類別; 將所述相關類別中的一個或更多個相關類別指派給所確定的話題; 根據(jù)所述多個類別文檔中的所述第一類別文檔來選擇所述描述中的一個或更多個描 述,以說明所述多個類別文檔中的所述第一類別文檔與所述多個類別文檔中的第二類別文 檔之間的關系; 基于所選擇的一個或更多個描述來選擇代表性產(chǎn)品;以及 構建話題頁面。
8. 根據(jù)權利要求7所述的系統(tǒng),其中,所述話題模型使用潛在狄利克雷分配算法LDA。
9. 根據(jù)權利要求7所述的系統(tǒng),其中,所述數(shù)據(jù)處理器被進一步編程為: 通過使用LDA結果以選擇表示所述話題的產(chǎn)品類別,來構建所述話題頁面;以及 使用k均值聚類根據(jù)產(chǎn)品本體樹中的距離將所述類別聚集在一起。
10. 根據(jù)權利要求7所述的系統(tǒng),其中,確定的話題的數(shù)量比類別的數(shù)量少至少十倍。
11. 根據(jù)權利要求7所述的系統(tǒng),其中,所述數(shù)據(jù)處理器被進一步編程為選擇相關類別 包括:根據(jù)所述多個類別文檔中的所述第一類別文檔中提到所述相關類別之一或者源自所 述相關類別之一中的產(chǎn)品描述的句子的數(shù)量來對潛在相關類別進行分類。
12. 根據(jù)權利要求7所述的系統(tǒng),其中,所述多個類別文檔中的所述第一類別文檔的所 述描述包括所述多個類別文檔中的所述第一類別文檔中的產(chǎn)品描述中提到與所述多個類 別文檔中的所述第二類別文檔相關聯(lián)的類別名稱的所有句子。
13. -種包含有程序的非瞬時計算機可讀存儲介質,當在數(shù)據(jù)處理器上執(zhí)行所述程序 時,所述程序使所述數(shù)據(jù)處理器執(zhí)行包括以下各項的步驟: 構造多個類別文檔,其中所述多個類別文檔中的每一個類別文檔與類別相關聯(lián)并且包 括關于一個或更多個其他類別對相應類別的描述; 將所述多個類別文檔應用于話題模型以確定話題; 選擇針對所述多個類別文檔中的第一類別文檔的相關類別; 將所述相關類別中的一個或更多個相關類別指派給所確定的話題; 根據(jù)所述多個類別文檔中的所述第一類別文檔來選擇所述描述中的一個或更多個描 述,以說明所述多個類別文檔中的所述第一類別文檔與所述多個類別文檔中的第二類別文 檔之間的關系; 基于所選擇的一個或更多個描述來選擇代表性產(chǎn)品;以及 構建話題頁面。
14. 根據(jù)權利要求13所述的非瞬時計算機可讀存儲介質,其中,所述話題模型使用潛 在狄利克雷分配算法。
15. 根據(jù)權利要求13所述的非瞬時計算機可讀存儲介質,其中,構建所述話題頁面包 括:進行k均值聚類,以根據(jù)產(chǎn)品本體樹中的距離將話題聚集在一起。
16. 根據(jù)權利要求13所述的非瞬時計算機可讀存儲介質,其中,確定的話題的數(shù)量比 類別的數(shù)量少至少十倍。
17. 根據(jù)權利要求13所述的非瞬時計算機可讀存儲介質,其中,選擇相關類別包括:根 據(jù)所述多個類別文檔中的所述第一類別文檔中提到所述相關類別之一或者源自所述相關 類別之一中的產(chǎn)品描述的句子的數(shù)量來對潛在相關類別進行分類。
18. 根據(jù)權利要求13所述的非瞬時計算機可讀存儲介質,其中,所述多個類別文檔中 的所述第一類別文檔的所述描述包括所述多個類別文檔中的所述第一類別文檔中的產(chǎn)品 描述中提到與所述多個類別文檔中的所述第二類別文檔相關聯(lián)的類別名稱的所有句子。
【文檔編號】G06Q30/06GK104106087SQ201380008497
【公開日】2014年10月15日 申請日期:2013年2月8日 優(yōu)先權日:2012年2月9日
【發(fā)明者】佐菲亞·斯坦基維茲, 關根聰 申請人:樂天株式會社