亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

從用戶日志推斷搜索類別同義詞的制作方法

文檔序號:6570317閱讀:117來源:國知局
專利名稱:從用戶日志推斷搜索類別同義詞的制作方法
技術(shù)領(lǐng)域
與本發(fā)明的原理一致的實施方式一般涉及査詢處理,更具體地, 涉及提供搜索査詢精化。
背景技術(shù)
盡管因特網(wǎng)追溯到20世紀60年代晚期,但是個人計算以及網(wǎng)絡(luò) 互聯(lián)的廣泛可用性以及認可度已經(jīng)導(dǎo)致在信息共享技術(shù)方面的爆炸性增長以及空前的發(fā)展。具體地,萬維網(wǎng)("Web")已經(jīng)使世界范圍的 受眾對所存儲的電子形式的數(shù)不清的信息量的可訪問性發(fā)生巨大變化,包括書面的、口頭的(音頻)以及可視的(圖像以及視頻)信息, 兩者都有歸檔的以及實時的格式。簡而言之,Web已經(jīng)向每個所連接的用戶提供對以世界范圍內(nèi)幾乎所有語言的實質(zhì)上無限的信息庫的桌 面訪問。
搜索引擎已經(jīng)隨著Web使用不斷增加而快速發(fā)展,以使用戶能夠 以有效并且及時的方式找到以及檢索相關(guān)的Web內(nèi)容。隨著Web內(nèi)容 的數(shù)量以及類型不斷增加,搜索引擎的復(fù)雜度以及精確性也已提高。 一般地,搜索引擎響應(yīng)于搜索查詢而努力提供最高質(zhì)量的結(jié)果。然而,確定質(zhì)量是困難的,因為所檢索的Web內(nèi)容的相關(guān)性是固有主觀的并 且取決于用戶的興趣、知識以及態(tài)度。
搜索引擎所使用的現(xiàn)有方法是基于將搜索査詢詞語與從Web頁面索引的詞語進行匹配。更先進的方法使用例如基于超鏈接結(jié)構(gòu)的分析來確定所檢索的Web內(nèi)容的重要性。
典型的搜索查詢情景(scenario)以提交給搜索引擎的自然語言問
題或通常為關(guān)鍵字形式的單獨的詞語開始。搜索引擎對照用于描述潛 在地可檢索的Web內(nèi)容的信息特征的數(shù)據(jù)知識庫來執(zhí)行搜索,并且識 別候選網(wǎng)頁。搜索經(jīng)??梢苑祷財?shù)千乃至數(shù)百萬的結(jié)果,因而大多數(shù) 搜索引擎典型地僅對最有希望的結(jié)果的子集進行排名或評分。然后,
通常以Web內(nèi)容標題、超鏈接、以及諸如從網(wǎng)頁選取的文本摘錄的其 它描述性信息的形式將最佳網(wǎng)頁呈現(xiàn)給用戶。
提供優(yōu)質(zhì)的搜索結(jié)果可能被搜索査詢自身的字面上的以及隱含的
范圍所復(fù)雜化。構(gòu)造拙劣(poor-framed)的搜索査詢可能是含糊的或
是太籠統(tǒng)或太詳盡而不能產(chǎn)生響應(yīng)性的以及高質(zhì)量的搜索結(jié)果。例如,
在搜索査詢內(nèi)的詞語可能在語法或語義的層次上是含糊的。語法模糊
可能是疏忽同音異義詞而造成的結(jié)果,其中指定了具有相同的發(fā)音并 且可能具有相同的拼寫但是與該單詞實際含義不同的含義的錯誤單
詞。例如,單詞"bear"可以表示或可以指一種動物或沒穿衣服。語義
模糊可能是不適當?shù)纳舷挛脑斐傻慕Y(jié)果。例如,單詞"jaguar"可以指
一種動物、Macintosh操作系統(tǒng)的一個版本、或一種汽車商標。類似地,
太籠統(tǒng)的搜索詞語導(dǎo)致過度寬泛的搜索結(jié)果,而太狹窄的搜索詞語導(dǎo)
致過度限制的以及非響應(yīng)性的搜索結(jié)果。
因此,需要一種為搜索査詢精化提供建議的方法,該方法將解決 發(fā)生在適當框架的搜索查詢中的含糊或過度籠統(tǒng)或過度詳盡。優(yōu)選地, 這樣的方法將提供精化的搜索查詢,當該精化的搜索查詢被發(fā)布時導(dǎo) 致搜索結(jié)果與隱含在最初的搜索査詢的意圖下的實際主題密切相關(guān), 并且提供將概念上的獨立以及清晰的含義反映為潛在的搜索詞語的建 議。

發(fā)明內(nèi)容
根據(jù)與本發(fā)明的原理一致的一個實現(xiàn)方式, 一種方法可以包括 識別至少包括與在先結(jié)果數(shù)據(jù)相關(guān)的查詢信息以及類別信息的在先查 詢數(shù)據(jù);確定查詢信息是否是類別信息的同義詞;以及如果確定査詢
信息是類別信息的同義詞,則在隨后的搜索請求中使用該査詢信息以 及類別信息。
根據(jù)與本發(fā)明的原理一致的另一個實現(xiàn)方式, 一種系統(tǒng)可以包括: 用于確定包括在在先搜索結(jié)果內(nèi)的查詢數(shù)據(jù)以及類別數(shù)據(jù)是否是類別 同義詞的裝置;以及如果確定査詢數(shù)據(jù)以及類別數(shù)據(jù)是類別同義詞, 則用于將査詢數(shù)據(jù)并入到與類別數(shù)據(jù)相關(guān)聯(lián)的隨后的搜索請求的裝 置。
根據(jù)與本發(fā)明的原理一致的又一個實現(xiàn)方式, 一種設(shè)備可以包括 用于識別包括與在先搜索請求相關(guān)聯(lián)的至少一個査詢、類別對的歷史 日志數(shù)據(jù)的邏輯;用于確定在查詢、類別對中的查詢是名稱查詢還是 類別査詢的邏輯;以及當確定査詢是類別查詢時,用于確定查詢是否 是類別的同義詞的邏輯。
根據(jù)與本發(fā)明的原理一致的又一個實現(xiàn)方式, 一種方法可以包括 從客戶端接收搜索査詢;基于所接收的搜索查詢來識別結(jié)果類別;識 別所識別的結(jié)果類別的類別同義詞;以及基于結(jié)果類別以及所識別的 類別同義詞執(zhí)行結(jié)果搜索。


并入本說明書并且構(gòu)成本說明書的一部分的附圖示出了本發(fā)明的
實現(xiàn)方式,并且與描述一起來解釋本發(fā)明。在圖中,
圖1是示出了與本發(fā)明的原理一致的概念的示例圖2是其中可以實現(xiàn)與本發(fā)明的原理一致的系統(tǒng)以及方法的網(wǎng)絡(luò)
的示例圖3是根據(jù)與本發(fā)明的原理一致的實施方式的圖2的客戶端或服 務(wù)器的示例圖4是在圖2-3中可以使用的示范性計算機可讀介質(zhì)的一部分的
圖5是在與本發(fā)明的原理一致的實施方式中用于識別同義詞的示
范性過程的流程圖6是在與本發(fā)明的原理一致的一個實施方式中用于對包含以及 等同的査詢、類別對進行區(qū)分的示范性處理的流程圖;以及
圖7是示出了根據(jù)本發(fā)明的原理的用于執(zhí)行用戶啟動的搜索的示 范性處理的流程圖。
具體實施例方式
下面參考附圖詳細描述與本發(fā)明的原理一致的實施方式。在各個
圖中相同的標記可以識別相同的或相似的元件。而且,下述的詳細描 述不限制本發(fā)明。
概述
通過搜索引擎變得可搜索的文檔的數(shù)量正大量增加。因此,可以 被提交來查找相關(guān)文檔的搜索査詢可能更容易地遭受潛在的模糊或籠 統(tǒng)。識別并且提供可以消除初始査詢?nèi)毕莼蚩梢詳U展初始搜索查詢來 識別另外的相關(guān)文檔的搜索査詢精化是有益的。如在此所描述的,可 以自動生成搜索査詢精化來幫助用戶更快速并且更精確地識別想要的 搜索結(jié)果。更具體地,可以將可搜索的信息分配給或分解為各種預(yù)定 義的類別。例如,可以將收錄(listing)"喬的酒吧及燒烤店"分配給 "酒吧"和"酒館"兩個類別。根據(jù)本發(fā)明的原理,可以從在先結(jié)果 數(shù)據(jù)中識別類別同義詞,從而使得能夠增強對可搜索信息的搜索。然 后在執(zhí)行所請求的搜索中可以將所識別的類別同義詞與預(yù)定義的類別 結(jié)合使用。
圖1是示出了與本發(fā)明的原理一致的概念的示例圖。如在(A)所 示,用戶可以使用網(wǎng)頁瀏覽器來訪問諸如網(wǎng)頁100的Web文檔。同樣 如在(A)所示,Web瀏覽器包括用于從用戶接收初始搜索査詢的搜索 查詢輸入框102。在示范性實現(xiàn)方式中,搜索查詢輸入框102可以包括 諸如"attorney Fairfax, VA (弗吉尼亞州費爾法克律師),'的短語,大概
是請求關(guān)于在弗吉尼亞州費爾法克的律師的信息。
根據(jù)本發(fā)明的原理,所輸入的查詢的提交可以導(dǎo)致諸如如在(B)
中所示的網(wǎng)頁104的Web文檔,該Web文檔包括基于所提交的查詢以 及所識別的關(guān)于査詢詞語的類別同義詞的搜索結(jié)果。在示范性實現(xiàn)方 式中,可以基于下述改進的査詢來顯示結(jié)果(attorney OR attorneys OR lawyer OR lawyers) AND " Fairfax, VA "。如將在以下進 一 步詳細描述
的,在獲得所提供的搜索結(jié)果中可以識別并且使用應(yīng)用于搜索查詢的 所識別的類別的同義詞。更具體地,可以基于在先的良好搜索結(jié)果、 使用查詢詞語、最初所識別的類別、以及任何隨后被識別的類別同義 詞來執(zhí)行對所接收的查詢的隨后搜索。以此方式,可以獲得搜索結(jié)果 的不斷增加的精確性以及功能性。
如在此所使用的術(shù)語"文檔"應(yīng)被廣泛地解釋為包括任何機器可 讀的以及機器可存儲的工作成果。例如,文檔可以包括電子郵件、網(wǎng) 站、文件、文件的組合、具有指向其它文件的嵌入式鏈接的一個或多 個文件、新聞組帖子、博客、企業(yè)收錄、印刷文本的電子版本、網(wǎng)絡(luò) 廣告等等。在因特網(wǎng)的環(huán)境中,常見的文檔是網(wǎng)頁。文檔通常包括文 本信息,并且可以包括嵌入式信息(諸如元信息、圖像、超鏈接等等) 和/或嵌入式指令(諸如JavaScript等等)。如在此所使用的術(shù)語"鏈 接"應(yīng)被廣泛地解釋為包括從另一個文檔或相同文檔的另外部分到文 檔的任何引用/從文檔到另一個文檔或相同文檔的另外部分的任何引 用。
示范性網(wǎng)絡(luò)配置
圖2是其中可以實現(xiàn)與本發(fā)明的原理一致的系統(tǒng)以及方法的網(wǎng)絡(luò) 200的示例圖。網(wǎng)絡(luò)200可以包括經(jīng)由網(wǎng)絡(luò)250連接到多個服務(wù)器 220-240的多個客戶端210。為了簡明,示出了兩個客戶端210以及三 個服務(wù)器220-240連接到網(wǎng)絡(luò)250。實際上,可以存在更多的或更少的 客戶端以及服務(wù)器。而且,在一些實例中,客戶端可以執(zhí)行服務(wù)器的
功能,并且服務(wù)器可以執(zhí)行客戶端的功能。
客戶端210可以包括客戶端實體。實體可以被定義為設(shè)備(諸如
個人計算機、無線電話、個人數(shù)字助理(PDA)、膝上型電腦、或其
它類型的計算或通信設(shè)備)、在這些設(shè)備中的一個上運行的線程或進
程、和/或可由這些設(shè)備中的一個執(zhí)行的對象??蛻舳?10還可以包括 瀏覽器軟件,其被配置以運行為在客戶端210和服務(wù)器220-240之間的 用戶界面。
服務(wù)器220-240可以包括服務(wù)器實體,其以與本發(fā)明的原理一致 的方式收集、處理、搜索、和/或保持文檔或其它信息。在與本發(fā)明的 原理一致的一個實現(xiàn)方式中,服務(wù)器220可以包括搜索引擎225,該搜 索引擎可被客戶端210使用。服務(wù)器220可以在文檔語料庫中爬行 (crawl)、對文檔進行索引、以及將與文檔相關(guān)聯(lián)的信息存儲在文檔 知識庫中。服務(wù)器230和240可以存儲或保持可以由服務(wù)器220爬行 或分析的文檔。此外,服務(wù)器220-240也可以保持與到客戶端210的文 檔或信息傳輸相關(guān)的一個或多個日志。在與本發(fā)明的原理一致的一個 實現(xiàn)中,這樣的日志可以包括與響應(yīng)于所接收的用戶査詢或請求而將 哪些文檔或信息傳輸?shù)娇蛻舳?10相關(guān)的信息。而且,附加的信息可 以被記入日志,包括客戶端210響應(yīng)于來自服務(wù)器220-240的文檔或信 息傳輸而采取的動作。
雖然將服務(wù)器220-240示為分開的實體,但是服務(wù)器220-240中的 一個或多個可以執(zhí)行服務(wù)器220-240中的另外一個或多個的一個或多 個功能。例如,可以將服務(wù)器220-240中的兩個或多個實現(xiàn)為單個服務(wù) 器來。也可以將服務(wù)器220-240中的單個服務(wù)器實現(xiàn)為兩個或多個分開 的(并且可能是分布式的)設(shè)備。
網(wǎng)絡(luò)250可以包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、諸如公共 交換電話網(wǎng)絡(luò)(PSTN)的電話網(wǎng)、內(nèi)聯(lián)網(wǎng)、因特網(wǎng)、或網(wǎng)絡(luò)的組合。
客戶端210以及服務(wù)器220-240可以經(jīng)由有線、無線、和/或光纖連接 而連接到網(wǎng)絡(luò)250。
示范性客戶端/服務(wù)器體系結(jié)構(gòu)
圖3是客戶端或服務(wù)器實體(以下稱為"客戶端/服務(wù)器實體") 的示例圖,其可以對應(yīng)于客戶端210和/或服務(wù)器220-240中的一個或 多個。客戶端/服務(wù)器實體可以包括總線310、處理器320、主存儲器 330、只讀存儲器(ROM) 340、存儲設(shè)備350、輸入設(shè)備360、輸出設(shè) 備370、以及通信接口 380。總線310可以包括允許在客戶端/服務(wù)器實 體的元件之間通信的路徑。
處理器320可以包括處理器、微處理器、或可以解釋和執(zhí)行指令 的處理邏輯。主存儲器330可以包括隨機存取存儲器(RAM)或可存 儲由處理器320執(zhí)行的信息以及指令的另一種類型的動態(tài)存儲設(shè)備。 ROM 340可以包括ROM設(shè)備或可存儲由處理器320使用的靜態(tài)信息 以及指令的另一種類型的靜態(tài)存儲設(shè)備。存儲設(shè)備350可以包括磁和/ 或光記錄介質(zhì)以及其相應(yīng)的驅(qū)動。
輸入設(shè)備360可以包括允許操作者向客戶端/服務(wù)器實體輸入信息 的機制,諸如鍵盤、鼠標、筆、語音識別和/或生物識別機制等等。輸 出設(shè)備370可以包括向操作者輸出信息的機制,包括顯示器、打印機、 揚聲器等等。通信接口 380可以包括任何類似收發(fā)器的機制,該機制 使客戶端/服務(wù)器實體能夠與其它設(shè)備和/或系統(tǒng)通信。例如,通信接口 380可以包括經(jīng)由諸如網(wǎng)絡(luò)250的網(wǎng)絡(luò)與另一個設(shè)備或系統(tǒng)通信的機 制。
如將在以下詳細描述的,與本發(fā)明的原理一致的客戶端/服務(wù)器實 體可以執(zhí)行某些與査詢處理相關(guān)的操作。響應(yīng)于處理器320執(zhí)行包含 在諸如存儲器330的計算機可讀介質(zhì)中的軟件指令,客戶端/服務(wù)器實 體可以執(zhí)行這些操作??梢詫⒂嬎銠C可讀介質(zhì)定義為物理的或邏輯的
存儲設(shè)備和/或載波??梢詮闹T如數(shù)據(jù)存儲設(shè)備350的另一個計算機可 讀介質(zhì)或經(jīng)由通信接口 380從另一個設(shè)備將軟件指令讀入到存儲器 330。包含在存儲器330中的軟件指令可以使處理器320執(zhí)行將在稍后 描述的過程??商娲?,硬連線的電路可以被用來代替軟件指令或與 軟件指令結(jié)合來實現(xiàn)與本發(fā)明的原理一致的過程。因而,與本發(fā)明的 原理一致的各個實施不限于硬件電路以及軟件的任何特定組合。
示范性計算機可讀介質(zhì)
圖4是可以由服務(wù)器220-240使用的示范性計算機可讀介質(zhì)400 的一部分的圖。在一個實現(xiàn)方式中,計算機可讀介質(zhì)400可以對應(yīng)于 服務(wù)器220的存儲器330。在圖4中所示的計算機可讀介質(zhì)400的所述 部分可以包括操作系統(tǒng)410、搜索引擎軟件/邏輯420、以及査詢精化軟 件430。
操作系統(tǒng)410可以包括諸如Windows、 Unix、或Linux操作系統(tǒng) 的操作系統(tǒng)軟件。搜索引擎軟件/邏輯420可以提供用于從一個或多個 客戶端210接收査詢信息并且基于所接收的査詢識別相關(guān)的搜索結(jié)果 的機制。査詢精化軟件430可以包括根據(jù)下面詳細闡述的本發(fā)明的原 理基于所接收的查詢來識別查詢精化的軟件。在與本發(fā)明的原理一致 的一個實現(xiàn)方式中,可以將査詢精化軟件430集成到搜索引擎軟件/邏 輯420中。
用于識別同義詞的示范性處理
圖5是在與本發(fā)明的原理一致的實現(xiàn)方式中用于識別同義詞的示 范性過程的流程圖。如上述簡要描述的,所接收的用戶搜索査詢可以 包括許多詞語或短語,這些詞語或短語的一部分可能具有基于査詢的 整個上下文適用的許多同義詞。例如,在與本發(fā)明的原理一致的一個 實現(xiàn)方式中,所接收的搜索査詢可以涉及對局部企業(yè)或商家的信息的 搜索。典型地,這種形式的搜索査詢包括名稱和/或類別信息。此外, 這樣的搜索査詢還可以包括某種形式的位置信息,諸如預(yù)定義的與用
戶相關(guān)聯(lián)的位置、由所顯示的地圖界定的地理區(qū)域、或包括在所接收 的搜索查詢自身內(nèi)的位置信息。盡管在此主要描述了局部搜索信息, 但是在另外的實施方式中,可以以類似的方式搜索其它所標記的或所 分類的"文檔"或信息。例如,產(chǎn)品信息或定價搜索可以導(dǎo)致基于預(yù) 定義的產(chǎn)品類別來檢索或識別產(chǎn)品。
執(zhí)行局部搜索的一個公認方法是典型地基于名稱、位置、以及類 別來對可搜索的信息進行列表并且存儲。在許多實例中,通過諸如局 部黃頁或企業(yè)收錄名錄的收錄源來提供這樣的信息。由于收錄信息可 以包括不是從企業(yè)名稱搜集的信息(例如類別信息),所以可以執(zhí)行 增強的搜索。遺憾的是,所分配的類別信息可能被限制于一個特定的 詞語或短語或甚至幾個特定的詞語或短語。例如,可能所有餐館 (eatery)被收錄在"飯店(restaurant)"類別下,而搜索查詢可能包 括詞語"飯館(diner)"。使用搜索查詢的純語法來執(zhí)行關(guān)聯(lián)搜索將不能 認識到在一些實例中"飯店"是"飯館"的適當?shù)耐x詞。因此,在 執(zhí)行搜索時關(guān)聯(lián)搜索將不包括餐廳類別而是將專門搜索"飯館"。
根據(jù)本發(fā)明的原理,可以通過査詢精化軟件430來精化所接收的 搜索査詢,以包括基于在先搜索査詢/結(jié)果組合的增強的或附加的類別。 轉(zhuǎn)向圖5,可以通過從歷史搜索和結(jié)果的日志中識別"良好的"或相關(guān) 的"三元組(triple)"來開始處理(動作500)。如在此所使用的,通 ??梢詫⑿g(shù)語"三元組"定義為包括代表在先查詢結(jié)果的數(shù)據(jù)。更具
體地,"三元組"可以包括1.)査詢詞語;2.)結(jié)果企業(yè)名稱;以及
3.)結(jié)果企業(yè)類別。此外,關(guān)于所識別的"三元組"是否是"良好的" 的確定可以基于任何適當?shù)囊蛩亍?br> 在與本發(fā)明的原理一致的一個實現(xiàn)方式中,將"良好的"三元組 識別為那些在其上接收到預(yù)定義的動作的三元組。例如,在一個示范 性實施例中,除向客戶端210提供包含企業(yè)收錄的信息之外,服務(wù)器 220-240還可以提供與每個收錄相關(guān)的附加信息或功能,諸如駕車路線
指引、電子郵件鏈接、指向與該收錄相關(guān)聯(lián)的網(wǎng)站的鏈接等等。在這 樣的實現(xiàn)方式中,可以將良好的三元組識別為與收錄相關(guān)聯(lián)的三元組,
所述收錄涉及客戶端210發(fā)送到服務(wù)器220-240的預(yù)定義的用戶動作。 在一個特定的實施例中,用戶動作可以是點擊用于駕車路線指引的鏈 接。
應(yīng)當注意,許多所存儲的收錄可能具有多個企業(yè)名稱以及與之相 關(guān)聯(lián)的多個類別。因此,駕車路線指引點擊(或其它的"良好"指示) 可以引出多個査詢-名稱-類別三元組。例如,所接收的査詢"bar (酒 吧)"可以將特定的收錄",Joe,sBarandGrill (喬的酒吧及燒烤店)" 與兩個類別相匹配"bar (酒吧)"以及"taverns (酒館)"。在該 示例中,可以察知到兩個單獨的査詢-名稱-類別三元組1.) (bar, ,Joe,s Bar and Grill, bars (酒吧,喬的酒吧及燒烤店,酒吧)),以及2.)
(bar, ,Joe,sBarandGrill, taverns(酒吧,喬的酒吧及燒烤店,酒館))。 假設(shè)存在該收錄的兩個良好的"三元組",則出現(xiàn)了怎么對三元組計 數(shù)的問題。在與本發(fā)明的原理一致的一個實現(xiàn)方式中,上述三元組的 每一個可被視為具有0.5的計數(shù)(而不是l.O)。類似地,在其中查詢 導(dǎo)致三個被識別的三元組的示例中,每個三元組可被視為0.333的計 數(shù)。g卩,單個收錄權(quán)重(1.0)被均勻地分布在與其相關(guān)聯(lián)的多個三元 組中。以這種方式,整個數(shù)據(jù)集(dataset)的總和正確地累加為所察知 的結(jié)果。
一旦識別到良好的三元組,與該良好的三元組相關(guān)聯(lián)的査詢可被 分類為"名稱査詢"或"類別査詢"(動作502)。如在此所定義的,
"名稱査詢"包括與企業(yè)名稱(例如"China Taste Buffet (中國風(fēng)味自 助餐)")有關(guān)的査詢詞語,并且"類別査詢"包括與潛在企業(yè)類別
(例如"Chinese restaurant (中式飯店)")有關(guān)的査詢詞語。通過對 所述兩種査詢類型加以區(qū)別,防止了已識別的類別被分配為名稱查詢 的同義詞。
根據(jù)與本發(fā)明的原理一致的一個實現(xiàn)方式,可以基于與每個所識
別的查詢相關(guān)聯(lián)的"名稱熵(name entropy)"或"名稱復(fù)雜度(name perplexity)"的程度而作出名稱査詢/類別査詢的確定。為了該目標,每 個査詢的名稱復(fù)雜度可以由下述表達式來表示
H(名稱l查詢) e ,
其中H(名稱l査詢)是企業(yè)名稱的條件名稱熵,給定從在動作500 中選擇的結(jié)果而估計的査詢。名稱熵可以由下述表達式來定義
-Z P(名稱I查詢)logP(名稱I查詢)
所有名稱
其中P(名稱l查詢)是給定了查詢而返回的名稱的概率。
換句話說,可以基于與查詢成對的企業(yè)名稱的數(shù)量來確定查詢包 括企業(yè)名稱的可能性。極少與企業(yè)名稱成對的那些査詢被視為類別査 詢(例如較低的名稱復(fù)雜度),而與更多不同名稱成對的那些査詢被 視為具有較高的名稱復(fù)雜度。應(yīng)當理解,引入熵的概念是用來說明在 頻繁使用和極少使用的名稱之間的權(quán)重。
一旦分別在動作500以及502中確定所識別的査詢既是良好的査 詢又是類別查詢,則確定結(jié)果類別以及所識別的査詢是否應(yīng)被視為同 義詞(動作504)。例如,基于在動作500中對于查詢-結(jié)果—名稱-結(jié)果 類別收錄的初始"良好"的確定以及在動作502中所識別的較高的名 稱復(fù)雜度(即,許多企業(yè)名稱可以與該査詢成對),可以確定類別 "Restaurants-Chinese (飯店-中國)"是査詢"Chinese Restaurants (中 式飯店)"的類別同義詞。如果做出該確定,則所識別的類別可以被 指定為所關(guān)聯(lián)的查詢詞語的類別同義詞(動作504),從而確保與該査 詢相關(guān)聯(lián)的隨后的搜索將額外調(diào)用涉及該類別的搜索。
遺憾的是,僅檢查通過動作500以及502轉(zhuǎn)發(fā)的查詢不能說明査 詢/類別下位詞(hyponym)的概率。如所知曉的,下位詞是其含義表
示從屬或子集的單詞。例如,賓夕法尼亞州人是美國人的下位詞。返
回到當前的問題,所察知的査詢"Chinese Restaurant"可以是類別 "Restaurant (飯店)"的下位詞,因為Chinese Restaurant是類別 "Restaurant"的子集。由于后面的査詢、類別對涉及包含而不是等價 (例如,Chinese Restaurant是Restaurant的一種類型,但是其不等價于 "Restaurant"),其不應(yīng)該被用作為類別"Restaurant"的同義詞。
圖6是用于在包含和等價査詢、類別對之間加以區(qū)別的示范性處 理的流程圖。為了使對包含類型查詢、類別對的拒絕變得便利,計算 了對于所識別的查詢、類別對的F-量度(F-measure)(動作600)。 如在此所定義的,每個對的F-量度可以被定義為査詢、類別對作為下 位詞或包含類型對的可能性,所述查詢、類別對應(yīng)該被作為同義詞拒 絕。此種計算可以由下述表達式來表示
F-量度(査詢,類別)=. P(查詢,類別)
(axP(類別)+ (1-a)xP(查詢))
在上述表達式中,P(查詢,類別)表示類別和査詢兩者互為同義詞的 聯(lián)合概率。P(査詢,類別)以及P(類別,查詢)的值可以由以下估計而得 將其中通過與所希望的用戶動作(例如,對駕車路線指引鏈接的選擇) 相關(guān)聯(lián)而被發(fā)現(xiàn)在一起以及被證明為"良好"的類別和查詢詞語的實 例數(shù)的計數(shù)除以所希望的用戶動作接收到的實例數(shù)的計數(shù)。
P (查詢)的值可以由以下估計而得將其中查詢詞語導(dǎo)致所希望 的用戶動作的執(zhí)行的實例數(shù)的計數(shù)除以所希望的用戶動作接收到的實 例數(shù)的計數(shù)。類似地,P (類別)的值可以由以下估計而得將其中所 識別的類別導(dǎo)致所希望的用戶動作的執(zhí)行的實例數(shù)的計數(shù)除以所希望 的用戶行為接收到的實例數(shù)的計數(shù)。
另外,P (査詢l類別)可以被定義為給定類別和P (類別l查詢) 的査詢的概率,其中P (類別l査詢)是給定查詢的類別的概率。其被定義為P (查詢l類別)=P (查詢,類別)/P (類別)并且P (類別l查詢) =P (查詢,類別)/P (査詢),并且使用早先部分的估計來估計。在一 般統(tǒng)計的術(shù)語中
然而,在查詢和類別概率的情況下,調(diào)用率(recall)是P (類別| 査詢),精確率(precision)是P (査詢l類別),并且F-量度等于P (査 詢,類別)/ (a*P (類別))+ (l-a) *P (查詢)),隨后將上述定義代 入到一般的F-量度公式中并且簡化。在這種情況下,術(shù)語"調(diào)用率" 和"精確率"是關(guān)于下述檢索實驗的對于給定的査詢和類別,返回 作為該査詢的響應(yīng)的、與那個類別匹配的所有結(jié)果。
通過對常量"a"的值的選擇,可以建立精確率和調(diào)用率之間的適 當?shù)臋?quán)衡。已經(jīng)確定在大約0.7至0.9的范圍內(nèi)的值提供精確率和調(diào)用 率之間的適當?shù)恼壑?,以精確地消除或減少下位詞被包括在所識別的 類別同義詞內(nèi)的可能性。在一個示范性實現(xiàn)方式中,"a"的值是0.85。
一旦確定了所選擇的査詢、類別對的F-量度,則然后確定所計算 的F-量度是否滿足預(yù)定義的標準(動作602)。如果滿足,則在査詢、 類別對中的查詢和類別被視作是同義詞(動作604)。如果不滿足,則 所述查詢和類別不被視作同義詞,并且放棄考慮該對(動作606)。
在一個示范性實現(xiàn)方式中,F(xiàn)-量度標準可以包括用于確定對于給 定的査詢具有更高的或更大的F-量度值的那些查詢、類別對的任何適 當?shù)姆绞?。例如,對于給定的查詢,可以確定僅具有最高的F-量度的 查詢、類別對被視作互為同義詞。替代地,對于給定的査詢,可以將 預(yù)定義的最高數(shù)量的查詢、類別對視作同義詞。在另一個實現(xiàn)方式中, 可以確定最大的F-量度值,并且對于給定的査詢,可以將達到該值的
預(yù)定百分比(例如50%)的所有的査詢、類別對視作同義詞。在又一
個實現(xiàn)方式中,可以確定最小需求的F-量度值,并且對于給定的查詢,
可以將達到或超過該值的那些查詢、類別對識別為同義詞。
在另一個示范性實現(xiàn)方式中,F(xiàn)-量度值可以與諸如名稱復(fù)雜度、 類別復(fù)雜度、以及査詢頻率的其它因素相組合。例如,為了被視作同 義詞,査詢、類別對可以被要求具有至少25的名稱復(fù)雜度、具有至少 50的類別復(fù)雜度、至少1/1,000,000的查詢頻率、以及必須具有既大于 0.03又大于所測量的F-量度值的最大值的50%的F-量度值。
在同義詞確定之后,然后確定是否繼續(xù)處理另外的查詢、類別對 (動作608)。如果繼續(xù),則過程返回到動作600來處理下一個査詢、 類別對。如果沒有另外的査詢、類別對要被繼續(xù)處理,則過程停止。
在與本發(fā)明的原理一致的一個實現(xiàn)方式中,可以將同義詞對傳遞 到一個或多個"貼標簽器(labdler)",用于隨后對所推斷的同義詞 進行人工評審。以這種方式,可以在包含到執(zhí)行實際用戶搜索之前審 査否則會通過如上所述的各種測試的潛在地不準確的同義詞。
圖7是示出了根據(jù)本發(fā)明的原理的用于執(zhí)行用戶啟動的搜索的示 范性處理的流程圖。最初,在用戶的指示下從客戶端210接收搜索查 詢(動作700)。如上所述,根據(jù)本發(fā)明的原理,在一個示范性實現(xiàn)方 式中,搜索査詢可以包括與定位或識別局部企業(yè)信息有關(guān)的許多詞語。 在可替代實現(xiàn)方式中,可以將搜索查詢指向?qū)α硗忸愋偷男畔⒌亩ㄎ?或識別,所述另外類型的信息諸如產(chǎn)品定價以及描述信息、基于網(wǎng)頁 的文本信息、媒體(例如歌曲、圖像、視頻等等)信息。
不管所請求的信息的類型如何,在服務(wù)器220上的搜索引擎225 可以接著識別與所請求的信息相關(guān)聯(lián)的一個或多個類別(動作702)。 其中識別初始類別的方式在本發(fā)明的范圍之外并且將在此詳細描述。
然而, 一旦已識別了初始類別,則接著就可以識別使用圖5以及6的 過程確定的類別同義詞(動作704)。使用查詢詞語、最初確定的類別 或多個類別、以及以上述詳述的方式而識別的類別同義詞,則接著可 以生成搜索結(jié)果(動作706)并且可以將其發(fā)送到客戶端210,用于最 后向發(fā)出請求的用戶顯示。
在一個示范性實現(xiàn)方式中,除了所接收的查詢詞語外,可以使用 如上所述的方式而識別的類別同義詞特別搜索收錄信息。例如,可以 將關(guān)于"醫(yī)生"的搜索修訂為包括所識別的類別同義詞"內(nèi)科醫(yī)生-普通實習(xí)"。在一個實現(xiàn)方式中,可以對這樣的詞語進行邏輯的或(OR) 運算。在給出的示例中,作為結(jié)果的查詢將包括"醫(yī)生OR EXACTCATEGORYMATCH (精確類別匹配)(內(nèi)科醫(yī)生-普通實習(xí))", 其中EXACTCATEGORYMATCH確保在在收錄信息中識別的類別內(nèi) 找到包括在所定義的類別同義詞內(nèi)的每一個詞語。以這種方式,避免 了由與所關(guān)聯(lián)的收錄匹配的部分類別(例如內(nèi)科醫(yī)生-產(chǎn)科醫(yī)生)引起 的混亂。
通過使用歷史搜索信息來推斷類別同義詞,可以提供增強的搜索 結(jié)果。更具體地,通過從在先搜索中識別良好的搜索結(jié)果,可以精確 地推斷類別同義詞。在提供在后的搜索結(jié)果中使用所推斷的同義詞增 加了向用戶提供所希望的結(jié)果的可能性。
結(jié)論
與本發(fā)明的原理一致的系統(tǒng)以及方法可以促進搜索查詢精化。在 與本發(fā)明的原理一致的一個實現(xiàn)方式中,可以從歷史搜索信息來推斷 類別同義詞。
本發(fā)明的優(yōu)選實施例的前述描述提供了說明以及描述,但是并不 意在窮舉或?qū)⒈景l(fā)明限制在所公開的精確形式。根據(jù)上述教導(dǎo)可以進 行更改以及變化,或者可以從本發(fā)明的實踐獲得更改以及變化。例如,
雖然已經(jīng)參考圖5-7描述了一系列動作,但是在與本發(fā)明的原理一致的 其它實現(xiàn)方式中可以更改動作的次序。而且,可以并行地執(zhí)行非依賴 性動作。此外,可以以其它方式更改動作。
對于本領(lǐng)域普通技術(shù)人員來說還將明顯的是,如上所述的本發(fā)明 的方面可以以在圖中所示的實現(xiàn)方式中的軟件、固件、以及硬件的多 個不同形式來實現(xiàn)。用來實現(xiàn)與本發(fā)明的原理一致的方面的實際軟件 代碼或?qū)S每刂朴布幌拗票景l(fā)明。因而,未參考特定的軟件代碼來 描述所述方面的操作以及行為,應(yīng)理解,本領(lǐng)域普通技術(shù)人員基于在 此的描述將能夠設(shè)計用于實現(xiàn)所述方面的軟件以及控制硬件。
除非明確指明并非如此,否則不應(yīng)將在本發(fā)明的描述中使用的元 件、動作或指令解釋為對于本發(fā)明是至關(guān)重要或是必需的。而且,如 在此所使用的,不加數(shù)量限定的項意指包括一個或多個項。在只想表 示一個項的地方,使用了術(shù)語"一個"或類似的語言。此外,除非明 確說明并非如此,否則短語"基于"意為"至少部分基于"。
權(quán)利要求
1.一種方法,包括識別包括與在先結(jié)果數(shù)據(jù)有關(guān)的查詢信息以及類別信息的在先查詢數(shù)據(jù);確定所述類別信息是否是所述查詢信息的同義詞;以及如果確定所述查詢信息是所述類別信息的同義詞,則在隨后的搜索請求中使用所述查詢信息以及所述類別信息。
2. 如權(quán)利要求l所述的方法,其中,所述在先查詢數(shù)據(jù)涉及對企 業(yè)收錄信息的搜索。
3. 如權(quán)利要求l所述的方法,其中,識別在先査詢數(shù)據(jù)還包括 確定所述在先査詢數(shù)據(jù)是否已經(jīng)接收先前的相關(guān)性的指示。
4. 如權(quán)利要求3所述的方法,其中,所述先前的相關(guān)性的指示包括接收與所述在先查詢數(shù)據(jù)相關(guān)聯(lián)的預(yù)定義的用戶動作。
5. 如權(quán)利要求4所述的方法,其中,所述預(yù)定義的用戶動作包括 接收對駕車路線指引請求的用戶選擇。
6. 如權(quán)利要求l所述的方法,其中,所述在先査詢數(shù)據(jù)包括與對企業(yè)收錄信息的用戶査詢相關(guān)聯(lián)的査詢詞語、響應(yīng)于所述用戶査詢 而返回的作為結(jié)果的企業(yè)名稱、以及與所述作為結(jié)果的企業(yè)名稱相關(guān) 聯(lián)的作為結(jié)果的企業(yè)類別。
7. 如權(quán)利要求l所述的方法,還包括確定所述在先查詢數(shù)據(jù)是涉及名稱査詢還是類別査詢。
8. 如權(quán)利要求7所述的方法,其中,確定所述在先査詢數(shù)據(jù)是涉 及名稱查詢還是類別查詢還包括確定所述查詢詞語是涉及對企業(yè)名稱的請求還是涉及對企業(yè)類別 的請求。
9. 如權(quán)利要求8所述的方法,其中,確定所述査詢詞語是涉及對 企業(yè)名稱的請求還是涉及對企業(yè)類別的請求還包括確定所述查詢詞 語的名稱復(fù)雜度,其中具有更高名稱復(fù)雜度的查詢詞語是類別査詢, 并且具有更低名稱復(fù)雜度的査詢詞語是名稱査詢。
10. 如權(quán)利要求6所述的方法,還包括-確定所述在先查詢數(shù)據(jù)是涉及名稱査詢還是類別査詢;以及如果確定所述査詢詞語是類別査詢,則確定所述査詢詞語是否是 所述作為結(jié)果的企業(yè)類別的候選同義詞。
11. 如權(quán)利要求IO所述的方法,還包括確定與所述査詢數(shù)據(jù)相關(guān)聯(lián)的查詢、類別對是否是下位詞; 如果確定與所述查詢數(shù)據(jù)相關(guān)聯(lián)的所述査詢、類別對是下位詞,則拒絕所述査詢詞語作為所述作為結(jié)果的企業(yè)類別的同義詞;以及 如果確定與所述査詢數(shù)據(jù)相關(guān)聯(lián)的所述査詢、類別對不是下位詞,則接受所述査詢詞語作為所述作為結(jié)果的企業(yè)類別的同義詞。
12. 如權(quán)利要求ll所述的方法,其中,確定與所述查詢數(shù)據(jù)相關(guān) 聯(lián)的査詢、類別對是否是下位詞包括計算所述查詢、類別對的F-量度。
13.如權(quán)利要求12所述的方法,其中,根據(jù)以下表達式來計算所 述查詢、類別對的所述F-量度F-量度(査詢,類別)=,D,米P丄査,,類f)w本、翻、、'其中P(n)表示在(a x P(類另U) + (1 — a) x P(査詢))所述在先査詢數(shù)據(jù)中出現(xiàn)的概率,并且"a"是用于平衡調(diào)用率和精確 率的預(yù)定義的變量。
14. 如權(quán)利要求13所述的方法,其中,"a"是在大約0.7至0.9 的范圍內(nèi)。
15. 如權(quán)利要求13所述的方法,其中,"a"是大約0.85。
16. —種系統(tǒng),包括用于確定包括在在先搜索結(jié)果內(nèi)的查詢數(shù)據(jù)以及類別數(shù)據(jù)是否是 類別同義詞的裝置;以及用于如果確定所述查詢數(shù)據(jù)以及所述類別數(shù)據(jù)是類別同義詞,則 將所述査詢數(shù)據(jù)并入到與所述類別數(shù)據(jù)相關(guān)聯(lián)的隨后的搜索請求的裝置。
17. 如權(quán)利要求16所述的系統(tǒng),其中,用于確定包括在在先搜索 結(jié)果內(nèi)的査詢數(shù)據(jù)以及類別數(shù)據(jù)是否是類別同義詞的所述裝置還包 括用于確定所述在先搜索結(jié)果是否是良好的搜索結(jié)果的裝置;以及 用于當確定所述在先搜索結(jié)果是良好搜索結(jié)果時,確定包括在所述在先搜索結(jié)果內(nèi)的所述査詢數(shù)據(jù)以及所述類別數(shù)據(jù)是否是類別同義詞的裝置。
18. 如權(quán)利要求17所述的系統(tǒng),其中,用于確定所述在先搜索結(jié) 果是否是良好的搜索結(jié)果的所述裝置還包括用于確定所希望的用戶動作是否已經(jīng)與所述在先搜索結(jié)果相關(guān)聯(lián) 地出現(xiàn)的裝置;以及用于當確定已出現(xiàn)了所述所希望的用戶動作時,確定所述在先搜 索結(jié)果是良好的搜索結(jié)果的裝置。
19. 如權(quán)利要求17所述的系統(tǒng),還包括用于確定所述查詢數(shù)據(jù)是名稱査詢數(shù)據(jù)還是類別査詢數(shù)據(jù)的裝 置;以及用于當確定所述查詢數(shù)據(jù)是類別查詢數(shù)據(jù)時,確定包括在所述在 先搜索結(jié)果內(nèi)的所述査詢數(shù)據(jù)以及所述類別數(shù)據(jù)是否是類別同義詞的 裝置。
20. —種設(shè)備,包括識別包括與在先搜索請求相關(guān)聯(lián)的至少一個査詢、類別對的歷史 曰志數(shù)據(jù)的邏輯;確定在所述査詢、類別對中的所述查詢是名稱查詢還是類別查詢 的邏輯;以及當確定所述査詢是類別査詢時,確定所述查詢是否是所述類別的 同義詞的邏輯。
21.如權(quán)利要求20所述的設(shè)備,其中,確定所述査詢是否是所述 類別的同義詞的所述邏輯還包括確定所述査詢是否是所述類別的下位 詞的邏輯。
22. —種包含用于控制處理器來執(zhí)行方法的指令的計算機可讀介 質(zhì),包括識別在先搜索結(jié)果數(shù)據(jù),其中所述在先搜索結(jié)果數(shù)據(jù)至少包括查詢詞語以及結(jié)果類別;確定所述查詢詞語是否是所述結(jié)果類別的同義詞;以及 當所述查詢詞語是所述結(jié)果類別的同義詞時,在執(zhí)行與所述結(jié)果類別相關(guān)聯(lián)的隨后的搜索中使用所述査詢詞語和結(jié)果類別兩者。
23. —種方法,包括 從客戶端接收搜索查詢; 基于所接收的搜索查詢來識別結(jié)果類別; 識別所識別的結(jié)果類別的類別同義詞;以及基于所接收的搜索查詢、所述結(jié)果類別、以及所識別的類別同義 詞來執(zhí)行結(jié)果搜索。
24.如權(quán)利要求23所述的方法,其中,所述執(zhí)行結(jié)果搜索還包括: 基于所接收的查詢執(zhí)行企業(yè)名稱搜索; 基于所識別的類別同義詞執(zhí)行企業(yè)名稱搜索;以及 基于所識別的結(jié)果類別執(zhí)行結(jié)果類別搜索。
25.如權(quán)利要求24所述的方法,其中,所述基于所識別的結(jié)果類 別執(zhí)行結(jié)果類別搜索是導(dǎo)致對所識別的結(jié)果類別的精確匹配的精確匹 配搜索。
全文摘要
用于從在先結(jié)果數(shù)據(jù)推斷類別同義詞的系統(tǒng)以及方法,可以包括識別包括與在先結(jié)果數(shù)據(jù)有關(guān)的查詢信息以及類別信息的在先查詢數(shù)據(jù);確定查詢信息是否是類別信息的同義詞;以及如果確定查詢信息是類別信息的同義詞,則在隨后的搜索請求中使用查詢信息以及類別信息。
文檔編號G06F17/30GK101361068SQ200680051098
公開日2009年2月4日 申請日期2006年11月22日 優(yōu)先權(quán)日2005年11月22日
發(fā)明者劉志彥, 邁克爾·D·賴利 申請人:谷歌公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1