亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

搜索引擎及其實現方法_4

文檔序號:8922689閱讀:來源:國知局
義模型進行了調整)。
[0107] 繼續(xù)圖5,在步驟512中,根據查詢請求與候選結果的語句之間的匹配狀況確定轉 義因子。
[0108] 在步驟511確定句子間的主題匹配相似度時,從微觀上考慮,基于點擊轉義模型 對具體的詞語的相似度權重進行了調整。在此步驟512中,根據查詢請求與候選結果的語 句之間的匹配狀況,也即從宏觀上考慮來確定一個轉義因子。
[0109] 查詢請求與候選結果的語句之間的匹配狀況例如可以包括:查詢請求中最重要的 詞語沒有在候選結果的語句中出現、存在上下文的匹配以及不存在上下文的完全匹配。
[0110] 當查詢請求中最重要的詞語沒有在候選結果的語句中出現時,這通常表明二者之 間的相關性較低,以及轉義的可能性較高。此時,可以將轉義因子確定為第一值,例如〇. 7。 查詢請求中的詞語的重要性可以基于前面確定的相似度權重來確定。例如,可以直接根據 TF-IDF技術確定的權重來確定。
[0111] 存在上下文的匹配是指除了詞語的字面匹配之外,候選結果中還存在與該詞語的 相鄰上文或相鄰下文。換言之,此時候選結果也存在轉義的可能性。因此,可以將轉義因子 確定為第二值,第二值大于第一值,例如為〇. 95。
[0112] 不存在上下文的完全匹配是指除了詞語的字面匹配之外,候選結果中不存在該詞 語的相鄰上文和相鄰上文。換言之,此時候選結果基本上不存在轉義的可能性。因此,可以 將轉義因子確定為第三值,第三值大于第二值,例如為1。
[0113] 最后,在步驟513中,基于轉義因子和主題匹配相似度計算查詢請求與候選結果 的語句之間的語義相關度。
[0114] 基于轉義因子和主題匹配相似度,可以根據多種函數關系來構建語義相關度。在 一種實現中,可以按下式計算查詢請求與候選結果的語句之間的語義相關度:
[0115] Rele(Q,S) = 0 (Q,S)Sim(Q,S)
[0116] 其中,Rele(Q,S)表示Q和S之間的語義相關度,0 (Q,S)表示Q和S之間的轉義 因子,Sim(Q,S)表示Q和S之間的主題匹配相似度,Q表示查詢請求,S表示候選結果的語 句。
[0117] 應當注意,盡管在附圖中以特定順序描述了本發(fā)明方法的操作,但是,這并非要求 或者暗示必須按照該特定順序來執(zhí)行這些操作,或是必須執(zhí)行全部所示的操作才能實現期 望的結果。相反,流程圖中描繪的步驟可以改變執(zhí)行順序。附加地或備選地,可以省略某些 步驟,將多個步驟合并為一個步驟執(zhí)行,和/或將一個步驟分解為多個步驟執(zhí)行。
[0118] 進一步參考圖8,其示出了根據本申請實施例的搜索引擎的示例性結構框圖。
[0119] 如圖8所示,搜索引擎800包括接收單元810、搜索單元820、語義相關度確定單元 830和排序單元840。
[0120] 接收單元810可以配置用于接收用戶輸入的查詢請求。搜索單元820可以配置用 于搜索與查詢請求匹配的候選結果。語義相關度確定單元830可以配置用于基于點擊轉義 模型確定查詢請求與每個候選結果之間的語義相關度。排序單元840可以配置用于根據語 義相關度對候選結果進行排序。其中,點擊轉義模型包括轉義詞典和/或非轉義詞典,轉義 詞典包括確定發(fā)生轉義的搜索結果的對應詞語及其上下文,非轉義詞典包括確定未發(fā)生轉 義的搜索結果的對應詞語及其上下文。
[0121] 在一些實施例中,語義相關度確定單元830可以包括:計算單元831,用于針對每 個候選結果,確定查詢請求與候選結果的一個或多個語句之間的語義相關度,其中語句包 括以下至少一項:候選結果的標題、錨文本和正文中的核心句子。語義相關度確定單元830 還可以包括確定單元832,用于根據所確定的查詢請求與候選結果的一個或多個語句之間 的語義相關度確定查詢請求與候選結果之間的語義相關度。
[0122] 在一些實現中,計算單元831可以包括:主題匹配相似度模塊(未示出),用于基 于點擊轉義模型,利用句子間的文本主題匹配模型計算查詢請求與候選結果的語句之間的 主題匹配相似度。
[0123] 主題匹配相似度模塊具體可以用于:利用詞對齊從候選結果的語句中確定與查詢 請求中的詞語對齊的相鄰上文和下文;根據轉義詞典和/或非轉義詞典調整候選結果的語 句中的對應上文和下文的相似度權重;以及根據調整后的相似度權重,利用句子間的文本 主題匹配模型計算查詢請求與候選結果的語句之間的主題匹配相似度。
[0124] 計算單元831還可以包括:轉義因子模塊(未示出),用于根據查詢請求與候選結 果的語句之間的匹配狀況確定轉義因子。
[0125] 轉義因子模塊具體可以用于:若匹配狀況為查詢請求中最重要的詞語沒有在候選 結果的語句中出現,則轉義因子確定為第一值;若匹配狀況為存在上下文的匹配,則轉義因 子確定為第二值;若匹配狀況為不存在上下文的完全匹配,則轉義因子確定為第三值,其 中,第一值小于第二值,并且第二值小于第三值。
[0126] 計算單元831還可以包括:合成模塊(未示出),用于基于轉義因子和主題匹配相 似度計算查詢請求與候選結果的語句之間的語義相關度。
[0127] 在一些實施例中,點擊轉義模型中的轉義詞典和非轉義詞典通過學習查詢請求與 搜索結果Query-Title對的點擊數而構建。
[0128] 在一些實現中,轉義詞典和非轉義詞典包括通過如下方法而構建的原生轉義詞典 和原生非轉義詞典:獲取Query-Title對的點擊展現比,點擊展現比為點擊數與展現數之 比,展現數指示搜索結果響應于查詢請求而被展現的次數,點擊數指示搜索結果響應于查 詢請求而展現時被用戶點擊的次數;利用詞對齊在搜索結果中獲取與查詢語句中詞語對齊 的相鄰上下文;將點擊展現比低于第一閾值的Query-Title對中的對應詞語及其上下文加 入原生轉義詞典中;以及將點擊展現比高于第二閾值的Query-Title對中的對應詞語及其 上下文加入原生非轉義詞典中。
[0129] 可選的或附加的,轉義詞典和非轉義詞典還包括通過如下方法而構建的泛化轉義 詞典和泛化非轉義詞典:對查詢請求中的詞語標注語義類別;以及利于所標注的語義類別 構建與原生轉義詞典和原生非轉義詞典對應的泛化轉義詞典和泛化非轉義詞典。
[0130] 應當理解,搜索引擎800中記載的諸單元或子單元與前面參考方法流程圖描述的 方法中的各個步驟相對應。由此,上文針對方法描述的操作和特征同樣適用于搜索引擎800 及其中包含的單元,在此不再贅述。
[0131] 下面參考圖9,其示出了適于用來實現本申請實施例的服務器的計算機系統(tǒng)900 的結構示意圖。
[0132] 如圖9所示,計算機系統(tǒng)900包括中央處理單元(CPU)901,其可以根據存儲在只 讀存儲器(ROM) 902中的程序或者從存儲部分908加載到隨機訪問存儲器(RAM) 903中的程 序而執(zhí)行各種適當的動作和處理。在RAM903中,還存儲有系統(tǒng)900操作所需的各種程序 和數據。CPU901、R0M902以及RAM903通過總線904彼此相連。輸入/輸出(I/O)接口 905也連接至總線904。
[0133] 以下部件連接至I/O接口 905 :包括鍵盤、鼠標等的輸入部分906 ;包括諸如陰極 射線管(CRT)、液晶顯示器(LCD)等以及揚聲器等的輸出部分907;包括硬盤等的存儲部分 908 ;以及包括諸如LAN卡、調制解調器等的網絡接口卡的通信部分909。通信部分909經 由諸如因特網的網絡執(zhí)行通信處理。驅動器910也根據需要連接至I/O接口 905??刹鹦?介質911,諸如磁盤、光盤、磁光盤、半導體存儲器等等,根據需要安裝在驅動器910上,以便 于從其上讀出的計算機程序根據需要被安裝入存儲部分908。
[0134] 特別地,根據本公開的實施例,上文參考圖2-圖7描述的過程可以被實現為計算 機軟件程序。例如,本公開的實施例包括一種計算機程序產品,其包括有形地包含在機器可 讀介質上的計算機程序,所述計算機程序包含用于執(zhí)行圖2-圖7的方法的程序代碼。在這 樣的實施例中,該計算機程序可以通過通信部分909從網絡上被下載和安裝,和/或從可拆 卸介質911被安裝。
[0135] 附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實施例的系統(tǒng)、方法和計算機程 序產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代 表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個 用于實現規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現中,方框中所 標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框實際 上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要 注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以 用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現,或者可以用專用硬件與計算機 指令的組合來實現。
[0136] 描述于本申請實施例中所涉及到的單元或模塊可以通過軟件的方式實現,也可以 通過硬件的方式來實現。所描述的單元或模塊也可以設置在處理器中,這些單元或模塊的 名稱在某種情況下并不構成對該單元或模塊本身的限定。
[0137] 作為另一方面,本申請還提供了一種計算機可讀存儲介質,該計算機可讀存儲介 質可以是上述實施例中所述裝置中所包含的計算機可讀存儲介質;也可以是單獨存在,未 裝配入設備中的計算機可讀存儲介質。計算機可讀存儲介質存儲有一個或者一個以上程 序,所述程序被一個或者一個以上的處理器用來執(zhí)行描述于本申請的公式輸入方法。
當前第4頁1 2 3 4 5 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1