亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用戶檢索詞的處理方法及系統(tǒng)的制作方法

文檔序號:6581625閱讀:187來源:國知局
專利名稱:一種用戶檢索詞的處理方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索領(lǐng)域,特別地涉及ー種用戶檢索詞的處理方法及系統(tǒng)。
背景技術(shù)
搜索引擎的出現(xiàn),讓用戶有了可以從海量數(shù)據(jù)中查找、獲取信息的工具。但是并非每位用戶都了解搜索引擎的原理,所以大多數(shù)的用戶在使用搜索引擎時,一般是自己組織查詢語句來捜索,而且認為輸入的查詢詞越多,越詳細就越能獲取滿意的捜索結(jié)果。而事實上卻未必,一方面,基于性能考慮,搜索引擎對用戶輸入的查詢語句有最大長度限制,超過最大長度就會截斷,只用部分去檢索。另ー方面,在其返回的結(jié)果中,只要帶有檢索詞的都會返回,包含大量的無關(guān)信息,準確率低下,不能命中用戶的真正意圖。而且,現(xiàn)在的搜索引擎會根據(jù)用戶輸入而引進商家廣告作為ー種收入的手段。但有時打出的廣告卻與用戶輸入信息風(fēng)馬牛不相及。主要原因還是搜索引擎未能識別用戶的核心需求,只是命中了用戶檢索的部分查詢詞。所以,如何能讓搜索結(jié)果更滿足用戶的要求,更貼近用戶本質(zhì)需求,就要理解用戶輸入的檢索信息??紤]現(xiàn)實語言的復(fù)雜性,用戶輸入的檢索語句會有很多的用于限定的詞語,而這些詞語本身對于檢索的實際意義不大。故搜索引擎需要識別檢索的核心部分或者主干部分,讓搜索結(jié)果中命中的是用戶檢索語句的核心詞,主干詞,而非命中的是ー些意義不大的丟棄詞或修飾詞。如何從用戶的搜索需求中提取相應(yīng)的核心詞,成為目前捜索引擎中檢索詞(Query)分析急需解決的問題之一。當用戶輸入自己的檢索語句,搜索引擎可以自動對該語句做分析,識別用戶檢索輸入的核心詞,核心詞必須要命中才出搜索結(jié)果;識別用戶輸入的丟棄詞或修飾詞,這類詞有或沒有命中結(jié)果都不會有何影響。如此就可以讓展現(xiàn)出的檢索結(jié)果(包括廣告)更能滿足用戶的核心需求。截止目前為止,有關(guān)搜索引擎識別用戶檢索核心詞方面的方案較少,歸納起來不外乎以下幾種,一種是基于事后捜索結(jié)果的點擊信息來提取相應(yīng)的核心詞;另外一種是基于詞語架構(gòu)分析漢語語義。例如,中國專利CN102043845A的專利提供了一種用于基于查詢序列簇提取核心關(guān)鍵詞的方法與設(shè)備,包括,當網(wǎng)絡(luò)中出現(xiàn)大量相同的用戶點擊的捜索結(jié)果的搜索需求吋,這些搜索需求往往反映的是相同的主題。通過獲取多個查詢序列的查詢序列簇,每個查詢序列至少對應(yīng)一個相同的用戶點擊的捜索結(jié)果,來提取相應(yīng)的核心關(guān)鍵詞,獲得了輸入該查詢序列簇中的查詢序列的用戶的搜索需求,還可以根據(jù)該核心關(guān)鍵詞為用戶提供更為貼近的捜索建議或者相關(guān)的搜索需求,使得用戶獲得更好的捜索體驗。其不足之處在于首先對搜索引擎要求高,要求其性能、效果穩(wěn)定,捜索結(jié)果基本能滿足用戶的需求,這樣獲取的用戶點擊結(jié)果才可靠,基于此所做的分析處理才與用戶實際需求一致;其次,捜索結(jié)果一般都是對用戶的檢索做過處理后得到的,如Query擴展,Query同義詞等,使得搜索結(jié)果中不一定含有用戶的檢索詞,如此就無法直接提取到用戶檢索的核心詞。
例如,中國專利CN102681982A的專利可讓計算機理解的自然語言句子的自動語義識別的方法,提出了一種計算機準確理解中國漢語言的方法,它拋棄了以往選字取詞的方法,從漢語的語言特點出發(fā),通過詞語架構(gòu),準確的讓計算機知道操作者輸入的語言內(nèi)容;確切的分析出一句漢語的語意。首先在某個領(lǐng)域建立本體庫,將某個領(lǐng)域內(nèi)所有的精確描述的無歧義的詞語歸放到一起構(gòu)成本體庫(包括領(lǐng)域知識本體庫和通用詞本題庫);然后基于自然語言句子的理解和領(lǐng)域本體,建立語義框架知識庫;最后基于語義框架的本體映射,實現(xiàn)自然語言句子到語義結(jié)構(gòu)的直觀匹配。其不足之處在于首先互聯(lián)網(wǎng)領(lǐng)域信息每天劇增,ー些新詞匯也逐步產(chǎn)生,ー些普通的詞匯也逐步具備新的意義,對于這類詞,是作為核心詞還是修飾輔助詞,是與用戶檢索語句相關(guān)的,無法ー概而論;再次語義框架知識庫類似于正則規(guī)則,數(shù)量巨大,無法快速的歸納,且效果需要進ー步考察改進?;谑潞髵人鞯挠脩魴z索的核心詞識別,首先對搜索引擎有較高要求,在系統(tǒng)性能穩(wěn)定,效果比較好的情況下才能支持;其次過分依賴于搜索結(jié)果和用戶的反應(yīng),容易引入 ー些不必要的噪音(如廣告、其它信息等),且搜索結(jié)果是經(jīng)過各類變換得到的,捜索結(jié)果中不一定含有用戶的檢索詞,和檢索語句不一定直接對應(yīng)上。再次線下獲取的結(jié)果只能在后續(xù)用戶輸入相同、類似的Query時起到借鑒作用,從而召回率較低?;诮⒄Z義框架知識庫的檢索的核心詞識別方法,對特殊實體處理不足,沒有很好的區(qū)別那類普通字義的實體詞;語義框架知識庫是由各類詞組成的規(guī)則,而整理歸納需要很長的時間,且效果也需要逐步改迸。

發(fā)明內(nèi)容
本發(fā)明解決的技術(shù)問題在于提供了一種用戶檢索詞的處理方法及系統(tǒng),以解決目前無法識別用戶檢索核心詞的問題。為解決上述問題,本發(fā)明實施例提供了一種用戶檢索詞的處理方法,包括,建立與識別用戶檢索的核心詞相關(guān)的資源庫;對用戶輸入的檢索詞進行基本分層;將所述基本分層后的檢索詞進行實體引入;輸出識別出的檢索詞的層次結(jié)構(gòu)。上述的方法,其中,所述建立與識別用戶檢索的核心詞相關(guān)的資源庫包括,與識別用戶檢索的核心詞相關(guān)的一系列詞表,包括停用詞表,修飾詞表和實體資源詞典。上述的方法,其中,所述對用戶輸入的檢索詞進行基本分層包括,在對用戶檢索語句進行分詞后,會得到一系列的查詢詞匯term以及詞性pos,包括 term[l]_pos [I], term[2]_pos [2],…,term[n]_pos [n],其中 term[i]為第 i 個詞匯,pos [i]為其對應(yīng)的詞性;利用資源庫的停用詞表、修飾詞表、以及詞匯的詞性對用戶輸入的查詢詞匯實現(xiàn)基本分層,具體如下,
權(quán)利要求
1.一種用戶檢索詞的處理方法,其特征在于,包括, 建立與識別用戶檢索的核心詞相關(guān)的資源庫; 對用戶輸入的檢索詞進行基本分層; 將所述基本分層后的檢索詞進行實體引入; 輸出識別出的檢索詞的層次結(jié)構(gòu)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述建立與識別用戶檢索的核心詞相關(guān)的資源庫包括,與識別用戶檢索的核心詞相關(guān)的一系列詞表,包括停用詞表,修飾詞表和實體資源詞典。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對用戶輸入的檢索詞進行基本分層包括, 在對用戶檢索語句進行分詞后,會得到一系列的查詢詞匯term以及詞性pos,包括term[l]_pos [I], term[2]_pos [2],…,term[n]_pos [η],其中 term[i]為第 i 個詞匯,pos [i]為其對應(yīng)的詞性; 利用資源庫的停用詞表、修飾詞表、以及詞匯的詞性對用戶輸入的查詢詞匯實現(xiàn)基本分層,具體如下,
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述將所述基本分層后的檢索詞進行實體引入包括, 根據(jù)實體詞典結(jié)合用戶的檢索語句,提取實際的實體詞匯集entityList ;
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)實體詞典結(jié)合用戶的檢索語句,提取實際的實體詞匯集entityList包括, 考慮用戶檢索分類相關(guān),在實體的類別與分類信息有關(guān)聯(lián)時則進行實體詞提取;或者, 利用語句規(guī)則進行實體詞提取。
6.根據(jù)權(quán)利要求1至5任一所述的方法,其特征在于,在輸出識別出的用戶檢索詞的層次結(jié)構(gòu)之前還包括, 對所述用戶檢索詞進行句式句法分析;和/或, 對用戶檢索詞進行從屬關(guān)系識別。
7.一種用戶檢索詞的處理系統(tǒng),其特征在于,包括,資源庫建立模塊,用于建立與識別用戶檢索的核心詞相關(guān)的資源庫; 基本分層模塊,用于對用戶輸入的檢索詞進行基本分層; 實體弓I入模塊,用于將所述基本分層后的檢索詞進行實體弓I入; 輸出模塊,用于輸出識別出的檢索詞的層次結(jié)構(gòu)。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述建立與識別用戶檢索的核心詞相關(guān)的資源庫包括,與識別用戶檢索的核心詞相關(guān)的一系列詞表,包括停用詞表,修飾詞表和實體資源詞典。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述基本分層模塊,用于對用戶輸入的檢索詞進行基本分層具體包括, 所述基本分層模塊,用于在對用戶檢索語句進行分詞后,會得到一系列的查詢詞匯term 以及詞性 pos,包括 term[l]_pos [I], term[2]_pos [2], ...,term[n]_pos [η],其中term[i]為第i個詞匯,pos[i]為其對應(yīng)的詞性; 以及用于利用資源庫的停用詞表、修飾詞表、以及詞匯的詞性對用戶輸入的查詢詞匯實現(xiàn)基本分層,具體如下,
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,還包括, 句式句法分析模塊,用于對所述用戶檢索詞進行句式句法分析;和/或, 從屬關(guān)系識別模塊,用于對用戶檢索詞進行從屬關(guān)系識別。
全文摘要
本發(fā)明涉及信息檢索領(lǐng)域,提供了一種用戶檢索詞的處理方法,包括,建立與識別用戶檢索的核心詞相關(guān)的資源庫;對用戶輸入的檢索詞進行基本分層;將所述基本分層后的檢索詞進行實體引入;輸出識別出的檢索詞的層次結(jié)構(gòu)。本發(fā)明還提供了一種用戶檢索詞的處理系統(tǒng)。采用本發(fā)明的技術(shù)方案,保障實體提取的準確率,以避免了僅僅依靠詞匯來考察層次造成的局部最優(yōu)問題,和僅僅依靠整體研究句子結(jié)構(gòu)造成的對特殊實體識別不足的問題。最終又借助從屬關(guān)系進一步優(yōu)化檢索語句的核心詞,識別用戶句子的核心詞匯,為搜索引擎提供盡可能多的信息支持。同時不完全依賴于線上搜索引擎的結(jié)果信息,更易于操作實現(xiàn)。
文檔編號G06F17/27GK103020311SQ20131000580
公開日2013年4月3日 申請日期2013年1月8日 優(yōu)先權(quán)日2013年1月8日
發(fā)明者車天文, 雷大偉, 石志偉, 周步戀, 楊振東, 王更生, 王喜民, 何宏靖, 徐憶蘇 申請人:深圳市宜搜科技發(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1