亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于知識編碼的精確搜索方法和系統(tǒng)的制作方法

文檔序號:6554858閱讀:213來源:國知局
專利名稱:基于知識編碼的精確搜索方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息搜索領(lǐng)域,具體涉及根據(jù)用戶查詢語句提供高度準(zhǔn)確的搜索結(jié)果(即精確搜索)的技術(shù)領(lǐng)域。
背景技術(shù)
信息搜索的過程一般包括(a)接受用戶輸入的查詢請求;(b)通過某種方法將查詢請求轉(zhuǎn)換為計算機可以處理的數(shù)據(jù)結(jié)構(gòu);(c)根據(jù)該數(shù)據(jù)結(jié)構(gòu)在文檔索引表中進(jìn)行匹配(一般包含相似度計算);(d)將匹配之后的結(jié)果文檔輸出,作為對用戶查詢請求的響應(yīng),也就是搜索結(jié)果。
圖1表示了根據(jù)現(xiàn)有技術(shù)的信息搜索系統(tǒng)的基本框圖,包括索引建立過程和信息查詢過程。
索引建立過程包括目標(biāo)文檔101的原始內(nèi)容,經(jīng)過編碼設(shè)備102的處理,按照預(yù)定的數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換為既可以在一定程度上表達(dá)原始文檔的內(nèi)容又可以被信息系統(tǒng)識別和處理的編碼,通過索引設(shè)備103建立索引,存儲在索引-文檔存儲設(shè)備104中。
信息查詢過程包括通過查詢輸入設(shè)備107輸入查詢請求(例如一串關(guān)鍵詞或一句話),通過查詢處理設(shè)備106將查詢請求轉(zhuǎn)換為信息系統(tǒng)可以識別和處理的編碼和索引(這一過程遵循的編碼原則與索引編碼過程一致),然后通過信息搜索設(shè)備從索引-文檔存儲設(shè)備104中獲得與此相對應(yīng)的文檔,通過結(jié)果顯示設(shè)備108將格式組織后的結(jié)果文檔顯示出來。
在搜索結(jié)果方面,目前的搜索方法傾向于返回過長、過多的結(jié)果文檔,其中包含大量無用信息。例如,對于查詢請求“秦始皇出生的時間”,搜索系統(tǒng)往往返回成百上千篇文檔??赡苄枰脩羧拈喿x完多篇文檔才能找到真正的答案,其實用戶的問題只需要一句話就能回答了。也就是說,現(xiàn)有系統(tǒng)會浪費大量系統(tǒng)資源和用戶的寶貴時間。常規(guī)的編碼和索引方法存在內(nèi)容表達(dá)不準(zhǔn)確的問題,傾向于對用詞類似但是含義不同的文檔內(nèi)容建立相同或相似的索引。例如,“聯(lián)想電腦”中的“聯(lián)想”(表示公司名稱)與“聯(lián)想記憶法”中的“聯(lián)想”(表示人類的一種思維活動)含義不同,但是系統(tǒng)不能區(qū)分,這很可能導(dǎo)致匹配出錯誤結(jié)果。例如,當(dāng)用戶查詢“聯(lián)想電腦”時,可能與“電腦不能聯(lián)想”匹配成功。目前的技術(shù)還存在漏掉正確結(jié)果的可能性。例如“電腦”和“計算機”的含義相同,但“聯(lián)想電腦”可能不能匹配到“聯(lián)想計算機”,因為兩者的用詞不同。
因此,能夠準(zhǔn)確理解用戶的查詢請求,并返回精確的、簡短的結(jié)果文檔的信息搜索系統(tǒng)是非常實用的。

發(fā)明內(nèi)容
鑒于上述問題,完成了本發(fā)明。本發(fā)明的一個目的是提出一種基于知識編碼的精確搜索方法和系統(tǒng),能大大提高信息搜索的準(zhǔn)確度并減小了搜索所用的時間。
在本發(fā)明的一個方面,提出了一種種建立知識索引的方法,包括將目標(biāo)文檔劃分成多個部分;對各個部分中包含的知識進(jìn)行編碼,以得到相應(yīng)知識的知識編碼;相互對應(yīng)地存儲所述各個部分及其知識編碼。
根據(jù)本發(fā)明的實施例,所述劃分步驟包括按照段落或者句子落劃分目標(biāo)文檔。
根據(jù)本發(fā)明的實施例,所述知識編碼步驟包括按照詞語的含義賦予相應(yīng)的編碼;將具有相同含義的詞語賦予相同的編碼,而將具有多種含義的詞語賦予不同的編碼。
根據(jù)本發(fā)明的實施例,所述知識編碼步驟還包括按照‘對象-特征-特征值’的數(shù)據(jù)結(jié)構(gòu)組合各個詞語的知識編碼。
根據(jù)本發(fā)明的實施例,所述知識編碼以整數(shù)來表示。
根據(jù)本發(fā)明的實施例,重復(fù)上述步驟,建立每一篇文檔的知識編碼。
在本發(fā)明的另一方面,提出了一種信息搜索方法,包括步驟輸入搜索語句;對所述搜索語句進(jìn)行語法或者語義分析,以獲得該搜索語句的基于知識編碼的語義表達(dá);在知識庫中匹配該語義表達(dá),以找到對應(yīng)的答案。
根據(jù)本發(fā)明的實施例,在用戶不滿意所述答案的情況下,向用戶返回包括該答案的文檔的一部分。
根據(jù)本發(fā)明的實施例,在用戶不滿意所述包括該答案的文檔的一部分的情況下,向用戶返回包括該答案的整個文檔。
根據(jù)本發(fā)明的實施例,在用戶不滿意包括該答案的整個文檔的情況下,利用關(guān)鍵詞搜索,向用戶返回包括關(guān)鍵詞的所有搜索結(jié)果。
根據(jù)本發(fā)明的實施例,對于陳述形式的搜索語句,根據(jù)該搜索語句的語義表達(dá)的“特征-特征值”,匹配到知識編碼中的一個或多個編碼。
根據(jù)本發(fā)明的實施例,對于疑問形式的搜索語句,通過“特征-特征值”匹配來發(fā)現(xiàn)該搜索語句的語義表達(dá)所指向的知識編碼,然后根據(jù)疑問點匹配到答案的知識編碼。
在本發(fā)明的又一方面,提出了一種實現(xiàn)信息搜索的系統(tǒng),包括一個或多個中央處理器;一個或多個存儲器;其中,所述中央處理器根據(jù)存儲器中的程序運行,以便輸入搜索語句;對所述搜索語句進(jìn)行語法或者語義分析,以獲得該搜索語句的基于知識編碼的語義表達(dá);在知識庫中匹配該語義表達(dá),以找到對應(yīng)的答案。
根據(jù)本發(fā)明的實施例,該系統(tǒng)還包括一個或多個計算機可讀的外部存儲介質(zhì),其中保存有按照所述的方法建立的知識索引。
根據(jù)本發(fā)明的實施例,該系統(tǒng)還包括一個或多個網(wǎng)絡(luò)連接部件。
利用本發(fā)明的搜索方法和系統(tǒng),可以準(zhǔn)確地回答用戶的查詢,給出精確和簡短的查詢結(jié)果文檔,精確到包含查詢結(jié)果的文檔段落,以節(jié)省系統(tǒng)資源和用戶的時間,改善信息搜索系統(tǒng)的交互體驗。在結(jié)果的覆蓋性方面,用戶可以逐級擴(kuò)大搜索結(jié)果范圍,從而保證不會遺漏所有相關(guān)信息。


圖1示出了根據(jù)現(xiàn)有技術(shù)的信息搜索系統(tǒng)的結(jié)構(gòu)示意圖;圖2示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何進(jìn)行知識編碼的處理過程;圖3示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何建立知識索引的處理過程;圖4示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何進(jìn)行信息搜索的處理過程;圖5示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何控制結(jié)果范圍的處理過程;圖6示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何基于知識精確搜索源文檔的處理過程;圖7示出了用于實現(xiàn)本發(fā)明的方法的精確搜索系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施例方式
下面對照附圖詳細(xì)說明書本發(fā)明的具體實施方式

在索引建立過程中,文檔內(nèi)容編碼的準(zhǔn)確程度決定了信息查詢過程中定位目標(biāo)文檔的準(zhǔn)確程度。詞語存在一詞多義和多義詞現(xiàn)象,基于詞語的內(nèi)容編碼方法本質(zhì)上不能達(dá)到精確搜索的要求。因此,精確搜索的基礎(chǔ)是文檔內(nèi)容編碼方法的改進(jìn)。
對文檔內(nèi)容所代表的知識進(jìn)行編碼,能夠解決這個問題。圖2示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何進(jìn)行知識編碼的處理過程。知識編碼包括淺層和深層的知識編碼,淺層知識編碼表現(xiàn)在同義詞和一詞多義方面,同義詞例如“電腦”和“計算機”,雖然是不同的詞,但應(yīng)該被賦予相同的編碼301;一詞多義例如“聯(lián)想”具有兩個含義——“一家電腦公司的名稱”302和“人類的一種思維活動”303,應(yīng)該被賦予不同的編碼。圖2示意了知識編碼的一部分,這種淺層知識編碼的資源又稱為語義資源庫。
在本發(fā)明實施例中,用整型數(shù)字或者長整型數(shù)字來表示不同的語義,因為機器易于識別和處理。如圖2所示,詞語“電腦”和“計算機”都被表示為整數(shù)301;而詞語“聯(lián)想”具有兩個整數(shù)編碼302和303,分別代表前文中提到的兩個含義。
深層知識編碼由淺層知識編碼根據(jù)信息設(shè)備中約定的知識表示模型組合而成,成為具有“對象-特征-特征值”的數(shù)據(jù)結(jié)構(gòu)。計算設(shè)備對這樣的數(shù)據(jù)結(jié)構(gòu)可以通過標(biāo)準(zhǔn)運算進(jìn)行搜索和匹配。例如,“聯(lián)想電腦”在種屬310方面,屬于‘電腦301’類,但是同時在生產(chǎn)廠家方面,屬于‘聯(lián)想(公司)’302?!百谮w都邯鄲”是一句話,其包括主語312‘嬴政321’、謂語313‘出生322’和地點314‘邯鄲323’,并且‘邯鄲323’是‘趙國324’的‘首都315’。這樣,‘聯(lián)想電腦’和“嬴政生于趙都邯鄲”的知識編碼分別用304,305表示。深層知識編碼被存儲于系統(tǒng)中的知識庫,圖2簡化示意了知識庫,隱去了與說明本發(fā)明不相關(guān)的部分。
圖3示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何建立知識索引的處理過程。
本發(fā)明實施例中,索引建立過程是這樣的對于目標(biāo)文檔,首先按照段落進(jìn)行切分401;然后針對每個段落,按照如上所示的方法,逐個對段落內(nèi)容中包含的知識進(jìn)行編碼402;知識編碼存儲在按照“對象-特征-特征值”結(jié)構(gòu)建立起來的知識庫中403、406;在文檔-索引存儲設(shè)備中存儲按照段落切分之后的文檔原文404、407;最后在文檔-索引存儲設(shè)備中存儲知識編碼及對應(yīng)的按照段落切分之后的文檔原文的對應(yīng)關(guān)系405、408。這個過程可以不斷重復(fù),對每一篇單獨的文檔建立基于知識編碼的索引。
需要說明的是,以上索引建立過程既可以是手工進(jìn)行,也可以由機器自動進(jìn)行,或者半手工、半自動地進(jìn)行,但這與本發(fā)明無關(guān)。
圖4示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何進(jìn)行信息搜索的處理過程。在信息查詢過程,系統(tǒng)采用相同的編碼原則,通過語法、語義分析,得到查詢請求的語義表達(dá)501,502;然后通過一個索引設(shè)備在知識庫中匹配找到對應(yīng)的答案503,504、知識索引和對應(yīng)的文檔原文段落、文檔原文全文,或者抽取出其中的關(guān)鍵詞,調(diào)用標(biāo)準(zhǔn)全文搜索引擎獲得包含相關(guān)關(guān)鍵詞的全部文檔505~511。
根據(jù)本發(fā)明實施例的精確搜索系統(tǒng),能夠準(zhǔn)確理解用戶的查詢請求,給出正確的答案;只返回目標(biāo)文檔的一部分,這一部分是文檔中的一個段落且包含用戶期望的答案;當(dāng)用戶期望閱讀文檔中其它部分時,系統(tǒng)才給出目標(biāo)文檔的全部;當(dāng)用戶期望閱讀更多包含相同關(guān)鍵詞的文檔時,調(diào)用標(biāo)準(zhǔn)的全文搜索引擎,給出更大范圍的搜索結(jié)果。
圖5示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何控制結(jié)果范圍的處理過程。在本發(fā)明中,用戶與系統(tǒng)就某個查詢請求進(jìn)行交互的過程中,獲得結(jié)果的范圍是逐漸擴(kuò)大的先是直接的、準(zhǔn)確的回答201;然后是包含該答案內(nèi)容的目標(biāo)文檔段落202;然后是目標(biāo)文檔全部203;最后才是所有包含相關(guān)關(guān)鍵詞的文檔204。這樣做更加符合人類獲取信息的心理習(xí)慣,而且能節(jié)省用戶獲取信息所消耗的時間。
圖6示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何基于知識精確搜索源文檔的處理過程。
用戶輸入一個用自然語言表達(dá)的查詢請求,比如“聯(lián)想電腦”和“嬴政出生的地點”。首先,對查詢語句進(jìn)行語法和語義分析,將字符串表達(dá)的含義轉(zhuǎn)換為信息設(shè)備可以理解并自動處理的數(shù)據(jù)結(jié)構(gòu)(即語義表達(dá))。這種轉(zhuǎn)換可以采用基于規(guī)則的方法,或者基于統(tǒng)計的方法,或者基于兩者結(jié)合的方法。圖6表示了經(jīng)過處理形成的語義表達(dá)610、620。因為轉(zhuǎn)換過程中知識編碼原則與索引過程中知識編碼原則一致,所以圖6中的語義表達(dá)與圖2中的語義表達(dá)是相同或相似的。
然后,根據(jù)查詢句的語義表達(dá)中所包含的“特征-特征值”,進(jìn)行匹配,從文檔-索引存儲設(shè)備104中找到被查詢的對象,其分為兩類一類是陳述形式,匹配的結(jié)果是一個對象,如查詢句“聯(lián)想電腦”(語義表達(dá)610)被匹配到文檔-索引存儲設(shè)備104中的索引304。從文檔-索引存儲設(shè)備104中精確定位目標(biāo)文檔段落《聯(lián)想產(chǎn)品報價05年1月》第x段和《聯(lián)想產(chǎn)品報價05年2月》第y段。
另一類是疑問形式,如“嬴政出生的地點”(語義表達(dá)620),通過“特征-特征值”匹配發(fā)現(xiàn)該表達(dá)指向文檔-索引存儲設(shè)備104中的事件305,并且根據(jù)疑問點621“地點622”可以匹配到答案323。同時,可以精確定位目標(biāo)文檔段落《秦始皇生平》第1段。
以上闡述的是獲得準(zhǔn)確答案201,及精確搜索文檔段落202的方法。當(dāng)用戶期望看到目標(biāo)文檔更多內(nèi)容時,發(fā)出一個操作指令(例如消息“more”),文檔-索引存儲設(shè)備104查詢到目標(biāo)文檔的全部段落,順序顯示就可以得到目標(biāo)文檔的全文203。
當(dāng)用戶期望看到更多相關(guān)文檔時,發(fā)出一個操作指令(例如消息“more”),系統(tǒng)對查詢句進(jìn)行泛化,調(diào)用可以返回更多查詢結(jié)果的搜索引擎,獲得相關(guān)文檔204。例如,具體到目前成熟的全文搜索引擎,這種方法可以是提取查詢句中所有實詞,構(gòu)成搜索關(guān)鍵詞,調(diào)用全文搜索引擎,獲得所有包含相關(guān)關(guān)鍵詞的文檔。
圖7是本發(fā)明的精確搜索系統(tǒng)的一個優(yōu)選實施例?;诒景l(fā)明的精確搜索設(shè)備包括一個或多個中央處理器,一個或多個存儲器。中央處理器根據(jù)存儲器中的程序運行(包括按照前文所述方法實現(xiàn)的知識編碼、文檔切分/索引、語法/語義分析、知識匹配、輸出/交互程序)。該設(shè)備還包含一個或多個計算機可讀的外部存儲介質(zhì),其中保存按照前文所述方法建立的目標(biāo)文檔(按照段落切分)、知識索引、語義資源、以及文檔-索引對應(yīng)關(guān)系。該設(shè)備還包含一個或多個網(wǎng)絡(luò)連接部件,以使本發(fā)明設(shè)備可以跨網(wǎng)絡(luò)運行。
本發(fā)明中,雖然是按照文檔段落進(jìn)行切分和精確搜索,但是本發(fā)明方法不局限于段落級別,同樣適用于按照句子級別進(jìn)行切分和索引,因而實現(xiàn)針對目標(biāo)文檔中句子級的精確搜索。
優(yōu)選實施例中的網(wǎng)絡(luò)連接部件并非基于本發(fā)明的設(shè)備所必需的部件。當(dāng)所有程序和數(shù)據(jù)均運行在單一的物理設(shè)備中時,可以沒有網(wǎng)絡(luò)連接設(shè)備,本發(fā)明同樣適用。
以上所述,僅為本發(fā)明中的具體實施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所披露的技術(shù)范圍內(nèi),可輕易想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種建立知識索引的方法,包括將目標(biāo)文檔劃分成多個部分;對各個部分中包含的知識進(jìn)行編碼,以得到相應(yīng)知識的知識編碼;相互對應(yīng)地存儲所述各個部分及其知識編碼。
2.如權(quán)利要求1所述的方法,其特征在于,所述劃分步驟包括按照段落或者句子落劃分目標(biāo)文檔。
3.如權(quán)利要求1所述的方法,其特征在于,所述知識編碼步驟包括按照詞語的含義賦予相應(yīng)的編碼;將具有相同含義的詞語賦予相同的編碼,而將具有多種含義的詞語賦予不同的編碼。
4.如權(quán)利要求3所述的方法,其特征在于,所述知識編碼步驟還包括按照‘對象-特征-特征值’的數(shù)據(jù)結(jié)構(gòu)組合各個詞語的知識編碼。
5.如權(quán)利要求3或4所述的方法,其特征在于,所述知識編碼以整數(shù)來表示。
6.如權(quán)利要求1所述的方法,其特征在于,重復(fù)上述步驟,建立每一篇文檔的知識編碼。
7.一種信息搜索方法,包括步驟輸入搜索語句;對所述搜索語句進(jìn)行語法或者語義分析,以獲得該搜索語句的基于知識編碼的語義表達(dá);在知識庫中匹配該語義表達(dá),以找到對應(yīng)的答案。
8.如權(quán)利要求7所述的方法,其特征在于,在用戶不滿意所述答案的情況下,向用戶返回包括該答案的文檔的一部分。
9.如權(quán)利要求8所述的方法,其特征在于,在用戶不滿意所述包括該答案的文檔的一部分的情況下,向用戶返回包括該答案的整個文檔。
10.如權(quán)利要求9所述的方法,其特征在于,在用戶不滿意包括該答案的整個文檔的情況下,利用關(guān)鍵詞搜索,向用戶返回包括關(guān)鍵詞的所有搜索結(jié)果。
11.如權(quán)利要求7所述的方法,其特征在于,對于陳述形式的搜索語句,根據(jù)該搜索語句的語義表達(dá)的“特征-特征值”,匹配到知識編碼中的一個或多個編碼。
12.如權(quán)利要求7所述的方法,其特征在于,對于疑問形式的搜索語句,通過“特征-特征值”匹配來發(fā)現(xiàn)該搜索語句的語義表達(dá)所指向的知識編碼,然后根據(jù)疑問點匹配到答案的知識編碼。
13.一種實現(xiàn)信息搜索的系統(tǒng),包括一個或多個中央處理器;一個或多個存儲器;其中,所述中央處理器根據(jù)存儲器中的程序運行,以便輸入搜索語句;對所述搜索語句進(jìn)行語法或者語義分析,以獲得該搜索語句的基于知識編碼的語義表達(dá);在知識庫中匹配該語義表達(dá),以找到對應(yīng)的答案。
14.如權(quán)利要求13所述的系統(tǒng),還包括一個或多個計算機可讀的外部存儲介質(zhì),其中保存有按照權(quán)利要求1所述的方法建立的知識索引。
15.如權(quán)利要求14所述的系統(tǒng),其特征在于,還包括一個或多個網(wǎng)絡(luò)連接部件。
全文摘要
公開了一種基于知識編碼的精確搜索方法和系統(tǒng)。建立知識索引的方法包括將目標(biāo)文檔劃分成多個部分;對各個部分中包含的知識進(jìn)行編碼,以得到相應(yīng)知識的知識編碼;相互對應(yīng)地存儲所述各個部分及其知識編碼。利用本發(fā)明的搜索方法和系統(tǒng),可以準(zhǔn)確地回答用戶的查詢,給出精確和簡短的查詢結(jié)果文檔,精確到包含查詢結(jié)果的文檔段落,以節(jié)省系統(tǒng)資源和用戶的時間,改善信息搜索系統(tǒng)的交互體驗。
文檔編號G06F17/30GK101089841SQ20061001224
公開日2007年12月19日 申請日期2006年6月14日 優(yōu)先權(quán)日2006年6月14日
發(fā)明者王江 申請人:聯(lián)想(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1