基于知識編碼的精確搜索方法和系統(tǒng)的制作方法

文檔序號：6554858閱讀：213來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于知識編碼的精確搜索方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息搜索領(lǐng)域，具體涉及根據(jù)用戶查詢語句提供高度準(zhǔn)確的搜索結(jié)果(即精確搜索)的技術(shù)領(lǐng)域。
背景技術(shù)：
信息搜索的過程一般包括(a)接受用戶輸入的查詢請求；(b)通過某種方法將查詢請求轉(zhuǎn)換為計算機可以處理的數(shù)據(jù)結(jié)構(gòu)；(c)根據(jù)該數(shù)據(jù)結(jié)構(gòu)在文檔索引表中進(jìn)行匹配(一般包含相似度計算)；(d)將匹配之后的結(jié)果文檔輸出，作為對用戶查詢請求的響應(yīng)，也就是搜索結(jié)果。
圖1表示了根據(jù)現(xiàn)有技術(shù)的信息搜索系統(tǒng)的基本框圖，包括索引建立過程和信息查詢過程。
索引建立過程包括目標(biāo)文檔101的原始內(nèi)容，經(jīng)過編碼設(shè)備102的處理，按照預(yù)定的數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換為既可以在一定程度上表達(dá)原始文檔的內(nèi)容又可以被信息系統(tǒng)識別和處理的編碼，通過索引設(shè)備103建立索引，存儲在索引-文檔存儲設(shè)備104中。
信息查詢過程包括通過查詢輸入設(shè)備107輸入查詢請求(例如一串關(guān)鍵詞或一句話)，通過查詢處理設(shè)備106將查詢請求轉(zhuǎn)換為信息系統(tǒng)可以識別和處理的編碼和索引(這一過程遵循的編碼原則與索引編碼過程一致)，然后通過信息搜索設(shè)備從索引-文檔存儲設(shè)備104中獲得與此相對應(yīng)的文檔，通過結(jié)果顯示設(shè)備108將格式組織后的結(jié)果文檔顯示出來。
在搜索結(jié)果方面，目前的搜索方法傾向于返回過長、過多的結(jié)果文檔，其中包含大量無用信息。例如，對于查詢請求“秦始皇出生的時間”，搜索系統(tǒng)往往返回成百上千篇文檔?？赡苄枰脩羧拈喿x完多篇文檔才能找到真正的答案，其實用戶的問題只需要一句話就能回答了。也就是說，現(xiàn)有系統(tǒng)會浪費大量系統(tǒng)資源和用戶的寶貴時間。常規(guī)的編碼和索引方法存在內(nèi)容表達(dá)不準(zhǔn)確的問題，傾向于對用詞類似但是含義不同的文檔內(nèi)容建立相同或相似的索引。例如，“聯(lián)想電腦”中的“聯(lián)想”(表示公司名稱)與“聯(lián)想記憶法”中的“聯(lián)想”(表示人類的一種思維活動)含義不同，但是系統(tǒng)不能區(qū)分，這很可能導(dǎo)致匹配出錯誤結(jié)果。例如，當(dāng)用戶查詢“聯(lián)想電腦”時，可能與“電腦不能聯(lián)想”匹配成功。目前的技術(shù)還存在漏掉正確結(jié)果的可能性。例如“電腦”和“計算機”的含義相同，但“聯(lián)想電腦”可能不能匹配到“聯(lián)想計算機”，因為兩者的用詞不同。
因此，能夠準(zhǔn)確理解用戶的查詢請求，并返回精確的、簡短的結(jié)果文檔的信息搜索系統(tǒng)是非常實用的。

發(fā)明內(nèi)容
鑒于上述問題，完成了本發(fā)明。本發(fā)明的一個目的是提出一種基于知識編碼的精確搜索方法和系統(tǒng)，能大大提高信息搜索的準(zhǔn)確度并減小了搜索所用的時間。
在本發(fā)明的一個方面，提出了一種種建立知識索引的方法，包括將目標(biāo)文檔劃分成多個部分；對各個部分中包含的知識進(jìn)行編碼，以得到相應(yīng)知識的知識編碼；相互對應(yīng)地存儲所述各個部分及其知識編碼。
根據(jù)本發(fā)明的實施例，所述劃分步驟包括按照段落或者句子落劃分目標(biāo)文檔。
根據(jù)本發(fā)明的實施例，所述知識編碼步驟包括按照詞語的含義賦予相應(yīng)的編碼；將具有相同含義的詞語賦予相同的編碼，而將具有多種含義的詞語賦予不同的編碼。
根據(jù)本發(fā)明的實施例，所述知識編碼步驟還包括按照‘對象-特征-特征值’的數(shù)據(jù)結(jié)構(gòu)組合各個詞語的知識編碼。
根據(jù)本發(fā)明的實施例，所述知識編碼以整數(shù)來表示。
根據(jù)本發(fā)明的實施例，重復(fù)上述步驟，建立每一篇文檔的知識編碼。
在本發(fā)明的另一方面，提出了一種信息搜索方法，包括步驟輸入搜索語句；對所述搜索語句進(jìn)行語法或者語義分析，以獲得該搜索語句的基于知識編碼的語義表達(dá)；在知識庫中匹配該語義表達(dá)，以找到對應(yīng)的答案。
根據(jù)本發(fā)明的實施例，在用戶不滿意所述答案的情況下，向用戶返回包括該答案的文檔的一部分。
根據(jù)本發(fā)明的實施例，在用戶不滿意所述包括該答案的文檔的一部分的情況下，向用戶返回包括該答案的整個文檔。
根據(jù)本發(fā)明的實施例，在用戶不滿意包括該答案的整個文檔的情況下，利用關(guān)鍵詞搜索，向用戶返回包括關(guān)鍵詞的所有搜索結(jié)果。
根據(jù)本發(fā)明的實施例，對于陳述形式的搜索語句，根據(jù)該搜索語句的語義表達(dá)的“特征-特征值”，匹配到知識編碼中的一個或多個編碼。
根據(jù)本發(fā)明的實施例，對于疑問形式的搜索語句，通過“特征-特征值”匹配來發(fā)現(xiàn)該搜索語句的語義表達(dá)所指向的知識編碼，然后根據(jù)疑問點匹配到答案的知識編碼。
在本發(fā)明的又一方面，提出了一種實現(xiàn)信息搜索的系統(tǒng)，包括一個或多個中央處理器；一個或多個存儲器；其中，所述中央處理器根據(jù)存儲器中的程序運行，以便輸入搜索語句；對所述搜索語句進(jìn)行語法或者語義分析，以獲得該搜索語句的基于知識編碼的語義表達(dá)；在知識庫中匹配該語義表達(dá)，以找到對應(yīng)的答案。
根據(jù)本發(fā)明的實施例，該系統(tǒng)還包括一個或多個計算機可讀的外部存儲介質(zhì)，其中保存有按照所述的方法建立的知識索引。
根據(jù)本發(fā)明的實施例，該系統(tǒng)還包括一個或多個網(wǎng)絡(luò)連接部件。
利用本發(fā)明的搜索方法和系統(tǒng)，可以準(zhǔn)確地回答用戶的查詢，給出精確和簡短的查詢結(jié)果文檔，精確到包含查詢結(jié)果的文檔段落，以節(jié)省系統(tǒng)資源和用戶的時間，改善信息搜索系統(tǒng)的交互體驗。在結(jié)果的覆蓋性方面，用戶可以逐級擴(kuò)大搜索結(jié)果范圍，從而保證不會遺漏所有相關(guān)信息。

圖1示出了根據(jù)現(xiàn)有技術(shù)的信息搜索系統(tǒng)的結(jié)構(gòu)示意圖；圖2示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何進(jìn)行知識編碼的處理過程；圖3示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何建立知識索引的處理過程；圖4示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何進(jìn)行信息搜索的處理過程；圖5示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何控制結(jié)果范圍的處理過程；圖6示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何基于知識精確搜索源文檔的處理過程；圖7示出了用于實現(xiàn)本發(fā)明的方法的精確搜索系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施例方式
下面對照附圖詳細(xì)說明書本發(fā)明的具體實施方式
。
在索引建立過程中，文檔內(nèi)容編碼的準(zhǔn)確程度決定了信息查詢過程中定位目標(biāo)文檔的準(zhǔn)確程度。詞語存在一詞多義和多義詞現(xiàn)象，基于詞語的內(nèi)容編碼方法本質(zhì)上不能達(dá)到精確搜索的要求。因此，精確搜索的基礎(chǔ)是文檔內(nèi)容編碼方法的改進(jìn)。
對文檔內(nèi)容所代表的知識進(jìn)行編碼，能夠解決這個問題。圖2示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何進(jìn)行知識編碼的處理過程。知識編碼包括淺層和深層的知識編碼，淺層知識編碼表現(xiàn)在同義詞和一詞多義方面，同義詞例如“電腦”和“計算機”，雖然是不同的詞，但應(yīng)該被賦予相同的編碼301；一詞多義例如“聯(lián)想”具有兩個含義——“一家電腦公司的名稱”302和“人類的一種思維活動”303，應(yīng)該被賦予不同的編碼。圖2示意了知識編碼的一部分，這種淺層知識編碼的資源又稱為語義資源庫。
在本發(fā)明實施例中，用整型數(shù)字或者長整型數(shù)字來表示不同的語義，因為機器易于識別和處理。如圖2所示，詞語“電腦”和“計算機”都被表示為整數(shù)301；而詞語“聯(lián)想”具有兩個整數(shù)編碼302和303，分別代表前文中提到的兩個含義。
深層知識編碼由淺層知識編碼根據(jù)信息設(shè)備中約定的知識表示模型組合而成，成為具有“對象-特征-特征值”的數(shù)據(jù)結(jié)構(gòu)。計算設(shè)備對這樣的數(shù)據(jù)結(jié)構(gòu)可以通過標(biāo)準(zhǔn)運算進(jìn)行搜索和匹配。例如，“聯(lián)想電腦”在種屬310方面，屬于‘電腦301’類，但是同時在生產(chǎn)廠家方面，屬于‘聯(lián)想(公司)’302?！百谮w都邯鄲”是一句話，其包括主語312‘嬴政321’、謂語313‘出生322’和地點314‘邯鄲323’，并且‘邯鄲323’是‘趙國324’的‘首都315’。這樣，‘聯(lián)想電腦’和“嬴政生于趙都邯鄲”的知識編碼分別用304，305表示。深層知識編碼被存儲于系統(tǒng)中的知識庫，圖2簡化示意了知識庫，隱去了與說明本發(fā)明不相關(guān)的部分。
圖3示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何建立知識索引的處理過程。
本發(fā)明實施例中，索引建立過程是這樣的對于目標(biāo)文檔，首先按照段落進(jìn)行切分401；然后針對每個段落，按照如上所示的方法，逐個對段落內(nèi)容中包含的知識進(jìn)行編碼402；知識編碼存儲在按照“對象-特征-特征值”結(jié)構(gòu)建立起來的知識庫中403、406；在文檔-索引存儲設(shè)備中存儲按照段落切分之后的文檔原文404、407；最后在文檔-索引存儲設(shè)備中存儲知識編碼及對應(yīng)的按照段落切分之后的文檔原文的對應(yīng)關(guān)系405、408。這個過程可以不斷重復(fù)，對每一篇單獨的文檔建立基于知識編碼的索引。
需要說明的是，以上索引建立過程既可以是手工進(jìn)行，也可以由機器自動進(jìn)行，或者半手工、半自動地進(jìn)行，但這與本發(fā)明無關(guān)。
圖4示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何進(jìn)行信息搜索的處理過程。在信息查詢過程，系統(tǒng)采用相同的編碼原則，通過語法、語義分析，得到查詢請求的語義表達(dá)501，502；然后通過一個索引設(shè)備在知識庫中匹配找到對應(yīng)的答案503，504、知識索引和對應(yīng)的文檔原文段落、文檔原文全文，或者抽取出其中的關(guān)鍵詞，調(diào)用標(biāo)準(zhǔn)全文搜索引擎獲得包含相關(guān)關(guān)鍵詞的全部文檔505～511。
根據(jù)本發(fā)明實施例的精確搜索系統(tǒng)，能夠準(zhǔn)確理解用戶的查詢請求，給出正確的答案；只返回目標(biāo)文檔的一部分，這一部分是文檔中的一個段落且包含用戶期望的答案；當(dāng)用戶期望閱讀文檔中其它部分時，系統(tǒng)才給出目標(biāo)文檔的全部；當(dāng)用戶期望閱讀更多包含相同關(guān)鍵詞的文檔時，調(diào)用標(biāo)準(zhǔn)的全文搜索引擎，給出更大范圍的搜索結(jié)果。
圖5示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何控制結(jié)果范圍的處理過程。在本發(fā)明中，用戶與系統(tǒng)就某個查詢請求進(jìn)行交互的過程中，獲得結(jié)果的范圍是逐漸擴(kuò)大的先是直接的、準(zhǔn)確的回答201；然后是包含該答案內(nèi)容的目標(biāo)文檔段落202；然后是目標(biāo)文檔全部203；最后才是所有包含相關(guān)關(guān)鍵詞的文檔204。這樣做更加符合人類獲取信息的心理習(xí)慣，而且能節(jié)省用戶獲取信息所消耗的時間。
圖6示出了用于說明在根據(jù)本發(fā)明實施例的方法中如何基于知識精確搜索源文檔的處理過程。
用戶輸入一個用自然語言表達(dá)的查詢請求，比如“聯(lián)想電腦”和“嬴政出生的地點”。首先，對查詢語句進(jìn)行語法和語義分析，將字符串表達(dá)的含義轉(zhuǎn)換為信息設(shè)備可以理解并自動處理的數(shù)據(jù)結(jié)構(gòu)(即語義表達(dá))。這種轉(zhuǎn)換可以采用基于規(guī)則的方法，或者基于統(tǒng)計的方法，或者基于兩者結(jié)合的方法。圖6表示了經(jīng)過處理形成的語義表達(dá)610、620。因為轉(zhuǎn)換過程中知識編碼原則與索引過程中知識編碼原則一致，所以圖6中的語義表達(dá)與圖2中的語義表達(dá)是相同或相似的。
然后，根據(jù)查詢句的語義表達(dá)中所包含的“特征-特征值”，進(jìn)行匹配，從文檔-索引存儲設(shè)備104中找到被查詢的對象，其分為兩類一類是陳述形式，匹配的結(jié)果是一個對象，如查詢句“聯(lián)想電腦”(語義表達(dá)610)被匹配到文檔-索引存儲設(shè)備104中的索引304。從文檔-索引存儲設(shè)備104中精確定位目標(biāo)文檔段落《聯(lián)想產(chǎn)品報價05年1月》第x段和《聯(lián)想產(chǎn)品報價05年2月》第y段。
另一類是疑問形式，如“嬴政出生的地點”(語義表達(dá)620)，通過“特征-特征值”匹配發(fā)現(xiàn)該表達(dá)指向文檔-索引存儲設(shè)備104中的事件305，并且根據(jù)疑問點621“地點622”可以匹配到答案323。同時，可以精確定位目標(biāo)文檔段落《秦始皇生平》第1段。
以上闡述的是獲得準(zhǔn)確答案201，及精確搜索文檔段落202的方法。當(dāng)用戶期望看到目標(biāo)文檔更多內(nèi)容時，發(fā)出一個操作指令(例如消息“more”)，文檔-索引存儲設(shè)備104查詢到目標(biāo)文檔的全部段落，順序顯示就可以得到目標(biāo)文檔的全文203。
當(dāng)用戶期望看到更多相關(guān)文檔時，發(fā)出一個操作指令(例如消息“more”)，系統(tǒng)對查詢句進(jìn)行泛化，調(diào)用可以返回更多查詢結(jié)果的搜索引擎，獲得相關(guān)文檔204。例如，具體到目前成熟的全文搜索引擎，這種方法可以是提取查詢句中所有實詞，構(gòu)成搜索關(guān)鍵詞，調(diào)用全文搜索引擎，獲得所有包含相關(guān)關(guān)鍵詞的文檔。
圖7是本發(fā)明的精確搜索系統(tǒng)的一個優(yōu)選實施例?；诒景l(fā)明的精確搜索設(shè)備包括一個或多個中央處理器，一個或多個存儲器。中央處理器根據(jù)存儲器中的程序運行(包括按照前文所述方法實現(xiàn)的知識編碼、文檔切分/索引、語法/語義分析、知識匹配、輸出/交互程序)。該設(shè)備還包含一個或多個計算機可讀的外部存儲介質(zhì)，其中保存按照前文所述方法建立的目標(biāo)文檔(按照段落切分)、知識索引、語義資源、以及文檔-索引對應(yīng)關(guān)系。該設(shè)備還包含一個或多個網(wǎng)絡(luò)連接部件，以使本發(fā)明設(shè)備可以跨網(wǎng)絡(luò)運行。
本發(fā)明中，雖然是按照文檔段落進(jìn)行切分和精確搜索，但是本發(fā)明方法不局限于段落級別，同樣適用于按照句子級別進(jìn)行切分和索引，因而實現(xiàn)針對目標(biāo)文檔中句子級的精確搜索。
優(yōu)選實施例中的網(wǎng)絡(luò)連接部件并非基于本發(fā)明的設(shè)備所必需的部件。當(dāng)所有程序和數(shù)據(jù)均運行在單一的物理設(shè)備中時，可以沒有網(wǎng)絡(luò)連接設(shè)備，本發(fā)明同樣適用。
以上所述，僅為本發(fā)明中的具體實施方式
，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉該技術(shù)的人在本發(fā)明所披露的技術(shù)范圍內(nèi)，可輕易想到的變換或替換，都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種建立知識索引的方法，包括將目標(biāo)文檔劃分成多個部分；對各個部分中包含的知識進(jìn)行編碼，以得到相應(yīng)知識的知識編碼；相互對應(yīng)地存儲所述各個部分及其知識編碼。
2.如權(quán)利要求1所述的方法，其特征在于，所述劃分步驟包括按照段落或者句子落劃分目標(biāo)文檔。
3.如權(quán)利要求1所述的方法，其特征在于，所述知識編碼步驟包括按照詞語的含義賦予相應(yīng)的編碼；將具有相同含義的詞語賦予相同的編碼，而將具有多種含義的詞語賦予不同的編碼。
4.如權(quán)利要求3所述的方法，其特征在于，所述知識編碼步驟還包括按照‘對象-特征-特征值’的數(shù)據(jù)結(jié)構(gòu)組合各個詞語的知識編碼。
5.如權(quán)利要求3或4所述的方法，其特征在于，所述知識編碼以整數(shù)來表示。
6.如權(quán)利要求1所述的方法，其特征在于，重復(fù)上述步驟，建立每一篇文檔的知識編碼。
7.一種信息搜索方法，包括步驟輸入搜索語句；對所述搜索語句進(jìn)行語法或者語義分析，以獲得該搜索語句的基于知識編碼的語義表達(dá)；在知識庫中匹配該語義表達(dá)，以找到對應(yīng)的答案。
8.如權(quán)利要求7所述的方法，其特征在于，在用戶不滿意所述答案的情況下，向用戶返回包括該答案的文檔的一部分。
9.如權(quán)利要求8所述的方法，其特征在于，在用戶不滿意所述包括該答案的文檔的一部分的情況下，向用戶返回包括該答案的整個文檔。
10.如權(quán)利要求9所述的方法，其特征在于，在用戶不滿意包括該答案的整個文檔的情況下，利用關(guān)鍵詞搜索，向用戶返回包括關(guān)鍵詞的所有搜索結(jié)果。
11.如權(quán)利要求7所述的方法，其特征在于，對于陳述形式的搜索語句，根據(jù)該搜索語句的語義表達(dá)的“特征-特征值”，匹配到知識編碼中的一個或多個編碼。
12.如權(quán)利要求7所述的方法，其特征在于，對于疑問形式的搜索語句，通過“特征-特征值”匹配來發(fā)現(xiàn)該搜索語句的語義表達(dá)所指向的知識編碼，然后根據(jù)疑問點匹配到答案的知識編碼。
13.一種實現(xiàn)信息搜索的系統(tǒng)，包括一個或多個中央處理器；一個或多個存儲器；其中，所述中央處理器根據(jù)存儲器中的程序運行，以便輸入搜索語句；對所述搜索語句進(jìn)行語法或者語義分析，以獲得該搜索語句的基于知識編碼的語義表達(dá)；在知識庫中匹配該語義表達(dá)，以找到對應(yīng)的答案。
14.如權(quán)利要求13所述的系統(tǒng)，還包括一個或多個計算機可讀的外部存儲介質(zhì)，其中保存有按照權(quán)利要求1所述的方法建立的知識索引。
15.如權(quán)利要求14所述的系統(tǒng)，其特征在于，還包括一個或多個網(wǎng)絡(luò)連接部件。
全文摘要
公開了一種基于知識編碼的精確搜索方法和系統(tǒng)。建立知識索引的方法包括將目標(biāo)文檔劃分成多個部分；對各個部分中包含的知識進(jìn)行編碼，以得到相應(yīng)知識的知識編碼；相互對應(yīng)地存儲所述各個部分及其知識編碼。利用本發(fā)明的搜索方法和系統(tǒng)，可以準(zhǔn)確地回答用戶的查詢，給出精確和簡短的查詢結(jié)果文檔，精確到包含查詢結(jié)果的文檔段落，以節(jié)省系統(tǒng)資源和用戶的時間，改善信息搜索系統(tǒng)的交互體驗。
文檔編號G06F17/30GK101089841SQ20061001224
公開日2007年12月19日申請日期2006年6月14日優(yōu)先權(quán)日2006年6月14日
發(fā)明者王江申請人:聯(lián)想(北京)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王江
技術(shù)所有人：聯(lián)想（北京）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

海關(guān)編碼查詢系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于知識編碼的精確搜索方法和系統(tǒng)的制作方法