專利名稱:全文檢索系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及適合從電子化的龐大的文檔信息之中,利用全文檢索技術(shù)快速檢索符合指定的檢索條件的文檔的全文檢索系統(tǒng)及方法。
背景技術(shù):
從電子化的龐大的文檔信息之中,檢索符合指定的檢索條件的文檔的檢索系統(tǒng),以前已經(jīng)開發(fā)很多種。作為在這種檢索系統(tǒng)中應(yīng)用的文檔檢索的代表性的檢索方法,公知的有基于N-gram(N連字串)索引的檢索方法、或者基于詞素(morpheme)索引的檢索方法?;贜-gram索引的檢索方法,用于全文檢索中。另一方面,基于詞素索引的檢索方法用于自然語言檢索(概念檢索)中。這些檢索方法的概要如下。
<基于N-gram索引的檢索方法>
構(gòu)成文檔的字符串,在將字符位置每1個字符錯開的同時(shí)分割(劃分)為長度N的字符串(字串(gram))。結(jié)果,在文檔中出現(xiàn)的全部字符,作為長度N的連續(xù)字符串(字串)登記到索引。N的值可預(yù)先確定。在檢索時(shí)也一樣,作為檢索條件的檢索字符串(檢索詞),分割為長度N的字符串(字串)的群。于是,可以利用下述的步驟,通過從索引得到相同字符串出現(xiàn)的信息而進(jìn)行檢索。
在基于N-gram索引的檢索(N-gram檢索)中,首先進(jìn)行一次檢索。在此一次檢索中,只以有無與由檢索詞所分割的長度N的字符串符合的字符串(即有無命中(hit))來選出候選文檔。之后進(jìn)行二次檢索。在此二次檢索中,通過檢查各詞的相鄰關(guān)系,從選出的候選文檔中選中包括檢索詞的文檔。這樣,在基于N-gram索引的檢索中,通過一次檢索和二次檢索兩個階段的檢索,可以實(shí)現(xiàn)無漏檢的全文檢索。
已知,為了提高一次檢索的檢索精度,可以加大N-gram的N的值。然而,由于加大N的值時(shí),索引的規(guī)模會變得極大,檢索有可能需要大量時(shí)間。另一方面,在減小N的值時(shí),檢索干擾增加,檢索精度下降。由于二次檢索是以命中的全部文檔作為對象,所以命中數(shù)越多(與實(shí)際干擾的多少無關(guān)),效率越低。
<基于詞素索引的檢索方法>
通過對文檔的分析,從該文檔中,在具有意義的最小語言單位(詞素)的范圍內(nèi),提取應(yīng)該加索引的詞素(單詞)。對提取的每個詞素分配文檔信息。分配了此文檔信息的詞素,登記到索引。在檢索時(shí)也一樣,將檢索詞分割為詞素。于是,可以利用下述的步驟,通過從索引得到與相同詞素符合的文檔信息而進(jìn)行檢索。
在基于詞素索引的檢索(詞素檢索)中,索引的容量很小就足夠,并且可進(jìn)行快速檢索。其理由是與N-gram不同,在各個詞素之間沒有重復(fù)的部分。但是,在作為檢索對象的文檔和檢索詞之間詞素不一致時(shí),會發(fā)生漏檢。
這樣,在基于N-gram索引的檢索中,無漏檢,并且一次檢索速度快。然而,在基于N-gram索引的檢索中,用來去除干擾的二次檢索的速度慢。另一方面,在基于詞素索引的檢索中,可以進(jìn)行快速檢索,但有可能發(fā)生漏檢。就是說,在全文檢索中使用的基于N-gram索引的檢索方法和在自然語言檢索中使用的基于詞素索引的檢索方法各有長短。
于是,比如,在日本特開2001-092831號公報(bào)(Jpn.Pat.Appln.KOKAIPublication No.2001-092831)中記述有發(fā)揮全文檢索和自然語言檢索的長處,用來實(shí)現(xiàn)漏檢少的文檔檢索的文檔檢索技術(shù)(以下稱其為第1先行技術(shù))。此第1先行技術(shù)的特征在于,執(zhí)行全文檢索和自然語言檢索兩種檢索并將兩種檢索的結(jié)果匯總(結(jié)合)這一點(diǎn)。在此第1先行技術(shù)中,從全文檢索的檢索結(jié)果中,利用自然語言檢索選中檢索結(jié)果。另外,在第1先行技術(shù)中,與此相反,也可以從利用自然語言檢索(粗略的自然語言檢索)得到的檢索結(jié)果中,利用全文檢索選中檢索結(jié)果。在此場合,可從利用自然語言檢索得到的檢索結(jié)果中檢索包括指定文本的文檔。
這樣,第1先行技術(shù)的特征在于,將全文檢索和自然語言檢索作為各自獨(dú)立的檢索處理并將兩種檢索的結(jié)果匯總這一點(diǎn)。就是說,在第1先行技術(shù)中,從利用全文檢索及自然語言檢索的任一方所得到的檢索結(jié)果中,通過該全文檢索及自然語言檢索的另一方,選中檢索結(jié)果。因此,在第1先行技術(shù)中,必須執(zhí)行全文檢索和自然語言檢索。不過,全文檢索與自然語言檢索相比,其速度慢。因此,在將基于N-gram索引的檢索方法應(yīng)用于全文檢索時(shí),該全文檢索需要基于N-gram索引的總計(jì)的檢索執(zhí)行時(shí)間(一次檢索時(shí)間+二次檢索時(shí)間)。就是說,第1先行技術(shù),不具有用來消除全文檢索的缺點(diǎn)使該全文檢索本身快速化的結(jié)構(gòu)。因此,第1先行技術(shù)在檢索命中數(shù)多的場合就出現(xiàn)問題。
另一方面,在日本特開2003-308335號公報(bào)(Jpn.Pat.Appln.KOKAIPublication No.2003-308335)中記述有,相應(yīng)于作為檢索條件的檢索式,使用基于N-gram索引的全文檢索或基于詞素索引的檢索中的一個的文檔檢索技術(shù)(以下稱其為第2先行技術(shù))。在此第2先行技術(shù)中,預(yù)先評定(判定)檢索式是關(guān)鍵詞型還是“自然語言型(概念檢索)”。如果檢索式是關(guān)鍵詞型,就進(jìn)行全文檢索,如果是自然語言型,就進(jìn)行基于詞素索引的檢索。
在此第2先行技術(shù)中,在判定檢索式是關(guān)鍵詞型的場合,檢索處理需要基于N-gram索引的總計(jì)的檢索執(zhí)行時(shí)間(一次檢索的執(zhí)行時(shí)間+二次檢索的執(zhí)行時(shí)間)。所以,在第2先行技術(shù)中也與第1先行技術(shù)一樣,不能有助于全文檢索本身快速化。
如上所述,在第1先行技術(shù)中,必定執(zhí)行全文檢索。并且,在第2先行技術(shù)中,在檢索式是關(guān)鍵詞型時(shí)也執(zhí)行基于N-gram索引的全文檢索。這一基于N-gram索引的全文檢索需要大量的時(shí)間。可是,第1及第2先行技術(shù)中的任何一個都不具有用來使全文檢索本身快速化的結(jié)構(gòu)。
發(fā)明內(nèi)容
本發(fā)明的目的在于在一定程度上確保檢索精度,并可以快速執(zhí)行全文檢索。
根據(jù)本發(fā)明的一種實(shí)施方式,可以提供一種全文檢索系統(tǒng),其構(gòu)成包括利用按照檢索條件語句的一次檢索和針對該一次檢索的結(jié)果的二次檢索,執(zhí)行基于N-gram索引的檢索的第1檢索單元;對上述檢索條件語句進(jìn)行詞素分析的詞素分析單元;以及按照利用上述詞素分析單元所得到的詞素分析結(jié)果,執(zhí)行基于詞素索引的詞素檢索的第2檢索單元。此全文檢索系統(tǒng)具有判定作為上述基于N-gram索引的一次檢索的命中數(shù)的第1命中數(shù)和作為上述基于詞素索引的詞素檢索的命中數(shù)的第2命中數(shù)的近似度的近似度判定單元;以及在利用上述近似度判定單元判定為上述第1命中數(shù)和上述第2命中數(shù)近似時(shí),以省略上述基于N-gram索引的二次檢索的方式控制上述第1檢索單元,采用上述一次檢索的結(jié)果或上述詞素檢索的結(jié)果作為檢索結(jié)果的全文檢索執(zhí)行控制單元。
圖1為示出本發(fā)明的一實(shí)施方式的全文檢索系統(tǒng)的構(gòu)成的框圖。
圖2為示出同一實(shí)施方式的快速檢索處理的步驟的流程圖。
圖3為示出檢索界面畫面的一例的示圖。
圖4為示出檢索結(jié)果畫面的一例的示圖。
圖5為示出上述實(shí)施方式的第1變形例的快速檢索處理的步驟的流程圖。
圖6為示出上述實(shí)施方式的第2變形例的快速檢索處理的步驟的流程圖。
具體實(shí)施例方式
下面參照附圖對本發(fā)明的一實(shí)施方式進(jìn)行說明。圖1為示出本發(fā)明的一實(shí)施方式的全文檢索系統(tǒng)的構(gòu)成的框圖。此全文檢索系統(tǒng),是根據(jù)來自用戶的檢索要求,進(jìn)行基于N-gram索引的檢索(即全文檢索)及基于詞素索引的檢索(即自然語言檢索)的系統(tǒng)。其中,在圖1的全文檢索系統(tǒng)中,在滿足一定的條件的場合,全文檢索的一部分(基于N-gram索引的二次檢索)可以省略。
圖1的全文檢索系統(tǒng)的構(gòu)成包括用戶界面11、檢索執(zhí)行/應(yīng)答服務(wù)器12、N-gram檢索引擎13、N-gram索引數(shù)據(jù)庫14、詞素分析機(jī)構(gòu)15、詞素檢索引擎16、詞素索引數(shù)據(jù)庫17以及全文檢索執(zhí)行控制機(jī)構(gòu)18。
用戶界面11,具有接收來自用戶的檢索要求并向用戶提示檢索結(jié)果的界面功能。在本實(shí)施方式中,用戶界面11,構(gòu)成全文檢索系統(tǒng)的一部分。然而,用戶界面11,也可以不是全文檢索系統(tǒng)的構(gòu)成要素。比如,用戶界面11,也可以是設(shè)置在介由通信線路(比如,網(wǎng)絡(luò))與圖1的全文檢索系統(tǒng)相連接的客戶終端中的構(gòu)成。
檢索執(zhí)行/應(yīng)答服務(wù)器12,將由用戶界面11接收的表示檢索要求的檢索條件傳達(dá)給N-gram檢索引擎13及詞素分析機(jī)構(gòu)15。此處,假設(shè)使用字符串(檢索字符串),即檢索條件語句,作為檢索條件。將利用檢索執(zhí)行/應(yīng)答服務(wù)器12、N-gram檢索引擎13及詞素分析機(jī)構(gòu)15得到的檢索結(jié)果通過用戶界面11向用戶提示。
N-gram檢索引擎13,使用存儲于N-gram索引數(shù)據(jù)庫14中的N-gram索引進(jìn)行全文檢索。N-gram檢索引擎13,包括一次檢索執(zhí)行單元131和二次檢索執(zhí)行單元132。一次檢索執(zhí)行單元131,利用由檢索條件語句得到的長度N的字符串的群(即依照檢索條件語句)進(jìn)行基于N-gram索引的一次檢索。長度N的字符串的群,是通過把檢索條件語句邊將字符位置每1個字符錯開邊分割(劃分)為長度N的字符串(字串)而得到的。二次檢索執(zhí)行單元132,進(jìn)行基于N-gram索引的二次檢索(針對一次檢索的結(jié)果的二次檢索)。存儲于N-gram索引數(shù)據(jù)庫14中的N-gram索引用于,把可以成為檢索對象的所有文檔中所出現(xiàn)的全部字符作為預(yù)先確定的長度N的連續(xù)字符串(字串)進(jìn)行管理。在此N-gram索引中,對每個長度N的連續(xù)字符串,登記表示該字符串存在的文檔的位置的位置信息。
詞素分析機(jī)構(gòu)15,對檢索條件(檢索條件語句)進(jìn)行詞素分析。詞素檢索引擎16,按照由詞素分析機(jī)構(gòu)15得到的詞素分析結(jié)果,利用存儲于詞素索引數(shù)據(jù)庫17中的詞素索引進(jìn)行詞素檢索。在存儲于詞素索引數(shù)據(jù)庫中的詞素索引中,登記包含對于分配給從可以成為檢索對象的文檔中提取的每一個詞素的表示該詞素存在的文檔的位置的位置信息的文檔信息。
全文檢索執(zhí)行控制機(jī)構(gòu)18,為了快速執(zhí)行利用N-gram索引的全文檢索,按照設(shè)定信息文件19的設(shè)定內(nèi)容來控制N-gram檢索引擎13及詞素檢索引擎16。在設(shè)定信息文件19中,預(yù)先設(shè)定利用全文檢索執(zhí)行控制機(jī)構(gòu)18的全文檢索的執(zhí)行的控制所必需的條件等的信息。設(shè)定信息文件19,可以由CD-ROM、存儲卡等存儲媒體提供。另外,也可以經(jīng)網(wǎng)絡(luò)將設(shè)定信息文件19下載到圖1的全文檢索系統(tǒng)中。
全文檢索執(zhí)行控制機(jī)構(gòu)18,包括詞素分析結(jié)果判定單元181、一次檢索結(jié)果數(shù)判定單元182以及近似度判定單元183。詞素分析結(jié)果判定單元181,根據(jù)利用詞素分析機(jī)構(gòu)15得到的對檢索條件語句的詞素分析結(jié)果,確定應(yīng)該執(zhí)行基于詞素索引的檢索(即詞素檢索)或基于N-gram索引的二次檢索中的哪一個。一次檢索結(jié)果數(shù)判定單元182,根據(jù)基于N-gram索引的一次檢索的結(jié)果,確定是否應(yīng)該執(zhí)行基于N-gram索引的二次檢索。檢索結(jié)果數(shù)近似度判定單元183,根據(jù)基于N-gram索引的一次檢索的結(jié)果和詞素檢索結(jié)果,確定是否應(yīng)該執(zhí)行基于N-gram索引的二次檢索。
下面參照圖2的流程圖,對在圖1的全文檢索系統(tǒng)中執(zhí)行的快速檢索模式中的全文檢索處理(快速檢索處理)的步驟進(jìn)行說明。另外,在本實(shí)施方式中,作為檢索模式,除了上述快速檢索模式之外,還準(zhǔn)備有標(biāo)準(zhǔn)檢索模式。應(yīng)用快速檢索模式和標(biāo)準(zhǔn)檢索模式中的哪一個檢索模式,如后所述,可以由用戶選擇??焖贆z索模式的特征,如下所述,在于在滿足一定的條件的場合,可以省略基于N-gram索引的二次檢索這一點(diǎn)。另一方面,標(biāo)準(zhǔn)檢索模式的特征在于,在任何場合都一直進(jìn)行到基于N-gram索引的二次檢索為止這一點(diǎn)。
下面,假設(shè)希望進(jìn)行全文檢索的用戶,通過利用客戶終端進(jìn)行輸入操作,從該終端對圖1的全文檢索系統(tǒng)發(fā)送指定全文檢索的檢索要求。用戶界面11,接收到這一檢索要求,提取該檢索要求所表示的檢索條件。用戶界面11,將已提取的檢索條件發(fā)送到檢索執(zhí)行/應(yīng)答服務(wù)器12。另外,用戶界面11,將檢索要求所表示的檢索類別(比如,全文檢索)通知檢索執(zhí)行/應(yīng)答服務(wù)器12。檢索執(zhí)行/應(yīng)答服務(wù)器12,在指定全文檢索的場合,為了執(zhí)行全文檢索,將從用戶界面11傳來的檢索條件發(fā)送到N-gram檢索引擎13。
N-gram檢索引擎13內(nèi)的一次檢索執(zhí)行單元131,接收從檢索執(zhí)行/應(yīng)答服務(wù)器12發(fā)送來的檢索條件。在本實(shí)施方式中,此檢索條件是檢索條件語句(檢索字符串)。一次檢索執(zhí)行單元131,按照此檢索條件語句,利用存儲于N-gram索引數(shù)據(jù)庫14中的N-gram索引,執(zhí)行公知的一次檢索(步驟S1)。一次檢索執(zhí)行單元131,在N-gram檢索引擎13內(nèi)部保持一次檢索結(jié)果。另外,一次檢索執(zhí)行單元131,將在一次檢索中命中的數(shù)目(命中數(shù))N1與檢索條件語句一起發(fā)送給全文檢索執(zhí)行控制機(jī)構(gòu)18。
全文檢索執(zhí)行控制機(jī)構(gòu)18內(nèi)的一次檢索結(jié)果數(shù)判定單元182,將從一次檢索執(zhí)行單元131發(fā)送來的命中數(shù)N1與基準(zhǔn)命中數(shù)(命中數(shù)閾值)K進(jìn)行比較,判定其大小(步驟S2)。此命中數(shù)閾值K,在設(shè)定信息文件19中設(shè)定。如果命中數(shù)N1小于等于閾值K,則全文檢索執(zhí)行控制機(jī)構(gòu)18,要求N-gram檢索引擎13進(jìn)行二次檢索。閾值K,如后所述,可以通過用戶操作進(jìn)行改變(調(diào)整)。
與此相對,在命中數(shù)N1大于閾值K的場合,全文檢索執(zhí)行控制機(jī)構(gòu)18,在將命中數(shù)N1保持在內(nèi)部之后,將檢索條件語句發(fā)送到詞素分析機(jī)構(gòu)15。詞素分析機(jī)構(gòu)15,在接收到來自全文檢索執(zhí)行控制機(jī)構(gòu)18的檢索條件語句時(shí),就對該檢索條件語句進(jìn)行詞素分析(步驟S3)。然后,詞素分析機(jī)構(gòu)15,將詞素分析的結(jié)果返回給全文檢索執(zhí)行控制機(jī)構(gòu)18。
全文檢索執(zhí)行控制機(jī)構(gòu)18內(nèi)的詞素分析結(jié)果判定單元181,對由詞素分析機(jī)構(gòu)15得到的詞素分析結(jié)果進(jìn)行判定(步驟S4)。就是說,詞素分析結(jié)果判定單元181,判定是否可以將檢索條件語句分割為可以進(jìn)行基于詞素索引的檢索(詞素檢索)的單詞。所謂可以進(jìn)行詞素檢索的單詞,指的是其本身具有意義的單詞(比如,以名詞、動詞、形容詞為代表的獨(dú)立詞)。如果檢索條件語句不能分割為可以進(jìn)行詞素檢索的單詞,則全文檢索執(zhí)行控制機(jī)構(gòu)18要求N-gram檢索引擎13進(jìn)行二次檢索。
與此相對,在檢索條件語句可以分割為可以進(jìn)行詞素檢索的單詞的場合,詞素分析結(jié)果判定單元181,將利用詞素分析機(jī)構(gòu)15得到的詞素分析的結(jié)果發(fā)送到詞素檢索引擎16。詞素檢索引擎16,在從詞素分析結(jié)果判定單元181接收到詞素分析結(jié)果時(shí),就利用該詞素分析結(jié)果和詞素索引數(shù)據(jù)庫17,進(jìn)行公知的詞素檢索(步驟S5)。然后,詞素檢索引擎16,將詞素檢索的結(jié)果保持在內(nèi)部。另外,詞素檢索引擎16,將在詞素檢索中命中的數(shù)目(命中數(shù))N2發(fā)送到全文檢索執(zhí)行控制機(jī)構(gòu)18。
全文檢索執(zhí)行控制機(jī)構(gòu)18內(nèi)的檢索結(jié)果數(shù)近似度判定單元183,判定一次檢索中的命中數(shù)(第1命中數(shù))N1和詞素檢索中的命中數(shù)(第2命中數(shù))N2是否近似(N1N2)(步驟S6)。命中數(shù)N1,表示在利用N-gram檢索引擎13內(nèi)的一次檢索執(zhí)行單元131進(jìn)行的一次檢索中命中的數(shù)目,如上所述,保持在全文檢索執(zhí)行控制機(jī)構(gòu)18的內(nèi)部。命中數(shù)N2,表示在利用詞素檢索引擎16的詞素檢索中命中的數(shù)目,從該詞素檢索引擎16送出。在步驟S6中,檢索結(jié)果數(shù)近似度判定單元183,判定N1和N2的近似度(%)是否在近似比率(近似度閾值)P(%)以內(nèi)。此近似比率P,表示用作近似度判定的基準(zhǔn)的近似度,在設(shè)定信息文件19中設(shè)定。在本實(shí)施方式中,N1和N2的近似度,以|N1-N2|×100%/N1或|N1-N2|×100%/N2表示。就是說,N1和N2的近似度,以N1和N2的差分的絕對值與N1或N2的比率(%)表示。此近似度越小,就表示N1和N2越近似。近似比率P,如后所述,可以通過用戶操作進(jìn)行調(diào)整。
檢索結(jié)果數(shù)近似度判定單元183,在N1和N2的近似度超過P的場合,就判定N1和N2不近似。在此場合,全文檢索執(zhí)行控制機(jī)構(gòu)18,要求N-gram檢索引擎13進(jìn)行二次檢索。
與此相對,在N1和N2的近似度在P以內(nèi)的場合,檢索結(jié)果數(shù)近似度判定單元183,就判定N1和N2近似。在此場合,全文檢索執(zhí)行控制機(jī)構(gòu)18,不要求N-gram檢索引擎13進(jìn)行二次檢索。這一點(diǎn),與全文檢索執(zhí)行控制機(jī)構(gòu)18以省略基于N-gram索引的二次檢索省略的方式控制N-gram檢索引擎13等價(jià)。然后,全文檢索執(zhí)行控制機(jī)構(gòu)18,確定使N-gram檢索或詞素檢索中的哪一個優(yōu)先。這一確定的必要條件(采用條件),在設(shè)定信息文件19中設(shè)定。這一采用條件,如后所述,可以通過用戶操作進(jìn)行調(diào)整。
如果使N-gram檢索優(yōu)先,則全文檢索執(zhí)行控制機(jī)構(gòu)18,要求N-gram檢索引擎13將一次檢索結(jié)果返回到檢索執(zhí)行/應(yīng)答服務(wù)器12。另一方面,在使詞素檢索優(yōu)先的場合,全文檢索執(zhí)行控制機(jī)構(gòu)18,要求詞素檢索引擎16將詞素檢索結(jié)果返回到檢索執(zhí)行/應(yīng)答服務(wù)器12。就是說,全文檢索執(zhí)行控制機(jī)構(gòu)18,使利用N-gram檢索引擎13(內(nèi)的一次檢索執(zhí)行單元131)得到的一次檢索的結(jié)果或利用詞素檢索引擎16得到的詞素檢索的結(jié)果,從該N-gram檢索引擎13或詞素檢索引擎16返回到檢索執(zhí)行/應(yīng)答服務(wù)器12(步驟S7)。此處,一次檢索結(jié)果,保持在N-gram檢索引擎13的內(nèi)部。另外,詞素檢索結(jié)果,保持在詞素檢索引擎16的內(nèi)部。
檢索執(zhí)行/應(yīng)答服務(wù)器12,在從全文檢索執(zhí)行控制機(jī)構(gòu)18或詞素檢索引擎16接收到一次檢索結(jié)果或詞素檢索結(jié)果時(shí),就將該檢索結(jié)果經(jīng)由用戶界面11(及檢索應(yīng)用程序)通知用戶。在此檢索結(jié)果中附加表示通過什么判定來執(zhí)行檢索的信息。
此處,對條件a1、a2及a3的定義如下。
a1基于N-gram索引的一次檢索中的命中數(shù)N1超過命中數(shù)閾值K(N1>K)。
a2可以將檢索條件語句分割為可以進(jìn)行詞素檢索的單詞。
a3基于N-gram索引的一次檢索中的命中數(shù)N1和詞素檢索中的命中數(shù)N2近似(N1N2)。
從上述說明可知,在本實(shí)施方式中,在條件a1、a2及a3全部成立的場合,即在步驟S2、S4及S6中的判定結(jié)果全部為“是”的場合,基于N-gram索引的二次檢索的執(zhí)行可以省略。在此場合,作為對檢索要求的檢索結(jié)果,可采用一次檢索結(jié)果或詞素檢索結(jié)果。
條件a3的特征在于,作為用來判定是否可以省略二次檢索的執(zhí)行的評定值,使用基于詞素索引的檢索的命中數(shù)N1及基于N-gram索引的一次檢索的命中數(shù)N2這一點(diǎn)。此處,在N1和N2近似時(shí),就是說,上述3個條件a1、a2及a3中只要條件a3滿足時(shí),即使是省略基于N-gram索引的二次檢索的執(zhí)行,也可以確保一定程度的檢索精度。
于是,在上述3個條件a1、a2及a3中至少條件a3成立的場合,省略基于N-gram索引的二次檢索的執(zhí)行也沒有關(guān)系。在此場合,也可以在抑制檢索精度下降的同時(shí),通過省略基于N-gram索引的二次檢索,實(shí)現(xiàn)全文檢索的快速化。但是,在上述條件a1不成立的場合,就是說,基于N-gram索引的一次檢索的命中數(shù)未達(dá)到命中數(shù)閾值K的場合,即使是進(jìn)行基于N-gram索引的二次檢索,對性能的影響也小。因此,在條件a1不成立的場合,省略二次檢索的好處很少。
條件a2,在可以將檢索條件語句分割為可以進(jìn)行詞素檢索的單詞的場合成立??梢韵胂?,由于這一條件a2成立,對于詞素分析結(jié)果和包含于詞素索引中的詞素,單詞的分割方法在很多情況下相同。所以,在利用此時(shí)的詞素分析結(jié)果進(jìn)行基于詞素索引的詞素檢索的場合,在一定程度上可以保證作為評定值的詞素檢索的結(jié)果(命中數(shù)N2)的精度(可靠性)。這一點(diǎn),表示在條件a2成立的場合,也可以在一定程度上保證包含命中數(shù)N2的條件a3是否成立的判定(步驟S6的判定)的精度。相反,在條件2不成立時(shí),條件a3成立與否的判定的可靠性降低。所以,優(yōu)選是如本實(shí)施方式這樣,在條件a1、a2及a3全部成立的場合,省略基于N-gram索引的二次檢索的執(zhí)行。
此外,在本實(shí)施方式中,N-gram檢索引擎13內(nèi)的二次檢索執(zhí)行單元132,只在全文檢索執(zhí)行控制機(jī)構(gòu)18要求進(jìn)行二次檢索的場合,對基于N-gram索引的一次檢索的結(jié)果執(zhí)行二次檢索(步驟S8)。此處,對條件b1、b2及b3的定義如下。
b1基于N-gram索引的一次檢索中的命中數(shù)N1小于等于命中數(shù)閾值K。
b2不可以將檢索條件語句分割為可以進(jìn)行詞素檢索的單詞。
b3基于N-gram索引的一次檢索中的命中數(shù)N1和詞素檢索中的命中數(shù)N2不近似。
在條件b1、b2及b3中的至少一個成立的場合,即在步驟S2、S4及S6中的判定結(jié)果至少一個為“否”的場合,全文檢索執(zhí)行控制機(jī)構(gòu)18要求N-gram檢索引擎13進(jìn)行二次檢索。在上述條件b1成立的場合,即使是為了確保足夠高的檢索精度進(jìn)行基于N-gram索引的二次檢索,對檢索速度(檢索執(zhí)行時(shí)間)的不利影響也很小。另一方面,在上述條件b2或b3成立的場合,只利用基于詞素索引的檢索(詞素檢索)或基于N-gram索引的一次檢索,不保證可以確保一定程度的檢索精度。在此場合,在本實(shí)施方式中,雖然檢索速度降低,但為了確保足夠高的檢索精度,進(jìn)行基于N-gram索引的二次檢索。
此外,在本實(shí)施方式中,用戶界面11具有第1檢索界面及第2檢索界面(未圖示)。第1檢索界面,用于使用戶選擇全文檢索的精度。此精度與檢索模式相對應(yīng)。就是說,第1檢索界面,用于使用戶選擇快速檢索模式及標(biāo)準(zhǔn)檢索模式之中的某一種應(yīng)用于全文檢索。第2檢索界面,用于使用戶指定在執(zhí)行上述快速檢索之際使用的調(diào)整參數(shù)。用戶界面11,向用戶提示用來實(shí)現(xiàn)這些第1及第2檢索界面的檢索界面畫面。
圖3示出在指定全文檢索的場合的檢索界面畫面的一例。此檢索界面畫面是檢索執(zhí)行畫面之一。檢索界面畫面,除了檢索條件域(field)31和檢索按鈕32之外,還包括檢索精度選擇區(qū)33和調(diào)整參數(shù)區(qū)34。檢索條件域31,用于通過用戶的輸入操作來指定(輸入),比如,關(guān)鍵詞(檢索字符串)作為檢索條件。檢索按鈕32,用于用戶指示圖1的全文檢索系統(tǒng)執(zhí)行檢索。
在檢索精度選擇區(qū)33中配置有“快速”選擇按鈕331和“標(biāo)準(zhǔn)”選擇按鈕332。“快速”選擇按鈕331,用于通過用戶的輸入操作指示圖1的全文檢索系統(tǒng)使用快速檢索模式?!皹?biāo)準(zhǔn)”選擇按鈕332,用于通過用戶的輸入操作指示圖1的全文檢索系統(tǒng)使用標(biāo)準(zhǔn)檢索模式。
在調(diào)整參數(shù)區(qū)34中配置有命中數(shù)域341、近似比率域342和采用條件域343。命中數(shù)域341用于通過用戶的輸入操作指定命中數(shù)閾值(作為基準(zhǔn)的命中數(shù))K。另一方面,近似比率域342用于通過用戶的輸入操作指定近似比率(近似度閾值)P。另外,采用條件域343用于通過用戶的輸入操作指定采用條件。命中數(shù)閾值K、近似比率P及采用條件各個分別稱為調(diào)整參數(shù)。
檢索界面畫面在最初顯示的狀態(tài)(即初始檢索界面畫面)中,在域341、342及343中顯示命中數(shù)閾值K、近似比率P及采用條件的各個默認(rèn)值。這些命中數(shù)閾值K、近似比率P及采用條件的各個默認(rèn)值,預(yù)先在設(shè)定信息文件19中設(shè)定(保存)。如果用戶使用域341、342及343指定調(diào)整參數(shù)(命中數(shù)閾值K、近似比率P及采用條件),則優(yōu)先使用所指定的調(diào)整參數(shù)。與此相對,用戶不使用域341、342及343指定調(diào)整參數(shù)時(shí),使用在設(shè)定信息文件19中保存的默認(rèn)值。
下面對使用“標(biāo)準(zhǔn)”選擇按鈕332、“快速”選擇按鈕331、命中數(shù)域341、近似比率域342及采用條件域343分別指定標(biāo)準(zhǔn)檢索模式、快速檢索模式、命中數(shù)閾值K、近似比率P及采用條件的場合予以說明。
<標(biāo)準(zhǔn)檢索模式>
在選擇“標(biāo)準(zhǔn)”選擇按鈕332指示進(jìn)行檢索的場合,執(zhí)行標(biāo)準(zhǔn)檢索模式的全文檢索處理(標(biāo)準(zhǔn)檢索處理)。在此,進(jìn)行基于N-gram索引的檢索(一次檢索和二次檢索)。在此場合,檢索結(jié)果完全,但檢索速度降低。
<快速檢索模式>
另一方面,在選擇“快速”選擇按鈕331指示進(jìn)行檢索的場合,執(zhí)行快速檢索模式的全文檢索處理(快速檢索處理)。在此,進(jìn)行按照上述圖2的流程圖的檢索。于是,在基于N-gram索引的一次檢索的結(jié)果和基于詞素索引的檢索的結(jié)果近似的場合,可以在確保一定程度的檢索精度的同時(shí),進(jìn)行快速檢索。
這樣,借助在檢索界面畫面中配置的“標(biāo)準(zhǔn)”選擇按鈕332或“快速”選擇按鈕331,可由用戶指定標(biāo)準(zhǔn)檢索或快速檢索中的任何一方而反映用戶對檢索速度優(yōu)先或檢索精度優(yōu)先的意愿。
<命中數(shù)閾值K>
首先,通過用戶的輸入操作,使用命中數(shù)域341指定命中數(shù)閾值K。在此場合,在步驟S1中,判定基于N-gram索引的一次檢索的命中數(shù)N1是否超過指定的命中數(shù)閾值K。此處,假設(shè)命中數(shù)N1超過命中數(shù)閾值K,在此場合,就作為在全文檢索系統(tǒng)中可以省略基于N-gram索引的二次檢索的多個條件中的一個(條件a1)成立而進(jìn)行處理。另一方面,在命中數(shù)N1不到命中數(shù)閾值K的場合,對基于N-gram索引的一次檢索的結(jié)果進(jìn)行二次檢索。其理由如下。首先,在基于N-gram索引的一次檢索中的命中數(shù)N1少的場合,即使是進(jìn)行二次檢索,對全文檢索系統(tǒng)的檢索速度的不利影響也很小。于是,在此場合進(jìn)行二次檢索。通過此二次檢索,可求得精度高的完全的檢索結(jié)果。
這樣,由于借助配置在檢索界面畫面中的命中數(shù)域341,用戶可以指定命中數(shù)閾值(作為基準(zhǔn)的命中數(shù))K,所以在快速檢索處理中用戶可以進(jìn)行相應(yīng)于環(huán)境的調(diào)整。
<近似比率P>
首先,通過用戶的輸入操作,可使用近似比率域342指定近似比率P。在此場合,在步驟S6中,判定基于N-gram索引的一次檢索中的命中數(shù)N1和基于詞素索引的檢索的命中數(shù)N2的近似度是否小于指定的近似比率P。就是說,判定命中數(shù)N1和命中數(shù)N2是否近似。如果命中數(shù)N1和命中數(shù)N2近似,就作為在全文檢索系統(tǒng)中可以省略基于N-gram索引的二次檢索的多個條件中的一個(條件a3)成立而進(jìn)行處理。另一方面,在上述近似度超過上述近似比率P的場合,即命中數(shù)N1和命中數(shù)N2不近似時(shí),對基于N-gram索引的一次檢索的結(jié)果進(jìn)行二次檢索(步驟S8)。就是說,在基于N-gram索引的一次檢索的結(jié)果與基于詞素索引的檢索(詞素檢索)的結(jié)果相差懸殊的場合,可以認(rèn)為該一次檢索及詞素檢索的檢索精度很差。在此場合,雖然檢索速度低,但為了確保足夠高的檢索精度,可進(jìn)行基于N-gram索引的二次檢索。
這樣,由于借助配置在檢索界面畫面中的近似比率域342,用戶可以指定近似比率(作為基準(zhǔn)的近似度)P,所以在快速檢索處理中可以進(jìn)行相應(yīng)于檢索條件語句或作為檢索的對象的文檔群的特征的調(diào)整。
采用條件在命中數(shù)N1和N2近似的場合,采用基于N-gram索引的一次檢索的結(jié)果和基于詞素索引的檢索的結(jié)果中的任何一個都可以獲得合適的檢索結(jié)果。然而,在由對檢索條件語句(關(guān)鍵詞)進(jìn)行詞素分析的結(jié)果所得到的單詞數(shù)于等于某一單詞數(shù)(最小單詞數(shù))的場合,如下所述,基于詞素索引的檢索的一方得到更高精度的檢索結(jié)果的可能性高。首先,將通過對檢索條件語句進(jìn)行詞素分析而分割的單詞數(shù)稱為分割單詞數(shù)。在此分割單詞數(shù)少(比如,1單詞)的場合,可以期待幾乎不存在詞素檢索的漏檢。因此,在分割單詞數(shù)少的場合,可以認(rèn)為詞素檢索的結(jié)果一方比基于N-gram索引的一次檢索的結(jié)果的精度高。
于是,在本實(shí)施方式中,導(dǎo)入最小單詞數(shù)作為分割單詞數(shù)的基準(zhǔn)。此最小單詞數(shù),表示用來確定采用基于N-gram索引的一次檢索的結(jié)果或基于詞素索引的檢索的結(jié)果中的哪一個的條件(采用條件)。就是說,最小單詞數(shù),表示用來確定是使N-gram檢索優(yōu)先還是使詞素檢索優(yōu)先的采用條件。此處,通過用戶的輸入操作,可以使用采用條件域343指定采用條件(最小單詞數(shù))。
全文檢索執(zhí)行控制機(jī)構(gòu)18,在步驟S7中,根據(jù)作為此采用條件的最小單詞數(shù)和上述分割單詞數(shù),確定采用基于N-gram索引的一次檢索的結(jié)果或詞素檢索的結(jié)果中的哪一個作為檢索結(jié)果。此處,在分割單詞數(shù)少于等于最小單詞數(shù)的場合,全文檢索執(zhí)行控制機(jī)構(gòu)18,判斷詞素檢索的結(jié)果一方比基于N-gram索引的一次檢索的結(jié)果的精度高。在此場合,全文檢索執(zhí)行控制機(jī)構(gòu)18,使詞素檢索優(yōu)先,采用詞素檢索的結(jié)果作為針對檢索要求的檢索結(jié)果。與此相對,在分割單詞數(shù)超過最小單詞數(shù)的場合,全文檢索執(zhí)行控制機(jī)構(gòu)18,使N-gram檢索優(yōu)先,采用基于N-gram索引的一次檢索的結(jié)果作為針對檢索要求的檢索結(jié)果。
這樣,由于借助配置在檢索界面畫面中的采用條件域343,用戶可以指定作為采用條件的最小單詞數(shù),故在快速檢索處理中可以進(jìn)行相應(yīng)于檢索條件語句的調(diào)整。
圖4為示出表示利用檢索執(zhí)行/應(yīng)答服務(wù)器12借助用戶界面11通知用戶的檢索結(jié)果的檢索結(jié)果畫面的一例。此檢索結(jié)果畫面是檢索執(zhí)行畫面之一。檢索結(jié)果畫面,除了與圖3所示的檢索界面畫面同樣的檢索條件域31、檢索按鈕32、檢索精度選擇區(qū)33及調(diào)整參數(shù)區(qū)34之外,包括檢索精度區(qū)41及檢索結(jié)果區(qū)42。
如上所述,在執(zhí)行快速檢索處理的場合,按照圖2的流程圖,利用基于N-gram索引及基于詞素索引的兩種檢索的結(jié)果和調(diào)整參數(shù)的信息,求得通知給用戶的檢索結(jié)果。此檢索結(jié)果,借助圖4所示的檢索結(jié)果畫面的檢索結(jié)果區(qū)42通知用戶。該通知給用戶的檢索結(jié)果,是以下3種之一(a)基于N-gram索引的檢索(一次檢索及二次檢索)的結(jié)果(b)基于詞素索引的檢索的結(jié)果(c)基于N-gram索引的檢索(僅一次檢索)的結(jié)果另一方面,在執(zhí)行了標(biāo)準(zhǔn)檢索處理的場合,經(jīng)常采用上述(a)的結(jié)果作為在檢索結(jié)果區(qū)42中顯示的檢索結(jié)果。
在執(zhí)行快速檢索處理的場合,對于采用上述(a)、(b)及(c)中的哪一個的檢索結(jié)果,比如,可利用抽象地表現(xiàn)與該檢索結(jié)果相對應(yīng)的“檢索精度”的用語在檢索精度區(qū)41中示出。此處,作為抽象地表現(xiàn)與(a)、(b)及(c)的檢索結(jié)果相對應(yīng)的“檢索精度”的用語,可以分別使用“適當(dāng)”、“較粗略”、“粗略”。
<第1變形例>
下面參照圖5的流程圖對上述實(shí)施方式的第1變形例予以說明。另外,在圖5中,對于與示出快速檢索處理的步驟的圖2的流程圖等價(jià)的處理步驟賦予同一參照符號。
第1變形例的特征在于,步驟S1及S2的處理(基于N-gram索引的一次檢索)和步驟S3至S5的處理(基于詞素索引的檢索),是以與圖2的流程圖相反的順序執(zhí)行這一點(diǎn)。此處,在不能將檢索條件語句分割為可以進(jìn)行詞素檢索的單詞的場合(步驟S4),執(zhí)行與上述步驟S1相當(dāng)?shù)奶幚?,即基于N-gram索引的一次檢索(步驟S11),然后執(zhí)行基于N-gram索引的二次檢索(步驟S8)。
另外,即使是可以將檢索條件語句分割為可以進(jìn)行詞素檢索的單詞,在該單詞數(shù)(分割單詞數(shù)),比如,超過比最小單詞數(shù)多的基準(zhǔn)單詞數(shù)的場合,詞素分析的結(jié)果的精度低。在此場合,對于基于詞素索引的檢索的結(jié)果,不能保證可以確保一定程度的精度。在此,比如,可以在上述步驟S4中增加分割單詞數(shù)是否少于等于基準(zhǔn)單詞數(shù)的判定。于是,在此判定結(jié)果是分割單詞數(shù)超過基準(zhǔn)單詞數(shù)的場合,可以進(jìn)行基于N-gram索引的一次檢索及二次檢索(步驟S11及S8)。這樣一來,在指定了進(jìn)行基于N-gram索引的二次檢索這樣的長檢索條件語句的場合,由于不進(jìn)行命中數(shù)N1的大小判定(步驟S2),故可以縮短檢索時(shí)間。此處,在分割單詞數(shù)少于等于基準(zhǔn)單詞數(shù)并且滿足上述條件a1、a2及a3的場合,可以省略基于N-gram索引的二次檢索。
<第2變形例>
下面參照圖6的流程圖對上述實(shí)施方式的第2變形例予以說明。另外,在圖6中,對于與圖2的流程圖等價(jià)的處理步驟賦予同一參照符號。
第2變形例的特征在于,步驟S1及S2的處理(基于N-gram索引的一次檢索)和步驟S3至S5的處理(基于詞素索引的檢索),是并行執(zhí)行的這一點(diǎn)。即在第2變形例中,利用N-gram檢索引擎的一次檢索執(zhí)行單元131的檢索和利用詞素檢索引擎16的檢索并行執(zhí)行。這樣,通過并行執(zhí)行雙方的檢索,可以進(jìn)行更快速的檢索。
其他的特征和改變對于該技術(shù)領(lǐng)域的技術(shù)人員是可以想象的。因此,本發(fā)明立足于更廣的觀點(diǎn)之上,不受限于特定細(xì)節(jié)和在此處說明的代表性的實(shí)施方式。所以,在不脫離后附的技術(shù)方案所定義的廣的發(fā)明概念及與其等同的解釋和范圍內(nèi)可以進(jìn)行各種變更。
權(quán)利要求
1.一種全文檢索系統(tǒng),其包括利用按照檢索條件語句的一次檢索和針對該一次檢索的結(jié)果的二次檢索,執(zhí)行基于N-gram索引的檢索的第1檢索單元;對上述檢索條件語句進(jìn)行詞素分析的詞素分析單元;以及按照利用上述詞素分析單元所得到的詞素分析結(jié)果,執(zhí)行基于詞素索引的詞素檢索的第2檢索單元;上述全文檢索系統(tǒng)的特征在于,具有判定作為上述基于N-gram索引的一次檢索的命中數(shù)的第1命中數(shù)和作為上述基于詞素索引的詞素檢索的命中數(shù)的第2命中數(shù)的近似度的近似度判定單元;以及在利用上述近似度判定單元判定為上述第1命中數(shù)和上述第2命中數(shù)近似時(shí),以省略上述基于N-gram索引的二次檢索的方式,控制上述第1檢索單元,采用上述一次檢索的結(jié)果或上述詞素檢索的結(jié)果作為檢索結(jié)果的全文檢索執(zhí)行控制單元。
2.如權(quán)利要求1所述的全文檢索系統(tǒng),其特征在于還具有,根據(jù)利用上述詞素分析單元所得到的詞素分析結(jié)果,判定是否可以將上述檢索條件語句分割為可以進(jìn)行詞素檢索的單詞的詞素分析結(jié)果判定單元;上述全文檢索執(zhí)行控制單元,在由上述詞素分析結(jié)果判定單元判定為可以將上述檢索條件語句分割為可以進(jìn)行詞素檢索的單詞時(shí),以執(zhí)行基于上述詞素索引的詞素檢索的方式,控制上述第2檢索單元。
3.如權(quán)利要求1所述的全文檢索系統(tǒng),其特征在于上述全文檢索執(zhí)行控制單元,根據(jù)由上述詞素分析單元的分析結(jié)果所示出的作為分割后的單詞數(shù)的分割單詞數(shù),確定采用上述一次檢索的結(jié)果或上述詞素檢索的結(jié)果中的哪一個作為檢索結(jié)果。
4.如權(quán)利要求3所述的全文檢索系統(tǒng),其特征在于上述全文檢索執(zhí)行控制單元,在上述分割單詞數(shù)超過作為基準(zhǔn)的最小單詞數(shù)時(shí),采用上述一次檢索的結(jié)果作為檢索結(jié)果;在上述分割單詞數(shù)小于等于上述最小單詞數(shù)時(shí),采用上述詞素檢索的結(jié)果作為檢索結(jié)果。
5.如權(quán)利要求4所述的全文檢索系統(tǒng),其特征在于,還具備用于可由用戶指定上述最小單詞數(shù)的用戶界面。
6.如權(quán)利要求4所述的全文檢索系統(tǒng),其特征在于上述全文檢索執(zhí)行控制單元,在上述分割單詞數(shù)超過比上述最小單詞數(shù)多的基準(zhǔn)單詞數(shù)時(shí),以執(zhí)行上述基于N-gram索引的二次檢索的方式,控制上述第1檢索單元,采用上述二次檢索的結(jié)果作為檢索結(jié)果。
7.如權(quán)利要求1所述的全文檢索系統(tǒng),其特征在于還具備,通過比較上述第1命中數(shù)與基準(zhǔn)的命中數(shù)來判定上述一次檢索的命中數(shù)是多或是少的一次檢索結(jié)果數(shù)判定單元;上述全文檢索執(zhí)行控制單元,在利用上述一次檢索結(jié)果數(shù)判定單元判定為上述第1命中數(shù)少時(shí),以執(zhí)行上述基于N-gram索引的二次檢索的方式控制上述第1檢索單元,采用上述二次檢索的結(jié)果作為檢索結(jié)果。
8.如權(quán)利要求7所述的全文檢索系統(tǒng),其特征在于,還具備用于可由用戶指定上述基準(zhǔn)的命中數(shù)的用戶界面。
9.如權(quán)利要求1所述的全文檢索系統(tǒng),其特征在于上述近似度判定單元,通過比較表示上述第1命中數(shù)和上述第2命中數(shù)近似的程度的近似度和作為判定的基準(zhǔn)的近似度閾值,判定上述第1命中數(shù)和上述第2命中數(shù)的近似度。
10.如權(quán)利要求9所述的全文檢索系統(tǒng),其特征在于,還具備用于可由用戶指定上述近似度閾值的用戶界面。
11.如權(quán)利要求1所述的全文檢索系統(tǒng),其特征在于,還具備用于可由用戶指定標(biāo)準(zhǔn)檢索及快速檢索中的某一個的用戶界面,上述標(biāo)準(zhǔn)檢索在任何情況下都一直進(jìn)行到上述基于N-gram索引的二次檢索,上述快速檢索根據(jù)利用上述近似度判定單元所得到的判定結(jié)果有可能省略上述基于N-gram索引的二次檢索。
12.如權(quán)利要求1所述的全文檢索系統(tǒng),其特征在于上述全文檢索執(zhí)行控制單元,以使上述基于N-gram索引的一次檢索和上述基于詞素索引的詞素檢索并行執(zhí)行的方式,對上述第1檢索單元和上述第2檢索單元分別進(jìn)行控制。
13.一種應(yīng)用于系統(tǒng)的全文檢索方法,上述系統(tǒng)具備利用按照檢索條件語句的一次檢索和針對該一次檢索結(jié)果的二次檢索執(zhí)行基于N-gram索引的檢索的第1檢索單元;對檢索條件語句進(jìn)行詞素分析的詞素分析單元;以及按照利用上述詞素分析單元所得到的詞素分析結(jié)果執(zhí)行基于詞素索引的詞素檢索的第2檢索單元;上述全文檢索方法包括判定上述基于N-gram索引的一次檢索的命中數(shù)和上述基于詞素索引的詞素檢索的命中數(shù)的近似度的步驟;在判定為上述基于N-gram索引的一次檢索的命中數(shù)和上述基于詞素索引的詞素檢索的命中數(shù)近似時(shí),省略通過上述第1檢索單元進(jìn)行的上述基于N-gram索引的二次檢索,采用上述一次檢索的結(jié)果或上述詞素檢索的結(jié)果作為檢索結(jié)果的步驟;以及在判定為上述基于N-gram索引的一次檢索的命中數(shù)和上述基于詞素索引的詞素檢索的命中數(shù)近似時(shí),使上述第1檢索單元執(zhí)行上述基于N-gram索引的二次檢索,采用該二次檢索的結(jié)果作為檢索結(jié)果的步驟。
14.如權(quán)利要求13所述的全文檢索方法,其特征在于,還包括根據(jù)利用上述詞素分析單元所得到的詞素分析結(jié)果,判定是否可以將上述檢索條件語句分割為可以進(jìn)行詞素檢索的單詞的步驟;以及在判定為可以將上述檢索條件語句分割為可以進(jìn)行詞素檢索的單詞時(shí),使上述第2檢索單元執(zhí)行上述基于詞素索引的詞素檢索的步驟。
15.如權(quán)利要求13所述的全文檢索方法,其特征在于在采用上述一次檢索的結(jié)果或上述詞素檢索的結(jié)果作為檢索結(jié)果的步驟中,根據(jù)由上述詞素分析單元的分析結(jié)果示出的作為分割后的單詞數(shù)的分割單詞數(shù),確定采用上述一次檢索的結(jié)果或上述詞素檢索的結(jié)果中的哪一個作為檢索結(jié)果。
16.如權(quán)利要求13所述的全文檢索方法,其特征在于還包括,通過比較上述第1命中數(shù)和基準(zhǔn)的命中數(shù),判定上述一次檢索的命中數(shù)是多或是少的步驟;在判定為上述第1命中數(shù)少時(shí),執(zhí)行上述基于N-gram索引的二次檢索,采用該二次檢索的結(jié)果作為檢索結(jié)果。
全文摘要
第1檢索單元(13)利用按照檢索條件語句的一次檢索和針對該一次檢索的結(jié)果的二次檢索執(zhí)行基于N-gram索引(14)的檢索。詞素分析單元(15)對上述檢索條件語句進(jìn)行詞素分析。第2檢索單元(16)按照詞素分析單元(15)的詞素分析結(jié)果執(zhí)行基于詞素索引(17)的詞素檢索。近似度判定單元(183)判定上述基于N-gram索引的一次檢索的命中數(shù)的第1命中數(shù)和上述基于詞素索引的詞素檢索的命中數(shù)的第2命中數(shù)的近似度。全文檢索執(zhí)行控制單元(18),在上述第1命中數(shù)和上述第2命中數(shù)近似時(shí),省略上述基于N-gram索引的二次檢索地控制第1檢索單元(13),采用上述一次檢索的結(jié)果或上述詞素檢索的結(jié)果作為檢索結(jié)果。
文檔編號G06F17/30GK1755691SQ200510108009
公開日2006年4月5日 申請日期2005年9月29日 優(yōu)先權(quán)日2004年9月29日
發(fā)明者高知尾勝彥, 笹氣光一, 加藤陽二 申請人:株式會社東芝, 東芝解決方案株式會社