專利名稱:文檔檢索方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)信息處理領(lǐng)域,尤其涉及ー種文檔檢索方法和裝置。
背景技術(shù):
全文檢索是指全文檢索系統(tǒng)通過(guò)掃描文檔中的每ー個(gè)詞,對(duì)每ー個(gè)詞建立ー個(gè)索引項(xiàng),指明該詞在文檔中出現(xiàn)的次數(shù)和位置,當(dāng)用戶提交檢索請(qǐng)求吋,全文檢索系統(tǒng)就根據(jù)事先建立的索引文件進(jìn)行查找,將查找的結(jié)果按照某種排序方式返回給用戶的檢索方式。 實(shí)際應(yīng)用中,全文檢索系統(tǒng)處理的一個(gè)文檔可能包含多個(gè)字段,如標(biāo)題、作者、正文等。具體的,在用戶提交檢索請(qǐng)求后,全文檢索系統(tǒng)分析確定檢索請(qǐng)求中的檢索關(guān)鍵詞包含的檢索分詞,檢索分詞是指對(duì)檢索關(guān)鍵詞進(jìn)行字符劃分后形成的分詞,具體如何將檢索關(guān)鍵詞進(jìn)行字符劃分,根據(jù)不同的算法具有不同的劃分方式,例如,可以將檢索關(guān)鍵詞中的每個(gè)字符劃分為ー個(gè)檢索分詞,也可以將檢索關(guān)鍵詞中的每?jī)蓚€(gè)字符劃分為ー個(gè)檢索分詞,等等;然后,在索引文件中查找包含所有檢索分詞的文檔,并將該文檔的信息作為檢索結(jié)果提供給用戶。在短語(yǔ)檢索即檢索關(guān)鍵詞中包含多個(gè)檢索分詞的情況下,在查找包含所有檢索分詞的文檔后,還需要進(jìn)ー步對(duì)該文檔中的多個(gè)檢索分詞的位置關(guān)系進(jìn)行匹配, 以確定該多個(gè)檢索分詞的位置關(guān)系是否與檢索請(qǐng)求中包含的多個(gè)檢索分詞的位置關(guān)系ー 致,若匹配一致,則將該文檔的信息作為檢索結(jié)果提供給用戶,否則,不將該文檔作為檢索結(jié)果。例如,檢索關(guān)鍵詞中包含的檢索分詞包括“分詞”和“規(guī)則”,并且這兩個(gè)檢索分詞的位置關(guān)系為相鄰,即這兩個(gè)檢索分詞之間不包含其它字符,在查找到包含“分詞”和“規(guī)則” 的文檔后,對(duì)該文檔中“分詞”和“規(guī)則”的位置關(guān)系進(jìn)行匹配,若該文檔中“分詞”和“規(guī)則” 相鄰,即該文檔中包含“分詞規(guī)則”,則將該文檔的信息作為檢索結(jié)果提供給用戶,否則,不將該文檔作為檢索結(jié)果。在查找得到多個(gè)檢索結(jié)果后,需要將多個(gè)檢索結(jié)果按照一定規(guī)則進(jìn)行排序,最后按照排序順序?qū)⒍鄠€(gè)檢索結(jié)果提供給用戶。對(duì)于各種全文檢索系統(tǒng),檢索結(jié)果的排序是否符合用戶的需求是評(píng)價(jià)其優(yōu)劣的關(guān)鍵因素。目前,全文檢索系統(tǒng)普遍使用向量空間模型對(duì)檢索結(jié)果進(jìn)行排序,具體的,該模型根據(jù)詞頻(Team Frequency,TF) /倒排文檔頻率Qnvert Document Frequency, IDF),計(jì)算檢索分詞在文檔中的量化權(quán)重值,根據(jù)計(jì)算得到的每個(gè)文檔的量化權(quán)重值對(duì)各文檔進(jìn)行排序。TF是指ー個(gè)檢索分詞在文檔中出現(xiàn)的頻率,它描述該檢索分詞在ー篇特定文檔中的重要性;IDF是倒排文檔頻率,它描述的是檢索分詞在所有文檔中出現(xiàn)的頻率,即該檢索分詞的普遍重要性,如“我”,“什么”這些詞幾乎在所有的文檔中都會(huì)出現(xiàn),所以這些詞即使在ー篇特定的文檔中出現(xiàn)的頻率很高,也不是很重要。總的來(lái)說(shuō)就是,ー篇特定文檔的優(yōu)先級(jí),與檢索分詞的TF成正比,與IDF成反比。在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中存在以下技術(shù)問(wèn)題現(xiàn)有的檢索結(jié)果排序方式中,根據(jù)檢索分詞的TF和IDF對(duì)檢索結(jié)果進(jìn)行排序,如何根據(jù)檢索分詞出現(xiàn)在文檔中的位置以及文檔的數(shù)據(jù)長(zhǎng)度對(duì)檢索結(jié)果進(jìn)行排序,目前還沒(méi)有具體的實(shí)現(xiàn)方案。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種文檔檢索方法和裝置,用于解決無(wú)法根據(jù)檢索分詞出現(xiàn)在文檔中的位置以及文檔的數(shù)據(jù)長(zhǎng)度對(duì)檢索結(jié)果進(jìn)行排序的問(wèn)題。一種文檔檢索方法,該方法包括檢索到包含檢索關(guān)鍵詞中的全部檢索分詞的多個(gè)文檔后,根據(jù)所述檢索關(guān)鍵詞中的檢索分詞在檢索到的多個(gè)文檔中的位置和檢索到的多個(gè)文檔的數(shù)據(jù)長(zhǎng)度,對(duì)檢索到的多個(gè)文檔進(jìn)行排序;按照對(duì)檢索到的多個(gè)文檔進(jìn)行排序的排序結(jié)果,將檢索到的多個(gè)文檔作為檢索結(jié)果返回。一種文檔檢索裝置,該裝置包括檢索單元,用于檢索包含檢索關(guān)鍵詞中的全部檢索分詞的多個(gè)文檔;排序單元,用于根據(jù)所述檢索關(guān)鍵詞中的檢索分詞在檢索到的多個(gè)文檔中的位置和檢索到的多個(gè)文檔的數(shù)據(jù)長(zhǎng)度,對(duì)檢索到的多個(gè)文檔進(jìn)行排序;結(jié)果返回單元,用于按照對(duì)檢索到的多個(gè)文檔進(jìn)行排序的排序結(jié)果,將檢索到的多個(gè)文檔作為檢索結(jié)果返回。本發(fā)明實(shí)施例提供的方案中,在檢索到包含檢索關(guān)鍵詞中的全部檢索分詞的多個(gè)文檔后,根據(jù)所述檢索關(guān)鍵詞中的檢索分詞在檢索到的多個(gè)文檔中的位置和檢索到的多個(gè)文檔的數(shù)據(jù)長(zhǎng)度,對(duì)檢索到的多個(gè)文檔進(jìn)行排序,并按照對(duì)檢索到的多個(gè)文檔進(jìn)行排序的排序結(jié)果,將檢索到的多個(gè)文檔作為檢索結(jié)果返回??梢?jiàn),采用本發(fā)明,能夠根據(jù)檢索分詞出現(xiàn)在文檔中的位置以及文檔的數(shù)據(jù)長(zhǎng)度對(duì)檢索結(jié)果進(jìn)行排序,進(jìn)而使得檢索文檔的排序結(jié)果更加精確,更好的滿足用戶需求。
圖1為本發(fā)明實(shí)施例提供的方法流程示意圖;圖2為本發(fā)明實(shí)施例提供的另一方法流程示意圖;圖3為本發(fā)明實(shí)施例提供的文檔檢索裝置結(jié)構(gòu)示意圖;圖4為本發(fā)明實(shí)施例提供的另一文檔檢索裝置結(jié)構(gòu)示意圖。
具體實(shí)施例方式為了能夠檢索到檢索分詞在設(shè)定位置出現(xiàn)的文檔,本發(fā)明實(shí)施例提供一種文檔檢索方法,本方法中,在接收到檢索請(qǐng)求后,需要確定檢索請(qǐng)求中的檢索關(guān)鍵詞所包含的一個(gè)或多個(gè)檢索分詞(即特定檢索分詞)在目標(biāo)文檔中所處的位置需要滿足的條件,然后查找包含確定的全部檢索分詞并且特定檢索分詞所在的位置滿足該條件的文檔,最后將查找到的文檔的信息作為檢索結(jié)果返回。參見(jiàn)圖1,本發(fā)明實(shí)施例提供的文檔檢索方法,具體包括以下步驟步驟10 接收包含檢索關(guān)鍵詞的檢索請(qǐng)求;這里,檢索關(guān)鍵詞是指外界(例如用戶)輸入的用于檢索的關(guān)鍵詞;步驟11 確定所述檢索關(guān)鍵詞所包含的檢索分詞以及該檢索分詞中的特定檢索分詞在目標(biāo)文檔中所處的位置需要滿足的條件;步驟12 查找包含確定的全部檢索分詞并且特定檢索分詞所在的位置滿足所述條件的文檔;步驟13 將查找到的文檔的信息作為檢索結(jié)果返回。步驟11中,在所述特定檢索分詞包括檢索關(guān)鍵詞所包含的第一個(gè)檢索分詞時(shí),確定該第一個(gè)檢索分詞在目標(biāo)文檔中所處的位置需要滿足的條件,其具體實(shí)現(xiàn)可以如下根據(jù)檢索關(guān)鍵詞的格式,確定檢索關(guān)鍵詞所包含的第一個(gè)檢索分詞在目標(biāo)文檔中的位置與目標(biāo)文檔的起始位置所需要滿足的第一位置關(guān)系,將該第一位置關(guān)系作為檢索關(guān)鍵詞所包含的第一個(gè)檢索分詞在目標(biāo)文檔中所處的位置需要滿足的條件。具體的,上述確定第一位置關(guān)系的具體實(shí)現(xiàn)可以如下首先,確定在檢索關(guān)鍵詞中第一個(gè)檢索分詞之前是否具有通配符;在確定為是時(shí), 根據(jù)預(yù)先設(shè)定的通配符類型與距離值范圍的對(duì)應(yīng)關(guān)系,確定第一個(gè)檢索分詞之前的通配符對(duì)應(yīng)的位置距離值,并確定所述第一位置關(guān)系為在目標(biāo)文檔中所述第一個(gè)檢索分詞與目標(biāo)文檔的起始字符之間的距離值在所述距離值范圍內(nèi);在確定為否時(shí),確定所述第一位置關(guān)系為第一個(gè)檢索分詞位于目標(biāo)文檔的起始位置。 當(dāng)然,上述根據(jù)檢索關(guān)鍵詞的格式確定第一位置關(guān)系的實(shí)現(xiàn)并不局限于上述通配符的方式,任何其他根據(jù)檢索關(guān)鍵詞的格式確定第一位置關(guān)系的方式均在本發(fā)明的保護(hù)范圍內(nèi)。步驟11中,在所述特定檢索分詞包括檢索關(guān)鍵詞所包含的最后一個(gè)檢索分詞時(shí), 確定該最后一個(gè)檢索分詞在目標(biāo)文檔中所處的位置需要滿足的條件,其具體實(shí)現(xiàn)可以如下根據(jù)檢索關(guān)鍵詞的格式,確定檢索關(guān)鍵詞所包含的最后一個(gè)檢索分詞在目標(biāo)文檔中的位置與目標(biāo)文檔的結(jié)束位置所需要滿足的第二位置關(guān)系,將該第二位置關(guān)系作為檢索關(guān)鍵詞所包含的最后一個(gè)檢索分詞在目標(biāo)文檔中所處的位置需要滿足的條件。具體的,上述確定第二位置關(guān)系的具體實(shí)現(xiàn)可以如下確定在檢索關(guān)鍵詞中最后一個(gè)檢索分詞之后是否具有通配符;在確定為是時(shí),根據(jù)預(yù)先設(shè)定的通配符類型與位置距離值的對(duì)應(yīng)關(guān)系,確定最后一個(gè)檢索分詞之后的通配符對(duì)應(yīng)的距離值范圍,并確定所述第二位置關(guān)系為在目標(biāo)文檔中所述最后一個(gè)檢索分詞與目標(biāo)文檔的結(jié)尾字符之間的距離值在所述距離值范圍內(nèi);在確定為否時(shí),確定所述第二位置關(guān)系為最后一個(gè)檢索分詞位于目標(biāo)文檔的結(jié)束位置。當(dāng)然,上述根據(jù)檢索關(guān)鍵詞的格式確定第二位置關(guān)系的實(shí)現(xiàn)并不局限于上述通配符的方式,任何其他根據(jù)檢索關(guān)鍵詞的格式確定第二位置關(guān)系的方式均在本發(fā)明的保護(hù)范圍內(nèi)。舉例說(shuō)明,在所述通配符為星號(hào)時(shí),所述距離值范圍為不小于0的整數(shù);在所述通配符為問(wèn)號(hào)時(shí),所述問(wèn)號(hào)對(duì)應(yīng)的距離值范圍為0或1。在步驟10中接收包含檢索關(guān)鍵詞的檢索請(qǐng)求之前,可以針對(duì)一個(gè)或多個(gè)文檔建立索引文件,該索引文件中包含各文檔所包含的檢索分詞以及該檢索分詞在對(duì)應(yīng)文檔中的位置信息;相應(yīng)的,步驟12的具體實(shí)現(xiàn)可以分為如下三種情況
第一種,對(duì)應(yīng)于特定檢索分詞包括檢索關(guān)鍵詞中的第一個(gè)檢索分詞的情況,具體如下首先,根據(jù)所述索引文件確定包含檢索關(guān)鍵詞中的全部檢索分詞的文檔;然后,從所述索引文件中讀取檢索關(guān)鍵詞中的第一個(gè)檢索分詞在該文檔中的位置信息,根據(jù)該位置信息確定該第一個(gè)檢索分詞在該文檔中的位置與該文檔的起始位置是否滿足所述第一位置關(guān)系;若是,則將該文檔確定為查找到的包含確定的全部檢索分詞并且特定檢索分詞所在的位置滿足所述條件的文檔,否則,不將該文檔確定為查找到的包含確定的全部檢索分詞并且特定檢索分詞所在的位置滿足所述條件的文檔。第二種,對(duì)應(yīng)于特定檢索分詞包括檢索關(guān)鍵詞中的最后一個(gè)檢索分詞的情況,具體如下首先,根據(jù)所述索引文件確定包含檢索關(guān)鍵詞中的全部檢索分詞的文檔;然后,從所述索引文件中讀取所述檢索關(guān)鍵詞中的最后一個(gè)檢索分詞在該文檔中的位置信息,根據(jù)該位置信息確定該最后一個(gè)檢索分詞在該文檔中的位置與該文檔的起始位置是否滿足所述第二位置關(guān)系;若是,則將該文檔確定為查找到的包含確定的全部檢索分詞并且特定檢索分詞所在的位置滿足所述條件的文檔,否則,不將該文檔確定為查找到的包含確定的全部檢索分詞并且特定檢索分詞所在的位置滿足所述條件的文檔。第三種,對(duì)應(yīng)于特定檢索分詞包括檢索關(guān)鍵詞中的第一個(gè)和最后一個(gè)檢索分詞的情況,具體如下首先,根據(jù)所述索引文件確定包含檢索關(guān)鍵詞中的全部檢索分詞的文檔;然后,從所述索引文件中讀取檢索關(guān)鍵詞中的第一個(gè)檢索分詞和最后一個(gè)檢索分詞在該文檔中的位置信息,根據(jù)讀取到的位置信息確定該第一個(gè)檢索分詞在該文檔中的位置與該文檔的起始位置是否滿足所述第一位置關(guān)系,以及該最后一個(gè)檢索分詞在該文檔中的位置與該文檔的結(jié)束位置是否滿足所述第二位置關(guān)系;若是,則將該文檔確定為查找到的包含確定的全部檢索分詞并且特定檢索分詞所在的位置滿足所述條件的文檔,否則,不將該文檔確定為查找到的包含確定的全部檢索分詞并且特定檢索分詞所在的位置滿足所述條件的文檔。當(dāng)然,特定檢索分詞除了可以包括檢索關(guān)鍵詞中的第一個(gè)和最后一個(gè)檢索分詞外,也可以包括檢索關(guān)鍵詞中的任何其他檢索分詞,在這種情況下,步驟11中確定該特定檢索分詞在目標(biāo)文檔中所處的位置需要滿足的條件的具體實(shí)現(xiàn)可以如下根據(jù)檢索關(guān)鍵詞的格式,確定該特定檢索分詞在目標(biāo)文檔中的位置與目標(biāo)文檔的起始位置和/或結(jié)束位置所需要滿足的位置關(guān)系,將該位置關(guān)系作為該特定檢索分詞在目標(biāo)文檔中所處的位置需要滿足的條件。相應(yīng)的,步驟12的具體實(shí)現(xiàn)可以如下首先,根據(jù)索引文件確定包含檢索關(guān)鍵詞中的全部檢索分詞的文檔;然后,從索引文件中讀取該特定檢索分詞在該文檔中的位置信息,根據(jù)該位置信息確定該特定檢索分詞在該文檔中的位置與該文檔的起始位置和/或結(jié)束位置是否滿足相應(yīng)的位置關(guān)系;若是,則將該文檔確定為查找到的包含確定的全部檢索分詞并且特定檢索分詞所在的位置滿足所述條件的文檔,否則,不將該文檔確定為查找到的包含確定的全部檢索分詞并且特定檢索分詞所在的位置滿足所述條件的文檔。較佳的,在步驟12與步驟13之間,該方法進(jìn)一步包括確定所述檢索關(guān)鍵詞所包含的各檢索分詞在查找到的文檔中的位置關(guān)系與在所述檢索關(guān)鍵詞中的位置關(guān)系是否一致;
相應(yīng)的,步驟13中,在確定所述檢索關(guān)鍵詞所包含的各檢索分詞在查找到的文檔中的位置關(guān)系與在所述檢索關(guān)鍵詞中的位置關(guān)系一致吋,將查找到的文檔的信息作為檢索結(jié)果返回。較佳的,在步驟12與步驟13之間,可以根據(jù)檢索關(guān)鍵詞所包含的檢索分詞在查找到的各文檔中的位置和查找到的各文檔的數(shù)據(jù)長(zhǎng)度,對(duì)查找到的各文檔進(jìn)行排序;相應(yīng)的, 步驟13中,按照對(duì)查找到的各文檔進(jìn)行排序的排序結(jié)果,將查找到的各文檔作為檢索結(jié)果返回。上述根據(jù)所述檢索關(guān)鍵詞所包含的檢索分詞在查找到的各文檔中的位置和查找到的各文檔的數(shù)據(jù)長(zhǎng)度,對(duì)查找到的各文檔進(jìn)行排序,其具體實(shí)現(xiàn)可以如下首先,根據(jù)預(yù)先設(shè)定的文檔相關(guān)度值計(jì)算公式,分別計(jì)算查找到的各文檔的相關(guān)度值;所述文檔相關(guān)度值計(jì)算公式滿足以下條件所述檢索關(guān)鍵詞所包含的檢索分詞在文檔中的位置越靠前,根據(jù)該文檔相關(guān)度值計(jì)算公式計(jì)算得到的相關(guān)度值越大,文檔的數(shù)據(jù)長(zhǎng)度越小,根據(jù)該文檔相關(guān)度值計(jì)算公式計(jì)算得到的相關(guān)度值越大;然后,按照計(jì)算得到的各文檔的相關(guān)度值的大小順序,將各文檔進(jìn)行排序。所述文檔相關(guān)度值計(jì)算公式可以包括
權(quán)利要求
1.ー種文檔檢索方法,其特征在于,該方法包括檢索到包含檢索關(guān)鍵詞中的檢索分詞的多個(gè)文檔后,根據(jù)所述檢索關(guān)鍵詞中的檢索分詞在檢索到的多個(gè)文檔中的位置和檢索到的多個(gè)文檔的數(shù)據(jù)長(zhǎng)度,對(duì)檢索到的多個(gè)文檔進(jìn)行排序;按照對(duì)檢索到的多個(gè)文檔進(jìn)行排序的排序結(jié)果,將檢索到的多個(gè)文檔作為檢索結(jié)果返回。
2.如權(quán)利要求1所述的方法,其特征在干,所述根據(jù)所述檢索關(guān)鍵詞中的檢索分詞在檢索到的多個(gè)文檔中的位置和檢索到的多個(gè)文檔的數(shù)據(jù)長(zhǎng)度,對(duì)檢索到的多個(gè)文檔進(jìn)行排序包括根據(jù)預(yù)先設(shè)定的文檔相關(guān)度值計(jì)算公式,分別計(jì)算檢索到的多個(gè)文檔的相關(guān)度值;所述文檔相關(guān)度值計(jì)算公式滿足以下條件所述檢索關(guān)鍵詞所包含的檢索分詞在文檔中的位置越靠前,根據(jù)該文檔相關(guān)度值計(jì)算公式計(jì)算得到的相關(guān)度值越大,文檔的數(shù)據(jù)長(zhǎng)度越小, 根據(jù)該文檔相關(guān)度值計(jì)算公式計(jì)算得到的相關(guān)度值越大;按照計(jì)算得到的多個(gè)文檔的相關(guān)度值的大小順序,將該多個(gè)文檔進(jìn)行排序。
3.如權(quán)利要求2所述的方法,其特征在干,所述文檔相關(guān)度值計(jì)算公式為
4.如權(quán)利要求1-3中任一所述的方法,其特征在于,檢索包含檢索關(guān)鍵詞中的檢索分詞的多個(gè)文檔包括接收包含檢索關(guān)鍵詞的檢索請(qǐng)求;確定所述檢索關(guān)鍵詞所包含的檢索分詞,并確定該檢索分詞中的特定檢索分詞在目標(biāo)文檔中所處的位置需要滿足的條件;查找包含確定的檢索分詞并且特定檢索分詞所在的位置滿足所述條件的文檔; 將查找到的多個(gè)文檔的信息作為檢索結(jié)果返回。
5.如權(quán)利要求4所述的方法,其特征在干,在所述特定檢索分詞包括所述檢索關(guān)鍵詞所包含的第一個(gè)檢索分詞時(shí),所述確定該檢索分詞中的特定檢索分詞在目標(biāo)文檔中所處的位置需要滿足的條件包括根據(jù)所述檢索關(guān)鍵詞的格式,確定所述檢索關(guān)鍵詞所包含的第一個(gè)檢索分詞在目標(biāo)文檔中的位置與目標(biāo)文檔的起始位置所需要滿足的第一位置關(guān)系;所述查找包含確定的檢索分詞并且特定檢索分詞所在的位置滿足所述條件的文檔包括查找包含確定的檢索分詞并且所述第一個(gè)檢索分詞滿足所述第一位置關(guān)系的文檔。
6.如權(quán)利要求4所述的方法,其特征在干,在所述特定檢索分詞包括所述檢索關(guān)鍵詞所包含的最后ー個(gè)檢索分詞時(shí),所述確定該檢索分詞中的特定檢索分詞在目標(biāo)文檔中所處的位置需要滿足的條件包括根據(jù)所述檢索關(guān)鍵詞的格式,確定所述檢索關(guān)鍵詞所包含的最后一個(gè)檢索分詞在目標(biāo)文檔中的位置與目標(biāo)文檔的結(jié)束位置所需要滿足的第二位置關(guān)系;所述查找包含確定的檢索分詞并且特定檢索分詞所在的位置滿足所述條件的文檔包括查找包含確定的檢索分詞并且所述最后一個(gè)檢索分詞滿足所述第二位置關(guān)系的文檔。
7.一種文檔檢索裝置,其特征在于,該裝置包括文檔檢索單元,用于檢索包含檢索關(guān)鍵詞中的全部檢索分詞的多個(gè)文檔; 結(jié)果排序單元,用于根據(jù)所述檢索關(guān)鍵詞中的檢索分詞在檢索到的多個(gè)文檔中的位置和檢索到的多個(gè)文檔的數(shù)據(jù)長(zhǎng)度,對(duì)檢索到的多個(gè)文檔進(jìn)行排序;結(jié)果返回單元,用于按照對(duì)檢索到的多個(gè)文檔進(jìn)行排序的排序結(jié)果,將檢索到的多個(gè)文檔作為檢索結(jié)果返回。
8.如權(quán)利要求7所述的裝置,其特征在于,所述結(jié)果排序單元用于根據(jù)預(yù)先設(shè)定的文檔相關(guān)度值計(jì)算公式,分別計(jì)算檢索到的多個(gè)文檔的相關(guān)度值;所述文檔相關(guān)度值計(jì)算公式滿足以下條件所述檢索關(guān)鍵詞所包含的檢索分詞在文檔中的位置越靠前,根據(jù)該文檔相關(guān)度值計(jì)算公式計(jì)算得到的相關(guān)度值越大,文檔的數(shù)據(jù)長(zhǎng)度越小,,根據(jù)該文檔相關(guān)度值計(jì)算公式計(jì)算得到的相關(guān)度值越大;按照計(jì)算得到的多個(gè)文檔的相關(guān)度值的大小順序,將該多個(gè)文檔進(jìn)行排序。
9.如權(quán)利要求8所述的裝置,其特征在于,所述文檔相關(guān)度值計(jì)算公式為
10.如權(quán)利要求7-9中任一所述的裝置,其特征在于,所述文檔檢索單元包括 請(qǐng)求接收單元,用于接收包含檢索關(guān)鍵詞的檢索請(qǐng)求;條件分析單元,用于確定所述檢索關(guān)鍵詞所包含的檢索分詞以及該檢索分詞中的特定檢索分詞在目標(biāo)文檔中所處的位置需要滿足的條件;文檔查找單元,用于查找包含確定的全部檢索分詞并且特定檢索分詞所在的位置滿足所述條件的文檔;結(jié)果返回單元,用于將查找到的多個(gè)文檔的信息作為檢索結(jié)果返回。
全文摘要
本發(fā)明實(shí)施例公開(kāi)了一種文檔檢索方法和裝置,涉及計(jì)算機(jī)信息處理領(lǐng)域,用于解決無(wú)法根據(jù)檢索分詞出現(xiàn)在文檔中的位置以及文檔的數(shù)據(jù)長(zhǎng)度對(duì)檢索結(jié)果進(jìn)行排序的問(wèn)題。本發(fā)明中,檢索到包含檢索關(guān)鍵詞中的檢索分詞的多個(gè)文檔后,根據(jù)所述檢索關(guān)鍵詞中的檢索分詞在檢索到的多個(gè)文檔中的位置和檢索到的多個(gè)文檔的數(shù)據(jù)長(zhǎng)度,對(duì)檢索到的多個(gè)文檔進(jìn)行排序;按照對(duì)檢索到的多個(gè)文檔進(jìn)行排序的排序結(jié)果,將檢索到的多個(gè)文檔作為檢索結(jié)果返回??梢?jiàn),采用本發(fā)明,能夠根據(jù)檢索分詞出現(xiàn)在文檔中的位置以及文檔的數(shù)據(jù)長(zhǎng)度對(duì)檢索結(jié)果進(jìn)行排序。
文檔編號(hào)G06F17/30GK102567420SQ201010621819
公開(kāi)日2012年7月11日 申請(qǐng)日期2010年12月27日 優(yōu)先權(quán)日2010年12月27日
發(fā)明者徐劍波, 童征宇 申請(qǐng)人:北京方正阿帕比技術(shù)有限公司, 北大方正集團(tuán)有限公司