亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

索引短語(yǔ)的方法

文檔序號(hào):6335129閱讀:218來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):索引短語(yǔ)的方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索技術(shù),特別是利用包含多個(gè)關(guān)鍵詞的短語(yǔ)或者更一般的關(guān)鍵詞串為文檔建立搜索的方法。
背景技術(shù)
目前,基于計(jì)算機(jī)或者計(jì)算機(jī)網(wǎng)絡(luò)的文檔檢索系統(tǒng)通常都是使用關(guān)鍵詞(keyword)來(lái)索引和檢索文檔的。文檔檢索系統(tǒng)對(duì)被索引的每個(gè)文檔提取其中的關(guān)鍵詞,由此獲得每個(gè)關(guān)鍵詞所出現(xiàn)的文檔的列表,即可建立被索引文檔集合的索引。大規(guī)模文檔檢索系統(tǒng)通常使用的索引數(shù)據(jù)結(jié)構(gòu)為倒排索引,即以一批關(guān)鍵詞來(lái)為條目,分別記錄包含了各個(gè)關(guān)鍵詞的文檔列表,并可詳細(xì)記錄該關(guān)鍵詞在文檔中的出現(xiàn)頻次、位置、格式等信息。在信息檢索領(lǐng)域,“關(guān)鍵詞”一般指稱(chēng)用于文檔索引和檢索的項(xiàng)(term)。這些項(xiàng)可以是通常的詞、詞組,也可以是其它類(lèi)型的字符串(例如二字組或二詞組Bigram等)。除非特別說(shuō)明,本發(fā)明所使用的“關(guān)鍵詞”概念遵循這種一般性的含義。
建立了索引以后,檢索文檔的過(guò)程即為系統(tǒng)使用查詢(xún)中的關(guān)鍵詞來(lái)查找文檔索引。查詢(xún)通常為單個(gè)關(guān)鍵詞或者多個(gè)關(guān)鍵詞的組合(例如邏輯表達(dá)式)。如果查詢(xún)中的某關(guān)鍵詞kwi在索引中出現(xiàn),則通過(guò)索引可以獲得所有包含該關(guān)鍵詞kwi的文檔,再經(jīng)過(guò)適當(dāng)?shù)募线\(yùn)算(交集、并集、差集等),就得到了候選的相關(guān)文檔集合。系統(tǒng)利用一定的判據(jù)(例如關(guān)鍵詞頻次和位置等)確定查詢(xún)與各個(gè)候選文檔的相關(guān)程度,從候選文檔集合中選取一部分相關(guān)程度較高的文檔作為搜索結(jié)果返回給檢索用戶(hù)。
用關(guān)鍵詞進(jìn)行索引和檢索對(duì)于比較短的查詢(xún)字符串是很有效的。但對(duì)于比較長(zhǎng)的查詢(xún),則其性能和效果都難以達(dá)到優(yōu)化。為了提高運(yùn)行效率、減少歧義和出錯(cuò),現(xiàn)有的主要方法是盡量使用較長(zhǎng)的關(guān)鍵詞或者詞組。而這又會(huì)經(jīng)常引起漏查的現(xiàn)象。例如對(duì)于字符串“北大信息科學(xué)與技術(shù)學(xué)院計(jì)算機(jī)系”,現(xiàn)有方法會(huì)將整個(gè)詞組作為一個(gè)機(jī)構(gòu)名稱(chēng)用作索引單元,但是這樣就不會(huì)與查詢(xún)串“北大計(jì)算機(jī)系”匹配。另一方面,如果索引詞很細(xì),例如把“北大信息科學(xué)與技術(shù)學(xué)院計(jì)算機(jī)系”的每一個(gè)基本詞都作為索引單位,則將大大增加系統(tǒng)的存儲(chǔ)空間和查詢(xún)處理時(shí)間,同時(shí)也會(huì)以很大的相關(guān)性匹配查詢(xún)“北大”。實(shí)際上“北大”只是一個(gè)修飾詞,其相關(guān)性權(quán)重應(yīng)比“計(jì)算機(jī)系”等低。

發(fā)明內(nèi)容
本發(fā)明的目的是提出一種索引短語(yǔ)或者比較長(zhǎng)的其它類(lèi)型的詞串的方法,它很好地克服了現(xiàn)有方法的上述不足之處。
為達(dá)到上述目的,本發(fā)明采取的技術(shù)方案是一種索引短語(yǔ)的方法,其特征在于把整個(gè)短語(yǔ)作為索引單元;將組成詞組的關(guān)鍵詞也作為索引單元,并且靠后的詞具有較大的權(quán)重。
此技術(shù)方案可以在減少系統(tǒng)的存儲(chǔ)空間和查詢(xún)處理時(shí)間的同時(shí),保持對(duì)較短的查詢(xún)的檢索效果,避免短的索引單位在相關(guān)性方面的不良干擾。
具體實(shí)施例方式
下面結(jié)合實(shí)施例對(duì)上述技術(shù)方案作進(jìn)一步的說(shuō)明。
根據(jù)本實(shí)施例,系統(tǒng)處理各種較長(zhǎng)的詞組,例如使用機(jī)構(gòu)名稱(chēng)自動(dòng)識(shí)別的技術(shù)可以識(shí)別“北大信息科學(xué)與技術(shù)學(xué)院計(jì)算機(jī)系”是一個(gè)機(jī)構(gòu)名稱(chēng);也可以通過(guò)人工的方法把這個(gè)機(jī)構(gòu)名稱(chēng)存放在一個(gè)結(jié)構(gòu)名稱(chēng)詞典中。其它類(lèi)型的詞組(人名、地名、團(tuán)體/組織名稱(chēng)、產(chǎn)品名、商標(biāo)名等)也可類(lèi)似處理。其基本方法是在索引某個(gè)包含了較長(zhǎng)詞組的文檔時(shí),同時(shí)也要把其“中心詞”(head words)也用作該文檔的索引詞,而且越是重要的中心詞其權(quán)重越高。
根據(jù)本實(shí)施例,短語(yǔ)“北大信息科學(xué)與技術(shù)學(xué)院計(jì)算機(jī)系”將包含如下索引單元,相應(yīng)的權(quán)重也列在各個(gè)索引單元之后北大信息科學(xué)與技術(shù)學(xué)院計(jì)算機(jī)系1.0信息科學(xué)與技術(shù)學(xué)院計(jì)算機(jī)系0.5計(jì)算機(jī)系 0.2北大信息科學(xué)與技術(shù)學(xué)院0.1信息科學(xué)與技術(shù)學(xué)院0.05北大 0.01其中,對(duì)于包含同樣靠后中心詞的索引單元,較長(zhǎng)的索引單元具有較大的權(quán)重。
該方法的一個(gè)基本依據(jù)是漢語(yǔ)的這樣一個(gè)現(xiàn)象在漢語(yǔ)的詞組中,修飾成分經(jīng)常出現(xiàn)在考前的位置,而中心詞則經(jīng)常在后面出現(xiàn)。因此,可以將詞組中靠后的關(guān)鍵詞作為整個(gè)詞組更相關(guān)的詞,從而可以更相關(guān)地抵命中與詞組相關(guān)的查詢(xún)。
本實(shí)施例可以直接應(yīng)用到任何使用到排索引方式的文檔檢索系統(tǒng)。當(dāng)然,本領(lǐng)域技術(shù)人員也清楚地知道本發(fā)明的應(yīng)用范圍并不局限于這種方式的系統(tǒng)。
權(quán)利要求
1.一種索引短語(yǔ)的方法,其特征在于a.把整個(gè)短語(yǔ)作為索引單元;b.將組成詞組的關(guān)鍵詞也作為索引單元,并且靠后的詞具有較大的權(quán)重。
2.根據(jù)權(quán)利要求1所述的索引短語(yǔ)的方法,其特征在于對(duì)于包含同樣靠后中心詞的索引單元,較長(zhǎng)的索引單元具有較大的權(quán)重。
全文摘要
一種索引短語(yǔ)的方法,其特征在于把整個(gè)短語(yǔ)作為索引單元;將組成詞組的關(guān)鍵詞也作為索引單元,并且靠后的詞具有較大的權(quán)重;對(duì)于包含同樣靠后中心詞的索引單元,較長(zhǎng)的索引單元具有較大的權(quán)重。該方法利用了漢語(yǔ)中心詞則靠后面出現(xiàn)的現(xiàn)象,可以在減少系統(tǒng)的存儲(chǔ)空間和查詢(xún)處理時(shí)間的同時(shí),保持對(duì)較短的查詢(xún)的檢索效果,避免短的索引單位在相關(guān)性方面的不良干擾。
文檔編號(hào)G06F17/30GK1940920SQ20051010527
公開(kāi)日2007年4月4日 申請(qǐng)日期2005年9月30日 優(yōu)先權(quán)日2005年9月30日
發(fā)明者孫斌 申請(qǐng)人:孫斌
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1