專利名稱::獲取有助檢索的特征、評(píng)價(jià)相關(guān)事物的價(jià)值的系統(tǒng)及方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及信息處理領(lǐng)域,特別涉及文本檢索
技術(shù)領(lǐng)域:
和文本處理領(lǐng)域,具體是指一種獲取有助于文本檢索的特征的系統(tǒng)與方法、評(píng)價(jià)與輸入文本相關(guān)事物對(duì)于用戶的價(jià)值的系統(tǒng)與方法、實(shí)現(xiàn)根據(jù)人員的簡(jiǎn)歷評(píng)估其職業(yè)優(yōu)勢(shì)的系統(tǒng)與方法以及以文本作為查詢輸入的文檔;f全索的系統(tǒng)與方法。
背景技術(shù):
:作為本發(fā)明的一個(gè)方面,如何提升檢索的效果,是網(wǎng)絡(luò)時(shí)代的一個(gè)重要問題。檢索的根本目的在于幫助用戶從海量文檔中將需要的文檔與無關(guān)的文檔進(jìn)行區(qū)分?,F(xiàn)有檢索系統(tǒng)的做法是,用戶提供由若干特征(通常為關(guān)鍵詞)構(gòu)成的查詢(query),檢索系統(tǒng)根據(jù)查詢,評(píng)估文檔庫(kù)中的各個(gè)文檔與查詢的匹配程度,并輸出匹配程度達(dá)到預(yù)設(shè)標(biāo)準(zhǔn)的文檔或者文檔標(biāo)識(shí)。但是,用戶往往并不清楚每個(gè)特征的檢索效力,這導(dǎo)致了一定的盲目性。用戶在一個(gè)查詢中使用了大量特征卻仍然無法有效改善查詢效果。其后果,或者是不能收縮檢索結(jié)果的規(guī)模,或者是丟失對(duì)于用戶的檢索需求而言具有潛在重要性的檢索結(jié)果。此外,由大量特征構(gòu)成的復(fù)雜查詢導(dǎo)致檢索系統(tǒng)的計(jì)算開銷極大增加。所以,面對(duì)需要檢索的海量文檔,如何幫助用戶找到合適的特征,從而幫助用戶快速收縮檢索范圍但又不造成重要檢索結(jié)果的丟失,是提升檢索效果的一個(gè)重要問題。另一方面,如何利用信息技術(shù)手段來評(píng)價(jià)各種事物對(duì)于人類的重要性,也是網(wǎng)絡(luò)時(shí)代的一個(gè)重要問題,關(guān)系到電子商務(wù)、網(wǎng)絡(luò)社區(qū)等諸多方面?,F(xiàn)有的技術(shù)基本上是通過分析網(wǎng)絡(luò)交互行為(比如,點(diǎn)擊、網(wǎng)頁(yè)間的鏈接指向、用于檢索的查詢語句等)來評(píng)估各種網(wǎng)絡(luò)資源(鏈接、搜索關(guān)鍵詞等)所表征的事物的被關(guān)注程度。但這些行為含有的信息量畢竟有限,因而會(huì)影響評(píng)價(jià)結(jié)果的準(zhǔn)確性。同時(shí),與本發(fā)明相關(guān)的
背景技術(shù):
文獻(xiàn)如下(1)涉及主題詞抽取的專利文獻(xiàn)中國(guó)專利申請(qǐng)CN200710177074,一種基于詞頻和多元文法的新聞關(guān)4建詞抽耳又方法;*美國(guó)專利申請(qǐng)US2008/0195595,KeywordExtractingDevice;*美國(guó)專利申請(qǐng)US2008/0319746,KEYWORDOUTPUTTINGAPPARATUSANDMETHOD;*美國(guó)專利申i青US2008/0033938,Keywordoutputtingapparatus,keywordoutputtingmethod,andkeywordoutputtingcomputerprogramproduct;參美國(guó)專矛]US6470307,Methodandapparatusforautomaticallyidentifyingkeywordswithinadocument。(2)評(píng)價(jià)檢索特征的技術(shù)*美國(guó)專利申i青US2009/0049036,Systemsandmethodsforkeywordselectioninaweb-basedsocialnetwork,其中披露了如何根據(jù)關(guān)鍵詞在兩個(gè)文本集合中的分布差異來計(jì)算關(guān)鍵詞的評(píng)分;*美國(guó)專利申^青US2007/0288514,Systemandmethodforkeywordextraction以及US2009/0083262,SYSTEMFORENTITYSEARCHANDAMETHODFORENTITYSCORINGINALINKEDDOCUMENTDATABASE,其中披露了如何根據(jù)用戶提供的關(guān)鍵詞以及實(shí)體類型作為檢索輸入,尋找含有關(guān)鍵詞以及屬于該實(shí)體類型的實(shí)體的文檔,然后根據(jù)這些文檔計(jì)算各實(shí)體的評(píng)分;*美國(guó)專利申請(qǐng)US2007/0061320,Multi-documentkeyphraseexctractionusingpartialmutualinformation,其中披露了從文檔集合子集中抽取關(guān)4建詞,根據(jù)文檔集合對(duì)關(guān)鍵詞評(píng)分的方法;參美國(guó)專利US6502065,Teletextbroadcastreceivingapparatususingkeywordextractionandweighting,其中披露了尋找文檔集合中共同關(guān)鍵詞作為文本摘要的方法,其中涉及統(tǒng)計(jì)文檔集合中各詞匯的文檔內(nèi)詞頻以及文檔間詞頻。(3)相似搜索(根據(jù)一個(gè)文本,找到與之相似文本)*美國(guó)專利申請(qǐng)US2007/0192310,INFORMATIONPROCESSINGAPPARATUSANDMETHOD,ANDPROGRAM,其中披露了利用查詢與待檢索文檔中共同含有的關(guān)鍵詞,評(píng)估查詢與待檢索文檔的相關(guān)性的方法。(4)檢索特征集合的擴(kuò)展與收縮*美國(guó)專利US7191177,Keywordextractingdevice,其中披露了如何從查詢文本中抽耳又候選關(guān)44詞,然后通過黑名單過濾來精簡(jiǎn)候選關(guān)鍵:詞;*美國(guó)專利申US2008/0243820,Semanticanalysisdocumentstorankterm與US20080133509,SelectingKeywordsRepresentativeofaDocument,其中披露了從查詢文本中抽取候選關(guān)鍵詞,利用本體對(duì)關(guān)鍵詞進(jìn)行評(píng)分,實(shí)現(xiàn)候選關(guān)鍵詞的擴(kuò)展。(5)同時(shí)涉及到特征抽取與特征評(píng)價(jià)*中國(guó)專利申請(qǐng)CN200580044686,全文查詢和搜索系統(tǒng)及其使用方法,其中披露了計(jì)算查詢文本與檢索結(jié)果之間的匹配程度的方法,但未涉及評(píng)價(jià)檢索特征的區(qū)分能力;*中國(guó)專利申請(qǐng)CN200510117001,一種用于海量文本快速相似搜索的方法,其中披露了一種文檔快速檢索的方法,涉及利用重要特征來收縮檢索范圍,但未披露重要特征是如何纟皮選擇的。*美國(guó)專利申請(qǐng)US2007/0288433,DETERMININGRELEVANCYANDDESIRABILITYOFTERMS,其中披露了根據(jù)查詢中涉及的關(guān)鍵詞在其他用戶查詢中的分布,對(duì)關(guān)鍵詞進(jìn)4于評(píng)分的方法。*美國(guó)專利以及專利申請(qǐng)US6064952,Informationabstractingmethod,informationabstractingapparatus,andweightingmethod,US6240378,"Weightingmethodforuseininformationextractionandabstracting,basedonthefrequencyofoccurrenceofkeywordsandsimilaritycalculations,US2002/0072895,Weightingmethodforuseininformationextractionandabstracting,basedonthefrequencyofoccurrenceofkeywordsandsimilaritycalculations,其中披露了將文章分為若干段,每段抽取關(guān)鍵詞,根據(jù)關(guān)鍵詞在其他段的出現(xiàn),計(jì)算關(guān)鍵詞評(píng)分的方法。*美國(guó)專利US5297039,Textsearchsystemforlocatingonthebasisofkeywordmatchingandkeywordrelationshipmatching,其中涉及了計(jì)算文檔庫(kù)中有關(guān)的術(shù)語同查詢的相關(guān)性的評(píng)分。*美國(guó)專利申請(qǐng)US2008/0243811,SYSTEMANDMETHODFORRANKEDKEYWORDSEARCHONGRAPHS,其中披露了檢索模型為有向圖時(shí),一種對(duì)來自檢索文本的候選檢索特征與來自待檢索文檔的候選特征進(jìn)行匹配,從而實(shí)現(xiàn)文檔檢索的方法。
發(fā)明內(nèi)容本發(fā)明的目的是克服了上述現(xiàn)有技術(shù)中的缺點(diǎn),提供一種能夠幫助用戶尋找到對(duì)自身的檢索需求有幫助意義的檢索特征、實(shí)現(xiàn)有效查詢、有助于快速收縮4企索范圍、避免潛在有價(jià)值的檢索結(jié)果丟失、簡(jiǎn)單方便、性能穩(wěn)定可靠、適用范圍較為廣泛的獲取有助于文本檢索的特征的系統(tǒng)與方法,評(píng)價(jià)與輸入文本相關(guān)事物對(duì)于用戶的價(jià)值的系統(tǒng)與方法,實(shí)現(xiàn)根據(jù)人員的簡(jiǎn)歷評(píng)估其職業(yè)優(yōu)勢(shì)的系統(tǒng)與方法以及以文本作為查詢輸入的文檔4全索的系統(tǒng)與方法。為了實(shí)現(xiàn)上述的目的,本發(fā)明的獲取有助于文本檢索的特征的系統(tǒng)與方法、評(píng)價(jià)與輸入文本相關(guān)事物對(duì)于用戶的價(jià)值的系統(tǒng)與方法、實(shí)現(xiàn)根據(jù)人員的簡(jiǎn)歷評(píng)估其職業(yè)優(yōu)勢(shì)的系統(tǒng)與方法以及以文本作為查詢輸入的文檔檢索的系統(tǒng)與方法如下該獲取有助于文本檢索的特征的系統(tǒng),其主要特點(diǎn)是,所述的系統(tǒng)包括輸入裝置,用于接收用戶提交的輸入文本;特征生成裝置,用于才艮據(jù)所述的輸入文本生成至少一個(gè)候選特征;評(píng)分裝置,用于計(jì)算所述的候選特征的關(guān)于檢索效力的至少一個(gè)評(píng)分;結(jié)果生成裝置,用于根據(jù)具有所述的評(píng)分的候選特征產(chǎn)生至少一個(gè)結(jié)果特征;和輸出裝置,用于以可被用戶處理或理解的表現(xiàn)形式將所述的結(jié)果特征輸出給用戶;且所述的評(píng)分的計(jì)算過程至少部分地依賴于所述的候選特征在參照文檔集合中的分布特性。該獲取有助于文本檢索的特征的系統(tǒng)中的輸出裝置還輸出有每個(gè)所述的結(jié)果特征的評(píng)分,所述的結(jié)果特征的評(píng)分為所述的評(píng)分裝置對(duì)于候選特征數(shù)據(jù)中與所述的結(jié)果特征相等同的一個(gè)候選特征的評(píng)分。該獲取有助于文本檢索的特征的系統(tǒng)中的特征生成裝置還操作至少一個(gè)候選調(diào)整裝置,用于在原有的所述的候選特征的基礎(chǔ)上刪除和/或增加至少一個(gè)候選特征。該獲取有助于文本檢索的特征的系統(tǒng)中的評(píng)分的計(jì)算過程還依賴于所述的候選特征在所述的輸入文本中的分布特性,所述的特征生成裝置還生成有各所述的候選特征關(guān)于所述的輸入文本的分布特性的數(shù)據(jù)。該獲取有助于文本檢索的特征的系統(tǒng)中的評(píng)分的計(jì)算過程還依賴于所述的候選特征在至少一個(gè)第二參照文檔集合中的分布特性。該基于上述的裝置實(shí)現(xiàn)獲取有助于文件檢索的特征的方法,其主要特點(diǎn)是,所述的方法包括以下步驟(1)輸入步驟,接收用戶提交的輸入文本;(2)特征生成步驟,根據(jù)所述的輸入文本生成至少一個(gè)候選特征;(3)評(píng)分步驟,計(jì)算所述的候選特征的關(guān)于檢索效力的至少一個(gè)評(píng)分;(4)結(jié)果生成步驟,根據(jù)具有所述的評(píng)分的候選特征產(chǎn)生至少一個(gè)結(jié)果特征;(5)輸出步驟,以可被用戶處理或理解的表現(xiàn)形式將所述的結(jié)果特征輸出給用戶;且所述的評(píng)分的計(jì)算過程至少部分地依賴于所述的候選特征在參照文檔集合中的分布特性。輸出每個(gè)所述的結(jié)果特征的評(píng)分,所述的結(jié)果特征的評(píng)分為所述的候選特征數(shù)據(jù)中與所述的結(jié)果特征相等同的一個(gè)候選特征的評(píng)分。該實(shí)現(xiàn)獲取有助于文件檢索的特征的方法中的特征生成步驟中還包括以下步驟至少一個(gè)候選調(diào)整步驟,用于在原有的所述的候選特征的基礎(chǔ)上刪除和/或增加至少一個(gè)候選特征。該實(shí)現(xiàn)獲取有助于文件檢索的特征的方法中的評(píng)分的計(jì)算過程還依賴于所述的候選特征在所述的輸入文本中的分布特性,所述的特征生成步驟中包括以下步驟生成各所述的候選特征關(guān)于所述的輸入文本的分布特性的數(shù)據(jù)。該實(shí)現(xiàn)獲取有助于文件沖全索的特征的方法中的評(píng)分的計(jì)算過程還依賴于所述的候選特征在至少一個(gè)第二參照文檔集合中的分布特性。該評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的系統(tǒng),其主要特點(diǎn)是,所述的系統(tǒng)包括輸入裝置,接收用戶提交的輸入文本;關(guān)鍵詞生成裝置,根據(jù)所述的輸入文本生成至少一個(gè)關(guān)鍵詞形式的候選特征;評(píng)分裝置,計(jì)算所述的候選特征的至少一個(gè)評(píng)分;結(jié)果生成裝置,才艮據(jù)經(jīng)過評(píng)分的所述的候選特征產(chǎn)生至少一個(gè)結(jié)果特征;和輸出裝置,以可被用戶處理或理解的表現(xiàn)形式將所述的結(jié)果特征輸出給用戶。且所述的評(píng)分的計(jì)算過程至少部分地依賴于所述的候選特征在參照文檔集合中的分布特性。該評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的系統(tǒng)中的關(guān)鍵詞生成裝置還操作至少一個(gè)候選調(diào)整裝置,用以調(diào)整所述的候選特征,即從原有的候選特征中刪除一些候選特征和/或加入一些特征作為新的候選特征。該評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的系統(tǒng)中的輸出裝置還輸.出了每個(gè)所述的結(jié)果特征的評(píng)分,一個(gè)所述的結(jié)果特征的評(píng)分為候選特征數(shù)據(jù)中與所述的結(jié)果特征相等同的一個(gè)所述的候選特征的評(píng)分。該評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的系統(tǒng)中的評(píng)分的計(jì)算過程還依賴于所述的候選特征在至少一個(gè)第二參照文檔集合中的分布特性。進(jìn)一步地,該評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的系統(tǒng)中的輸入文本含有第一方需求的描述,所述參照文檔集合含有與第一方需求相對(duì)應(yīng)的第二方供給的描述;或者所述輸入文本含有第一方供給的描述,所述參照文檔集合含有與第一方供給相對(duì)應(yīng)的第二方需求的描述;或者所述輸入文本含有第一方供給或需求的描述,所述參照文檔集合含有與第一方需求或供給屬于同一類型的第二方需求或供給的描述。進(jìn)一步地,所述第二參照文檔集合含有與第一方的需求或供給屬于同類型的第三方的需求或供給的描述。所述輸入文本可被加入到第二參照文檔集合。該基于上述的系統(tǒng)實(shí)現(xiàn)評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的方法,其主要特點(diǎn)是,所述的方法包括以下步驟(1)輸入步驟,接收用戶提交的輸入文本;(2)關(guān)鍵詞生成步驟,根據(jù)所述的輸入文本生成至少一個(gè)關(guān)鍵詞形式的候選特征;(3)評(píng)分步驟,計(jì)算所述的候選特征的至少一個(gè)評(píng)分;(4)結(jié)果生成步驟,+艮據(jù)經(jīng)過評(píng)分的所述的候選特征產(chǎn)生至少一個(gè)結(jié)果特征;(5)輸出步驟,以可被用戶處理或理解的表現(xiàn)形式將所述的結(jié)果特征輸出給用戶。且所述的評(píng)分的計(jì)算過程至少部分地依賴于所述的候選特征在參照文檔集合中的分布特性。該實(shí)現(xiàn)評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的方法中的關(guān)鍵詞生成步驟中還包括以下步驟至少一個(gè)候選調(diào)整子步驟,從原有的候選特征中刪除一些候選特征,和/或加入一些特征作為新的候選特征。該實(shí)現(xiàn)評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的方法中的輸出步驟中還包括以下步驟輸出每個(gè)所述的結(jié)果特征的評(píng)分,所述的結(jié)果特征的評(píng)分為候選特征數(shù)據(jù)中與所述的結(jié)果特征相等同的一個(gè)所述的候選特征的評(píng)分。該實(shí)現(xiàn)評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的方法中的候選特征的評(píng)分的計(jì)算過程,至少部分依賴于所述的候選特征在所述的參照文檔集合中的分布特性。該實(shí)現(xiàn)評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的方法中的評(píng)分的計(jì)算過程還至少部分依賴于所述的候選特征在所述的輸入文本中的分布特性,和/或至少部分依賴于所述的候選特征在至少一個(gè)第二參照文檔集合中的分布特性。該基于上述的系統(tǒng)實(shí)現(xiàn)根據(jù)人員的簡(jiǎn)歷評(píng)估其職業(yè)優(yōu)勢(shì)的系統(tǒng),其主要特點(diǎn)是,輸入文本和參照文檔集合可以為以下配置之一所述的輸入文本參照文檔集合簡(jiǎn)歷文本招聘啟事庫(kù)簡(jiǎn)歷文本簡(jiǎn)歷庫(kù)該實(shí)現(xiàn)根據(jù)人員的簡(jiǎn)歷評(píng)估其職業(yè)優(yōu)勢(shì)的系統(tǒng)中的評(píng)分的計(jì)算過程還依賴于所述的候選特征在至少一個(gè)第二參照文檔集合中的分布特性,所述的輸入文本、參照文檔集合和第二參照文檔集合為以下配置之一輸入文本參照文檔集合第二參照文檔集合簡(jiǎn)歷文本招聘啟事庫(kù)簡(jiǎn)歷庫(kù)簡(jiǎn)歷文本簡(jiǎn)歷庫(kù)招聘啟事庫(kù)該基于上述的方法實(shí)現(xiàn)根據(jù)人員的簡(jiǎn)歷評(píng)估其職業(yè)優(yōu)勢(shì)的方法,其主要特點(diǎn)是,所述的輸入文本和參照文檔集合為以下配置之一輸入文本參照文檔集合簡(jiǎn)歷文本招聘啟事庫(kù)簡(jiǎn)歷文本簡(jiǎn)歷庫(kù)該實(shí)現(xiàn)根據(jù)人員的簡(jiǎn)歷評(píng)估其職業(yè)優(yōu)勢(shì)的方法中的評(píng)分的計(jì)算過程還依賴于所述的候選特征在至少一個(gè)第二參照文檔集合中的分布特性,所述的輸入文本、參照文檔集合和第二參照文檔集合為以下配置之一輸入文本參照文檔集合第二參照文檔集合簡(jiǎn)歷文本招聘啟事庫(kù)簡(jiǎn)歷庫(kù)簡(jiǎn)歷文本簡(jiǎn)歷庫(kù)招聘啟事庫(kù)該以文本作為查詢輸入的文檔檢索的系統(tǒng),其主要特點(diǎn)是,所述的系統(tǒng)包括輸入裝置,接收用戶提交的輸入文本;上述的獲取有助于文本^r索的特征的系統(tǒng),才艮據(jù)所述的輸入文本得到含有結(jié)果特征的輸出結(jié)果;檢索裝置,將所述的輸出結(jié)果輸入檢索系統(tǒng)獲得檢索結(jié)果;檢索輸出裝置,將所述的檢索結(jié)果輸出。該實(shí)現(xiàn)以文本作為查詢輸入的文檔檢索的方法,其主要特點(diǎn)是,所述的方法包括以下步驟(1)輸入步驟,接收用戶提交的輸入文本;(2)特征獲取步驟,利用上述的實(shí)現(xiàn)獲取有助于文件;險(xiǎn)索的特征的方法獲取結(jié)果特征;(3)檢索步驟,依賴于所述的結(jié)果特征產(chǎn)生檢索結(jié)果;(4)檢索輸出步驟,將所述的檢索結(jié)果輸出。泉用了該發(fā)明的獲取有助于文本檢索的特征的系統(tǒng)與方法,用戶可以尋找到對(duì)自身的檢索需求有幫助意義的檢索特征,使得用戶在面對(duì)海量的文檔時(shí)可以運(yùn)用這些檢索特征構(gòu)造有效的查詢,進(jìn)而快速收縮檢索范圍,但同時(shí)又避免了潛在有價(jià)值的檢索結(jié)果的丟失,而且簡(jiǎn)單方便,性能穩(wěn)定可靠,適用范圍較為廣泛。而將該系統(tǒng)與方法與現(xiàn)有的檢索系統(tǒng)相結(jié)合,可以構(gòu)造更為方便易用的檢索系統(tǒng),用戶只需要輸入描述性的文本,就可以檢索到相關(guān)資料,避免了因關(guān)鍵詞選擇不當(dāng)而導(dǎo)致的檢索效果的下降。而采用了該發(fā)明的評(píng)價(jià)與輸入文本相關(guān)事物對(duì)于用戶的價(jià)值的系統(tǒng)與方法,用戶可以通過提交一個(gè)描述性的文本,而得到各種相關(guān)事物對(duì)于該用戶的價(jià)值的評(píng)價(jià)。該系統(tǒng)與方法,筒便有效,直觀易懂,適用于多種用途,比如求職招聘、論文招:稿、網(wǎng)絡(luò)交友等。圖1為本發(fā)明的獲取有助于文本檢索的特征的系統(tǒng)功能模塊組成示意圖。圖2為本發(fā)明的帶有候選調(diào)整裝置的獲取有助于文本檢索的特征的系統(tǒng)功能模塊組成示意圖。圖3為本發(fā)明的涉及第二參照文檔集合的獲取有助于文本檢索的特征的系統(tǒng)功能模塊組成示意圖。圖4為本發(fā)明的評(píng)價(jià)與輸入文本相關(guān)事物對(duì)于用戶的價(jià)值的系統(tǒng)功能模塊組成示意圖。圖5為本發(fā)明的實(shí)現(xiàn)根據(jù)人員的簡(jiǎn)歷評(píng)估其職業(yè)優(yōu)勢(shì)的系統(tǒng)功能模塊組成示意圖。圖6為本發(fā)明的以文本作為查詢輸入的文檔檢索的系統(tǒng)功能模塊組成示意圖。具體實(shí)施例方式為了能夠更清楚地理解本發(fā)明的技術(shù)內(nèi)容,特舉以下實(shí)施例詳細(xì)說明。首先介紹一下本發(fā)明的基本策略當(dāng)用戶提供反映其檢索需求的輸入文本時(shí),從輸入文本中識(shí)別出足夠多的候選特征,然后對(duì)每個(gè)候選特征的^f全索效力計(jì)算評(píng)分,最后才艮據(jù)經(jīng)過評(píng)分的候選特征產(chǎn)生至少一個(gè)結(jié)果特征輸出給用戶。其評(píng)分的計(jì)算至少部分地依賴于所述候選特征在作為參照的參照文檔集合中的分布特性。進(jìn)一步地,所述評(píng)分的計(jì)算還依賴于所述候選特征在輸入文本中的分布特性,和(或)所述候選特征在至少一個(gè)第二參照文檔集合中的分布特性。這樣,本發(fā)明涉及一種獲取有助于檢索的特征的系統(tǒng)。同時(shí),本發(fā)明還能夠利用表征某事物的關(guān)鍵詞形式的特征的檢索效力來評(píng)價(jià)該事物的價(jià)值。本發(fā)明基于這樣的事實(shí),一個(gè)關(guān)鍵詞表征了一個(gè)事物,因此關(guān)于一個(gè)這樣的關(guān)鍵詞在輸入文本、參照文檔集合、第二參照文檔集合中的分布特性的信息反映了該關(guān)鍵詞所表征的事物在輸入文本、參照文檔集合、第二參照文檔集合中被重視的程度、被需要的程度、或被普遍具有的程度;依賴于所述分布特性信息而得到的該關(guān)鍵詞的評(píng)分,也因此體現(xiàn)了該關(guān)鍵詞所表征的事物對(duì)于輸入文本的作者的價(jià)值。這樣,本發(fā)明就實(shí)現(xiàn)了評(píng)價(jià)與用戶提交的輸入文本相關(guān)事物的價(jià)值的系統(tǒng)與方法。在本發(fā)明中,一個(gè)所述的候選特征的檢索效力,是指當(dāng)一個(gè)將參照文檔集合和(或)第二參照文檔集合作為檢索資料源的檢索系統(tǒng)在原有查詢中加入該候選特征后,相應(yīng)而獲得的新檢索結(jié)果在檢索效果上的改善程度。如果在一個(gè)參照文檔集合中,含有某個(gè)候選特征的參照文檔越多,則這個(gè)候選特征對(duì)于參照文檔集合的檢索效力就越弱。若某個(gè)檢索系統(tǒng)在原有查詢中加入檢索效力較弱的候選特征而得新的查詢,則新查詢所返回的檢索結(jié)果,并不能有效地收縮檢索規(guī)模。反之,如果在一個(gè)參照文檔集合中,含有某個(gè)候選特征的參照文檔越少,則這個(gè)候選特征對(duì)于參照文檔集合的檢索效力就越強(qiáng)。若某個(gè)檢索系統(tǒng)在原有查詢中加入該候選特征而得新的查詢,則新查詢所返回的檢索結(jié)果,其規(guī)模將顯著縮小。當(dāng)然,如果某個(gè)候選特征未出現(xiàn)在參照文檔集合的任何參照文檔中,則這個(gè)候選特征在參照文檔集合中的檢索效力在數(shù)學(xué)上無意義,這樣的候選特征將在評(píng)分步驟中被標(biāo)識(shí)為評(píng)分無效,將不會(huì)作為一個(gè)結(jié)果特征。'本發(fā)明所述參照文檔集合和第二參照文檔集合是指,計(jì)算評(píng)分時(shí)被用來作為參考的文檔集合。實(shí)施時(shí),一個(gè)文檔集合可以有多種存在形式,比如數(shù)據(jù)庫(kù)中的記錄,網(wǎng)站上的網(wǎng)頁(yè),文件系統(tǒng)中的目錄及所屬文件,或者其他文檔集合的形式。一個(gè)所述候選特征在一個(gè)文檔集合中的分布特性,是指所述文檔集合的各個(gè)文檔中所述候選特征的存在性、出現(xiàn)次數(shù),各次出現(xiàn)位置、覆蓋的文本區(qū)域大小、和(或)其它與所述候選特征的分布情況有關(guān)的信息。關(guān)于一個(gè)候選特征在一個(gè)文檔集合的各文檔中的分布特性的數(shù)據(jù),被稱為所述候選特征關(guān)于所述文檔集合的分布特性數(shù)據(jù)。在實(shí)施時(shí),一個(gè)特征關(guān)于一個(gè)文檔集合的分布特性數(shù)據(jù),可以含有以下內(nèi)容但不限于*文檔集合中含有該特征的文檔數(shù);*文檔集合中該特征總的出現(xiàn)次數(shù);*該特征在文檔集合中的平均的首次出現(xiàn)位置。對(duì)于某些類型文本(比如自然語言文本),一個(gè)特征在該文本首次出現(xiàn)的相對(duì)位置值(即首次出現(xiàn)位置相對(duì)于文本長(zhǎng)度的比值)越小,表示它在文中越早被提及,則它被認(rèn)為對(duì)于該文本越是重要。因此,對(duì)于一個(gè)特征,找到它在文檔集合中出現(xiàn)的那些文檔,以及該特征在那些文檔中首次出現(xiàn)位置的平均值,對(duì)于計(jì)算特征的檢索效力會(huì)提供有價(jià)值的信息;*該特征在文檔集合的各文檔中總共覆蓋的文本區(qū)域大小。一個(gè)特征在文檔中每次出現(xiàn)所匹配的字符串并不是等長(zhǎng)的,一個(gè)明顯的例子是語言單元(一個(gè)語言單元可以表示語法結(jié)構(gòu)、語義角色等)。根據(jù)近似文本分析方法,多個(gè)語言單元可通過歸約得到一個(gè)新的語言單元。如果參與歸約的語言單元相距越遠(yuǎn),則新語言單元的覆蓋文本區(qū)域就越大(具體請(qǐng)參閱中國(guó)專利文獻(xiàn)"近似文本分析的裝置與方法",專利號(hào)200510023589.8)。參照前述的分布特性的定義,技術(shù)人員不難構(gòu)造出各種具體的分布特性數(shù)據(jù),以滿足實(shí)施時(shí)的具體的工程需要。類似地,一個(gè)所述候選特征在一個(gè)文本或文檔中的分布特性,是指所述文本或文檔中該候選特征的存在性、出現(xiàn)次數(shù)、各次出現(xiàn)位置、覆蓋的文本區(qū)域大小、和(或)其它與所述候選特征的分布情況有關(guān)的信息;關(guān)于一個(gè)候選特征在一個(gè)文本或文檔中的分布特性的數(shù)據(jù),:故稱為所述候選特征關(guān)于所述文本或文檔的分布特性數(shù)據(jù)。在本發(fā)明中,所述參照文檔以及所述輸入文本,并不特指由人類書面語言所書寫的自然語言文本,也可以是計(jì)算機(jī)代碼文本,或者標(biāo)記語言文本(比如HTML文本,XML文本),或者被數(shù)字化了的信號(hào)序列(比如語音信號(hào)),或者以編碼形式表達(dá)的序列(比如DNA序列)。本發(fā)明中所述的特征(候選特征或者結(jié)果特征),并不特指匹配一定文本子序列的模式(比如字符序列、關(guān)鍵詞、字符序列的模式、關(guān)鍵詞的模式),還可以指關(guān)于一定特征的匹配模式(比如,語法結(jié)構(gòu)、語義角色、標(biāo)記語言文本中的各種標(biāo)簽(tag)或塊(block)的布局特性)以及其它可以被某個(gè)檢索系統(tǒng)在檢索參照文檔集合時(shí)所利用的特征。一個(gè)特征是關(guān)于一定特征的匹配模式,有兩種情況(1)一個(gè)特征匹配一定特征,比如一個(gè)語義角色形式的特征,可以匹配某些具有該種語義角色的關(guān)鍵詞特征;(2)—個(gè)特征匹配一定特征構(gòu)成的組合,比如一個(gè)表示主謂結(jié)構(gòu)的語法特征,可以匹配由一個(gè)表示客觀實(shí)體的語義角色特征與一個(gè)表示動(dòng)詞的語法特征構(gòu)成的特征組合。本發(fā)明中所述的關(guān)鍵詞是指表征事物的特征。所述事物可以是通常意義上的客觀對(duì)象、動(dòng)作、事件,也可以是事物的性質(zhì)、狀態(tài)、程度等其它概念性表述。本發(fā)明中所述的任何一個(gè)裝置與任何一個(gè)第二裝置,可以是物理上不同的計(jì)算裝置,也可以是執(zhí)行不同操作序列的同一計(jì)算裝置,也可以是以不同操作參數(shù)執(zhí)行相同操作序列的同一計(jì)算裝置。所述操作參數(shù)為計(jì)算裝置執(zhí)行操作序列時(shí)需要獲取的必要數(shù)據(jù)。本發(fā)明中所述的用戶是指運(yùn)用本發(fā)明所涉及的方法操作本發(fā)明所涉及的系統(tǒng)的客體。用戶可以是自然人、組織機(jī)構(gòu)、或自動(dòng)裝置。所述本發(fā)明是指本說明書以及與本說明書所對(duì)應(yīng)的權(quán)利要求所披露的一切內(nèi)容。本發(fā)明中所述計(jì)算裝置,可以是但不限于計(jì)算機(jī)、嵌入式設(shè)備、電路、集成電路芯片、人工構(gòu)造的可執(zhí)行計(jì)算任務(wù)的高分子結(jié)構(gòu)、量子計(jì)算機(jī)、以及其它可完成計(jì)算任務(wù)的人造物。請(qǐng)參閱圖l所示,本發(fā)明所涉及的該種獲取有助于文本檢索的特征的系統(tǒng),包含但不限于輸入裝置,接收用戶提交的輸入文本;特征生成裝置,根據(jù)輸入文本生成至少一個(gè)候選特征;評(píng)分裝置,計(jì)算所述候選特征的關(guān)于檢索效力的至少一個(gè)評(píng)分;結(jié)果生成裝置,根據(jù)經(jīng)過評(píng)分的候選特征產(chǎn)生至少一個(gè)結(jié)果特征;輸出裝置,將結(jié)果特征數(shù)據(jù)輸出給用戶。其中,再請(qǐng)參閱圖2所示,所述的特征生成裝置還可以操作至少一個(gè)候選調(diào)整裝置,用以調(diào)整候選特征,即從原有候選特征中刪除一些候選特征和(或)加入一些特征作為新的候選特征。另一方面,所述的輸出裝置還輸出了每個(gè)結(jié)果特征的評(píng)分,一個(gè)所述結(jié)果特征的評(píng)分就是評(píng)分裝置對(duì)于候選特征數(shù)據(jù)中與所述結(jié)果特征等同的一個(gè)候選特征的評(píng)分。同時(shí),本發(fā)明所涉及的該種獲取有助于文本檢索的特征的方法,包含但不限于(1)輸入步驟,接收用戶提交的輸入文本;(2)特征生成步驟,根據(jù)輸入文本生成至少一個(gè)候選特征;(3)評(píng)分步驟,計(jì)算所述候選特征的關(guān)于檢索效力的至少一個(gè)評(píng)分;(4)結(jié)果生成步驟,#^居經(jīng)過評(píng)分的候選特征產(chǎn)生至少一個(gè)結(jié)果特征;(5)輸出步驟,以可被用戶處理或理解的表現(xiàn)形式將結(jié)果特征輸出給用戶;一個(gè)所述候選特征的關(guān)于檢索效力的評(píng)分的計(jì)算過程,至少部分依賴于所述候選特征在所述參照文檔集合中的分布特性。其中,在所述的特征生成步驟中還可以包含至少一個(gè)候選調(diào)整子步驟,從原有候選特征中刪除一些候選特征和/或加入一些特征作為新的候選特征。另一方面,所述的輸出步驟還輸出了每個(gè)結(jié)果特征的評(píng)分,一個(gè)所述結(jié)果特征的評(píng)分就是評(píng)分裝置對(duì)于候選特征數(shù)據(jù)中與所述結(jié)果特征等同的一個(gè)候選特征的評(píng)分。同時(shí),再請(qǐng)參閱圖3所示,所述評(píng)分的計(jì)算過程還至少部分依賴于所述候選特征在輸入文本中的分布特性;另一方面,進(jìn)一步地,所述評(píng)分的計(jì)算過程還至少部分依賴于所述候選特征在至少一個(gè)第二參照文檔集合中的分布特性。再請(qǐng)參閱圖4所示,本發(fā)明所涉及的該種評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的系統(tǒng),包含輸入裝置,接收用戶提交的輸入文本;關(guān)鍵詞生成裝置,根據(jù)輸入文本生成至少一個(gè)關(guān)鍵詞形式的候選特征;評(píng)分裝置,計(jì)算候選特征的至少一個(gè)評(píng)分;結(jié)果生成裝置,根據(jù)經(jīng)過評(píng)分的候選特征產(chǎn)生至少一個(gè)結(jié)果特征;輸出裝置,以可被用戶處理或理解的表現(xiàn)形式將結(jié)果特征輸出給用戶。其中,所述的關(guān)鍵詞生成裝置還可以操作至少一個(gè)候選調(diào)整裝置,用以調(diào)整候選特征,即從原有候選特征中刪除一些候選特征和(或)加入一些特征作為新的候選特征。另一方面,所述輸出裝置還輸出了每個(gè)結(jié)果特征的評(píng)分,一個(gè)所述結(jié)果特征的評(píng)分就是候選特征數(shù)據(jù)中與所述結(jié)果特征等同的一個(gè)候選特征的評(píng)分。進(jìn)一步地,該評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的系統(tǒng)中的輸入文本含有第一方需求的描述,所述參照文檔集合含有與第一方需求相對(duì)應(yīng)的第二方供給的描述;或者所述輸入文本含有第一方供給的描述,所述參照文檔集合含有與第一方供給相對(duì)應(yīng)的第二方需求的描述;或者所述輸入文本含有第一方供給或需求的描述,所述參照文檔集合含有與第一方需求或供給屬于同一類型的第二方需求或供給的描述。進(jìn)一步地,所述第二參照文檔集合含有與第一方的需求或供給屬于同類型的第三方的需求或供給的描述。所述輸入文本可被加入到第二參照文檔集合。同時(shí),本發(fā)明所涉及的該種評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的方法,包含但不限于(1)輸入步驟,接收用戶提交的輸入文本;(2)關(guān)鍵詞生成步驟,根據(jù)輸入文本生成至少一個(gè)關(guān)鍵詞形式的候選特征;(3)評(píng)分步驟,計(jì)算所述候選特征的至少一個(gè)評(píng)分;(4)結(jié)果生成步驟,根據(jù)經(jīng)過評(píng)分的候選特征產(chǎn)生至少一個(gè)結(jié)果特征;(5)輸出步驟,以可被用戶處理或理解的表現(xiàn)形式將結(jié)果特征輸出給用戶。其中,在所述的關(guān)鍵詞生成步驟中還可以包含至少一個(gè)候選調(diào)整子步驟,從原有候選特征中刪除一些候選特征和(或)加入一些特征作為新的候選特征。另一方面,所述的輸出步驟還輸出了每個(gè)結(jié)果特征的評(píng)分,一個(gè)所述結(jié)果特征的評(píng)分就是候選特征數(shù)據(jù)中與所述結(jié)果特征等同的一個(gè)候選特征的評(píng)分。同時(shí),一個(gè)所述候選特征的評(píng)分的計(jì)算過程,至少部分依賴于所述候選特征在所述參照文檔集合中的分布特性。進(jìn)一步地,所述評(píng)分的計(jì)算過程還至少部分依賴于所述候選特征在輸入文本中的分布特性,和(或)至少部分依賴于所述候選特征在至少一個(gè)第二參照文檔集合中的分布特性。不僅如此,再請(qǐng)參閱圖5所示,根據(jù)前述的一種評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的系統(tǒng)與方法,本發(fā)明所涉及的該種根據(jù)某人的簡(jiǎn)歷評(píng)估其職業(yè)優(yōu)勢(shì)的系統(tǒng)與方法,其特征在于輸入文本,參照文檔集合,第二參照文檔集合采取如下配置之一輸入文本參照文檔集合第二參照文檔集合簡(jiǎn)歷文本招聘啟事庫(kù)筒歷文本招聘啟事庫(kù)簡(jiǎn)歷庫(kù)簡(jiǎn)歷文本簡(jiǎn)歷庫(kù)簡(jiǎn)歷文本簡(jiǎn)歷庫(kù)招聘啟事庫(kù)再請(qǐng)參閱圖6所示,本發(fā)明所涉及的該種以文本作為查詢輸入的文檔;f全索的系統(tǒng),包含但不限于輸入裝置,接收用戶提交的輸入文本;上述的獲取有助于文本檢索的特征的系統(tǒng)",根據(jù)輸入文本得到含有結(jié)果特征的輸出結(jié)果;檢索裝置,將輸出結(jié)果輸入檢索系統(tǒng)獲得檢索結(jié)果;檢索輸出裝置,將檢索結(jié)果輸出。下面詳細(xì)說明本發(fā)明的上述技術(shù)方案中所涉及的方法中的各個(gè)步驟1、輸入步驟本發(fā)明涉及的方法中,包含一個(gè)利用輸入裝置獲取用戶提交的輸入文本的輸入步驟。輸入裝置可以有多種實(shí)現(xiàn)方式,可以是但不限于硬件形式的接口(如網(wǎng)絡(luò)接口、USB接口、RS232接口、芯片引腳),軟件形式的接口(如人機(jī)交互界面、操作系統(tǒng)中的存儲(chǔ)介質(zhì)訪問接口、數(shù)據(jù)庫(kù)ODBC接口、網(wǎng)絡(luò)訪問接口)等。在實(shí)施中,輸入步驟可被設(shè)計(jì)為接受文本標(biāo)識(shí)而非整個(gè)文本,這應(yīng)被認(rèn)為與接受文本作為文本輸入是等價(jià)的。比如技術(shù)人員構(gòu)造一個(gè)額外的輸入子系統(tǒng),接收用戶的輸入文本,并保存到存儲(chǔ)介質(zhì)中的輸入文本庫(kù)中;而在本輸入步驟中,本系統(tǒng)接收用戶提交的標(biāo)識(shí),通過訪問存儲(chǔ)介質(zhì),從輸入文本庫(kù)中找出與標(biāo)識(shí)相匹配的文本作為輸入文本。2、特征生成步驟該步驟利用特征生成裝置根據(jù)輸入文本生成候選特征的特征生成步驟。所述特征生成裝置,識(shí)別出在輸入文本中出現(xiàn)的特征,作為候選特征。進(jìn)一步地,如果評(píng)分裝置計(jì)算候選特征的評(píng)分還依賴于候選特征關(guān)于輸入文本的分布特性數(shù)據(jù),則特征生成裝置還生成所述候選特征關(guān)于輸入文本的分布特性數(shù)據(jù)。從輸入文本中識(shí)別候選特征的特征生成裝置,可以有多種實(shí)現(xiàn)方式(1)靜態(tài)識(shí)別能力模式。實(shí)施時(shí),技術(shù)人員通過生成工具將給定的識(shí)別數(shù)據(jù)轉(zhuǎn)換為所述特征生成裝置的處理邏輯的一部分。所述識(shí)別數(shù)據(jù)描述了可被識(shí)別的候選特征應(yīng)該滿足的條件。如果只識(shí)別字符序列、關(guān)鍵詞等形式的不需要全局觀察所述輸入文本就能正確識(shí)別的檢索特征,所述特征生成裝置可以由詞法分析器生成工具(比如LEX)產(chǎn)生為一個(gè)詞法分析器。所述識(shí)別數(shù)據(jù)含有構(gòu)造詞法分析器時(shí)用于描述被匹配檢索特征的規(guī)則(通常為正則表達(dá)式)。如果識(shí)別的檢索特征涉及語法模式、語義角色、標(biāo)記語言的布局特性等形式的需要觀察文本全局才能正確識(shí)別的4全索特征,所述特征生成裝置可以由語法分析器生成工具(比如YACC)產(chǎn)生為一個(gè)語法分析器。所述識(shí)別數(shù)據(jù)含有構(gòu)造語法分析器時(shí)用于描述被匹配檢索特征的規(guī)則(通常為正則表達(dá)式)。特別地,在中國(guó)專利"ZL200510023589.8近似文本分析的裝置和方法"中,披露了一種文本分析器,借助于松散形式的歸約,可以不通過完全的文本分析而捕捉到符合特定規(guī)則的語法模式或者語義角色。當(dāng)然,技術(shù)人員也可以將至少一個(gè)詞法分析器與至少一個(gè)語法分析器組合起來,構(gòu)造出功能更強(qiáng)大的特征生成裝置。如何將詞法分析器與語法分析器組合起來,在計(jì)算機(jī)科學(xué)中屬于公知技術(shù),不再贅述。(2)動(dòng)態(tài)識(shí)別能力模式。實(shí)施時(shí),技術(shù)人員在所述特征生成裝置中加入了訪問識(shí)別數(shù)據(jù)的處理邏輯。所述識(shí)別數(shù)據(jù)描述了可被識(shí)別的候選特征應(yīng)該滿足的條件。最簡(jiǎn)單的實(shí)現(xiàn)方式是,一個(gè)軟件用一個(gè)滑動(dòng)窗掃描所述輸入文本,將滑動(dòng)窗內(nèi)的字符片段與查找表上的各種檢索特征進(jìn)行比對(duì),實(shí)現(xiàn)識(shí)別的功能。所述查找表是所述識(shí)別數(shù)據(jù)在此例中的實(shí)現(xiàn)方式。(3)靜態(tài)識(shí)別能力與動(dòng)態(tài)識(shí)別能力相組合的模式。在實(shí)施時(shí),技術(shù)人員將識(shí)別數(shù)據(jù)中部分內(nèi)容轉(zhuǎn)換所述特征生成裝置的處理邏輯的一部份,并在特征生成裝置中加入了訪問識(shí)別數(shù)據(jù)中剩余部分內(nèi)容的處理邏輯。在本發(fā)明中,進(jìn)一步地,所述特征生成裝置還生成了評(píng)分裝置所需要的候選特征數(shù)據(jù)中的候選特征關(guān)于所述輸入文本的分布特性數(shù)據(jù)。所述特征生成裝置在識(shí)別出所述候選特征在所述輸入文本中的每一出現(xiàn)時(shí),將所述候選特征在本次出現(xiàn)時(shí)的上下文數(shù)據(jù)記錄到計(jì)算裝置可訪問的存儲(chǔ)介質(zhì)上;最后根據(jù)記錄下的關(guān)于所述候選特征的所有上下文數(shù)據(jù),通過計(jì)算產(chǎn)生所述候選特征關(guān)于輸入文本的分布特性數(shù)據(jù)。所述上下文數(shù)據(jù)是所述特征生成裝置在處理過程中的某一步驟為了保存狀態(tài)而產(chǎn)生的數(shù)據(jù)(比如變量值、堆棧、內(nèi)存緩沖、臨時(shí)文件等)。比如,評(píng)分裝置在評(píng)分計(jì)算過程中需要得到一個(gè)候選特征在輸入文本中出現(xiàn)位置相對(duì)文本開始位置的平均偏移,則特征生成裝置中可以增加相應(yīng)的控制邏輯,使得每當(dāng)一個(gè)候選特征X的出現(xiàn)被識(shí)別,則上下文數(shù)據(jù)<X,">就被記錄到計(jì)算裝置可讀的存儲(chǔ)介質(zhì)中,其中y就表示本次的出現(xiàn)在文本中的位置,/表示第/次出現(xiàn)。特征生成裝置完成抽取后,將所述存儲(chǔ)介質(zhì)中的所有上下文數(shù)據(jù)按照候選特征進(jìn)行分組。每個(gè)候選特征x對(duì)應(yīng)<1,;>,<x,;r2>,......,<x,};,>。這樣義在所述輸入文本中的平均偏移7=丄^1;就可以計(jì)算得到。實(shí)施時(shí),技術(shù)人員參照本例,不難得到一個(gè)候選特征關(guān)于一個(gè)輸入文本的其它分布特性數(shù)據(jù)。由于和前述處理輸入文本而產(chǎn)生候選特征及其在輸入文本中的分布特性數(shù)據(jù)的特征生成裝置十分類似,對(duì)于處理第一參照文檔集合而產(chǎn)生第一特征數(shù)據(jù)的第一特征數(shù)據(jù)生成裝置與處理第二參照文檔集合而產(chǎn)生第二特征數(shù)據(jù)的第二特征數(shù)據(jù)生成裝置,不再贅述。3、關(guān)鍵詞生成步驟該步驟利用關(guān)鍵詞生成裝置根據(jù)輸入文本生成至少一個(gè)關(guān)鍵詞形式的候選特征。參照前述特征生成步驟與特征生成裝置,技術(shù)人員不難實(shí)現(xiàn)關(guān)鍵詞生成步驟與關(guān)鍵詞生成裝置。對(duì)于如何確保關(guān)鍵詞生成步驟根據(jù)輸入文本而輸出的是關(guān)鍵詞形式的候選特征,可以參考關(guān)鍵詞抽取(KeywordExtraction)方面的文獻(xiàn)。如果希望在不增加額外數(shù)據(jù)的情況下實(shí)現(xiàn)本步驟,一個(gè)最簡(jiǎn)單的方法是抽取單個(gè)的漢字或者單個(gè)的單詞作為候選關(guān)鍵詞。更進(jìn)一步可以抽取N個(gè)連續(xù)的漢字或者N個(gè)連續(xù)的單詞(即N-gram)作為候選關(guān)鍵詞。依靠上述簡(jiǎn)化方法,雖然某些結(jié)果可能是不具有實(shí)際意義的字符串,但可以極大筒化工程實(shí)現(xiàn)。而且,非關(guān)鍵詞的特征往往因?yàn)槌霈F(xiàn)較少而導(dǎo)致其評(píng)分較低,因而可大致地與合法的關(guān)鍵詞區(qū)別開。4、候選調(diào)整子步驟本發(fā)明涉及的方法,在特征生成步驟之中還可以包含至少一個(gè)利用候選調(diào)整裝置調(diào)整候選特征的候選調(diào)整子步驟。所述候選調(diào)整子步驟可以是刪除至少一個(gè)候選特征的子步驟。一個(gè)所述刪除子步驟將至少一個(gè)符合第一預(yù)設(shè)準(zhǔn)則的候選特征刪除。所述第一預(yù)設(shè)準(zhǔn)則在實(shí)施時(shí)有多種實(shí)現(xiàn)方式,比如第一預(yù)設(shè)準(zhǔn)則可以是一個(gè)預(yù)先設(shè)定的黑名單,用于去除黑名單上所列的候選特征;如果候選特征的評(píng)分計(jì)算依賴于候選特征關(guān)于輸入文本的分布特性數(shù)據(jù),則第一預(yù)設(shè)準(zhǔn)則還可以含有若干關(guān)于分布特性的限制規(guī)則,如候選特征在輸入文本中必須達(dá)到的最少出現(xiàn)次數(shù)等。在美國(guó)專利"US7191177Keywordextractingdevice"中,披露了如何從輸入文本中抽取候選關(guān)鍵詞,然后通過黑名單過濾來精簡(jiǎn)候選關(guān)鍵詞。所述候選調(diào)整子步驟可以是增加至少一個(gè)候選特征的子步驟。一個(gè)所述增加子步驟,訪問至少一個(gè)候選特征,對(duì)于當(dāng)前被訪問的候選特征A,根據(jù)反映特征關(guān)聯(lián)性的數(shù)據(jù),找出A所涉及的至少一個(gè)關(guān)聯(lián)檢索特征B,并將B作為一個(gè)新的候選特征。這將產(chǎn)生智能聯(lián)想的效果,使得用戶可以得到未在輸入文本出現(xiàn)但是與用戶需求有關(guān)的特征。進(jìn)一步地,將A的分布特性數(shù)據(jù)作為B的分布特性數(shù)據(jù)。所述反映特征關(guān)聯(lián)性的數(shù)據(jù),可以來自用戶指定,也可以來自一個(gè)人工維護(hù)的描述特征之間關(guān)聯(lián)性的知識(shí)庫(kù)(比如,本體庫(kù)),也可以是通過自動(dòng)過程獲得的特征關(guān)聯(lián)性的知識(shí)(比如,根據(jù)對(duì)某個(gè)語料的語言統(tǒng)計(jì)學(xué)分析而得到的檢索特征之間的共現(xiàn)性,作為關(guān)聯(lián)),或半人工半自動(dòng)方式獲得的特征關(guān)聯(lián)性的知識(shí)(比如,利用有指導(dǎo)的機(jī)器學(xué)習(xí)發(fā)現(xiàn)檢索特征之間共現(xiàn)性,作為關(guān)聯(lián))。在美國(guó)專利申請(qǐng)"US2008/0243820Semanticanalysisdocumentstorankterm,'與"US2008/0133509SelectingKeywordsRepresentativeofaDocument"中,披露了從輸入文本中抽取候選關(guān)鍵詞,利用本體對(duì)候選關(guān)鍵詞計(jì)算評(píng)分,實(shí)現(xiàn)候選關(guān)鍵詞的擴(kuò)展。本發(fā)明的實(shí)施人員可以參照這些文獻(xiàn)以及其它相關(guān)文獻(xiàn),來實(shí)現(xiàn)所述候選調(diào)整子步驟。5、評(píng)分步驟本發(fā)明涉及的方法,包含一個(gè)利用評(píng)分裝置計(jì)算候選特征的至少一個(gè)評(píng)分的評(píng)分步驟。所述候選特征的評(píng)分,至少部分依賴于所述候選特征在所述參照文檔集合中的分布特性。進(jìn)一步地,所述評(píng)分還至少部分依賴于所述候選特征在輸入文本中的分布特性,和(或)至少部分依賴于所述候選特征在至少一個(gè)第二參照文檔集合中的分布特性。在本發(fā)明中,一個(gè)參照文檔可以同時(shí)屬于參照文檔集合以及一個(gè)第二參照文檔集合,和(或)一個(gè)參照文檔可以同時(shí)屬于一個(gè)以上的第二參照文檔集合。該步驟涉及三個(gè)技術(shù)問題(1)候選特征關(guān)于輸入文本、參照文檔集合、和(或)第二參照文檔集合中的分布特性數(shù)據(jù)是如何產(chǎn)生的。在本發(fā)明中,一個(gè)第一特征數(shù)據(jù)生成裝置生成一個(gè)候選特征關(guān)于參照文檔集合的分布特性數(shù)據(jù);進(jìn)一步地,一個(gè)特征生成裝置除了生成候選特征還生成候選特征關(guān)于輸入文本的分布特性數(shù)據(jù),和(或)至少一個(gè)第二特征數(shù)據(jù)生成裝置生成所述候選特征關(guān)于至少一個(gè)第二參照文檔集合的分布特性數(shù)據(jù)。在實(shí)施時(shí),一個(gè)特征生成裝置與一個(gè)第一特征數(shù)據(jù)生成裝置可以是同一裝置,一個(gè)第一特征數(shù)據(jù)生成裝置與一個(gè)第二特征數(shù)據(jù)生成裝置可以是同一裝置,和(或)一個(gè)特征生成裝置與一個(gè)第二特征數(shù)據(jù)生成裝置可以是同一裝置。(2)評(píng)分裝置如何獲取候選特征關(guān)于輸入文本、參照文檔集合、和(或)第二參照文檔集合中的分布特性數(shù)據(jù)。評(píng)分裝置所需要的候選特征關(guān)于輸入文本的分布特性數(shù)據(jù),來源于候選特征數(shù)據(jù)。評(píng)分裝置獲取候選特征關(guān)于參照文檔集合的分布特性數(shù)據(jù),可以有如下方式但不限于(A)靜態(tài)方式。所述分布特性數(shù)據(jù)由評(píng)分裝置從一個(gè)第一特征數(shù)據(jù)中獲取。而第一特征數(shù)據(jù)由其它系統(tǒng)根據(jù)參照文檔集合產(chǎn)生,或者由本系統(tǒng)根據(jù)參照文檔集合產(chǎn)生。對(duì)于前一種方案,本系統(tǒng)只需要負(fù)責(zé)獲取必要分布特性數(shù)據(jù)進(jìn)行計(jì)算,可以簡(jiǎn)化設(shè)計(jì)。對(duì)于后一種方案,在輸入步驟之前,包含一個(gè)準(zhǔn)備步驟,用所述第一特征數(shù)據(jù)生成裝置根據(jù)參照文檔集合生成第一對(duì)比特征,并生成第一對(duì)比特征關(guān)于參照文檔集合的分布特性數(shù)據(jù),并保存到第一特征數(shù)據(jù)中。在靜態(tài)方式中,系統(tǒng)將所有可能被用到的分布特性數(shù)據(jù)都事先準(zhǔn)備好,并存放到特定的數(shù)據(jù)結(jié)構(gòu)中。每當(dāng)本發(fā)明所涉及的系統(tǒng)被用戶訪問時(shí),不需要處理參照文檔集合,節(jié)約了時(shí)間。此方式適用于參照文檔集合中的內(nèi)容不會(huì)頻繁變更的場(chǎng)合。(B)動(dòng)態(tài)方式。所述分布特性數(shù)據(jù)由評(píng)分裝置通過調(diào)用第一特征數(shù)據(jù)生成裝置而直接獲取。在此方式中,每當(dāng)本發(fā)明所涉及的系統(tǒng)被用戶訪問時(shí),都要重新處理參照文檔集合以得到所述分布特性數(shù)據(jù)。此方式適用于參照文檔集合頻繁變更或者文檔規(guī)模較小的場(chǎng)合。評(píng)分裝置獲取候選特征關(guān)于至少一個(gè)第二參照文檔集合的分布特性數(shù)據(jù),可以有如下方式但不限于(A)靜態(tài)方式。所述分布特性數(shù)據(jù)由評(píng)分裝置從至少一個(gè)第二特征數(shù)據(jù)中獲取。第二特征數(shù)據(jù)的產(chǎn)生依賴于第二參照文檔集合,具體實(shí)現(xiàn)參考第一特征數(shù)據(jù)的產(chǎn)生。(B)動(dòng)態(tài)方式。所述分布特性數(shù)據(jù)由評(píng)分裝置通過調(diào)用第二特征數(shù)據(jù)生成裝置而獲取。(3)評(píng)分裝置如何依賴于候選特征關(guān)于輸入文本、參照文檔集合、和(或)第二參照文檔集合中的分布特性數(shù)據(jù)對(duì)所述候選特征計(jì)算評(píng)分。給定一個(gè)參照文檔集合A(含N個(gè)參照文檔),以及一個(gè)候選特征X,實(shí)施本發(fā)明的技術(shù)人員可以構(gòu)造多種評(píng)分公式。比如s,(X)=/2(X)log25Oil)S2(X)=/。(Z》l0g2(AX)logW^(AX)給定一個(gè)參照文檔集合j,以及M個(gè)第二參照文檔集合B,(含有^個(gè)第二參照文檔),以及一個(gè)候選特征X,實(shí)施本發(fā)明的技術(shù)人員可以構(gòu)造多種評(píng)分公式。比如<formula>formulaseeoriginaldocumentpage24</formula>以上公式所用到的函數(shù)參見下表說明log2等。輸入文本中X是否存在(1:存在;0:不存在)輸入文本中I的出現(xiàn)次數(shù)輸入文本中;r所有實(shí)例所覆蓋的文本區(qū)域大小的總和文檔集合D中含有X的文檔數(shù)文檔集合D中X出現(xiàn)的總次數(shù)E'(Z),X)文檔集合D中X各實(shí)例在J的所屬各文檔"中的首次出現(xiàn)的偏移位置相對(duì)于文檔"長(zhǎng)度的比值的平均值柳I)文檔集合Z)中X各實(shí)例在J的所屬各文檔a中所覆蓋的文本區(qū)域大小的總和參照上表中的函數(shù),在實(shí)施時(shí),技術(shù)人員可以構(gòu)造新的函數(shù),從而依賴于候選特征關(guān)于輸入文本,參照文檔集合,和/或第二參照文檔集合的分布特性數(shù)據(jù),來對(duì)所述候選特征計(jì)算評(píng)分。6、結(jié)果生成步驟本發(fā)明涉及的方法還包括利用結(jié)果生成裝置根據(jù)經(jīng)過評(píng)分的候選特征產(chǎn)生至少一個(gè)結(jié)果特征的結(jié)果生成步驟。所述產(chǎn)生結(jié)果特征的方式,可以是將候選特征進(jìn)行調(diào)整,將調(diào)整后的候選特征作為結(jié)果特征;或?qū)⒑蜻x特征直接作為結(jié)果特征。所述對(duì)經(jīng)過評(píng)分的候選特征的調(diào)整,可以以下任一方式或是若干種方式的組合(1)去除評(píng)分無意義的候選特征(這種情況產(chǎn)生于候選特征在參照文檔集合和(或)第二參照文檔集合中未被發(fā)現(xiàn));(2)去除符合第二預(yù)設(shè)準(zhǔn)則的部分候選特征;(3)對(duì)候選特征進(jìn)行排序。(4)其它造成候選特征變動(dòng)的操:作。所述第二預(yù)設(shè)準(zhǔn)則的設(shè)定是為了更好地收縮返回結(jié)果的規(guī)模,提高反饋信息的質(zhì)量。在實(shí)施時(shí)有多種方式,比如將評(píng)分低于閾值的候選特征去除;統(tǒng)計(jì)各個(gè)候選特征的評(píng)分,計(jì)算評(píng)分的均值E與均方差5,將評(píng)分低于£-35的候選特征去除;統(tǒng)計(jì)各個(gè)候選特征的評(píng)分,計(jì)算評(píng)分的中位數(shù),將評(píng)分低于中位數(shù)的候選特征去除。參照這些例子,技術(shù)人員在實(shí)施時(shí),可以構(gòu)造其它符合具體工程要求的第二預(yù)設(shè)準(zhǔn)則。7、輸出步驟最后,本發(fā)明所涉及的方法包含一個(gè)輸出步驟,利用輸出裝置以可被用戶處理或理解的表現(xiàn)形式輸出結(jié)果特征和/或各結(jié)果特征對(duì)應(yīng)的評(píng)分。所述表現(xiàn)形式,可以是但不限于二進(jìn)制數(shù)據(jù)文件;表格;圖表;動(dòng)畫;超文本(HTML)形式的輸入丈本,在其中用不同顏色標(biāo)出評(píng)分屬于不同等級(jí)的結(jié)果特征;超文本形式的輸入文本,在其中用鏈接標(biāo)出結(jié)果特征,當(dāng)用戶通過瀏覽器訪問該超文本,點(diǎn)擊超文本中的鏈接將通過一個(gè)檢索系統(tǒng)搜索含有與鏈接對(duì)應(yīng)的結(jié)果特征的文檔;和(或)其它可被用戶處理或理解的表現(xiàn)形式。輸出裝置可以有多種實(shí)現(xiàn)方式,可以是但不限于硬件形式的接口(如網(wǎng)絡(luò)接口、USB接口、RS232接口、芯片引腳),軟件形式的接口(如人機(jī)交互界面、操作系統(tǒng)中的存儲(chǔ)介質(zhì)訪問接口、數(shù)據(jù)庫(kù)ODBC接口、網(wǎng)絡(luò)訪問接口)等。在某些實(shí)施中,輸出裝置可與輸入裝置共享同一物理接口或邏輯接口。以下給出一些本發(fā)明的具體實(shí)施例。同時(shí)可以理解,本發(fā)明并不局限這些特定的實(shí)施例。實(shí)施例一一個(gè)幫助用戶從提交的輸入文本中尋找具有檢索效力的特征的系統(tǒng)請(qǐng)參閱圖l所示,圖中示出依據(jù)本發(fā)明實(shí)施例的一種獲取有助于檢索的特征的系統(tǒng)。該系統(tǒng)100按如下方式運(yùn)行于一個(gè)計(jì)算機(jī)系統(tǒng)上在準(zhǔn)備步驟中,用第一特征數(shù)據(jù)生成裝置掃描參照文檔集合152中每個(gè)參照文檔。當(dāng)掃描一個(gè)參照文檔時(shí),第一特征數(shù)據(jù)生成裝置將識(shí)別出的每個(gè)由連續(xù)英文字母構(gòu)成的單詞,保存到字典樹(trie),字典樹中該單詞對(duì)應(yīng)的計(jì)數(shù)加1。當(dāng)掃描完畢時(shí),這個(gè)字典樹包含了參照文檔集合152中所有的英文單詞及每種單詞在參照文檔集合152中的出現(xiàn)總次數(shù)。每種英文單詞都是所述第一對(duì)比特征,每個(gè)第一對(duì)比特征的出現(xiàn)總次數(shù)就是該第一對(duì)比特征關(guān)于參照文檔集合152的分布特性數(shù)據(jù)。該字典樹被作為第一特征數(shù)據(jù)。第一特征數(shù)據(jù)生成裝置106可以由LEX編譯一個(gè)LEX文件而產(chǎn)生,該LEX文件中使用正則表達(dá)式(RegularExpression)來描述連續(xù)的英文字符。這樣第一特征數(shù)據(jù)生成裝置106可以捕捉連續(xù)英文字符所表示的單詞。當(dāng)用戶提交輸入文本時(shí)(1)在輸入步驟,利用輸入裝置101獲取用戶鍵盤輸入的輸入文本151并保存于內(nèi)存。(2)在特征生成步驟,利用特征生成裝置102,訪問內(nèi)存中的輸入文本151,并根據(jù)輸入文本151生成候選特征X={x,x2,..,x},其中x,是一個(gè)候選特征,將這些候選特征構(gòu)成一個(gè)數(shù)組。特征生成裝置102由LEX編譯一個(gè)LEX文件而產(chǎn)生。該LEX文件中使用的規(guī)則描述了連續(xù)的英文字符,因而特征生成裝置102可以捕捉連續(xù)英文字符所表示的單詞。此外,該LEX規(guī)則對(duì)應(yīng)的動(dòng)作中含有將匹配字符串放入字符串?dāng)?shù)組的指令,LEX文件還描述了在程序掃描輸入丈本完畢后對(duì)字符串?dāng)?shù)組進(jìn)行排序和去除重復(fù),并保存為一個(gè)候選特征數(shù)組154。因此特征生成裝置102掃描輸入文本151后,將輸入文本151含有的所有英文單詞保存到一個(gè)候選特征數(shù)組154。(3)在評(píng)分步驟,利用評(píng)分裝置103,依次訪問候選特征數(shù)組154中每個(gè)成員,對(duì)于當(dāng)前成員x,,訪問第一特征數(shù)據(jù)并得到x,的分布特性數(shù)據(jù)x。計(jì)算該候選特征x,的關(guān)于檢索效力的評(píng)分,得到關(guān)于x,的評(píng)分。評(píng)分函數(shù)為<formula>formulaseeoriginaldocumentpage26</formula>其中函數(shù)F2(Ax)表示文檔集合D中候選特征x的總出現(xiàn)數(shù),即_y,;A為參照文檔集合。當(dāng)完成計(jì)算后,將所有候選特征的評(píng)分也構(gòu)成一個(gè)數(shù)組。候選特征數(shù)組154的各個(gè)成員與評(píng)分?jǐn)?shù)組各成員——對(duì)應(yīng)。(4)在結(jié)果生成步驟,利用結(jié)果生成裝置104,根據(jù)給定的候選特征數(shù)組154與評(píng)分?jǐn)?shù)組,按照候選特征的評(píng)分對(duì)候選特征進(jìn)行排序,將排序后的候選特征作為結(jié)果特征。(5)輸出步驟,利用輸出裝置105,以可被用戶處理或理解的表現(xiàn)形式將結(jié)果特征作為輸出結(jié)果153輸出給用戶。再請(qǐng)參閱圖2所示,圖中示出依據(jù)本發(fā)明實(shí)施例的一種獲取有助于檢索的特征的系統(tǒng)。該系統(tǒng)200與前述系統(tǒng)100有幾處不同(1)沒有準(zhǔn)備步驟。(2)在特征生成步驟中,利用特征生成裝置202產(chǎn)生候選特征數(shù)組154。特征生成裝置202在執(zhí)行完特征生成裝置102的全部功能后,還有一個(gè)候選調(diào)整子步驟,利用候選調(diào)整裝置206進(jìn)行候選特征的調(diào)整依次訪問候選特征數(shù)組154中的每個(gè)候選特征,查看該候選特征是否存在于預(yù)先設(shè)置的黑名單,如果是則將該候選特征從數(shù)組154中清除。(3)在評(píng)分步驟中,利用評(píng)分裝置203,依次訪問候選特征數(shù)組154中每個(gè)成員,對(duì)于當(dāng)前成員x,,在參照文檔集合152中依次查找每個(gè)文檔,統(tǒng)計(jì)含有x,的總文檔數(shù)z,,作為x,的分布特性數(shù)據(jù);計(jì)算該候選特征x,的評(píng)分。評(píng)分函數(shù)為(x,)=-log2巧(=-log2z,;其中函數(shù)^(Ax)表示文檔集合D中候選特征x的總文檔數(shù),即z,;A為參照文檔集合。當(dāng)完成計(jì)算后,將所有候選特征的評(píng)分也構(gòu)成一個(gè)數(shù)組。候選特征數(shù)組154的各個(gè)成員與評(píng)分?jǐn)?shù)組各成員——對(duì)應(yīng)。再請(qǐng)參閱圖3所示,圖中示出依據(jù)本發(fā)明實(shí)施例的一種獲取有助于檢索的特征的系統(tǒng)。該系統(tǒng)300與前述系統(tǒng)100有多處不同在準(zhǔn)備步驟中,用第一特征數(shù)據(jù)生成裝置106依次掃描參照文檔集合152中每份文檔。對(duì)于當(dāng)前被處理的文檔,掃描該文檔并識(shí)別出的每個(gè)英文單詞。每當(dāng)識(shí)別出一個(gè)英文單詞,查看第一字典樹中是否存在該單詞。如果不存在,則在第一字典樹中加入該單詞,并在第二字典樹中也加入該單詞,同時(shí)第二字典樹中該單詞的文檔計(jì)數(shù)加1。每當(dāng)掃描完一個(gè)文檔,則將第一字典樹清空。當(dāng)掃描完所有文檔后,取出第二字典樹中所有單詞及其計(jì)數(shù)保存到第一特征數(shù)據(jù)。第一特征數(shù)據(jù)中每個(gè)第一對(duì)比特征就是一個(gè)單詞,每個(gè)第一對(duì)比特征的分布特性數(shù)據(jù)就是該單詞的總文檔數(shù)(文檔計(jì)數(shù))。與第一特征數(shù)據(jù)生成裝置類似,用第二特征數(shù)據(jù)生成裝置307根據(jù)第二參照文檔集合353生成第二對(duì)比特征,以及每個(gè)第二對(duì)比特征在第二參照文檔集合353中出現(xiàn)的總文檔數(shù)作為該第二對(duì)比特征關(guān)于第二參照文檔集合353的分布特性數(shù)據(jù),并保存到第二特征數(shù)據(jù)中。當(dāng)用戶提交輸入文本時(shí),其不同之處在于(l)在特征生成步驟中,利用特征生成裝置302,訪問內(nèi)存中的輸入文本151,識(shí)別出各種由連續(xù)英文字符構(gòu)成的英文單詞,并對(duì)每種英文單詞的出現(xiàn)次數(shù)進(jìn)行計(jì)數(shù)。特征生成裝置302由LEX編譯一個(gè)LEX文件而產(chǎn)生。通過構(gòu)造適合的LEX文件,技術(shù)人員對(duì)上述功能不難實(shí)現(xiàn),這里不再贅述。當(dāng)特征生成裝置302完成對(duì)輸入文本151的掃描,將輸入文本151中出現(xiàn)的每種單詞作為一個(gè)候選特征,以及將該種單詞在輸入文本151中的出現(xiàn)次數(shù)作為該候選特征關(guān)于輸入文本151的分布特性數(shù)據(jù),存儲(chǔ)在數(shù)組354中。(2)在評(píng)分步驟中,利用評(píng)分裝置303訪問數(shù)組354,從中讀取每個(gè)候選特征;對(duì)于每個(gè)候選特征x,,評(píng)分裝置303從訪問數(shù)組354讀取x,關(guān)于輸入文本151的分布特性數(shù)據(jù)w,,從第一特征數(shù)據(jù)中讀取x,關(guān)于參照文檔集合152的分布特性數(shù)據(jù)y,,從第二特征數(shù)據(jù)中讀取x,關(guān)于第二參照文檔集合353的分布特性數(shù)據(jù)z,,計(jì)算該候選特征x,的評(píng)分。評(píng)分函數(shù)為W)=l0g2^^:=l0g2i,\(x,)=y;(x,)=w,;其中函數(shù)y;(x)表示輸入文本中候選特征x的出現(xiàn)次數(shù),函數(shù)巧(d,x)表示文檔集合d中候選特征x的總文檔數(shù);A為參照文檔集合;B為第二參照文檔集合。當(dāng)完成計(jì)算后,將所有候選特征的評(píng)分追加到一個(gè)評(píng)分?jǐn)?shù)組355,數(shù)組每個(gè)成員與候選特征數(shù)組354的各候選特征--對(duì)應(yīng),每個(gè)成員包含該候選特征X,的兩個(gè)評(píng)分、(X,)與~(x,)。(3)在結(jié)果生成步驟中,利用結(jié)果生成裝置304,根據(jù)給定的候選特征數(shù)組154與評(píng)分?jǐn)?shù)組,按照評(píng)分?jǐn)?shù)組中各候選特征x,的評(píng)分、(x,)對(duì)候選特征進(jìn)行排序,并將候選特征作為結(jié)果特征,將結(jié)果特征x,及其評(píng)分、(x,)構(gòu)成一個(gè)數(shù)組元素追加到數(shù)組356。(4)在輸出步驟中,利用輸出裝置305,根據(jù)數(shù)組356生成如下表格,作為輸出結(jié)果153輸出給用戶。<table>tableseeoriginaldocumentpage28</column></row><table>實(shí)施例二一種評(píng)價(jià)與用戶提交的輸入文本相關(guān)事物的價(jià)值的系統(tǒng)。再請(qǐng)參閱圖4所示,圖中示出依據(jù)本發(fā)明實(shí)施例的一種評(píng)價(jià)與用戶提交的輸入文本相關(guān)事物的價(jià)值的系統(tǒng)。該系統(tǒng)400的運(yùn)行,包含以下步驟在準(zhǔn)備步驟中,用第一特征數(shù)據(jù)生成裝置406依次掃描參照文檔集合152中每份文檔。對(duì)于當(dāng)前被處理的文檔,掃描該文檔并識(shí)別出的每個(gè)英文單詞。每當(dāng)識(shí)別出一個(gè)英文單詞,查看第一字典樹中是否存在該單詞。如果不存在,則在第一字典樹中加入該單詞,并在第二字典樹中也加入該單詞,同時(shí)第二字典樹中該單詞的文檔計(jì)數(shù)加1。每當(dāng)掃描完一個(gè)文檔,則將第一字典樹清空。當(dāng)掃描完所有文檔后,取出第二字典樹中所有單詞及其文檔計(jì)數(shù)保存到第一特征數(shù)據(jù)。第一特征數(shù)據(jù)中每個(gè)第一對(duì)比特征就是一個(gè)單詞,每個(gè)第一對(duì)比特征的分布特性數(shù)據(jù)就是該單詞的總文檔數(shù)(文檔計(jì)數(shù))。與第一特征數(shù)據(jù)生成裝置類似,用第二特征數(shù)據(jù)生成裝置407根據(jù)第二參照文檔集合353生成第二對(duì)比特征,,以及每個(gè)第二對(duì)比特征在第二參照文檔集合353中出現(xiàn)的總文檔數(shù)作為該第二對(duì)比特征關(guān)于第二參照文檔集合353的分布特性數(shù)據(jù),并保存到第二特征數(shù)據(jù)中。當(dāng)用戶提交輸入文本時(shí)(1)輸入步驟,利用輸入裝置101獲取輸入文本151并保存于內(nèi)存。(2)關(guān)鍵詞生成步驟,利用關(guān)鍵詞生成裝置402,訪問內(nèi)存中的輸入文本151,并根據(jù)輸入文本151生成候選關(guān)鍵詞^={xpx2,..,x},其中x,是一個(gè)候選關(guān)鍵詞,將這些候選關(guān)鍵詞構(gòu)成一個(gè)數(shù)組。關(guān)鍵詞生成裝置402由LEX編譯一個(gè)LEX文件而產(chǎn)生。該LEX文件中使用的規(guī)則描述了連續(xù)的英文字符,因而關(guān)鍵詞生成裝置402可以捕捉連續(xù)英文字符所表示的單詞。此外,該LEX規(guī)則對(duì)應(yīng)的動(dòng)作中含有將匹配字符串放入字符串?dāng)?shù)組的指令,LEX文件還描述了在程序掃描輸入文本完畢后對(duì)字符串?dāng)?shù)組進(jìn)行排序和去除重復(fù),并保存為一個(gè)候選關(guān)鍵詞數(shù)組454。因此關(guān)鍵詞生成裝置402掃描輸入文本151后,將輸入文本151含有的所有英文單詞保存到一個(gè)候選關(guān)鍵詞數(shù)組454。(3)在評(píng)分步驟中,利用評(píng)分裝置4(B訪問數(shù)組454,從中讀取每個(gè)候選關(guān)鍵詞;對(duì)于每個(gè)候選關(guān)鍵詞x,,評(píng)分裝置403從訪問數(shù)組454讀取x,關(guān)于輸入文本151的分布特性數(shù)據(jù)w,,從第一特征數(shù)據(jù)中讀取x,關(guān)于參照文檔集合152的分布特性數(shù)據(jù)從第二特征數(shù)據(jù)中讀取x,關(guān)于第二參照文檔集合353的分布特性數(shù)據(jù)z,,計(jì)算該候選關(guān)44詞jc,的評(píng)分。評(píng)分函凄史為(x,)=log2=log2i,仏)=乂(x,)=w,;其中函數(shù)/(x)表示輸入文本中候選關(guān)鍵詞x的出現(xiàn)次數(shù),函數(shù)A(Ax)表示文檔集合D中候選關(guān)鍵詞x的總文檔數(shù)。當(dāng)完成計(jì)算后,將所有候選關(guān)鍵詞的評(píng)分追加到一個(gè)評(píng)分?jǐn)?shù)組355,數(shù)組每個(gè)成員與候選關(guān)鍵詞數(shù)組454的各候選關(guān)鍵詞——對(duì)應(yīng),數(shù)組355每個(gè)成員包含該候選關(guān)鍵詞的兩個(gè)評(píng)分、(x,)與&(x,)。(4)在結(jié)果生成步驟中,利用結(jié)果生成裝置404,根據(jù)給定的候選關(guān)鍵詞數(shù)組454與評(píng)分?jǐn)?shù)組,按照評(píng)分?jǐn)?shù)組中各候選關(guān)鍵詞x,的評(píng)分\(x,)對(duì)候選關(guān)鍵詞進(jìn)行排序,并將候選關(guān)鍵詞作為結(jié)果關(guān)鍵詞,將結(jié)果關(guān)鍵詞x,及其評(píng)分、(x,)構(gòu)成一個(gè)整體追加到數(shù)組456。(5)在輸出步驟中,利用輸出裝置405輸出HTML形式的輸入文本,其中數(shù)組456所涉及的各結(jié)果關(guān)鍵詞按照其評(píng)分的大小在HTML形式的輸入文本中被標(biāo)以不同的字體顏色。該系統(tǒng)可被用于解決多個(gè)具體問題,可以是但不限于(1)評(píng)價(jià)與提交的個(gè)人簡(jiǎn)歷相關(guān)的各種技能的價(jià)值(詳見實(shí)施例三)所述輸入文本為個(gè)人簡(jiǎn)歷;所述相關(guān)事物為該個(gè)人簡(jiǎn)歷涉及的各種技能;所述價(jià)值為技能因被企業(yè)關(guān)注和(或)被求職者擁有所體現(xiàn)的職業(yè)優(yōu)勢(shì)。所述的參照文檔集合為企業(yè)的招聘啟事庫(kù)。進(jìn)一步地,所述第二參照文檔集合為多個(gè)求職者的簡(jiǎn)歷庫(kù)。個(gè)人簡(jiǎn)歷與招聘啟事中各種技能關(guān)鍵詞的分布特性體現(xiàn)了這些技能在求職中的"供給-需求"關(guān)系。(2)評(píng)價(jià)與提交的研究論文相關(guān)的各種學(xué)術(shù)話題的新穎性所述輸入文本為論文;所述相關(guān)事物為該論文涉及的學(xué)術(shù)話題等;所述價(jià)值為這些學(xué)術(shù)話題因被期刊、會(huì)議關(guān)注和(或)被其他論文所討論而體現(xiàn)的新穎性。所述參照文檔集合為期刊、會(huì)議的征文啟事(callforpaper)。進(jìn)一步地,所述第二參照文檔集合為論文庫(kù)。論文與征文啟事中各種學(xué)術(shù)話題關(guān)鍵詞的分布特性體現(xiàn)了這些學(xué)術(shù)話題在論文出版中的供求關(guān)系。(3)評(píng)價(jià)與提交的產(chǎn)品介紹相關(guān)的各種產(chǎn)品特性的熱門程度所述輸入文本為產(chǎn)品介紹;所述相關(guān)事物為產(chǎn)品介紹所涉及的各種產(chǎn)品特性;所述價(jià)值為這些產(chǎn)品特性因被客戶評(píng)論所關(guān)注和(或)被其他產(chǎn)品所擁有而體現(xiàn)的熱門程度。所述參照文檔集合為客戶對(duì)于各種產(chǎn)品發(fā)表的評(píng)論。進(jìn)一步地,所述第二參照文檔集合為關(guān)于多個(gè)產(chǎn)品的產(chǎn)品介紹庫(kù)。產(chǎn)品介紹與客戶評(píng)論中各種產(chǎn)品特性關(guān)鍵詞的分布特性體現(xiàn)了這些產(chǎn)品特性在客戶體驗(yàn)中的供求關(guān)系。(4)在網(wǎng)上社區(qū)系統(tǒng)中,評(píng)價(jià)與提交的網(wǎng)絡(luò)社區(qū)成員的個(gè)人簡(jiǎn)介相關(guān)的各種興趣愛好的個(gè)性化程度所述相關(guān)事物為個(gè)人筒介所涉及的各種興趣愛好;所述價(jià)值為這些興趣愛好為網(wǎng)絡(luò)社區(qū)成員所擁有和所期望擁有而體現(xiàn)的個(gè)性化程度。所述參照文檔集合為個(gè)人簡(jiǎn)介庫(kù)。每個(gè)個(gè)人筒介中涉及的一個(gè)興趣愛好,不僅表示了該筒介對(duì)應(yīng)的網(wǎng)絡(luò)社區(qū)成員擁有該興趣愛好,還潛在地表示了該網(wǎng)絡(luò)社區(qū)成員期望他人擁有該興趣愛好,因此同時(shí)體現(xiàn)供給與需求。實(shí)施例三一種根據(jù)某人的簡(jiǎn)歷評(píng)估其職業(yè)優(yōu)勢(shì)的系統(tǒng)。再請(qǐng)參閱圖5所示,圖中示出依據(jù)本發(fā)明實(shí)施例的一種根據(jù)某人的簡(jiǎn)歷評(píng)估其職業(yè)優(yōu)勢(shì)的系統(tǒng)。該系統(tǒng)500基于前述系統(tǒng)400,更具體地(1)輸入文本為筒歷文本551(2)參照文檔集合為筒歷庫(kù)552,存儲(chǔ)若干人的簡(jiǎn)歷文本(3)第二參照文檔集合為招聘啟事庫(kù)553第一特征數(shù)據(jù)中存放的是簡(jiǎn)歷庫(kù)中出現(xiàn)的關(guān)鍵詞,以及每個(gè)關(guān)鍵詞在多少簡(jiǎn)歷中出現(xiàn)的文檔數(shù);第二特征數(shù)據(jù)中存放的是招聘啟事庫(kù)中出現(xiàn)的關(guān)鍵詞,以及每個(gè)關(guān)鍵詞在多少招聘筒歷中出現(xiàn)的文檔數(shù)。數(shù)組454中存放的是簡(jiǎn)歷文本中出現(xiàn)的關(guān)鍵詞以及出現(xiàn)次數(shù)。由于采用了前述評(píng)分裝置300,所以如果某人的簡(jiǎn)歷文本中的一個(gè)關(guān)^l建詞在簡(jiǎn)歷庫(kù)的招聘簡(jiǎn)歷中出現(xiàn)較少,而在招聘啟事中出現(xiàn)較多,將導(dǎo)致該關(guān)鍵詞的評(píng)分較高。這也意味著該關(guān)鍵詞所代表的技能、經(jīng)歷被較少的應(yīng)聘者所掌握卻被較多企業(yè)所關(guān)注。因此,此人的該項(xiàng)技能、經(jīng)歷具有較大的職業(yè)優(yōu)勢(shì)。這樣通過系統(tǒng)500,就可以獲取簡(jiǎn)歷文本中所包含各關(guān)鍵詞的評(píng)分,從而反映個(gè)關(guān)鍵詞對(duì)應(yīng)技能經(jīng)歷的職業(yè)優(yōu)勢(shì)。因此,利用系統(tǒng)500就可根據(jù)某人的簡(jiǎn)歷文本,對(duì)其職業(yè)優(yōu)勢(shì)作出評(píng)估。實(shí)施例四再請(qǐng)參閱圖6所示,圖中示出一種以文本作為查詢輸入的文檔檢索系統(tǒng)。該系統(tǒng)600的運(yùn)行,包含以下步驟(1)查詢輸入步驟,獲取輸入文本151;(2)特征獲取步驟,通過系統(tǒng)300,根據(jù)輸入文本151產(chǎn)生輸出結(jié)果357;(3)檢索步驟,根據(jù)輸出結(jié)果357中的結(jié)果特征和(或)其評(píng)分,構(gòu)造為檢索系統(tǒng)602可理解的查詢,將查詢提交給系統(tǒng)602,并得到系統(tǒng)602的;f企索結(jié)果657;(4)檢索輸出步驟,將檢索結(jié)果657輸出。檢索系統(tǒng)602對(duì)可被檢索系統(tǒng)訪問到的每個(gè)文檔進(jìn)行評(píng)分(識(shí)別出該文檔含有的屬于輸出結(jié)果357的結(jié)果特征,從輸出結(jié)果357中獲取這些結(jié)果特征對(duì)應(yīng)的評(píng)分,計(jì)算這些評(píng)分的和,作為該文檔的評(píng)分);然后檢索系統(tǒng)602將可被檢索的文檔按照文檔評(píng)分降序排列并分頁(yè)輸出,作為檢索結(jié)果657。文檔的評(píng)分體現(xiàn)了輸入文本與該文檔的相似性。現(xiàn)有技術(shù)可以實(shí)現(xiàn)上述的檢索系統(tǒng),接收含有結(jié)果特征的輸出結(jié)果,產(chǎn)生檢索結(jié)果。比如,某些檢索系統(tǒng)(比如Google)可以接收若千個(gè)檢索特征構(gòu)成的集合作為查詢輸入,并反饋檢索結(jié)果;某些檢索系統(tǒng)(比如USPTO的專利檢索系統(tǒng))可以接收由若干個(gè)檢索特征以及ANDOR等邏輯謂詞構(gòu)成的查詢表達(dá)式作為查詢輸入,并反饋檢索結(jié)果;美國(guó)專利申請(qǐng)"US20060122997Systemandmethodfortextsearchingusingweightedkeywords',才皮露了一種可以根據(jù)關(guān)鍵詞及其權(quán)重進(jìn)行文檔檢索的系統(tǒng)。作為本發(fā)明的實(shí)施,當(dāng)該系統(tǒng)被用于檢索招聘啟事時(shí),用戶提交簡(jiǎn)歷后,系統(tǒng)才艮據(jù)簡(jiǎn)歷得到關(guān)鍵詞,并根據(jù)關(guān)鍵詞在招聘啟事庫(kù)中的分布特性確定關(guān)鍵詞的評(píng)分,然后利用一個(gè)檢索系統(tǒng)根據(jù)這些關(guān)鍵詞從招聘啟事庫(kù)中得到相關(guān)的招聘啟事并反饋。這樣用戶通過提交簡(jiǎn)歷就可以獲得與筒歷相關(guān)的招聘啟事。進(jìn)一步地,招聘啟事才艮據(jù)與該簡(jiǎn)歷的相似性降序排列。相對(duì)于傳統(tǒng)的通過關(guān)鍵詞來搜索招聘啟事的方法,本發(fā)明的便利性是明顯的。作為一個(gè)容易想到的變化,該系統(tǒng)也可被用于簡(jiǎn)歷的4企索,當(dāng)用戶4是交一個(gè)招聘啟事后,就可以得到系統(tǒng)反饋的簡(jiǎn)歷,這些簡(jiǎn)歷與招聘啟事相關(guān),使用該系統(tǒng)的企業(yè)用戶,就可在大量的簡(jiǎn)歷中迅速收縮范圍,找到適合崗位需要的求職者。綜上,采用了上述的獲取有助于文本檢索的特征的系統(tǒng)與方法,用戶可以尋找到對(duì)自身的檢索需求有幫助意義的檢索特征,使得用戶在面對(duì)海量的文檔時(shí)可以運(yùn)用這些檢索特征構(gòu)造有效的查詢,進(jìn)而快速收縮檢索范圍,但同時(shí)又避免了潛在有價(jià)值的檢索結(jié)果的丟失,而且簡(jiǎn)單方便,性能穩(wěn)定可靠,適用范圍較為廣泛。而將該系統(tǒng)與方法與現(xiàn)有的檢索系統(tǒng)相結(jié)合,可以構(gòu)造更為方便易用的檢索系統(tǒng),用戶只需要輸入描述性的文本,就可以檢索到相關(guān)資料,避免了因關(guān)鍵詞選擇不當(dāng)而導(dǎo)致的檢索效果的下降。而采用了該發(fā)明的評(píng)價(jià)與輸入文本相關(guān)事物對(duì)于用戶的價(jià)值的系統(tǒng)與方法,用戶可以通過提交一個(gè)描述性的文本,而得到各種相關(guān)事物對(duì)于該用戶的價(jià)值的評(píng)價(jià)。該系統(tǒng)與方法,簡(jiǎn)便有效,直觀易懂,適用于多種用途,比如求職招聘、論文投稿、網(wǎng)絡(luò)交友等。在此說明書中,本發(fā)明已參照其特定的實(shí)施例作了描述。但是,很顯然仍可以作出各種修改和變換而不背離本發(fā)明的精神和范圍。因此,說明書和附圖應(yīng)被認(rèn)為是說明性的而非限制性的。權(quán)利要求1、一種獲取有助于文本檢索的特征的系統(tǒng),其特征在于,所述的系統(tǒng)包括輸入裝置,用于接收用戶提交的輸入文本;特征生成裝置,用于根據(jù)所述的輸入文本生成至少一個(gè)候選特征;評(píng)分裝置,用于計(jì)算所述的候選特征的關(guān)于檢索效力的至少一個(gè)評(píng)分;結(jié)果生成裝置,用于根據(jù)具有所述的評(píng)分的候選特征產(chǎn)生至少一個(gè)結(jié)果特征;和輸出裝置,用于以可被用戶處理或理解的表現(xiàn)形式將所述的結(jié)果特征輸出給用戶;且所述的評(píng)分的計(jì)算過程至少部分地依賴于所述的候選特征在參照文檔集合中的分布特性。2、根據(jù)權(quán)利要求1所述的獲取有助于文本檢索的特征的系統(tǒng),其特征在于,所述的輸出裝置還輸出有每個(gè)所述的結(jié)果特征的評(píng)分,所述的結(jié)果特征的評(píng)分為所述的評(píng)分裝置對(duì)于候選特征數(shù)據(jù)中與所述的結(jié)果特征相等同的一個(gè)候選特征的評(píng)分。3、根據(jù)權(quán)利要求1所述的獲取有助于文本檢索的特征的系統(tǒng),其特征在于,所述的特征生成裝置還操作至少一個(gè)候選調(diào)整裝置,用于在原有的所述的候選特征的基礎(chǔ)上刪除和/或增加至少一個(gè)》美選特征。4、根據(jù)權(quán)利要求1所述的獲取有助于文本檢索的特征的系統(tǒng),其特征在于,所述的評(píng)分的計(jì)算過程還依賴于所述的候選特征在所述的輸入文本中的分布特性,所述的特征生成裝置還生成有各所述的候選特征關(guān)于所述的輸入文本的分布特性的數(shù)據(jù)。5、根據(jù)權(quán)利要求1所迷的獲取有助于文本檢索的特征的系統(tǒng),其特征在于,所述的評(píng)分的計(jì)算過程還依賴于所述的候選特征在至少一個(gè)第二參照文檔集合中的分布特性。6、一種基于權(quán)利要求1所述的裝置實(shí)現(xiàn)獲取有助于文件檢索的特征的方法,其特征在于,所述的方法包括以下步驟(1)輸入步驟,接收用戶提交的輸入文本;(2)特征生成步驟,根據(jù)所述的輸入文本生成至少一個(gè)候選特征;(3)評(píng)分步驟,計(jì)算所述的候選特征的關(guān)于^r索效力的至少一個(gè)評(píng)分;(4)結(jié)果生成步驟,根據(jù)具有所述的評(píng)分的候選特征產(chǎn)生至少一個(gè)結(jié)果特征;(5)輸出步驟,以可被用戶處理或理解的表現(xiàn)形式將所述的結(jié)果特征輸出給用戶;且所述的評(píng)分的計(jì)算過程至少部分地依賴于所述的候選特征在參照文檔集合中的分布特性。7、根據(jù)權(quán)利要求6所述的實(shí)現(xiàn)獲取有助于文件檢索的特征的方法,其特征在于,所述的輸出步驟中還包括以下步驟輸出每個(gè)所述的結(jié)果特征的評(píng)分,所述的結(jié)果特征的評(píng)分為所述的候選特征數(shù)據(jù)中與所述的結(jié)果特征相等同的一個(gè)候選特征的評(píng)分。8、根據(jù)權(quán)利要求6所述的實(shí)現(xiàn)獲取有助于文件;險(xiǎn)索的特征的方法,其特征在于,所述的特征生成步驟中還包括以下步驟至少一個(gè)候選調(diào)整步驟,用于在原有的所迷的候選特征的基礎(chǔ)上刪除和/或增加至少一個(gè)候選特征。9、根據(jù)權(quán)利要求6所述的實(shí)現(xiàn)獲取有助于文件檢索的特征的方法,其特征在于,所述的評(píng)分的計(jì)算過程還依賴于所述的候選特征在所述的輸入文本中的分布特性,所述的特征生成步驟中包括以下步驟生成各所述的候選特征關(guān)于所述的輸入文本的分布特性的數(shù)據(jù)。10、根據(jù)權(quán)利要求6所述的實(shí)現(xiàn)獲取有助于文件檢索的特征的方法,其特征在于,所述的評(píng)分的計(jì)算過程還依賴于所述的候選特征在至少一個(gè)第二參照文檔集合中的分布特性。11、一種評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的系統(tǒng),其特征在于,所述的系統(tǒng)包括輸入裝置,接收用戶提交的輸入文本;關(guān)鍵詞生成裝置,根據(jù)所述的輸入丈本生成至少一個(gè)關(guān)鍵詞形式的候選特征;評(píng)分裝置,計(jì)算所述的候選特征的至少一個(gè)評(píng)分;結(jié)果生成裝置,根據(jù)經(jīng)過評(píng)分的所述的候選特征產(chǎn)生至少一個(gè)結(jié)果特征;和輸出裝置,以可i皮用戶處理或理解的表現(xiàn)形式將所述的結(jié)果特征輸出給用戶。且所述的評(píng)分的計(jì)算過程至少部分地依賴于所述的候選特征在參照文檔集合中的分布特性。12、根據(jù)權(quán)利要求11所述的評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的系統(tǒng),其特征在于,所述的關(guān)鍵詞生成裝置還操作至少一個(gè)候選調(diào)整裝置,用以調(diào)整所述的候選特征,即從原有的候選特征中刪除一些候選特征和/或加入一些特征作為新的候選特征。13、根據(jù)權(quán)利要求11所述的評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的系統(tǒng),其特征在于,所述的輸出裝置還輸出了每個(gè)所述的結(jié)果特征的評(píng)分,一個(gè)所述的結(jié)果特征的評(píng)分為候選特征數(shù)據(jù)中與所述的結(jié)果特征相等同的一個(gè)所述的候選特征的評(píng)分。14、根據(jù)權(quán)利要求11所述的評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的系統(tǒng),其特征在于,所述的輸入文本含有第一方需求的描述,所述參照文檔集合含有與第一方需求相對(duì)應(yīng)的第二方供給的描述;或者所述輸入文本含有第一方供給的描述,所述參照文檔集合含有與第一方供給相對(duì)應(yīng)的第二方需求的描述;或者所述輸入文本含有第一方供給或需求的描述,所述參照文檔集合含有與第一方需求或供給屬于同一類型的第二方需求或供給的描述。15、根據(jù)權(quán)利要求ll所迷的評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的系統(tǒng),其特征在于,所述的評(píng)分的計(jì)算過程還依賴于所述的候選特征在至少一個(gè)第二參照文檔集合中的分布特性。16、根據(jù)權(quán)利要求15所述的評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的系統(tǒng),其特征在于,所述的第二參照文檔集合含有與第一方的需求或供給屬于同類型的第三方的需求或供給的描述。17、根據(jù)權(quán)利要求15所述的評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的系統(tǒng),其特征在于,所述的輸入文本#1加入到第二參照文檔集合中。18、一種基于權(quán)利要求11所述的系統(tǒng)實(shí)現(xiàn)評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的方法,其特征在于,所述的方法包括以下步驟(1)輸入步驟,接收用戶提交的輸入文本;(2)關(guān)鍵詞生成步驟,根據(jù)所述的輸入文本生成至少一個(gè)關(guān)鍵詞形式的候選特征;(3)評(píng)分步驟,計(jì)算所述的候選特征的至少一個(gè)評(píng)分;(4)結(jié)果生成步驟,才艮據(jù)經(jīng)過評(píng)分的所述的候選特征產(chǎn)生至少一個(gè)結(jié)果特征;(5)輸出步驟,以可被用戶處理或理解的表現(xiàn)形式將所述的結(jié)果特征輸出給用戶。且所述的評(píng)分的計(jì)算過程至少部分地依賴于所述的候選特征在參照文檔集合中的分布特性。19、根據(jù)權(quán)利要求18所述的實(shí)現(xiàn)評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的方法,其特征在于,所述的關(guān)鍵詞生成步驟中還包括以下步驟至少一個(gè)候選調(diào)整子步驟,從原有的候選特征中刪除一些候選特征,和/或加入一些特征作為新的候選特征。20、根據(jù)權(quán)利要求18所述的實(shí)現(xiàn)評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的方法,其特征在于,所述的輸出步驟中還包括以下步驟輸出每個(gè)所述的結(jié)杲特征的評(píng)分,所述的結(jié)果特征的評(píng)分為候選特征數(shù)據(jù)中與所述的結(jié)果特征相等同的一個(gè)所述的候選特征的評(píng)分。21、根據(jù)權(quán)利要求18所述的實(shí)現(xiàn)評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的方法,其特征在于,所述的候選特征的評(píng)分的計(jì)算過程,至少部分依賴于所述的候選特征在所述的參照文檔集合中的分布特性。22、根據(jù)權(quán)利要求18所述的實(shí)現(xiàn)評(píng)價(jià)與用戶提交的輸入文本相關(guān)的事物的價(jià)值的方法,其特征在于,所述的評(píng)分的計(jì)算過程還至少部分依賴于所述的候選特征在所述的輸入文本中的分布特性,和/或至少部分依賴于所述的候選特征在至少一個(gè)第二參照文檔集合中的分布特性。23、一種基于權(quán)利要求11所述的系統(tǒng)實(shí)現(xiàn)根據(jù)人員的簡(jiǎn)歷評(píng)估其職業(yè)優(yōu)勢(shì)的系統(tǒng),其特征在于,所述的輸入文本和參照文檔集合為以下配置之一輸入文本參照文檔集合簡(jiǎn)歷文本招聘啟事庫(kù)簡(jiǎn)歷文本簡(jiǎn)歷庫(kù)24、根據(jù)權(quán)利要求23所述的實(shí)現(xiàn)根據(jù)人員的簡(jiǎn)歷評(píng)估其職業(yè)優(yōu)勢(shì)的系統(tǒng),其特征在于,所述的評(píng)分的計(jì)算過程還依賴于所述的候選特征在至少一個(gè)第二參照文檔集合中的分布特性,所迷的輸入文本、參照文檔集合和第二參照文檔集合為以下配置之一輸入文本參照文檔集合第二參照文檔集合簡(jiǎn)歷文本招聘啟事庫(kù)簡(jiǎn)歷庫(kù)簡(jiǎn)歷文本筒歷庫(kù)招聘啟事庫(kù)25、一種基于權(quán)利要求18所述的方法實(shí)現(xiàn)根據(jù)人員的簡(jiǎn)歷評(píng)估其職業(yè)優(yōu)勢(shì)的方法,其特征在于,所述的輸入文本和參照文檔集合為以下配置之一輸入文本參照文檔集合簡(jiǎn)歷文本招聘啟事庫(kù)簡(jiǎn)歷文本簡(jiǎn)歷庫(kù)26、根據(jù)權(quán)利要求25所述的實(shí)現(xiàn)根據(jù)人員的簡(jiǎn)歷評(píng)估其職業(yè)優(yōu)勢(shì)的方法,其特征在于,所述的評(píng)分的計(jì)算過程還依賴于所述的候選特征在至少一個(gè)第二參照文檔集合中的分布特性,所述的輸入文本、參照文檔集合和第二參照文檔集合為以下配置之一輸入文本參照文檔集合第二參照文檔集合簡(jiǎn)歷丈本招聘啟事庫(kù)簡(jiǎn)歷庫(kù)筒歷文本簡(jiǎn)歷庫(kù)招聘啟事庫(kù)27、一種以文本作為查詢輸入的文檔檢索的系統(tǒng),其特征在于,所述的系統(tǒng)包括輸入裝置,接收用戶提交的輸入文本;權(quán)利要求1所述的獲取有助于文本檢索的特征的系統(tǒng),根據(jù)所述的輸入文本得到含有結(jié)果特征的輸出結(jié)果;檢索裝置,將所述的輸出結(jié)果輸入檢索系統(tǒng)獲得檢索結(jié)果;檢索輸出裝置,將所述的檢索結(jié)果輸出。28、一種實(shí)現(xiàn)以文本作為查詢輸入的文檔檢索的方法,其特征在于,所述的方法包括以下步驟(1)輸入步驟,接收用戶提交的輸入文本;(2)特征獲取步驟,利用權(quán)利要求6所述的實(shí)現(xiàn)獲耳又有助于文件檢索的特征的方法獲取結(jié)果特征;(3)檢索步驟,依賴于所述的結(jié)果特征產(chǎn)生檢索結(jié)果;(4)檢索輸出步驟,將所述的檢索結(jié)果輸出。全文摘要本發(fā)明涉及一種獲取有助于文本檢索的特征的系統(tǒng)與方法,利用該系統(tǒng)與方法,用戶可以獲得與自己檢索需求相關(guān)的有助于檢索的特征,比如關(guān)鍵詞、序列、語法模式、語義角色等。依靠這些特征,用戶可以構(gòu)造出更有效的查詢,提高搜索文檔的效率;另一方面,還涉及一種評(píng)價(jià)與輸入文本相關(guān)事物的價(jià)值的系統(tǒng)與方法,用戶可以通過提交輸入文本,得到對(duì)于與輸入文本相關(guān)的各種事物的評(píng)價(jià);同時(shí)還涉及一種根據(jù)某人的簡(jiǎn)歷評(píng)估其職業(yè)優(yōu)勢(shì)的系統(tǒng)與方法,借助于招聘啟事庫(kù)和/或簡(jiǎn)歷庫(kù),給出與此人簡(jiǎn)歷相關(guān)的各種技能、經(jīng)歷的職業(yè)優(yōu)勢(shì)評(píng)分;而且還涉及一種以文本作為查詢輸入的文檔檢索的系統(tǒng)與方法,能快速收縮檢索范圍、避免潛在有價(jià)值檢索結(jié)果丟失。文檔編號(hào)G06F17/30GK101546331SQ20091005076公開日2009年9月30日申請(qǐng)日期2009年5月7日優(yōu)先權(quán)日2009年5月7日發(fā)明者健劉申請(qǐng)人:健劉