一種基于導(dǎo)航信息檢索的中文分詞方法

文檔序號(hào)：6525823閱讀：234來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于導(dǎo)航信息檢索的中文分詞方法
【專利摘要】一種基于導(dǎo)航信息檢索的中文分詞方法，其特征在于：分詞系統(tǒng)的實(shí)現(xiàn)步驟：加載詞典，文本編碼轉(zhuǎn)換；斷句處理，把源字符串分隔成多個(gè)稍微簡(jiǎn)單一點(diǎn)的短句；原子分詞，是指該短句中不可分割的最小語素單位；逐詞遍歷匹配法實(shí)現(xiàn)成詞全匹配；篩選匹配結(jié)果生成若干最佳結(jié)果；人名、地名和專有名詞處理；修正詞典，主要通過對(duì)未登錄詞的新詞添加和對(duì)已有詞的屬性改善；最終合并各個(gè)短句處理的結(jié)果，輸出。本發(fā)明的優(yōu)點(diǎn)：通過中文分詞技術(shù)可以把用戶輸入的內(nèi)容做成詞處理，可以優(yōu)化速度，并且以詞為基礎(chǔ)可以進(jìn)行錯(cuò)別字矯正，可以提供更符合的結(jié)果。中文分詞技術(shù)可以提高信息檢索引擎對(duì)語義的理解，充分對(duì)提供的結(jié)果集進(jìn)行較好的調(diào)整。
【專利說明】—種基于導(dǎo)航信息檢索的中文分詞方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及導(dǎo)航領(lǐng)域，特別涉及了一種基于導(dǎo)航信息檢索的中文分詞方法。
【背景技術(shù)】
[0002]目前的導(dǎo)航名稱檢索所用的字典信息是以單字詞作為基礎(chǔ)建立，并且字典中只存在單字詞相互的一個(gè)關(guān)聯(lián)關(guān)系，并沒有語義解釋等信息。根據(jù)用戶輸入的內(nèi)容切分成單個(gè)字順序進(jìn)行查找，把結(jié)果通過規(guī)則排序，最終呈現(xiàn)給用戶。這樣的檢索方式需要相對(duì)完整的設(shè)施的名稱片段，而且無法識(shí)別錯(cuò)別字。

【發(fā)明內(nèi)容】

[0003]本發(fā)明的目的是為了提高信息檢索引擎對(duì)語義的理解，充分對(duì)提供的結(jié)果集進(jìn)行較好的調(diào)整，特提供了一種基于導(dǎo)航信息檢索的中文分詞方法。
[0004]本發(fā)明提供了一種基于導(dǎo)航信息檢索的中文分詞方法，其特征在于:中文分詞作為導(dǎo)航檢索的基礎(chǔ)而設(shè)計(jì)，中文分詞對(duì)于搜索引擎來說，最重要的并不是找到所有結(jié)果，而是把最符合語義相關(guān)的結(jié)果優(yōu)選排在最前面，這也稱為相關(guān)度排序；中文分詞的準(zhǔn)確與否，直接影響到對(duì)搜索結(jié)果的相關(guān)度排序；從定性分析來說，搜索引擎的分詞算法不同，詞庫(kù)的不同都會(huì)影響搜索結(jié)果的相關(guān)度；
[0005]采用統(tǒng)計(jì)法和規(guī)則理解法，在大量已經(jīng)分詞的文本，利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型學(xué)習(xí)詞語切分的規(guī)律，從而實(shí)現(xiàn)對(duì)未知文本的切分；將待分析的漢字串與一個(gè)機(jī)器詞典中的詞條進(jìn)行配，若在詞典中找到某個(gè)字符串，則匹配成功，識(shí)別出一個(gè)詞；通過規(guī)則對(duì)人名、地名和專有名詞進(jìn)行識(shí)別處理；
[0006]基于地理位置信息特點(diǎn)和以上3個(gè)機(jī)制的優(yōu)缺點(diǎn)設(shè)計(jì)了新型詞典的格式，包含了設(shè)施分類信息，以及拼音信息等，格式的特點(diǎn)主要是基于4字詞為基礎(chǔ)的的詞典，由于4個(gè)字以下成詞的比率大約為94.5%，為了簡(jiǎn)化實(shí)現(xiàn)邏輯，基礎(chǔ)詞典采用4字詞典；基于4字詞為基礎(chǔ)的詞典在查找4字以下成詞的速度會(huì)很快，而且支持雙向最大匹配的方法；
[0007]分詞系統(tǒng)的實(shí)現(xiàn)步驟:
[0008]加載詞典，詞典包含機(jī)器訓(xùn)練所有成詞的導(dǎo)航設(shè)施信息內(nèi)容；
[0009]文本編碼轉(zhuǎn)換，統(tǒng)一為國(guó)標(biāo)碼即GBK編碼形式表示文本；
[0010]斷句處理，就是根據(jù)分隔符、回車換行符等語句的分隔標(biāo)志，把源字符串分隔成多個(gè)稍微簡(jiǎn)單一點(diǎn)的短句；
[0011]原子分詞，所謂原子，是指該短句中不可分割的最小語素單位；一個(gè)漢字、短句前后的開始結(jié)束標(biāo)識(shí)字段、全角標(biāo)點(diǎn)符號(hào)、連在一起的數(shù)字字母單字節(jié)字符等；
[0012]逐詞遍歷匹配法實(shí)現(xiàn)成詞全匹配；此方法是把原子切分的詞按由短到長(zhǎng)的順序，逐個(gè)搜索匹配整個(gè)詞典，直到把所有的詞都切分出來為止；
[0013]篩選匹配結(jié)果生成若干最佳結(jié)果，通過最短路徑方法，評(píng)價(jià)每條路徑，生成若干最佳結(jié)果；[0014]前后詞匹配，這步功能實(shí)現(xiàn)主要是根據(jù)前后兩個(gè)詞的一個(gè)關(guān)聯(lián)度做整個(gè)句子的評(píng)價(jià)；通過計(jì)算一個(gè)句子的整體的置信度來評(píng)價(jià)句子切分的好壞，經(jīng)過篩選出較優(yōu)的結(jié)果；
[0015]詞性標(biāo)注，對(duì)于“詞性標(biāo)注”這個(gè)應(yīng)用領(lǐng)域來說即對(duì)“確定的切詞結(jié)果”找到背后的各個(gè)詞的“詞性”；
[0016]人名、地名和專有名詞處理，通過對(duì)標(biāo)注好的短句進(jìn)行人名、地名和一些專有名詞的處理，由于基于導(dǎo)航的地理位置信息的特點(diǎn)，制作特有的專有名詞詞典，矯正短句當(dāng)中語義成分；
[0017]未登錄詞處理，由于字典是有限的，在分詞的過程中很容易出現(xiàn)一些未登錄詞，詞表里未出現(xiàn)的詞，通過對(duì)未登錄詞進(jìn)行評(píng)價(jià)，來判斷未登錄詞是否為一個(gè)新詞，此過程為未登錄詞的學(xué)習(xí)過程:學(xué)習(xí)過程的任務(wù)是要完成對(duì)地理信息數(shù)據(jù)中產(chǎn)生新詞的抽取和判定；把識(shí)別出來的新詞補(bǔ)充到分詞詞典當(dāng)中；
[0018]修正詞典，主要通過對(duì)未登錄詞的新詞添加和對(duì)已有詞的屬性改善；
[0019]最終合并各個(gè)短句處理的結(jié)果，輸出。
[0020]2、按照權(quán)利要求1所述的基于導(dǎo)航信息檢索的中文分詞方法，其特征在于:所述的基于導(dǎo)航信息檢索的中文分詞方法具體包括:
[0021]外部輸入:用于接收用戶的輸入，通常作為直接與用戶交互的模塊，提供多種的輸入方式，符合用戶的使用習(xí)慣，例如:用戶語音輸入，用戶的手寫輸入等；
[0022]提取特征:把用戶輸入的文本轉(zhuǎn)換成統(tǒng)一的GBK編碼規(guī)則；
[0023]文本分析:對(duì)用戶的輸入，無論是輸入的內(nèi)容，還是輸入的行為細(xì)節(jié)，包括符號(hào)的輸入、大小寫的輸入等，又或者還是對(duì)輸入的關(guān)鍵字多次的輸入，被認(rèn)定為有用特征后，都作為特征會(huì)被記錄并提取出來；
[0024]分詞系統(tǒng)處理:對(duì)用戶的輸入語句進(jìn)行分詞和詞性標(biāo)注，可以得到每個(gè)詞的詞性，分類，頻率以及拼音屬性；對(duì)于未登錄進(jìn)行添加以及修正已有詞的屬性；
[0025]語義理解:這個(gè)模塊會(huì)對(duì)文本轉(zhuǎn)換的結(jié)果，在模式規(guī)則庫(kù)中，進(jìn)行模式規(guī)則的匹配,會(huì)生成檢索的主要執(zhí)行步驟；
[0026]檢索步驟生成:將會(huì)執(zhí)行完整的檢索步驟，檢索步驟會(huì)對(duì)語義理解的步驟，進(jìn)行編譯優(yōu)化處理，會(huì)綜合考慮性能、內(nèi)存等要素后，生成一組合理的檢索步驟，加上預(yù)處理的流程、步驟之間銜接的流程和處理后的流程等，就會(huì)最終產(chǎn)生一個(gè)檢索步驟的清單；與此同時(shí)，還會(huì)完成初始化環(huán)境變量和開辟相關(guān)的內(nèi)存空間，為檢索的步驟處理做準(zhǔn)備；
[0027]檢索步驟處理:此過程會(huì)根據(jù)請(qǐng)求的內(nèi)容，按照檢索的業(yè)務(wù)邏輯，遍歷檢索的數(shù)據(jù)庫(kù)內(nèi)容，取得滿足查詢條件的檢索結(jié)果；當(dāng)檢索步驟清單定義的步驟數(shù)大于零，檢索步驟處理就會(huì)被調(diào)用多次；每一步的結(jié)束，都會(huì)保存檢索的上下文；
[0028]檢索結(jié)果處理:檢索結(jié)果處理會(huì)將檢索的結(jié)果進(jìn)行分類、排序、合并等操作，這一步的結(jié)果就可以轉(zhuǎn)給外置輸出模塊，用于向外置設(shè)備進(jìn)行輸出；
[0029]誤差反饋處理:對(duì)經(jīng)過一次檢索步驟生成、檢索步驟處理后，檢索結(jié)果不存在，智能檢索系統(tǒng)會(huì)判定對(duì)用戶輸入的理解是存在誤差的，需要修改查詢條件，誤差反饋處理會(huì)重新生成檢索步驟，進(jìn)行新的檢索，當(dāng)滿足結(jié)束的條件后，才會(huì)停止檢索；
[0030]自適應(yīng)學(xué)習(xí):這是一個(gè)學(xué)習(xí)模塊，會(huì)根據(jù)檢索的結(jié)果和用戶的輸入，進(jìn)行自適應(yīng)的學(xué)習(xí)，來達(dá)到不斷適應(yīng)用戶使用習(xí)慣的目的；根據(jù)用戶的多次檢索，會(huì)不斷修正系統(tǒng)默認(rèn)的規(guī)則，會(huì)影響檢索的結(jié)果和檢索結(jié)果的排序等；
[0031]外置輸出:就是用戶接口，提供給用戶檢索的結(jié)果，對(duì)用戶請(qǐng)求的檢索結(jié)果，進(jìn)行應(yīng)答。
[0032]本發(fā)明的優(yōu)點(diǎn):
[0033]本發(fā)明所述的基于導(dǎo)航信息檢索的中文分詞方法，通過中文分詞技術(shù)可以把用戶輸入的內(nèi)容做成詞處理，可以優(yōu)化速度，并且以詞為基礎(chǔ)可以進(jìn)行錯(cuò)別字矯正，可以提供更符合的結(jié)果。中文分詞技術(shù)可以提高信息檢索引擎對(duì)語義的理解，充分對(duì)提供的結(jié)果集進(jìn)行較好的調(diào)整。
【專利附圖】

【附圖說明】
[0034]下面結(jié)合附圖及實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明:
[0035]圖1為分詞系統(tǒng)流程圖；
[0036]圖2為具體實(shí)施流程圖。
【具體實(shí)施方式】
[0037]實(shí)施例
[0038]本實(shí)施例提供了一種基于導(dǎo)航信息檢索的中文分詞方法，其特征在于:中文分詞作為導(dǎo)航檢索的基礎(chǔ)而設(shè)計(jì)，中文分詞對(duì)于搜索引擎來說，最重要的并不是找到所有結(jié)果，而是把最符合語義相關(guān)的結(jié)果優(yōu)選排在最前面，這也稱為相關(guān)度排序；中文分詞的準(zhǔn)確與否，直接影響到對(duì)搜索結(jié)果的相關(guān)度排序；從定性分析來說，搜索引擎的分詞算法不同，詞庫(kù)的不同都會(huì)影響搜索結(jié)果的相關(guān)度；
[0039]采用統(tǒng)計(jì)法和規(guī)則理解法，在大量已經(jīng)分詞的文本，利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型學(xué)習(xí)詞語切分的規(guī)律，從而實(shí)現(xiàn)對(duì)未知文本的切分；將待分析的漢字串與一個(gè)機(jī)器詞典中的詞條進(jìn)行配，若在詞典中找到某個(gè)字符串，則匹配成功，識(shí)別出一個(gè)詞；通過規(guī)則對(duì)人名、地名和專有名詞進(jìn)行識(shí)別處理；
[0040]基于地理位置信息特點(diǎn)和以上3個(gè)機(jī)制的優(yōu)缺點(diǎn)設(shè)計(jì)了新型詞典的格式，包含了設(shè)施分類信息，以及拼音信息等，格式的特點(diǎn)主要是基于4字詞為基礎(chǔ)的的詞典，由于4個(gè)字以下成詞的比率大約為94.5%，為了簡(jiǎn)化實(shí)現(xiàn)邏輯，基礎(chǔ)詞典采用4字詞典；基于4字詞為基礎(chǔ)的詞典在查找4字以下成詞的速度會(huì)很快，而且支持雙向最大匹配的方法；
[0041]分詞系統(tǒng)的實(shí)現(xiàn)步驟:
[0042]加載詞典，詞典包含機(jī)器訓(xùn)練所有成詞的導(dǎo)航設(shè)施信息內(nèi)容；
[0043]文本編碼轉(zhuǎn)換，統(tǒng)一為國(guó)標(biāo)碼即GBK編碼形式表示文本；
[0044]斷句處理，就是根據(jù)分隔符、回車換行符等語句的分隔標(biāo)志，把源字符串分隔成多個(gè)稍微簡(jiǎn)單一點(diǎn)的短句；
[0045]原子分詞，所謂原子，是指該短句中不可分割的最小語素單位；一個(gè)漢字、短句前后的開始結(jié)束標(biāo)識(shí)字段、全角標(biāo)點(diǎn)符號(hào)、連在一起的數(shù)字字母單字節(jié)字符等；
[0046]逐詞遍歷匹配法實(shí)現(xiàn)成詞全匹配；此方法是把原子切分的詞按由短到長(zhǎng)的順序，逐個(gè)搜索匹配整個(gè)詞典，直到把所有的詞都切分出來為止；
[0047]篩選匹配結(jié)果生成若干最佳結(jié)果，通過最短路徑方法，評(píng)價(jià)每條路徑，生成若干最佳結(jié)果；
[0048]前后詞匹配，這步功能實(shí)現(xiàn)主要是根據(jù)前后兩個(gè)詞的一個(gè)關(guān)聯(lián)度做整個(gè)句子的評(píng)價(jià)；通過計(jì)算一個(gè)句子的整體的置信度來評(píng)價(jià)句子切分的好壞，經(jīng)過篩選出較優(yōu)的結(jié)果；
[0049]詞性標(biāo)注，對(duì)于“詞性標(biāo)注”這個(gè)應(yīng)用領(lǐng)域來說即對(duì)“確定的切詞結(jié)果”找到背后的各個(gè)詞的“詞性”；
[0050]人名、地名和專有名詞處理，通過對(duì)標(biāo)注好的短句進(jìn)行人名、地名和一些專有名詞的處理，由于基于導(dǎo)航的地理位置信息的特點(diǎn)，制作特有的專有名詞詞典，矯正短句當(dāng)中語義成分；
[0051]未登錄詞處理，由于字典是有限的，在分詞的過程中很容易出現(xiàn)一些未登錄詞，詞表里未出現(xiàn)的詞，通過對(duì)未登錄詞進(jìn)行評(píng)價(jià)，來判斷未登錄詞是否為一個(gè)新詞，此過程為未登錄詞的學(xué)習(xí)過程:學(xué)習(xí)過程的任務(wù)是要完成對(duì)地理信息數(shù)據(jù)中產(chǎn)生新詞的抽取和判定；把識(shí)別出來的新詞補(bǔ)充到分詞詞典當(dāng)中；
[0052]修正詞典，主要通過對(duì)未登錄詞的新詞添加和對(duì)已有詞的屬性改善；
[0053]最終合并各個(gè)短句處理的結(jié)果，輸出。
[0054]2、按照權(quán)利要求1所述的基于導(dǎo)航信息檢索的中文分詞方法，其特征在于:所述的基于導(dǎo)航信息檢索的中文分詞方法具體包括:
[0055]外部輸入:用于接收用戶的輸入，通常作為直接與用戶交互的模塊，提供多種的輸入方式，符合用戶的使用習(xí)慣，例如:用戶語音輸入，用戶的手寫輸入等；
[0056]提取特征:把用戶輸入的文本轉(zhuǎn)換成統(tǒng)一的GBK編碼規(guī)則；
[0057]文本分析:對(duì)用戶的輸入，無論是輸入的內(nèi)容，還是輸入的行為細(xì)節(jié)，包括符號(hào)的輸入、大小寫的輸入等，又或者還是對(duì)輸入的關(guān)鍵字多次的輸入，被認(rèn)定為有用特征后，都作為特征會(huì)被記錄并提取出來；
[0058]分詞系統(tǒng)處理:對(duì)用戶的輸入語句進(jìn)行分詞和詞性標(biāo)注，可以得到每個(gè)詞的詞性，分類，頻率以及拼音屬性；對(duì)于未登錄進(jìn)行添加以及修正已有詞的屬性；
[0059]語義理解:這個(gè)模塊會(huì)對(duì)文本轉(zhuǎn)換的結(jié)果，在模式規(guī)則庫(kù)中，進(jìn)行模式規(guī)則的匹配,會(huì)生成檢索的主要執(zhí)行步驟；
[0060]檢索步驟生成:將會(huì)執(zhí)行完整的檢索步驟，檢索步驟會(huì)對(duì)語義理解的步驟，進(jìn)行編譯優(yōu)化處理，會(huì)綜合考慮性能、內(nèi)存等要素后，生成一組合理的檢索步驟，加上預(yù)處理的流程、步驟之間銜接的流程和處理后的流程等，就會(huì)最終產(chǎn)生一個(gè)檢索步驟的清單；與此同時(shí)，還會(huì)完成初始化環(huán)境變量和開辟相關(guān)的內(nèi)存空間，為檢索的步驟處理做準(zhǔn)備；
[0061]檢索步驟處理:此過程會(huì)根據(jù)請(qǐng)求的內(nèi)容，按照檢索的業(yè)務(wù)邏輯，遍歷檢索的數(shù)據(jù)庫(kù)內(nèi)容，取得滿足查詢條件的檢索結(jié)果；當(dāng)檢索步驟清單定義的步驟數(shù)大于零，檢索步驟處理就會(huì)被調(diào)用多次；每一步的結(jié)束，都會(huì)保存檢索的上下文；
[0062]檢索結(jié)果處理:檢索結(jié)果處理會(huì)將檢索的結(jié)果進(jìn)行分類、排序、合并等操作，這一步的結(jié)果就可以轉(zhuǎn)給外置輸出模塊，用于向外置設(shè)備進(jìn)行輸出；
[0063]誤差反饋處理:對(duì)經(jīng)過一次檢索步驟生成、檢索步驟處理后，檢索結(jié)果不存在，智能檢索系統(tǒng)會(huì)判定對(duì)用戶輸入的理解是存在誤差的，需要修改查詢條件，誤差反饋處理會(huì)重新生成檢索步驟，進(jìn)行新的檢索，當(dāng)滿足結(jié)束的條件后，才會(huì)停止檢索；
[0064]自適應(yīng)學(xué)習(xí):這是一個(gè)學(xué)習(xí)模塊，會(huì)根據(jù)檢索的結(jié)果和用戶的輸入，進(jìn)行自適應(yīng)的學(xué)習(xí)，來達(dá)到不斷適應(yīng)用戶使用習(xí)慣的目的；根據(jù)用戶的多次檢索，會(huì)不斷修正系統(tǒng)默認(rèn)的規(guī)則，會(huì)影響檢索的結(jié)果和檢索結(jié)果的排序等；
[0065]外置輸出:就是用戶接口，提供給用戶檢索的結(jié)果，對(duì)用戶請(qǐng)求的檢索結(jié)果，進(jìn)行應(yīng)答。
【權(quán)利要求】
1.一種基于導(dǎo)航信息檢索的中文分詞方法，其特征在于: 分詞系統(tǒng)的實(shí)現(xiàn)步驟: 加載詞典，詞典包含機(jī)器訓(xùn)練所有成詞的導(dǎo)航設(shè)施信息內(nèi)容；文本編碼轉(zhuǎn)換，統(tǒng)一為國(guó)標(biāo)碼即GBK編碼形式表示文本；斷句處理，就是根據(jù)分隔符、回車換行符等語句的分隔標(biāo)志，把源字符串分隔成多個(gè)稍微簡(jiǎn)單一點(diǎn)的短句；原子分詞，所謂原子，是指該短句中不可分割的最小語素單位；一個(gè)漢字、短句前后的開始結(jié)束標(biāo)識(shí)字段、全角標(biāo)點(diǎn)符號(hào)、連在一起的數(shù)字字母單字節(jié)字符等；逐詞遍歷匹配法實(shí)現(xiàn)成詞全匹配；此方法是把原子切分的詞按由短到長(zhǎng)的順序，逐個(gè)搜索匹配整個(gè)詞典，直到把所有的詞都切分出來為止；篩選匹配結(jié)果生成若干最佳結(jié)果，通過最短路徑方法，評(píng)價(jià)每條路徑，生成若干最佳結(jié)果; 前后詞匹配，這步功能實(shí)現(xiàn)主要是根據(jù)前后兩個(gè)詞的一個(gè)關(guān)聯(lián)度做整個(gè)句子的評(píng)價(jià)；通過計(jì)算一個(gè)句子的整體的置信度來評(píng)價(jià)句子切分的好壞，經(jīng)過篩選出較優(yōu)的結(jié)果；詞性標(biāo)注，對(duì)于“詞性標(biāo)注”這個(gè)應(yīng)用領(lǐng)域來說即對(duì)“確定的切詞結(jié)果”找到背后的各個(gè)詞的“詞性”；人名、地名和專有名詞處理，通過對(duì)標(biāo)注好的短句進(jìn)行人名、地名和一些專有名詞的處理，由于基于導(dǎo)航的地理位置信`息的特點(diǎn)，制作特有的專有名詞詞典，矯正短句當(dāng)中語義成分；未登錄詞處理，由于字典是有限的，在分詞的過程中很容易出現(xiàn)一些未登錄詞，詞表里未出現(xiàn)的詞，通過對(duì)未登錄詞進(jìn)行評(píng)價(jià)，來判斷未登錄詞是否為一個(gè)新詞，此過程為未登錄詞的學(xué)習(xí)過程:學(xué)習(xí)過程的任務(wù)是要完成對(duì)地理信息數(shù)據(jù)中產(chǎn)生新詞的抽取和判定；把識(shí)別出來的新詞補(bǔ)充到分詞詞典當(dāng)中；修正詞典，主要通過對(duì)未登錄詞的新詞添加和對(duì)已有詞的屬性改善；最終合并各個(gè)短句處理的結(jié)果，輸出。
2.按照權(quán)利要求1所述的基于導(dǎo)航信息檢索的中文分詞方法，其特征在于:所述的基于導(dǎo)航信息檢索的中文分詞方法具體包括: 外部輸入:用于接收用戶的輸入，通常作為直接與用戶交互的模塊，提供多種的輸入方式，符合用戶的使用習(xí)慣，例如:用戶語音輸入，用戶的手寫輸入等；提取特征:把用戶輸入的文本轉(zhuǎn)換成統(tǒng)一的GBK編碼規(guī)則；文本分析:對(duì)用戶的輸入，無論是輸入的內(nèi)容，還是輸入的行為細(xì)節(jié)，包括符號(hào)的輸入、大小寫的輸入等，又或者還是對(duì)輸入的關(guān)鍵字多次的輸入，被認(rèn)定為有用特征后，都作為特征會(huì)被記錄并提取出來；分詞系統(tǒng)處理:對(duì)用戶的輸入語句進(jìn)行分詞和詞性標(biāo)注，可以得到每個(gè)詞的詞性，分類，頻率以及拼音屬性；對(duì)于未登錄進(jìn)行添加以及修正已有詞的屬性；語義理解:這個(gè)模塊會(huì)對(duì)文本轉(zhuǎn)換的結(jié)果，在模式規(guī)則庫(kù)中，進(jìn)行模式規(guī)則的匹配，會(huì)生成檢索的主要執(zhí)行步驟；檢索步驟生成:將會(huì)執(zhí)行完整的檢索步驟，檢索步驟會(huì)對(duì)語義理解的步驟，進(jìn)行編譯優(yōu)化處理，會(huì)綜合考慮性能、內(nèi)存等要素后，生成一組合理的檢索步驟，加上預(yù)處理的流程、步驟之間銜接的流程和處理后的流程等，就會(huì)最終產(chǎn)生一個(gè)檢索步驟的清單；與此同時(shí)，還會(huì)完成初始化環(huán)境變量和開辟相關(guān)的內(nèi)存空間，為檢索的步驟處理做準(zhǔn)備；檢索步驟處理:此過程會(huì)根據(jù)請(qǐng)求的內(nèi)容，按照檢索的業(yè)務(wù)邏輯，遍歷檢索的數(shù)據(jù)庫(kù)內(nèi)容，取得滿足查詢條件的檢索結(jié)果；當(dāng)檢索步驟清單定義的步驟數(shù)大于零，檢索步驟處理就會(huì)被調(diào)用多次；每一步的結(jié)束，都會(huì)保存檢索的上下文；檢索結(jié)果處理:檢索結(jié)果處理會(huì)將檢索的結(jié)果進(jìn)行分類、排序、合并等操作，這一步的結(jié)果就可以轉(zhuǎn)給外置輸出模塊，用于向外置設(shè)備進(jìn)行輸出；誤差反饋處理:對(duì)經(jīng)過一次檢索步驟生成、檢索步驟處理后，檢索結(jié)果不存在，智能檢索系統(tǒng)會(huì)判定對(duì)用戶輸入的理解是存在誤差的，需要修改查詢條件，誤差反饋處理會(huì)重新生成檢索步驟，進(jìn)行新的檢索，當(dāng)滿足結(jié)束的條件后，才會(huì)停止檢索；自適應(yīng)學(xué)習(xí):這是一個(gè)學(xué)習(xí)模塊，會(huì)根據(jù)檢索的結(jié)果和用戶的輸入，進(jìn)行自適應(yīng)的學(xué)習(xí)，來達(dá)到不斷適應(yīng)用戶使用習(xí)慣的目的；根據(jù)用戶的多次檢索，會(huì)不斷修正系統(tǒng)默認(rèn)的規(guī)貝U，會(huì)影響檢索的結(jié)果和檢索結(jié)果的排序等；外置輸出:就是用戶接口，`提供給用戶檢索的結(jié)果，對(duì)用戶請(qǐng)求的檢索結(jié)果，進(jìn)行應(yīng)答。
【文檔編號(hào)】G06F17/30GK103678684SQ201310731944
【公開日】2014年3月26日申請(qǐng)日期:2013年12月25日優(yōu)先權(quán)日:2013年12月25日
【發(fā)明者】李濰希, 于航, 解威, 朱小瑩申請(qǐng)人:沈陽美行科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李濰希;于航;解威;朱小瑩;
技術(shù)所有人：沈陽美行科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

中文分詞方法相關(guān)技術(shù)

中文分詞的方法相關(guān)技術(shù)

信息檢索方法相關(guān)技術(shù)

信息檢索常用的方法有相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于導(dǎo)航信息檢索的中文分詞方法