一種基于導(dǎo)航信息檢索的中文分詞方法
【專利摘要】一種基于導(dǎo)航信息檢索的中文分詞方法,其特征在于:分詞系統(tǒng)的實(shí)現(xiàn)步驟:加載詞典,文本編碼轉(zhuǎn)換;斷句處理,把源字符串分隔成多個(gè)稍微簡(jiǎn)單一點(diǎn)的短句;原子分詞,是指該短句中不可分割的最小語素單位;逐詞遍歷匹配法實(shí)現(xiàn)成詞全匹配;篩選匹配結(jié)果生成若干最佳結(jié)果;人名、地名和專有名詞處理;修正詞典,主要通過對(duì)未登錄詞的新詞添加和對(duì)已有詞的屬性改善;最終合并各個(gè)短句處理的結(jié)果,輸出。本發(fā)明的優(yōu)點(diǎn):通過中文分詞技術(shù)可以把用戶輸入的內(nèi)容做成詞處理,可以優(yōu)化速度,并且以詞為基礎(chǔ)可以進(jìn)行錯(cuò)別字矯正,可以提供更符合的結(jié)果。中文分詞技術(shù)可以提高信息檢索引擎對(duì)語義的理解,充分對(duì)提供的結(jié)果集進(jìn)行較好的調(diào)整。
【專利說明】—種基于導(dǎo)航信息檢索的中文分詞方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及導(dǎo)航領(lǐng)域,特別涉及了一種基于導(dǎo)航信息檢索的中文分詞方法。
【背景技術(shù)】
[0002]目前的導(dǎo)航名稱檢索所用的字典信息是以單字詞作為基礎(chǔ)建立,并且字典中只存在單字詞相互的一個(gè)關(guān)聯(lián)關(guān)系,并沒有語義解釋等信息。根據(jù)用戶輸入的內(nèi)容切分成單個(gè)字順序進(jìn)行查找,把結(jié)果通過規(guī)則排序,最終呈現(xiàn)給用戶。這樣的檢索方式需要相對(duì)完整的設(shè)施的名稱片段,而且無法識(shí)別錯(cuò)別字。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是為了提高信息檢索引擎對(duì)語義的理解,充分對(duì)提供的結(jié)果集進(jìn)行較好的調(diào)整,特提供了一種基于導(dǎo)航信息檢索的中文分詞方法。
[0004]本發(fā)明提供了一種基于導(dǎo)航信息檢索的中文分詞方法,其特征在于:中文分詞作為導(dǎo)航檢索的基礎(chǔ)而設(shè)計(jì),中文分詞對(duì)于搜索引擎來說,最重要的并不是找到所有結(jié)果,而是把最符合語義相關(guān)的結(jié)果優(yōu)選排在最前面,這也稱為相關(guān)度排序;中文分詞的準(zhǔn)確與否,直接影響到對(duì)搜索結(jié)果的相關(guān)度排序;從定性分析來說,搜索引擎的分詞算法不同,詞庫(kù)的不同都會(huì)影響搜索結(jié)果的相關(guān)度;
[0005]采用統(tǒng)計(jì)法和規(guī)則理解法,在大量已經(jīng)分詞的文本,利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型學(xué)習(xí)詞語切分的規(guī)律,從而實(shí)現(xiàn)對(duì)未知文本的切分;將待分析的漢字串與一個(gè)機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功,識(shí)別出一個(gè)詞;通過規(guī)則對(duì)人名、地名和專有名詞進(jìn)行識(shí)別處理;
[0006]基于地理位置信息特點(diǎn)和以上3個(gè)機(jī)制的優(yōu)缺點(diǎn)設(shè)計(jì)了新型詞典的格式,包含了設(shè)施分類信息,以及拼音信息等,格式的特點(diǎn)主要是基于4字詞為基礎(chǔ)的的詞典,由于4個(gè)字以下成詞的比率大約為94.5%,為了簡(jiǎn)化實(shí)現(xiàn)邏輯,基礎(chǔ)詞典采用4字詞典;基于4字詞為基礎(chǔ)的詞典在查找4字以下成詞的速度會(huì)很快,而且支持雙向最大匹配的方法;
[0007]分詞系統(tǒng)的實(shí)現(xiàn)步驟:
[0008]加載詞典,詞典包含機(jī)器訓(xùn)練所有成詞的導(dǎo)航設(shè)施信息內(nèi)容;
[0009]文本編碼轉(zhuǎn)換,統(tǒng)一為國(guó)標(biāo)碼即GBK編碼形式表示文本;
[0010]斷句處理,就是根據(jù)分隔符、回車換行符等語句的分隔標(biāo)志,把源字符串分隔成多個(gè)稍微簡(jiǎn)單一點(diǎn)的短句;
[0011]原子分詞,所謂原子,是指該短句中不可分割的最小語素單位;一個(gè)漢字、短句前后的開始結(jié)束標(biāo)識(shí)字段、全角標(biāo)點(diǎn)符號(hào)、連在一起的數(shù)字字母單字節(jié)字符等;
[0012]逐詞遍歷匹配法實(shí)現(xiàn)成詞全匹配;此方法是把原子切分的詞按由短到長(zhǎng)的順序,逐個(gè)搜索匹配整個(gè)詞典,直到把所有的詞都切分出來為止;
[0013]篩選匹配結(jié)果生成若干最佳結(jié)果,通過最短路徑方法,評(píng)價(jià)每條路徑,生成若干最佳結(jié)果;[0014]前后詞匹配,這步功能實(shí)現(xiàn)主要是根據(jù)前后兩個(gè)詞的一個(gè)關(guān)聯(lián)度做整個(gè)句子的評(píng)價(jià);通過計(jì)算一個(gè)句子的整體的置信度來評(píng)價(jià)句子切分的好壞,經(jīng)過篩選出較優(yōu)的結(jié)果;
[0015]詞性標(biāo)注,對(duì)于“詞性標(biāo)注”這個(gè)應(yīng)用領(lǐng)域來說即對(duì)“確定的切詞結(jié)果”找到背后的各個(gè)詞的“詞性”;
[0016]人名、地名和專有名詞處理,通過對(duì)標(biāo)注好的短句進(jìn)行人名、地名和一些專有名詞的處理,由于基于導(dǎo)航的地理位置信息的特點(diǎn),制作特有的專有名詞詞典,矯正短句當(dāng)中語義成分;
[0017]未登錄詞處理,由于字典是有限的,在分詞的過程中很容易出現(xiàn)一些未登錄詞,詞表里未出現(xiàn)的詞,通過對(duì)未登錄詞進(jìn)行評(píng)價(jià),來判斷未登錄詞是否為一個(gè)新詞,此過程為未登錄詞的學(xué)習(xí)過程:學(xué)習(xí)過程的任務(wù)是要完成對(duì)地理信息數(shù)據(jù)中產(chǎn)生新詞的抽取和判定;把識(shí)別出來的新詞補(bǔ)充到分詞詞典當(dāng)中;
[0018]修正詞典,主要通過對(duì)未登錄詞的新詞添加和對(duì)已有詞的屬性改善;
[0019]最終合并各個(gè)短句處理的結(jié)果,輸出。
[0020]2、按照權(quán)利要求1所述的基于導(dǎo)航信息檢索的中文分詞方法,其特征在于:所述的基于導(dǎo)航信息檢索的中文分詞方法具體包括:
[0021]外部輸入:用于接收用戶的輸入,通常作為直接與用戶交互的模塊,提供多種的輸入方式,符合用戶的使用習(xí)慣,例如:用戶語音輸入,用戶的手寫輸入等;
[0022]提取特征:把用戶輸入的文本轉(zhuǎn)換成統(tǒng)一的GBK編碼規(guī)則;
[0023]文本分析:對(duì)用戶的輸入,無論是輸入的內(nèi)容,還是輸入的行為細(xì)節(jié),包括符號(hào)的輸入、大小寫的輸入等,又或者還是對(duì)輸入的關(guān)鍵字多次的輸入,被認(rèn)定為有用特征后,都作為特征會(huì)被記錄并提取出來;
[0024]分詞系統(tǒng)處理:對(duì)用戶的輸入語句進(jìn)行分詞和詞性標(biāo)注,可以得到每個(gè)詞的詞性,分類,頻率以及拼音屬性;對(duì)于未登錄進(jìn)行添加以及修正已有詞的屬性;
[0025]語義理解:這個(gè)模塊會(huì)對(duì)文本轉(zhuǎn)換的結(jié)果,在模式規(guī)則庫(kù)中,進(jìn)行模式規(guī)則的匹配,會(huì)生成檢索的主要執(zhí)行步驟;
[0026]檢索步驟生成:將會(huì)執(zhí)行完整的檢索步驟,檢索步驟會(huì)對(duì)語義理解的步驟,進(jìn)行編譯優(yōu)化處理,會(huì)綜合考慮性能、內(nèi)存等要素后,生成一組合理的檢索步驟,加上預(yù)處理的流程、步驟之間銜接的流程和處理后的流程等,就會(huì)最終產(chǎn)生一個(gè)檢索步驟的清單;與此同時(shí),還會(huì)完成初始化環(huán)境變量和開辟相關(guān)的內(nèi)存空間,為檢索的步驟處理做準(zhǔn)備;
[0027]檢索步驟處理:此過程會(huì)根據(jù)請(qǐng)求的內(nèi)容,按照檢索的業(yè)務(wù)邏輯,遍歷檢索的數(shù)據(jù)庫(kù)內(nèi)容,取得滿足查詢條件的檢索結(jié)果;當(dāng)檢索步驟清單定義的步驟數(shù)大于零,檢索步驟處理就會(huì)被調(diào)用多次;每一步的結(jié)束,都會(huì)保存檢索的上下文;
[0028]檢索結(jié)果處理:檢索結(jié)果處理會(huì)將檢索的結(jié)果進(jìn)行分類、排序、合并等操作,這一步的結(jié)果就可以轉(zhuǎn)給外置輸出模塊,用于向外置設(shè)備進(jìn)行輸出;
[0029]誤差反饋處理:對(duì)經(jīng)過一次檢索步驟生成、檢索步驟處理后,檢索結(jié)果不存在,智能檢索系統(tǒng)會(huì)判定對(duì)用戶輸入的理解是存在誤差的,需要修改查詢條件,誤差反饋處理會(huì)重新生成檢索步驟,進(jìn)行新的檢索,當(dāng)滿足結(jié)束的條件后,才會(huì)停止檢索;
[0030]自適應(yīng)學(xué)習(xí):這是一個(gè)學(xué)習(xí)模塊,會(huì)根據(jù)檢索的結(jié)果和用戶的輸入,進(jìn)行自適應(yīng)的學(xué)習(xí),來達(dá)到不斷適應(yīng)用戶使用習(xí)慣的目的;根據(jù)用戶的多次檢索,會(huì)不斷修正系統(tǒng)默認(rèn)的規(guī)則,會(huì)影響檢索的結(jié)果和檢索結(jié)果的排序等;
[0031]外置輸出:就是用戶接口,提供給用戶檢索的結(jié)果,對(duì)用戶請(qǐng)求的檢索結(jié)果,進(jìn)行應(yīng)答。
[0032]本發(fā)明的優(yōu)點(diǎn):
[0033]本發(fā)明所述的基于導(dǎo)航信息檢索的中文分詞方法,通過中文分詞技術(shù)可以把用戶輸入的內(nèi)容做成詞處理,可以優(yōu)化速度,并且以詞為基礎(chǔ)可以進(jìn)行錯(cuò)別字矯正,可以提供更符合的結(jié)果。中文分詞技術(shù)可以提高信息檢索引擎對(duì)語義的理解,充分對(duì)提供的結(jié)果集進(jìn)行較好的調(diào)整。
【專利附圖】
【附圖說明】
[0034]下面結(jié)合附圖及實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明:
[0035]圖1為分詞系統(tǒng)流程圖;
[0036]圖2為具體實(shí)施流程圖。
【具體實(shí)施方式】
[0037]實(shí)施例
[0038]本實(shí)施例提供了一種基于導(dǎo)航信息檢索的中文分詞方法,其特征在于:中文分詞作為導(dǎo)航檢索的基礎(chǔ)而設(shè)計(jì),中文分詞對(duì)于搜索引擎來說,最重要的并不是找到所有結(jié)果,而是把最符合語義相關(guān)的結(jié)果優(yōu)選排在最前面,這也稱為相關(guān)度排序;中文分詞的準(zhǔn)確與否,直接影響到對(duì)搜索結(jié)果的相關(guān)度排序;從定性分析來說,搜索引擎的分詞算法不同,詞庫(kù)的不同都會(huì)影響搜索結(jié)果的相關(guān)度;
[0039]采用統(tǒng)計(jì)法和規(guī)則理解法,在大量已經(jīng)分詞的文本,利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型學(xué)習(xí)詞語切分的規(guī)律,從而實(shí)現(xiàn)對(duì)未知文本的切分;將待分析的漢字串與一個(gè)機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功,識(shí)別出一個(gè)詞;通過規(guī)則對(duì)人名、地名和專有名詞進(jìn)行識(shí)別處理;
[0040]基于地理位置信息特點(diǎn)和以上3個(gè)機(jī)制的優(yōu)缺點(diǎn)設(shè)計(jì)了新型詞典的格式,包含了設(shè)施分類信息,以及拼音信息等,格式的特點(diǎn)主要是基于4字詞為基礎(chǔ)的的詞典,由于4個(gè)字以下成詞的比率大約為94.5%,為了簡(jiǎn)化實(shí)現(xiàn)邏輯,基礎(chǔ)詞典采用4字詞典;基于4字詞為基礎(chǔ)的詞典在查找4字以下成詞的速度會(huì)很快,而且支持雙向最大匹配的方法;
[0041]分詞系統(tǒng)的實(shí)現(xiàn)步驟:
[0042]加載詞典,詞典包含機(jī)器訓(xùn)練所有成詞的導(dǎo)航設(shè)施信息內(nèi)容;
[0043]文本編碼轉(zhuǎn)換,統(tǒng)一為國(guó)標(biāo)碼即GBK編碼形式表示文本;
[0044]斷句處理,就是根據(jù)分隔符、回車換行符等語句的分隔標(biāo)志,把源字符串分隔成多個(gè)稍微簡(jiǎn)單一點(diǎn)的短句;
[0045]原子分詞,所謂原子,是指該短句中不可分割的最小語素單位;一個(gè)漢字、短句前后的開始結(jié)束標(biāo)識(shí)字段、全角標(biāo)點(diǎn)符號(hào)、連在一起的數(shù)字字母單字節(jié)字符等;
[0046]逐詞遍歷匹配法實(shí)現(xiàn)成詞全匹配;此方法是把原子切分的詞按由短到長(zhǎng)的順序,逐個(gè)搜索匹配整個(gè)詞典,直到把所有的詞都切分出來為止;
[0047]篩選匹配結(jié)果生成若干最佳結(jié)果,通過最短路徑方法,評(píng)價(jià)每條路徑,生成若干最佳結(jié)果;
[0048]前后詞匹配,這步功能實(shí)現(xiàn)主要是根據(jù)前后兩個(gè)詞的一個(gè)關(guān)聯(lián)度做整個(gè)句子的評(píng)價(jià);通過計(jì)算一個(gè)句子的整體的置信度來評(píng)價(jià)句子切分的好壞,經(jīng)過篩選出較優(yōu)的結(jié)果;
[0049]詞性標(biāo)注,對(duì)于“詞性標(biāo)注”這個(gè)應(yīng)用領(lǐng)域來說即對(duì)“確定的切詞結(jié)果”找到背后的各個(gè)詞的“詞性”;
[0050]人名、地名和專有名詞處理,通過對(duì)標(biāo)注好的短句進(jìn)行人名、地名和一些專有名詞的處理,由于基于導(dǎo)航的地理位置信息的特點(diǎn),制作特有的專有名詞詞典,矯正短句當(dāng)中語義成分;
[0051]未登錄詞處理,由于字典是有限的,在分詞的過程中很容易出現(xiàn)一些未登錄詞,詞表里未出現(xiàn)的詞,通過對(duì)未登錄詞進(jìn)行評(píng)價(jià),來判斷未登錄詞是否為一個(gè)新詞,此過程為未登錄詞的學(xué)習(xí)過程:學(xué)習(xí)過程的任務(wù)是要完成對(duì)地理信息數(shù)據(jù)中產(chǎn)生新詞的抽取和判定;把識(shí)別出來的新詞補(bǔ)充到分詞詞典當(dāng)中;
[0052]修正詞典,主要通過對(duì)未登錄詞的新詞添加和對(duì)已有詞的屬性改善;
[0053]最終合并各個(gè)短句處理的結(jié)果,輸出。
[0054]2、按照權(quán)利要求1所述的基于導(dǎo)航信息檢索的中文分詞方法,其特征在于:所述的基于導(dǎo)航信息檢索的中文分詞方法具體包括:
[0055]外部輸入:用于接收用戶的輸入,通常作為直接與用戶交互的模塊,提供多種的輸入方式,符合用戶的使用習(xí)慣,例如:用戶語音輸入,用戶的手寫輸入等;
[0056]提取特征:把用戶輸入的文本轉(zhuǎn)換成統(tǒng)一的GBK編碼規(guī)則;
[0057]文本分析:對(duì)用戶的輸入,無論是輸入的內(nèi)容,還是輸入的行為細(xì)節(jié),包括符號(hào)的輸入、大小寫的輸入等,又或者還是對(duì)輸入的關(guān)鍵字多次的輸入,被認(rèn)定為有用特征后,都作為特征會(huì)被記錄并提取出來;
[0058]分詞系統(tǒng)處理:對(duì)用戶的輸入語句進(jìn)行分詞和詞性標(biāo)注,可以得到每個(gè)詞的詞性,分類,頻率以及拼音屬性;對(duì)于未登錄進(jìn)行添加以及修正已有詞的屬性;
[0059]語義理解:這個(gè)模塊會(huì)對(duì)文本轉(zhuǎn)換的結(jié)果,在模式規(guī)則庫(kù)中,進(jìn)行模式規(guī)則的匹配,會(huì)生成檢索的主要執(zhí)行步驟;
[0060]檢索步驟生成:將會(huì)執(zhí)行完整的檢索步驟,檢索步驟會(huì)對(duì)語義理解的步驟,進(jìn)行編譯優(yōu)化處理,會(huì)綜合考慮性能、內(nèi)存等要素后,生成一組合理的檢索步驟,加上預(yù)處理的流程、步驟之間銜接的流程和處理后的流程等,就會(huì)最終產(chǎn)生一個(gè)檢索步驟的清單;與此同時(shí),還會(huì)完成初始化環(huán)境變量和開辟相關(guān)的內(nèi)存空間,為檢索的步驟處理做準(zhǔn)備;
[0061]檢索步驟處理:此過程會(huì)根據(jù)請(qǐng)求的內(nèi)容,按照檢索的業(yè)務(wù)邏輯,遍歷檢索的數(shù)據(jù)庫(kù)內(nèi)容,取得滿足查詢條件的檢索結(jié)果;當(dāng)檢索步驟清單定義的步驟數(shù)大于零,檢索步驟處理就會(huì)被調(diào)用多次;每一步的結(jié)束,都會(huì)保存檢索的上下文;
[0062]檢索結(jié)果處理:檢索結(jié)果處理會(huì)將檢索的結(jié)果進(jìn)行分類、排序、合并等操作,這一步的結(jié)果就可以轉(zhuǎn)給外置輸出模塊,用于向外置設(shè)備進(jìn)行輸出;
[0063]誤差反饋處理:對(duì)經(jīng)過一次檢索步驟生成、檢索步驟處理后,檢索結(jié)果不存在,智能檢索系統(tǒng)會(huì)判定對(duì)用戶輸入的理解是存在誤差的,需要修改查詢條件,誤差反饋處理會(huì)重新生成檢索步驟,進(jìn)行新的檢索,當(dāng)滿足結(jié)束的條件后,才會(huì)停止檢索;
[0064]自適應(yīng)學(xué)習(xí):這是一個(gè)學(xué)習(xí)模塊,會(huì)根據(jù)檢索的結(jié)果和用戶的輸入,進(jìn)行自適應(yīng)的學(xué)習(xí),來達(dá)到不斷適應(yīng)用戶使用習(xí)慣的目的;根據(jù)用戶的多次檢索,會(huì)不斷修正系統(tǒng)默認(rèn)的規(guī)則,會(huì)影響檢索的結(jié)果和檢索結(jié)果的排序等;
[0065]外置輸出:就是用戶接口,提供給用戶檢索的結(jié)果,對(duì)用戶請(qǐng)求的檢索結(jié)果,進(jìn)行應(yīng)答。
【權(quán)利要求】
1.一種基于導(dǎo)航信息檢索的中文分詞方法,其特征在于: 分詞系統(tǒng)的實(shí)現(xiàn)步驟: 加載詞典,詞典包含機(jī)器訓(xùn)練所有成詞的導(dǎo)航設(shè)施信息內(nèi)容; 文本編碼轉(zhuǎn)換,統(tǒng)一為國(guó)標(biāo)碼即GBK編碼形式表示文本; 斷句處理,就是根據(jù)分隔符、回車換行符等語句的分隔標(biāo)志,把源字符串分隔成多個(gè)稍微簡(jiǎn)單一點(diǎn)的短句; 原子分詞,所謂原子,是指該短句中不可分割的最小語素單位;一個(gè)漢字、短句前后的開始結(jié)束標(biāo)識(shí)字段、全角標(biāo)點(diǎn)符號(hào)、連在一起的數(shù)字字母單字節(jié)字符等; 逐詞遍歷匹配法實(shí)現(xiàn)成詞全匹配;此方法是把原子切分的詞按由短到長(zhǎng)的順序,逐個(gè)搜索匹配整個(gè)詞典,直到把所有的詞都切分出來為止; 篩選匹配結(jié)果生成若干最佳結(jié)果,通過最短路徑方法,評(píng)價(jià)每條路徑,生成若干最佳結(jié)果; 前后詞匹配,這步功能實(shí)現(xiàn)主要是根據(jù)前后兩個(gè)詞的一個(gè)關(guān)聯(lián)度做整個(gè)句子的評(píng)價(jià);通過計(jì)算一個(gè)句子的整體的置信度來評(píng)價(jià)句子切分的好壞,經(jīng)過篩選出較優(yōu)的結(jié)果; 詞性標(biāo)注,對(duì)于“詞性標(biāo)注”這個(gè)應(yīng)用領(lǐng)域來說即對(duì)“確定的切詞結(jié)果”找到背后的各個(gè)詞的“詞性”; 人名、地名和專有名詞處理,通過對(duì)標(biāo)注好的短句進(jìn)行人名、地名和一些專有名詞的處理,由于基于導(dǎo)航的地理位置信`息的特點(diǎn),制作特有的專有名詞詞典,矯正短句當(dāng)中語義成分; 未登錄詞處理,由于字典是有限的,在分詞的過程中很容易出現(xiàn)一些未登錄詞,詞表里未出現(xiàn)的詞,通過對(duì)未登錄詞進(jìn)行評(píng)價(jià),來判斷未登錄詞是否為一個(gè)新詞,此過程為未登錄詞的學(xué)習(xí)過程:學(xué)習(xí)過程的任務(wù)是要完成對(duì)地理信息數(shù)據(jù)中產(chǎn)生新詞的抽取和判定;把識(shí)別出來的新詞補(bǔ)充到分詞詞典當(dāng)中; 修正詞典,主要通過對(duì)未登錄詞的新詞添加和對(duì)已有詞的屬性改善; 最終合并各個(gè)短句處理的結(jié)果,輸出。
2.按照權(quán)利要求1所述的基于導(dǎo)航信息檢索的中文分詞方法,其特征在于:所述的基于導(dǎo)航信息檢索的中文分詞方法具體包括: 外部輸入:用于接收用戶的輸入,通常作為直接與用戶交互的模塊,提供多種的輸入方式,符合用戶的使用習(xí)慣,例如:用戶語音輸入,用戶的手寫輸入等; 提取特征:把用戶輸入的文本轉(zhuǎn)換成統(tǒng)一的GBK編碼規(guī)則; 文本分析:對(duì)用戶的輸入,無論是輸入的內(nèi)容,還是輸入的行為細(xì)節(jié),包括符號(hào)的輸入、大小寫的輸入等,又或者還是對(duì)輸入的關(guān)鍵字多次的輸入,被認(rèn)定為有用特征后,都作為特征會(huì)被記錄并提取出來; 分詞系統(tǒng)處理:對(duì)用戶的輸入語句進(jìn)行分詞和詞性標(biāo)注,可以得到每個(gè)詞的詞性,分類,頻率以及拼音屬性;對(duì)于未登錄進(jìn)行添加以及修正已有詞的屬性; 語義理解:這個(gè)模塊會(huì)對(duì)文本轉(zhuǎn)換的結(jié)果,在模式規(guī)則庫(kù)中,進(jìn)行模式規(guī)則的匹配,會(huì)生成檢索的主要執(zhí)行步驟; 檢索步驟生成:將會(huì)執(zhí)行完整的檢索步驟,檢索步驟會(huì)對(duì)語義理解的步驟,進(jìn)行編譯優(yōu)化處理,會(huì)綜合考慮性能、內(nèi)存等要素后,生成一組合理的檢索步驟,加上預(yù)處理的流程、步驟之間銜接的流程和處理后的流程等,就會(huì)最終產(chǎn)生一個(gè)檢索步驟的清單;與此同時(shí),還會(huì)完成初始化環(huán)境變量和開辟相關(guān)的內(nèi)存空間,為檢索的步驟處理做準(zhǔn)備; 檢索步驟處理:此過程會(huì)根據(jù)請(qǐng)求的內(nèi)容,按照檢索的業(yè)務(wù)邏輯,遍歷檢索的數(shù)據(jù)庫(kù)內(nèi)容,取得滿足查詢條件的檢索結(jié)果;當(dāng)檢索步驟清單定義的步驟數(shù)大于零,檢索步驟處理就會(huì)被調(diào)用多次;每一步的結(jié)束,都會(huì)保存檢索的上下文; 檢索結(jié)果處理:檢索結(jié)果處理會(huì)將檢索的結(jié)果進(jìn)行分類、排序、合并等操作,這一步的結(jié)果就可以轉(zhuǎn)給外置輸出模塊,用于向外置設(shè)備進(jìn)行輸出; 誤差反饋處理:對(duì)經(jīng)過一次檢索步驟生成、檢索步驟處理后,檢索結(jié)果不存在,智能檢索系統(tǒng)會(huì)判定對(duì)用戶輸入的理解是存在誤差的,需要修改查詢條件,誤差反饋處理會(huì)重新生成檢索步驟,進(jìn)行新的檢索,當(dāng)滿足結(jié)束的條件后,才會(huì)停止檢索; 自適應(yīng)學(xué)習(xí):這是一個(gè)學(xué)習(xí)模塊,會(huì)根據(jù)檢索的結(jié)果和用戶的輸入,進(jìn)行自適應(yīng)的學(xué)習(xí),來達(dá)到不斷適應(yīng)用戶使用習(xí)慣的目的;根據(jù)用戶的多次檢索,會(huì)不斷修正系統(tǒng)默認(rèn)的規(guī)貝U,會(huì)影響檢索的結(jié)果和檢索結(jié)果的排序等; 外置輸出:就是用戶接口,`提供給用戶檢索的結(jié)果,對(duì)用戶請(qǐng)求的檢索結(jié)果,進(jìn)行應(yīng)答。
【文檔編號(hào)】G06F17/30GK103678684SQ201310731944
【公開日】2014年3月26日 申請(qǐng)日期:2013年12月25日 優(yōu)先權(quán)日:2013年12月25日
【發(fā)明者】李濰希, 于航, 解威, 朱小瑩 申請(qǐng)人:沈陽美行科技有限公司