本發(fā)明涉及軟件方法,具體涉及一種醫(yī)藥偏方與關(guān)鍵字的提取和處理方法。
背景技術(shù):
目前國內(nèi)老年人群在受教育程度上差異很大,對智能設(shè)備的接受程度也有很大不同,在輸入文本上有大量的表述不清、錯字、語序混亂問題,在終端的醫(yī)藥偏方推送中,往往不能夠明確的得知用戶的真實意圖,因此,需要設(shè)計一種能夠糾錯、識別語音并高效篩選關(guān)鍵字進(jìn)行文本推送的方法,以解決老年人群體使用終端帶來的極大不便。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的缺陷,設(shè)計一種醫(yī)藥偏方與關(guān)鍵字的提取和處理方法,能夠接收文字和語音文本,并進(jìn)行高效的關(guān)鍵系拆分提取,有效的就行糾錯處理,得出最終的關(guān)鍵字,并依據(jù)關(guān)鍵字的排序進(jìn)行推送文本的篩選和排序,根據(jù)終端搜索詞進(jìn)行服務(wù)端分析處理,得出有效檢索關(guān)鍵詞,為老年人的使用帶來極大的便利,提高了醫(yī)藥偏方篩選推送的準(zhǔn)確性。
為實現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案是一種醫(yī)藥偏方與關(guān)鍵字的提取和處理方法,利用終端和服務(wù)端的計算處理對醫(yī)藥偏方與關(guān)鍵字進(jìn)行提取和處理;
具體的方法步驟為:
(1)終端發(fā)送搜索輸入命令將文本和/或語音命令傳輸至服務(wù)端;
(2)服務(wù)端提取文字命令文本,將語音命令轉(zhuǎn)換為文本,服務(wù)端的服務(wù)器對搜索命令進(jìn)行處理;
(3)服務(wù)端通過對文字命令文本和語音命令轉(zhuǎn)換的文本進(jìn)行自然分割、詞庫分割、詞組分詞的方式提取有效的初級關(guān)鍵字;
(4)服務(wù)器同時對文字命令文本和語音命令轉(zhuǎn)換的文本進(jìn)行分字和糾錯處理后,得到二級關(guān)鍵字;二級關(guān)鍵詞優(yōu)先為主要檢索關(guān)鍵詞,初級關(guān)鍵詞為次要檢索關(guān)鍵詞組及非文本的目的判斷,如分割出的標(biāo)點符號及空格、標(biāo)點符號不進(jìn)入偏方搜索關(guān)鍵詞范圍。
(5)服務(wù)器通過比對初級關(guān)鍵字和二級關(guān)鍵字后進(jìn)行關(guān)鍵字排序,按排序先后的關(guān)鍵字與數(shù)據(jù)庫中的醫(yī)藥偏方文章對比后將搜索結(jié)果按對應(yīng)的排序推送至客戶端,為用戶提供醫(yī)藥偏方信息。根據(jù)得出的關(guān)鍵詞進(jìn)行數(shù)據(jù)庫中的文章搜索,命中關(guān)鍵詞越多的文章推送權(quán)重越高,相同命中效果的文章根據(jù)文章瀏覽量、更新時間進(jìn)行次級排序。
優(yōu)選的,步驟(1)中,搜索輸入命令包括輸入法文本命令傳輸和語音輸入音頻命令傳輸;終端同時傳輸終端信息至服務(wù)端,包括終端位置、常使用位置信息。
優(yōu)選的,步驟(2)中,將語音命令轉(zhuǎn)換為文本過程中采用語音分析,其中語音分析優(yōu)先采用普通話解析,同時根據(jù)步驟(1)上傳的用戶身份及所在地區(qū)方言進(jìn)行解析,得出語音命令轉(zhuǎn)換的文本。
語音分析軟件采用第三方語音解析能力,可選用是科大訊飛股份有限公司的語音識別引擎等相關(guān)分析軟件得到文本。也可以選擇多個多個第三方的語音轉(zhuǎn)文字系統(tǒng)服務(wù)多維轉(zhuǎn)換得最終結(jié)果。
優(yōu)選的,步驟(3)中自然分割的方式是以語氣詞、標(biāo)點符號、空格符號、換行符作為首要分割條件對文本進(jìn)行分割,以此為基礎(chǔ)滿足提取的關(guān)鍵詞貼切終端的搜索意圖。如文本“糖尿病應(yīng)該食用哪些食物”,則系統(tǒng)優(yōu)先劃分為“糖尿病”“應(yīng)該食用哪些”“食物”,確保貼切終端的索索意圖。
優(yōu)選的,步驟(3)中的詞庫分割方式是依靠中文詞典數(shù)據(jù)庫、終端歷史行為詞庫、歷史搜索詞庫、全平臺熱門搜索詞庫進(jìn)行關(guān)鍵詞組合分割。如文本“糖尿病應(yīng)該食用哪些食物”,則系統(tǒng)劃分為“糖尿病”“應(yīng)該”“食用”“哪些”“食物”“應(yīng)該食用”“食用哪些食物”“食用哪些”。
優(yōu)選的,步驟(3)中的詞組分詞方式是利用終端的歷史行為數(shù)據(jù)按照順序優(yōu)先原則得出關(guān)鍵搜索詞組合即初級關(guān)鍵字,分析原則就是分割關(guān)鍵詞按最少分割次數(shù)的分割。如文本“糖尿病應(yīng)該食用哪些食物”,則系統(tǒng)劃分為“糖尿病”“應(yīng)該”“食用”“哪些”“食物”,分析出的結(jié)果為“糖尿病”“食用”“食物”,主要索引項以及這三個詞的順序組合,按照順序優(yōu)先原則得出關(guān)鍵搜索詞組合,整個分析基本的原則就是分割關(guān)鍵詞按最少的分割。最少次數(shù)分割原則為斷句式分割方式,不做相同文字的多次組詞處理。
優(yōu)選的,終端的歷史行為數(shù)據(jù)包含終端歷史行為詞庫、歷史搜索詞庫、全平臺熱門搜索詞庫,以及終端使用過程中通過內(nèi)容標(biāo)簽記錄用戶行為的關(guān)鍵詞數(shù)據(jù),記錄用戶有效歷史搜索關(guān)鍵詞、記錄全平臺用戶搜索關(guān)鍵詞及熱門搜索詞數(shù)據(jù)。
優(yōu)選的,步驟(4)中服務(wù)器的分字處理是將文本文本拆分為基本的字和/或詞,將拆分的字詞與服務(wù)端的數(shù)據(jù)庫進(jìn)行比對后得到二級關(guān)鍵詞。如文本“糖尿病應(yīng)該食用哪些食物”,分字處理后得到“糖”“尿”“病”“應(yīng)該”“食”“用”“哪”“些”“食物”,然后去數(shù)據(jù)庫中匹配。
優(yōu)選的,步驟(4)中服務(wù)器的糾錯處理是為了防止終端錯誤輸入文字或語音轉(zhuǎn)文字處理錯誤的因素;服務(wù)端對錯別字進(jìn)行處理分析時,首先通過近義詞匹配來進(jìn)行糾錯,然后采用常見同音字判斷詞組是否存在,若存在則進(jìn)行糾錯替換。如“食物”,在文本或語音輸入過程中可能會成為“事務(wù)”或“實物”“失誤”等錯誤信息,通過糾錯處理后,替換為正確的“食物”。
優(yōu)選的,終端智能設(shè)備終端,包括手機(jī)、電腦及平板電腦;服務(wù)端通過有線和/或無線的方式與終端數(shù)據(jù)連接。
本發(fā)明的優(yōu)點和有益效果在于:
醫(yī)藥偏方與關(guān)鍵字的提取和處理方法,能夠接收文字和語音文本,并進(jìn)行高效的關(guān)鍵系拆分提取,有效的就行糾錯處理,得出最終的關(guān)鍵字,并依據(jù)關(guān)鍵字的排序進(jìn)行推送文本的篩選和排序,根據(jù)終端搜索詞進(jìn)行服務(wù)端分析處理,得出有效檢索關(guān)鍵詞,為老年人的使用帶來極大的便利,提高了醫(yī)藥偏方篩選推送的準(zhǔn)確性。
附圖說明
圖1是本發(fā)明醫(yī)藥偏方與關(guān)鍵字的提取和處理方法的流程圖。
具體實施方式
下面結(jié)合附圖和實施例,對本發(fā)明的具體實施方式作進(jìn)一步描述。以下實施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,而不能以此來限制本發(fā)明的保護(hù)范圍。
實施例1
如圖1所示:本實施例為一種醫(yī)藥偏方與關(guān)鍵字的提取和處理方法,利用終端和服務(wù)端的計算處理對醫(yī)藥偏方與關(guān)鍵字進(jìn)行提取和處理;
具體的方法步驟為:
(1)終端發(fā)送搜索輸入命令將文本和/或語音命令傳輸至服務(wù)端;
(2)服務(wù)端提取文字命令文本,將語音命令轉(zhuǎn)換為文本,服務(wù)端的服務(wù)器對搜索命令進(jìn)行處理;
(3)服務(wù)端通過對文字命令文本和語音命令轉(zhuǎn)換的文本進(jìn)行自然分割、詞庫分割、詞組分詞的方式提取有效的初級關(guān)鍵字;
(4)服務(wù)器同時對文字命令文本和語音命令轉(zhuǎn)換的文本進(jìn)行分字和糾錯處理后,得到二級關(guān)鍵字;二級關(guān)鍵詞優(yōu)先為主要檢索關(guān)鍵詞,初級關(guān)鍵詞為次要檢索關(guān)鍵詞組及非文本的目的判斷,如分割出的標(biāo)點符號及空格、標(biāo)點符號不進(jìn)入偏方搜索關(guān)鍵詞范圍。
(5)服務(wù)器通過比對初級關(guān)鍵字和二級關(guān)鍵字后進(jìn)行關(guān)鍵字排序,按排序先后的關(guān)鍵字與數(shù)據(jù)庫中的醫(yī)藥偏方文章對比后將搜索結(jié)果按對應(yīng)的排序推送至客戶端,為用戶提供醫(yī)藥偏方信息。根據(jù)得出的關(guān)鍵詞進(jìn)行數(shù)據(jù)庫中的文章搜索,命中關(guān)鍵詞越多的文章推送權(quán)重越高,相同命中效果的文章根據(jù)文章瀏覽量、更新時間進(jìn)行次級排序。
步驟(1)中,搜索輸入命令包括輸入法文本命令傳輸和語音輸入音頻命令傳輸;終端同時傳輸終端信息至服務(wù)端,包括終端位置、常使用位置信息。
步驟(2)中,將語音命令轉(zhuǎn)換為文本過程中采用語音分析,其中語音分析優(yōu)先采用普通話解析,同時根據(jù)步驟(1)上傳的用戶身份及所在地區(qū)方言進(jìn)行解析,得出語音命令轉(zhuǎn)換的文本。
語音分析軟件采用第三方語音解析能力,可選用是科大訊飛股份有限公司的語音識別引擎等相關(guān)分析軟件得到文本。
優(yōu)選的,步驟(3)中自然分割的方式是以語氣詞、標(biāo)點符號、空格符號、換行符作為首要分割條件對文本進(jìn)行分割,以此為基礎(chǔ)滿足提取的關(guān)鍵詞貼切終端的搜索意圖。如文本“糖尿病應(yīng)該食用哪些食物”,則系統(tǒng)優(yōu)先劃分為“糖尿病”“應(yīng)該食用哪些”“食物”,確保貼切終端的索索意圖。
優(yōu)選的,步驟(3)中的詞庫分割方式是依靠中文詞典數(shù)據(jù)庫、終端歷史行為詞庫、歷史搜索詞庫、全平臺熱門搜索詞庫進(jìn)行關(guān)鍵詞組合分割。如文本“糖尿病應(yīng)該食用哪些食物”,則系統(tǒng)劃分為“糖尿病”“應(yīng)該”“食用”“哪些”“食物”“應(yīng)該食用”“食用哪些食物”“食用哪些”。
優(yōu)選的,步驟(3)中的詞組分詞方式是利用終端的歷史行為數(shù)據(jù)按照順序優(yōu)先原則得出關(guān)鍵搜索詞組合即初級關(guān)鍵字,分析原則就是分割關(guān)鍵詞按最少分割次數(shù)的分割。如文本“糖尿病應(yīng)該食用哪些食物”,則系統(tǒng)劃分為“糖尿病”“應(yīng)該”“食用”“哪些”“食物”,分析出的結(jié)果為“糖尿病”“食用”“食物”,主要索引項以及這三個詞的順序組合,按照順序優(yōu)先原則得出關(guān)鍵搜索詞組合,整個分析基本的原則就是分割關(guān)鍵詞按最少的分割。最少次數(shù)分割原則為斷句式分割方式,不做相同文字的多次組詞處理。
終端的歷史行為數(shù)據(jù)包含終端歷史行為詞庫、歷史搜索詞庫、全平臺熱門搜索詞庫,以及終端使用過程中通過內(nèi)容標(biāo)簽記錄用戶行為的關(guān)鍵詞數(shù)據(jù),記錄用戶有效歷史搜索關(guān)鍵詞、記錄全平臺用戶搜索關(guān)鍵詞及熱門搜索詞數(shù)據(jù)。
步驟(4)中服務(wù)器的分字處理是將文本文本拆分為基本的字和/或詞,將拆分的字詞與服務(wù)端的數(shù)據(jù)庫進(jìn)行比對后得到二級關(guān)鍵詞。如文本“糖尿病應(yīng)該食用哪些食物”,分字處理后得到“糖”“尿”“病”“應(yīng)該”“食”“用”“哪”“些”“食物”,然后去數(shù)據(jù)庫中匹配。
步驟(4)中服務(wù)器的糾錯處理是為了防止終端錯誤輸入文字或語音轉(zhuǎn)文字處理錯誤的因素;服務(wù)端對錯別字進(jìn)行處理分析時,首先通過近義詞匹配來進(jìn)行糾錯,然后采用常見同音字判斷詞組是否存在,若存在則進(jìn)行糾錯替換。如“食物”,在文本或語音輸入過程中可能會成為“事務(wù)”或“實物”“失誤”等錯誤信息,通過糾錯處理后,替換為正確的“食物”。
終端智能設(shè)備終端,包括手機(jī)、電腦及平板電腦;服務(wù)端通過有線和/或無線的方式與終端數(shù)據(jù)連接。
本實施例的有益效果在于:
醫(yī)藥偏方與關(guān)鍵字的提取和處理方法,能夠接收文字和語音文本,并進(jìn)行高效的關(guān)鍵系拆分提取,有效的就行糾錯處理,得出最終的關(guān)鍵字,并依據(jù)關(guān)鍵字的排序進(jìn)行推送文本的篩選和排序,根據(jù)終端搜索詞進(jìn)行服務(wù)端分析處理,得出有效檢索關(guān)鍵詞,為老年人的使用帶來極大的便利,提高了醫(yī)藥偏方篩選推送的準(zhǔn)確性。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明技術(shù)原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。