現(xiàn)實信息索引的建立方法和基于云平臺的全文檢索系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種現(xiàn)實信息索引的建立方法和基于云平臺的全文檢索系統(tǒng)。該方法包括:對現(xiàn)實信息的數(shù)據(jù)庫中的文本進(jìn)行分詞,以得到詞庫;詞庫中獲取一個詞語以得到第一詞語;從除去第一詞語的詞庫中獲取N?1個詞語,并與第一詞語共同構(gòu)成一個詞語組,采用以下公式計算詞語組中每兩個詞語的總體相關(guān)性距離K,以得到個K,采用以下公式計算詞語組的總體距離系數(shù)P:K=λ1K不同文本+λ2K同文本*[λ3K不同段落+λ4K同段落*(λ5K不同句子+λ6K同句子)],其中,獲取M次N?1個詞語進(jìn)行計算得到M個P;找出計算得到的P為最小時所獲取的N?1個詞語與第一詞語構(gòu)成第一相關(guān)詞語組;確定第一相關(guān)詞語組中各詞語之間的關(guān)系;根據(jù)第一相關(guān)詞語組中各詞語之間的關(guān)系構(gòu)建現(xiàn)實信息的索引。通過本發(fā)明,能夠更有效率的找尋有效數(shù)據(jù)。
【專利說明】
現(xiàn)實信息索引的建立方法和基于云平臺的全文檢索系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體而言,特別涉及一種現(xiàn)實信息索引的建立方 法和基于云平臺的全文檢索系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)發(fā)展,我們進(jìn)入了數(shù)據(jù)爆炸的大數(shù)據(jù)時代。愈來愈多的數(shù)據(jù)影響著人 們生活的方方面面,人們需要分類存儲、調(diào)用、分析各類數(shù)據(jù)。但在調(diào)用分析中,存在著遍歷 數(shù)據(jù)效率低的問題。
[0003] 針對現(xiàn)有技術(shù)中數(shù)據(jù)檢索效率低的問題,目前尚未提出有效的解決方法。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的主要目的在于提供一種現(xiàn)實信息索引的建立方法和基于云平臺的全文 檢索系統(tǒng),以解決現(xiàn)有技術(shù)中數(shù)據(jù)檢索效率低的問題。
[0005] 依據(jù)本發(fā)明的一個方面,提供了一種現(xiàn)實信息索引的建立方法。該方法包括:步驟 SI:對現(xiàn)實信息的數(shù)據(jù)庫中的文本進(jìn)行分詞,以得到詞庫;步驟S2:詞庫中獲取一個詞語以 得到第一詞語;步驟S3:從除去第一詞語的詞庫中獲取N-I個詞語,并與第一詞語共同構(gòu)成 一個詞語組,采用以下公式計算詞語組中每兩個詞語的總體相關(guān)性距離K,以得到個K,采 用以下公式計算詞語組的總體距離系數(shù)P:
[0006;
[0007;
[0008] 其中,為兩個詞語在不同文本中的距離,κ融*為兩個詞語在同一個文本中的 距離,???為兩個詞語在同一文本中不同段落中的距離,κ_為兩個詞語在同一段落中的 距離,為兩個詞語在同一段落中不同句子中的距離,Kiifejp為兩個詞語在同一句子中的 距離,&至\ 6為常量,Ky為個K中的第y個Κ;其中,在該方法中,執(zhí)行M次步驟S3,每次執(zhí)行步 驟S3時,獲取不同的N-I個詞語,以得到M個P,M為預(yù)設(shè)值;步驟S4:找出計算得到的P為最小 時所獲取的N-I個詞語作為第一詞語組,第一詞語組與第一詞語共同構(gòu)成第一相關(guān)詞語組; 步驟S5:確定第一相關(guān)詞語組中各詞語之間的關(guān)系;以及步驟S6:根據(jù)第一相關(guān)詞語組中各 詞語之間的關(guān)系構(gòu)建現(xiàn)實信息的索引。
[0009] 進(jìn)一步地,在步驟Sl中,對數(shù)據(jù)庫中的一個文本進(jìn)行分詞具體包括:將文本與第一 詞典匹配到的詞作為斷點詞;通過斷點詞將文本分割為多個文本段;以及將斷點詞、多個文 本段中的每一個文本段與第二詞典匹配到的詞作為對文本進(jìn)行分詞的分詞結(jié)果,其中,第 一詞典的詞量小于第二詞典的詞量。
[0010] 進(jìn)一步地,在步驟Sl中,對數(shù)據(jù)庫中的一個文本進(jìn)行分詞具體包括:通過標(biāo)點符號 將文本分割為多個句子;對多個句子中的每個句子采用正向最大匹配法進(jìn)行切分,以得到 第一分詞結(jié)果;對多個句子中的每個句子采用逆向最大匹配法進(jìn)行切分,以得到第二分詞 結(jié)果;若第一分詞結(jié)果與第二分詞結(jié)果相同,則第一分詞結(jié)果或第二分詞結(jié)果為對文本進(jìn) 行分詞的分詞結(jié)果;若第一分詞結(jié)果與第二分詞結(jié)果不同,將不同的部分拆分為最小詞;以 及將最小詞、第一分詞結(jié)果與第二分詞結(jié)果相同的部分作為對文本進(jìn)行分詞的分詞結(jié)果。
[0011] 進(jìn)一步地,在步驟S5中,采用以下步驟確定第一相關(guān)詞語組中各詞語之間的關(guān)系: 采用以下公式計算第一詞語在第一相關(guān)詞語組中的位置決定參數(shù),以得到第一位置參數(shù):
[0012]
[0013] 其中,V1S常量,Ki為第一詞語組中第i個詞語與第一詞語的總體相關(guān)性距離K; 將第一位置決定參數(shù)輸入由N個詞語組成的相關(guān)詞語組所對應(yīng)的第一模型,以得到第一相 關(guān)詞語組中各詞語之間的關(guān)系,其中,詞語之間關(guān)系包括所屬關(guān)系、并列關(guān)系和無關(guān)關(guān)系, 第一模型的輸入為相關(guān)詞語組中一個詞語在相關(guān)詞語組中的位置決定參數(shù),第一模型的輸 出為相關(guān)詞語組中各詞語之間的關(guān)系。
[0014] 進(jìn)一步地,在步驟S6中,第一模型采用以下步驟得到:獲取機器學(xué)習(xí)樣本集,其中, 樣本集中包括多個樣本,一個樣本包括兩個特征參數(shù),其中,一個特征參數(shù)為由N個詞語組 成的相關(guān)詞語組中各詞語之間的關(guān)系,另一個特征參數(shù)為相關(guān)詞語組中一個詞語在相關(guān)詞 語組中的位置決定參數(shù);通過人工智能學(xué)習(xí)算法對樣本集進(jìn)行學(xué)習(xí),以得到第一模型。
[0015] 進(jìn)一步地,在步驟S5中,采用以下步驟確定第一相關(guān)詞語組中各詞語之間的關(guān)系: 確定第一詞語組中各詞語之間的關(guān)系,以得到第一關(guān)系組;確定第一詞語與第一詞語組中 各詞語的關(guān)系,以得到第二關(guān)系組;以及通過第一關(guān)系組和第二關(guān)系組確定第一相關(guān)詞語 組中各詞語之間的關(guān)系。
[0016] 進(jìn)一步地,在步驟S3中,第二詞語與第三詞語為N個詞語中兩個詞語,數(shù)據(jù)庫中具 有Zi個文本組,每個文本組中包括第一文本和第二文本共兩個文本,第二詞語僅在第一文 本出現(xiàn),第三詞語僅在第二文本出現(xiàn),計算的具體步驟如下:對數(shù)據(jù)庫中的所有文本 按照相似性由高到低進(jìn)行排序,以使數(shù)據(jù)庫中的每一個文本均對應(yīng)一個序號;采用以下公 式計算
[0017]
[0018] 其中,Xl = 1,2,3......Z1,bxl為第二詞語在Z1個文本組中第xl個文本組的第一文 本的出現(xiàn)次數(shù),mxl為第三詞語在第xl個文本組的第二文本的出現(xiàn)次數(shù),Ixl為第xl個文本組 的第二文本對應(yīng)的序號與第xl個文本組的第一文本對應(yīng)的序號的差。
[0019] 進(jìn)一步地,在步驟S3中,第二詞語與第三詞語為N個詞語中任意兩個詞語,數(shù)據(jù)庫 具有同時出現(xiàn)第二詞語和第三詞語的辦個文本,采用以下公式計算K同鉢:
[0020
[0021] 其中,x2 = 1,2,3......Z2,Cx為第二詞語在Z2個文本中第x2個文本的出現(xiàn)次數(shù),n x2 為第三詞語在第x2個文本的出現(xiàn)次數(shù)。
[0022] 進(jìn)一步地,在步驟S3中,第二詞語與第三詞語為N個詞語中任意兩個詞語,第三文 本為數(shù)據(jù)庫中同時出現(xiàn)第二詞語和第三詞語的一個文本,第三文本中具有Z3個段落組,每 個段落組中包括第一段落和第二段落共兩個段落,第二詞語僅在第一段落出現(xiàn),第三詞語 僅在第二段落出現(xiàn),計算1???:的具體步驟如下:
[0023] 對第三文本中的所有段落按照相似性由高到低進(jìn)行排序,以使第三文本中的每一 個段落均對應(yīng)一個序號;采用以下公式計算Km:
[0024]
[0025] 其中,x3 = 1,2,3......Z3,bx/為第二詞語在Z3個段落組中第χ3個段落組的第一 段落的出現(xiàn)次數(shù),Hix/為第三詞語在第χ3個段落組的第二段落的出現(xiàn)次數(shù),Ix/為第χ3個段 落組的第一段落對應(yīng)的序號與第x3個段落組的第二段落對應(yīng)的序號的差。
[0026] 進(jìn)一步地,在步驟S3中,第二詞語與第三詞語為N個詞語中任意兩個詞語,第四文 本為數(shù)據(jù)庫中具有同時出現(xiàn)第二詞語和第三詞語的段落的一個文本,第四文本具有同時出 現(xiàn)第二詞語和第三詞語的Z4個段落,采用以下公式計算κ_:
[0027]
[0028] 其中,χ4=1,2,3......為第二詞語在Z4個段落中第χ4個段落的出現(xiàn)次數(shù), r/ χ4第三詞語在第Χ4個段落的出現(xiàn)次數(shù)。
[0029] 進(jìn)一步地,在步驟S3中,第二詞語與第三詞語為N個詞語中任意兩個詞語,第五文 本為數(shù)據(jù)庫中具有同時出現(xiàn)第二詞語和第三詞語的段落的一個文本,第三段落為第五文本 中同時出現(xiàn)第二詞語和第三詞語的一個段落,第三段落中具有z 5f句子組,每個句子組中 包括第一句子和第二句子共兩個句子,第二詞語僅在第一句子出現(xiàn),第三詞語僅在第二句 子出現(xiàn),計算的具體步驟如下:對第三段落中的所有句子按照先后順序進(jìn)行排序,以 使第三段落中的每一個句子均對應(yīng)一個序號;采用以下公式計算K*:
[0030]
[0031] 其中,x5 = 1,2,3......Z3,bx5〃為第二詞語在25個句子組中第χ5個句子組的第一 段落的出現(xiàn)次數(shù),mx5〃為第三詞語在第χ5個句子組的第二段落的出現(xiàn)次數(shù),1〃χ5為第χ5個句 子組的第一段落對應(yīng)的序號與第x5個句子組的第二段落對應(yīng)的序號的差。
[0032] 進(jìn)一步地,在步驟S3中,第二詞語與第三詞語為N個詞語中任意兩個詞語,第六文 本為數(shù)據(jù)庫中具有同時出現(xiàn)第二詞語和第三詞語的句子的一個文本,第六文本具有同時出 現(xiàn)第二福語知笛二福語的木采用以下公式計算K同研:
[0033]
[0034] 其中,x6 = 1,2,3......Z6,c〃x6為第二詞語在Z6個句子中第x6個句子的出現(xiàn)次數(shù), n〃 x6第三詞語在第x6個句子的出現(xiàn)次數(shù)。
[0035]另一方面,提供了一種基于云平臺的全文檢索系統(tǒng),該系統(tǒng)包括:現(xiàn)實信息索引的 建立裝置,用于采用本發(fā)明提供的任一種現(xiàn)實信息索引的建立方法構(gòu)建現(xiàn)實信息的索引; 分布式數(shù)據(jù)庫,用于存儲現(xiàn)實信息的數(shù)據(jù)和索引;現(xiàn)實信息檢索裝置,用于響應(yīng)檢索詞,以 根據(jù)索引在分布式數(shù)據(jù)庫中檢索出結(jié)果并展示。
[0036] 通過本發(fā)明,在建立現(xiàn)實信息索引時,首先對現(xiàn)實信息的數(shù)據(jù)庫中的文本進(jìn)行分 詞得到詞庫,然后再詞庫中獲取一個詞語以得到第一詞語;再從除去第一詞語的詞庫中獲 取N-I個詞語,并與第一詞語共同構(gòu)成一個詞語組,計算詞語組中每兩個詞語的總體相關(guān)性 距離K,以得到個K;再根據(jù)個K計算詞語組的總體距離系數(shù)P,其中,獲取M次N-I個詞語 進(jìn)行計算得到M個P;對于M個P,先找出最小P,再獲取計算該最小P時所對應(yīng)的N-I個詞語作 為第一詞語組,第一詞語組與第一詞語共同構(gòu)成第一相關(guān)詞語組;最后確定第一相關(guān)詞語 組中各詞語之間的關(guān)系,以根據(jù)確定的關(guān)系構(gòu)建現(xiàn)實信息的索引,解決了現(xiàn)有技術(shù)中數(shù)據(jù) 檢索效率低的問題,從而能夠更有效率的找尋有效數(shù)據(jù)。
[0037] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠 更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0038] 通過閱讀下文優(yōu)選實施方式的詳細(xì)描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認(rèn)為是對本發(fā)明 的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0039] 圖1是根據(jù)本發(fā)明第一實施例的現(xiàn)實信息索引的建立方法的流程圖;
[0040] 圖2是根據(jù)本發(fā)明第一實施例的樹狀檢索結(jié)構(gòu)的示意圖;
[0041] 圖3是根據(jù)本發(fā)明第二實施例的基于云平臺的全文檢索系統(tǒng)的框圖。
【具體實施方式】
[0042]下面結(jié)合附圖和【具體實施方式】對本發(fā)明做進(jìn)一步說明。需要指出的是,在不沖突 的情況下,本申請中的實施例及實施例中的特征可以相互組合。
[0043] 第一方面,本發(fā)明實施例一提供了一種現(xiàn)實信息索引的建立方法,該方法主要描 述建立現(xiàn)實信息的數(shù)據(jù)庫的索引的過程,參見圖1,該方法可以包括以下步驟Sl至步驟S6。
[0044] 步驟Sl:對現(xiàn)實信息的數(shù)據(jù)庫中的文本進(jìn)行分詞,以得到詞庫。
[0045]詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然 分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區(qū)分標(biāo)記,因此,中文詞 語分析是中文信息處理的基礎(chǔ)與關(guān)鍵。
[0046] -般中文的處理是基于自動切分的單字切分,或者二元切分。除此之外,還有最大 切分(包括向前、向后、以及前后相結(jié)合)、最少切分、全切分等等。
[0047] 可基于字符串匹配進(jìn)行分詞:機械分詞算法。將待分的字符串與一個充分大的機 器詞典中的詞條進(jìn)行匹配。分為正向匹配和逆向匹配;最大長度匹配和最小長度匹配;單純 分詞和分詞與標(biāo)注過程相結(jié)合的一體化方法。
[0048] 在該實施例中,一種優(yōu)選地情況,在分詞時,采用以下的步驟:將文本與第一詞典 匹配到的詞作為斷點詞;通過斷點詞將文本分割為多個文本段;以及將斷點詞、多個文本段 中的每一個文本段與第二詞典匹配到的詞作為對文本進(jìn)行分詞的分詞結(jié)果,其中,第一詞 典的詞量小于第二詞典的詞量,第一詞典中的詞均為具有明顯特征詞,第二詞典是一個比 較廣泛的、充分大的機器詞典。
[0049] 采用該優(yōu)選的方法,將機械分詞作為初分手段,利用語言信息提高切分準(zhǔn)確率。優(yōu) 先識別具有明顯特征的詞,以這些詞為斷點,將原字符串分為較小字符串再機械匹配,以減 少匹配錯誤率。
[0050] 在該實施例中,另一種優(yōu)選地情況,在分詞時,采用以下的步驟:通過標(biāo)點符號將 文本分割為多個句子;對多個句子中的每個句子采用正向最大匹配法進(jìn)行切分,以得到第 一分詞結(jié)果;對多個句子中的每個句子采用逆向最大匹配法進(jìn)行切分,以得到第二分詞結(jié) 果;若第一分詞結(jié)果與第二分詞結(jié)果相同,則第一分詞結(jié)果或第二分詞結(jié)果為對文本進(jìn)行 分詞的分詞結(jié)果;若第一分詞結(jié)果與第二分詞結(jié)果不同,將不同的部分拆分為最小詞;以及 將最小詞、第一分詞結(jié)果與第二分詞結(jié)果相同的部分作為對文本進(jìn)行分詞的分詞結(jié)果。
[0051] 采用該優(yōu)選的方法,采用雙向匹配法,將正向最大匹配法與逆向最大匹配法組合, 先根據(jù)標(biāo)點對文檔進(jìn)行粗切分,把文本分解成若干個句子,然后再對這些句子用正向最大 匹配法和逆向最大匹配法進(jìn)行掃描切分。如果兩種分詞方法得到的匹配結(jié)果相同,則認(rèn)為 分詞正確,否則,按最小集處理。提高分詞的準(zhǔn)確率。
[0052] 步驟S2:詞庫中獲取一個詞語以得到第一詞語。
[0053]步驟S3:從除去第一詞語的詞庫中獲取N-I個詞語,并與第一詞語共同構(gòu)成一個詞 語組,計算詞語組中每兩個詞語的總體相關(guān)性距離K,計算詞語組的總體距離系數(shù)P。
[0054]其中,對于一個包含多個詞語的詞語組,計算詞語組的總體距離系數(shù)P時,采用以 下的公
[0055]
[0056] 其中,需要說明的是,在計算該詞語組的總體距離系數(shù)P時,需要首先計算該詞語 組中任意兩個詞語的總體相關(guān)性距離K,則可計算得到G個K,公式(1)中的K y為是指炫個1( 中的第y個K。
[0057]在上述公式中,需要計算兩個詞語的總體相關(guān)性距離K,任意兩個詞語的總體相關(guān) 性距離K,采用以下的公式(2)計算:
[0058] 粼;+λ4Κ|!職|?Κλ5Ι〇(荷好+A6Knfeff)],公式(2)
[0059] 其中,為兩個詞語在不同文本中的距離,為兩個詞語在同一個文本中的 距離,K^Iig為兩個詞語在同一文本中不同段落中的距離,Κ_為兩個詞語在同一段落中的 距離,KM為兩個詞語在同一段落中不同句子中的距離,K嗣?為兩個詞語在同一句子中的 距離,心至\ 6為常量。
[0060] 設(shè)第二詞語與第三詞語為N個詞語中兩個詞語,對于上述公式(2)中的各個參數(shù)的 計算方法,分別說明如下。
[0061 ]第一,若數(shù)據(jù)庫中具有Z1A文本組,每個文本組中包括第一文本和第二文本共兩 個文本,第二詞語僅在第一文本出現(xiàn),第三詞語僅在第二文本出現(xiàn),則計算KTOi的具體步 驟如下:
[0062 ]對數(shù)據(jù)庫中的所有文本按照相似性由高到低進(jìn)行排序,以使數(shù)據(jù)庫中的每一個 文本均對應(yīng)一個序號;
[0063] 采用以下公式計算&(祠鉢:
[0064]
[0065] 其中,xl = I
,2,3......Z1,bxl為第二詞語在Z 1個文本組中第xl個文本組的第一文 本的出現(xiàn)次數(shù),mxl為第三詞語在第xl個文本組的第二文本的出現(xiàn)次數(shù),Ixl為第xl個文本組 的第二文本對應(yīng)的序號與第xl個文本組的第一文本對應(yīng)的序號的差。
[0066] 第二,若數(shù)據(jù)庫具有同時出現(xiàn)第二詞語和第三詞語的Z2個文本,則采用以下公式 計算民酞*·.
[0067]
[0068] 其中,x2 = 1,2,3......Z2,Cx為第二詞語在Z2個文本中第x2個文本的出現(xiàn)次數(shù),n x2 為第三詞語在第x2個文本的出現(xiàn)次數(shù)。
[0069]第三,若第三文本為數(shù)據(jù)庫中同時出現(xiàn)第二詞語和第三詞語的一個文本,第三文 本中具有Z3個段落組,每個段落組中包括第一段落和第二段落共兩個段落,第二詞語僅在 第一段落出現(xiàn),第三詞語僅在第二段落出現(xiàn),則計算Km的具體步驟如下:
[0070] 對第三文本中的所有段落按照相似性由高到低進(jìn)行排序,以使第三文本中的每一 個段落均對應(yīng)一個序號;
[0071] 采用以下公式計算
[0072]
[0073]其中,x3 = l,2,3......Z3,bx3'為第二詞語在Z3個段落組中第x3個段落組的第一 段落的出現(xiàn)次數(shù),Hix/為第三詞語在第X3個段落組的第二段落的出現(xiàn)次數(shù),Ix/為第X3個段 落組的第一段落對應(yīng)的序號與第x3個段落組的第二段落對應(yīng)的序號的差。
[0074] 第四,若第四文本為數(shù)據(jù)庫中具有同時出現(xiàn)第二詞語和第三詞語的段落的一個文 本,第四文本具有同時出現(xiàn)第二詞語和第三詞語的Z 4個段落,則采用以下公式計算K_:
[0075]
[0076] 其中,χ4=1,2,3......為第二詞語在Z4個段落中第χ4個段落的出現(xiàn)次數(shù), r/ χ4第三詞語在第Χ4個段落的出現(xiàn)次數(shù)。
[0077]第五,若第五文本為數(shù)據(jù)庫中具有同時出現(xiàn)第二詞語和第三詞語的段落的一個文 本,第三段落為第五文本中同時出現(xiàn)第二詞語和第三詞語的一個段落,第三段落中具有Z5 個句子組,每個句子組中包括第一句子和第二句子共兩個句子,第二詞語僅在第一句子出 現(xiàn),第三詞語僅在第二句子出現(xiàn),則計算K*的具體步驟如下:
[0078]對第三段落中的所有句子按照先后順序進(jìn)行排序,以使第三段落中的每一個句子 均對應(yīng)一個序號;
[0079]采用以下公式計算&(爾好:
[0080]
[0081 ] 其中,x5 = 1,2
,3......Z3,bx5〃為第二詞語在2 5個句子組中第χ5個句子組的第一 段落的出現(xiàn)次數(shù),mx5〃為第三詞語在第x5個句子組的第二段落的出現(xiàn)次數(shù),l〃x5為第x5個句 子組的第一段落對應(yīng)的序號與第x5個句子組的第二段落對應(yīng)的序號的差。
[0082] 第六,若第六文本為數(shù)據(jù)庫中具有同時出現(xiàn)第二詞語和第三詞語的句子的一個文 本,第六f本具有同時出現(xiàn)第二詞語和第三詞語的Z 6個句子,則采用以下公式計算K同研:
[0083]
[0084] 其中,x6 = 1,2,3......Z6,c〃x6為第二詞語在Z6個句子中第x6個句子的出現(xiàn)次數(shù), n〃 x6第三詞語在第x6個句子的出現(xiàn)次數(shù)。
[0085] 第七,關(guān)于常量人1至\6,可以為離散函數(shù)值,取經(jīng)驗值;也可以為具有關(guān)聯(lián)性函數(shù) 值,例如根據(jù)函數(shù)庫中的數(shù)據(jù)進(jìn)行匹配,通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方式獲取最終確認(rèn)函數(shù)值。
[0086] 在該實施例中,執(zhí)行M次步驟S3,每次執(zhí)行步驟S3時,獲取不同的N-I個詞語,以得 到M個P,其中,M為預(yù)設(shè)值,可按照實際分析目標(biāo)的不同選擇不同的M值。
[0087]步驟S4:找出計算得到的P為最小時所獲取的N-I個詞語作為第一詞語組,第一詞 語組與第一詞語共同構(gòu)成第一相關(guān)詞語組。
[0088] 每次執(zhí)行步驟S3,均會得到一個P值,一種處理方式為,每次得到P值后,和上一次 的P值進(jìn)行比較,保留較小的P和計算該較小P時所獲取的N-I個詞語,在執(zhí)行M次步驟S3后, 會得到最小P以及最小P所對應(yīng)的N-I個詞語;另一種處理方式為,每次得到P值時,進(jìn)行一次 數(shù)據(jù)保存,在執(zhí)行M次步驟S3后,會得到所有的P以及每個P值所對應(yīng)的N-I個詞語,對所有的 P值進(jìn)行排序后得到最小P以及最小P所對應(yīng)的N-I個詞語。為方便描述,將最小P所對應(yīng)的N-1個詞語命名為第一詞語組,將第一詞語組與第一詞語共同構(gòu)成第一相關(guān)詞語組。
[0089] 步驟S5:確定第一相關(guān)詞語組中各詞語之間的關(guān)系。
[0090] 在確定第一相關(guān)詞語組中的各詞語之間的關(guān)系時,可采用如下的兩種方式。
[0091] -種方式,采用以下公式計算第一詞語在第一相關(guān)詞語組中的位置決定參數(shù),以 得到第一
[0092]
[0093]其中,λ',為常量,Ki為第一詞語組中第i個詞語與第一詞語的總體相關(guān)性距離K; [0094]將第一位置決定參數(shù)輸入由N個詞語組成的相關(guān)詞語組所對應(yīng)的第一模型,以得 到第一相關(guān)詞語組中各詞語之間的關(guān)系,其中,詞語之間關(guān)系包括所屬關(guān)系、并列關(guān)系和無 關(guān)關(guān)系,第一模型的輸入為相關(guān)詞語組中一個詞語在相關(guān)詞語組中的位置決定參數(shù),第一 模型的輸出為相關(guān)詞語組中各詞語之間的關(guān)系。
[0095]其中,第一模型采用以下步驟得到:獲取機器學(xué)習(xí)樣本集,其中,樣本集中包括多 個樣本,一個樣本包括兩個特征參數(shù),其中,一個特征參數(shù)為由N個詞語組成的相關(guān)詞語組 中各詞語之間的關(guān)系,另一個特征參數(shù)為相關(guān)詞語組中一個詞語在相關(guān)詞語組中的位置決 定參數(shù);通過人工智能學(xué)習(xí)算法對樣本集進(jìn)行學(xué)習(xí),以得到第一模型。
[0096]在具有第一模型的基礎(chǔ)上,該方式只需要計算第一位置參數(shù)代入模型即可,但該 方式不適合于第一相關(guān)詞語組中詞語較多的情況。原因在于,當(dāng)詞語較多時,各詞語之間的 關(guān)系組合較多,從而在建立第一模型時,需要足夠多的樣本,并且建立第一模型的復(fù)雜度也 較大。
[0097] 另一種方式,采用以下步驟確定第一相關(guān)詞語組中各詞語之間的關(guān)系:確定第一 詞語組中各詞語之間的關(guān)系,以得到第一關(guān)系組;確定第一詞語與第一詞語組中各詞語的 關(guān)系,以得到第二關(guān)系組;以及通過第一關(guān)系組和第二關(guān)系組確定第一相關(guān)詞語組中各詞 語之間的關(guān)系。
[0098] 在該種方式中,實際上是對確定第一相關(guān)詞語組中各詞語之間的關(guān)系這一問題進(jìn) 行了拆分,在確定第一相關(guān)詞語組中各詞語之間的關(guān)系時,首先確定第一詞語組中各詞語 的關(guān)系,而確定第一詞語組中各詞語的關(guān)系,還可以進(jìn)行進(jìn)一步的拆分,以此類推,直至將 詞語組的大小拆分到能夠通過簡單的模型即可得到該詞語組中各詞語的關(guān)系。在面對詞語 組中詞語較多的情況時,優(yōu)于上述第一種方式。
[0099] 步驟S6:根據(jù)第一相關(guān)詞語組中各詞語之間的關(guān)系構(gòu)建現(xiàn)實信息的索引。
[0100] 第一相關(guān)詞語組中各詞語之間的關(guān)系包括所屬關(guān)系、并列關(guān)系和無關(guān)關(guān)系,其中, 所屬關(guān)系又由包含關(guān)系和屬于關(guān)系構(gòu)成,如果A詞屬于B詞,則B詞包含A詞;如果C詞也屬于B 詞,則A詞與C詞是并列關(guān)系,除所屬關(guān)系和并列關(guān)系之外的,屬于無關(guān)關(guān)系,在獲得詞語之 間的關(guān)系后,能夠構(gòu)建現(xiàn)實信息的索引,形成樹狀檢索結(jié)構(gòu)如圖2所示。
[0101] 在圖2中,沒有箭頭指向關(guān)系的兩個詞是無關(guān)關(guān)系;箭頭由A詞指向B詞是指A詞屬 于B詞,B詞包含A詞,例如,由"人工智能"指向"李世石",是指"人工智能"屬于"李世石","李 世石"包含"人工智能";同時指向B詞的A詞和C詞是指A詞與C詞是并列關(guān)系,例如,由"機器" 指向"人類",由"國際象棋"指向"人類",則"機器"與"國際象棋"屬于并列關(guān)系。
[0102] 第二方面,本發(fā)明實施例三提供了一種基于云平臺的全文檢索系統(tǒng),如圖2所示, 該檢索系統(tǒng)包括現(xiàn)實信息索引的建立裝置10、分布式數(shù)據(jù)庫20和現(xiàn)實信息檢索裝置30。
[0103] 現(xiàn)實信息索引的建立裝置10用于采用本發(fā)明提供的任一種現(xiàn)實信息索引的建立 方法構(gòu)建現(xiàn)實信息的索引;分布式數(shù)據(jù)庫20用于存儲現(xiàn)實信息的數(shù)據(jù)和索引;現(xiàn)實信息檢 索裝置30用于響應(yīng)檢索詞,以根據(jù)索引在分布式數(shù)據(jù)庫中檢索出結(jié)果并展示。
[0104]需要說明的是,在本申請中提到的"第一詞語組"、"第一文本"、"第二句子"、"第二 段落"等中的"第一"、"第二",并沒有次序限定的意思,只是起標(biāo)識作用用于相互區(qū)分。
[0105] 本說明書中的各個實施例均采用遞進(jìn)的方式描述,每個實施例重點說明的都是與 其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于本申請的裝 置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實 施例的部分說明即可。
[0106] 以上所述,僅為本發(fā)明較佳的【具體實施方式】,但本發(fā)明的保護(hù)范圍并不局限于此, 任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋 在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【主權(quán)項】
1. 一種現(xiàn)實信息索引的建立方法,其特征在于,包括: 步驟S1:對現(xiàn)實信息的數(shù)據(jù)庫中的文本進(jìn)行分詞,W得到詞庫; 步驟S2:所述詞庫中獲取一個詞語W得到第一詞語; 步驟S3:從除去所述第一詞語的詞庫中獲取N-1個詞語,并與所述第一詞語共同構(gòu)成一 個詞語組,采用W下公式計算所述詞語組中每兩個詞語的總體相關(guān)性距離K,W得到C是個 K,采用W下公式計算所述詞語組的總體距離系數(shù)P: Κ=入入 2Κιι*φ;* [入 入 4K|siii?K 入已 入 sKiiigf)],其中,Kto*為所述兩個詞語在不同文本中的距離,K耐山%所述兩個詞語在同一個文本 中的距離,Km為所述兩個詞語在同一文本中不同段落中的距離,K胃為所述兩個詞語在 同一段落中的距離,時前?為所述兩個詞語在同一段落中不同句子中的距離,K齡ff為所述兩 個詞語在同一句子中的距離,λι至λ6為常量,Ky為所述巧個K中的第y個K; 其中,在所述方法中,執(zhí)行Μ次所述步驟S3,其中,每次執(zhí)行所述步驟S3時,獲取不同的 Ν-1個詞語,W得到Μ個Ρ,Μ為預(yù)設(shè)值; 步驟S4:找出計算得到的Ρ為最小時所獲取的Ν-1個詞語作為第一詞語組,所述第一詞 語組與所述第一詞語共同構(gòu)成第一相關(guān)詞語組; 步驟S5:確定所述第一相關(guān)詞語組中各詞語之間的關(guān)系;W及 步驟S6:根據(jù)所述第一相關(guān)詞語組中各詞語之間的關(guān)系構(gòu)建所述現(xiàn)實信息的索引。2. 根據(jù)權(quán)利要求1所述的現(xiàn)實信息索引的建立方法,其特征在于,在步驟S1中,對所述 數(shù)據(jù)庫中的一個文本進(jìn)行分詞具體包括: 將所述文本與第一詞典匹配到的詞作為斷點詞; 通過所述斷點詞將所述文本分割為多個文本段;W及 將所述所述斷點詞、所述多個文本段中的每一個文本段與第二詞典匹配到的詞作為對 所述文本進(jìn)行分詞的分詞結(jié)果,其中,所述第一詞典的詞量小于所述第二詞典的詞量。3. 根據(jù)權(quán)利要求1所述的現(xiàn)實信息索引的建立方法,其特征在于,在步驟S1中,對所述 數(shù)據(jù)庫中的一個文本進(jìn)行分詞具體包括: 通過標(biāo)點符號將所述文本分割為多個句子; 對所述多個句子中的每個句子采用正向最大匹配法進(jìn)行切分,W得到第一分詞結(jié)果; 對所述多個句子中的每個句子采用逆向最大匹配法進(jìn)行切分,W得到第二分詞結(jié)果; 若所述第一分詞結(jié)果與所述第二分詞結(jié)果相同,則所述第一分詞結(jié)果或所述第二分詞 結(jié)果為對所述文本進(jìn)行分詞的分詞結(jié)果; 若所述第一分詞結(jié)果與所述第二分詞結(jié)果不同,將不同的部分拆分為最小詞;W及 將所述最小詞、所述第一分詞結(jié)果與所述第二分詞結(jié)果相同的部分作為對所述文本進(jìn) 行分詞的分詞結(jié)果。4. 根據(jù)權(quán)利要求1所述的現(xiàn)實信息索引的建立方法,其特征在于,在步驟S5中,采用W 下步驟確定所述第一相關(guān)詞語組中各詞語之間的關(guān)系: 采用W下公式計算所述第一詞語在所述第一相關(guān)詞語組中的位置決定參數(shù),W得到第 一位置參數(shù):其中,λ/ 1為常量,Ki為所述第一詞語組中第i個詞語與所述第一詞語的總體相關(guān)性距離 K; 將所述第一位置決定參數(shù)輸入由N個詞語組成的相關(guān)詞語組所對應(yīng)的第一模型,W得 到所述第一相關(guān)詞語組中各詞語之間的關(guān)系,其中,所述詞語之間關(guān)系包括所屬關(guān)系、并列 關(guān)系和無關(guān)關(guān)系,所述第一模型的輸入為所述相關(guān)詞語組中一個詞語在所述相關(guān)詞語組中 的位置決定參數(shù),所述第一模型的輸出為所述相關(guān)詞語組中各詞語之間的關(guān)系。5. 根據(jù)權(quán)利要求4所述的現(xiàn)實信息索引的建立方法,其特征在于,在步驟S6中,所述第 一模型采用W下步驟得到: 獲取機器學(xué)習(xí)樣本集,其中,所述樣本集中包括多個樣本,一個所述樣本包括兩個特征 參數(shù),其中,一個特征參數(shù)為由N個詞語組成的相關(guān)詞語組中各詞語之間的關(guān)系,另一個特 征參數(shù)為所述相關(guān)詞語組中一個詞語在所述相關(guān)詞語組中的位置決定參數(shù); 通過人工智能學(xué)習(xí)算法對所述樣本集進(jìn)行學(xué)習(xí),W得到所述第一模型。6. 根據(jù)權(quán)利要求1所述的現(xiàn)實信息索引的建立方法,其特征在于,在步驟S5中,采用W 下步驟確定所述第一相關(guān)詞語組中各詞語之間的關(guān)系: 確定所述第一詞語組中各詞語之間的關(guān)系,W得到第一關(guān)系組; 確定所述第一詞語與所述第一詞語組中各詞語的關(guān)系,W得到第二關(guān)系組;W及 通過所述第一關(guān)系組和所述第二關(guān)系組確定所述第一相關(guān)詞語組中各詞語之間的關(guān) 系。7. 根據(jù)權(quán)利要求1所述的現(xiàn)實信息索引的建立方法,其特征在于,在步驟S3中,第二詞 語與第Ξ詞語為所述N個詞語中兩個詞語,所述數(shù)據(jù)庫中具有Zi個文本組,每個所述文本組 中包括第一文本和第二文本共兩個文本,所述第二詞語僅在所述第一文本出現(xiàn),所述第Ξ 詞語僅在所述第二文本出現(xiàn),計算時^**的具體步驟如下: 對所述數(shù)據(jù)庫中的所有文本按照相似性由高到低進(jìn)行排序,W使所述數(shù)據(jù)庫中的每一 個文本均對應(yīng)一個序號; 義用W下公式計算時碩述:其中,xl = l,2,3......Zi,bxi為所述第二詞語在所述Zi個文本組中第xl個文本組的第 一文本的出現(xiàn)次數(shù),mxi為所述第Ξ詞語在所述第XI個文本組的第二文本的出現(xiàn)次數(shù),1x1為 所述第XI個文本組的第二文本對應(yīng)的序號與所述第XI個文本組的第一文本對應(yīng)的序號的 差。8. 根據(jù)權(quán)利要求1所述的現(xiàn)實信息索引的建立方法,其特征在于,在步驟S3中,第二詞 語與第Ξ詞語為所述N個詞語中任意兩個詞語,所述數(shù)據(jù)庫具有同時出現(xiàn)所述第二詞語和 所述第Ξ詞語的Z2個文本,采用W下公式計算K同対其中,x2 = 1,2,3......Z2,cx為所述第二詞語在所述Z2個文本中第x2個文本的出現(xiàn)次 數(shù),nx2為所述第Ξ詞語在所述第x2個文本的出現(xiàn)次數(shù)。9. 根據(jù)權(quán)利要求1所述的現(xiàn)實信息索引的建立方法,其特征在于,在步驟S3中,第二詞 語與第Ξ詞語為所述N個詞語中任意兩個詞語,所述第Ξ文本為所述數(shù)據(jù)庫中同時出現(xiàn)所 述第二詞語和所述第Ξ詞語的一個文本,所述第Ξ文本中具有Z3個段落組,每個所述段落 組中包括第一段落和第二段落共兩個段落,所述第二詞語僅在所述第一段落出現(xiàn),所述第 Ξ詞語僅在所述第二段落出現(xiàn),計算Km的具體步驟如下: 對所述第Ξ文本中的所有段落按照相似性由高到低進(jìn)行排序,W使所述第Ξ文本中的 每一個段落均對應(yīng)一個序號; 采用W下公式計算時懸:其中,x3 = 1,2,3......Z3,b。/為所述第二詞語在所述Z3個段落組中第x3個段落組的第 一段落的出現(xiàn)次數(shù),m。/為所述第Ξ詞語在所述第x3個段落組的第二段落的出現(xiàn)次數(shù),1。/ 為所述第x3個段落組的第一段落對應(yīng)的序號與所述第x3個段落組的第二段落對應(yīng)的序號 的差。10. 根據(jù)權(quán)利要求1所述的現(xiàn)實信息索引的建立方法,其特征在于,在步驟S3中,第二詞 語與第Ξ詞語為所述N個詞語中任意兩個詞語,第四文本為所述數(shù)據(jù)庫中具有同時出現(xiàn)所 述第二詞語和所述第Ξ詞語的段落的一個文本,所述第四文本具有同時出現(xiàn)所述第二詞語 和所述第Ξ詞語的Z4個段落,采用W下公式計算K睡懸:其中,x4 = 1,2,3......Z4,cx/為所述第二詞語在所述Z4個段落中第x4個段落的出現(xiàn)次 數(shù),r/X4所述第Ξ詞語在所述第x4個段落的出現(xiàn)次數(shù)。11. 根據(jù)權(quán)利要求1所述的現(xiàn)實信息索引的建立方法,其特征在于,在步驟S3中,第二詞 語與第Ξ詞語為所述N個詞語中任意兩個詞語,第五文本為所述數(shù)據(jù)庫中具有同時出現(xiàn)所 述第二詞語和所述第Ξ詞語的段落的一個文本,第Ξ段落為所述第五文本中同時出現(xiàn)所述 第二詞語和所述第Ξ詞語的一個段落,所述第Ξ段落中具有Z5個句子組,每個所述句子組 中包括第一句子和第二句子共兩個句子,所述第二詞語僅在所述第一句子出現(xiàn),所述第Ξ 詞語僅在所述第二句子出現(xiàn),計算時胃的具體步驟如下: 對所述第Ξ段落中的所有句子按照先后順序進(jìn)行排序,W使所述第Ξ段落中的每一個 句子均對應(yīng)一個序號; 采用W下公式計算時胃:其中,巧=1,2,3......Z3,bx5"為所述第二詞語在所述Z5個句子組中第巧個句子組的第 一段落的出現(xiàn)次數(shù),mx5"為所述第Ξ詞語在所述第巧個句子組的第二段落的出現(xiàn)次數(shù),l"x5 為所述第巧個句子組的第一段落對應(yīng)的序號與所述第巧個句子組的第二段落對應(yīng)的序號 的差。12. 根據(jù)權(quán)利要求1所述的現(xiàn)實信息索引的建立方法,其特征在于,在步驟S3中,第二詞 語與第Ξ詞語為所述N個詞語中任意兩個詞語,第六文本為所述數(shù)據(jù)庫中具有同時出現(xiàn)所 述第二詞語和所述第Ξ詞語的句子的一個文本,所述第六文本具有同時出現(xiàn)所述第二詞語 和所述第Ξ詞語的Z6個句子,采用W下公式計算K同feff:其中,x6 = 1,2,3......Z6,c"x6為所述第二詞語在所述Z6個句子中第x6個句子的出現(xiàn)次 數(shù),η" X6所述第Ξ詞語在所述第x6個句子的出現(xiàn)次數(shù)。13. -種基于云平臺的全文檢索系統(tǒng),其特征在于,包括: 現(xiàn)實信息索引的建立裝置,用于采用權(quán)利要求1至12中任一項所述的現(xiàn)實信息索引的 建立方法,構(gòu)建現(xiàn)實信息的索引; 分布式數(shù)據(jù)庫,用于存儲所述現(xiàn)實信息的數(shù)據(jù)和所述索引; 現(xiàn)實信息檢索裝置,用于響應(yīng)檢索詞,W根據(jù)所述索引在所述分布式數(shù)據(jù)庫中檢索出 結(jié)果并展示。
【文檔編號】G06F17/27GK105843926SQ201610181067
【公開日】2016年8月10日
【申請日】2016年3月28日
【發(fā)明人】李唳天, 馬雄鷹
【申請人】北京掌沃云視媒文化傳媒有限公司