亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

查詢語句的獲取方法及服務器的制造方法_2

文檔序號:9375657閱讀:來源:國知局
如圖1所示,所述方法具體包括:
[0042] 步驟110,對語料庫中的第一關聯(lián)詞和第二關聯(lián)詞,在所述語料庫中識別并獲取所 述第一關聯(lián)詞與所述第二關聯(lián)詞連續(xù)排列的連排次數(shù),間隔排列的間列次數(shù)和所述第一關 聯(lián)詞的總次數(shù)。
[0043] 需要說明的是,語料庫中的語料是服務器或者人工預先從網(wǎng)頁頁面或從服務器中 存儲的文檔中搜集的,其中,該文檔可以是人工整理的文檔??梢岳斫獾氖?,該語料庫中包 括多個詞語,其中,第一關聯(lián)詞可以為該語料庫中的任意一個詞,第二關聯(lián)詞為該語料庫中 除第一關聯(lián)詞之外的任意一個詞。
[0044] 其中,如圖1所示,步驟110中所述在所述語料庫中識別并獲取所述第一關聯(lián)詞與 所述第二關聯(lián)詞連續(xù)排列的連排次數(shù),間隔排列的間列次數(shù),和所述第一關聯(lián)詞的總次數(shù) 具體包括:
[0045] 步驟1101,在所述語料庫中識別連續(xù)排列的所述第一關聯(lián)詞和所述第二關聯(lián)詞, 并獲取所述第一關聯(lián)詞與所述第二關聯(lián)詞連續(xù)排列的連排次數(shù)。
[0046] 其中,在所述語料庫中識別連續(xù)排列的所述第一關聯(lián)詞和所述第二關聯(lián)詞包括: 在所述語料庫中識別連續(xù)排列的并具有順聯(lián)的位置順序的所述第一關聯(lián)詞與所述第二關 聯(lián)詞,其中,連續(xù)排列是指第一關聯(lián)詞與第二關聯(lián)詞之間沒有間隔其他詞語,所述順聯(lián)的位 置順序為所述第一關聯(lián)詞為在先的關聯(lián)詞,所述第二關聯(lián)詞為在后的關聯(lián)詞。舉例來說,假 如語料庫中有以下4個句子 :
[0047] 我忘記密碼了。
[0048] 忘記了密碼。
[0049] 忘記我的密碼。
[0050] 我的密碼忘記了。
[0051] 且假如第一關聯(lián)詞為上述語料庫中的詞語"忘記",第二關聯(lián)詞為上述語料庫中的 詞語"密碼",那么在第一句中,第一關聯(lián)詞"忘記"與第二關聯(lián)詞"密碼"之間沒有間隔其他 詞語,且第一關聯(lián)詞"忘記"為在先的關聯(lián)詞,第二關聯(lián)詞"密碼"為在后的關聯(lián)詞;而在第 二句和第三句中,第一關聯(lián)詞"忘記"與第二關聯(lián)詞"密碼"之間分別間隔了其他詞語"了" 和"我的";第四句中,第一關聯(lián)詞"忘記"與第二關聯(lián)詞"密碼"之間沒有間隔其他詞語,但 是第一關聯(lián)詞"忘記"為在后的關聯(lián)詞,第二關聯(lián)詞"密碼"為在先的關聯(lián)詞。因此在上述語 料庫中連續(xù)排列的并具有順聯(lián)的位置順序的第一關聯(lián)詞與第二關聯(lián)詞只出現(xiàn)在第一句中, 即第一關聯(lián)詞與第二關聯(lián)詞連續(xù)排列的連排次數(shù)為1。
[0052] 步驟1102,在所述語料庫中識別間隔著不大于預先設定的特定個數(shù)無效詞排列的 所述第一關聯(lián)詞與所述第二關聯(lián)詞,并獲取所述第一關聯(lián)詞與第二關聯(lián)詞間隔排列的間列 次數(shù)。
[0053] 其中,無效詞也稱為噪音,是指出現(xiàn)在第一關聯(lián)詞與第二關聯(lián)詞之間,但不影響整 個句子的意思的詞語。具體地,步驟1102中在所述語料庫中識別間隔著不大于預先設定的 特定個數(shù)無效詞排列的所述第一關聯(lián)詞與所述第二關聯(lián)詞包括:在語料庫中識別間隔著不 大于預先設定的特定個數(shù)無效詞排列的并具有順聯(lián)的位置順序的所述第一關聯(lián)詞與所述 第二關聯(lián)詞,其中,所述順聯(lián)的位置順序為所述第一關聯(lián)詞為在先的關聯(lián)詞,所述第二關聯(lián) 詞為在后的關聯(lián)詞。
[0054] 舉例來說,假如在語料庫中有步驟1101中列舉的語料庫中的四個句子,且假如第 一關聯(lián)詞為上述語料庫中的詞語"忘記",第二關聯(lián)詞為上述語料庫中的詞語"密碼",預先 設定的特定個數(shù)為K,且K> = 1,那么在第一句中,第一關聯(lián)詞"忘記"與第二關聯(lián)詞"密碼" 之間沒有間隔其他詞語;在第二句中,第一關聯(lián)詞"忘記"與第二關聯(lián)詞"密碼"之間間隔了 其他詞語"了",而詞語"了 "不影響整個句子的意思,因此" 了"為無效詞,即只間隔了一個 無效詞,且第一關聯(lián)詞"忘記"為在先的關聯(lián)詞,第二關聯(lián)詞"密碼"為在后的關聯(lián)詞;在第三 句中,第一關聯(lián)詞"忘記"與第二關聯(lián)詞"密碼"之間間隔了其他詞語"我的",而詞語"我的" 不影響整個句子的意思,因此"我的"為無效詞,即間隔了兩個無效詞,且第一關聯(lián)詞"忘記" 為在先的關聯(lián)詞,第二關聯(lián)詞"密碼"為在后的關聯(lián)詞;第四句中,第一關聯(lián)詞"忘記"與第 二關聯(lián)詞"密碼"之間沒有間隔其他詞語。因此在上述語料庫中,當K = 1時,間隔著不大于 預先設定的特定個數(shù)無效詞排列的所述第一關聯(lián)詞與所述第二關聯(lián)詞只出現(xiàn)在第二句中, 即第一關聯(lián)詞與第二關聯(lián)詞間隔排列的間列次數(shù)為1 ;而當K = 2時,間隔著不大于預先設 定的特定個數(shù)無效詞排列的所述第一關聯(lián)詞與所述第二關聯(lián)詞出現(xiàn)在第二句和第三句中, 即第一關聯(lián)詞與第二關聯(lián)詞間隔排列的間列次數(shù)為2。步驟1103,在所述語料庫中識別所 述第一關聯(lián)詞,并獲取所述第一關聯(lián)詞的總次數(shù)。
[0055] 舉例來說,假如在語料庫中有步驟1101中列舉的語料庫中的四個句子,且假如第 一關聯(lián)詞為上述語料庫中的詞語"忘記",第二關聯(lián)詞為上述語料庫中的詞語"密碼",第一 關聯(lián)詞"忘記"同時出現(xiàn)在四個句子中,因此,在上述語料庫中第一關聯(lián)詞的總次數(shù)為4。
[0056] 步驟120,根據(jù)所述連排次數(shù),所述間列次數(shù)和所述總次數(shù),獲得所述第一關聯(lián)詞 與第二關聯(lián)詞的關聯(lián)度,并按照所述關聯(lián)度,將所述第一關聯(lián)詞和所述第二關聯(lián)詞,生成參 考查詢語句庫。
[0057] 需要說明的是,詞對的關聯(lián)度(即兩個詞語的關聯(lián)度)是指在一個句子中出現(xiàn)一 個詞語的情況下,出現(xiàn)第二個詞語的概率,通常通過Bigram模型計算詞對的關聯(lián)度。
[0058] 其中,如圖1所示,步驟120中根據(jù)所述連排次數(shù),所述間列次數(shù)和所述總次數(shù),獲 得所述第一關聯(lián)詞與第二關聯(lián)詞的關聯(lián)度具體包括:
[0059] 步驟1201,根據(jù)所述預先設定的特定個數(shù),設定期望參數(shù)。
[0060] 由于相對于在語料庫中第一關聯(lián)詞與第二關聯(lián)詞連續(xù)排列的連排次數(shù),間列次數(shù) 會打一定的折扣,因此,不會將獲取到的間列次數(shù)直接用于計算第一關聯(lián)詞與第二關聯(lián)詞 的關聯(lián)度,而是需要設定一個期望參數(shù),根據(jù)該期望參數(shù),獲取間列次數(shù)的期望次數(shù),最后 將該期望次數(shù)用于計算第一關聯(lián)詞與第二關聯(lián)詞的關聯(lián)度。具體地,根據(jù)預先設定的特定 個數(shù),設定期望參數(shù)。由于預先設定的特定個數(shù)越大,說明在獲取間列次數(shù)時,忽略的無效 詞的個數(shù)越多,相應地,統(tǒng)計的準確度就相對偏低,因此,應該設置一個較低的期望參數(shù);相 反,如果預先設定的特定個數(shù)偏小,則設置一個較高的期望參數(shù)。此處,需要說明的是,期望 參數(shù)可以具體為一個值,也可以是某個規(guī)則。
[0061] 舉例來說,當預先設定的個數(shù)為1時,那么期望參數(shù)可以直接設定為0. 6 ;當預先 設定的個數(shù)為5時,那么期望參數(shù)根據(jù)如下公式設定(即期望參數(shù)為一個規(guī)則):
[0062]
[0063] 其中,K為預先設定的特定個數(shù),β為期望參數(shù)。
[0064] 步驟1202,根據(jù)所述期望參數(shù)和所述間列次數(shù),獲取所述間列次數(shù)的期望次數(shù)。
[0065] 具體地,根據(jù)如下公式計算期望次數(shù):
[0066] F2' = F2 · β (公式 2)
[0067] 其中,F(xiàn)2'為期望次數(shù),F(xiàn)2為間列次數(shù),β為期望參數(shù),且0〈β〈1。
[0068] 步驟1203,根據(jù)所述期望次數(shù)、所述連排次數(shù)和所述總次數(shù),獲得所述第一關聯(lián)詞 與所述第二關聯(lián)詞的關聯(lián)度。
[0069] 具體地,根據(jù)如下公式計算第一關聯(lián)詞與第二關聯(lián)詞關聯(lián)度:
[0070]
[0071] 其中,P為第一關聯(lián)詞與第二關聯(lián)詞的關聯(lián)度,F(xiàn)1為所述連排次數(shù),F(xiàn)2'為所述期望 次數(shù),C(W 1)為所述總次數(shù),W1為第一關聯(lián)詞。
[0072] 舉例來說,假如在語料庫中有步驟1101中列舉的語料庫中的四個句子,且假如第 一關聯(lián)詞為上述語料庫中的詞語"忘記",第二關聯(lián)詞為上述語料庫中的詞語"密碼",且依 照步驟1101中的方法獲取的第一關聯(lián)詞與第二關聯(lián)詞連續(xù)排列的連排次數(shù)F 1為1 ;當K = 1時,依照步驟1102中的方法獲取的第一關聯(lián)詞與第二關聯(lián)詞間隔排列的間列次數(shù)F2為1, 且當β設定為〇. 6時,則F2' = 0. 6 ;依照步驟1103中的方法獲取的第一關聯(lián)詞的總次數(shù) C(W1)為4,則根據(jù)公式3可計算得到第一關聯(lián)詞與第二關聯(lián)詞的關聯(lián)度為0.4
當前第2頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1