亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

二元特征詞典的構(gòu)建方法和裝置的制造方法

文檔序號(hào):10655408閱讀:209來源:國(guó)知局
二元特征詞典的構(gòu)建方法和裝置的制造方法
【專利摘要】本申請(qǐng)?zhí)岢鲆环N二元特征詞典的構(gòu)建方法和裝置,該二元特征詞典的構(gòu)建方法包括:從語(yǔ)料中提取二元特征;計(jì)算所述二元特征的預(yù)設(shè)統(tǒng)計(jì)量;根據(jù)所述預(yù)設(shè)統(tǒng)計(jì)量按序選擇預(yù)設(shè)個(gè)數(shù)的二元特征,組成二元特征詞典。該方法能夠構(gòu)建出二元特征詞典,從而可以在語(yǔ)義相似度模型的訓(xùn)練數(shù)據(jù)中引入新的特征。
【專利說明】
二元特征詞典的構(gòu)建方法和裝置
技術(shù)領(lǐng)域
[0001] 本申請(qǐng)?jiān)O(shè)及自然語(yǔ)言處理技術(shù)領(lǐng)域,尤其設(shè)及一種二元特征詞典的構(gòu)建方法和裝 置。
【背景技術(shù)】
[0002] 捜索引擎是一種檢索系統(tǒng),能夠向用戶反饋檢索結(jié)果。捜索引擎的一種實(shí)現(xiàn)是基 于語(yǔ)義相似度模型,通過語(yǔ)義相似度模型可W計(jì)算用戶檢索的檢索詞(query)與候選的標(biāo) 題(title)之間的相似度,再根據(jù)相似度進(jìn)行排序,W返回檢索結(jié)果。語(yǔ)義相似度模型可W 采用神經(jīng)網(wǎng)絡(luò)訓(xùn)練構(gòu)建。
[0003] 相關(guān)技術(shù)中,采用神經(jīng)網(wǎng)絡(luò)構(gòu)建語(yǔ)義相似度模型時(shí),訓(xùn)練數(shù)據(jù)通常是基礎(chǔ)(basic) 粒度的信息或短語(yǔ)(phrase)粒度的信息,其中,bas i C粒度的信息是對(duì)句子語(yǔ)料進(jìn)行切詞 后,得到的最小粒度的分詞,如巧度",地rase粒度的信息包括多個(gè)最小粒度的分詞,如吧 西葡語(yǔ)"。為了提高語(yǔ)義相似度模型的精準(zhǔn)度,還可W在訓(xùn)練數(shù)據(jù)中引入新的粒度信息。當(dāng) 需要引入新的粒度信息時(shí),需要解決如何提取新的粒度信息的問題。

【發(fā)明內(nèi)容】

[0004] 本申請(qǐng)旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0005] 為此,本申請(qǐng)的一個(gè)目的在于提出一種二元特征詞典的構(gòu)建方法,該方法可W構(gòu) 建出二元特征詞典,從而可W采用該二元特征詞典從模型語(yǔ)料中提取出二元特征,進(jìn)一步 的,該二元特征可W作為語(yǔ)義相似度模型的訓(xùn)練數(shù)據(jù)中引入的新特征。
[0006] 本申請(qǐng)的另一個(gè)目的在于提出一種二元特征詞典的構(gòu)建裝置。
[0007] 為達(dá)到上述目的,本申請(qǐng)第一方面實(shí)施例提出的二元特征詞典的構(gòu)建方法,包括: 從語(yǔ)料中提取二元特征;計(jì)算所述二元特征的預(yù)設(shè)統(tǒng)計(jì)量;根據(jù)所述預(yù)設(shè)統(tǒng)計(jì)量按序選擇 預(yù)設(shè)個(gè)數(shù)的二元特征,組成二元特征詞典。
[000引本申請(qǐng)第一方面實(shí)施例提出的二元特征詞典的構(gòu)建方法,通過計(jì)算二元特征的預(yù) 設(shè)統(tǒng)計(jì)量,根據(jù)預(yù)設(shè)統(tǒng)計(jì)量選擇二元特征組成二元特征詞典,可W實(shí)現(xiàn)二元特征詞典的構(gòu) 建,從而可W采用該二元特征詞典從模型語(yǔ)料中提取出二元特征,進(jìn)一步的,該二元特征可 W作為語(yǔ)義相似度模型的訓(xùn)練數(shù)據(jù)中引入的新特征。
[0009] 為達(dá)到上述目的,本申請(qǐng)第二方面實(shí)施例提出的二元特征詞典的構(gòu)建裝置,包括: 提取模塊,用于從語(yǔ)料中提取二元特征;計(jì)算模塊,用于計(jì)算所述二元特征的預(yù)設(shè)統(tǒng)計(jì)量; 生成模塊,用于根據(jù)所述預(yù)設(shè)統(tǒng)計(jì)量按序選擇預(yù)設(shè)個(gè)數(shù)的二元特征,組成二元特征詞典。
[0010] 本申請(qǐng)第二方面實(shí)施例提出的二元特征詞典的構(gòu)建裝置,通過計(jì)算二元特征的預(yù) 設(shè)統(tǒng)計(jì)量,根據(jù)預(yù)設(shè)統(tǒng)計(jì)量選擇二元特征組成二元特征詞典,可W實(shí)現(xiàn)二元特征詞典的構(gòu) 建,從而可W采用該二元特征詞典從模型語(yǔ)料中提取出二元特征,進(jìn)一步的,該二元特征可 W作為語(yǔ)義相似度模型的訓(xùn)練數(shù)據(jù)中引入的新特征。
[0011] 本申請(qǐng)附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過本申請(qǐng)的實(shí)踐了解到。
【附圖說明】
[0012] 本申請(qǐng)上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得 明顯和容易理解,其中:
[0013] 圖1是本申請(qǐng)一個(gè)實(shí)施例提出的二元特征詞典的構(gòu)建方法的流程示意圖;
[0014] 圖2是本申請(qǐng)另一個(gè)實(shí)施例提出的二元特征詞典的構(gòu)建方法的流程示意圖;
[0015] 圖3是本申請(qǐng)另一個(gè)實(shí)施例提出的二元特征詞典的構(gòu)建方法的流程示意圖;
[0016] 圖4是本申請(qǐng)實(shí)施例采用的神經(jīng)網(wǎng)絡(luò)的示意圖;
[0017] 圖5是本發(fā)明一個(gè)實(shí)施例提出的二元特征詞典的構(gòu)建裝置的結(jié)構(gòu)示意圖;
[0018] 圖6是本發(fā)明一個(gè)實(shí)施例提出的二元特征詞典的構(gòu)建裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0019] 下面詳細(xì)描述本申請(qǐng)的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號(hào)表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附 圖描述的實(shí)施例是示例性的,僅用于解釋本申請(qǐng),而不能理解為對(duì)本申請(qǐng)的限制。相反,本 申請(qǐng)的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同 物。
[0020] 在獲取語(yǔ)義相似模型的訓(xùn)練數(shù)據(jù)時(shí),可W先對(duì)句子語(yǔ)料進(jìn)行切詞,之后根據(jù)分詞 獲取需要粒度的信息,如bas i C粒度的信息或地rase粒度的信息。
[0021] 如上所示,在構(gòu)建語(yǔ)義相似度模型時(shí),除了上述的basic粒度的信息或曲rase粒度 的信息之外,還可W引入新粒度的信息。該引入的新粒度的信息可W稱為二元特征。每個(gè)二 元特征由兩個(gè)bas i C粒度的信息或兩個(gè)地rase粒度的信息組成。
[0022] 當(dāng)需要引入二元特征時(shí),可W根據(jù)二元特征詞典獲取對(duì)應(yīng)的二元特征。因此,需要 解決二元特征詞典如何建立的問題。
[0023] 圖1是本申請(qǐng)一個(gè)實(shí)施例提出的二元特征詞典的構(gòu)建方法的流程示意圖。
[0024] 如圖1所示,本實(shí)施例的流程包括:
[00巧]Sll:從語(yǔ)料中提取二元特征。
[0026] 其中,在構(gòu)建二元特征詞典時(shí),可W先收集語(yǔ)料,與語(yǔ)義相似度模型的構(gòu)建類似, 構(gòu)建二元特征詞典時(shí)收集的語(yǔ)料也可W具體是句子語(yǔ)料,即,收集大量的句子作為語(yǔ)料。
[0027] 在語(yǔ)料中提取二元特征時(shí),可W具體是將語(yǔ)料中任意兩個(gè)相鄰的詞條,作為一個(gè) 二元特征。
[0028] 具體的,對(duì)應(yīng)每個(gè)句子語(yǔ)料,可W對(duì)句子語(yǔ)料進(jìn)行切分,得到詞條(term)。
[0029] 其中,詞條可W是basic粒度,或者,也可W是地rase粒度,但是,上述的兩個(gè)詞條 需要具有同種粒度,例如,均是basic粒度,或者,均是地rase粒度。將句子切分成basic粒度 的詞條或地rase粒度的詞條可W采用各種已有技術(shù),在此不再詳細(xì)說明。
[0030] 在將句子切分成詞條后,可W將任意兩個(gè)相鄰的詞條作為一個(gè)二元特征,因此,可 W對(duì)應(yīng)每個(gè)句子,假設(shè)該句子包括n個(gè)詞條,則可W提取出n-1個(gè)二元特征。將語(yǔ)料中的所有 句子對(duì)應(yīng)的二元特征相加后,可W得到多個(gè)二元特征。
[0031] S12:計(jì)算所述二元特征的預(yù)設(shè)統(tǒng)計(jì)量。
[0032] 本實(shí)施例中,W預(yù)設(shè)統(tǒng)計(jì)量是t統(tǒng)計(jì)量為例。
[0033] t統(tǒng)計(jì)量是對(duì)模型參數(shù)的單個(gè)假設(shè)進(jìn)行檢驗(yàn)的一種統(tǒng)計(jì)量。
[0034] 具體的,一個(gè)二元特征的t統(tǒng)計(jì)量的計(jì)算公式是:
[0035]
[0036] 其中,f是該二元特征在語(yǔ)料中的出現(xiàn)概率,例如,語(yǔ)料中共有M個(gè)句子,其中m個(gè)句 子中存在該二元特征,即該二元特征中的兩個(gè)詞條相鄰且位置關(guān)系不變的出現(xiàn)在m個(gè)句子 中,則f=m/M;
[0037] y = piXp2,pi是該二元特征中一個(gè)詞條在語(yǔ)料中的出現(xiàn)概率,P2是該二元特征中 另一個(gè)詞條在語(yǔ)料中的出現(xiàn)概率;
[003引本實(shí)施例中,假設(shè)s2 = f;
[0039] N是語(yǔ)料中所有二元特征的總數(shù),N=ENi, N是單個(gè)句子語(yǔ)料對(duì)應(yīng)的二元特征的數(shù) 量,假設(shè)某個(gè)句子語(yǔ)料包括n個(gè)詞條,則該句子語(yǔ)料對(duì)應(yīng)的二元特征的數(shù)量是n-1。
[0040] 因此,通過上述計(jì)算公式,可W計(jì)算出每個(gè)二元特征的t統(tǒng)計(jì)量。
[0041] S13:根據(jù)所述預(yù)設(shè)統(tǒng)計(jì)量按序選擇預(yù)設(shè)個(gè)數(shù)的二元特征,組成二元特征詞典。
[0042] 例如,在得到每個(gè)二元特征的t統(tǒng)計(jì)量后,可W根據(jù)t統(tǒng)計(jì)量從大到小的順序選擇 預(yù)設(shè)個(gè)數(shù)的二元特征,將選擇的運(yùn)些二元特征組成二元特征詞典。
[0043] 進(jìn)一步的,如上所示,一個(gè)二元特征可W是由兩個(gè)basic粒度的詞條組成,或者,一 個(gè)二元特征也可W是由兩個(gè)曲rase粒度的詞條組成。在上述排序時(shí),是對(duì)運(yùn)些二元特征(包 括根據(jù)basic粒度的詞條得到的二元特征W及根據(jù)地rase粒度的詞條得到的二元特征)進(jìn) 行統(tǒng)一排序的,從而在二元特征詞典中可W包括根據(jù)basic粒度的詞條得到的二元特征和/ 或根據(jù)地rase粒度的詞條得到的二元特征。
[0044] 通過上述的流程,可W實(shí)現(xiàn)二元特征詞典的構(gòu)建。
[0045] 在構(gòu)建出二元特征詞典后,可W使用該詞典生成二元特征,W用于語(yǔ)義相似度模 型的訓(xùn)練。
[0046] 相應(yīng)的,一些實(shí)施例中,參見圖2,本實(shí)施例的方法還可W包括:
[0047] S14:采用所述二元特征詞典,從語(yǔ)義相似度模型的分詞中提取二元特征,作為語(yǔ) 義相似度模型的訓(xùn)練數(shù)據(jù)。
[004引其中,可W將二元特征詞典中包括的且可W由相鄰的兩個(gè)分詞組成的二元特征, 作為提取的二元特征。
[0049] 另外,上述的分詞可W是bas i C粒度的分詞或地rase粒度的分詞。
[0050] 例如,語(yǔ)義相似度模塊的一個(gè)語(yǔ)料是"百度己西葡語(yǔ)",經(jīng)過切詞后,Wbasic粒度 的分詞為例,各分詞是"百度"、"己西"、"葡語(yǔ)",構(gòu)建的二元特征詞典中的一個(gè)二元特征是 "己西葡語(yǔ)",則提取的一個(gè)二元特征是"己西葡語(yǔ)"。
[0051] 進(jìn)一步的,如何二元特征詞典中不包括任意兩個(gè)相鄰分詞組成的二元特征,則直 接將分詞作為提取的二元特征。依然W上述的語(yǔ)料為例,假設(shè)構(gòu)建的二元特征詞典中不包 括"己西葡語(yǔ)",也不包括"百度己西",則提取的二元特征就是原始的分詞,如"百度"、"己 西"、"葡語(yǔ)'。
[0052]因此,通過二元特征詞典,可W實(shí)現(xiàn)二元特征的提取,從而在訓(xùn)練語(yǔ)義相似度模型 時(shí)可W引入新的特征。
[0化3] -些實(shí)施例中,參見圖3,本實(shí)施例的方法還可W包括:
[0054] S15:根據(jù)所述訓(xùn)練數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,生成語(yǔ)義相似度模型。
[0055] 其中,神經(jīng)網(wǎng)絡(luò)可W如圖4所示,與通常的語(yǔ)義相似度模型不同的是,本實(shí)施例的 輸入可W包括二元特征。
[0056] 因此,可W通過引入二元特征訓(xùn)練語(yǔ)義相似度模型。
[0057] 本實(shí)施例中,通過計(jì)算二元特征的預(yù)設(shè)統(tǒng)計(jì)量,根據(jù)預(yù)設(shè)統(tǒng)計(jì)量選擇二元特征組 成二元特征詞典,可W實(shí)現(xiàn)二元特征詞典的構(gòu)建,從而可W采用該二元特征詞典從模型語(yǔ) 料中提取出二元特征,進(jìn)一步的,該二元特征可W作為語(yǔ)義相似度模型的訓(xùn)練數(shù)據(jù)中引入 的新特征。
[0058] 圖5是本發(fā)明一個(gè)實(shí)施例提出的二元特征詞典的構(gòu)建裝置的結(jié)構(gòu)示意圖。
[0059] 參見圖5,本實(shí)施例的裝置包括:提取模塊51、計(jì)算模塊52和生成模塊53。
[0060] 提取模塊51,用于從語(yǔ)料中提取二元特征;
[0061] 計(jì)算模塊52,用于計(jì)算所述二元特征的預(yù)設(shè)統(tǒng)計(jì)量;
[0062] 生成模塊53,用于根據(jù)所述預(yù)設(shè)統(tǒng)計(jì)量按序選擇預(yù)設(shè)個(gè)數(shù)的二元特征,組成二元 特征詞典。
[0063] -些實(shí)施例中,所述提取模塊51具體用于:
[0064] 將語(yǔ)料中任意兩個(gè)相鄰的詞條,作為一個(gè)二元特征。
[0065] -些實(shí)施例中,所述計(jì)算模塊52計(jì)算的所述預(yù)設(shè)統(tǒng)計(jì)量是t統(tǒng)計(jì)量。
[0066] -些實(shí)施例中,參見圖6,本實(shí)施例的裝置還可W包括:
[0067] 獲取模塊54,用于采用所述二元特征詞典,從語(yǔ)義相似度模型的分詞中提取二元 特征,作為語(yǔ)義相似度模型的訓(xùn)練數(shù)據(jù)。
[0068] -些實(shí)施例中,參見圖6,本實(shí)施例的裝置還可W包括:
[0069] 訓(xùn)練模塊55,用于根據(jù)所述訓(xùn)練數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,生成語(yǔ)義相似度模型。
[0070] 可W理解的是,本實(shí)施例的裝置與方法實(shí)施例對(duì)應(yīng),具體內(nèi)容可W參見方法實(shí)施 例中的相關(guān)描述,在此不再詳細(xì)說明。
[0071 ]本實(shí)施例中,通過計(jì)算二元特征的預(yù)設(shè)統(tǒng)計(jì)量,根據(jù)預(yù)設(shè)統(tǒng)計(jì)量選擇二元特征組 成二元特征詞典,可W實(shí)現(xiàn)二元特征詞典的構(gòu)建,從而可W采用該二元特征詞典從模型語(yǔ) 料中提取出二元特征,進(jìn)一步的,該二元特征可W作為語(yǔ)義相似度模型的訓(xùn)練數(shù)據(jù)中引入 的新特征。
[0072] 可W理解的是,上述各實(shí)施例中相同或相似部分可W相互參考,在一些實(shí)施例中 未詳細(xì)說明的內(nèi)容可W參見其他實(shí)施例中相同或相似的內(nèi)容。
[0073] 需要說明的是,在本申請(qǐng)的描述中,術(shù)語(yǔ)"第一"、"第二"等僅用于描述目的,而不 能理解為指示或暗示相對(duì)重要性。此外,在本申請(qǐng)的描述中,除非另有說明,"多個(gè)"的含義 是指至少兩個(gè)。
[0074] 流程圖中或在此W其他方式描述的任何過程或方法描述可W被理解為,表示包括 一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部 分,并且本申請(qǐng)的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可W不按所示出或討論的順 序,包括根據(jù)所設(shè)及的功能按基本同時(shí)的方式或按相反的順序,來執(zhí)行功能,運(yùn)應(yīng)被本申請(qǐng) 的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
[0075] 應(yīng)當(dāng)理解,本申請(qǐng)的各部分可W用硬件、軟件、固件或它們的組合來實(shí)現(xiàn)。在上述 實(shí)施方式中,多個(gè)步驟或方法可W用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件 或固件來實(shí)現(xiàn)。例如,如果用硬件來實(shí)現(xiàn),和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下 列技術(shù)中的任一項(xiàng)或他們的組合來實(shí)現(xiàn):具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯口電路 的離散邏輯電路,具有合適的組合邏輯口電路的專用集成電路,可編程口陣列(PGA),現(xiàn)場(chǎng) 可編程口陣列(FPGA)等。
[0076] 本技術(shù)領(lǐng)域的普通技術(shù)人員可W理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步 驟是可W通過程序來指令相關(guān)的硬件完成,所述的程序可W存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介 質(zhì)中,該程序在執(zhí)行時(shí),包括方法實(shí)施例的步驟之一或其組合。
[0077] 此外,在本申請(qǐng)各個(gè)實(shí)施例中的各功能單元可W集成在一個(gè)處理模塊中,也可W 是各個(gè)單元單獨(dú)物理存在,也可W兩個(gè)或兩個(gè)W上單元集成在一個(gè)模塊中。上述集成的模 塊既可W采用硬件的形式實(shí)現(xiàn),也可W采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如 果W軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),也可W存儲(chǔ)在一個(gè)計(jì)算機(jī) 可讀取存儲(chǔ)介質(zhì)中。
[0078] 上述提到的存儲(chǔ)介質(zhì)可W是只讀存儲(chǔ)器,磁盤或光盤等。
[0079] 在本說明書的描述中,參考術(shù)語(yǔ)"一個(gè)實(shí)施例"、"一些實(shí)施例"、"示例"、"具體示 例"、或"一些示例"等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特 點(diǎn)包含于本申請(qǐng)的至少一個(gè)實(shí)施例或示例中。在本說明書中,對(duì)上述術(shù)語(yǔ)的示意性表述不 一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可W在任何 的一個(gè)或多個(gè)實(shí)施例或示例中W合適的方式結(jié)合。
[0080] 盡管上面已經(jīng)示出和描述了本申請(qǐng)的實(shí)施例,可W理解的是,上述實(shí)施例是示例 性的,不能理解為對(duì)本申請(qǐng)的限制,本領(lǐng)域的普通技術(shù)人員在本申請(qǐng)的范圍內(nèi)可W對(duì)上述 實(shí)施例進(jìn)行變化、修改、替換和變型。
【主權(quán)項(xiàng)】
1. 一種二元特征詞典的構(gòu)建方法,其特征在于,包括: 從語(yǔ)料中提取二元特征; 計(jì)算所述二元特征的預(yù)設(shè)統(tǒng)計(jì)量; 根據(jù)所述預(yù)設(shè)統(tǒng)計(jì)量按序選擇預(yù)設(shè)個(gè)數(shù)的二元特征,組成二元特征詞典。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從語(yǔ)料中提取二元特征,包括: 將語(yǔ)料中任意兩個(gè)相鄰的詞條,作為一個(gè)二元特征。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)統(tǒng)計(jì)量是t統(tǒng)計(jì)量。4. 根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,其特征在于,還包括: 采用所述二元特征詞典,從語(yǔ)義相似度模型的分詞中提取二元特征,作為語(yǔ)義相似度 模型的訓(xùn)練數(shù)據(jù)。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,還包括: 根據(jù)所述訓(xùn)練數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,生成語(yǔ)義相似度模型。6. -種二元特征詞典的構(gòu)建裝置,其特征在于,包括: 提取模塊,用于從語(yǔ)料中提取二元特征; 計(jì)算模塊,用于計(jì)算所述二元特征的預(yù)設(shè)統(tǒng)計(jì)量; 生成模塊,用于根據(jù)所述預(yù)設(shè)統(tǒng)計(jì)量按序選擇預(yù)設(shè)個(gè)數(shù)的二元特征,組成二元特征詞 典。7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述提取模塊具體用于: 將語(yǔ)料中任意兩個(gè)相鄰的詞條,作為一個(gè)二元特征。8. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述計(jì)算模塊計(jì)算的所述預(yù)設(shè)統(tǒng)計(jì)量是t 統(tǒng)計(jì)量。9. 根據(jù)權(quán)利要求6-8任一項(xiàng)所述的裝置,其特征在于,還包括: 獲取模塊,用于采用所述二元特征詞典,從語(yǔ)義相似度模型的分詞中提取二元特征,作 為語(yǔ)義相似度模型的訓(xùn)練數(shù)據(jù)。10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,還包括: 訓(xùn)練模塊,用于根據(jù)所述訓(xùn)練數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,生成語(yǔ)義相似度模型。
【文檔編號(hào)】G06F17/27GK106021572SQ201610379719
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月31日
【發(fā)明人】周坤勝, 何徑舟, 石磊, 馮仕堃
【申請(qǐng)人】北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1