亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語句處理方法及裝置的制造方法_2

文檔序號:9865496閱讀:來源:國知局
句進(jìn)行語句處理。如圖2所示。該語句處理方法可W 包括如下幾個(gè)步驟:
[0062] 步驟201,通過機(jī)器訓(xùn)練獲得語義向量集合。
[0063] 對于微博等短文本語句的關(guān)鍵詞詞語,用向量表示是進(jìn)行語義分析的前提和基 礎(chǔ)。本公開實(shí)施例可W通過人工神經(jīng)網(wǎng)絡(luò)對樣本語句進(jìn)行訓(xùn)練,獲得語義向量集合,該語義 向量集合中包含各個(gè)關(guān)鍵詞與該關(guān)鍵詞的語義向量之間的對應(yīng)關(guān)系,每一個(gè)關(guān)鍵詞的語義 向量都是由表示語義的實(shí)數(shù)組成的向量,從而實(shí)現(xiàn)將文本語句的內(nèi)容轉(zhuǎn)化為語義向量,W 便于后續(xù)通過數(shù)學(xué)方法進(jìn)行語義分析和運(yùn)算,其中,兩個(gè)語義向量在向量空間上的相似度 可W用來表示兩個(gè)語義向量對應(yīng)文本在語義上的相似度,比如,可W用向量內(nèi)積空間的夾 角余弦值度量語義相似性。
[0064] 比如,W對微博中的短文本語句進(jìn)行處理為例,在通過機(jī)器訓(xùn)練獲得語義向量集 合時(shí),可W收集若干實(shí)際的微博語句作為樣本語句,通過人工神經(jīng)網(wǎng)絡(luò)對樣本語句進(jìn)行訓(xùn) 練,W便獲得的語義向量集合盡可能的接近微博的實(shí)際應(yīng)用場景。
[00化]步驟202,提取待處理語句的至少一個(gè)關(guān)鍵詞。
[0066] 通過訓(xùn)練獲得語義向量集合后,即可W根據(jù)該語義向量集合對微博中的各個(gè)語句 進(jìn)行分析,在對某一個(gè)待處理語句進(jìn)行分析時(shí),首先需要對該待處理語句進(jìn)行關(guān)鍵詞提取, 每一個(gè)待處理語句中提取出的關(guān)鍵詞的數(shù)量可W根據(jù)該待處理語句的語句結(jié)構(gòu)(比如語句 長度)來確定。
[0067] 比如,對于一個(gè)待處理語句,可W提取其至少一個(gè)關(guān)鍵詞組成該待處理語句的關(guān) 鍵詞集合,記為:Sentence_Set=化1. . .km},其中,m為關(guān)鍵詞的數(shù)量。
[006引步驟203,從語義向量集合中獲取該至少一個(gè)關(guān)鍵詞各自對應(yīng)的語義向量。
[0069] 其中,對于每一個(gè)關(guān)鍵詞,可W從語義向量集合中獲得該關(guān)鍵詞對應(yīng)的向量,其 中,每一個(gè)關(guān)鍵詞的語義向量可W標(biāo)識(shí)為:Keyword_V= {xi. . .xn},n為該語義向量的維度, 在本公開實(shí)施例中,η可W是預(yù)先確定的一個(gè)固定值,該固定值可W根據(jù)設(shè)備或系統(tǒng)的處理 能力來確定。
[0070] 步驟204,對于該至少一個(gè)關(guān)鍵詞各自對應(yīng)的語義向量中的每一個(gè)維度,計(jì)算該至 少一個(gè)關(guān)鍵詞各自對應(yīng)的語義向量在該維度上的平均值。
[0071] 步驟205,將該至少一個(gè)關(guān)鍵詞各自對應(yīng)的語義向量在該每一個(gè)維度上的平均值 所組成的向量確定為該待處理語句的語義向量。
[0072] 通過上述兩步驟,可W通過每一個(gè)關(guān)鍵詞對應(yīng)的語義向量在每一個(gè)維度上的平均 值組成待分析語義的語義向量,定義為:Sentence_V= {yi. . .yn},其中yi為實(shí)數(shù),表示待分 析語義的語義向量中的第i維,并且,
[0073]
e
[0074] 步驟206,根據(jù)預(yù)先設(shè)置的η階縮放矩陣Κη,按照公式Υ = Κη巧對該待處理語句的語 義向量進(jìn)行縮放,獲得待處理語句的語義縮放結(jié)果。
[0075] 其中,X為該待處理語句的語義向量,Υ為該語義縮放結(jié)果,Κη用于指示沿X的各個(gè) 方向上的縮放比例。
[0076] 在本公開實(shí)施例中,惡意使用向量空間的線性投影進(jìn)行語義放縮,即通過放縮矩 陣實(shí)現(xiàn)向量空間映射,并藉此找到近鄰詞。通過上述步驟201至204,待處理語句已經(jīng)表示成 了向量,語義的放縮問題就轉(zhuǎn)化為了向量放縮問題。
[0077] 設(shè)縮放前,待處理語句的語義向量為X,縮放后后,語義向量變?yōu)棣?,則Υ = Κη巧,其 中Κη為η階矩陣。
[007引
[0079] 在本公開實(shí)施例中,一種比較簡單的放大縮放是使得向量沿著各個(gè)方向進(jìn)行拉 伸,其矩陣Κη如下所示:
[0080]
[OOW]其中kii〉0,ki-1,,當(dāng)kii為常數(shù)時(shí),表示沿各個(gè)方向等長放大kii倍。具體放大 的倍數(shù)根據(jù)實(shí)際效果和需要而定。運(yùn)種語義放大的邏輯含義是語義和邏輯結(jié)構(gòu)的線性放 大。矩陣Κη的對角線形成了徑向放縮向量,可W根據(jù)縮放規(guī)模進(jìn)行設(shè)置。
[0082] Ku的值表示放縮量的大小,該值的大小是根據(jù)時(shí)間效果和應(yīng)用對分類的精度要求 所決定的。該值越大標(biāo)識(shí)分類的精度越低。因此該值的確定需要根據(jù)實(shí)際需求和分類效果 來確定。
[0083] 步驟207,確定到達(dá)該待處理語句的語義向量的P-范數(shù)小于預(yù)設(shè)縮放距離R的各個(gè) 向量,R為實(shí)數(shù);將確定的該各個(gè)向量組成的向量空間獲取為該語義縮放結(jié)果。
[0084] 上述步驟206是所示的徑向擴(kuò)展是沿著各個(gè)維度對應(yīng)的方向進(jìn)行拉伸,而本步驟 是在法向上進(jìn)行擴(kuò)展。法向擴(kuò)展可W通過旋轉(zhuǎn)或擴(kuò)展轄域?qū)崿F(xiàn)。由于高維空間的旋轉(zhuǎn)變換 較為復(fù)雜,因此,本文可W采用P-范數(shù)表示到向量間距離。
[0085]本公開實(shí)施例中,可W將所有到到達(dá)該待處理語句的語義向量561116]1。6_¥的口-范 數(shù)小于R的向量構(gòu)成的向量空間確定為語義縮放結(jié)果,在邏輯上等同于沿向量Sentence_v 的各個(gè)切面法向量的拉伸。其定義如下:
[0086] 設(shè)縮放前語義向量為X,縮放后語義向量為Y,則與語義向量X距離為R的語義擴(kuò)展 向量是一個(gè)集合,設(shè)該集合為Scale_Semantic_Set。
[0087] Scale_Semantic_Set= {Yi I I I Yi_X I I <R};
[008引
[0089] 所有滿足上述條件的向量Yi構(gòu)成的集合Scale_Semantic_Set,形成了一個(gè)類似于 球體的高維封閉曲面。為計(jì)算簡便,本公開實(shí)施例中可W采用2-范數(shù)進(jìn)行計(jì)算。
[0090] 其中,上述步驟206和步驟207分別所示的兩種向量縮放方法,可W單獨(dú)使用,也可 W兩者結(jié)合使用。
[0091] 具體的,上述步驟201至步驟207的語義分析過程可W通過如下代碼實(shí)現(xiàn):
[0092] 算法名稱:短句向量化及其放縮算法
[0093] 輸入:樣本語
[0094] 待處理語句M_S;
[00巧]縮放距離R;
[0096] 縮放向量ScalV;
[0097] 輸出:待處理語句的語義向量M_S_V;
[009引徑向縮放后的語義向量M_S_V_S;
[0099] 法向縮放后的語義向量集合Scale_Semantic_Set;
[0100] 步驟;
[0101] 將樣本語句M_CPS切分成關(guān)鍵字集合M_CPS_Set;
[0102] 使用關(guān)鍵字集合1_〔?5_56*訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,得到語言向量集合M_CPS_Vec_ Set;
[0103] 從待處理語句M_S中得到該待處理語句的關(guān)鍵字集合MSV_S;
[0104]
[0105]
[0106] 步驟208,計(jì)算該待處理語句的語義縮放結(jié)果與其它各個(gè)語句的語義縮放結(jié)果之 間的交集。
[0107] 步驟209,根據(jù)該待處理語句的語義縮放結(jié)果與其它各個(gè)語句的語義縮放結(jié)果之 間的交集對該待處理語句進(jìn)行歸類。
[0108] 本公開一種可能的實(shí)現(xiàn)方式中,為了便于根據(jù)待處理語句的語義對該待處理語句 進(jìn)行處理,首先將待處理語句轉(zhuǎn)化為向量,并按照步驟204和/或步驟205所示的縮放方法對 該向量進(jìn)行徑向擴(kuò)展或者法向擴(kuò)展,W擴(kuò)大該待處理語句的語義,在對若干個(gè)待處理語句 的語義向量進(jìn)行放大后,再計(jì)算各個(gè)待處理語句的語義向量的語義放大結(jié)果的交集,根據(jù) 計(jì)算出的各個(gè)待處理語句的語義向量的語義放大結(jié)果之間的交集的情況,對各個(gè)待處理語 句進(jìn)行歸類處理。在對各個(gè)待處理語句進(jìn)行歸類后,即可W根據(jù)歸類結(jié)果進(jìn)行后續(xù)的應(yīng)用, 比如突發(fā)話題確定、在線社交網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)、網(wǎng)絡(luò)結(jié)構(gòu)拓?fù)浞治?、?jié)點(diǎn)推薦、廣告精準(zhǔn)投 放、組織結(jié)構(gòu)管理甚至恐怖組織識(shí)別等。
[0109] 綜上所述,本公開實(shí)施例所示的方法,通過提取待處理語句的至少一個(gè)關(guān)鍵詞,獲 取該至少一個(gè)關(guān)鍵詞各自對應(yīng)的語義向量;根據(jù)該至少一個(gè)關(guān)鍵詞各自對應(yīng)的語義向量計(jì) 算該待處理語句的語義向量,對待處理語句的語義向量進(jìn)行縮放,獲得該待處理語句的語 義縮放結(jié)果,并根據(jù)待處理語句的該語義縮放結(jié)果對待處理語句進(jìn)行語句處理,提供了一 種根據(jù)語義對短文本語句進(jìn)行語句處理的方法,達(dá)到提高語句處理的準(zhǔn)確度的效果。
[0110] 圖3是根據(jù)一示例性實(shí)施例示出的一種語句處理裝置的框圖。該語句處理裝置可 W通過硬件電路或者軟件與硬件的結(jié)合實(shí)現(xiàn)成為計(jì)算機(jī)設(shè)備或系統(tǒng),并執(zhí)行如圖1或圖2所 示實(shí)施例中的全部或部分步驟。請參考圖3,該裝置可W包括:
[0111] 關(guān)鍵詞提取模塊301,用于提取待處理語句的至少一個(gè)關(guān)鍵詞;
[0112] 向量獲取模塊302,用于從預(yù)先設(shè)置的語義向量集合中獲取所述至少一個(gè)關(guān)鍵詞 各自對應(yīng)的語義向量;所述語義向量是由表示語義的實(shí)數(shù)組成的向量;
[0113] 向量計(jì)算模塊303,用于根據(jù)所述至少一個(gè)關(guān)鍵詞各自對應(yīng)的語義向量計(jì)算所述 待處理語句的語義向量;
[0114] 向量縮放模塊304,用于對所述待處理語句的語義向量進(jìn)行縮放,獲得所述待處理 語句的語義縮放結(jié)果;
當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1