亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

觀點(diǎn)處理方法和裝置以及搜索方法和裝置制造方法

文檔序號(hào):6552420閱讀:177來源:國知局
觀點(diǎn)處理方法和裝置以及搜索方法和裝置制造方法
【專利摘要】本發(fā)明實(shí)施例提供一種觀點(diǎn)處理方法和裝置以及搜索方法和裝置。觀點(diǎn)處理方法包括:基于預(yù)設(shè)策略從問答對(duì)資源中獲取問題對(duì)應(yīng)的觀點(diǎn);將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,形成問題觀點(diǎn)庫。本發(fā)明實(shí)施例提供的觀點(diǎn)處理方法和裝置,通過從問答對(duì)資源獲取問題對(duì)應(yīng)的觀點(diǎn),能從海量的問答對(duì)資源中得到問題對(duì)應(yīng)的簡短觀點(diǎn),并通過觀點(diǎn)聚合,能得到問題對(duì)應(yīng)的觀點(diǎn)集合,從而能夠建立問題觀點(diǎn)庫。本發(fā)明實(shí)施例提供的搜索方法和裝置,通過在獲取用戶通過搜索框輸入的檢索式之后,在利用本發(fā)明任意實(shí)施例提供的觀點(diǎn)處理方法形成的問題觀點(diǎn)庫中,匹配檢索式,能夠得到并直接呈現(xiàn)與檢索式對(duì)應(yīng)的觀點(diǎn),從而使用戶能夠直接獲知與檢索問題相關(guān)的觀點(diǎn),提高了搜索效率。
【專利說明】觀點(diǎn)處理方法和裝置以及搜索方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實(shí)施例涉及信息【技術(shù)領(lǐng)域】,尤其涉及一種觀點(diǎn)處理方法和裝置以及搜索方 法和裝置。

【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,用戶通過搜索引擎的搜索框輸入問題,希望獲得與 問題相關(guān)的一系列觀點(diǎn)。常見的問題類別包括:原因類、怎么辦類以及是什么類等。例如,用 戶輸入的原因類問題為"新生兒打嗝是怎么回事",希望獲得相應(yīng)的觀點(diǎn),如:"吃奶過急"、 "受涼"、"消化不良"以及"乳食停滯不化"等。又如,用戶輸入的怎么辦類問題為"小孩熱 感冒怎么辦",希望獲得相應(yīng)的觀點(diǎn),如,"盡量避免去人多的公共場所"、"不能蓋得太厚太 多"、"注意多喝水"以及"建議及早去醫(yī)院"等。又如,用戶輸入的是什么類問題為"懷孕初 期的癥狀",希望獲得相應(yīng)的觀點(diǎn),如,"嘔吐"、"月經(jīng)沒來"以及"饑餓感"等。
[0003] 現(xiàn)有的搜索引擎采用的技術(shù),一般是當(dāng)用戶通過搜索引擎的搜索框輸入問題查找 觀點(diǎn)時(shí),搜索引擎會(huì)在數(shù)據(jù)庫中搜尋與問題中查詢?cè)~關(guān)聯(lián)的答案網(wǎng)頁,并將答案網(wǎng)頁對(duì)應(yīng) 的網(wǎng)頁鏈接按相關(guān)度從高到低的順序返回給用戶。
[0004] 上述搜索引擎采用的技術(shù)存在以下缺陷:用戶需要從海量的答案網(wǎng)頁中點(diǎn)擊相關(guān) 鏈接,查看頁面內(nèi)容,然后自行尋找和歸納觀點(diǎn),搜索效率低且不一定能找到所需的觀點(diǎn)。


【發(fā)明內(nèi)容】

[0005] 本發(fā)明實(shí)施例提供一種觀點(diǎn)處理方法和裝置以及搜索方法和裝置,以提高搜索效 率。
[0006] 第一方面,本發(fā)明實(shí)施例提供了一種觀點(diǎn)處理方法,包括:
[0007] 基于預(yù)設(shè)策略,從問答對(duì)資源中獲取問題對(duì)應(yīng)的觀點(diǎn);
[0008] 將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,形成問題觀點(diǎn)庫。
[0009] 第二方面,本發(fā)明實(shí)施例還提供了一種觀點(diǎn)處理裝置,包括:
[0010] 觀點(diǎn)獲取模塊,用于基于預(yù)設(shè)策略,從問答對(duì)資源中獲取問題對(duì)應(yīng)的觀點(diǎn);
[0011] 問題觀點(diǎn)庫形成模塊,用于將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,形成問題觀點(diǎn)庫。
[0012] 第三方面,本發(fā)明實(shí)施例還提供了一種搜索方法,包括:
[0013] 獲取用戶通過搜索框輸入的檢索式;
[0014] 在問題觀點(diǎn)庫中查找與所述檢索式對(duì)應(yīng)的觀點(diǎn),其中,所述問題觀點(diǎn)庫采用本發(fā) 明任意實(shí)施例提供的觀點(diǎn)處理方法形成;
[0015] 顯示所述觀點(diǎn)。
[0016] 第四方面,本發(fā)明實(shí)施例還提供了 一種搜索裝置,包括:
[0017] 檢索式獲取模塊,用于獲取用戶通過搜索框輸入的檢索式;
[0018] 觀點(diǎn)查找模塊,用于在問題觀點(diǎn)庫中查找與所述檢索式對(duì)應(yīng)的觀點(diǎn),其中,所述問 題觀點(diǎn)庫采用本發(fā)明任意實(shí)施例提供的觀點(diǎn)處理裝置形成;
[0019] 觀點(diǎn)顯示模塊,用于顯示所述觀點(diǎn)。
[0020] 本發(fā)明實(shí)施例提供的觀點(diǎn)處理方法和裝置,通過從問答對(duì)資源中獲取問題對(duì)應(yīng)的 觀點(diǎn),能夠從海量的問答對(duì)資源中得到問題對(duì)應(yīng)的簡短觀點(diǎn),并通過將問題所對(duì)應(yīng)的觀點(diǎn) 進(jìn)行聚合,能夠得到問題對(duì)應(yīng)的簡短觀點(diǎn)的集合,從而能夠建立問題觀點(diǎn)庫。
[0021] 本發(fā)明實(shí)施例提供的搜索方法和裝置,通過在獲取用戶通過搜索框輸入的檢索式 之后,在利用本發(fā)明任意實(shí)施例提供的觀點(diǎn)處理方法預(yù)先形成的問題觀點(diǎn)庫中,匹配用戶 輸入的檢索式,能夠得到并直接呈現(xiàn)與用戶輸入的檢索式對(duì)應(yīng)的觀點(diǎn),從而使用戶能夠直 接獲知與檢索問題相關(guān)的觀點(diǎn),提1? 了搜索效率。

【專利附圖】

【附圖說明】
[0022] 為了更清楚地說明本發(fā)明,下面將對(duì)本發(fā)明中所需要使用的附圖做一簡單地介 紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來 講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0023] 圖1為本發(fā)明實(shí)施例一提供的一種觀點(diǎn)處理方法的流程圖;
[0024] 圖2a為本發(fā)明實(shí)施例二提供的一種觀點(diǎn)處理方法的流程圖;
[0025] 圖2b為本發(fā)明實(shí)施例二提供的一種觀點(diǎn)處理方法中一種基于預(yù)設(shè)觀點(diǎn)片段定位 策略,確定問答對(duì)資源中問題對(duì)應(yīng)的答案中的觀點(diǎn)片段的方法的流程圖;
[0026] 圖2c為本發(fā)明實(shí)施例二提供的一種觀點(diǎn)處理方法中另一種基于預(yù)設(shè)觀點(diǎn)片段定 位策略,確定問答對(duì)資源中問題對(duì)應(yīng)的答案中的觀點(diǎn)片段的方法的流程圖;
[0027] 圖3為本發(fā)明實(shí)施例三提供的一種觀點(diǎn)處理方法的流程圖;
[0028] 圖4為本發(fā)明實(shí)施例四提供的一種觀點(diǎn)處理方法的流程圖;
[0029] 圖5a為本發(fā)明實(shí)施例五提供的一種觀點(diǎn)處理方法的流程圖;
[0030] 圖5b為本發(fā)明實(shí)施例五提供的一種觀點(diǎn)處理方法中基于預(yù)設(shè)觀點(diǎn)聚合策略,根 據(jù)觀點(diǎn)相似度進(jìn)行觀點(diǎn)聚合,得到觀點(diǎn)簇的方法的流程圖;
[0031] 圖6為本發(fā)明實(shí)施例六提供的一種觀點(diǎn)處理方法的流程圖;
[0032] 圖7為本發(fā)明實(shí)施例七提供的一種觀點(diǎn)處理裝置的結(jié)構(gòu)示意圖;
[0033] 圖8a為本發(fā)明實(shí)施例八提供的一種搜索方法的流程圖;
[0034] 圖8b為采用本發(fā)明實(shí)施例八提供的搜索方法而呈現(xiàn)的觀點(diǎn)圖;
[0035] 圖8c為采用本發(fā)明實(shí)施例八提供的搜索方法而呈現(xiàn)的另一觀點(diǎn)圖;
[0036] 圖8d為采用本發(fā)明實(shí)施例八提供的搜索方法而呈現(xiàn)的又一觀點(diǎn)圖;
[0037] 圖9為本發(fā)明實(shí)施例九提供的一種搜索裝置的結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0038] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施例 中的技術(shù)方案作進(jìn)一步詳細(xì)描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全 部的實(shí)施例??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的 限定,基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得 的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。另外還需要說明的是,為了便于描述,附圖 中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。
[0039] 實(shí)施例一
[0040] 請(qǐng)參閱圖1,為本發(fā)明實(shí)施例一提供的一種觀點(diǎn)處理方法的流程圖。本發(fā)明實(shí)施例 的方法可以由硬件和/或軟件實(shí)現(xiàn)的觀點(diǎn)處理裝置來執(zhí)行,該實(shí)現(xiàn)裝置典型的是配置于能 夠進(jìn)行數(shù)據(jù)處理的服務(wù)器中,也可以配置在搜索引擎服務(wù)器中。
[0041] 如圖1所示,所述方法包括:
[0042] 110、基于預(yù)設(shè)策略,從問答對(duì)資源中獲取問題對(duì)應(yīng)的觀點(diǎn);
[0043] 本操作具體是從問答對(duì)資源中提取問題對(duì)應(yīng)的觀點(diǎn)。問答對(duì)資源是以成對(duì)的問 題-答案形式存在的數(shù)據(jù)資源,每個(gè)問題的答案中包括了解答該問題的觀點(diǎn),本操作以問 答對(duì)資源作為獲取觀點(diǎn)的原始資源,提取各個(gè)問答對(duì)中問題的答案中所包含的觀點(diǎn)。常見 的問題類別包括:原因類、怎么辦類以及是什么類等。
[0044] 作為本操作的一種優(yōu)選的實(shí)施方式,包括:獲取問答日志;根據(jù)所述問答日志得 到問答對(duì)資源;從所述問答對(duì)資源中獲取問題對(duì)應(yīng)的觀點(diǎn)。
[0045] 其中,問答日志可以包括點(diǎn)擊日志、大搜索展現(xiàn)日志、以及特定垂搜站點(diǎn)展現(xiàn)日志 等。點(diǎn)擊日志是指設(shè)定的歷史時(shí)間內(nèi)(例如,一年)用戶通過搜索引擎的搜索框輸入查詢 式,即問題,搜索引擎展現(xiàn)與查詢式關(guān)聯(lián)的答案網(wǎng)頁,用戶從展現(xiàn)的大量答案網(wǎng)頁中選擇部 分答案網(wǎng)頁進(jìn)行點(diǎn)擊,被點(diǎn)擊的答案網(wǎng)頁以及對(duì)應(yīng)的查詢式即構(gòu)成所述點(diǎn)擊日志。大搜索 展現(xiàn)日志是指設(shè)定的歷史時(shí)間內(nèi)用戶通過搜索引擎的搜索框輸入查詢式,即問題,搜索引 擎展現(xiàn)與查詢式關(guān)聯(lián)的答案網(wǎng)頁,所述答案網(wǎng)頁以及對(duì)應(yīng)的查詢式即構(gòu)成大搜索展現(xiàn)日 志。特定垂搜站點(diǎn)展現(xiàn)日志是指設(shè)定的歷史時(shí)間內(nèi),現(xiàn)有的問答門戶網(wǎng)站(例如,百度知 道、新浪愛問、天涯問答、以及http://www. haodf. com/等)或?qū)I(yè)學(xué)科論壇(例如CSDN論 壇等)展現(xiàn)的用戶問題以及對(duì)應(yīng)的網(wǎng)友回答。
[0046] 問答日志可以為源代碼形式,也可以為URL (Uniform Resource Locator,統(tǒng)一資源 定位符)地址形式等。
[0047] 問答日志中包含的用戶查詢式與對(duì)應(yīng)的被點(diǎn)擊網(wǎng)頁所包含的內(nèi)容、對(duì)應(yīng)的搜索引 擎展現(xiàn)網(wǎng)頁中的內(nèi)容、或特定垂搜站點(diǎn)展現(xiàn)的回答內(nèi)容,即為問答對(duì)資源。
[0048] 問答對(duì)資源可以包括問答日志的URL地址對(duì)應(yīng)的具體問答內(nèi)容。
[0049] 問答對(duì)資源中用戶輸入的查詢式即為問題,答案內(nèi)容中符合設(shè)定觀點(diǎn)定位模板、 設(shè)定語法結(jié)構(gòu)或其他設(shè)定規(guī)則的部分即為問題對(duì)應(yīng)的觀點(diǎn)。
[0050] 120、將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,形成問題觀點(diǎn)庫。
[0051] 本操作具體是通過聚合操作,得到問題對(duì)應(yīng)的觀點(diǎn)的集合,也即問題觀點(diǎn)庫。換言 之,一個(gè)問題可能對(duì)應(yīng)多個(gè)觀點(diǎn),且相同的觀點(diǎn)也可能以不同的表達(dá)方式存在于多個(gè)問答 對(duì)中,所以將每個(gè)問題對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,即得到問題觀點(diǎn)庫。
[0052] 問題觀點(diǎn)庫中包含原因類問題、怎么辦類問題以及是什么類問題或其他問題類型 所對(duì)應(yīng)的全部觀點(diǎn)。
[0053] 示例性地,原因類問題"新生兒打嗝是怎么回事"相應(yīng)的觀點(diǎn)包括:"吃奶過急"、 "受涼"、"消化不良"以及"乳食停滯不化"等。又如,怎么辦類問題"小孩熱感冒怎么辦"相 應(yīng)的觀點(diǎn)包括:"盡量避免去人多的公共場所"、"不能蓋得太厚太多"、"注意多喝水"以及 "建議及早去醫(yī)院"等。再如,是什么類問題"懷孕初期的癥狀"相應(yīng)的觀點(diǎn)包括:"嘔吐"、 "月經(jīng)沒來"以及"饑餓感"等。
[0054] 本實(shí)施例的技術(shù)方案,通過從問答對(duì)資源中獲取問題對(duì)應(yīng)的觀點(diǎn),能夠從海量的 問答對(duì)資源中得到問題對(duì)應(yīng)的簡短觀點(diǎn),并通過將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,能夠得到 問題對(duì)應(yīng)的簡短觀點(diǎn)的集合,從而能夠建立問題觀點(diǎn)庫。
[0055] 實(shí)施例二
[0056] 請(qǐng)參閱圖2a,為本發(fā)明實(shí)施例二提供的一種觀點(diǎn)處理方法的流程圖。本實(shí)施例在 上述實(shí)施例的基礎(chǔ)上,提供了基于預(yù)設(shè)策略,從問答對(duì)資源中獲取問題對(duì)應(yīng)的觀點(diǎn)的優(yōu)選 方案。
[0057] 如圖2a所示,所述觀點(diǎn)處理方法優(yōu)選包括:
[0058] 210、基于預(yù)設(shè)觀點(diǎn)片段定位策略,確定問答對(duì)資源中問題對(duì)應(yīng)的答案中的觀點(diǎn)片 段;
[0059] 本操作具體是基于問答對(duì)資源中的問題以及對(duì)應(yīng)的答案,從答案中得到符合設(shè)定 規(guī)則的觀點(diǎn)片段。
[0060] 觀點(diǎn)片段可以為一個(gè)詞,也可以是多個(gè)詞的組合,其中多個(gè)詞的組合符合設(shè)定規(guī) 貝1J,例如設(shè)定的語法結(jié)構(gòu)。
[0061] 220、基于預(yù)設(shè)觀點(diǎn)驗(yàn)證策略,確定所述觀點(diǎn)片段中的觀點(diǎn);
[0062] 本操作具體是將通過設(shè)定觀點(diǎn)片段定位策略確定的觀點(diǎn)片段進(jìn)行進(jìn)一步驗(yàn)證,將 通過驗(yàn)證的觀點(diǎn)片段中符合語義等規(guī)則的部分作為觀點(diǎn),或?qū)⑼ㄟ^邊界調(diào)整的觀點(diǎn)片段作 為觀點(diǎn)。
[0063] 230、基于預(yù)設(shè)觀點(diǎn)清除策略,從確定的觀點(diǎn)中清除垃圾觀點(diǎn);
[0064] 本操作具體是從操作220得到的觀點(diǎn)中清除垃圾觀點(diǎn)。具體地,可以將出現(xiàn)頻次 低于設(shè)定門限值的觀點(diǎn)作為垃圾觀點(diǎn),進(jìn)行清除。
[0065] 240、將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,形成問題觀點(diǎn)庫。
[0066] 本實(shí)施例的技術(shù)方案,通過觀點(diǎn)片段定位,能夠準(zhǔn)確定位到答案中包含觀點(diǎn)的部 分,并通過觀點(diǎn)驗(yàn)證得到通過驗(yàn)證的觀點(diǎn),能夠調(diào)整觀點(diǎn)的語義,提高觀點(diǎn)的準(zhǔn)確度,然后 通過進(jìn)一步清除垃圾觀點(diǎn),能夠從海量的問答對(duì)資源中得到問題對(duì)應(yīng)的簡短觀點(diǎn),提高了 觀點(diǎn)的可信度,并通過將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,能夠得到問題對(duì)應(yīng)的簡短觀點(diǎn)的集 合,從而能夠建立問題觀點(diǎn)庫。本領(lǐng)域技術(shù)人員可以理解,清除垃圾觀點(diǎn)的操作為優(yōu)選操 作,也可以省略。
[0067] 請(qǐng)參閱圖2b,作為基于預(yù)設(shè)觀點(diǎn)片段定位策略,確定問答對(duì)資源中問題對(duì)應(yīng)的答 案中的觀點(diǎn)片段的一種優(yōu)選的實(shí)施方式,具體包括:
[0068] 211、對(duì)問答對(duì)資源中的答案進(jìn)行預(yù)處理,確定答案所包含的分句;
[0069] 本操作具體是對(duì)問答對(duì)資源中的答案進(jìn)行預(yù)處理,以去除不適合展現(xiàn)的字符,例 如不能識(shí)別的亂碼等,然后基于預(yù)處理后的答案,確定所述答案包含的分句。
[0070] 本操作中,可以按照分隔符和標(biāo)點(diǎn)確定分句??梢韵雀鶕?jù)換行符或分節(jié)符等分隔 符確定答案包含的段落、行或分節(jié);然后根據(jù)分號(hào)、句號(hào)等標(biāo)點(diǎn)確定段落、行或分節(jié)中的分 句,從而得到答案包含的分句。
[0071] 本操作中,也可以直接按照標(biāo)點(diǎn)確定答案包含的分句。
[0072] 212、將所述分句與觀點(diǎn)定位模板進(jìn)行匹配,將與觀點(diǎn)定位模板匹配的部分作為答 案中的觀點(diǎn)片段。
[0073] 本操作具體是通過將分句與觀點(diǎn)定位模板進(jìn)行匹配,以確定答案中的觀點(diǎn)片段。
[0074] 其中,答案可能包含多個(gè)分句,而觀點(diǎn)可能只位于其中的部分分句中。觀點(diǎn)定位模 板的作用在于對(duì)答案中包含有觀點(diǎn)的分句進(jìn)行篩選,并將分句中匹配成功的部分作為觀點(diǎn) 片段。
[0075] 觀點(diǎn)定位模板是通過統(tǒng)計(jì)分析得到的。原因類問題對(duì)應(yīng)的觀點(diǎn)定位模板可以包 括:"是[.*]原因?qū)е?、"由于[.*]原因?qū)е?、"由[.*]導(dǎo)致"以及"由[.*]引起"。怎 么辦類問題對(duì)應(yīng)的觀點(diǎn)定位模板可以包括:" [W:0_50][建議、要、不要、宜][W: 1-50][標(biāo) 點(diǎn):0-2] [W:0_50] "等。是什么類問題對(duì)應(yīng)的觀點(diǎn)定位模板可以包括:"癥狀包括[.*] "以 及"有[.*]癥狀"等。
[0076] 其中,"表示包含了所有ASCII字符的字符集;表示任意次數(shù)的連續(xù)重復(fù)。 "[W:0-50][建議、要、不要、宜][W:l-50][標(biāo)點(diǎn):0-2] [W:0-50]"表示在"建議"、"要"、"不 要"或"宜"之前可以有由任意字符組成的0-50個(gè)中文文字,之后可以有由任意字符組成 的1-50個(gè)中文文字,在此之后,可以有0-2個(gè)標(biāo)點(diǎn),在標(biāo)點(diǎn)之后,可以有由任意字符組成的 0-50個(gè)中文文字。
[0077] 例如,分句"建議你多休息"與觀點(diǎn)定位模板" [W: 0-50][建議、要、不要、宜] [W:l-50][標(biāo)點(diǎn):0-2] [W:0_50]"匹配成功,則該分句可以作為答案中的觀點(diǎn)片段。
[0078] 需要說明的是,匹配失敗的分句中不包含觀點(diǎn)片段;匹配成功時(shí),同一個(gè)分句中可 能包含一個(gè)或多個(gè)觀點(diǎn)片段。
[0079] 例如,分句"可能由天氣變化引起,建議你多休息。"中既包含觀點(diǎn)片段"由天氣變 化引起",又包含觀點(diǎn)片段"建議你多休息"。
[0080] 本優(yōu)選的實(shí)施方式,通過將答案進(jìn)行預(yù)處理,得到答案包含的分句,并以分句為單 位進(jìn)行與觀點(diǎn)定位模板匹配的操作,將匹配成分的部分作為觀點(diǎn)片段。由于觀點(diǎn)定位模板 是通過大量統(tǒng)計(jì)分析獲得的,從而能夠提高觀點(diǎn)片段的可信度。
[0081] 請(qǐng)參閱圖2c,作為本操作的另一種優(yōu)選的實(shí)施方式,在上述實(shí)施方式的基礎(chǔ)上,在 操作212之后,還可以包括:
[0082] 213、選取設(shè)定數(shù)量的觀點(diǎn)片段,并根據(jù)選取的所述觀點(diǎn)片段獲取擴(kuò)展觀點(diǎn)定位模 板;
[0083] 本操作具體是通過從抽取出的觀點(diǎn)片段中選取正確的種子,并抽取包含該種子的 句子,分析新的觀點(diǎn)定位模板。確定正確種子的操作可以由人工選擇來完成。
[0084] 例如,通過與原始觀點(diǎn)定位模板"由[.*]導(dǎo)致"匹配操作,確定了多個(gè)觀點(diǎn)片段, 從中選取設(shè)定數(shù)量為1的觀點(diǎn)片段,如,"由消化不良導(dǎo)致",將其中的"消化不良"作為種子, 查找到另外一個(gè)句子"可能是消化不良引起的",則可以分析出擴(kuò)展觀點(diǎn)定位模板"可能是 [· *]引起,'。
[0085] 214、如果在設(shè)定觀點(diǎn)定位模板中沒有匹配到所述擴(kuò)展觀點(diǎn)定位模板,則將所述擴(kuò) 展觀點(diǎn)定位模板存儲(chǔ)到設(shè)定觀點(diǎn)定位模板中。
[0086] 本操作具體是在設(shè)定觀點(diǎn)定位模板中匹配擴(kuò)展觀點(diǎn)定位模板,如果匹配失敗,則 將所述擴(kuò)展觀點(diǎn)定位模板存儲(chǔ)到設(shè)定觀點(diǎn)定位模板中,以修正設(shè)定觀點(diǎn)定位模板。
[0087] 本優(yōu)選的實(shí)施方式,通過從抽取出的觀點(diǎn)片段中獲取擴(kuò)展觀點(diǎn)定位模板,并通過 在原始設(shè)定觀點(diǎn)定位模板中匹配所述擴(kuò)展觀點(diǎn)定位模板,在匹配失敗時(shí),執(zhí)行存儲(chǔ)操作,能 夠修正設(shè)定觀點(diǎn)定位模板,從而在之后的觀點(diǎn)片段操作中,能夠擴(kuò)大召回率。
[0088] 實(shí)施例三
[0089] 請(qǐng)參閱圖3,為本發(fā)明實(shí)施例三提供的一種觀點(diǎn)處理方法的流程圖。本實(shí)施例在實(shí) 施例二的基礎(chǔ)上,提供了基于預(yù)設(shè)觀點(diǎn)驗(yàn)證策略,確定所述觀點(diǎn)片段中的觀點(diǎn)這一操作的 優(yōu)選方案。
[0090] 310、基于預(yù)設(shè)觀點(diǎn)片段定位策略,確定問答對(duì)資源中問題對(duì)應(yīng)的答案中的觀點(diǎn)片 段;
[0091] 本操作同樣適用于實(shí)施例二中操作211和操作212提供的觀點(diǎn)片段定位操作,或 操作操作211、操作212、操作213和操作214提供的觀點(diǎn)片段定位操作,此處不再贅述。
[0092] 320、利用切詞邊界驗(yàn)證技術(shù),從觀點(diǎn)片段中選取切詞邊界符合標(biāo)準(zhǔn)切詞邊界的觀 點(diǎn)片段作為觀點(diǎn);
[0093] 本操作具體是利用切詞邊界驗(yàn)證技術(shù)進(jìn)行觀點(diǎn)驗(yàn)證。
[0094] 本操作中切詞邊界驗(yàn)證技術(shù)中標(biāo)準(zhǔn)切詞邊界的獲得可以有多種實(shí)施方式,例如包 括下述實(shí)施方式中的至少一種:
[0095] 通過保留最高級(jí)別專用詞匯,得到標(biāo)準(zhǔn)切詞邊界,最高級(jí)別專用詞匯例如國家名 稱、地方名稱等,保留原有的形式不做切分,例如"中國"、"河南省"、"百度"等;
[0096] 通過權(quán)切詞得到標(biāo)準(zhǔn)切詞邊界,基于搜索量的權(quán)重劃分確定權(quán)切詞,例如根據(jù)最 近一個(gè)星期或者最近一天有效搜索量的總和,給每個(gè)詞加權(quán),權(quán)重高的優(yōu)先切詞;
[0097] 通過切詞庫查詢的方式得到標(biāo)準(zhǔn)切詞邊界,即第三方設(shè)備建立或更新的切詞庫, 在所述切詞庫中存儲(chǔ)有大量的切詞,基于切詞庫進(jìn)行切詞,得到標(biāo)準(zhǔn)切詞邊界。
[0098] 例如,如果抽取出來的觀點(diǎn)片段為"刷牙方式不當(dāng)引",則該觀點(diǎn)片段不符合標(biāo)準(zhǔn) 切詞邊界"引起";如果抽取出來的觀點(diǎn)片段為"刷牙方式不當(dāng)引起",則該觀點(diǎn)片段符合標(biāo) 準(zhǔn)切詞邊界"引起"。
[0099] 321、對(duì)觀點(diǎn)片段進(jìn)行詞性標(biāo)注,將符合設(shè)定觀點(diǎn)語法結(jié)構(gòu)的觀點(diǎn)片段作為觀點(diǎn);
[0100] 本操作具體是利用詞性以及語法結(jié)構(gòu)進(jìn)行觀點(diǎn)驗(yàn)證。
[0101] 對(duì)抽取的觀點(diǎn)片段進(jìn)行詞性標(biāo)注,之后對(duì)于以助詞或介詞結(jié)束的觀點(diǎn)片段,可以 將助詞、介詞去掉,比如去掉觀點(diǎn)片段"發(fā)燒等"中的"等",基于此可以得到設(shè)定觀點(diǎn)語法結(jié) 構(gòu)。
[0102] 對(duì)于原因類和是什么類的觀點(diǎn)中存在一個(gè)實(shí)詞(例如,名詞、動(dòng)詞或形容詞等), 怎么辦類的觀點(diǎn)中包含動(dòng)賓結(jié)構(gòu),以及賓語補(bǔ)足語,基于此,可以得到設(shè)定觀點(diǎn)語法結(jié)構(gòu)。 例如,對(duì)于"雞肉盡量不要吃",需補(bǔ)出賓語"雞肉",也即得到"盡量不要吃雞肉",作為設(shè)定 觀點(diǎn)語法結(jié)構(gòu)。
[0103] 322、將觀點(diǎn)片段作為查詢式通過搜索引擎進(jìn)行搜索,根據(jù)搜索結(jié)果中的紅標(biāo)字段 修正所述觀點(diǎn)片段的邊界,將修正后的觀點(diǎn)片段作為觀點(diǎn),其中所述紅標(biāo)字段滿足下述條 件:所述紅標(biāo)字段的出現(xiàn)頻次大于第一門限值,且所述紅標(biāo)字段的長度與觀點(diǎn)片段的長度 的比例大于第二門限值。紅標(biāo)字段一般是指在搜索結(jié)果中的關(guān)鍵詞字段。
[0104] 本操作具體是利用搜索結(jié)果中的紅表字段進(jìn)行觀點(diǎn)驗(yàn)證。
[0105] 例如,當(dāng)觀點(diǎn)片段為"刷牙方式不當(dāng)而",將該觀點(diǎn)片段作為查詢式通過百度搜索 引擎進(jìn)行搜索,根據(jù)搜索結(jié)果中的紅標(biāo)字段以及所述條件可以修正所述觀點(diǎn)片段的邊界, 如,修正后得到"刷牙方式不當(dāng)"。
[0106] 需要說明的是,在本實(shí)施例中,操作320、操作321和操作322是相互獨(dú)立的,都是 基于預(yù)設(shè)觀點(diǎn)驗(yàn)證策略,確定所述觀點(diǎn)片段中的觀點(diǎn)這一操作的優(yōu)選實(shí)施方式。換言之,基 于預(yù)設(shè)觀點(diǎn)驗(yàn)證策略,確定所述觀點(diǎn)片段中的觀點(diǎn)這一操作包括操作320、操作321和操作 322中的至少一項(xiàng),當(dāng)執(zhí)行多項(xiàng)操作時(shí),其執(zhí)行順序不限。
[0107] 330、基于預(yù)設(shè)觀點(diǎn)清除策略,從確定的觀點(diǎn)中清除垃圾觀點(diǎn);
[0108] 340、將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,形成問題觀點(diǎn)庫。
[0109] 本實(shí)施例的技術(shù)方案,在確定問答對(duì)資源中問題對(duì)應(yīng)的答案中的觀點(diǎn)片段之后, 通過切詞邊界驗(yàn)證技術(shù)、詞性和語法結(jié)構(gòu)驗(yàn)證技術(shù)、或基于搜索結(jié)果中的紅標(biāo)字段修正技 術(shù),能夠調(diào)整觀點(diǎn)的邊界或語義,提高觀點(diǎn)的準(zhǔn)確度,然后通過進(jìn)一步清除垃圾觀點(diǎn),能夠 從海量的問答對(duì)資源中得到問題對(duì)應(yīng)的簡短觀點(diǎn),提高了觀點(diǎn)的可信度,并通過將問題所 對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,能夠得到問題對(duì)應(yīng)的簡短觀點(diǎn)的集合,從而能夠建立問題觀點(diǎn)庫。
[0110] 實(shí)施例四
[0111] 請(qǐng)參閱圖4,為本發(fā)明實(shí)施例四提供的一種觀點(diǎn)處理方法的流程圖。本實(shí)施例在實(shí) 施例二的基礎(chǔ)上,提供了基于預(yù)設(shè)觀點(diǎn)清除策略,從確定的觀點(diǎn)中清除垃圾觀點(diǎn)這一操作 的優(yōu)選方案。
[0112] 如圖4所示,該優(yōu)選方法包括:
[0113] 410、基于預(yù)設(shè)觀點(diǎn)片段定位策略,確定問答對(duì)資源中問題對(duì)應(yīng)的答案中的觀點(diǎn)片 段;
[0114] 本操作同樣適用于實(shí)施例二中操作211和操作212提供的觀點(diǎn)片段定位操作,或 操作操作211、操作212、操作213和操作214提供的觀點(diǎn)片段定位操作,此處不再贅述。
[0115] 420、基于預(yù)設(shè)觀點(diǎn)驗(yàn)證策略,確定所述觀點(diǎn)片段中的觀點(diǎn);
[0116] 本操作同樣適用于前述實(shí)施例中操作320、操作321和操作322中的任一操作提供 的觀點(diǎn)驗(yàn)證操作,此處不再贅述。
[0117] 430、將所述觀點(diǎn)與對(duì)應(yīng)的問題中的關(guān)鍵字段組成查詢式通過搜索引擎進(jìn)行搜索, 在搜索結(jié)果中的紅標(biāo)字段中確定所述查詢式的共現(xiàn)頻次,并過濾掉共現(xiàn)頻次低于第三門限 值的查詢式中的觀點(diǎn);
[0118] 本操作具體是利用搜索結(jié)果的共現(xiàn)頻次判斷垃圾觀點(diǎn),并進(jìn)行過濾,以清除觀點(diǎn)。
[0119] 示例性地,將觀點(diǎn)"著涼"與對(duì)應(yīng)的問題"小孩肚子疼怎么回事"中的關(guān)鍵字段"小 孩肚子疼"組成查詢式"著涼小孩肚子疼",然后通過百度搜索引擎進(jìn)行搜索,在搜索結(jié)果中 的紅標(biāo)字段中確定所述查詢式的共現(xiàn)頻次,共現(xiàn)即"著涼"與"小孩肚子疼"同時(shí)出現(xiàn),如果 共現(xiàn)頻次低于第三門限值,例如10%,則過濾掉該觀點(diǎn)"著涼";如果共現(xiàn)頻次高于第三門限 值,則保留該觀點(diǎn)"著涼",也即將觀點(diǎn)"著涼"作為問題"小孩肚子疼怎么回事"對(duì)應(yīng)的觀點(diǎn) 中的其中一個(gè)觀點(diǎn)。
[0120] 431、確定所述觀點(diǎn)在問答對(duì)資源中的逆文檔頻率(inverse document frequency, IDF),過濾掉所述IDF高于第四門限值的觀點(diǎn)。
[0121] 本操作具體是利用觀點(diǎn)的IDF判斷垃圾觀點(diǎn),并進(jìn)行過濾,以清除觀點(diǎn)。
[0122] 換言之,觀點(diǎn)的IDF越高,則對(duì)應(yīng)的出現(xiàn)頻次越低,即成為垃圾觀點(diǎn)的可能性越 高;反之,觀點(diǎn)的IDF越低,則對(duì)應(yīng)的出現(xiàn)頻次越高,即成為垃圾觀點(diǎn)的可能性越小,即該觀 點(diǎn)的可信度越高。
[0123] 需要說明的是,在本實(shí)施例中,操作430和操作431是相互獨(dú)立的,都是基于預(yù)設(shè) 觀點(diǎn)清除策略,從確定的觀點(diǎn)中清除垃圾觀點(diǎn)這一操作的優(yōu)選實(shí)施方式。換言之,基于預(yù)設(shè) 觀點(diǎn)清除策略,從確定的觀點(diǎn)中清除垃圾觀點(diǎn)這一操作包括操作430和操作431中的至少 一項(xiàng)。
[0124] 440、將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,形成問題觀點(diǎn)庫。
[0125] 本實(shí)施例的技術(shù)方案,通過觀點(diǎn)片段定位,能夠準(zhǔn)確定位到答案中包含觀點(diǎn)的部 分,并通過觀點(diǎn)驗(yàn)證得到通過驗(yàn)證的觀點(diǎn),能夠調(diào)整觀點(diǎn)的語義,提高觀點(diǎn)的準(zhǔn)確度,然后 利用搜索結(jié)果的共現(xiàn)頻次或觀點(diǎn)的IDF,進(jìn)一步清除垃圾觀點(diǎn),能夠從海量的問答對(duì)資源中 得到問題對(duì)應(yīng)的簡短觀點(diǎn),提高了觀點(diǎn)的可信度,并通過將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,能 夠得到問題對(duì)應(yīng)的簡短觀點(diǎn)的集合,從而能夠建立問題觀點(diǎn)庫。
[0126] 實(shí)施例五
[0127] 請(qǐng)參閱圖5a,為本發(fā)明實(shí)施例五提供的一種觀點(diǎn)處理方法的流程圖。本實(shí)施例在 上述各實(shí)施例的基礎(chǔ)上提供了將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,形成問題觀點(diǎn)庫這一操作的 優(yōu)選方案。
[0128] 如圖5a所示,所述優(yōu)選方法包括:
[0129] 510、基于預(yù)設(shè)觀點(diǎn)聚合策略,根據(jù)觀點(diǎn)相似度進(jìn)行觀點(diǎn)聚合,得到觀點(diǎn)簇;
[0130] 本操作具體是對(duì)獲取的觀點(diǎn)中的表意相同、但說法不完全一致的觀點(diǎn)進(jìn)行合并, 以得到觀點(diǎn)簇。換言之,每個(gè)觀點(diǎn)簇為表意相同、但說法不完全一致的觀點(diǎn)的集合。
[0131] 示例性地,根據(jù)觀點(diǎn)"建議你不要亂用藥"、觀點(diǎn)"不可以自行用藥"以及觀點(diǎn)"不宜 亂服用藥"的相似度,通過聚合可以得到一個(gè)觀點(diǎn)簇。
[0132] 520、基于預(yù)設(shè)觀點(diǎn)歸一化策略,從觀點(diǎn)簇中確定一個(gè)歸一化觀點(diǎn),得到問題對(duì)應(yīng) 的歸一化觀點(diǎn)集合;
[0133] 本操作具體是在一個(gè)問題對(duì)應(yīng)的每一個(gè)觀點(diǎn)簇中分別確定一個(gè)代表性的觀點(diǎn),所 述代表性的觀點(diǎn)即為歸一化觀點(diǎn),從而得到問題對(duì)應(yīng)的所有代表性觀點(diǎn)的集合。
[0134] 本操作中基于預(yù)設(shè)觀點(diǎn)歸一化策略,從觀點(diǎn)簇中確定一個(gè)歸一化觀點(diǎn)的操作可以 有多種實(shí)施方式,例如包括下述實(shí)施方式中的至少一種:
[0135] 方式A、根據(jù)觀點(diǎn)中信息的覆蓋率確定歸一化觀點(diǎn);
[0136] 換言之,將觀點(diǎn)信息覆蓋最全的觀點(diǎn)作為觀點(diǎn)簇的代表性觀點(diǎn)。例如:某個(gè)觀點(diǎn)簇 中包括3個(gè)觀點(diǎn),分別為"不要吃涼性、辛辣食物"、"不要吃涼性食物"以及"不要吃辛辣食 物"。其中包括的信息為"不要吃涼"、"不要吃辛辣食物",那么,根據(jù)信息覆蓋率,將觀點(diǎn)"不 要吃涼性、辛辣食物"作為該觀點(diǎn)簇的歸一化觀點(diǎn)。
[0137] 方式B、計(jì)算觀點(diǎn)簇包含的觀點(diǎn)的IDF*log(IDF),選取結(jié)果值最小的觀點(diǎn)作為所 述歸一化觀點(diǎn);
[0138] 換言之,通過觀點(diǎn)的IDF*log(IDF)值可以得到觀點(diǎn)表述的簡明程度,將表述最簡 明的觀點(diǎn)作為歸一化觀點(diǎn)。例如:某個(gè)觀點(diǎn)簇中包括2個(gè)觀點(diǎn),分別為"不要吃涼性、辛辣 食物"和"切忌不要吃涼性、辛辣的食物",選取IDF*log(IDF)結(jié)果值最小的觀點(diǎn)"不要吃涼 性、辛辣食物"作為該觀點(diǎn)簇的歸一化觀點(diǎn)。
[0139] 方式C、計(jì)算觀點(diǎn)簇包含的觀點(diǎn)的出現(xiàn)頻次,并根據(jù)所述出現(xiàn)頻次確定觀點(diǎn)的權(quán)重 值,將權(quán)重值最高的觀點(diǎn)作為所述歸一化觀點(diǎn);
[0140] 方式D、將符合預(yù)設(shè)句型的觀點(diǎn)中的一個(gè)作為所述歸一化觀點(diǎn)。
[0141] 530、根據(jù)所述問題的歸一化觀點(diǎn)集合中的歸一化觀點(diǎn),形成問題觀點(diǎn)庫。
[0142] 本實(shí)施例的技術(shù)方案,在從問答對(duì)資源中獲取問題對(duì)應(yīng)的觀點(diǎn),也即從海量的問 答對(duì)資源中得到問題對(duì)應(yīng)的簡短觀點(diǎn)之后,通過觀點(diǎn)相似度將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚 合,得到問題對(duì)應(yīng)的多個(gè)觀點(diǎn)簇,并通過從每個(gè)觀點(diǎn)簇中分別確定一個(gè)歸一化觀點(diǎn),能夠得 到問題對(duì)應(yīng)的所有歸一化觀點(diǎn)的集合,從而能夠建立問題觀點(diǎn)庫。
[0143] 請(qǐng)參閱圖5b,作為基于預(yù)設(shè)觀點(diǎn)聚合策略,根據(jù)觀點(diǎn)相似度進(jìn)行觀點(diǎn)聚合,得到觀 點(diǎn)簇的一種優(yōu)選的實(shí)施方式,具體包括:
[0144] 511、將觀點(diǎn)按基本詞粒度和/或混排粒度轉(zhuǎn)化為詞向量,確定觀點(diǎn)包含的詞向量 對(duì)應(yīng)的IDF ;
[0145] 本操作具體是將觀點(diǎn)轉(zhuǎn)換為詞向量,并確定詞向量的IDF。
[0146] 其中,將觀點(diǎn)按基本詞粒度轉(zhuǎn)化為詞向量,是將觀點(diǎn)拆分為基本詞。例如將觀點(diǎn) "建議你不要亂用藥"按基本詞粒度轉(zhuǎn)化,可以得到5個(gè)詞向量,分別為"建議"、"你"、"不 要"、"亂"以及"用藥"。
[0147] 將觀點(diǎn)按基本詞粒度和混排粒度轉(zhuǎn)化為詞向量,是基于基本詞向量、以及基本詞 向量與相鄰詞向量的關(guān)聯(lián)關(guān)系將觀點(diǎn)進(jìn)行拆分。例如將觀點(diǎn)"建議你不要亂用藥"按基本詞 粒度和混排粒度轉(zhuǎn)化,可以得到4個(gè)詞向量,分別為"建議"、"你"、"不要"、以及"亂用藥"。
[0148] 需要說明的是,基本詞粒度和/或混排粒度是預(yù)先設(shè)定的,例如可以通過查詢基 本詞詞庫和/或混排庫確定相應(yīng)的粒度。
[0149] 觀點(diǎn)包含的詞向量對(duì)應(yīng)的IDF為詞向量在問題對(duì)應(yīng)的答案文檔中的出現(xiàn)頻次的 倒數(shù)。
[0150] 512、將相鄰詞為否定詞的詞向量的IDF提高;
[0151] 本操作具體是根據(jù)轉(zhuǎn)化后的詞向量的相鄰詞的詞性,對(duì)詞向量的IDF進(jìn)行調(diào)整。
[0152] 例如,觀點(diǎn)"建議你不要亂用藥"包含的"建議"、"你"、"不要"、以及"亂用藥" 4個(gè) 詞向量中,詞向量"亂用藥"相鄰的詞向量"不要"為否定詞,則提高詞向量"亂用藥"的IDF。
[0153] 513、將所述IDF高于第五門限值的詞向量作為核心詞向量;
[0154] 本操作具體是根據(jù)詞向量的IDF值確定核心詞向量。優(yōu)選地,將所述IDF最高的 詞向量作為核心詞向量,也即一個(gè)觀點(diǎn)中的核心詞向量的數(shù)量為1。
[0155] 核心詞向量代表該詞向量所屬的觀點(diǎn)的核心語義。
[0156] 以觀點(diǎn)"建議你不要亂用藥"為例,由于觀點(diǎn)包含的詞向量對(duì)應(yīng)的IDF為詞向量在 問題對(duì)應(yīng)的答案文檔中的出現(xiàn)頻次的倒數(shù),在所述答案文檔中,詞向量"建議"、"你"和"不 要"的出現(xiàn)頻次都比較高,對(duì)應(yīng)的IDF較低;而詞向量"亂用藥"的出現(xiàn)頻次較低,對(duì)應(yīng)的IDF 較高,而且通過操作512之后,進(jìn)一步提高了詞向量"亂用藥"的IDF,因此在該觀點(diǎn)包含的 4個(gè)詞向量中,詞向量"亂用藥"的IDF最高,因此將詞向量"亂用藥"確定為觀點(diǎn)"建議你不 要亂用藥"的核心詞向量。
[0157] 類似地,可以得到觀點(diǎn)"不可以自行用藥"中的核心詞向量為"自行用藥";觀點(diǎn)"不 宜亂服用藥"中的核心詞向量為"亂服用藥";觀點(diǎn)"建議多休息"中的核心詞向量為"多休 息";觀點(diǎn)"保證充足休息"中的核心詞向量為"休息"。
[0158] 514、計(jì)算核心詞向量中每兩個(gè)核心詞向量的cos夾角,并將cos夾角小于第六門 限值的核心詞向量所屬的觀點(diǎn)聚合到一個(gè)觀點(diǎn)簇中。
[0159] 本操作具體是確定同一個(gè)問題對(duì)應(yīng)的一個(gè)觀點(diǎn)中的核心詞向量與該問題對(duì)應(yīng)的 另一個(gè)觀點(diǎn)中的核心詞向量的相似度,將相似度滿足預(yù)設(shè)條件的核心詞向量所屬的觀點(diǎn)進(jìn) 行聚合,從而得到一個(gè)問題對(duì)應(yīng)的多個(gè)觀點(diǎn)簇。
[0160] 本操作采用cos夾角來衡量一個(gè)問題對(duì)應(yīng)的多個(gè)觀點(diǎn)中的任意兩個(gè)核心詞向量 的距離,cos夾角越小,代表兩個(gè)核心詞向量的距離越近,即相似度越高,基于一個(gè)問題包 含的觀點(diǎn)中任意兩個(gè)核心詞向量的cos夾角,從而可以得到該問題包含的觀點(diǎn)之間的相似 度。
[0161] 仍以上述操作中的實(shí)例進(jìn)行說明。例如,經(jīng)統(tǒng)計(jì)問題"頭暈怎么辦"對(duì)應(yīng)的觀點(diǎn)有 5個(gè),分別為"建議你不要亂用藥"、"不可以自行用藥"、"不宜亂服用藥"、"建議多休息"以及 "保證充足休息",對(duì)應(yīng)的核心詞向量分別為"亂用藥"、"自行用藥"、"亂服用藥"、"多休息"以 及"休息"。通過本操作,得到核心詞向量"亂用藥"、"自行用藥"和"亂用藥"中的任意兩個(gè) 的cos夾角符合設(shè)定條件,因此可以將觀點(diǎn)"建議你不要亂用藥"、"不可以自行用藥"和"不 宜亂服用藥"聚合,得到第一觀點(diǎn)簇。類似地,可以將觀點(diǎn)"建議多休息"以及"保證充足休 息"聚合,得到第二觀點(diǎn)簇。
[0162] 本優(yōu)選的實(shí)施方式,通過將觀點(diǎn)轉(zhuǎn)化為詞向量,并根據(jù)詞向量的IDF得到觀點(diǎn)中 核心詞向量,然后通過同一個(gè)問題對(duì)應(yīng)的一個(gè)觀點(diǎn)中的核心詞向量與該問題對(duì)應(yīng)的另一個(gè) 觀點(diǎn)中的核心詞向量的cos夾角,得到一個(gè)問題對(duì)應(yīng)的觀點(diǎn)中的任意兩個(gè)觀點(diǎn)之間的相似 度,將相似度滿足預(yù)設(shè)條件的核心詞向量所屬的觀點(diǎn)進(jìn)行聚合,從而能夠得到一個(gè)問題對(duì) 應(yīng)的多個(gè)觀點(diǎn)簇。
[0163] 作為基于預(yù)設(shè)觀點(diǎn)聚合策略,根據(jù)觀點(diǎn)相似度進(jìn)行觀點(diǎn)聚合,得到觀點(diǎn)簇的另一 種優(yōu)選的實(shí)施方式,具體包括:
[0164] 計(jì)算與問題對(duì)應(yīng)的觀點(diǎn)中兩個(gè)觀點(diǎn)的語義相似度,并將語義相似度大于第七門限 值的觀點(diǎn)聚合到一個(gè)觀點(diǎn)簇中。
[0165] 與上述實(shí)施方式的區(qū)別在于,本實(shí)施例方式通過語義相似度確定觀點(diǎn)相似度,然 后將符合相似度條件的觀點(diǎn)進(jìn)行聚合,而上述實(shí)施方式基于觀點(diǎn)中核心詞向量的cos夾角 確定觀點(diǎn)相似度,然后將符合相似度條件的核心詞向量所屬的觀點(diǎn)進(jìn)行聚合。
[0166] 實(shí)施例六
[0167] 請(qǐng)參閱圖6,為本發(fā)明實(shí)施例六提供的一種觀點(diǎn)處理方法的流程圖。該方法包括:
[0168] 610、基于預(yù)設(shè)策略,從問答對(duì)資源中獲取問題對(duì)應(yīng)的觀點(diǎn);
[0169] 本操作同樣適用于實(shí)施例二中操作210、操作220和操作230提供的觀點(diǎn)獲取操 作,此處不再贅述。
[0170] 620、根據(jù)觀點(diǎn)排序策略,將優(yōu)先的預(yù)設(shè)數(shù)量的觀點(diǎn)確定為問題對(duì)應(yīng)的觀點(diǎn);
[0171] 其中,所述觀點(diǎn)排序策略至少包括下述一項(xiàng):
[0172] 基于觀點(diǎn)定位模板對(duì)應(yīng)的置信度,得到觀點(diǎn)的置信度,并按觀點(diǎn)的置信度進(jìn)行排 序;
[0173] 基于設(shè)定觀點(diǎn)語法結(jié)構(gòu)對(duì)應(yīng)的置信度,得到觀點(diǎn)的置信度,并按觀點(diǎn)的置信度進(jìn) 行排序;
[0174] 確定答案中問題對(duì)應(yīng)的查詢式中核心詞與觀點(diǎn)之間的字節(jié)距離,將觀點(diǎn)按所述字 節(jié)距離進(jìn)行排序;
[0175] 根據(jù)答案中問題對(duì)應(yīng)的查詢式中核心詞與觀點(diǎn)的匹配度或相似度進(jìn)行排序;
[0176] 根據(jù)觀點(diǎn)在答案中的出現(xiàn)頻次進(jìn)行排序。
[0177] 需要說明的是,本領(lǐng)域的技術(shù)人員可以通過設(shè)定的核心詞確定策略,得到查詢式 中的核心詞,例如將查詢式按基本詞粒度轉(zhuǎn)化為詞向量,并計(jì)算查詢式包含的詞向量的 IDF,基于所述IDF,確定查詢式中的核心詞。
[0178] 630、將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,形成問題觀點(diǎn)庫。
[0179] 本操作同樣適用于前述實(shí)施例中操作510、操作520和操作530提供的觀點(diǎn)聚合操 作,此處不再贅述。
[0180] 本實(shí)施例的技術(shù)方案,通過從問答對(duì)資源中獲取問題對(duì)應(yīng)的觀點(diǎn),能夠從海量的 問答對(duì)資源中得到問題對(duì)應(yīng)的簡短觀點(diǎn),并通過觀點(diǎn)排序,能夠得到問題對(duì)應(yīng)的觀點(diǎn)的用 戶支持率,進(jìn)一步提高了觀點(diǎn)的可信度和觀點(diǎn)質(zhì)量,然后通過將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚 合,能夠得到問題對(duì)應(yīng)的簡短觀點(diǎn)的集合,從而能夠建立問題觀點(diǎn)庫。
[0181] 實(shí)施例七
[0182] 請(qǐng)參閱圖7,為本發(fā)明實(shí)施例七提供的一種觀點(diǎn)處理裝置的結(jié)構(gòu)示意圖。該裝置包 括:觀點(diǎn)獲取模塊710、問題觀點(diǎn)庫形成模塊720。
[0183] 其中,觀點(diǎn)獲取模塊710用于基于預(yù)設(shè)策略,從問答對(duì)資源中獲取問題對(duì)應(yīng)的觀 點(diǎn);問題觀點(diǎn)庫形成模塊720用于將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,形成問題觀點(diǎn)庫。
[0184] 本實(shí)施例的技術(shù)方案,通過從問答對(duì)資源中獲取問題對(duì)應(yīng)的觀點(diǎn),能夠從海量的 問答對(duì)資源中得到問題對(duì)應(yīng)的簡短觀點(diǎn),并通過將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,能夠得到 問題對(duì)應(yīng)的簡短觀點(diǎn)的集合,從而能夠建立問題觀點(diǎn)庫。
[0185] 在上述方案中,觀點(diǎn)獲取模塊710優(yōu)選包括:觀點(diǎn)片段確定單元、觀點(diǎn)確定單元和 垃圾觀點(diǎn)清除單元。
[0186] 其中,觀點(diǎn)片段確定單元用于基于預(yù)設(shè)觀點(diǎn)片段定位策略,確定問答對(duì)資源中問 題對(duì)應(yīng)的答案中的觀點(diǎn)片段;觀點(diǎn)確定單元用于基于預(yù)設(shè)觀點(diǎn)驗(yàn)證策略,確定所述觀點(diǎn)片 段中的觀點(diǎn);垃圾觀點(diǎn)清除單元用于基于預(yù)設(shè)觀點(diǎn)清除策略,從確定的觀點(diǎn)中清除垃圾觀 點(diǎn)。
[0187] 在上述方案中,觀點(diǎn)片段確定單元優(yōu)選包括:分句確定子單元和分句匹配子單元。
[0188] 其中,分句確定子單元用于對(duì)問答對(duì)資源中的答案進(jìn)行預(yù)處理,確定答案所包含 的分句;分句匹配子單元用于將所述分句與觀點(diǎn)定位模板進(jìn)行匹配,將與觀點(diǎn)定位模板匹 配的部分作為答案中的觀點(diǎn)片段。
[0189] 進(jìn)一步地,觀點(diǎn)片段確定單元還可以包括:擴(kuò)展觀點(diǎn)定位模板獲取子單元和擴(kuò)展 觀點(diǎn)定位模板存儲(chǔ)子單元。
[0190] 其中,擴(kuò)展觀點(diǎn)定位模板獲取子單元用于在將所述分句與觀點(diǎn)定位模板進(jìn)行匹 配,將與觀點(diǎn)定位模板匹配的部分作為答案中的觀點(diǎn)片段之后,選取設(shè)定數(shù)量的觀點(diǎn)片段, 并根據(jù)選取的所述觀點(diǎn)片段獲取擴(kuò)展觀點(diǎn)定位模板;擴(kuò)展觀點(diǎn)定位模板存儲(chǔ)子單元用于如 果在設(shè)定觀點(diǎn)定位模板中沒有匹配到所述擴(kuò)展觀點(diǎn)定位模板,則將所述擴(kuò)展觀點(diǎn)定位模板 存儲(chǔ)到設(shè)定觀點(diǎn)定位模板中。
[0191] 在上述方案中,觀點(diǎn)確定單元優(yōu)選包括下述至少一項(xiàng):第一觀點(diǎn)確定子單元、第二 觀點(diǎn)確定子單元和第三觀點(diǎn)確定子單元。
[0192] 其中,第一觀點(diǎn)確定子單元用于利用切詞邊界驗(yàn)證技術(shù),從觀點(diǎn)片段中選取切詞 邊界符合標(biāo)準(zhǔn)切詞邊界的觀點(diǎn)片段作為觀點(diǎn);第二觀點(diǎn)確定子單元用于對(duì)觀點(diǎn)片段進(jìn)行詞 性標(biāo)注,將符合設(shè)定觀點(diǎn)語法結(jié)構(gòu)的觀點(diǎn)片段作為觀點(diǎn);第三觀點(diǎn)確定子單元用于將觀點(diǎn) 片段作為查詢式通過搜索引擎進(jìn)行搜索,根據(jù)搜索結(jié)果中的紅標(biāo)字段修正所述觀點(diǎn)片段的 邊界,將修正后的觀點(diǎn)片段作為觀點(diǎn),其中所述紅標(biāo)字段滿足下述條件:所述紅標(biāo)字段的 出現(xiàn)頻次大于第一門限值,且所述紅標(biāo)字段的長度與觀點(diǎn)片段的長度的比例大于第二門限 值。
[0193] 在上述方案中,垃圾觀點(diǎn)清除單元優(yōu)選包括下述至少一項(xiàng):第一垃圾觀點(diǎn)清除子 單元和第二垃圾觀點(diǎn)清除子單元。
[0194] 其中,第一垃圾觀點(diǎn)清除子單元用于將所述觀點(diǎn)與對(duì)應(yīng)的問題中的關(guān)鍵字段組成 查詢式通過搜索引擎進(jìn)行搜索,在搜索結(jié)果中的紅標(biāo)字段中確定所述查詢式的共現(xiàn)頻次, 并過濾掉共現(xiàn)頻次低于第三門限值的查詢式中的觀點(diǎn);第二垃圾觀點(diǎn)清除子單元用于確定 所述觀點(diǎn)在問答對(duì)資源中的逆文檔頻率IDF,過濾掉所述IDF高于第四門限值的觀點(diǎn)。
[0195] 在上述方案中,問題觀點(diǎn)庫形成模塊720優(yōu)選包括:觀點(diǎn)簇獲取單元、歸一化單元 和問題觀點(diǎn)庫形成單元。
[0196] 其中,觀點(diǎn)簇獲取單元用于基于預(yù)設(shè)觀點(diǎn)聚合策略,根據(jù)觀點(diǎn)相似度進(jìn)行觀點(diǎn)聚 合,得到觀點(diǎn)簇;歸一化單元用于基于預(yù)設(shè)觀點(diǎn)歸一化策略,從觀點(diǎn)簇中確定一個(gè)歸一化觀 點(diǎn),得到問題對(duì)應(yīng)的歸一化觀點(diǎn)集合;問題觀點(diǎn)庫形成單元用于根據(jù)所述問題的歸一化觀 點(diǎn)集合中的歸一化觀點(diǎn),形成問題觀點(diǎn)庫。
[0197] 作為觀點(diǎn)簇獲取單元的一種優(yōu)選實(shí)施方式,該單元優(yōu)選包括:詞向量IDF確定子 單元、詞向量IDF處理子單元、核心詞向量確定子單元和第一計(jì)算子單元。
[0198] 其中,詞向量IDF確定子單元用于將觀點(diǎn)按基本詞粒度和/或混排粒度轉(zhuǎn)化為詞 向量,確定觀點(diǎn)包含的詞向量對(duì)應(yīng)的IDF ;詞向量IDF處理子單元用于將相鄰詞為否定詞的 詞向量的IDF提高;核心詞向量確定子單元用于將所述IDF高于第五門限值的詞向量作為 核心詞向量;第一計(jì)算子單元用于計(jì)算核心詞向量中每兩個(gè)核心詞向量的cos夾角,并將 cos夾角小于第六門限值的核心詞向量所屬的觀點(diǎn)聚合到一個(gè)觀點(diǎn)簇中。
[0199] 作為觀點(diǎn)簇獲取單元的另一優(yōu)選實(shí)施方式,該單元包括:第二計(jì)算子單元,用于計(jì) 算與問題對(duì)應(yīng)的觀點(diǎn)中兩個(gè)觀點(diǎn)的語義相似度,并將語義相似度大于第七門限值的觀點(diǎn)聚 合到一個(gè)觀點(diǎn)簇中。
[0200] 在上述方案中,歸一化單元優(yōu)選包括下述至少一項(xiàng):第一歸一化子單元、第二歸一 化子單元、第二歸一化子單元和第四歸一化子單元。
[0201] 其中,第一歸一化子單元用于根據(jù)觀點(diǎn)中信息的覆蓋率確定歸一化觀點(diǎn);第二歸 一化子單元用于計(jì)算觀點(diǎn)簇包含的觀點(diǎn)的IDF*log(IDF),選取結(jié)果值最小的觀點(diǎn)作為所述 歸一化觀點(diǎn);第二歸一化子單元用于計(jì)算觀點(diǎn)簇包含的觀點(diǎn)的出現(xiàn)頻次,并根據(jù)所述出現(xiàn) 頻次確定觀點(diǎn)的權(quán)重值,將權(quán)重值最高的觀點(diǎn)作為所述歸一化觀點(diǎn);第四歸一化子單元用 于將符合預(yù)設(shè)句型的觀點(diǎn)中的一個(gè)作為所述歸一化觀點(diǎn)。
[0202] 作為本實(shí)施例的再一種優(yōu)選的實(shí)施方式,該裝置還包括:觀點(diǎn)排序模塊,用于在基 于預(yù)設(shè)策略,從問答對(duì)資源中獲取問題對(duì)應(yīng)的觀點(diǎn)之后,根據(jù)觀點(diǎn)排序策略,將優(yōu)先的預(yù)設(shè) 數(shù)量的觀點(diǎn)確定為問題對(duì)應(yīng)的觀點(diǎn);
[0203] 其中,所述觀點(diǎn)排序策略至少包括下述一項(xiàng):
[0204] 基于觀點(diǎn)定位模板對(duì)應(yīng)的置信度,得到觀點(diǎn)的置信度,并按觀點(diǎn)的置信度進(jìn)行排 序;
[0205] 基于設(shè)定觀點(diǎn)語法結(jié)構(gòu)對(duì)應(yīng)的置信度,得到觀點(diǎn)的置信度,并按觀點(diǎn)的置信度進(jìn) 行排序;
[0206] 確定答案中問題對(duì)應(yīng)的查詢式中核心詞與觀點(diǎn)之間的字節(jié)距離,將觀點(diǎn)按所述字 節(jié)距離進(jìn)行排序;
[0207] 根據(jù)答案中問題對(duì)應(yīng)的查詢式中核心詞與觀點(diǎn)的匹配度或相似度進(jìn)行排序;
[0208] 根據(jù)觀點(diǎn)在答案中的出現(xiàn)頻次進(jìn)行排序。
[0209] 本發(fā)明實(shí)施例提供的觀點(diǎn)處理裝置可執(zhí)行本發(fā)明任意實(shí)施例所提供的觀點(diǎn)處理 方法,具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。
[0210] 實(shí)施例八
[0211] 請(qǐng)參閱圖8a,為本發(fā)明實(shí)施例八提供的一種搜索方法的流程圖。本發(fā)明實(shí)施例的 方法可以由硬件和/或軟件實(shí)現(xiàn)的搜索裝置來執(zhí)行,該實(shí)現(xiàn)裝置典型的是配置于能夠提供 搜索服務(wù)的服務(wù)器中,例如配置在搜索引擎中。
[0212] 如圖8a所示,該方法包括:
[0213] 810、獲取用戶通過搜索框輸入的檢索式;
[0214] 820、在問題觀點(diǎn)庫中查找與所述檢索式對(duì)應(yīng)的觀點(diǎn),其中,所述問題觀點(diǎn)庫采用 本發(fā)明任意實(shí)施例提供的觀點(diǎn)處理方法形成;
[0215] 830、顯示所述觀點(diǎn)。
[0216] 本操作中顯示所述觀點(diǎn)可以有多種實(shí)施方式,例如包括下述實(shí)施方式中的至少一 種:
[0217] 方式一、將預(yù)設(shè)數(shù)量的觀點(diǎn)組成觀點(diǎn)列表,進(jìn)行顯示;
[0218] 下面結(jié)合圖8b進(jìn)行說明。用戶通過百度知道的搜索框輸入的問題檢索式為"鼻 炎的癥狀",采用觀點(diǎn)列表的形式進(jìn)行顯示,觀點(diǎn)列表中包括5個(gè)觀點(diǎn),分別為"鼻塞"、"流鼻 涕"、"打噴嚏"、"呼吸不暢"和"鼻癢",5個(gè)觀點(diǎn)根據(jù)提到次數(shù)從高到底進(jìn)行顯示。
[0219] 需要說明的是,采用觀點(diǎn)列表的形式直觀地展現(xiàn)出了與用戶輸入的問題檢索式密 切相關(guān)的多個(gè)觀點(diǎn)結(jié)果。
[0220] 方式二、將觀點(diǎn)以及觀點(diǎn)對(duì)應(yīng)的答案組成觀點(diǎn)列表,進(jìn)行顯示;
[0221] 下面結(jié)合圖8c進(jìn)行說明。用戶通過百度網(wǎng)頁的搜索框輸入的問題檢索式為"剛剛 懷孕吃吃母乳后吃奶粉拉肚子",觀點(diǎn)顯示頁面不僅顯示觀點(diǎn)"母乳性腹瀉"并且還顯示該 觀點(diǎn)對(duì)應(yīng)的權(quán)威答案,此外,還顯示觀點(diǎn)"消化不良"以及對(duì)應(yīng)的權(quán)威答案。
[0222] 需要說明的是,該觀點(diǎn)顯示頁面顯示的權(quán)威答案為觀點(diǎn)所屬的答案內(nèi)容的部分摘 要,當(dāng)用戶點(diǎn)擊該觀點(diǎn)顯示頁面的"查看詳情"時(shí),執(zhí)行頁面跳轉(zhuǎn)操作,從而用戶可以查看完 整的答案內(nèi)容。
[0223] 方式三、將觀點(diǎn)進(jìn)行標(biāo)簽式顯示,如果獲取到觀點(diǎn)標(biāo)簽的選擇操作,則顯示與觀點(diǎn) 對(duì)應(yīng)的答案。
[0224] 下面結(jié)合圖8d進(jìn)行說明。用戶通過百度知道的搜索框輸入的問題檢索式為"鼻炎 的癥狀",采用觀點(diǎn)標(biāo)簽的形式進(jìn)行顯示,包括8個(gè)觀點(diǎn)標(biāo)簽,分別為"全部(77608) "、"鼻塞 (329)"、"咳嗽(2018)"、"打噴嚏(2886)"、"頭疼(2389)"、"眼花(736)"、"鼻癢(193)"和 "嗓子干(1635) "。
[0225] 其中,觀點(diǎn)標(biāo)簽"全部(77608) "為觀點(diǎn)統(tǒng)計(jì)標(biāo)簽,不提供觀點(diǎn),而是提供觀點(diǎn)統(tǒng)計(jì) 數(shù)量。除觀點(diǎn)標(biāo)簽"全部(77608)"之外的其他7個(gè)觀點(diǎn)標(biāo)簽,一方面提供觀點(diǎn),另一方面提 供觀點(diǎn)的權(quán)重,例如被提到次數(shù)。需要說明的是,所述7個(gè)觀點(diǎn)標(biāo)簽僅為全部觀點(diǎn)中的權(quán)重 較高的觀點(diǎn),全部觀點(diǎn)中還可以包括"流鼻涕"或"呼吸不暢"以及其他觀點(diǎn),而這些權(quán)重值 較低的觀點(diǎn)在該觀點(diǎn)顯示頁面中未顯示。
[0226] 還需要說明的是,如果獲取到觀點(diǎn)標(biāo)簽的選擇操作,則顯示與觀點(diǎn)對(duì)應(yīng)的答案。圖 8d為獲取到觀點(diǎn)標(biāo)簽"全部(77608) "的選擇操作時(shí)的顯示結(jié)果。
[0227] 本實(shí)施例的技術(shù)方案,通過在獲取用戶通過搜索框輸入的檢索式之后,在利用本 發(fā)明任意實(shí)施例提供的觀點(diǎn)處理方法預(yù)先形成的問題觀點(diǎn)庫中,匹配用戶輸入的檢索式, 能夠得到并直接呈現(xiàn)與用戶輸入的檢索式對(duì)應(yīng)的觀點(diǎn),從而使用戶能夠直接獲知與檢索問 題相關(guān)的觀點(diǎn),提高了搜索效率。
[0228] 實(shí)施例九
[0229] 請(qǐng)參閱圖9,為本發(fā)明實(shí)施例九提供的一種搜索裝置的結(jié)構(gòu)示意圖,該裝置包括: 檢索式獲取模塊910、觀點(diǎn)查找模塊920和觀點(diǎn)顯示模塊930。
[0230] 其中,檢索式獲取模塊910用于獲取用戶通過搜索框輸入的檢索式;觀點(diǎn)查找模 塊920用于在問題觀點(diǎn)庫中查找與所述檢索式對(duì)應(yīng)的觀點(diǎn),其中,所述問題觀點(diǎn)庫采用本 發(fā)明任意實(shí)施例提供的觀點(diǎn)處理裝置形成;觀點(diǎn)顯示模塊930用于顯示所述觀點(diǎn)。
[0231] 本實(shí)施例的技術(shù)方案,通過在獲取用戶通過搜索框輸入的檢索式之后,在利用本 發(fā)明任意實(shí)施例提供的觀點(diǎn)處理方法預(yù)先形成的問題觀點(diǎn)庫中,匹配用戶輸入的檢索式, 能夠得到并直接呈現(xiàn)與用戶輸入的檢索式對(duì)應(yīng)的觀點(diǎn),從而使用戶能夠直接獲知與檢索問 題相關(guān)的觀點(diǎn),提高了搜索效率。
[0232] 在上述方案中,觀點(diǎn)顯示模塊930優(yōu)選包括下述至少一項(xiàng):第一顯示單元、第二顯 示單元和第三顯示單元。
[0233] 其中,第一顯示單元用于將預(yù)設(shè)數(shù)量的觀點(diǎn)組成觀點(diǎn)列表,進(jìn)行顯示;第二顯示單 元用于將觀點(diǎn)以及觀點(diǎn)對(duì)應(yīng)的答案組成觀點(diǎn)列表,進(jìn)行顯示;第三顯示單元用于將觀點(diǎn)進(jìn) 行標(biāo)簽式顯示,如果獲取到觀點(diǎn)標(biāo)簽的選擇操作,則顯示與觀點(diǎn)對(duì)應(yīng)的答案。
[0234] 本發(fā)明實(shí)施例提供的搜索裝置可執(zhí)行本發(fā)明任意實(shí)施例所提供的搜索方法,具備 執(zhí)行方法相應(yīng)的功能模塊和有益效果。
[0235] 最后應(yīng)說明的是:以上各實(shí)施例僅用于說明本發(fā)明的技術(shù)方案,而非對(duì)其進(jìn)行限 制;實(shí)施例中優(yōu)選的實(shí)施方式,并非對(duì)其進(jìn)行限制,對(duì)于本領(lǐng)域技術(shù)人員而言,本發(fā)明可以 有各種改動(dòng)和變化。凡在本發(fā)明的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均 應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1. 一種觀點(diǎn)處理方法,其特征在于,包括: 基于預(yù)設(shè)策略,從問答對(duì)資源中獲取問題對(duì)應(yīng)的觀點(diǎn); 將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,形成問題觀點(diǎn)庫。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,基于預(yù)設(shè)策略,從問答對(duì)資源中獲取問題 對(duì)應(yīng)的觀點(diǎn),包括: 基于預(yù)設(shè)觀點(diǎn)片段定位策略,確定問答對(duì)資源中問題對(duì)應(yīng)的答案中的觀點(diǎn)片段; 基于預(yù)設(shè)觀點(diǎn)驗(yàn)證策略,確定所述觀點(diǎn)片段中的觀點(diǎn); 基于預(yù)設(shè)觀點(diǎn)清除策略,從確定的觀點(diǎn)中清除垃圾觀點(diǎn)。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,基于預(yù)設(shè)觀點(diǎn)片段定位策略,確定問答對(duì) 資源中問題對(duì)應(yīng)的答案中的觀點(diǎn)片段,包括: 對(duì)問答對(duì)資源中的答案進(jìn)行預(yù)處理,確定答案所包含的分句; 將所述分句與觀點(diǎn)定位模板進(jìn)行匹配,將與觀點(diǎn)定位模板匹配的部分作為答案中的觀 點(diǎn)片段。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,在將所述分句與觀點(diǎn)定位模板進(jìn)行匹配, 將與觀點(diǎn)定位模板匹配的部分作為答案中的觀點(diǎn)片段之后,還包括: 選取設(shè)定數(shù)量的觀點(diǎn)片段,并根據(jù)選取的所述觀點(diǎn)片段獲取擴(kuò)展觀點(diǎn)定位模板; 如果在設(shè)定觀點(diǎn)定位模板中沒有匹配到所述擴(kuò)展觀點(diǎn)定位模板,則將所述擴(kuò)展觀點(diǎn)定 位模板存儲(chǔ)到設(shè)定觀點(diǎn)定位模板中。
5. 根據(jù)權(quán)利要求2所述的方法,其特征在于,基于預(yù)設(shè)觀點(diǎn)驗(yàn)證策略,確定所述觀點(diǎn)片 段中的觀點(diǎn),包括下述至少一項(xiàng): 利用切詞邊界驗(yàn)證技術(shù),從觀點(diǎn)片段中選取切詞邊界符合標(biāo)準(zhǔn)切詞邊界的觀點(diǎn)片段作 為觀點(diǎn); 對(duì)觀點(diǎn)片段進(jìn)行詞性標(biāo)注,將符合設(shè)定觀點(diǎn)語法結(jié)構(gòu)的觀點(diǎn)片段作為觀點(diǎn); 將觀點(diǎn)片段作為查詢式通過搜索引擎進(jìn)行搜索,根據(jù)搜索結(jié)果中的紅標(biāo)字段修正所述 觀點(diǎn)片段的邊界,將修正后的觀點(diǎn)片段作為觀點(diǎn),其中所述紅標(biāo)字段滿足下述條件:所述紅 標(biāo)字段的出現(xiàn)頻次大于第一門限值,且所述紅標(biāo)字段的長度與觀點(diǎn)片段的長度的比例大于 第二門限值。
6. 根據(jù)權(quán)利要求2所述的方法,其特征在于,基于預(yù)設(shè)觀點(diǎn)清除策略,從確定的觀點(diǎn)中 清除垃圾觀點(diǎn)包括下述至少一項(xiàng): 將所述觀點(diǎn)與對(duì)應(yīng)的問題中的關(guān)鍵字段組成查詢式通過搜索引擎進(jìn)行搜索,在搜索結(jié) 果中的紅標(biāo)字段中確定所述查詢式的共現(xiàn)頻次,并過濾掉共現(xiàn)頻次低于第三門限值的查詢 式中的觀點(diǎn); 確定所述觀點(diǎn)在問答對(duì)資源中的逆文檔頻率IDF,過濾掉所述IDF高于第四門限值的 觀點(diǎn)。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,形成問題 觀點(diǎn)庫,包括: 基于預(yù)設(shè)觀點(diǎn)聚合策略,根據(jù)觀點(diǎn)相似度進(jìn)行觀點(diǎn)聚合,得到觀點(diǎn)簇; 基于預(yù)設(shè)觀點(diǎn)歸一化策略,從觀點(diǎn)簇中確定一個(gè)歸一化觀點(diǎn),得到問題對(duì)應(yīng)的歸一化 觀點(diǎn)集合; 根據(jù)所述問題的歸一化觀點(diǎn)集合中的歸一化觀點(diǎn),形成問題觀點(diǎn)庫。
8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,基于預(yù)設(shè)觀點(diǎn)聚合策略,根據(jù)觀點(diǎn)相似度 進(jìn)行觀點(diǎn)聚合,得到觀點(diǎn)簇,包括: 將觀點(diǎn)按基本詞粒度和/或混排粒度轉(zhuǎn)化為詞向量,確定觀點(diǎn)包含的詞向量對(duì)應(yīng)的 IDF ; 將相鄰詞為否定詞的詞向量的IDF提高; 將所述IDF高于第五門限值的詞向量作為核心詞向量; 計(jì)算核心詞向量中每兩個(gè)核心詞向量的cos夾角,并將cos夾角小于第六門限值的核 心詞向量所屬的觀點(diǎn)聚合到一個(gè)觀點(diǎn)簇中。
9. 根據(jù)權(quán)利要求7所述的方法,其特征在于,基于預(yù)設(shè)觀點(diǎn)聚合策略,根據(jù)觀點(diǎn)相似度 進(jìn)行觀點(diǎn)聚合,得到觀點(diǎn)簇,包括: 計(jì)算與問題對(duì)應(yīng)的觀點(diǎn)中兩個(gè)觀點(diǎn)的語義相似度,并將語義相似度大于第七門限值的 觀點(diǎn)聚合到一個(gè)觀點(diǎn)簇中。
10. 根據(jù)權(quán)利要求7所述的方法,其特征在于,基于預(yù)設(shè)觀點(diǎn)歸一化策略,從觀點(diǎn)簇中 確定一個(gè)歸一化觀點(diǎn),包括下述至少一項(xiàng): 根據(jù)觀點(diǎn)中信息的覆蓋率確定歸一化觀點(diǎn); 計(jì)算觀點(diǎn)簇包含的觀點(diǎn)的IDF*log(IDF),選取結(jié)果值最小的觀點(diǎn)作為所述歸一化觀 占. 計(jì)算觀點(diǎn)簇包含的觀點(diǎn)的出現(xiàn)頻次,并根據(jù)所述出現(xiàn)頻次確定觀點(diǎn)的權(quán)重值,將權(quán)重 值最高的觀點(diǎn)作為所述歸一化觀點(diǎn); 將符合預(yù)設(shè)句型的觀點(diǎn)中的一個(gè)作為所述歸一化觀點(diǎn)。
11. 根據(jù)權(quán)利要求1-10任一所述的方法,其特征在于,在基于預(yù)設(shè)策略,從問答對(duì)資源 中獲取問題對(duì)應(yīng)的觀點(diǎn)之后,還包括: 根據(jù)觀點(diǎn)排序策略,將優(yōu)先的預(yù)設(shè)數(shù)量的觀點(diǎn)確定為問題對(duì)應(yīng)的觀點(diǎn); 其中,所述觀點(diǎn)排序策略至少包括下述一項(xiàng): 基于觀點(diǎn)定位模板對(duì)應(yīng)的置信度,得到觀點(diǎn)的置信度,并按觀點(diǎn)的置信度進(jìn)行排序; 基于設(shè)定觀點(diǎn)語法結(jié)構(gòu)對(duì)應(yīng)的置信度,得到觀點(diǎn)的置信度,并按觀點(diǎn)的置信度進(jìn)行排 序; 確定答案中問題對(duì)應(yīng)的查詢式中核心詞與觀點(diǎn)之間的字節(jié)距離,將觀點(diǎn)按所述字節(jié)距 離進(jìn)行排序; 根據(jù)答案中問題對(duì)應(yīng)的查詢式中核心詞與觀點(diǎn)的匹配度或相似度進(jìn)行排序; 根據(jù)觀點(diǎn)在答案中的出現(xiàn)頻次進(jìn)行排序。
12. -種觀點(diǎn)處理裝置,其特征在于,包括: 觀點(diǎn)獲取模塊,用于基于預(yù)設(shè)策略,從問答對(duì)資源中獲取問題對(duì)應(yīng)的觀點(diǎn); 問題觀點(diǎn)庫形成模塊,用于將問題所對(duì)應(yīng)的觀點(diǎn)進(jìn)行聚合,形成問題觀點(diǎn)庫。
13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,觀點(diǎn)獲取模塊包括: 觀點(diǎn)片段確定單元,用于基于預(yù)設(shè)觀點(diǎn)片段定位策略,確定問答對(duì)資源中問題對(duì)應(yīng)的 答案中的觀點(diǎn)片段; 觀點(diǎn)確定單元,用于基于預(yù)設(shè)觀點(diǎn)驗(yàn)證策略,確定所述觀點(diǎn)片段中的觀點(diǎn); 垃圾觀點(diǎn)清除單元,用于基于預(yù)設(shè)觀點(diǎn)清除策略,從確定的觀點(diǎn)中清除垃圾觀點(diǎn)。
14. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,觀點(diǎn)片段確定單元包括: 分句確定子單元,用于對(duì)問答對(duì)資源中的答案進(jìn)行預(yù)處理,確定答案所包含的分句; 分句匹配子單元,用于將所述分句與觀點(diǎn)定位模板進(jìn)行匹配,將與觀點(diǎn)定位模板匹配 的部分作為答案中的觀點(diǎn)片段。
15. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,觀點(diǎn)片段確定單元還包括: 擴(kuò)展觀點(diǎn)定位模板獲取子單元,用于在將所述分句與觀點(diǎn)定位模板進(jìn)行匹配,將與觀 點(diǎn)定位模板匹配的部分作為答案中的觀點(diǎn)片段之后,選取設(shè)定數(shù)量的觀點(diǎn)片段,并根據(jù)選 取的所述觀點(diǎn)片段獲取擴(kuò)展觀點(diǎn)定位模板; 擴(kuò)展觀點(diǎn)定位模板存儲(chǔ)子單元,用于如果在設(shè)定觀點(diǎn)定位模板中沒有匹配到所述擴(kuò)展 觀點(diǎn)定位模板,則將所述擴(kuò)展觀點(diǎn)定位模板存儲(chǔ)到設(shè)定觀點(diǎn)定位模板中。
16. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,觀點(diǎn)確定單元包括下述至少一項(xiàng): 第一觀點(diǎn)確定子單元,用于利用切詞邊界驗(yàn)證技術(shù),從觀點(diǎn)片段中選取切詞邊界符合 標(biāo)準(zhǔn)切詞邊界的觀點(diǎn)片段作為觀點(diǎn); 第二觀點(diǎn)確定子單元,用于對(duì)觀點(diǎn)片段進(jìn)行詞性標(biāo)注,將符合設(shè)定觀點(diǎn)語法結(jié)構(gòu)的觀 點(diǎn)片段作為觀點(diǎn); 第三觀點(diǎn)確定子單元,用于將觀點(diǎn)片段作為查詢式通過搜索引擎進(jìn)行搜索,根據(jù)搜索 結(jié)果中的紅標(biāo)字段修正所述觀點(diǎn)片段的邊界,將修正后的觀點(diǎn)片段作為觀點(diǎn),其中所述紅 標(biāo)字段滿足下述條件:所述紅標(biāo)字段的出現(xiàn)頻次大于第一門限值,且所述紅標(biāo)字段的長度 與觀點(diǎn)片段的長度的比例大于第二門限值。
17. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,垃圾觀點(diǎn)清除單元包括下述至少一項(xiàng): 第一垃圾觀點(diǎn)清除子單元,用于將所述觀點(diǎn)與對(duì)應(yīng)的問題中的關(guān)鍵字段組成查詢式通 過搜索引擎進(jìn)行搜索,在搜索結(jié)果中的紅標(biāo)字段中確定所述查詢式的共現(xiàn)頻次,并過濾掉 共現(xiàn)頻次低于第三門限值的查詢式中的觀點(diǎn); 第二垃圾觀點(diǎn)清除子單元,用于確定所述觀點(diǎn)在問答對(duì)資源中的逆文檔頻率IDF,過濾 掉所述IDF高于第四門限值的觀點(diǎn)。
18. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,問題觀點(diǎn)庫形成模塊包括: 觀點(diǎn)簇獲取單元,用于基于預(yù)設(shè)觀點(diǎn)聚合策略,根據(jù)觀點(diǎn)相似度進(jìn)行觀點(diǎn)聚合,得到觀 點(diǎn)簇; 歸一化單元,用于基于預(yù)設(shè)觀點(diǎn)歸一化策略,從觀點(diǎn)簇中確定一個(gè)歸一化觀點(diǎn),得到問 題對(duì)應(yīng)的歸一化觀點(diǎn)集合; 問題觀點(diǎn)庫形成單元,用于根據(jù)所述問題的歸一化觀點(diǎn)集合中的歸一化觀點(diǎn),形成問 題觀點(diǎn)庫。
19. 根據(jù)權(quán)利要求18所述的裝置,其特征在于,觀點(diǎn)簇獲取單元包括: 詞向量IDF確定子單元,用于將觀點(diǎn)按基本詞粒度和/或混排粒度轉(zhuǎn)化為詞向量,確定 觀點(diǎn)包含的詞向量對(duì)應(yīng)的IDF ; 詞向量IDF處理子單元,用于將相鄰詞為否定詞的詞向量的IDF提高; 核心詞向量確定子單元,用于將所述IDF高于第五門限值的詞向量作為核心詞向量; 第一計(jì)算子單元,用于計(jì)算核心詞向量中每兩個(gè)核心詞向量的cos夾角,并將cos夾角 小于第六門限值的核心詞向量所屬的觀點(diǎn)聚合到一個(gè)觀點(diǎn)簇中。
20. 根據(jù)權(quán)利要求18所述的裝置,其特征在于,觀點(diǎn)簇獲取單元包括: 第二計(jì)算子單元,用于計(jì)算與問題對(duì)應(yīng)的觀點(diǎn)中兩個(gè)觀點(diǎn)的語義相似度,并將語義相 似度大于第七門限值的觀點(diǎn)聚合到一個(gè)觀點(diǎn)簇中。
21. 根據(jù)權(quán)利要求18所述的裝置,其特征在于,歸一化單元包括下述至少一項(xiàng): 第一歸一化子單元,用于根據(jù)觀點(diǎn)中信息的覆蓋率確定歸一化觀點(diǎn); 第二歸一化子單元,用于計(jì)算觀點(diǎn)簇包含的觀點(diǎn)的IDF*log(IDF),選取結(jié)果值最小的 觀點(diǎn)作為所述歸一化觀點(diǎn); 第三歸一化子單元,用于計(jì)算觀點(diǎn)簇包含的觀點(diǎn)的出現(xiàn)頻次,并根據(jù)所述出現(xiàn)頻次確 定觀點(diǎn)的權(quán)重值,將權(quán)重值最高的觀點(diǎn)作為所述歸一化觀點(diǎn); 第四歸一化子單元,用于將符合預(yù)設(shè)句型的觀點(diǎn)中的一個(gè)作為所述歸一化觀點(diǎn)。
22. 根據(jù)權(quán)利要求12-21任一所述的裝置,其特征在于,該裝置還包括: 觀點(diǎn)排序模塊,用于在基于預(yù)設(shè)策略,從問答對(duì)資源中獲取問題對(duì)應(yīng)的觀點(diǎn)之后,根據(jù) 觀點(diǎn)排序策略,將優(yōu)先的預(yù)設(shè)數(shù)量的觀點(diǎn)確定為問題對(duì)應(yīng)的觀點(diǎn); 其中,所述觀點(diǎn)排序策略至少包括下述一項(xiàng): 基于觀點(diǎn)定位模板對(duì)應(yīng)的置信度,得到觀點(diǎn)的置信度,并按觀點(diǎn)的置信度進(jìn)行排序; 基于設(shè)定觀點(diǎn)語法結(jié)構(gòu)對(duì)應(yīng)的置信度,得到觀點(diǎn)的置信度,并按觀點(diǎn)的置信度進(jìn)行排 序; 確定答案中問題對(duì)應(yīng)的查詢式中核心詞與觀點(diǎn)之間的字節(jié)距離,將觀點(diǎn)按所述字節(jié)距 離進(jìn)行排序; 根據(jù)答案中問題對(duì)應(yīng)的查詢式中核心詞與觀點(diǎn)的匹配度或相似度進(jìn)行排序; 根據(jù)觀點(diǎn)在答案中的出現(xiàn)頻次進(jìn)行排序。
23. -種搜索方法,其特征在于,包括: 獲取用戶通過搜索框輸入的檢索式; 在問題觀點(diǎn)庫中查找與所述檢索式對(duì)應(yīng)的觀點(diǎn),其中,所述問題觀點(diǎn)庫采用權(quán)利要求 1-11任一所述的觀點(diǎn)處理方法形成; 顯示所述觀點(diǎn)。
24. 根據(jù)權(quán)利要求23所述的方法,其特征在于,顯示所述觀點(diǎn),包括: 將預(yù)設(shè)數(shù)量的觀點(diǎn)組成觀點(diǎn)列表,進(jìn)行顯示;或 將觀點(diǎn)以及觀點(diǎn)對(duì)應(yīng)的答案組成觀點(diǎn)列表,進(jìn)行顯示;或 將觀點(diǎn)進(jìn)行標(biāo)簽式顯示,如果獲取到觀點(diǎn)標(biāo)簽的選擇操作,則顯示與觀點(diǎn)對(duì)應(yīng)的答案。
25. -種搜索裝置,其特征在于,包括: 檢索式獲取模塊,用于獲取用戶通過搜索框輸入的檢索式; 觀點(diǎn)查找模塊,用于在問題觀點(diǎn)庫中查找與所述檢索式對(duì)應(yīng)的觀點(diǎn),其中,所述問題觀 點(diǎn)庫采用權(quán)利要求12-22任一所述的觀點(diǎn)處理裝置形成; 觀點(diǎn)顯示模塊,用于顯示所述觀點(diǎn)。
26. 根據(jù)權(quán)利要求25所述的裝置,其特征在于,觀點(diǎn)顯示模塊包括: 第一顯示單元,用于將預(yù)設(shè)數(shù)量的觀點(diǎn)組成觀點(diǎn)列表,進(jìn)行顯示;或 第二顯示單元,用于將觀點(diǎn)以及觀點(diǎn)對(duì)應(yīng)的答案組成觀點(diǎn)列表,進(jìn)行顯示;或 第三顯示單元,用于將觀點(diǎn)進(jìn)行標(biāo)簽式顯示,如果獲取到觀點(diǎn)標(biāo)簽的選擇操作,則顯示 與觀點(diǎn)對(duì)應(yīng)的答案。
【文檔編號(hào)】G06F17/30GK104063497SQ201410319166
【公開日】2014年9月24日 申請(qǐng)日期:2014年7月4日 優(yōu)先權(quán)日:2014年7月4日
【發(fā)明者】張希娟, 張偉萌, 何伯磊, 費(fèi)曉旭, 胡小博, 王丙寅, 趙輝, 劉濤, 譚玉佩, 忻舟, 馬艷軍, 廖毅 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1