亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于檢索的數(shù)據(jù)處理方法和裝置的制造方法_4

文檔序號:9217238閱讀:來源:國知局
可來自于問答 社區(qū)、論壇、百科等網(wǎng)絡(luò)資源。相應(yīng)地,包含是/非問題的答案的頁面數(shù)據(jù)的來源也可包括 多種,例如,包含該是/非問題的答案的頁面數(shù)據(jù)可來自于通過搜索引擎檢索到的包含該 問題答案的一個或多個(例如,大于或等于2個)的頁面,還可來自于對問答社區(qū)、論壇、百 科等的用戶的針對該問題的回答頁面等。
[0074] 生成模塊202可根據(jù)獲取模塊201獲取的問題和包含該問題的答案的頁面數(shù)據(jù)生 成與該問題配對的問題-答案模板對〈問題,答案〉,具體而言,生成模塊可用于進行下述操 作:分析該是/非問題的一個以上第一主干結(jié)構(gòu)和所述網(wǎng)頁數(shù)據(jù)的答案片段之一的一個以 上第二主干結(jié)構(gòu),將第一主干結(jié)構(gòu)和第二主干結(jié)構(gòu)構(gòu)建為第一類問題-答案模板對〈問題, 答案〉,也可以稱為初始的問題-答案模板對〈問題,答案〉;獲取與所述一個以上第一主干 結(jié)構(gòu)相同的第一組問題所對應(yīng)的一個以上答案片段,篩選第一組問題對應(yīng)的答案片段的一 個以上n-gram和n-skipgram作為答案組成成分,將第一組問題的主干結(jié)構(gòu)和該第一組問 題對應(yīng)的答案片段的主干結(jié)構(gòu)構(gòu)建為第二類問題-答案模板對〈問題,答案〉,也可以稱為 擴展的問題-答案模塊對〈問題,答案〉;將初始的問題-答案模板對〈問題,答案〉和擴 展的問題-答案模塊對〈問題,答案〉合并可獲取與該問題配對的所有的問題-答案模塊 對〈問題,答案〉。
[0075] 對于初始的問題-答案模板對〈問題,答案〉的構(gòu)建,可包括分析該是/非問題的 主干結(jié)構(gòu),即,該是/非問題的問句的句子主干結(jié)構(gòu)。針對是/非問題的具體主干結(jié)構(gòu)的 分析可通過分詞、詞性標(biāo)注、專名識別、術(shù)語(term)重要性等基礎(chǔ)分析結(jié)果之外,還將基于 同義詞、上下位詞、助動詞對問題的分詞結(jié)果進行進一步泛化,目標(biāo)是基于是/非問題的特 點,分析是/非問題的核心詞和主干結(jié)構(gòu)。是/非問題的核心詞是指可用于直接回答是/ 非問題的詞。例如,對于是/非問題"孕婦能吃西瓜嗎",核心詞為"能"。對是/非問題可 以進行依存句法分析,標(biāo)注大量依存句法分析結(jié)果中的核心詞,可以訓(xùn)練抽取模型,完成核 心詞識別。句子主干結(jié)構(gòu)是指體現(xiàn)問題主干意思的成分,例如,通常包含主語、謂語和賓語。 在本發(fā)明的實施方式中,針對是/非問題,可以從多個不同層次進行分析,獲取多個不同的 句子主干結(jié)構(gòu)。
[0076] 對于網(wǎng)頁數(shù)據(jù)的答案片段(例如,可包含一個以上子句)中的一個答案片段的句 子主干分析,與上述的問題的句子主干分析類似,在此不再贅述。需要說明的是,在句子的 詞性層次分析中,可以只保留與問題的句子主干結(jié)構(gòu)相同詞條的詞,這主要是因為是/非 問題的答案很大一部分是重復(fù)問題中的詞條。例如,對于問題"孕婦能吃西瓜嗎"的主干結(jié) 構(gòu)之一"孕婦{:能W{水果} ",答案片段為"最好不要吃",那么答案片段的主干結(jié)構(gòu)可以包 括:1、吃;2、食用;3、v(此處v對應(yīng)的詞條為吃,與問題的主干結(jié)構(gòu)中v對應(yīng)的詞條一致)。
[0077] 除了上述獲得的初始的問題-答案模板對<pat_q,pat_a>,還可以對問題_答案 模板對進行擴展,獲取與問題的主干結(jié)構(gòu)相同的第一組問題(例如,一個以上問題)對應(yīng)的 一個或多個答案片段,篩選這些答案片段的一個或多個n-gram和n-skipgram作為答案的 組成成分,將第一組問題的主干結(jié)構(gòu)及第一組問題對應(yīng)答案片段的主干結(jié)構(gòu)構(gòu)建擴展的問 題-答案模板對〈問題,答案〉。例如,對于是/非問題的主干結(jié)構(gòu)" {能}{食用} ",統(tǒng)計數(shù) 據(jù)庫中句子主干結(jié)構(gòu)為該結(jié)構(gòu)的是/非問題的所有答案片段(例如,"不要吃"、"對{問題, 施事}有益"等)中的n-gram和n-skipgram(例如,n可取值為1、2、3等),篩選n-gram和 n-skipgram大于預(yù)定閾值的,作為問題-答案模板對中答案的組成成分。其中,對n-gram 的評估可采用公式(1)的gram_score(n-gram,q)進行量化得分。對n-skipgram可采用與n-gram類似的評估公式進行評估。
[0078] 對于擴展的問題-答案模板對,可以通過首先人工標(biāo)注出少量答案片段,通過機 器學(xué)習(xí)算法學(xué)習(xí)到一批問題-答案模板對,基于學(xué)習(xí)到的這些問題-答案模板對可以獲取 更多的答案片段,從而獲取更多的問題-答案模板對。通過學(xué)習(xí)過程不斷迭代,直至所獲得 問題-答案模板對不再顯著增加為止。其中,在每次迭代后,都對問題-答案模板進行評 估,篩選其中評估得分較高的答案片段,避免錯誤累加。例如,可以基于問題-答案模板對 <pat_q,pat_a>得到的答案片段的精度對問題-答案模板對進行評估。顯然,在問題-答案 模板對中,如果問題和答案模板的粒度都是詞條級別,并且沒有缺省句子成分,那么這對問 題-答案模板的精確度是較高的。例如,對于問題"孕婦能吃西瓜嗎",如果模板對為<pat_ q=孕婦能吃西瓜,pat_a=最好不要吃〉,那么其精度是很高的,但其泛化能力很弱,召回 率很低,只能召回含有"最好不要吃"的句子。對問題-答案模板對<pat_q,pat_a>的評估 還可考慮召回率方面。本領(lǐng)域技術(shù)人員在評估時,可綜合考慮精確度和召回率兩方面,選擇 精確度和召回率合適的問題-答案模板對。
[0079] 通過上面描述的方式可獲得是/非問題的多個初始的問題-答案模板對和多個 擴展的問題-答案模板對,將這些問題-答案模板對合并,可獲取該是/非問題的總的問 題-答案模板對。
[0080] 抽取模塊203可根據(jù)是/非問題和頁面數(shù)據(jù)中答案片段的匹配度從頁面數(shù)據(jù)中抽 取一個以上(大于或等于1個)答案片段,其中,包含該問題答案的頁面數(shù)據(jù)可包括一個以 上答案片段,根據(jù)該問題與這些答案片段的匹配度選取一些答案片段,這些答案片段對于 該是/非問題的針對性更強,提高對是/非問題檢索結(jié)果的數(shù)據(jù)處理效率,有利于高效地獲 取對于該問題的答案。其中,該問題和頁面數(shù)據(jù)中的一個答案片段的匹配度可通過下述公 式(2)中的match_score(q,a)進行量化評分。
[0081] 通過上述公式(2)和公式(3)計算出問題q與答案片段a的匹配度,根據(jù)該匹配 度與匹配度閾值的比較確定是否抽取答案片段a,若該匹配度大于匹配度閾值,則抽取該答 案片段,否則,不抽取該答案片段。對于是否選取答案片段除了采用匹配度作為主要判斷依 據(jù)之外,還可考慮答案片段在頁面的段落中的位置(段首、段中、段尾)、答案是否被采納、 答案中句子的個數(shù)、答案貢獻者的權(quán)威度等,通過非線性回歸模型分析,確定該答案片段是 否被篩選。
[0082] 在通過公式(2)得到匹配度得分最高的子句之后,可以以得分最高的子句為中 心,繼續(xù)向前和向后擴展超過匹配度閾值的子句,形成答案片段。其中,還需要對兩類句子 進行特殊處理。具體而言,第一類為條件類句子擴展,如果得分最高的子句為條件句的原因 子句(例如,"如果……的話"),則繼續(xù)擴展后面的結(jié)果子句(例如,"那么……");第二類 句子為轉(zhuǎn)折句擴展,如果匹配度得分最高的子句為轉(zhuǎn)折句的前部子句(例如,"雖然……"), 則繼續(xù)擴展后面的轉(zhuǎn)折子句(例如,"但是……")。
[0083] 判斷模塊204可根據(jù)抽取模塊203中抽取出的一個以上答案片段中否定指示詞 的個數(shù)和該問題的否定指示詞的個數(shù)確定該一個以上答案片段的觀點是肯定還是否定,其 中,否定指示詞可包括否定詞(例如,不等)、負(fù)面的情感傾向詞(例如,可以是動詞或形容 詞)以及反義詞等。具體而言,對于是/非問題,確定它的核心詞是否帶有否定前綴,若帶 有否定前綴,則將問題的否定指示詞個數(shù)記為1,如果問題的核心詞為形容詞或動詞,則分 析該核心詞的情感傾向,若該核心詞的情感傾向為負(fù)面的,則也將該問題的否定指示詞個 數(shù)記為1。例如,問題"吃苦杏仁有毒嗎",核心詞"有毒"為負(fù)面的情感傾向詞。統(tǒng)計問題 中否定前綴和負(fù)面的情感傾向詞的個數(shù)算術(shù)求和,記為query_neg_cnt。然后,統(tǒng)計答案片 段中否定指示詞的個數(shù),對于答案片段的否定指示詞,除了包括否定前綴、負(fù)面的情感傾向 詞之外,還可包括問題中
當(dāng)前第4頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1