網(wǎng)頁數(shù)據(jù)處理方法和裝置、查詢處理方法及問答系統(tǒng)的制作方法
【專利摘要】本發(fā)明實施例公開了一種網(wǎng)頁數(shù)據(jù)處理方法和裝置、查詢處理方法及問答系統(tǒng)。所述網(wǎng)頁數(shù)據(jù)處理方法包括:對離線網(wǎng)頁中的句子進行語義結(jié)構(gòu)分析,以得到淺層知識;計算所述淺層知識的置信度;根據(jù)所述置信度對所述淺層知識建庫,得到淺層知識庫。提高了查詢結(jié)果的準確性。
【專利說明】網(wǎng)頁數(shù)據(jù)處理方法和裝置、查詢處理方法及問答系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實施例涉及數(shù)據(jù)搜索【技術(shù)領(lǐng)域】,尤其涉及一種網(wǎng)頁數(shù)據(jù)處理方法和裝置、查詢處理方法及問答系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,人們的生活和工作越來越離不開網(wǎng)絡搜索。
[0003]目前,網(wǎng)絡搜索主要由搜索引擎來實現(xiàn)。搜索引擎對于查詢,搜索出的結(jié)果都是包含有查詢語句部分或全部內(nèi)容的網(wǎng)頁。對于問答類型的查詢即查詢語句為問題的查詢,這樣的搜索結(jié)果很難給出正確的答案。如用戶需求并不是尋找和query的語句字面相關(guān)的網(wǎng)頁,而是希望搜索引擎直接回答出問題的答案,如寶馬是哪個國家的”、“新版笑傲江湖任盈盈給令狐沖療傷的曲子”。針對這樣的查詢,目前的搜索引擎只能給出和查詢問題相關(guān)的網(wǎng)頁,比較理想的結(jié)果是返回相關(guān)的問答網(wǎng)頁,但仍然需要用戶點擊進入網(wǎng)頁自行尋找答案,得到答案的效率低。同時由于互聯(lián)網(wǎng)中的網(wǎng)頁數(shù)據(jù)難以保證很高的權(quán)威性,甚至存在大量的垃圾和噪音,使得用戶自行尋找答案的可靠性也降低。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本發(fā)明實施例提出一種網(wǎng)頁數(shù)據(jù)處理方法和裝置、查詢處理方法及問答系統(tǒng),以提高查詢結(jié)果的準確性。
[0005]第一方面,本發(fā)明實施例提供了一種網(wǎng)頁數(shù)據(jù)處理方法,包括:
[0006]對離線的網(wǎng)頁中的每個句子進行結(jié)構(gòu)語義分析,得到淺層知識,其中,所述淺層知識為包含有實體信息以及實體之間關(guān)系的數(shù)據(jù);
[0007]確定所述淺層知識的置信度;
[0008]根據(jù)所述置信度對所述淺層知識建庫,得到淺層知識庫。
[0009]第二方面,本發(fā)明實施例還提供了一種查詢處理方法,包括:
[0010]對輸入的查詢語句進行語法分析,得到所述查詢語句的結(jié)構(gòu)語義表示;
[0011]根據(jù)所述查詢語句的結(jié)構(gòu)語義表示,從淺層知識庫中得到候選答案,其中,所述淺層知識庫根據(jù)置信度對淺層知識建庫得到,所述淺層知識為包含有實體信息以及實體之間關(guān)系的數(shù)據(jù);
[0012]對所述候選答案進行合理性驗證,得到最終答案。
[0013]第三方面,本發(fā)明實施例還提供了一種網(wǎng)頁數(shù)據(jù)處理裝置,包括:
[0014]語義分析模塊,用于對離線的網(wǎng)頁中的每個句子進行結(jié)構(gòu)語義分析,得到淺層知識,其中,所述淺層知識為包含有實體信息以及實體之間關(guān)系的數(shù)據(jù);
[0015]置信度確定模塊,用于確定所述淺層知識的置信度;
[0016]建庫模塊,用于根據(jù)所述置信度對所述淺層知識建庫,得到淺層知識庫。
[0017]第四方面,本發(fā)明實施例還提供了一種查詢處理裝置,包括:
[0018]語義分析模塊,用于對輸入的查詢語句進行語法分析,得到所述查詢語句的結(jié)構(gòu)語義表示;
[0019]候選答案確定模塊,用于根據(jù)所述查詢語句的結(jié)構(gòu)語義表示,從淺層知識庫中得到候選答案,其中,所述淺層知識庫根據(jù)置信度對淺層知識建庫得到,所述淺層知識為包含有實體信息以及實體之間關(guān)系的數(shù)據(jù);
[0020]驗證模塊,用于對所述候選答案進行合理性驗證,得到最終答案。
[0021]第五方面,本發(fā)明實施例還提供了一種問答系統(tǒng),包括:上述網(wǎng)頁數(shù)據(jù)處理裝置和上述查詢處理裝置;
[0022]所述網(wǎng)頁數(shù)據(jù)處理裝置用于離線建立淺層知識庫;
[0023]所述查詢處理裝置用于對輸入的查詢語句進行語義分析,根據(jù)語義分析結(jié)果從所述網(wǎng)頁數(shù)據(jù)處理裝置建立的淺層知識庫中獲得候選答案,并對候選答案進行驗證,得到最終答案。
[0024]本發(fā)明實施例提供的網(wǎng)頁數(shù)據(jù)處理方法和裝置、查詢處理方法及問答系統(tǒng),通過對離線網(wǎng)頁中的句子進行語義結(jié)構(gòu)分析,得到淺層知識,并根據(jù)所述置信度對所述淺層知識建立淺層知識庫,能夠為搜索引擎提供高質(zhì)量的基礎(chǔ)數(shù)據(jù),用于搜索的答案,使得搜索引擎對于用戶查詢的問題,基于建立的淺層知識庫進行答案搜索,能夠給出用戶查詢的問題的精確答案,從而提高了查詢結(jié)果的準確性。
【專利附圖】
【附圖說明】
[0025]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:
[0026]圖1是本發(fā)明第一實施例提供的網(wǎng)頁數(shù)據(jù)處理方法的流程圖;
[0027]圖2是本發(fā)明第二實施例提供的網(wǎng)頁數(shù)據(jù)處理方法中語義結(jié)構(gòu)分析的流程圖;
[0028]圖3是本發(fā)明第三實施例提供的網(wǎng)頁數(shù)據(jù)處理方法中語義結(jié)構(gòu)分析的流程圖;
[0029]圖4a是本發(fā)明第四實施例提供的網(wǎng)頁數(shù)據(jù)處理方法的流程圖;
[0030]圖4b是本發(fā)明第四實施例提供的網(wǎng)頁數(shù)據(jù)處理方法中置信度計算的流程圖;
[0031]圖5是本發(fā)明第五實施例提供的網(wǎng)頁數(shù)據(jù)處理方法的流程圖;
[0032]圖6a是本發(fā)明第六實施例提供的查詢處理方法的流程圖;
[0033]圖6b是本發(fā)明第六實施例提供的查詢處理方法中結(jié)構(gòu)語義表示的示意圖;
[0034]圖7是本發(fā)明第七實施例提供的查詢處理方法中語法分析的流程圖;
[0035]圖8是本發(fā)明第八實施例提供的查詢處理方法中語法分析的流程圖;
[0036]圖9是本發(fā)明第九實施例提供的查詢處理方法中候選答案確定的流程圖;
[0037]圖10是本發(fā)明第十實施例提供的查詢處理方法中合理性驗證的流程圖;
[0038]圖11是本發(fā)明第十一實施例提供的網(wǎng)頁數(shù)據(jù)處理裝置的結(jié)構(gòu)圖;
[0039]圖12是本發(fā)明第十二實施例提供的查詢處理裝置的結(jié)構(gòu)圖;
[0040]圖13a是本發(fā)明第十三實施例提供的問答系統(tǒng)的結(jié)構(gòu)圖;
[0041]圖13b是本發(fā)明第十三實施例提供的問答系統(tǒng)的功能示意圖。
【具體實施方式】
[0042]下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。
[0043]本發(fā)明實施例提供的網(wǎng)頁數(shù)據(jù)處理方法可由網(wǎng)頁數(shù)據(jù)處理裝置執(zhí)行,網(wǎng)頁數(shù)據(jù)處理裝置可以是搜索引擎的一個功能模塊,也可以是任意一個具有計算和數(shù)據(jù)處理功能及存儲功能的電子設(shè)備。
[0044]第一實施例
[0045]參見圖1,本實施例提供的網(wǎng)頁數(shù)據(jù)處理方法包括:操作11至操作13。
[0046]操作11中,對離線的網(wǎng)頁中的每個句子進行結(jié)構(gòu)語義分析,得到淺層知識,其中,所述淺層知識為包含有實體信息以及實體之間關(guān)系的數(shù)據(jù)。
[0047]所述離線的網(wǎng)頁可以是預先收集的,離線的網(wǎng)頁數(shù)據(jù)。所述離線的網(wǎng)頁中包含大量的文本數(shù)據(jù),并且,所述文本數(shù)據(jù)由不同的句子組成。在本實施例中,對所述離線的網(wǎng)頁中包含的文本數(shù)據(jù)中的句子進行結(jié)構(gòu)語義分析,從而得到淺層知識。
[0048]所述結(jié)構(gòu)語義分析是指對所述文本數(shù)據(jù)中的句子,通過分詞、詞性標注以及依存句法分析,對所述句子進行理解,以得到關(guān)于所述句子的淺層知識。
[0049]所述淺層知識包括所述句子中存在的實體信息,以及這些語義實體相互之間的語義關(guān)系。例如,通過對句子“亞太經(jīng)濟合作組織會10月在北京召開”的結(jié)構(gòu)語義分析,得到了淺層知識“亞太經(jīng)濟合作組織會議,10月,北京,召開”。在該淺層知識中,包含了“亞太經(jīng)濟合作組織會議”、“10月”、“北京”以及“召開”四個實體信息。而且,所述淺層知識還進一步的標明了四者之間的語義關(guān)系的主謂關(guān)系。例如,“亞太經(jīng)濟合作組織會議”與“召開”之間是主謂關(guān)系,“召開”與“ 10月”之間的動狀關(guān)系,“召開”與“北京”之間是動狀關(guān)系。
[0050]需要說明的是,所述淺層知識中包含的實體的文本表現(xiàn)形式可以不唯一。例如,“亞太經(jīng)濟合作組織會議”與“亞太經(jīng)合組織會議”所指代的是同一個實體。
[0051]操作12中,確定所述淺層知識的置信度。
[0052]離線的網(wǎng)頁中包含的文本數(shù)據(jù)可能會包含有虛假信息,另外,在對文本數(shù)據(jù)進行結(jié)構(gòu)語義分析處理時,可能會出現(xiàn)分析錯誤。因此,從所述文本數(shù)據(jù)中獲取到的淺層知識并不可靠,需要對所述淺層知識計算置信度。
[0053]具體的,可以通過條件概率和歸一化點互信息綜合計算出所述淺層知識的置信度。所述條件概率是指在所述淺層知識庫中一個或一個以上實體信息出現(xiàn)時,目標實體信息出現(xiàn)的概率。例如,對于淺層知識〈諸葛亮,殺,華佗〉,如果實體“殺”和實體“華佗”都出現(xiàn)時,目標實體“諸葛亮”出現(xiàn)的概率是0.05%,則該淺層知識的條件概率為0.05%。
[0054]所述歸一化點互信息考慮了實體之間的關(guān)系的概率信息。例如,在淺層知識庫中,實體“亞太經(jīng)濟合作組織會議”和實體“召開”作為主謂結(jié)構(gòu)同時出現(xiàn)的概率為60%,則實體“亞太經(jīng)濟合作組織會議”與實體“召開”之間的歸一化點互信息為60%。
[0055]操作13中,根據(jù)所述置信度對所述淺層知識建庫,得到淺層知識庫。
[0056]其中,置信度的作用主要是濾除淺層知識中置信度較低的淺層知識。優(yōu)選的,可以對所述淺層知識中包含的不同實體分別進行建庫。例如,可以對其中包含實體“中國”的淺層知識進行建庫,得到關(guān)于實體“中國”的淺層知識庫,而對其中包含實體“日本”的淺層知識另外單獨建庫,得到關(guān)于實體“日本”的淺層知識庫。
[0057]本實施例提供的網(wǎng)頁數(shù)據(jù)處理方法,通過對離線的網(wǎng)頁中的每個句子進行結(jié)構(gòu)語義分析,得到淺層知識,并通過確定所述淺層知識的置信度,以及根據(jù)所述置信度對所述淺層知識建庫,得到淺層知識庫,實現(xiàn)了對離線的網(wǎng)頁中的數(shù)據(jù)的結(jié)構(gòu)化處理,根據(jù)離線的網(wǎng)頁形成了淺層知識庫,為搜索引擎提供準確的查詢結(jié)果提供了高質(zhì)量的基礎(chǔ)數(shù)據(jù)。
[0058]示例性的,上述對離線的網(wǎng)頁中的每個句子進行結(jié)構(gòu)語義分析,包括:
[0059]對每個句子進行分詞、實體詞識別、詞性標注以及依存分析;
[0060]根據(jù)依存分析結(jié)果,對片段結(jié)構(gòu)進行識別;
[0061]片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系。
[0062]示例性的,上述根據(jù)依存分析結(jié)果,對片段結(jié)構(gòu)進行識別之后,片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系之前,還包括:
[0063]補充片段缺失成分。
[0064]示例性的,上述片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系之后,還包括:
[0065]對所述細化后的關(guān)系進行語義關(guān)系合理性驗證。
[0066]示例性的,上述確定所述淺層知識的置信度之前,所述方法還包括:
[0067]對所述淺層知識進行低頻知識或低質(zhì)量過濾、冗余知識過濾和噪音知識過濾中的至少一種過濾。
[0068]示例性的,上述確定所述淺層知識的置信度,包括:
[0069]通過條件概率和歸一化點互信息綜合計算出知識的置信度。
[0070]示例性的,上述根據(jù)所述置信度對所述淺層知識建庫,包括:
[0071]將所述淺層知識的置信度與預先設(shè)定的閾值進行比較;
[0072]對濾除置信度小于所述閾值的淺層知識后的剩余淺層知識建庫。
[0073]示例性的,上述對濾除置信度小于所述閾值的淺層知識后的剩余淺層知識建庫,包括:
[0074]以所述剩余淺層知識中的每個元素為鍵key,建立倒排索引,倒排索引中存儲每條剩余淺層知識的標識ID ;
[0075]或者,以所述剩余淺層知識的ID為key,以所述淺層知識的正文和置信度為key的值,建立剩余淺層知識的鍵值對。
[0076]例如,可以對剩余的每條淺層知識分配一個標識ID,然后以所述淺層知識中的每個元素為鍵,并以該條淺層知識的標識ID為內(nèi)容,建立所述淺層知識的倒排索引,從而完成對所述剩余淺層知識的建庫。還可以以所述剩余淺層知識的ID為鍵,同時以所述剩余淺層知識的正文和置信度為該鍵所對應的值,建立所述淺層知識的鍵值對,從而完成對所述剩余淺層知識的建庫。這樣,通過以淺層知識中的元素為鍵,以淺層知識的標識ID為內(nèi)容,為淺層知識建立倒排索引,或者為所述淺層知識建立以淺層知識的ID為鍵,以正文及置信度為內(nèi)容的鍵值對,實現(xiàn)了對置信度較高的淺層知識建立淺層知識庫,為基于所述淺層知識向用戶提供準確的問題答案提供了基礎(chǔ)。
[0077]第二實施例
[0078]本實施例以上述實施例為基礎(chǔ)提供了對離線的網(wǎng)頁中的每個句子進行結(jié)構(gòu)語義分析的一種技術(shù)方案,該技術(shù)方案包括:對每個句子進行分詞、實體詞識別、詞性標注以及依存分析;根據(jù)依存分析結(jié)果,對片段結(jié)構(gòu)進行識別;片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系。
[0079]參見圖2,對離線的網(wǎng)頁中的每個句子進行結(jié)構(gòu)語義分析包括:操作21至操作23。
[0080]操作21中,對每個句子進行分詞、實體詞識別、詞性標注以及依存分析。
[0081]所述分詞是將構(gòu)成句子的完整文本切分為詞語的過程。通過分詞操作,各個句子中的文本被分隔成為單個的詞語。
[0082]構(gòu)成句子的詞語包含實體詞和非實體詞。所述實體詞包括句子中的名詞、動詞以及形容詞。而所述非實體詞包括句子中的連詞以及介詞。例如,介詞“在”是非實體詞,而名詞“北京市”則是實體詞。在完成對所述句子的分詞之后,根據(jù)詞性從所述句子中的詞語中識別實體詞。
[0083]進行實體詞識別后,對識別出的實體詞標注詞性,也就是執(zhí)行詞性標注操作。
[0084]完成上述操作之后,對標注了詞性的實體詞進行依存分析。所述依存分析的目標在于獲取所述實體詞之間的語義依存關(guān)系。對實體詞進行依存分析的結(jié)果是由所述句子中的實體詞構(gòu)成的依存關(guān)系。例如,在句子“宗教工作取得顯著成績”中,經(jīng)過依存分析,實體詞“成績”依存于實體謂詞“取得”。
[0085]操作22中,根據(jù)依存分析結(jié)果,對片段結(jié)構(gòu)進行識別。
[0086]句子是由不同的片段構(gòu)成的,每個片段具有它自身的片段結(jié)構(gòu)。例如,在句子“我國將推動人民幣國際化”中包含片段“推動人民幣國際化”,而該片段是一個動賓結(jié)構(gòu)。
[0087]在操作21中,通過對句子的依存分析得到了句子中各個詞語之間的依存關(guān)系。考慮所述依存關(guān)系以及句子中詞語的詞性,即得到所述句子中的片段的片段結(jié)構(gòu)。例如,在識別句子的片段“取得顯著成績”的片段結(jié)構(gòu)時,由于實體詞“成績”依存于實體詞“取得”,并且實體詞“取得”是動詞,實體詞“成績”是名詞,所以片段“取得顯著成績”是動賓結(jié)構(gòu)。
[0088]操作23中,片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分之間的關(guān)系。
[0089]從句子中識別出屬于不同片段結(jié)構(gòu)的多個片段以后,通過對所述片段內(nèi)部的成分細化,獲取到句子的核心成分。所述核心成分是標識句子的核心議題的句子中的實體。例如,句子“馬布里從2010年開始在中國打球”的核心成分是“馬布里”。所述核心成分可以是句子的主語、謂語或者賓語。所述核心成分還可以是句子的主語、謂語或者賓語的一部分。
[0090]由于已經(jīng)獲得了組成句子的各個片段,以及各個片段的片段結(jié)構(gòu),通過對各個片段內(nèi)部成分的細化就可以得到所述句子的核心成分。
[0091]除此之外,通過對句子的片段內(nèi)部成分的細化,還需要確定核心成分與句子中其他成分之間的關(guān)系。
[0092]本實施例通過對每個句子進行分詞、實體詞識別、詞性標注以及依存分析,根據(jù)依存分析結(jié)果對片段結(jié)構(gòu)進行識別,片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分之間的關(guān)系,實現(xiàn)了對離線的網(wǎng)頁中文本數(shù)據(jù)的語義結(jié)構(gòu)分析。
[0093]第三實施例
[0094]本實施例以上述第二實施例為基礎(chǔ),給出了對離線的網(wǎng)頁中的每個句子進行語義結(jié)構(gòu)分析的另一技術(shù)方案。本技術(shù)方案中,根據(jù)依存分析結(jié)果,對片段結(jié)構(gòu)進行識別之后,片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系之前,還包括:補充片段缺失成分;片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系之后,還包括:對所述細化后的關(guān)系進行語義關(guān)系合理性驗證。
[0095]參見圖3,對離線的網(wǎng)頁中的每個句子進行語義結(jié)構(gòu)分析包括:操作31至操作35。
[0096]操作31中,進行基礎(chǔ)詞/句法分析。
[0097]對句子部分進行分詞、實體詞識別、詞性標注以及依存分析;其中實體詞識別后,對于引號以及書名號括起來的部分進行合并作為一個專名,主要是該部分語義上是一個整體,若分為多個術(shù)語(term)進行依存分析,經(jīng)常會造成依存分析以該整體中一個term作為其他外部term的核心節(jié)點;其中詞性標注后處理,是對專名識別結(jié)果、引號中實體、書名號中實體被識別為非NN或者NR詞性的修改,將其改成NR,防止依存分析中以該term作為核心根節(jié)點;依存分析后處理,主要是將依存分析樹狀結(jié)果轉(zhuǎn)成一維數(shù)組可以表達的形式,同時找出核心節(jié)點的孩子節(jié)點,方便進行片段識別。
[0098]操作32中,片段識別。
[0099]根據(jù)依存分析結(jié)果,對片段結(jié)構(gòu)進行識別,結(jié)果包括實體、名詞謂語、主賓結(jié)構(gòu)、主謂賓結(jié)構(gòu)、主謂結(jié)構(gòu)、動賓結(jié)構(gòu)、動詞片段、時間狀語、其他方式狀語、以及未識別片段等。
[0100]操作33中,補充片段缺失成分。
[0101]由于句子中有成分省略的情況,而且也有句子中的關(guān)鍵成分被代詞指代的情況,所以對句子進行按照分詞、實體詞識別、詞性標注以及依存分析而獲得的實體詞中會有片段缺失的情況。對于這種情況,需要將缺失的成分補充至所述句子片段。
[0102]補充時,主要對動賓、主賓、名詞謂語等結(jié)構(gòu)補充主語、謂語;對于知識類網(wǎng)頁(像維基百科、百度百科),對于主語不是相關(guān)實體的主謂賓、主謂等結(jié)構(gòu),都需要補充主語和實體的關(guān)系;若該主語和實體關(guān)系不大,可以認為該句子抽取的語義關(guān)系意義不大,可以去除。
[0103]具體的,可以通過對上下文的分析獲取缺失的成分,然后將缺失的成分補充至所述句子片段。例如,對于句子“三是推動人民幣國際化”,通過對上下文的分析,獲取到缺失的成分是“中國政府”。獲取到上述缺失的成分之后,將所述缺失的成分補充至所述句子中的句子片段,形成完成的句子片段“中國政府推動”。
[0104]操作34中,片段內(nèi)部成分細化。
[0105]主要是對主謂賓等3個部分進行內(nèi)部細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系。
[0106]操作35中,對所述細化后的關(guān)系進行語義關(guān)系合理性驗證。
[0107]為了避免在上述的結(jié)構(gòu)語義分析過程中出現(xiàn)錯誤,對細化后的關(guān)系進行語義關(guān)系合理性驗證。
[0108]具體的,可以通過對細化后的關(guān)系中各個成分的詞性,以及該成分與核心成分之間的關(guān)系,驗證所述細化后的關(guān)系的語義關(guān)系合理性。例如,如果在與核心謂詞之間是動賓關(guān)系的賓語的位置,如果出現(xiàn)了動詞,則所述細化后的關(guān)系在語義上是不合理的。
[0109]本實施例通過根據(jù)依存分析結(jié)果,對片段結(jié)構(gòu)進行識別之后,片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系之前,補充片段缺失成分,以及在片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系之后,對所述細化后的關(guān)系進行語義關(guān)系合理性驗證,使得通過結(jié)構(gòu)語義分析獲得的淺層知識更為準確,進而使得搜索引擎根據(jù)所述淺層知識給出的答案更為精確。
[0110]第四實施例
[0111]本實施例以上述實施例為基礎(chǔ),給出了網(wǎng)頁數(shù)據(jù)處理方法的另一種技術(shù)方案。該技術(shù)方案中,在所述置信度確定模塊確定所述淺層知識的置信度之前,還包括:對所述淺層知識進行低頻知識或低質(zhì)量過濾、冗余知識過濾和噪音知識過濾中的至少一種過濾。
[0112]參見圖4a,網(wǎng)頁數(shù)據(jù)處理方法包括:操作4al至操作4a4。
[0113]操作4al中,對離線的網(wǎng)頁中的每個句子進行結(jié)構(gòu)語義分析,得到淺層知識,其中,所述淺層知識為包含有實體信息以及實體之間關(guān)系的數(shù)據(jù),詳見第一實施例中的說明。
[0114]操作4a2中,對所述淺層知識進行低頻知識或低質(zhì)量過濾、冗余知識過濾和噪音知識過濾中的至少一種過濾。
[0115]所述低頻知識是指用戶極少會查詢的知識。所述低頻知識過濾是指濾除所述淺層知識中的低頻知識的過濾操作。具體的,可以通過統(tǒng)計所述淺層知識庫中淺層知識的訪問頻次,并根據(jù)統(tǒng)計得到的所述訪問頻次對所述淺層知識進行過濾。
[0116]所述低質(zhì)量知識是指從低質(zhì)量網(wǎng)頁中提取的淺層知識。所述低質(zhì)量過濾時將所述淺層知識中從低質(zhì)量網(wǎng)頁中提取的淺層知識濾除的過濾操作。具體的,可以通過統(tǒng)計用戶對查詢結(jié)果網(wǎng)頁的滿意度發(fā)現(xiàn)低質(zhì)量網(wǎng)頁,并根據(jù)發(fā)現(xiàn)的低質(zhì)量網(wǎng)頁對所述淺層知識執(zhí)行低質(zhì)量過濾。
[0117]所述冗余知識是指自身結(jié)構(gòu)不完整的淺層知識。例如,一條淺層知識中包含動賓結(jié)構(gòu),但是該動賓結(jié)構(gòu)的賓語缺失,則該淺層知識為冗余知識。所述冗余知識過濾是從所述淺層知識中過濾冗余知識的過濾操作。具體的,可以通過對淺層知識自身的結(jié)構(gòu)進行識別,從而完成對所述淺層知識的冗余知識過濾。
[0118]所述噪音知識是指信息含量低,不容易讓用戶感興趣的知識。例如,如果一條淺層知識中僅包含常見的詞匯,不能給用戶提供有用的信息,則該淺層知識是噪音知識。所述噪音知識是從所述淺層知識中過濾噪音知識的過濾操作。具體的,可以通過對所述淺層知識中實體詞的識別,從所述淺層知識中過濾噪音知識。
[0119]操作4a3中,確定所述淺層知識的置信度。
[0120]置信度與上述合理性驗證不同。上述合理性驗證是針對每個句子中抽取出的語義關(guān)系,在該句子環(huán)境中進行驗證,所以一條淺層知識在不同的句子中,其驗證結(jié)果可能不同,有的被保留,有的被舍棄。
[0121]置信度計算是先對所有句子中抽取出的淺層知識進行去重合并,然后從全局的角度計算去重后的每條知識的置信度,所以一條淺層知識只有一個置信度。而最終進入淺層知識庫中的數(shù)據(jù)由該置信度計算來保證,也就是說置信度計算要負責對單條結(jié)果合理性驗證過程中出現(xiàn)的錯誤進行補救。
[0122]置信度計算要解決的問題主要包括以下幾個方面:
[0123]I)全網(wǎng)網(wǎng)頁中網(wǎng)頁質(zhì)量會存在差異,很多網(wǎng)頁中包含嵌入廣告和推廣信息等噪音,這會使得基礎(chǔ)詞/句法分析錯誤,導致抽取出冗余或者噪音知識。
[0124]2)知識抽取系統(tǒng)本身還不能保證百分之百的準確率,基礎(chǔ)的詞/句法分析錯誤、知識的各個成分抽取錯誤等都可能會導致最終抽取的知識不完整,或者是語義丟失。
[0125]3)自然語言文本中具有不可避免的不確定性以及歧義性,導致知識抽取的結(jié)果中會存在噪音、歧義甚至是知識的沖突。
[0126]為了解決以上三個方面的問題,通過置信度計算來提高淺層知識庫中知識的質(zhì)量。
[0127]如圖4b所示,置信度計算包括:操作4bl_操作4b4。
[0128]操作4bl中,預處理。
[0129]預處理是為了解決上面所述的第一類問題,對知識庫中的低頻知識和低質(zhì)量網(wǎng)頁中抽取的知識進行統(tǒng)一的過濾。知識的頻率表示了知識在全網(wǎng)中被提及的次數(shù),對于那些非常低頻的知識,可以認為是人們極少使用的知識,可以過濾掉。網(wǎng)頁質(zhì)量越高,網(wǎng)頁中的文本越具有權(quán)威性,反之,低質(zhì)量網(wǎng)頁中包含嵌入廣告和推廣信息等噪音,使得基礎(chǔ)詞法/句法分析錯誤,導致抽取出錯誤的知識。
[0130]操作4b2中,冗余知識過濾。
[0131]其中,冗余知識是指不包含完整語義的知識,這樣的知識存在知識庫中不僅沒有價值,而且會影響檢索的速度。這部分的工作主要包括:過濾結(jié)構(gòu)不完整的知識,例如一個以及物動詞作為謂詞的知識,如果其不包含賓語,這條知識的結(jié)構(gòu)就是不完整的;過濾包含代詞的知識,由于代詞實際指代的對象不在知識中,包含代詞的知識同樣可以認為是不完整的。
[0132]操作4b3中,噪音知識過濾。
[0133]其中,噪音知識是指知識結(jié)構(gòu)完整,但卻不包含讓人感性趣的知識價值,這樣的知識存在知識庫中,會降低檢索的準確率。噪音知識過濾的主要工作包括:過濾關(guān)系不匹配的知識,例如人名和非人名處于并列關(guān)系的知識;知識區(qū)分性的衡量,如果知識中的元組是非常常見的詞匯,例如“一起”,這樣的知識不具有較高的區(qū)分性,可以去除,通常情況下,知識中專有名詞越多,知識的區(qū)分性也越大;利用權(quán)威知識做驗證,可以認為從結(jié)構(gòu)化網(wǎng)頁抽取的知識和百科網(wǎng)頁中抽取的知識是權(quán)威知識。
[0134]操作4b4中,知識的置信度計算。
[0135]在以上三種方式處理后,仍然有很多知識存在著歧義或者沖突,例如知識庫中同時存在〈曹操,殺,華佗〉和〈諸葛亮,殺,華佗〉,后者是網(wǎng)頁中的錯誤文本抽取的到的結(jié)果,可以通過條件概率、歸一化點互信息等特征綜合計算出知識的置信度,最終使得正確知識具有一個較高的全局置信度值。
[0136]操作4a4中,根據(jù)所述置信度對所述淺層知識建庫,得到淺層知識庫,詳見上述第一實施例中的說明。
[0137]本實施例通過在確定所述淺層知識的置信度之前,對所述淺層知識進行低頻知識或低質(zhì)量過濾、冗余知識過濾和噪音知識過濾中的至少一種過濾,保證了所述淺層知識庫中存儲的淺層知識的質(zhì)量,為基于所述淺層知識庫中的淺層知識向用戶提供準確的問題答案提供了基礎(chǔ)。
[0138]第五實施例
[0139]本實施例以上述實施例為基礎(chǔ),給出了網(wǎng)頁數(shù)據(jù)處理方法的又一種技術(shù)方案。該技術(shù)方案中,根據(jù)所述置信度對所述淺層知識建庫,包括:將所述淺層知識的置信度與預先設(shè)定的閾值進行比較;對濾除置信度小于所述閾值的淺層知識后的剩余淺層知識建庫。
[0140]參見圖5,本實施例提供的網(wǎng)頁數(shù)據(jù)處理方法包括:操作51至操作55。
[0141]操作51中,對離線的網(wǎng)頁中的每個句子進行結(jié)構(gòu)語義分析,得到淺層知識,其中,所述淺層知識為包含有實體信息以及實體之間關(guān)系的數(shù)據(jù),詳見上述第一實施例中的說明。
[0142]操作52中,確定所述淺層知識的置信度,詳見上述第一實施例中的說明。
[0143]操作53中,將所述淺層知識的置信度與預先設(shè)定的閾值進行比較。
[0144]在本實施例中,對所述淺層知識庫中淺層知識的置信度預先設(shè)定一個閾值。在確定所述淺層知識的置信度之后,將所述淺層知識的置信度與所述預先設(shè)定的閾值進行比較。
[0145]操作54中,濾除置信度小于所述閾值的淺層知識。
[0146]將所述淺層知識的置信度與所述預先設(shè)定的閾值比較以后,過濾掉置信度小于所述閾值的淺層知識,而保留置信度大于所述閾值的淺層知識。
[0147]操作55中,對濾除置信度小于所述閾值的淺層知識后的剩余淺層知識建庫,得到淺層知識庫,詳見上述第一實施例中的說明。
[0148]在本實施例中,僅對經(jīng)過上述過濾操作的淺層知識進行建庫,進一步提高了淺層知識庫的置信度,從而使得查詢結(jié)果的準確性更高。
[0149]本實施例通過將所述淺層知識的置信度與預先設(shè)定的閾值進行比較,以及濾除置信度小于所述閾值的淺層知識,保證了所述淺層知識庫中的淺層知識的置信度較高,進一步提高了搜索引擎向用戶提供的答案的準確性。
[0150]第六實施例
[0151]本實施例提供的查詢處理方法可由查詢處理裝置或搜索引擎執(zhí)行。其中,查詢處理裝置可以是搜索引擎的一個功能模塊。
[0152]參見圖6a,本實施例提供的查詢處理方法包括:操作6al至操作6a3。
[0153]操作6al中,對輸入的查詢語句進行語法分析,得到所述查詢語句的結(jié)構(gòu)語義表不O
[0154]一般來說,用戶輸入的查詢語句是一個疑問句。例如,用戶輸入到搜索引擎的搜索框內(nèi)的查詢語句可以是“三歲小孩吃什么補鈣”。
[0155]搜索引擎接收到所述查詢語句以后,對所述查詢語句進行基礎(chǔ)詞法句法分析,即得到所述查詢語句的結(jié)構(gòu)語義表示。所述結(jié)構(gòu)語義表示是用來表征用戶輸入的查詢語句的語義結(jié)構(gòu)的語義結(jié)構(gòu)。
[0156]參見圖6b,在所述結(jié)構(gòu)語義表示中包括疑問詞6bl以及所述查詢語句的其他成分6b2o優(yōu)選的,在所述結(jié)構(gòu)語義表示中還可以包括表示所述疑問詞6bl所指代的內(nèi)容類型的類型詞6b3。而且,除了所述疑問詞6bl、所述查詢語句的其他成分6b2,所述結(jié)構(gòu)語義表示還包括所述疑問詞6bl與所述其他成分6b2之間的語義關(guān)系的語義關(guān)系屬性6b4。
[0157]可以看出,query的結(jié)構(gòu)化語義表示,和針對句子的結(jié)構(gòu)語義關(guān)系抽取,有相似之處,都是利用基礎(chǔ)的詞句法分析,獲得query/句子中關(guān)鍵結(jié)點間的關(guān)系。而此處對query的結(jié)構(gòu)化理解和前述的結(jié)構(gòu)語義關(guān)系分析不同之處在于:首先,query是問句,不同于一般的陳述句,
[0158]即query中答案處是缺失的,替代其出現(xiàn)的可能是疑問詞,如“什么”,“哪里”等,也有可能是疑問詞+類型詞,如“什么食物”、“哪個城市”。這個答案缺失的片段我們稱為focus, focus的使用意義是:將focus替換成答案,即可將問題轉(zhuǎn)化為一個合理的陳述句。如上query:三歲小孩吃什么補媽,focus即為畫橫線處“什么”,將其替換為某候選答案如“魚”,則可將其轉(zhuǎn)化為一個合理陳述句:三歲小孩吃魚補鈣。
[0159]操作6a2中,根據(jù)所述查詢語句的結(jié)構(gòu)語義表示,從淺層知識庫中得到候選答案,其中,所述淺層知識庫根據(jù)置信度對淺層知識建庫得到,所述淺層知識為包含有實體信息以及實體之間關(guān)系的數(shù)據(jù),具體詳見上述網(wǎng)頁數(shù)據(jù)處理方法實施例。
[0160]所述淺層知識庫是對離線的網(wǎng)頁中的文本數(shù)據(jù)執(zhí)行網(wǎng)頁數(shù)據(jù)處理方法而得到的,有不同淺層知識組成的淺層知識集合。所述淺層知識庫中存儲有置信度較高的淺層知識。而所述淺層知識是包含有實體信息以及所述實體之間的關(guān)系的數(shù)據(jù)。
[0161]得到所述查詢語句的結(jié)構(gòu)語義表示之后,根據(jù)所述結(jié)構(gòu)語義表示從所述淺層知識庫中獲取候選答案。優(yōu)選的,可以利用所述結(jié)構(gòu)語義表示中包含的所述查詢語句的句子成分,查詢所述淺層知識庫,從所述淺層知識庫中召回與所述查詢語句對應的淺層知識。在召回淺層知識之后,通過對所述淺層知識的分析,抽取候選答案。
[0162]操作6a3中,對所述候選答案進行合理性驗證,得到最終答案。
[0163]從所述淺層知識庫中得到候選答案之后,對所述候選答案一一進行合理性驗證,以從所述候選答案中獲取最終答案。優(yōu)選的,可以通過對所述查詢語句的分析獲得所述最終答案的個數(shù),再根據(jù)所述個數(shù)從候選答案中抽取最終答案。
[0164]本實施例提供的查詢處理方法,通過對輸入的查詢語句進行語法分析,得到所述查詢語句的結(jié)構(gòu)語義表示,根據(jù)所述查詢語句的結(jié)構(gòu)語義表示,從淺層知識庫中得到候選答案,以及對所述候選答案進行合理性驗證,得到最終答案,實現(xiàn)了基于高質(zhì)量的基礎(chǔ)數(shù)據(jù)對用戶查詢的問題進行答案搜索,并最終給出答案,有效地提高了查詢的準確性。
[0165]示例性的,上述對輸入的查詢語句進行語法分析,得到所述查詢語句的結(jié)構(gòu)語義表示,包括:
[0166]找到所述查詢語句中的焦點,并識別出所述查詢語句的答案類型;
[0167]根據(jù)所述查詢語句的答案類型,對所述查詢語句采用語法分析技術(shù),得到所有和所述焦點相關(guān)的淺層知識;
[0168]確定和所述焦點相關(guān)的淺層知識之間的關(guān)系。
[0169]示例性的,上述確定和所述焦點相關(guān)的淺層知識之間的關(guān)系之前,本發(fā)明實施例提供的查詢處理方法還包括:
[0170]對所有和所述焦點相關(guān)的淺層知識進行實體類型識別、實體擴展和關(guān)系識別。
[0171]示例性的,上述根據(jù)所述查詢語句的結(jié)構(gòu)語義表示,從淺層知識庫中得到候選答案,包括:
[0172]根據(jù)所述查詢語句的結(jié)構(gòu)語義表示召回候選的淺層知識片段;
[0173]從所述候選的淺層知識片段中確定有所述查詢語句的候選答案。
[0174]示例性的,上述對所述候選答案進行合理性驗證,得到最終答案,包括:
[0175]確定答案個數(shù);
[0176]根據(jù)答案個數(shù)對所述候選答案進行合理性驗證,得到最終答案。
[0177]第七實施例
[0178]本實施例以第六實施例為基礎(chǔ),給出了查詢處理方法中語法分析的一種技術(shù)方案。該技術(shù)方案中,對輸入的查詢語句進行語法分析,得到所述查詢語句的結(jié)構(gòu)語義表示,包括:找到所述查詢語句中的焦點,并識別出所述查詢語句的答案類型;根據(jù)所述查詢語句的答案類型,對所述查詢語句采用基礎(chǔ)詞句法分析技術(shù),得到所有和所述焦點相關(guān)的淺層知識;確定和所述焦點相關(guān)的淺層知識之間的關(guān)系。
[0179]參見圖7,本實施例提供的對查詢語句的語法分析包括:操作71至操作73。
[0180]操作71中,找到所述查詢語句中的焦點,并識別出所述查詢語句的答案類型。
[0181]所述焦點是指疑問句的特征成分,或者說是最有可能與答案有關(guān)的問題信息或成分。根據(jù)問題的焦點可以推斷疑問句所要尋找的答案實體類型。所述焦點可能在所述查詢語句中明示,也可能隱含在所述查詢語句中。
[0182]找到所述查詢語句中的焦點之后,可以根據(jù)所述焦點識別出所述查詢語句的答案類型。例如,對查詢語句“三歲小孩吃什么補鈣”,它的答案類型是食物或者藥物。
[0183]操作72中,根據(jù)所述查詢語句的答案類型,對所述查詢語句采用語法分析技術(shù),得到所有和所述焦點相關(guān)的淺層知識。
[0184]確定所述查詢語句的答案類型之后,根據(jù)所述答案類型對所述查詢語句執(zhí)行基礎(chǔ)詞法句法分析。需要說明的是,對所述查詢語句進行的基礎(chǔ)詞句法分析的結(jié)果可以是數(shù)量大于一條的淺層知識。例如,通過對查詢語句“三歲小孩吃什么補鈣”的基礎(chǔ)詞句法分析,可以得到〈三歲小孩,吃,什么 > 以及〈什么,補鈣 > 兩條淺層知識。
[0185]操作73中,確定和所述焦點相關(guān)的淺層知識之間的關(guān)系。
[0186]通過對所述查詢語句進行基礎(chǔ)詞句法得到的淺層知識之間可以是邏輯與的關(guān)系。例如,在對查詢語句“三歲小孩吃什么補鈣”的查詢語句的基礎(chǔ)詞句法分析得到的兩條淺層知識中,也就是淺層知識〈三歲小孩,吃,什么 > 以及淺層知識〈什么,補鈣>,二者是邏輯與的關(guān)系。
[0187]當淺層知識之間是邏輯與的關(guān)系,在根據(jù)所述淺層知識從所述淺層知識庫中獲取候選答案時,所述候選答案必須同時滿足對所述查詢語句進行基礎(chǔ)詞句法分析而得到的淺層知識。只有這樣,才能保證獲取的候選答案的正確性。因此,在得到與所述焦點相關(guān)的淺層知識之后,需要確定所述淺層知識之間的關(guān)系。
[0188]當然,在對所述查詢語句進行基礎(chǔ)詞句法分析得到的淺層知識中,所述淺層知識之間的關(guān)系可以是邏輯或的關(guān)系。
[0189]在確定了所述淺層知識之間的關(guān)系之后,根據(jù)確定的所述淺層知識之間的關(guān)系生成所述查詢語句的結(jié)構(gòu)語義表示。
[0190]本發(fā)明實施例通過找到所述查詢語句中的焦點,并識別出所述查詢語句的答案類型,根據(jù)所述查詢語句的答案類型,對所述查詢語句采用基礎(chǔ)詞句法分析技術(shù),得到所有和所述焦點相關(guān)的淺層知識,以及確定和所述焦點相關(guān)的淺層知識之間的關(guān)系,實現(xiàn)了對輸入的查詢語句進行的基礎(chǔ)詞法句法分析。
[0191]第八實施例
[0192]本實施例以第七實施例為基礎(chǔ),給出了查詢處理方法中語法分析的另一種技術(shù)方案。該技術(shù)方案中,確定和所述焦點相關(guān)的淺層知識之間的關(guān)系之前,還包括:對所有和所述焦點相關(guān)的淺層知識進行實體類型識別、實體擴展和關(guān)系識別。
[0193]參見圖8,本實施例提供的對查詢語句進行語法分析包括:操作81至操作84。
[0194]操作81中,找到所述查詢語句中的焦點,并識別出所述查詢語句的答案類型。
[0195]操作82中,根據(jù)所述查詢語句的答案類型,對所述查詢語句采用基礎(chǔ)詞句法分析技術(shù),得到所有和所述焦點相關(guān)的淺層知識。
[0196]上述操作81和82詳見上述第七實施例中的說明。
[0197]操作83中,對所有和所述焦點相關(guān)的淺層知識進行實體類型識別、實體擴展和關(guān)系識別。
[0198]獲取大與所述焦點相關(guān)的淺層知識之后,對所述淺層知識進行補充擴展。所述補充擴展包括對所述淺層知識的實體類型識別、實體擴展和關(guān)系識別。對所述淺層知識進行補充擴展的目的在于,獲取與焦點相關(guān)的盡量多的淺層知識,以擴大對候選答案的召回范圍。
[0199]舉例來說,對于淺層知識〈三歲小孩,吃,什么 >,可以通過實體擴展獲得相關(guān)的淺層知識〈兒童,吃,什么 >,以保證擴大對候選答案的召回范圍。
[0200]操作84中,確定和所述焦點相關(guān)的淺層知識之間的關(guān)系,詳見上述第七實施例中的說明。
[0201]本實施例通過在確定和所述焦點相關(guān)的淺層知識之間的關(guān)系之前,對所有和所述焦點相關(guān)的淺層知識進行實體類型識別、實體擴展和關(guān)系識別,對所述淺層知識進行了補充擴展,擴大了對候選答案的召回范圍。
[0202]第九實施例
[0203]本實施例以上述第六實施例為基礎(chǔ),給出了查詢處理方法中確定候選答案的一種技術(shù)方案。該技術(shù)方案中,根據(jù)所述查詢語句的結(jié)構(gòu)語義表示,從淺層知識庫中得到候選答案,包括:根據(jù)所述查詢語句的結(jié)構(gòu)語義表示召回候選的淺層知識片段;對所述候選的淺層知識片段進行分析,確定有所述查詢語句的候選答案。
[0204]參見圖9,本實施例提供的候選答案確定包括:操作91及操作92。
[0205]操作91中,根據(jù)所述查詢語句的結(jié)構(gòu)語義表示召回候選的淺層知識片段。
[0206]所述結(jié)構(gòu)語義表示用戶輸入的查詢語句的語義結(jié)構(gòu)的語義結(jié)構(gòu)。利用所述結(jié)構(gòu)語義表示查詢通過對離線的網(wǎng)頁進行分析而建立的離線的淺層知識庫,從而召回候選的淺層知識片段。
[0207]操作92中,從所述候選的淺層知識片段中確定有所述查詢語句的候選答案。
[0208]從所述淺層知識庫召回候選的淺層知識片段之后,對所述候選的淺層知識片段進行分析,從而確定所述查詢語句的候選答案。
[0209]對所述淺層知識片段進行的分析是依據(jù)與所述查詢語句的結(jié)構(gòu)語義表示而進行的。優(yōu)選的,根據(jù)所述查詢語句的結(jié)構(gòu)語義表示確定所述候選答案在所述淺層知識片段中所在的位置,進而從所述淺層知識片段中確定候選答案。
[0210]在確定候選答案時,需要考慮所述候選答案所對應的對所述查詢語句進行分析而得到的淺層知識之間的關(guān)系。當所述淺層知識之間的關(guān)系是邏輯與時,對不同淺層知識對應的候選答案求邏輯與,得到候選答案集合;當所述淺層知識之間的關(guān)系是邏輯或時,對不同淺層知識對應的候選答案求邏輯與,得到候選答案集合。
[0211]本實施例通過根據(jù)所述查詢語句的結(jié)構(gòu)語義表示召回候選的淺層知識片段,以及從所述候選的淺層知識片段中確定有所述查詢語句的候選答案,實現(xiàn)了根據(jù)所述查詢語句的結(jié)構(gòu)語義表示確定所述查詢語句的候選答案。
[0212]第十實施例
[0213]本實施例以上述查詢處理方法實施例為基礎(chǔ),給出了對候選答案進行合理性驗證的一種技術(shù)方案。該技術(shù)方案中,對所述候選答案進行合理性驗證,得到最終答案,包括:確定答案個數(shù);根據(jù)答案個數(shù)對所述候選答案進行合理性驗證,得到最終答案。
[0214]參見圖10,本實施例提供的合理性驗證包括:操作101及操作102。
[0215]操作101中,確定答案個數(shù)。
[0216]可以理解的是,對用戶輸入的查詢語句,其對應的答案的個數(shù)不同。例如,對用戶輸入的查詢語句“中國古代四大美女是誰”的查詢語句,其對應的答案的個數(shù)是四。
[0217]一般來說,對于從所述查詢語句字面可以判斷答案個數(shù)的查詢語句。因此,可以依據(jù)對所述查詢語句的分析得到所述答案個數(shù)。
[0218]操作102中,根據(jù)答案個數(shù)對所述候選答案進行合理性驗證,得到最終答案。
[0219]如果生成的候選答案的個數(shù)與所述答案個數(shù)相符,則將所述候選答案作為最終答案;如果生成的候選答案的個數(shù)與所述答案個數(shù)不符,則不將所述候選答案作為最終答案。
[0220]本實施例通過確定答案個數(shù),根據(jù)答案個數(shù)對所述候選答案進行合理性驗證,并得到最終答案,實現(xiàn)了對提交給用戶的答案的合理性驗證,保證了對用戶的查詢語句給出準確的答案。
[0221]第^^一實施例
[0222]參見圖11,本實施例提供的網(wǎng)頁數(shù)據(jù)處理裝置包括:語義分析模塊111、置信度確定模塊112以及建庫模塊113。
[0223]所述語義分析模塊111用于對離線的網(wǎng)頁中的每個句子進行結(jié)構(gòu)語義分析,得到淺層知識,其中,所述淺層知識為包含有實體信息以及實體之間關(guān)系的數(shù)據(jù)。
[0224]所述置信度確定模塊112用于確定所述淺層知識的置信度。
[0225]所述建庫模塊113用于根據(jù)所述置信度對所述淺層知識建庫,得到淺層知識庫。
[0226]優(yōu)選的,所述語義分析模塊111具體用于:
[0227]對每個句子進行分詞、實體詞識別、詞性標注以及依存分析;
[0228]根據(jù)依存分析結(jié)果,對片段結(jié)構(gòu)進行識別;
[0229]片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系。
[0230]優(yōu)選的,所述語義分析模塊111還用于:
[0231]在根據(jù)依存分析結(jié)果,對片段結(jié)構(gòu)進行識別之后,片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系之前,補充片段缺失成分。
[0232]優(yōu)選的,所述語義分析模塊111還用于:在片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系之后,對所述細化后的關(guān)系進行語義關(guān)系合理性驗證。
[0233]優(yōu)選的,所述網(wǎng)頁數(shù)據(jù)處理裝置還包括:過濾模塊。
[0234]所述過濾模塊用于在所述置信度確定模塊112確定所述淺層知識的置信度之前,對所述淺層知識進行低頻知識或低質(zhì)量過濾、冗余知識過濾和噪音知識過濾中的至少一種過濾。
[0235]優(yōu)選的,所述置信度確定模塊112具體用于:
[0236]通過條件概率和歸一化點互信息綜合計算出知識的置信度。
[0237]優(yōu)選的,所述建庫模塊113包括:比較子模塊以及建庫子模塊。
[0238]所述比較子模塊用于將所述淺層知識的置信度與預先設(shè)定的閾值進行比較;
[0239]所述建庫子模塊用于對濾除置信度小于所述閾值的淺層知識后的剩余淺層知識建庫。
[0240]優(yōu)選的,所述建庫子模塊具體用于:
[0241]以所述剩余淺層知識中的每個元素為鍵key,建立倒排索引,倒排索引中存儲每條剩余淺層知識的標識ID ;
[0242]或者,以所述剩余淺層知識的ID為key,以所述淺剩余層知識的正文和置信度為key的值,建立剩余淺層知識的鍵值對。
[0243]上述網(wǎng)頁數(shù)據(jù)處理裝置可執(zhí)行本發(fā)明任意實施例所提供的網(wǎng)頁數(shù)據(jù)處理方法,具備與網(wǎng)頁數(shù)據(jù)處理方法中各操作相對應的功能模塊和有益效果。
[0244]第十二實施例
[0245]參見圖12,本實施例提供的查詢處理裝置包括:語義分析模塊121、候選答案確定模塊122以及驗證模塊123。
[0246]所述語義分析模塊121用于對輸入的查詢語句進行基礎(chǔ)詞法句法分析,得到所述查詢語句的結(jié)構(gòu)語義表示。
[0247]所述候選答案確定模塊122用于根據(jù)所述查詢語句的結(jié)構(gòu)語義表示,從淺層知識庫中得到候選答案,其中,所述淺層知識庫根據(jù)置信度對淺層知識建庫得到,所述淺層知識為包含有實體信息以及實體之間關(guān)系的數(shù)據(jù)。
[0248]所述驗證模塊123用于對所述候選答案進行合理性驗證,得到最終答案。
[0249]優(yōu)選的,所述語義分析模塊121具體用于:
[0250]找到所述查詢語句中的焦點,并識別出所述查詢語句的答案類型;
[0251]根據(jù)所述查詢語句的答案類型,對所述查詢語句采用基礎(chǔ)詞句法分析技術(shù),得到所有和所述焦點相關(guān)的淺層知識;
[0252]確定和所述焦點相關(guān)的淺層知識之間的關(guān)系。
[0253]優(yōu)選的,所述語義分析模塊121還用于:
[0254]在所述確定和所述焦點相關(guān)的淺層知識之間的關(guān)系之前,對所有和所述焦點相關(guān)的淺層知識進行實體類型識別、實體擴展和關(guān)系識別。
[0255]優(yōu)選的,所述候選答案確定模塊122具體用于:
[0256]根據(jù)所述查詢語句的結(jié)構(gòu)語義表示召回候選的淺層知識片段;
[0257]從所述候選的淺層知識片段中確定有所述查詢語句的候選答案。
[0258]優(yōu)選的,所述驗證模塊123具體用于:
[0259]確定答案個數(shù);
[0260]根據(jù)答案個數(shù)對所述候選答案進行合理性驗證,得到最終答案。
[0261]上述查詢處理裝置可執(zhí)行本發(fā)明任意實施例所提供的查詢處理方法,具備與查詢處理方法中各操作相對應的功能模塊和有益效果。
[0262]第十三實施例
[0263]參見圖13a,本實施例提供的問答系統(tǒng)包括:網(wǎng)頁數(shù)據(jù)處理裝置131以及查詢處理裝置132。
[0264]所述網(wǎng)頁數(shù)據(jù)處理裝置131可為上述任意實施例提供的網(wǎng)頁數(shù)據(jù)處理裝置,用于離線建立淺層知識庫。
[0265]所述查詢處理裝置132可為上述任意實施例提供的查詢處理裝置,用于對輸入的查詢語句進行語義分析,根據(jù)語義分析結(jié)果從所述網(wǎng)頁數(shù)據(jù)處理裝置131建立的淺層知識庫中獲得候選答案,并對候選答案進行驗證,得到最終答案。
[0266]參見圖13b,其中,網(wǎng)頁數(shù)據(jù)處理裝置131用于實現(xiàn)離線知識挖掘,查詢處理裝置132用于基于網(wǎng)頁數(shù)據(jù)處理裝置131挖掘的淺層知識庫實現(xiàn)在線答案檢索。
[0267]上述問答系統(tǒng)可執(zhí)行本發(fā)明任意實施例所提供的網(wǎng)頁數(shù)據(jù)處理方法和查詢處理方法,具備與網(wǎng)頁數(shù)據(jù)處理方法和查詢處理方法中各操作相對應的功能模塊和有益效果。
[0268]上述方法、裝置及系統(tǒng)實施例提供的查詢處理方法一方面對查詢的問題回答精準。因為這里的答案抽取并不僅僅是簡單的字面相關(guān)性計算,而是涉及到結(jié)構(gòu)語義層次,對query中缺失的部分進行補全。同時離線挖掘所得的淺層知識經(jīng)過了全局置信度計算,能夠極大減輕個別句子的詞法句法分析錯誤帶來的不利影響。另一方面可以降低用戶的瀏覽成本。該技術(shù)對于一些結(jié)構(gòu)相對復雜的問答類query,可以直接返回給用戶精準答案,不需要用戶點開網(wǎng)頁尋找答案。又一方面可以降低搜索引擎等系統(tǒng)的成本。因為系統(tǒng)存儲的只是經(jīng)過大量離線挖掘計算后保留下的精準知識,這一數(shù)據(jù)的量級遠遠小于未經(jīng)處理的原始網(wǎng)頁庫,同時檢索的計算成本也相應降低。本領(lǐng)域普通技術(shù)人員應該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡上,可選地,他們可以用計算機裝置可執(zhí)行的程序代碼來實現(xiàn),從而可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件的結(jié)合。
[0269]本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間的相同或相似的部分互相參見即可。
[0270]以上所述僅為本發(fā)明的優(yōu)選實施例,并不用于限制本發(fā)明,對于本領(lǐng)域技術(shù)人員而言,本發(fā)明可以有各種改動和變化。凡在本發(fā)明的精神和原理之內(nèi)所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種網(wǎng)頁數(shù)據(jù)處理方法,其特征在于,包括: 對離線的網(wǎng)頁中的每個句子進行結(jié)構(gòu)語義分析,得到淺層知識,其中,所述淺層知識為包含有實體信息以及實體之間關(guān)系的數(shù)據(jù); 確定所述淺層知識的置信度; 根據(jù)所述置信度對所述淺層知識建庫,得到淺層知識庫。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對離線的網(wǎng)頁中的每個句子進行結(jié)構(gòu)語義分析,包括: 對每個句子進行分詞、實體詞識別、詞性標注以及依存分析; 根據(jù)依存分析結(jié)果,對片段結(jié)構(gòu)進行識別; 片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)依存分析結(jié)果,對片段結(jié)構(gòu)進行識別之后,片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系之前,還包括: 補充片段缺失成分。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系之后,還包括: 對所述細化后的關(guān)系進行語義關(guān)系合理性驗證。
5.根據(jù)權(quán)利要求1-4任一項所述的方法,其特征在于,確定所述淺層知識的置信度之前,所述方法還包括: 對所述淺層知識進行低頻知識或低質(zhì)量過濾、冗余知識過濾和噪音知識過濾中的至少一種過濾。
6.根據(jù)權(quán)利要求1-4任一項所述的方法,其特征在于,確定所述淺層知識的置信度,包括: 通過條件概率和歸一化點互信息綜合計算出知識的置信度。
7.根據(jù)權(quán)利要求1-4任一項所述的方法,其特征在于,根據(jù)所述置信度對所述淺層知識建庫,包括: 將所述淺層知識的置信度與預先設(shè)定的閾值進行比較; 對濾除置信度小于所述閾值的淺層知識后的剩余淺層知識建庫。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,對濾除置信度小于所述閾值的淺層知識后的剩余淺層知識建庫,包括: 以所述剩余淺層知識中的每個元素為鍵key,建立倒排索引,倒排索引中存儲每條剩余淺層知識的標識ID ; 或者,以所述剩余淺層知識的ID為key,以所述剩余淺層知識的正文和置信度為key的值,建立剩余淺層知識的鍵值對。
9.一種查詢處理方法,其特征在于,包括: 對輸入的查詢語句進行語法分析,得到所述查詢語句的結(jié)構(gòu)語義表示; 根據(jù)所述查詢語句的結(jié)構(gòu)語義表示,從淺層知識庫中得到候選答案,其中,所述淺層知識庫根據(jù)置信度對淺層知識建庫得到,所述淺層知識為包含有實體信息以及實體之間關(guān)系的數(shù)據(jù); 對所述候選答案進行合理性驗證,得到最終答案。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,對輸入的查詢語句進行語法分析,得到所述查詢語句的結(jié)構(gòu)語義表示,包括: 找到所述查詢語句中的焦點,并識別出所述查詢語句的答案類型; 根據(jù)所述查詢語句的答案類型,對所述查詢語句采用語法分析技術(shù),得到所有和所述焦點相關(guān)的淺層知識; 確定和所述焦點相關(guān)的淺層知識之間的關(guān)系。
11.根據(jù)權(quán)利要求9或10所述的方法,其特征在于,確定和所述焦點相關(guān)的淺層知識之間的關(guān)系之前,所述方法還包括: 對所有和所述焦點相關(guān)的淺層知識進行實體類型識別、實體擴展和關(guān)系識別。
12.根據(jù)權(quán)利要求9或10所述的方法,其特征在于,根據(jù)所述查詢語句的結(jié)構(gòu)語義表示,從淺層知識庫中得到候選答案,包括: 根據(jù)所述查詢語句的結(jié)構(gòu)語義表示召回候選的淺層知識片段; 從所述候選的淺層知識片段中確定有所述查詢語句的候選答案。
13.根據(jù)權(quán)利要求9或10所述的方法,其特征在于,對所述候選答案進行合理性驗證,得到最終答案,包括: 確定答案個數(shù); 根據(jù)答案個數(shù)對所述候選答案進行合理性驗證,得到最終答案。
14.一種網(wǎng)頁數(shù)據(jù)處理裝置,其特征在于,包括: 語義分析模塊,用于對離線的網(wǎng)頁中的每個句子進行結(jié)構(gòu)語義分析,得到淺層知識,其中,所述淺層知識為包含有實體信息以及實體之間關(guān)系的數(shù)據(jù); 置信度確定模塊,用于確定所述淺層知識的置信度; 建庫模塊,用于根據(jù)所述置信度對所述淺層知識建庫,得到淺層知識庫。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述語義分析模塊具體用于: 對每個句子進行分詞、實體詞識別、詞性標注以及依存分析; 根據(jù)依存分析結(jié)果,對片段結(jié)構(gòu)進行識別; 片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述語義分析模塊還用于: 在根據(jù)依存分析結(jié)果,對片段結(jié)構(gòu)進行識別之后,片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系之前,補充片段缺失成分。
17.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述語義分析模塊還用于:在片段內(nèi)部成分細化,得到句子的核心成分,以及其他成分與核心成分間的關(guān)系之后,對所述細化后的關(guān)系進行語義關(guān)系合理性驗證。
18.根據(jù)權(quán)利要求14-17任一項所述的裝置,其特征在于,所述裝置還包括: 過濾模塊,用于在所述置信度確定模塊確定所述淺層知識的置信度之前,對所述淺層知識進行低頻知識或低質(zhì)量過濾、冗余知識過濾和噪音知識過濾中的至少一種過濾。
19.根據(jù)權(quán)利要求14-17任一項所述的裝置,其特征在于,所述置信度確定模塊具體用于: 通過條件概率和歸一化點互信息綜合計算出知識的置信度。
20.根據(jù)權(quán)利要求14-17任一項所述的裝置,其特征在于,所述建庫模塊包括: 比較子模塊,用于將所述淺層知識的置信度與預先設(shè)定的閾值進行比較; 建庫子模塊,用于對濾除置信度小于所述閾值的淺層知識后的剩余淺層知識建庫。
21.根據(jù)權(quán)利要求20所述的裝置,其特征在于,所述建庫子模塊具體用于: 以所述剩余淺層知識中的每個元素為鍵key,建立倒排索引,倒排索引中存儲每條剩余淺層知識的標識ID ; 或者,以所述剩余淺層知識的ID為key,以所述剩余淺層知識的正文和置信度為key的值,建立剩余淺層知識的鍵值對。
22.—種查詢處理裝置,其特征在于,包括: 語義分析模塊,用于對輸入的查詢語句進行語法分析,得到所述查詢語句的結(jié)構(gòu)語義表不; 候選答案確定模塊,用于根據(jù)所述查詢語句的結(jié)構(gòu)語義表示,從淺層知識庫中得到候選答案,其中,所述淺層知識庫根據(jù)置信度對淺層知識建庫得到,所述淺層知識為包含有實體信息以及實體之間關(guān)系的數(shù)據(jù); 驗證模塊,用于對所述候選答案進行合理性驗證,得到最終答案。
23.根據(jù)權(quán)利要求22所述的裝置,其特征在于,所述語義分析模塊具體用于: 找到所述查詢語句中的焦點,并識別出所述查詢語句的答案類型; 根據(jù)所述查詢語句的答案類型,對所述查詢語句采用基礎(chǔ)詞句法分析技術(shù),得到所有和所述焦點相關(guān)的淺層知識; 確定和所述焦點相關(guān)的淺層知識之間的關(guān)系。
24.根據(jù)權(quán)利要求22或23所述的裝置,其特征在于,所述語義分析模塊還用于: 在所述確定和所述焦點相關(guān)的淺層知識之間的關(guān)系之前,對所有和所述焦點相關(guān)的淺層知識進行實體類型識別、實體擴展和關(guān)系識別。
25.根據(jù)權(quán)利要求22或23所述的裝置,其特征在于,所述候選答案確定模塊具體用于: 根據(jù)所述查詢語句的結(jié)構(gòu)語義表示召回候選的淺層知識片段; 從所述候選的淺層知識片段中確定有所述查詢語句的候選答案。
26.根據(jù)權(quán)利要求22或23所述的裝置,其特征在于,所述驗證模塊具體用于: 確定答案個數(shù); 根據(jù)答案個數(shù)對所述候選答案進行合理性驗證,得到最終答案。
27.一種問答系統(tǒng),其特征在于,包括:上述權(quán)利要求14-21任一項所述的網(wǎng)頁數(shù)據(jù)處理裝置和上述權(quán)利要求22-26任一項所述的查詢處理裝置; 所述網(wǎng)頁數(shù)據(jù)處理裝置用于離線建立淺層知識庫; 所述查詢處理裝置用于對輸入的查詢語句進行語義分析,根據(jù)語義分析結(jié)果從所述網(wǎng)頁數(shù)據(jù)處理裝置建立的淺層知識庫中獲得候選答案,并對候選答案進行驗證,得到最終答案。
【文檔編號】G06F17/27GK104516949SQ201410754337
【公開日】2015年4月15日 申請日期:2014年12月10日 優(yōu)先權(quán)日:2014年12月10日
【發(fā)明者】李興建, 王麗杰, 韋豪杰, 廖夢, 馬艷軍, 劉占一 申請人:北京百度網(wǎng)訊科技有限公司