本發(fā)明涉及互聯(lián)網(wǎng)應用
技術(shù)領(lǐng)域:
,特別是一種百科詞條分類方法及裝置。
背景技術(shù):
:百科是指天文、地理、自然、人文、宗教、信仰、文學等全部學科的知識的總稱?;ヂ?lián)網(wǎng)上的百科是一個知識庫,是一部內(nèi)容開放、自由的網(wǎng)絡百科全書,其包含了各種各樣的詞條。種類多是百科的特點,在一些應用中需要對百科詞條進行分類(比如人物類、電影作品類、音樂作品類等),由于百科的許多詞條是網(wǎng)友參與編輯的,所以并沒有明確的分類信息。相關(guān)技術(shù)中主要利用機器學習的方法對百科詞條進行分類,具體地,從百科詞條的內(nèi)容中提取能夠代表詞條類別的關(guān)鍵詞,利用機器學習方法,先人工標注部分詞條類別,然后預測未知的詞條類別。然而,利用機器學習來分類,一個是需要人工標注大量的標注集,二是準確率也有限。因此,如何快速、準確地對百科詞條進行分類成為亟待解決的技術(shù)問題。技術(shù)實現(xiàn)要素:鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的百科詞條分類方法及相應的裝置。依據(jù)本發(fā)明的一方面,提供了一種百科詞條分類方法,包括:從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù);基于所述資源數(shù)據(jù),生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系;獲取一個或多個待分類的百科詞條,與所述一個或多個主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系進行匹配;將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)對應的類別信息作為對應百科詞條所屬的分類??蛇x地,所述類別信息包括主賓結(jié)構(gòu)數(shù)據(jù)中的主語類別信息;所述將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)對應的類別信息作為對應百科詞條所屬的分類,包括:將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的主語類別信息作為對應百科詞條所屬的分類。可選地,所述類別信息包括主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息,所述百科詞條進一步包括百科詞條的屬性數(shù)據(jù);所述將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)對應的類別信息作為對應百科詞條所屬的分類,包括:將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息作為對應百科詞條的屬性數(shù)據(jù)所屬的分類??蛇x地,所述匹配上是指百科詞條與主賓結(jié)構(gòu)數(shù)據(jù)中的主語匹配上,且百科詞條的屬性數(shù)據(jù)與主賓結(jié)構(gòu)數(shù)據(jù)中的賓語匹配上??蛇x地,所述百科詞條的屬性數(shù)據(jù)包括錨鏈接;將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息作為對應百科詞條的屬性數(shù)據(jù)所屬的分類,包括:將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息作為對應百科詞條的錨鏈接所屬的分類??蛇x地,從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù),包括:確定資源站點的網(wǎng)頁的資源類別;根據(jù)所述資源站點的網(wǎng)頁的資源類別,確定用于提取資源數(shù)據(jù)的一個或多個類別信息字段;利用所述一個或多個類別信息字段,從所述資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù)??蛇x地,從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù),包括:從預先建立的資源數(shù)據(jù)模板庫中,選取與所述資源站點的網(wǎng)頁對應的資源數(shù)據(jù)模板;利用所述資源數(shù)據(jù)模板從所述資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù)??蛇x地,所述方法還包括:收集多個資源站點的網(wǎng)頁;分析所述多個資源站點的網(wǎng)頁,確定各個資源站點的網(wǎng)頁中包含類別信息的資源數(shù)據(jù)在網(wǎng)頁中的位置信息;記錄所述各個資源站點的網(wǎng)頁、所述各個資源站點的網(wǎng)頁中包含類別信息的資源數(shù)據(jù)在網(wǎng)頁中的位置信息之間的對應關(guān)系,生成所述資源數(shù)據(jù)模板庫??蛇x地,所述資源數(shù)據(jù)包括數(shù)據(jù)類別和數(shù)據(jù)名稱;基于所述資源數(shù)據(jù),生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系,包括:將所述數(shù)據(jù)類別和所述數(shù)據(jù)名稱進行組合,生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系。依據(jù)本發(fā)明的另一方面,還提供了一種百科詞條分類裝置,包括:資源數(shù)據(jù)提取模塊,適于從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù);數(shù)據(jù)關(guān)系生成模塊,適于基于所述資源數(shù)據(jù),生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系;匹配模塊,適于獲取一個或多個待分類的百科詞條,與所述一個或多個主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系進行匹配;分類模塊,適于將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)對應的類別信息作為對應百科詞條所屬的分類。可選地,所述類別信息包括主賓結(jié)構(gòu)數(shù)據(jù)中的主語類別信息,所述分類模塊還適于:將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的主語類別信息作為對應百科詞條所屬的分類??蛇x地,所述類別信息包括主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息,所述百科詞條進一步包括百科詞條的屬性數(shù)據(jù),所述分類模塊還適于:將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息作為對應百科詞條的屬性數(shù)據(jù)所屬的分類??蛇x地,所述匹配上是指百科詞條與主賓結(jié)構(gòu)數(shù)據(jù)中的主語匹配上,且百科詞條的屬性數(shù)據(jù)與主賓結(jié)構(gòu)數(shù)據(jù)中的賓語匹配上??蛇x地,所述百科詞條的屬性數(shù)據(jù)包括錨鏈接,所述分類模塊還適于:將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息作為對應百科詞條的錨鏈接所屬的分類。可選地,所述資源數(shù)據(jù)提取模塊還適于:確定資源站點的網(wǎng)頁的資源類別;根據(jù)所述資源站點的網(wǎng)頁的資源類別,確定用于提取資源數(shù)據(jù)的一個或多個類別信息字段;利用所述一個或多個類別信息字段,從所述資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù)。可選地,所述資源數(shù)據(jù)提取模塊還適于:從預先建立的資源數(shù)據(jù)模板庫中,選取與所述資源站點的網(wǎng)頁對應的資源數(shù)據(jù)模板;利用所述資源數(shù)據(jù)模板從所述資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù)??蛇x地,所述裝置還包括資源數(shù)據(jù)模板庫生成模塊,適于:收集多個資源站點的網(wǎng)頁;分析所述多個資源站點的網(wǎng)頁,確定各個資源站點的網(wǎng)頁中包含類別信息的資源數(shù)據(jù)在網(wǎng)頁中的位置信息;記錄所述各個資源站點的網(wǎng)頁、所述各個資源站點的網(wǎng)頁中包含類別信息的資源數(shù)據(jù)在網(wǎng)頁中的位置信息之間的對應關(guān)系,生成所述資源數(shù)據(jù)模板庫??蛇x地,所述資源數(shù)據(jù)包括數(shù)據(jù)類別和數(shù)據(jù)名稱,所述數(shù)據(jù)關(guān)系生成模塊還適于:將所述數(shù)據(jù)類別和所述數(shù)據(jù)名稱進行組合,生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系。在本發(fā)明實施例中,首先從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù),并基于資源數(shù)據(jù),生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系。隨后,獲取一個或多個待分類的百科詞條,與一個或多個主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系進行匹配,將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)對應的類別信息作為對應百科詞條所屬的分類。由此可見,本發(fā)明實施例可以利用資源站點的網(wǎng)頁中資源數(shù)據(jù)已知的類別信息來確定百科詞條的類別,相比于現(xiàn)有技術(shù)中利用機器學習方法,先人工標注部分詞條類別,然后預測未知的詞條類別,本發(fā)明實施例提供的技術(shù)方案能夠節(jié)省人力成本,并且準確率較高。進一步,本發(fā)明實施例采用百科詞條和其屬性數(shù)據(jù)與主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系進行匹配,來確定百科詞條和其屬性數(shù)據(jù)的類別,而非單純地利用百科詞條與主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系進行匹配,解決了百科詞條可能存在歧義導致分類不準確的問題,提高了分類的準確性。例如,由于存在詞條名歧義的問題,可能很多人都叫“張三”,但是類別可能不相同(可能為演員、醫(yī)生、教師等),本發(fā)明實施例輔助了“張三”的一些相關(guān)的屬性數(shù)據(jù)來進行詞條分類,極大地提高了分類的準確率,比如此“張三”有一個相關(guān)屬性為“兒科常見問題大全”,則可以確定此“張三”為撰寫《兒科常見問題大全》的“張三”,那么確定此“張三”為醫(yī)生。上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。根據(jù)下文結(jié)合附圖對本發(fā)明具體實施例的詳細描述,本領(lǐng)域技術(shù)人員將會更加明了本發(fā)明的上述以及其他目的、優(yōu)點和特征。附圖說明通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:圖1示出了根據(jù)本發(fā)明一個實施例的百科詞條分類方法的流程圖;圖2示出了根據(jù)本發(fā)明一個實施例的百科詞條分類裝置的結(jié)構(gòu)示意圖;圖3示出了根據(jù)本發(fā)明另一個實施例的百科詞條分類裝置的結(jié)構(gòu)示意圖。具體實施方式下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。為解決上述技術(shù)問題,本發(fā)明實施例提供了一種百科詞條分類方法。圖1示出了根據(jù)本發(fā)明一個實施例的百科詞條分類方法的流程圖。如圖1所示,該方法至少包括以下步驟S102至步驟S108:步驟S102,從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù);步驟S104,基于步驟S102提取的資源數(shù)據(jù),生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系;步驟S106,獲取一個或多個待分類的百科詞條,與一個或多個主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系進行匹配;步驟S108,將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)對應的類別信息作為對應百科詞條所屬的分類。在本發(fā)明實施例中,首先從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù),并基于資源數(shù)據(jù),生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系。隨后,獲取一個或多個待分類的百科詞條,與一個或多個主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系進行匹配,將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)對應的類別信息作為對應百科詞條所屬的分類。由此可見,本發(fā)明實施例可以利用資源站點的網(wǎng)頁中資源數(shù)據(jù)已知的類別信息來確定百科詞條的類別,相比于現(xiàn)有技術(shù)中利用機器學習方法,先人工標注部分詞條類別,然后預測未知的詞條類別,本發(fā)明實施例提供的技術(shù)方案能夠節(jié)省人力成本,并且準確率較高。上文步驟S102中提及的資源站點可以是提供某些特定領(lǐng)域的資源數(shù)據(jù)的站點,這些站點提供了有關(guān)這個領(lǐng)域的全部深度信息或相關(guān)服務。例如,資源站點“豆瓣電影”提供了影視信息、用戶評論等資源數(shù)據(jù);資源站點“讀書”提供了圖書詳情、書榜、書評等資源數(shù)據(jù),等等,本發(fā)明不限于此。步驟S102中從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù),本發(fā)明實施例提供了多種實施方式,如利用資源數(shù)據(jù)的信息字段或者資源數(shù)據(jù)在網(wǎng)頁中的位置信息等方式,下面將分別進行詳細介紹。方式一,利用資源數(shù)據(jù)的信息字段的方式。在該方式中,可以確定資源站點的網(wǎng)頁的資源類別,隨后根據(jù)資源站點的網(wǎng)頁的資源類別,確定用于提取資源數(shù)據(jù)的一個或多個類別信息字段。進而,利用一個或多個類別信息字段,從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù)。例如,當確定出資源站點為影視類資源時,確定用于提取資源數(shù)據(jù)的類別信息字段為“電影”、“導演”、“編劇”、“主演”、“類型”等。又如,當確定出資源站點為書籍類資源時,確定用于提取資源數(shù)據(jù)的類別信息字段為“作者”、“出版社”等。方式二,基于資源數(shù)據(jù)在網(wǎng)頁中的位置信息的方式。在該方式中,可以從預先建立的資源數(shù)據(jù)模板庫中,選取與資源站點的網(wǎng)頁對應的資源數(shù)據(jù)模板。進而,利用資源數(shù)據(jù)模板從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù)。例如,從資源站點“豆瓣電影”的網(wǎng)頁中左上角位置處提取出包含類別信息的資源數(shù)據(jù)。進一步地,本發(fā)明實施例提供了一種可選的建立的資源數(shù)據(jù)模板庫的方案,即,收集多個資源站點的網(wǎng)頁,并分析多個資源站點的網(wǎng)頁,確定各個資源站點的網(wǎng)頁中包含類別信息的資源數(shù)據(jù)在網(wǎng)頁中的位置信息,隨后記錄各個資源站點的網(wǎng)頁、各個資源站點的網(wǎng)頁中包含類別信息的資源數(shù)據(jù)在網(wǎng)頁中的位置信息之間的對應關(guān)系,生成資源數(shù)據(jù)模板庫。在本發(fā)明的可選實施例中,還可以對收集的大量資源站點的網(wǎng)頁的結(jié)構(gòu)和/或主題進行分析,將具有相同結(jié)構(gòu)和/或主題的網(wǎng)頁劃分為屬于同一頁面類型的資源站點的網(wǎng)頁,從而可以確定同一頁面類型的資源站點的網(wǎng)頁中包含類別信息的資源數(shù)據(jù)在網(wǎng)頁中的位置信息,這樣可以不用記錄每個資源站點的網(wǎng)頁中包含類別信息的資源數(shù)據(jù)在網(wǎng)頁中的位置信息,可以節(jié)省存儲資源。以上方式一或方式二分別介紹了如何從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù),在實際應用中,可以結(jié)合方式一和方式二進行資源數(shù)據(jù)的提取,本發(fā)明對此不作限制。如下表1所示為從影視類資源站點中提取的資源數(shù)據(jù),在表1中,資源數(shù)據(jù)包含數(shù)據(jù)類別和數(shù)據(jù)名稱,這里的數(shù)據(jù)類別為資源數(shù)據(jù)的類別信息。另外,表1最后一行的省略號表示還有其他資源數(shù)據(jù),這里未全部示出。表1數(shù)據(jù)類別數(shù)據(jù)名稱電影老炮兒導演管虎編劇管虎、董潤年主演馮小剛、許晴、張涵予、劉樺、李易峰、吳亦凡、梁靜等類型劇情、動作、犯罪............在步驟S104中,基于步驟S102提取的資源數(shù)據(jù),生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系。以上文表1為例,可以將數(shù)據(jù)類別和數(shù)據(jù)名稱進行組合,生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系,生成結(jié)果如下表2所示。表2最后一行的省略號表示還有其他主賓結(jié)構(gòu)數(shù)據(jù),這里未全部示出。表2主語(括號中為類別)謂語賓語(括號中為類別)老炮兒(電影)主演馮小剛(演員)馮小剛(演員)參演的電影作品老炮兒(電影)管虎(導演)導演的電影作品老炮兒(電影)………………上文步驟S106中獲取一個或多個待分類的百科詞條,這里的百科詞條可以僅是百科詞條本身,也可以包括百科詞條的屬性數(shù)據(jù)。例如,待分類的百科詞條“馮小剛”,其屬性數(shù)據(jù)可以是“老炮兒”、“集結(jié)號”等。在獲取到一個或多個待分類的百科詞條之后,將其與一個或多個主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系進行匹配,本發(fā)明實施例提供了多種實施手段,如百科詞條與主賓結(jié)構(gòu)數(shù)據(jù)中的主語進行匹配;或者將百科詞條與主賓結(jié)構(gòu)數(shù)據(jù)中的主語匹配,且將百科詞條的屬性數(shù)據(jù)與主賓結(jié)構(gòu)數(shù)據(jù)中的賓語匹配,等等。并且,步驟S106中的匹配方式不同,步驟S108中的分類方式也有所不同,下面將分別進行詳細介紹。情況一,將百科詞條與主賓結(jié)構(gòu)數(shù)據(jù)中的主語進行匹配,由于類別信息包括了主賓結(jié)構(gòu)數(shù)據(jù)中的主語類別信息,此時,可以將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的主語類別信息作為對應百科詞條所屬的分類。例如,待分類的百科詞條為“馮小剛”,將百科詞條“馮小剛”與表2中的主賓結(jié)構(gòu)數(shù)據(jù)中的主語進行匹配,得到匹配上的主賓結(jié)構(gòu)數(shù)據(jù)為“馮小剛(演員)、老炮兒(電影)”,此時可以將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的主語“馮小剛”類別信息“演員”作為百科詞條“馮小剛”所屬的分類。情況二,將百科詞條與主賓結(jié)構(gòu)數(shù)據(jù)中的主語匹配,以及將百科詞條的屬性數(shù)據(jù)與主賓結(jié)構(gòu)數(shù)據(jù)中的賓語匹配,可以提高百科詞條分類的精確度。例如,待分類的百科詞條為“馮小剛”,將百科詞條“馮小剛”與下表3中的主賓結(jié)構(gòu)數(shù)據(jù)中的主語進行匹配,得到匹配上的主賓結(jié)構(gòu)數(shù)據(jù)為“馮小剛(演員)、老炮兒(電影)”、“馮小剛(教師)、一個不能少(書籍)”,此時無法精確判斷百科詞條“馮小剛”的類別。表3主語(括號中為類別)謂語賓語(括號中為類別)老炮兒(電影)主演馮小剛(演員)馮小剛(演員)參演的電影作品老炮兒(電影)管虎(導演)導演的電影作品老炮兒(電影)………………馮小剛(教師)發(fā)表的文學作品一個不能少(書籍)為了解決這一問題,本發(fā)明實施例進一步獲取了百科詞條的屬性數(shù)據(jù),即獲取到百科詞條“馮小剛”的屬性數(shù)據(jù),如“老炮兒”、“集結(jié)號”等,將百科詞條“馮小剛”的屬性數(shù)據(jù)與表3中的主賓結(jié)構(gòu)數(shù)據(jù)中的賓語進行匹配,將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)“馮小剛(演員)、老炮兒(電影)”中的主語“馮小剛”類別信息“演員”作為百科詞條“馮小剛”所屬的分類。進一步地,在上述情況二中,還可以將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息作為對應百科詞條的屬性數(shù)據(jù)所屬的分類。仍以上述舉例為例,匹配上的主賓結(jié)構(gòu)數(shù)據(jù)為“馮小剛(演員)、老炮兒(電影)”,那么可以將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)“馮小剛(演員)、老炮兒(電影)”中的賓語“老炮兒”類別信息“電影”作為百科詞條“馮小剛”的屬性數(shù)據(jù)“老炮兒”的類別。在本發(fā)明的另一實施例中,百科詞條的屬性數(shù)據(jù)還可以包括錨鏈接,這里的錨鏈接實際上就是鏈接文本,又叫錨文本,可以理解為帶有文本的超鏈接,就叫錨鏈接。錨文本可以作為文本鏈接所在的頁面的內(nèi)容的評估。本發(fā)明實施例可以將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息作為對應百科詞條的錨鏈接所屬的分類。仍以上述舉例為例,待分類的百科詞條“馮小剛”,其屬性數(shù)據(jù)為錨鏈接,如下表4所示。在表4中示出了部分超鏈關(guān)系。表4錨鏈接對應的網(wǎng)頁鏈接老炮兒http://baike.baidu.com/subview/10701921/16783450.htm集結(jié)號http://baike.baidu.com/view/776916.htm天下無賊http://baike.baidu.com/subview/39918/6272046.htm…………此時,將百科詞條“馮小剛”的屬性數(shù)據(jù)(即錨鏈接)與表3中的主賓結(jié)構(gòu)數(shù)據(jù)中的賓語進行匹配,將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)“馮小剛(演員)、老炮兒(電影)”中的主語“馮小剛”類別信息“演員”作為百科詞條“馮小剛”所屬的分類。并且,將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)“馮小剛(演員)、老炮兒(電影)”中的賓語“老炮兒”類別信息“電影”作為百科詞條“馮小剛”的錨鏈接“老炮兒”的類別。這里,可以記錄錨鏈接“老炮兒”對應的網(wǎng)頁鏈接的類別為“電影”。需要說明的是,在實際應用中,上述所有可選實施方式可以采用結(jié)合的方式任意組合,形成本發(fā)明的可選實施例,在此不再一一贅述?;谏衔母鱾€實施例提供的百科詞條分類方法,基于同一發(fā)明構(gòu)思,本發(fā)明實施例還提供了一種百科詞條分類裝置。圖2示出了根據(jù)本發(fā)明一個實施例的百科詞條分類裝置的結(jié)構(gòu)示意圖。如圖2所示,該裝置至少可以包括資源數(shù)據(jù)提取模塊210、數(shù)據(jù)關(guān)系生成模塊220、匹配模塊230以及分類模塊240?,F(xiàn)介紹本發(fā)明實施例的百科詞條分類裝置的各組成或器件的功能以及各部分間的連接關(guān)系:資源數(shù)據(jù)提取模塊210,適于從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù);數(shù)據(jù)關(guān)系生成模塊220,與資源數(shù)據(jù)提取模塊210相耦合,適于基于資源數(shù)據(jù),生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系;匹配模塊230,與數(shù)據(jù)關(guān)系生成模塊220相耦合,適于獲取一個或多個待分類的百科詞條,與一個或多個主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系進行匹配;分類模塊240,與匹配模塊230相耦合,適于將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)對應的類別信息作為對應百科詞條所屬的分類。在本發(fā)明一實施例中,類別信息包括主賓結(jié)構(gòu)數(shù)據(jù)中的主語類別信息,分類模塊240還適于:將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的主語類別信息作為對應百科詞條所屬的分類。在本發(fā)明一實施例中,類別信息包括主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息,百科詞條進一步包括百科詞條的屬性數(shù)據(jù),分類模塊240還適于:將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息作為對應百科詞條的屬性數(shù)據(jù)所屬的分類。在本發(fā)明一實施例中,匹配上是指百科詞條與主賓結(jié)構(gòu)數(shù)據(jù)中的主語匹配上,且百科詞條的屬性數(shù)據(jù)與主賓結(jié)構(gòu)數(shù)據(jù)中的賓語匹配上。在本發(fā)明一實施例中,百科詞條的屬性數(shù)據(jù)包括錨鏈接,分類模塊240還適于:將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息作為對應百科詞條的錨鏈接所屬的分類。在本發(fā)明一實施例中,資源數(shù)據(jù)提取模塊210還適于:確定資源站點的網(wǎng)頁的資源類別;根據(jù)資源站點的網(wǎng)頁的資源類別,確定用于提取資源數(shù)據(jù)的一個或多個類別信息字段;利用一個或多個類別信息字段,從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù)。在本發(fā)明一實施例中,資源數(shù)據(jù)提取模塊210還適于:從預先建立的資源數(shù)據(jù)模板庫中,選取與資源站點的網(wǎng)頁對應的資源數(shù)據(jù)模板;利用資源數(shù)據(jù)模板從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù)。在本發(fā)明一實施例中,如圖3所示,上文圖2展示的裝置還可以包括資源數(shù)據(jù)模板庫生成模塊250,與資源數(shù)據(jù)提取模塊210相耦合,適于:收集多個資源站點的網(wǎng)頁;分析多個資源站點的網(wǎng)頁,確定各個資源站點的網(wǎng)頁中包含類別信息的資源數(shù)據(jù)在網(wǎng)頁中的位置信息;記錄各個資源站點的網(wǎng)頁、各個資源站點的網(wǎng)頁中包含類別信息的資源數(shù)據(jù)在網(wǎng)頁中的位置信息之間的對應關(guān)系,生成資源數(shù)據(jù)模板庫。在本發(fā)明一實施例中,資源數(shù)據(jù)包括數(shù)據(jù)類別和數(shù)據(jù)名稱,數(shù)據(jù)關(guān)系生成模塊220還適于:將數(shù)據(jù)類別和數(shù)據(jù)名稱進行組合,生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系。根據(jù)上述任意一個優(yōu)選實施例或多個優(yōu)選實施例的組合,本發(fā)明實施例能夠達到如下有益效果:在本發(fā)明實施例中,首先從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù),并基于資源數(shù)據(jù),生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系。隨后,獲取一個或多個待分類的百科詞條,與一個或多個主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系進行匹配,將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)對應的類別信息作為對應百科詞條所屬的分類。由此可見,本發(fā)明實施例可以利用資源站點的網(wǎng)頁中資源數(shù)據(jù)已知的類別信息來確定百科詞條的類別,相比于現(xiàn)有技術(shù)中利用機器學習方法,先人工標注部分詞條類別,然后預測未知的詞條類別,本發(fā)明實施例提供的技術(shù)方案能夠節(jié)省人力成本,并且準確率較高。進一步,本發(fā)明實施例采用百科詞條和其屬性數(shù)據(jù)與主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系進行匹配,來確定百科詞條和其屬性數(shù)據(jù)的類別,而非單純地利用百科詞條與主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系進行匹配,解決了百科詞條可能存在歧義導致分類不準確的問題,提高了分類的準確性。例如,由于存在詞條名歧義的問題,可能很多人都叫“張三”,但是類別可能不相同(可能為演員、醫(yī)生、教師等),本發(fā)明實施例輔助了“張三”的一些相關(guān)的屬性數(shù)據(jù)來進行詞條分類,極大地提高了分類的準確率,比如此“張三”有一個相關(guān)屬性為“兒科常見問題大全”,則可以確定此“張三”為撰寫《兒科常見問題大全》的“張三”,那么確定此“張三”為醫(yī)生。在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。類似地,應當理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權(quán)利要求書由此明確地并入該具體實施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。本領(lǐng)域那些技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進行自適應性地改變并且把它們設(shè)置在與該實施例不同的一個或多個設(shè)備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在權(quán)利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的百科詞條分類裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。至此,本領(lǐng)域技術(shù)人員應認識到,雖然本文已詳盡示出和描述了本發(fā)明的多個示例性實施例,但是,在不脫離本發(fā)明精神和范圍的情況下,仍可根據(jù)本發(fā)明公開的內(nèi)容直接確定或推導出符合本發(fā)明原理的許多其他變型或修改。因此,本發(fā)明的范圍應被理解和認定為覆蓋了所有這些其他變型或修改。本發(fā)明實施例的一方面,提供了A1、一種百科詞條分類方法,包括:從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù);基于所述資源數(shù)據(jù),生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系;獲取一個或多個待分類的百科詞條,與所述一個或多個主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系進行匹配;將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)對應的類別信息作為對應百科詞條所屬的分類。A2、根據(jù)A1所述的方法,其中,所述類別信息包括主賓結(jié)構(gòu)數(shù)據(jù)中的主語類別信息;所述將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)對應的類別信息作為對應百科詞條所屬的分類,包括:將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的主語類別信息作為對應百科詞條所屬的分類。A3、根據(jù)A1或A2所述的方法,其中,所述類別信息包括主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息,所述百科詞條進一步包括百科詞條的屬性數(shù)據(jù);所述將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)對應的類別信息作為對應百科詞條所屬的分類,包括:將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息作為對應百科詞條的屬性數(shù)據(jù)所屬的分類。A4、根據(jù)A1-A3中任一項所述的方法,其中,所述匹配上是指百科詞條與主賓結(jié)構(gòu)數(shù)據(jù)中的主語匹配上,且百科詞條的屬性數(shù)據(jù)與主賓結(jié)構(gòu)數(shù)據(jù)中的賓語匹配上。A5、根據(jù)A1-A4中任一項所述的方法,其中,所述百科詞條的屬性數(shù)據(jù)包括錨鏈接;將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息作為對應百科詞條的屬性數(shù)據(jù)所屬的分類,包括:將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息作為對應百科詞條的錨鏈接所屬的分類。A6、根據(jù)A1-A5中任一項所述的方法,其中,從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù),包括:確定資源站點的網(wǎng)頁的資源類別;根據(jù)所述資源站點的網(wǎng)頁的資源類別,確定用于提取資源數(shù)據(jù)的一個或多個類別信息字段;利用所述一個或多個類別信息字段,從所述資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù)。A7、根據(jù)A1-A6中任一項所述的方法,其中,從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù),包括:從預先建立的資源數(shù)據(jù)模板庫中,選取與所述資源站點的網(wǎng)頁對應的資源數(shù)據(jù)模板;利用所述資源數(shù)據(jù)模板從所述資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù)。A8、根據(jù)A1-A7中任一項所述的方法,其中,還包括:收集多個資源站點的網(wǎng)頁;分析所述多個資源站點的網(wǎng)頁,確定各個資源站點的網(wǎng)頁中包含類別信息的資源數(shù)據(jù)在網(wǎng)頁中的位置信息;記錄所述各個資源站點的網(wǎng)頁、所述各個資源站點的網(wǎng)頁中包含類別信息的資源數(shù)據(jù)在網(wǎng)頁中的位置信息之間的對應關(guān)系,生成所述資源數(shù)據(jù)模板庫。A9、根據(jù)A1-A8中任一項所述的方法,其中,所述資源數(shù)據(jù)包括數(shù)據(jù)類別和數(shù)據(jù)名稱;基于所述資源數(shù)據(jù),生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系,包括:將所述數(shù)據(jù)類別和所述數(shù)據(jù)名稱進行組合,生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系。本發(fā)明實施例的另一方面,還提供了B10、一種百科詞條分類裝置,包括:資源數(shù)據(jù)提取模塊,適于從資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù);數(shù)據(jù)關(guān)系生成模塊,適于基于所述資源數(shù)據(jù),生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系;匹配模塊,適于獲取一個或多個待分類的百科詞條,與所述一個或多個主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系進行匹配;分類模塊,適于將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)對應的類別信息作為對應百科詞條所屬的分類。B11、根據(jù)B10所述的裝置,其中,所述類別信息包括主賓結(jié)構(gòu)數(shù)據(jù)中的主語類別信息,所述分類模塊還適于:將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的主語類別信息作為對應百科詞條所屬的分類。B12、根據(jù)B10或B11所述的裝置,其中,所述類別信息包括主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息,所述百科詞條進一步包括百科詞條的屬性數(shù)據(jù),所述分類模塊還適于:將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息作為對應百科詞條的屬性數(shù)據(jù)所屬的分類。B13、根據(jù)B10-B12中任一項所述的裝置,其中,所述匹配上是指百科詞條與主賓結(jié)構(gòu)數(shù)據(jù)中的主語匹配上,且百科詞條的屬性數(shù)據(jù)與主賓結(jié)構(gòu)數(shù)據(jù)中的賓語匹配上。B14、根據(jù)B10-B13中任一項所述的裝置,其中,所述百科詞條的屬性數(shù)據(jù)包括錨鏈接,所述分類模塊還適于:將匹配上的主賓結(jié)構(gòu)數(shù)據(jù)中的賓語類別信息作為對應百科詞條的錨鏈接所屬的分類。B15、根據(jù)B10-B14中任一項所述的裝置,其中,所述資源數(shù)據(jù)提取模塊還適于:確定資源站點的網(wǎng)頁的資源類別;根據(jù)所述資源站點的網(wǎng)頁的資源類別,確定用于提取資源數(shù)據(jù)的一個或多個類別信息字段;利用所述一個或多個類別信息字段,從所述資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù)。B16、根據(jù)B10-B15中任一項所述的裝置,其中,所述資源數(shù)據(jù)提取模塊還適于:從預先建立的資源數(shù)據(jù)模板庫中,選取與所述資源站點的網(wǎng)頁對應的資源數(shù)據(jù)模板;利用所述資源數(shù)據(jù)模板從所述資源站點的網(wǎng)頁中提取出包含類別信息的資源數(shù)據(jù)。B17、根據(jù)B10-B16中任一項所述的裝置,其中,還包括資源數(shù)據(jù)模板庫生成模塊,適于:收集多個資源站點的網(wǎng)頁;分析所述多個資源站點的網(wǎng)頁,確定各個資源站點的網(wǎng)頁中包含類別信息的資源數(shù)據(jù)在網(wǎng)頁中的位置信息;記錄所述各個資源站點的網(wǎng)頁、所述各個資源站點的網(wǎng)頁中包含類別信息的資源數(shù)據(jù)在網(wǎng)頁中的位置信息之間的對應關(guān)系,生成所述資源數(shù)據(jù)模板庫。B18、根據(jù)B10-17中任一項所述的裝置,其中,所述資源數(shù)據(jù)包括數(shù)據(jù)類別和數(shù)據(jù)名稱,所述數(shù)據(jù)關(guān)系生成模塊還適于:將所述數(shù)據(jù)類別和所述數(shù)據(jù)名稱進行組合,生成一個或多個攜帶類別信息的主賓結(jié)構(gòu)數(shù)據(jù)關(guān)系。當前第1頁1 2 3