本發(fā)明涉及信息處理領域,特別涉及一種命名實體識別方法及裝置。
背景技術:
命名實體識別是指在文本信息中識別出諸如人名、地名、機構名、電影、小說、游戲等特定實體類型的事物名稱或符號的過程。并且命名實體識別一般應用于信息檢索、問答系統(tǒng)、句法分析、機器翻譯等領域。比如,當命名實體識別應用于機器翻譯領域時,當終端接收到待翻譯的文本信息時,可以對該文本信息進行命名實體識別,然后根據識別出的命名實體對該文本信息進行翻譯,從而提高機器翻譯的準確率。
目前,命名實體識別的過程可以包括:當終端接收到待處理的文本信息時,從該待處理的文本信息中識別出目標命名實體,并根據該目標命名實體,從存儲的命名實體與實體類型之間的對應關系中,獲取該目標命名實體所對應的實體類型,以對該目標命名實體進行識別。
對于只對應一種實體類型的命名實體,上述方法可以準確地識別出命名實體的實體類型,但對于對應多種實體類型的命名實體,上述方法則無法準確地識別出命名實體的實體類型,降低了命名實體識別的準確率。
技術實現(xiàn)要素:
為了解決現(xiàn)有技術的問題,本發(fā)明實施例提供了一種命名實體識別方法及裝置。所述技術方案如下:
一方面,提供了一種命名實體識別方法,所述方法包括:
從待處理的文本信息中,獲取目標命名實體和目標特征詞;
基于所述目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取多個目標實體類型和多個目標實體概率;
基于所述目標特征詞和所述多個目標實體類型,從存儲的特征詞、實體類型與特征詞概率之間的對應關系中,獲取多個目標特征詞概率;
基于所述多個目標實體概率和所述多個目標特征詞概率,識別所述目標命名實體。
另一方面,提供了一種命名實體識別裝置,所述裝置包括:
第一獲取模塊,用于從待處理的文本信息中,獲取目標命名實體和目標特征詞;
第二獲取模塊,用于基于所述目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取多個目標實體類型和多個目標實體概率;
第三獲取模塊,用于基于所述目標特征詞和所述多個目標實體類型,從存儲的特征詞、實體類型與特征詞概率之間的對應關系中,獲取多個目標特征詞概率;
識別模塊,用于基于所述多個目標實體概率和所述多個目標特征詞概率,識別所述目標命名實體。
本發(fā)明實施例提供的技術方案帶來的有益效果是:本發(fā)明實施例提供的一種命名實體識別方法及裝置,命名實體識別裝置能夠基于搜索日志和預設數據庫,建立命名實體、實體類型與實體概率之間的對應關系,以及建立特征詞、實體類型與特征詞概率之間的對應關系。因此,當命名實體識別裝置從待處理的文本信息中,獲取到目標命名實體和目標特征詞后,可以基于該目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取多個目標實體類型和多個目標實體概率,并基于該目標特征詞和該多個目標實體類型,從存儲的特征詞、實體類型與特征詞概率之間的對應關系中,獲取多個目標特征詞概率,基于該多個目標實體概率和該多個目標特征詞概率,識別該目標命名實體,提高了命名實體識別的準確率。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是本發(fā)明實施例提供的一種命名實體識別方法流程圖;
圖2是本發(fā)明實施例提供的另一種命名實體識別方法流程圖;
圖3是本發(fā)明實施例提供的一種命名實體識別裝置結構示意圖;
圖4是本發(fā)明實施例提供的另一種命名實體識別裝置結構示意圖;
圖5是本發(fā)明實施例提供的一種第一確定模塊結構示意圖;
圖6是本發(fā)明實施例提供的另一種第一確定模塊結構示意圖;
圖7是本發(fā)明實施例提供的又一種命名實體識別裝置結構示意圖;
圖8是本發(fā)明實施例提供的一種第二確定模塊結構示意圖;
圖9是本發(fā)明實施例提供的一種第五獲取模塊結構示意圖;
圖10是本發(fā)明實施例提供的又一種命名實體識別裝置結構示意圖;
圖11是本發(fā)明實施例提供的再一種命名實體識別裝置結構示意圖。
具體實施方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本發(fā)明實施方式作進一步地詳細描述。
在對本發(fā)明實施例進行詳細地解釋說明之前,先對本發(fā)明實施例的應用場景予以介紹。命名實體識別一般應用于信息檢索、問答系統(tǒng)、句法分析、機器翻譯等領域。比如,命名實體識別應用于信息檢索領域時,當終端接收到用戶輸入的文本信息“天龍八部在線觀看”后,只有準確識別出該文本信息中包括的命名實體“天龍八部”的實體類型為視頻類型時,才能夠基于視頻類型對用 戶進行精準的推薦。再比如,命名實體識別應用于機器翻譯領域時,當終端接收到用戶輸入的文本信息“文章馬伊俐夫婦”后,只有準確識別出該文本信息中包括的命名實體“文章”的實體類型為人名類型,才能對該文本信息進行準確的翻譯。因此,為了提高命名實體識別的準確率,本發(fā)明實施例提供了一種命名實體識別方法,具體如下所述。
圖1是本發(fā)明實施例提供的一種命名實體識別方法的流程圖。參見圖1,該方法包括:
步驟101,從待處理的文本信息中,獲取目標命名實體和目標特征詞。
步驟102,基于該目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取多個目標實體類型和多個目標實體概率。
步驟103,基于該目標特征詞和該多個目標實體類型,從存儲的特征詞、實體類型與特征詞概率之間的對應關系中,獲取多個目標特征詞概率。
步驟104,基于該多個目標實體概率和該多個目標特征詞概率,識別該目標命名實體。
本發(fā)明實施例提供的一種命名實體識別方法,命名實體識別裝置能夠基于搜索日志和預設數據庫,建立命名實體、實體類型與實體概率之間的對應關系,以及建立特征詞、實體類型與特征詞概率之間的對應關系。因此,當命名實體識別裝置從待處理的文本信息中,獲取到目標命名實體和目標特征詞后,可以基于該目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取多個目標實體類型和多個目標實體概率,并基于該目標特征詞和該多個目標實體類型,從存儲的特征詞、實體類型與特征詞概率之間的對應關系中,獲取多個目標特征詞概率,基于該多個目標實體概率和該多個目標特征詞概率,識別該目標命名實體,提高了命名實體識別的準確率。
可選的,基于該目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取多個目標實體類型和多個目標實體概率之前,還包括:
從存儲的搜索日志中,獲取該搜索日志包括的多個文本信息分別對應的至 少一個網址信息和該至少一個網址信息的點擊次數,該搜索日志中包括文本信息、網址信息和點擊次數之間的對應關系;
基于該多個文本信息分別對應的至少一個網址信息,對該多個文本信息包括的命名實體進行分類,得到多個實體類型;
對于該多個實體類型中的每個實體類型,基于該多個文本信息分別對應的至少一個網址信息的點擊次數,分別確定該多個文本信息包括的命名實體屬于該實體類型的概率;
將該多個文本信息包括的命名實體、該實體類型和該多個文本信息包括的命名實體屬于該實體類型的概率,存儲在命名實體、實體類型與實體概率之間的對應關系中。
可選的,基于該多個文本信息分別對應的至少一個網址信息的點擊次數,分別確定該多個文本信息包括的命名實體屬于該實體類型的概率,包括:
對于該多個文本信息中的每個文本信息,將該文本信息對應的至少一個網址信息的點擊次數相加,得到該文本信息的點擊總次數;
判斷該文本信息的點擊總次數是否大于或等于次數閾值;
如果該文本信息的點擊總次數大于或等于該次數閾值,則基于該文本信息對應的至少一個網址信息的點擊次數和該文本信息的點擊總次數,確定該文本信息包括的命名實體屬于該實體類型的概率。
可選的,基于該文本信息對應的至少一個網址信息的點擊次數和該文本信息的點擊總次數,確定該文本信息包括的命名實體屬于該實體類型的概率,包括:
從該文本信息對應的至少一個網址信息的點擊次數中,選擇屬于該實體類型的網址信息的點擊次數;
基于選擇的點擊次數和該文本信息的點擊總次數,確定該文本信息屬于該實體類型的概率,得到文本信息概率;
基于該文本信息包括的命名實體,從該多個文本信息中,選擇包括該命名 實體的文本信息,得到第一文本信息集合;
確定多個文本信息概率的平均值,得到該文本信息包括的命名實體屬于該實體類型的概率,該多個文本信息概率為該第一文本信息集合包括的文本信息屬于該實體類型的概率。
可選的,判斷所述文本信息的點擊總次數是否大于或等于次數閾值之后,還包括:
如果該文本信息的點擊總次數小于該次數閾值,則基于該文本信息包括的命名實體,從預設數據庫中,獲取第一特征向量和該第一特征向量包括的每個特征詞的頻次,該預設數據庫至少包括預設網頁數據;
基于第二文本信息集合中每個文本信息包括的命名實體屬于該實體類型的概率和該搜索日志,獲取實體概率范圍包括的多個概率區(qū)間對應的第二特征向量和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次,該第二文本信息集合包括該多個文本信息中點擊總次數大于或等于該次數閾值的文本信息;
基于該第一特征向量、該多個概率區(qū)間對應的第二特征向量、該第一特征向量包括的每個特征詞的頻次和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次,確定該文本信息包括的命名實體屬于該實體類型的概率。
可選的,基于第二文本信息集合中每個文本信息包括的命名實體屬于該實體類型的概率和該搜索日志,獲取實體概率范圍包括的多個概率區(qū)間對應的第二特征向量和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次,包括:
對于該多個概率區(qū)間中的每個概率區(qū)間,基于第二文本信息集合中每個文本信息包括的命名實體屬于該實體類型的概率,獲取實體概率位于該概率區(qū)間的命名實體;
從獲取的命名實體中,選擇屬于該實體類型的第一指定數值個命名實體;
基于選擇的命名實體,從該搜索日志中,獲取該概率區(qū)間對應的第二特征 向量和該概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次。
可選的,基于該第一特征向量、該多個概率區(qū)間對應的第二特征向量、該第一特征向量包括的每個特征詞的頻次和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次,確定該文本信息包括的命名實體屬于該實體類型的概率,包括:
對于該多個概率區(qū)間中的每個概率區(qū)間,選擇該第一特征向量和該概率區(qū)間對應的第二特征向量中包括的相同特征詞,得到多個相同特征詞;
從該第一特征向量包括的每個特征詞的頻次中,選擇該多個相同特征詞的頻次,得到多個第一頻次,以及從該概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次中,選擇該多個相同特征詞的頻次,得到多個第二頻次;
基于該多個概率區(qū)間分別對應的多個第一頻次和該多個概率區(qū)間分別對應的多個第二頻次,確定該第一特征向量和該多個概率區(qū)間對應的第二特征向量之間的相似度,得到多個相似度;
基于該多個相似度,確定該文本信息包括的命名實體屬于該實體類型的概率。
可選的,將該多個文本信息包括的命名實體、該實體類型和該多個文本信息包括的命名實體屬于該實體類型的概率,存儲在命名實體、實體類型與實體概率之間的對應關系中之后,還包括:
對于該多個實體類型中的每個實體類型,基于該實體類型、輔助實體類型和該命名實體、實體類型與實體概率之間的對應關系,確定第一命名實體集合和第二命名實體集合,該輔助實體類型為該多個實體類型中除該實體類型之外的任一實體類型;
基于該第一命名實體集合、該第二命名實體集合和該搜索日志,獲取多個特征詞和該多個特征詞屬于該實體類型的概率;
將該多個特征詞、該實體類型和該多個特征詞屬于該實體類型的概率,存儲在特征詞、實體類型與特征詞概率之間的對應關系中。
可選的,基于該實體類型、輔助實體類型和該命名實體、實體類型與實體概率之間的對應關系,確定第一命名實體集合和第二命名實體集合,包括:
基于該實體類型,從該命名實體、實體類型與實體概率之間的對應關系中,選擇實體概率大于第一概率閾值的命名實體,得到第一命名實體集合;
基于輔助實體類型,從該命名實體、實體類型與實體概率之間的對應關系中,選擇實體概率小于第二概率閾值的命名實體,得到第二命名實體集合。
可選的,基于該第一命名實體集合、該第二命名實體集合和該搜索日志,獲取多個特征詞和該多個特征詞屬于該實體類型的概率,包括:
從該搜索日志中,獲取該第一命名實體集合包括的每個命名實體所在的文本信息和該第二命名實體集合包括的每個命名實體所在的文本信息,得到第三文本信息集合和第四文本信息集合;
從該第三文本信息集合中,分別獲取離該第一命名實體集合包括的每個命名實體最近的第二指定數值個詞語,得到該多個特征詞;
基于該第三文本信息集合和該第四文本信息集合,確定該多個特征詞屬于該實體類型的概率。
可選的,基于該第三文本信息集合和該第四文本信息集合,確定該多個特征詞屬于該實體類型的概率,包括:
對于該多個特征詞中的每個特征詞,從該第三文本信息集合中,獲取包括該特征詞的文本信息的個數,得到第一實體個數;
從該第四文本信息集合中,獲取包括該特征詞的文本信息的個數,得到第二實體個數;
基于該第一實體個數和該第二實體個數,計算該特征詞屬于該實體類型的概率。
上述所有可選技術方案,均可按照任意結合形成本發(fā)明的可選實施例,本發(fā)明實施例對此不再一一贅述。
圖2是本發(fā)明實施例提供的一種命名實體識別方法的流程圖。參見圖2,該方法包括:
步驟201,從存儲的搜索日志中,獲取該搜索日志包括的多個文本信息分別對應的至少一個網址信息和該至少一個網址信息的點擊次數,該搜索日志中包括文本信息、網址信息和點擊次數之間的對應關系。
為了對命名實體進行識別,需要在命名實體識別之前,獲取命名實體、實體類型與實體概率之間的對應關系,以及特征詞、實體類型與特征詞概率之間的對應關系,另外,由于搜索日志中包括文本信息、網址信息和點擊次數之間的對應關系,因此,可以從存儲的搜索日志中,獲取該搜索日志包括的文本信息,得到多個文本信息,并基于該多個文本信息,從該搜索日志中,獲取該多個文本信息分別對應的至少一個網址信息和該至少一個網址信息的點擊次數。
比如,若搜索日志中存儲的命名實體、實體類型與實體概率之間的對應關系如表1所示,則可以獲取該搜索日志中包括的多個文本信息為“潛伏在線”、“星魂在線觀看、“潛伏觀看”、“仙劍在線”、“天龍八部高清”、“天龍八部在線”和“平凡的世界在線”等,基于文本信息“潛伏在線”,從該搜索日志中,獲取該文本信息對應的至少一個網址信息為“www.youku.com”和“www.4399.com”,其中網址信息“www.youku.com”的點擊次數為500次,網址信息“www.4399.com”的點擊次數為50次。同樣的,還可以從該搜索日志中獲取其他的文本信息,及其他的文本信息分別對應的至少一個網址信息和該至少一個網址信息的點擊次數,本發(fā)明實施例不再一一例舉。
需要說明的是,本發(fā)明實施例的執(zhí)行主體可以為終端或者服務器,也即是,命名實體識別裝置可以為終端,也可以為服務器,本發(fā)明實施例對此不做具體限定。
表1
在本發(fā)明實施例中,命名實體識別裝置可以基于指定時間段內,用戶的網絡點擊行為來確定搜索日志,具體的操作可以為:當命名實體識別裝置接收到用戶輸入的文本信息后,可以基于該文本信息,獲取至少一個與該文本信息相關的網址信息,并將該至少一個網址信息反饋給用戶。當用戶點擊該至少一個網址信息中指定的網址信息時,命名實體識別裝置可以基于用戶輸入的文本信息和該指定的網址信息,從存儲的文本信息、網址信息和點擊次數之間的對應關系中,查找對應的點擊次數,如果查找到,則基于該指定的網址信息的點擊次數,對查找的點擊次數進行更新,如果未查找到,則基于用戶輸入的文本信息、該文本信息對應的指定的網址信息和該指定的網址信息的點擊次數,在搜索日志包括的文本信息、網址信息和點擊次數之間的對應關系中創(chuàng)建對應的記 錄。
比如,當命名實體識別裝置接收到用戶輸入的文本信息“潛伏在線”后,基于該文本信息,獲取至少一個與該文本信息相關的網址信息為“www.youku.com”和“www.4399.com”,如果用戶點擊的網址信息為“www.youku.com”,且該網址信息的點擊次數為1次,則命名實體識別裝置可以基于該文本信息“潛伏在線”和該文本信息對應的網址信息“www.youku.com”,從存儲的搜索日志中,查找對應的點擊次數為499,此時,將查找的點擊次數499增加該網址信息“www.youku.com”的點擊次數1次,得到對應的點擊次數為500次,并對搜索日志中存儲的文本信息、網址信息和點擊次數之間的對應關系進行更新,得到如上述表1所示的文本信息、網址信息和點擊次數之間的對應關系。
可選地,在本發(fā)明實施例中,可以通過命名實體識別裝置確定搜索日志,當然,實際應用中,還可以通過其他的裝置來確定搜索日志,之后,將該搜索日志發(fā)送給該命名實體識別裝置,本發(fā)明實施例對此不做具體限定。
步驟202,基于該多個文本信息分別對應的至少一個網址信息,對該多個文本信息包括的命名實體進行分類,得到多個實體類型。
為了得到多個實體類型,需要從該多個文本信息中,獲取該多個文本信息包括的命名實體,并基于該多個文本信息分別對應的至少一個網址信息,對該多個文本信息包括的命名實體進行分類,得到多個實體類型。而基于該多個文本信息分別對應的至少一個網址信息,對該多個文本信息包括的命名實體進行分類,得到多個實體類型的具體操作可以為:對于該多個文本信息中的每個文本信息,對該文本信息對應的至少一個網址信息進行分類,得到多個網址類型,將該多個網址類型確定為該文本信息包括的命名實體的實體類型,進而得到多個實體類型。
比如,對于多個文本信息中的文本信息“潛伏在線”,獲取該文本信息對應的至少一個網址信息為“www.youku.com”和www.4399.com”,對該兩個網址信 息進行分類,得到網址信息“www.youku.com”的網址類型為視頻類型,網址信息“www.4399.com”的網址類型為游戲類型,因此,可以將視頻類型和游戲類型確定為該文本信息“潛伏在線”中包括的命名實體“潛伏”的實體類型,也即是,該文本信息“潛伏在線”中包括的命名實體“潛伏”的實體類型為視頻類型和游戲類型。同理,確定文本信息“星魂在線觀看”包括的命名實體“星魂”的實體類型為視頻類型和游戲類型;文本信息“潛伏觀看”中包括的命名實體“潛伏”的實體類型為視頻類型和游戲類型;文本信息“仙劍在線”中包括的命名實體“仙劍”的實體類型為視頻類型和游戲類型;文本信息“天龍八部高清”中包括的命名實體“天龍八部”的實體類型為視頻類型和游戲類型;文本信息“天龍八部在線”包括的命名實體“天龍八部”的實體類型為視頻類型、游戲類型和小說類型;文本信息“平凡的世界在線”中包括的命名實體“平凡的世界”的實體類型為視頻類型和小說類型,進而得到多個實體類型為視頻類型、游戲類型和小說類型。
需要說明的是,對該多個文本信息分別對應的至少一個網址信息進行分類時,可以通過人工挑選的方法確定網址信息與網址類型之間的對應關系,之后,再通過命名實體識別裝置自動進行分類。比如,可以事先基于人工挑選的方法存儲網址信息與網址類型之間的對應關系如下述表2所示,之后,命名實體識別裝置可以基于該文本信息對應的至少一個網址信息,從存儲的網址信息與網址類型之間的對應關系中,獲取對應的網址類型,從而得到多個網址類型。本發(fā)明實施例不做具體限定。
表2
步驟203,對于該多個實體類型中的每個實體類型,基于該多個文本信息分別對應的至少一個網址信息的點擊次數,分別確定該多個文本信息包括的命名實體屬于該實體類型的概率。
其中,對于該多個實體類型中的每個實體類型,基于該多個文本信息分別對應的至少一個網址信息的點擊次數,分別確定該多個文本信息包括的命名實體屬于該實體類型的概率時,可以通過如下(1)-(9)的步驟來實現(xiàn),包括:
(1)、對于該多個實體類型中的每個實體類型以及該多個文本信息中的每個文本信息,將該文本信息對應的至少一個網址信息的點擊次數相加,得到該文本信息的點擊總次數。
由于搜索日志中包括多個文本信息,且該多個文本信息分別對應至少一個網址信息,因此,當確定該多個文本信息的點擊總次數時,可以分別將該多個文本信息分別對應的至少一個網址信息的點擊次數相加,得到該多個文本信息的點擊總次數,也即是,對于該多個文本信息中的每個文本信息,將該文本信息對應的至少一個網址信息的點擊次數相加,得到該文本信息的點擊總次數。
比如,對于該多個實體類型中的視頻類型,以及該多個文本信息中的文本信息“潛伏在線”,該文本信息“潛伏在線”對應的至少一個網址信息為“www.youku.com”和“www.4399.com”,其中網址信息“www.youku.com”的 點擊次數為500次,網址信息“www.4399.com”的點擊次數為50次,則將網址信息“www.youku.com”的點擊次數500次與網址信息“www.4399.com”的點擊次數50次相加后,即可得到文本信息“潛伏在線”的點擊總次數為550次。
(2)、判斷該文本信息的點擊總次數是否大于或等于次數閾值,如果該文本信息的點擊總次數大于或等于該次數閾值,則執(zhí)行步驟(3),如果該文本信息的點擊總次數小于該次數閾值,則執(zhí)行步驟(7)。
在本發(fā)明實施例中,命名實體識別裝置可以預先設置一個次數閾值,該次數閾值用于判斷是否可以直接采用該文本信息的點擊總次數和該文本信息對應的至少一個網址信息的點擊次數,來確定該文本信息包括的命名實體屬于該實體類型的概率,比如,該次數閾值可以為300次,1000次或者2000次等,本發(fā)明實施例對此不做具體限定。
因此,如果文本信息的點擊總次數大于或等于該次數閾值,則命名實體識別裝置可以直接根據該文本信息的點擊總次數和該文本信息對應的至少一個網址信息的點擊次數,來確定該文本信息包括的命名實體屬于該實體類型的概率,也即是執(zhí)行步驟(3)。如果該文本信息的點擊總次數小于該次數閾值,則命名實體裝置不可以根據該文本信息的點擊總次數和該文本信息對應的至少一個網址信息的點擊次數,來確定該文本信息包括的命名實體屬于該實體類型的概率,也即是執(zhí)行步驟(7)。
比如,若命名實體識別裝置中預先設置的次數閾值為300次,對于文本信息“潛伏在線”,由于該文本信息的點擊總次數為550次,大于次數閾值300次,因此可以基于該文本信息“潛伏在線”的點擊總次數和該文本信息“潛伏在線”對應的至少一個網址信息的點擊次數,確定該文本信息“潛伏在線”包括的命名實體分別屬于該實體類型的概率。
(3)、從該文本信息對應的至少一個網址信息的點擊次數中,選擇屬于該實體類型的網址信息的點擊次數。
由于上述步驟202已對該文本信息對應的至少一個網址信息進行分類,且 存儲了網址信息與網址類型之間的對應關系,因此,命名實體識別裝置可以將該實體類型作為網址類型,從該網址信息與網址類型之間的對應關系中,獲取對應的網址信息,并將獲取的網址信息的點擊次數確定為屬于該實體類型的網址信息的點擊次數。
比如,文本信息“潛伏在線”對應的網址信息為“www.youku.com”和“www.4399.com”,該兩個網址信息對應的點擊次數分別為500次和50次。將視頻類型作為網址類型,并從上述表2存儲的網址信息與網址類型之間的對應關系中,獲取與視頻類型對應的網址信息為“www.youku.com”、“tv.souhu.com”和“www.iqiyi.com”,獲取的網址信息中包括文本信息“潛伏在線”對應的網址信息“www.youku.com”,因此可以將網址信息“www.youku.com”的點擊次數500次確定為屬于視頻類型的網址信息的點擊次數。
(4)、基于選擇的點擊次數和該文本信息的點擊總次數,確定該文本信息屬于該實體類型的概率,得到文本信息概率。
在本發(fā)明實施例中,從該至少一個網址信息的點擊次數中,選擇的屬于該實體類型的網址信息的點擊次數可以為一個,也可以為多個,當選擇的網址信息的點擊次數為一個時,可以直接將選擇的點擊次數除以該文本信息的點擊總次數,得到該文本信息屬于該實體類型的概率,也即是該文本信息的文本信息概率。而當選擇的網址信息的點擊次數為多個時,可以將選擇的多個網址信息的點擊次數相加,并將相加得到的數值除以該文本信息的點擊總次數,得到該文本信息屬于該實體類型的概率,也即是該文本信息的文本信息概率。
比如,從文本信息“潛伏在線”對應的至少一個網址信息的點擊次數中,選擇屬于視頻類型的網址信息為一個,且該網址信息為“www.youku.com”,該網址信息“www.youku.com”的點擊次數為500次,因此可以直接將該點擊次數500次除以文本信息“潛伏在線”的點擊總次數550次,得到文本信息“潛伏在線”屬于視頻類型的概率為0.91,也即是文本信息“潛伏在線”的文本信息概率為0.91。
(5)、基于該文本信息包括的命名實體,從該多個文本信息中,選擇包括該命名實體的文本信息,得到第一文本信息集合。
由于該多個文本信息中可以包括相同的命名實體,因此,基于該文本信息包括的命名實體,可以從該多個文本信息中,獲取包括該命名實體的文本信息,從而得到第一文本信息集合。
比如,基于文本信息“潛伏在線”中的命名實體“潛伏”,可以從該多個文本信息中,獲取的包括該命名實體“潛伏”的文本信息有“潛伏在線”和“潛伏觀看”,從而得到第一文本信息集合{潛伏在線,潛伏觀看}。
(6)、確定該多個文本信息概率的平均值,得到該文本信息包括的命名實體屬于該實體類型的概率,該多個文本信息概率為第一文本信息集合包括的文本信息屬于該實體類型的概率。
在本發(fā)明實施例中,通過上述步驟確定出該多個文本信息的文本信息概率之后,也即是,通過上述步驟確定出該多個文本信息分別屬于該實體類型的概率之后,為了得到該文本信息包括的命名實體屬于該實體類型的概率,可以基于上述步驟(5)獲取第一文本信息集合,進而在本步驟中,獲取第一文本信息集合包括的每個文本信息屬于該實體類型的概率,得到多個文本信息概率。從而計算該多個文本信息概率的平均值,得到該多個文本信息包括的命名實體屬于該實體類型的概率。
比如,為了得到文本信息“潛伏在線”中包括的命名實體“潛伏”屬于視頻類型的概率,可以基于上述步驟(5)獲取第一文本信息集合{潛伏在線,潛伏觀看},分別獲取該第一文本信息集合中“潛伏在線”和“潛伏觀看”屬于視頻類型的概率,得到文本信息“潛伏在線”屬于視頻類型的概率為0.91,文本信息“潛伏觀看”屬于視頻類型的概率為0.75,則對文本信息“潛伏在線”的文本信息概率0.91和文本信息“潛伏觀看”文本信息概率0.75計算平均值后,即可得到該文本信息“潛伏在線”包括的命名實體“潛伏”屬于視頻類型的概率為0.83。
當該文本信息的點擊總次數小于次數閾值時,通過上述步驟(1)-(6)計算該文本信息包括的命名實體屬于該實體類型的概率的準確率較低,進而會降低命名實體識別的準確率。因此,該命名實體識別裝置可以通過如下步驟(7)-(9)的方式來進行計算,提高計算該文本信息包括的命名實體屬于該實體類型的概率的準確性,進而提高命名實體識別的準確率。
(7)、基于該文本信息包括的命名實體,從預設數據庫中,獲取第一特征向量和該第一特征向量包括的每個特征詞的頻次,該預設數據庫至少包括預設網頁數據。
命名實體識別裝置基于該文本信息包括的命名實體,從預設數據庫中,獲取第一特征向量和該第一特征向量包括的每個特征詞的頻次的具體操作可以為:基于該文本信息包括的命名實體,從預設數據庫中,獲取包括該命名實體的數據信息,得到多個數據信息,從該多個數據信息中,分別獲取距離該命名實體最近的第二指定數值個詞語,得到該命名實體的多個特征詞,將該命名實體的多個特征詞組成第一特征向量,并對該第一特征向量包括的每個特征詞,分別統(tǒng)計該特征詞在該多個數據信息中出現(xiàn)的次數,得到第一特征向量包括的每個特征詞的頻次。
比如,當第二指定數值為2時,文本信息“星魂在線觀看”的點擊總次數為220次,由于文本信息“星魂在線觀看”的點擊總次數220小于該次數閾值300,因此,基于該文本信息“星魂在線觀看”包括的命名實體“星魂”,從預設數據庫中,獲取包括命名實體“星魂”的數據信息,得到多個數據信息,在該多個數據信息中,可以分別獲取距離該命名實體“星魂”最近的2個特征詞,假設在本發(fā)明實施例中,從該多個數據信息中,獲取到該命名實體“星魂”的n個特征詞為t1,t2,...,tn,則將這n個特征詞進行組合即可得到該命名實體“星魂”的第一特征向量,該第一特征向量可以表示為:N={t1,t2,...,tn},對于第一特征向量N中的每個特征詞,分別計算該特征詞在該多個數據信息中出現(xiàn)的次數,即可得到每個特征詞的頻次,比如,特征詞t1在該多個文本信息中共 出現(xiàn)了x1次,則特征詞t1的頻次即為x1,特征詞t2在該多個文本信息中共出現(xiàn)了x2次,特征詞t2的頻次即為x2等等。因此,第一特征向量N={t1,t2,...,tn}中每個特征詞出現(xiàn)的頻次可以表示為X={x1,x2,...,xn}。
需要說明的是,該預設數據庫除了包括預設網頁數據,還可以包括上述的搜索日志,因此,從預設數據庫中,獲取包括該命名實體的數據信息,得到的多個數據信息不僅包括預設網絡數據中的數據信息,還可以包括搜索日志中包括該命名實體的文本信息,從而可以提高識別該命名實體的準確率。
(8)、基于第二文本信息集合中每個文本信息包括的命名實體屬于該實體類型的概率和搜索日志,獲取實體概率范圍包括的多個概率區(qū)間對應的第二特征向量和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次,該第二文本信息集合包括該多個文本信息中點擊總次數大于或等于次數閾值的文本信息。
由于第二文本信息集合包括該多個文本信息中點擊總次數大于或等于次數閾值的文本信息,因此,命名實體識別裝置可以基于上述步驟(1)至(6)得到第二文本信息集合中每個文本信息包括的命名實體屬于該實體類型的概率,之后,命名實體識別裝置可以對實體概率范圍進行劃分,得到多個概率區(qū)間,對于該多個概率區(qū)間中的每個概率區(qū)間,基于第二文本信息集合中每個文本信息包括的命名實體屬于該實體類型的概率,獲取實體概率位于該概率區(qū)間的命名實體,從獲取的命名實體中,選擇屬于該實體類型的第一指定數值個命名實體;并基于選擇的命名實體,從搜索日志中,獲取該概率區(qū)間對應的第二特征向量和該概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次。如此,得到該多個概率區(qū)間對應的第二特征向量和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次。
基于選擇的命名實體,從搜索日志中,獲取該概率區(qū)間對應的第二特征向量和該概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次的具體操作可以為:對于選擇的第一指定數值個命名實體中的每個命名實體,基于該命名實體, 從搜索日志中,獲取包括該命名實體的文本信息,得到至少一個文本信息,從該至少一個文本信息中,分別獲取距離該命名實體最近的第二指定數值個詞語,得到該命名實體的多個特征詞,如此得到選擇的第一指定數值個命名實體的特征詞。也即是,對于該第一指定數值個命名實體,從包括該第一指定數值個命名實體的文本信息中,分別獲取距離該第一指定數值個命名實體最近的第二指定數值個詞語,得到該第一指定數值個命名實體的多個特征詞。之后,將該第一指定數值個命名實體的多個特征詞組成該概率區(qū)間對應的第二特征向量,并對該概率區(qū)間對應的第二特征向量包括的每個特征詞,分別統(tǒng)計該特征詞在該多個文本信息中出現(xiàn)的次數,得到該概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次。
比如,將視頻類型的實體概率范圍劃分為5個概率區(qū)間,得到概率區(qū)間1至概率區(qū)間5,其中概率區(qū)間1為[0,0.2),概率區(qū)間2為[0.2,0.4),概率區(qū)間3為[0.4,0.6),概率區(qū)間4為[0.6,0.8),概率區(qū)間5為[0.8,1]。當第一指定數值為10時,對于視頻類型的5個概率區(qū)間中的每個概率區(qū)間,獲取實體概率位于該概率區(qū)間的命名實體,從獲取的命名實體中,選擇屬于視頻類型的10個命名實體當第二指定數值為2時,對于選擇的10個命名實體中的每個命名實體,基于該命名實體,從搜索日志中,獲取包括該命名實體的文本信息,得到至少一個文本信息,從該至少一個文本信息中,分別獲取距離該命名實體最近的2個特征詞,得到包括該10個命名實體的多個文本信息。假設,從包括該10個命名實體的多個文本信息中一共獲取了m個特征詞t1,t2,...,tm,則將這m個特征詞組成該概率區(qū)間對應的第二特征向量,則該五個概率區(qū)間中概率區(qū)間j的第二特征向量可以表示為:Nj={tj1,tj2,...,tjm},其中1≤j≤5,并對該概率區(qū)間j對應的第二特征向量中包括的每一個特征詞,分別統(tǒng)計該特征詞在該多個文本信息中出現(xiàn)的次數,得到的該概率區(qū)間j對應的第二特征向量中每個特征詞的頻次可以為:Yj={yj1,yj2,...,yjm},其中1≤j≤5。
需要說明的是,在本發(fā)明實施例中,實體概率范圍為0到1,通常命名實體 屬于某一實體類型的實體概率越接近于1,命名實體識別裝置將該命名實體識別為該實體類型的概率越高。對于實體概率范圍進行區(qū)間劃分時,可以劃分為5個區(qū)間,也可以劃分為10個區(qū)間或其他任意數值個區(qū)間,第一指定數值可以為10,也可以為100或者1000,第二指定數值可以為2,也可以為3或者5,本發(fā)明實施例均不做具體限定。
(9)、基于第一特征向量、該多個概率區(qū)間對應的第二特征向量、第一特征向量包括的每個特征詞的頻次和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次,確定該文本信息包括的命名實體屬于該實體類型的概率。
具體地,對于該多個概率區(qū)間中的每個概率區(qū)間,選擇第一特征向量和該概率區(qū)間對應的第二特征向量中包括的相同特征詞,得到多個相同特征詞。從第一特征向量包括的每個特征詞的頻次中,選擇該多個相同特征詞的頻次,得到多個第一頻次,以及從該概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次中,選擇該多個相同特征詞的頻次,得到多個第二頻次。如此,得到該多個概率區(qū)間分別對應的多個第一頻次和該多個概率區(qū)間分別對應的多個第二頻次,并基于該多個概率區(qū)間分別對應的多個第一頻次和該多個概率區(qū)間分別對應的多個第二頻次,確定第一特征向量和該多個概率區(qū)間對應的第二特征向量之間的相似度,得到多個相似度?;谠摱鄠€相似度,確定該文本信息包括的命名實體屬于該實體類型的概率。
其中,基于該多個概率區(qū)間分別對應的多個第一頻次和該多個概率區(qū)間分別對應的多個第二頻次,確定第一特征向量和該多個概率區(qū)間對應第二特征向量之間的相似度,得到多個相似度的過程可以包括:對于該多個概率區(qū)間中的每個概率區(qū)間,基于該概率區(qū)間對應的多個第一頻次和該概率區(qū)間對應的多個第二頻次,根據如下公式(1),計算該第一特征向量和該概率區(qū)間對應的第二特征向量之間的相似度,
上述公式(1)中,N為第一特征向量,Nj為概率區(qū)間j對應的第二特征向量,Sim(N,Nj)為第一特征向量N和概率區(qū)間j對應的第二特征向量Nj之間的相似度,w為第一特征向量N和概率區(qū)間j對應的第二特征向量Nj包括的多個相同特征詞的個數,i為多個相同特征詞中的第i個特征詞,且1≤i≤w,xi為第一特征向量N包括的第i個特征詞的第一頻次,yji為概率區(qū)間j對應的第二特征向量Nj包括的第i個特征詞的第二頻次。
比如,對于5個概率區(qū)間中的概率區(qū)間1,選擇命名實體“星魂”的第一特征向量N={t1,t2,...,tn}和概率區(qū)間1對應的第二特征向量N1={t11,t12,...,t1m}中包括的相同特征詞,假設得到了5個相同特征詞,該5個相同特征詞為t1,t2,t3,t4,t5。從第一特征向量N包括的每個特征詞的頻次X={x1,x2,...,xn}中選擇該5個相同特征詞t1,t2,t3,t4,t5的頻次分別為x1,x2,x3,x4,x5,得到5個第一頻次;再從概率區(qū)間1對應的第二特征向量N1包括的每個特征詞的頻次Y1={y11,y12,...,y1m}中,選擇該5個相同特征詞t1,t2,t3,t4,t5的頻次分別為y11,y12,y13,y14,y15,得到5個第二頻次。如此,得到該概率區(qū)間1對應的5個第一頻次和該概率區(qū)間1對應的5個第二頻次。
假設概率區(qū)間1對應的5個第一頻次x1,x2,x3,x4,x5分別為2,3,1,1,2,以及概率區(qū)間1對應的5個第二頻次y11,y12,y13,y14,y15分別為1,1,3,3,2,將該5個第一頻次2,3,1,1,2和5個第二頻次1,1,3,3,2代入公式(1),
計算得到該命名實體“星魂”的第一特征向量N和概率區(qū)間1的第二特征向量N1之間的相似度Sim(N,N1)為0.76。
其中,基于該多個相似度,確定該文本信息包括的命名實體屬于該實體類型的概率的過程可以包括:按照相似度從大到小的順序,對該多個相似度進行排序,得到相似度順序,并按照該相似度順序,從該多個相似度中,選擇第三指定數值個相似度,并基于該第三指定數值個相似度,獲取第三指定數值個概率區(qū)間,該第三指定數值個概率區(qū)間與該第三指定數值個相似度對應的第二特征向量一一對應,為了對該第三指定數值個概率區(qū)間進行區(qū)分,可以對上述步驟(8)中劃分的多個概率區(qū)間進行編號,比如,第一概率區(qū)間的編號為1,概率區(qū)間2的編號為2等等。然后計算該第三指定數值個概率區(qū)間的編號的平均值,當計算得到的平均值為整數時,直接將該平均值確定為參考概率區(qū)間編號;當該平均值不為整數時,將該平均值進行取整,并將取整后的數值確定為該參考概率區(qū)間編號。之后,計算該參考概率區(qū)間編號對應的概率區(qū)間的平均值,得到該文本信息包括的命名實體屬于該實體類型的概率。
比如,命名實體“星魂”的第一特征向量N和該5個概率區(qū)間對應的第二特征向量N1、N2、N3、N4、N5之間的相似度分別為0.76、0.65、0.81、0.95、0.9,當第三指定數值為3時,按照相似度從大到小的順序,對該5個相似度進行排序,得到相似度順序為:0.95>0.9>0.81>0.76>0.65,并按照該相似度順序,從該多個相似度中,選擇3個相似度為0.95、0.9、0.81,并基于該3個相似度,獲取對應的3個概率區(qū)間分別為概率區(qū)間3、概率區(qū)間4和概率區(qū)間5,計算該3個概率區(qū)間的編號3、4和5的平均值為4,由于該平均值為整數,因此,將該平均值4確定為參考概率區(qū)間編號,計算該參考概率區(qū)間編號4對應的概率區(qū)間4的平均值,而概率區(qū)間4為[0.6,0.8),因此,計算0.6和0.8的平均值為0.7,因此,確定該文本信息“星魂在線觀看”中包括的命名實體“星魂”屬于視頻類型的實體概率為0.7。
需要說明的是,該第三指定數值是事先設置的,且第三指定數值可以為3,也可以為4或者5等等,本發(fā)明實施例不做具體限定。
另外,當該平均值不為整數時,將該平均值進行取整時,可以將該平均值 的小數位進行四舍五入;或者對該平均值進行向上取整;或者對該平均值進行向下取整,本發(fā)明實施例不做具體限定。
可選的,基于該多個相似度,確定該文本信息包括的命名實體屬于該實體類型的概率時,除了上述方法外,還可以包括:從該多個相似度中,選取相似度最高的第二特征向量所對應的概率區(qū)間,將該概率區(qū)間的平均值確定為該文本信息包括的命名實體屬于該實體類型的概率。
比如,從該多個相似度0.76、0.65、0.81、0.95、0.9中,選取最高的相似度為0.95,基于該最高的相似度0.95,獲取該最高的相似度對應的第二特征向量N4,以及該第二特征向量N4所對應的概率區(qū)間為概率區(qū)間4,由于概率區(qū)間4為[0.6,0.8),因此,計算0.6和0.8的平均值為0.7,進而確定文本信息“星魂在線觀看”中包括的命名實體“星魂”屬于視頻類型的實體概率為0.7。
可選的,當文本信息的點擊總次數小于次數閾值時,本發(fā)明實施例不僅可以通過上述(7)-(9)的步驟來確定該文本信息包括的命名實體屬于該實體類型的概率,還可以通過如下的方法來確定,包括:基于該文本信息包括的命名實體,從預設數據庫中,獲取第一特征向量和第一特征向量包括的每個特征詞的頻次;從第二文本信息集合中每個文本信息包括的命名實體中,選擇屬于該實體類型的多個命名實體,基于選擇的多個命名實體,從搜索日志中,分別獲取該多個命名實體對應的第三特征向量,得到多個第三特征向量,以及獲取該多個第三特征向量包括的每個特征詞的頻次;基于第一特征向量、該多個第三特征向量、第一特征向量包括的每個特征詞的頻次和該多個第三特征向量包括的每個特征詞的頻次,確定該文本信息包括的命名實體屬于該實體類型的概率。
其中,命名實體識別裝置基于該文本信息包括的命名實體,從預設數據庫中,獲取第一特征向量和該第一特征向量包括的每個特征詞的頻次的方法與上述步驟(7)中的方法相同,本發(fā)明實施例在此不再進行詳細闡述。
進一步的,基于選擇的多個命名實體,從搜索日志中,分別獲取該多個命名實體對應的第三特征向量,得到多個第三特征向量,以及獲取該多個第三特 征向量包括的每個特征詞的頻次的具體操作可以為:對于選擇的多個命名實體中的每個命名實體,基于該命名實體,從搜索日志中,獲取包括該命名實體的文本信息,得到多個文本信息,從該多個文本信息中,分別獲取距離該命名實體最近的第二指定數值個詞語,得到該命名實體的多個特征詞,將該多個特征詞組成該命名實體對應的第三特征向量,并對該命名實體對應的第三特征向量中包括的每個特征詞,分別統(tǒng)計該特征詞在該多個文本信息中出現(xiàn)的次數,得到該命名實體對應的第三特征向量包括的每個特征詞的頻次。如此,得到多個第三特征向量和該多個第三特征向量包括的每個特征詞的頻次。
基于第一特征向量、該多個第三特征向量、第一特征向量包括的每個特征詞的頻次和該多個第三特征向量包括的每個特征詞的頻次,確定該文本信息包括的命名實體屬于該實體類型的概率的具體操作可以為:對于該多個第三特征向量中的每個第三特征向量,選擇第一特征向量和該第三特征向量中包括的相同特征詞,得到多個相同特征詞,從第一特征向量包括的每個特征詞的頻次中,選擇該多個相同特征詞的頻次,得到多個第三頻次,以及從該第三特征向量包括的每個特征詞的頻次中,選擇該多個相同特征詞的頻次,得到多個第四頻次。如此,得到該多個第三特征向量分別對應的多個第三頻次和多個第四頻次?;谠摱鄠€第三特征向量分別對應的多個第三頻次和多個第四頻次,確定第一特征向量和該多個第三特征向量之間的相似度,得到多個相似度?;谠摱鄠€相似度,確定該文本信息包括的命名實體屬于該實體類型的概率。
其中,基于該多個第三特征向量分別對應的多個第三頻次和多個第四頻次,確定第一特征向量和該多個第三特征向量之間的相似度,得到多個相似度的過程可以包括:對于該多個第三特征向量中的每個第三特征向量,基于該第三特征向量對應的多個第三頻次和多個第四頻次,根據上述公式(1)計算該第一特征向量和該第三特征向量之間的相似度,如此,得到第一特征向量和該多個第三特征向量之間的相似度,得到多個相似度。
需要說明的是,基于該第三特征向量對應的多個第三頻次和多個第四頻次, 根據上述公式(1)計算該第一特征向量和該第三特征向量之間的相似度時,上述公式(1)中的N為第一特征向量,Nj為第j個命名實體對應的第三特征向量,Sim(N,Nj)為第一特征向量N和第j個命名實體對應的第三特征向量Nj之間的相似度,w為第一特征向量N和第j個命名實體對應的第三特征向量Nj包括的多個相同特征詞的個數,i為多個相同特征詞中的第i個特征詞,且1≤i≤w,xi為第一特征向量N包括的第i個特征詞的第三頻次,yji為第j個命名實體對應的第三特征向量Nj包括的第i個特征詞的第四頻次。
基于該多個相似度,確定該文本信息包括的命名實體屬于該實體類型的概率的具體操作可以為:從該多個相似度中,選擇最大的相似度,并基于選擇的相似度,從該多個第三特征向量中,選擇對應的第三特征向量,并將選擇的第三特征向量所對應的命名實體屬于該實體類型的概率與選擇的相似度相乘,得到該文本信息包括的命名實體屬于該實體類型的概率。
比如,該多個第三特征向量分別為N1到N6,且該多個相似度分別為0.96、0.88、0.25、0.45、0.58、0.85,從該多個相似度中,選擇最大的相似度為0.96,基于該最大的相似度0.96,獲取對應的第三特征向量為M1,假設,第三特征向量M1所對應的命名實體為“潛伏”,且該命名實體“潛伏”屬于視頻類型的實體概率為0.83,計算該實體概率0.83與該最大的相似度0.96的乘積,得到該文本信息“星魂在線觀看”包括的命名實體“星魂”屬于視頻類型的概率為0.8。
步驟204,將該多個文本信息包括的命名實體、該實體類型和該多個文本信息包括的命名實體屬于該實體類型的概率,存儲在命名實體、實體類型與實體概率之間的對應關系中。
基于上述步驟201至203,確定該多個文本信息包括的命名實體屬于該實體類型的概率之后,可以將該多個文本信息包括的命名實體,該實體類型和該多個文本信息包括的命名實體屬于該實體類型的概率,存儲在命名實體、實體類型與實體概率之間的對應關系中。
比如,對于搜索日志中包括的多個文本信息,該多個文本信息包括的命名 實體包括“潛伏”、“天龍八部”、“仙劍”和“星魂”,假如,命名實體“潛伏”屬于視頻類型的概率為0.83,屬于游戲類型的概率為0.17,命名實體“天龍八部”屬于視頻類型的概率為0.7,屬于游戲類型的概率為0.21,屬于小說類型的概率為0.09,命名實體“仙劍”屬于視頻類型的概率為0.2,游戲類型的概率為0.8;命名實體“平凡的世界”屬于視頻類型的概率為0.25,屬于小說類型的概率為0.75;命名實體“星魂”屬于視頻類型的概率為0.7。因此該多個文本信息包括的命名實體、實體類型與實體概率之間的對應關系可以如表3所示。
表3
步驟205,對于該多個實體類型中的每個實體類型,基于該實體類型、輔助實體類型和該命名實體、實體類型與實體概率之間的對應關系,確定第一命名實體集合和第二命名實體集合,該輔助實體類型為該多個實體類型中除該實體類型之外的任一實體類型。
對于該多個實體類型中的每個實體類型,為了得到第一命名實體集合,可以預先設置該實體類型的第一概率閾值,基于該實體類型,從命名實體、實體類型與實體概率之間的對應關系中,選擇實體概率大于第一概率閾值的命名實體,得到第一命名實體集合。之后,從該多個實體類型中選取除該實體類型之外的任一實體類型,將選擇的實體類型確定為輔助實體類型,并基于該輔助實 體類型,預先設置該輔助實體類型的第二概率閾值,基于輔助實體類型,從該命名實體、實體類型與實體概率之間的對應關系中,選擇實體概率小于第二概率閾值的命名實體,得到第二命名實體集合。
比如,對于視頻類型,假設預先設置的視頻類型的第一概率閾值為0.6,則從命名實體、實體類型與實體概率之間的對應關系中,獲取到的實體概率大于0.6的命名實體為“潛伏”、“天龍八部”和“星魂”,因此該視頻類型的第一命名實體集合可以為{潛伏,天龍八部,星魂}。進一步的,假設從該多個實體類型中選取的視頻類型的輔助實體類型為游戲類型,且預先設置的游戲類型的第二概率閾值為0.4,則從命名實體、實體類型與實體概率之間的對應關系中,獲取的實體概率小于0.4的命名實體為“潛伏”和“天龍八部”,因此,第二命名實體集合為{潛伏,天龍八部}。
需要說明的是,第一概率閾值可以為0.6,也可以為0.7或者0.8;第二概率閾值可以為0.4,也可以為0.3或者0.2,本發(fā)明實施例不做具體限定。
步驟206,基于第一命名實體集合、第二命名實體集合和該搜索日志,獲取多個特征詞和該多個特征詞屬于該實體類型的概率。
具體地,從該搜索日志中,獲取該第一命名實體集合包括的每個命名實體所在的文本信息和該第二命名實體集合包括的每個命名實體所在的文本信息,得到第三文本信息集合和第四文本信息集合。從該第三文本信息集合中,分別獲取離該第一命名實體集合包括的每個命名實體最近的第二指定數值個詞語,得到該多個特征詞;基于該第三文本信息集合和該第四文本信息集合,確定該多個特征詞屬于該實體類型的概率。
其中,基于該第三文本信息集合和該第四文本信息集合,確定該多個特征詞屬于該實體類型的概率的具體操作可以包括:對于該多個特征詞中的每個特征詞,從該第三文本信息集合中,獲取包括該特征詞的文本信息的個數,得到第一實體個數;從該第四文本信息集合中,獲取包括該特征詞的文本信息的個數,得到第二實體個數;基于第一實體個數和第二實體個數,計算該特征詞屬 于該實體類型的概率。
在本發(fā)明實施例中,基于第一實體個數和第二實體個數,計算該特征詞屬于該實體類型的概率的操作可以為:基于第一實體個數和第二實體個數,根據如下公式(2),計算該特征詞屬于該實體類型的概率,
上述公式(2)中,P為特征詞概率,a為第一實體個數,b為第二實體個數。
比如,第二指定數值為2時,對于視頻類型的第一命名實體集合{潛伏,天龍八部,星魂}中的每個命名實體“潛伏”、“天龍八部”和“星魂”,視頻類型的第二命名實體集合{潛伏,天龍八部}中的命名實體“潛伏”和“天龍八部”,從搜索日志中獲取包括該命名實體的多個文本信息,分別得到的第三文本信息集合可以為{潛伏在線,潛伏觀看,星魂在線觀看,天龍八部在線,天龍八部高清},第四文本信息集合可以為{潛伏在線,潛伏觀看,天龍八部在線,天龍八部高清}。從該第三文本信息集合{潛伏在線,潛伏觀看,星魂在線觀看,天龍八部在線,天龍八部高清}中分別獲取距離命名實體“潛伏”、“天龍八部”和“星魂”最近的2個詞語,得到的視頻類型的多個特征詞為{在線,觀看,高清}。對于該多個特征詞{在線,觀看,高清}中的特征詞“在線”,從該第三文本信息集合{潛伏在線,潛伏觀看,星魂在線觀看,天龍八部在線,天龍八部高清}中,獲取的包括特征詞“在線”的文本信息為“潛伏在線”,“星魂在線觀看”和“天龍八部在線”,因此該特征詞“在線”的第一實體個數為3個,從該第四文本信息集合{潛伏在線,潛伏觀看,天龍八部在線,天龍八部高清}中,獲取包括該特征詞“在線”的文本信息為“潛伏在線”和“天龍八部在線”,因此該特征詞“在線”的第二實體個數為2個?;谠撎卣髟~“在線”的第一實體個數3,第二實體個數2,可以根據公式(2),計算得到該特征詞“在線”屬于視頻類型的概率為0.6。
步驟207,將該多個特征詞、該實體類型和該多個特征詞屬于該實體類型的概率,存儲在特征詞、實體類型與特征詞概率之間的對應關系中。
基于步驟205至207,確定該多個特征詞屬于該實體類型的概率之后,可以將該多個特征詞,該實體類型和該多個特征詞屬于該實體類型的概率,存儲在特征詞、實體類型與特征詞概率之間的對應關系中。
比如,該多個特征詞中特征詞“在線”屬于視頻類型的概率為0.6,屬于游戲類型的概率為0.33,特征詞“觀看”屬于視頻類型的概率為0.67,以及特征詞“高清”屬于視頻類型的概率為0.5,可以將該多個特征詞、該視頻類型和該多個特征詞屬于視頻類型的概率存儲在如下表4所示的特征詞、實體類型與特征詞概率之間的對應關系中。
表4
基于步驟201至207所示的方法,確定了命名實體、實體類型與實體概率之間的對應關系,以及特征詞、實體類型與特征詞概率之間的對應關系之后。當命名實體識別裝置接收到待處理的文本信息時,可以基于上述兩種對應關系,通過如下的方法,對該待處理文本進行命名實體識別,具體步驟如下。
步驟208,從待處理的文本信息中,獲取目標命名實體和目標特征詞。
當終端接收到待處理的文本信息時,可以從該文本信息中識別出目標命名實體和目標特征詞。比如,當終端接收到的文本信息為“潛伏在線”時,可以獲取該文本信息的目標命名實體“潛伏”和目標特征詞“在線”。
需要說明的是,在本發(fā)明實施例中,從待處理的文本信息中,獲取目標命名實體和目標特征詞的方法可以參考相關技術,比如,可以對待處理的文本信 息進行分詞處理,從而得到目標命名實體和目標特征詞,本發(fā)明實施例對此不進行詳細闡述。
步驟209,基于該目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取多個目標實體類型和多個目標實體概率。
在本發(fā)明實施例中,由于該目標命名實體可以對應多個實體類型和多個實體概率,因此,命名實體識別裝置可以基于該目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取對應的多個實體類型和該多個實體類型對應的多個實體概率,并將獲取的多個實體類型確定為多個目標實體類型,以及將獲取的多個實體類型對應的多個實體概率確定為多個目標實體概率。
比如,對于目標命名實體“潛伏”,可以從命名實體、實體類型與實體概率之間的對應關系中,獲取到目標命名實體“潛伏”對應的多個實體類型分別為視頻類型和游戲類型,其中視頻類型對應的實體概率為0.83,游戲類型對應的實體概率為0.17,因此,可以將獲取的視頻類型和游戲類型確定為目標實體類型,并將實體概率0.83和0.17確定為目標實體概率。
步驟210,基于該目標特征詞和該多個目標實體類型,從存儲的特征詞、實體類型與特征詞概率之間的對應關系中,獲取多個目標特征詞概率。
在本發(fā)明實施例中,由于該目標特征詞可以對應多個實體類型和多個特征詞概率,因此,命名實體識別裝置可以基于該目標特征詞,從存儲的特征詞、實體類型與特征詞概率之間的對應關系中,獲取對應的多個實體類型和該多個實體類型對應的多個特征詞概率,并將獲取的多個實體類型確定為多個目標實體類型,以及將獲取的多個實體類型對應的多個特征詞概率確定為多個目標特征詞概率。
比如,基于目標特征詞“在線”,從上述表4所示的特征詞、實體類型與特征詞概率之間的對應關系中,獲取對應的實體類型為視頻類型和游戲類型,視頻類型對應的特征詞概率為0.6,游戲類型對應的特征詞概率為0.33,因此,將 視頻類型和游戲類型確定為目標實體類型,并將視頻類型對應的特征詞概率0.6確定為該目標特征詞“在線”屬于視頻類型的目標特征詞概率,以及將游戲類型對應的特征詞概率0.33確定為目標特征詞“在線”屬于游戲類型的目標特征詞概率。
步驟211,基于該多個目標實體概率和該多個目標特征詞概率,識別該目標命名實體。
從該多個目標實體概率和該多個目標特征詞概率中,獲取屬于同一實體類型的目標實體概率和目標特征詞概率,將屬于同一實體類型的目標實體概率和目標特征詞概率分別相乘,得到該目標命名實體屬于該多個實體類型的概率,從該目標命名實體屬于該多個實體類型的概率中,選取概率最大的實體類型,并將選擇的實體類型確定為該目標命名實體的實體類型,進而實現(xiàn)該目標命名實體的識別。
比如,基于目標命名實體“潛伏”的多個目標實體概率,目標特征詞“在線”的多個目標特征詞概率,獲取屬于視頻類型的目標實體概率為0.83,目標特征詞概率為0.6,將該屬于視頻類型的目標實體概率0.83和目標特征詞概率0.6相乘,即可得到該目標命名實體“潛伏”屬于視頻類型的概率為0.5;進一步的,獲取屬于游戲類型的目標實體概率為0.17,目標特征詞概率為0.33,將該屬于游戲類型的目標實體概率0.17和目標特征詞概率0.33相乘,即可得到該目標命名實體“潛伏”屬于游戲類型的概率為0.06。在該兩個實體類型概率中,由于該目標命名實體“潛伏”屬于視頻類型的概率最大,因此將視頻類型作為該目標命名實體“潛伏”的實體類型。
可選地,基于該多個目標實體概率和該多個目標特征詞概率,識別該目標命名實體的方法還可以包括:從該多個目標實體概率和該多個目標特征詞概率中,獲取屬于同一實體類型的目標實體概率和目標特征詞概率,將屬于同一實體類型的目標實體概率和目標特征詞概率分別相加,得到多個概率數值,從該多個概率數值對應的實體類型中,選取最大的概率數值對應的實體類型,并將 選擇的實體類型確定為該目標命名實體的實體類型。
比如,對于目標命名實體“潛伏”,目標特征詞“在線”,獲取屬于視頻類型的目標實體概率0.83,目標特征詞概率為0.6,將該屬于視頻類型的目標實體概率0.83與目標特征詞概率0.6相加后,得到該視頻類型的概率數值為1.43;進一步的,獲取屬于游戲類型的目標實體概率為0.17,目標特征詞概率為0.33,將該游戲類型的目標實體概率0.17與目標特征詞概率0.33相加后,得到該游戲類型的概率數值為0.5,由于視頻類型的概率數值最大,因此將視頻類型確定為該目標命名實體“潛伏”的實體類型。
可選地,基于該多個目標實體概率和該多個目標特征詞概率,識別該目標命名實體的方法還可以包括:基于該多個目標實體概率,選取該多個目標實體概率中最大的目標實體概率,并將該最大的目標實體概率所對應的實體類型確定為該目標命名實體的實體類型。
比如,對于目標命名實體“潛伏”,從存儲的命名實體、實體類型和實體概率中,可以獲取該命名實體屬于視頻類型的目標實體概率為0.83,屬于游戲類型的目標實體概率為0.17,由于視頻類型的目標實體概率0.83最大,因此可以直接將視頻類型確定為該目標命名實體“潛伏”的實體類型。
可選地,基于該多個目標實體概率和該多個目標特征詞概率,識別該目標命名實體的方法還可以包括:對于多個實體類型中的每個實體類型,基于該多個目標特征詞概率,獲取屬于該實體類型的目標特征詞概率,當屬于該實體類型的目標特征詞概率大于或等于預設概率閾值,并且屬于該實體類型的目標特征詞的個數也大于或等于預設個數閾值時,則將該實體類型確定為該目標命名實體的實體類型。
比如,假設目標特征詞的預設概率閾值為0.5,預設個數閾值為1,對于文本信息“潛伏在線”中的目標特征詞“在線”,從存儲的特征詞、實體類型和特征詞概率中可以獲取該目標特征詞“在線”屬于視頻類型的概率為0.6,由于目標特征詞“在線”屬于視頻類型的概率大于預設的概率閾值0.5,且目標特征詞 個數等于預設個數閾值1,因此可以將視頻類型確定為該目標命名實體“潛伏”的實體類型。
需要說明的是,預設概率閾值和預設個數閾值均為事先設置的,預設概率閾值可以為0.85,預設個數閾值可以為5,本發(fā)明實施例對此不做具體限定。
綜上所述,本發(fā)明實施例提供的一種命名實體識別方法,命名實體識別裝置能夠基于搜索日志和預設數據庫,建立命名實體、實體類型與實體概率之間的對應關系,以及建立特征詞、實體類型與特征詞概率之間的對應關系。因此,當命名實體識別裝置從待處理的文本信息中,獲取到目標命名實體和目標特征詞后,可以基于該目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取多個目標實體類型和多個目標實體概率,并基于該目標特征詞和該多個目標實體類型,從存儲的特征詞、實體類型與特征詞概率之間的對應關系中,獲取多個目標特征詞概率,基于該多個目標實體概率和該多個目標特征詞概率,識別該目標命名實體,提高了命名實體識別的準確率。
參見圖3,本發(fā)明實施例提供了一種命名實體識別裝置300,該裝置包括:
第一獲取模塊301,用于從待處理的文本信息中,獲取目標命名實體和目標特征詞;
第二獲取模塊302,用于基于該目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取多個目標實體類型和多個目標實體概率;
第三獲取模塊303,用于基于該目標特征詞和該多個目標實體類型,從存儲的特征詞、實體類型與特征詞概率之間的對應關系中,獲取多個目標特征詞概率;
識別模塊304,用于基于該多個目標實體概率和該多個目標特征詞概率,識別該目標命名實體。
可選地,參見圖4,該裝置還包括:
第四獲取模塊305,用于從存儲的搜索日志中,獲取該搜索日志包括的多個 文本信息分別對應的至少一個網址信息和該至少一個網址信息的點擊次數,該搜索日志中包括文本信息、網址信息和點擊次數之間的對應關系;
分類模塊306,用于基于該多個文本信息分別對應的至少一個網址信息,對該多個文本信息包括的命名實體進行分類,得到多個實體類型;
第一確定模塊307,用于對于該多個實體類型中的每個實體類型,基于該多個文本信息分別對應的至少一個網址信息的點擊次數,分別確定該多個文本信息包括的命名實體屬于該實體類型的概率;
第一存儲模塊308,用于將該多個文本信息包括的命名實體、該實體類型和該多個文本信息包括的命名實體屬于該實體類型的概率,存儲在命名實體、實體類型與實體概率之間的對應關系中。
可選的,如圖5所示,該第一確定模塊307包括:
相加單元3071,用于對于該多個文本信息中的每個文本信息,將該文本信息對應的至少一個網址信息的點擊次數相加,得到該文本信息的點擊總次數;
判斷單元3072,判斷該文本信息的點擊總次數是否大于或等于次數閾值;
第一確定單元3073,如果該文本信息的點擊總次數大于或等于該次數閾值,則基于該文本信息對應的至少一個網址信息的點擊次數和該文本信息的點擊總次數,確定該文本信息包括的命名實體屬于該實體類型的概率。
進一步的,該第一確定單元3073,包括:
第一選擇子單元,用于從該文本信息對應的至少一個網址信息的點擊次數中,選擇屬于該實體類型的網址信息的點擊次數;
第一確定子單元,用于基于選擇的點擊次數和該文本信息的點擊總次數,確定該文本信息屬于該實體類型的概率,得到文本信息概率;
第二選擇子單元,用于基于該文本信息包括的命名實體,從該多個文本信息中,選擇包括該命名實體的文本信息,得到第一文本信息集合;
第二確定子單元,用于確定多個文本信息概率的平均值,得到該文本信息包括的命名實體屬于該實體類型的概率,該多個文本信息概率為該第一文本信 息集合包括的文本信息屬于該實體類型的概率。
可選的,如圖6所示,該第一確定模塊307還包括:
第一獲取單元3074,用于如果該文本信息的點擊總次數小于該次數閾值,則基于該文本信息包括的命名實體,從預設數據庫中,獲取第一特征向量和該第一特征向量包括的每個特征詞的頻次,該預設數據庫至少包括預設網頁數據;
第二獲取單元3075,用于基于第二文本信息集合中每個文本信息包括的命名實體屬于該實體類型的概率和該搜索日志,獲取實體概率范圍包括的多個概率區(qū)間對應的第二特征向量和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次,該第二文本信息集合包括該多個文本信息中點擊總次數大于或等于該次數閾值的文本信息;
第二確定單元3076,用于基于該第一特征向量、該多個概率區(qū)間對應的第二特征向量、該第一特征向量包括的每個特征詞的頻次和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次,確定該文本信息包括的命名實體屬于該實體類型的概率。
進一步的,該第二獲取單元3075包括:
第一獲取子單元,用于對于該多個概率區(qū)間中的每個概率區(qū)間,基于第二文本信息集合中每個文本信息包括的命名實體屬于該實體類型的概率,獲取實體概率位于該概率區(qū)間的命名實體;
第三選擇子單元,用于從獲取的命名實體中,選擇屬于該實體類型的第一指定數值個命名實體;
第二獲取子單元,用于基于選擇的命名實體,從該搜索日志中,獲取該概率區(qū)間對應的第二特征向量和該概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次。
進一步的,該第二確定單元3076包括:
第四選擇子單元,用于對于該多個概率區(qū)間中的每個概率區(qū)間,選擇該第一特征向量和該概率區(qū)間對應的第二特征向量中包括的相同特征詞,得到多個 相同特征詞;
第五選擇子單元,用于從該第一特征向量包括的每個特征詞的頻次中,選擇該多個相同特征詞的頻次,得到多個第一頻次,以及從該概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次中,選擇該多個相同特征詞的頻次,得到多個第二頻次;
第三確定子單元,用于基于該多個概率區(qū)間分別對應的多個第一頻次和該多個概率區(qū)間分別對應的多個第二頻次,確定該第一特征向量和該多個概率區(qū)間對應的第二特征向量之間的相似度,得到多個相似度;
第四確定子單元,用于基于該多個相似度,確定該文本信息包括的命名實體屬于該實體類型的概率。
可選的,如圖7所示,該命名實體識別裝置300,還包括:
第二確定模塊309,用于對于該多個實體類型中的每個實體類型,基于該實體類型、輔助實體類型和該命名實體、實體類型與實體概率之間的對應關系,確定第一命名實體集合和第二命名實體集合,該輔助實體類型為該多個實體類型中除該實體類型之外的任一實體類型;
第五獲取模塊310,用于基于該第一命名實體集合、該第二命名實體集合和該搜索日志,獲取多個特征詞和該多個特征詞屬于該實體類型的概率;
第二存儲模塊311,將該多個特征詞、該實體類型和該多個特征詞屬于該實體類型的概率,存儲在特征詞、實體類型與特征詞概率之間的對應關系中。
進一步的,如圖8所示,該第二確定模塊309包括:
第一選擇單元3091,用于基于該實體類型,從該命名實體、實體類型與實體概率之間的對應關系中,選擇實體概率大于第一概率閾值的命名實體,得到第一命名實體集合;
第二選擇單元3092,用于基于輔助實體類型,從該命名實體、實體類型與實體概率之間的對應關系中,選擇實體概率小于第二概率閾值的命名實體,得到第二命名實體集合。
進一步的,如圖9所示,該第五獲取模塊310包括:
第三獲取單元3101,用于從該搜索日志中,獲取該第一命名實體集合包括的每個命名實體所在的文本信息和該第二命名實體集合包括的每個命名實體所在的文本信息,得到第三文本信息集合和第四文本信息集合;
第四獲取單元3102,用于從該第三文本信息集合中,分別獲取離該第一命名實體集合包括的每個命名實體最近的第二指定數值個詞語,得到該多個特征詞;
第三確定單元3103,用于基于該第三文本信息集合和該第四文本信息集合,確定該多個特征詞屬于該實體類型的概率
進一步的,該第三確定單元3103,包括:
第三獲取子單元,用于對于該多個特征詞中的每個特征詞,從該第三文本信息集合中,獲取包括該特征詞的文本信息的個數,得到第一實體個數;
第四獲取子單元,用于從該第四文本信息集合中,獲取包括該特征詞的文本信息的個數,得到第二實體個數;
計算子單元,用于基于該第一實體個數和該第二實體個數,計算該特征詞屬于該實體類型的概率。
綜上所述,命名實體識別裝置能夠基于搜索日志和預設數據庫,建立命名實體、實體類型與實體概率之間的對應關系,以及建立特征詞、實體類型與特征詞概率之間的對應關系。因此,當命名實體識別裝置從待處理的文本信息中,獲取到目標命名實體和目標特征詞后,可以基于該目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取多個目標實體類型和多個目標實體概率,并基于該目標特征詞和該多個目標實體類型,從存儲的特征詞、實體類型與特征詞概率之間的對應關系中,獲取多個目標特征詞概率,基于該多個目標實體概率和該多個目標特征詞概率,識別該目標命名實體,提高了命名實體識別的準確率。
本領域普通技術人員可以理解實現(xiàn)上述實施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質中,上述提到的存儲介質可以是只讀存儲器,磁盤或光盤等。
請參考圖10,其示出了本發(fā)明一個實施例提供命名實體識別裝置的結構方框圖,該命名實體識別裝置可以為終端1000,終端1000可以包括通信單元1010、包括有一個或一個以上計算機可讀存儲介質的存儲器1020、輸入單元1030、顯示單元1040、傳感器1050、音頻電路1060、WIFI(Wireless Fidelity,無線保真)模塊1070、包括有一個或者一個以上處理核心的處理器1080、以及電源1090等部件。本領域技術人員可以理解,圖10中示出的終端結構并不構成對終端的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。其中:
通信單元1010可用于收發(fā)信息或通話過程中,信號的接收和發(fā)送,該通信單元1010可以為RF(Radio Frequency,射頻)電路、路由器、調制解調器、等網絡通信設備。特別地,當通信單元1010為RF電路時,將基站的下行信息接收后,交由一個或者一個以上處理器1080處理;另外,將涉及上行的數據發(fā)送給基站。通常,作為通信單元的RF電路包括但不限于天線、至少一個放大器、調諧器、一個或多個振蕩器、用戶身份模塊(SIM)卡、收發(fā)信機、耦合器、LNA(LowNoiseAmplifier,低噪聲放大器)、雙工器等。此外,通信單元1010還可以通過無線通信與網絡和其他設備通信。所述無線通信可以使用任一通信標準或協(xié)議,包括但不限于GSM(Global System ofMobile communication,全球移動通訊系統(tǒng))、GPRS(General PacketRadio Service,通用分組無線服務)、CDMA(Code DivisionMultipleAccess,碼分多址)、WCDMA(Wideband Code Division MultipleAccess,寬帶碼分多址)、LTE(Long TermEvolution,長期演進)、電子郵件、SMS(ShortMessaging Service,短消息服務)等。存儲器1020可用于存 儲軟件程序以及模塊,處理器1080通過運行存儲在存儲器1020的軟件程序以及模塊,從而執(zhí)行各種功能應用以及數據處理。存儲器1020可主要包括存儲程序區(qū)和存儲數據區(qū),其中,存儲程序區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應用程序(比如聲音播放功能、圖像播放功能等)等;存儲數據區(qū)可存儲根據終端1000的使用所創(chuàng)建的數據(比如音頻數據、電話本等)等。此外,存儲器1020可以包括高速隨機存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。相應地,存儲器1020還可以包括存儲器控制器,以提供處理器1080和輸入單元1030對存儲器1020的訪問。
輸入單元1030可用于接收輸入的數字或字符信息,以及產生與用戶設置以及功能控制有關的鍵盤、鼠標、操作桿、光學或者軌跡球信號輸入。優(yōu)選地,輸入單元1030可包括觸敏表面1031以及其他輸入設備1032。觸敏表面1031,也稱為觸摸顯示屏或者觸控板,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸敏表面1031上或在觸敏表面1031附近的操作),并根據預先設定的程式驅動相應的連接裝置??蛇x的,觸敏表面1031可包括觸摸檢測裝置和觸摸控制器兩個部分。其中,觸摸檢測裝置檢測用戶的觸摸方位,并檢測觸摸操作帶來的信號,將信號傳送給觸摸控制器;觸摸控制器從觸摸檢測裝置上接收觸摸信息,并將它轉換成觸點坐標,再送給處理器1080,并能接收處理器1080發(fā)來的命令并加以執(zhí)行。此外,可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實現(xiàn)觸敏表面1031。除了觸敏表面1031,輸入單元1030還可以包括其他輸入設備1032。優(yōu)選地,其他輸入設備1032可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關按鍵等)、軌跡球、鼠標、操作桿等中的一種或多種。
顯示單元1040可用于顯示由用戶輸入的信息或提供給用戶的信息以及終端1000的各種圖形用戶接口,這些圖形用戶接口可以由圖形、文本、圖標、視頻和其任意組合來構成。顯示單元1040可包括顯示面板1041,可選的,可以采用 LCD(Liquid Crystal Display,液晶顯示器)、OLED(Organic Light-Emitting Diode,有機發(fā)光二極管)等形式來配置顯示面板1041。進一步的,觸敏表面1031可覆蓋顯示面板1041,當觸敏表面1031檢測到在其上或附近的觸摸操作后,傳送給處理器1080以確定觸摸事件的類型,隨后處理器1080根據觸摸事件的類型在顯示面板1041上提供相應的視覺輸出。雖然在圖10中,觸敏表面1031與顯示面板1041是作為兩個獨立的部件來實現(xiàn)輸入和輸入功能,但是在某些實施例中,可以將觸敏表面1031與顯示面板1041集成而實現(xiàn)輸入和輸出功能。
終端1000還可包括至少一種傳感器1050,比如光傳感器、運動傳感器以及其他傳感器。光傳感器可包括環(huán)境光傳感器及接近傳感器,其中,環(huán)境光傳感器可根據環(huán)境光線的明暗來調節(jié)顯示面板1041的亮度,接近傳感器可在終端1000移動到耳邊時,關閉顯示面板1041和/或背光。作為運動傳感器的一種,重力加速度傳感器可檢測各個方向上(一般為三軸)加速度的大小,靜止時可檢測出重力的大小及方向,可用于識別手機姿態(tài)的應用(比如橫豎屏切換、相關游戲、磁力計姿態(tài)校準)、振動識別相關功能(比如計步器、敲擊)等;至于終端1000還可配置的陀螺儀、氣壓計、濕度計、溫度計、紅外線傳感器等其他傳感器,在此不再贅述。
音頻電路1060、揚聲器1061,傳聲器1062可提供用戶與終端1000之間的音頻接口。音頻電路1060可將接收到的音頻數據轉換后的電信號,傳輸到揚聲器1061,由揚聲器1061轉換為聲音信號輸出;另一方面,傳聲器1062將收集的聲音信號轉換為電信號,由音頻電路1060接收后轉換為音頻數據,再將音頻數據輸出處理器1080處理后,經通信單元1010以發(fā)送給比如另一終端,或者將音頻數據輸出至存儲器1020以便進一步處理。音頻電路1060還可能包括耳塞插孔,以提供外設耳機與終端1000的通信。
為了實現(xiàn)無線通信,該終端上可以配置有無線通信單元1070,該無線通信單元1070可以為WIFI模塊。WIFI屬于短距離無線傳輸技術,終端1000通過無線通信單元1070可以幫助用戶收發(fā)電子郵件、瀏覽網頁和訪問流式媒體等, 它為用戶提供了無線的寬帶互聯(lián)網訪問。雖然圖中示出了無線通信單元1070,但是可以理解的是,其并不屬于終端1000的必須構成,完全可以根據需要在不改變發(fā)明的本質的范圍內而省略。
處理器1080是終端1000的控制中心,利用各種接口和線路連接整個手機的各個部分,通過運行或執(zhí)行存儲在存儲器1020內的軟件程序和/或模塊,以及調用存儲在存儲器1020內的數據,執(zhí)行終端1000的各種功能和處理數據,從而對手機進行整體監(jiān)控??蛇x的,處理器1080可包括一個或多個處理核心;優(yōu)選的,處理器1080可集成應用處理器和調制解調處理器,其中,應用處理器主要處理操作系統(tǒng)、用戶界面和應用程序等,調制解調處理器主要處理無線通信。可以理解的是,上述調制解調處理器也可以不集成到處理器1080中。
終端1000還包括給各個部件供電的電源1090(比如電池),優(yōu)選的,電源可以通過電源管理系統(tǒng)與處理器1080邏輯相連,從而通過電源管理系統(tǒng)實現(xiàn)管理充電、放電、以及功耗管理等功能。電源1060還可以包括一個或一個以上的直流或交流電源、再充電系統(tǒng)、電源故障檢測電路、電源轉換器或者逆變器、電源狀態(tài)指示器等任意組件。
盡管未示出,終端1000還可以包括攝像頭、藍牙模塊等,在此不再贅述。
在本實施例中,終端還包括有一個或者一個以上的程序,這一個或者一個以上程序存儲于存儲器中,且經配置以由一個或者一個以上處理器執(zhí)行,所述一個或者一個以上程序包含用于進行本發(fā)明實施例提供的命名實體識別方法的指令,包括:
從待處理的文本信息中,獲取目標命名實體和目標特征詞;
基于該目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取多個目標實體類型和多個目標實體概率;
基于該目標特征詞和該多個目標實體類型,從存儲的特征詞、實體類型與特征詞概率之間的對應關系中,獲取多個目標特征詞概率;
基于該多個目標實體概率和該多個目標特征詞概率,識別該目標命名實體。
可選的,基于該目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取多個目標實體類型和多個目標實體概率之前,還包括:
從存儲的搜索日志中,獲取該搜索日志包括的多個文本信息分別對應的至少一個網址信息和該至少一個網址信息的點擊次數,該搜索日志中包括文本信息、網址信息和點擊次數之間的對應關系;
基于該多個文本信息分別對應的至少一個網址信息,對該多個文本信息包括的命名實體進行分類,得到多個實體類型;
對于該多個實體類型中的每個實體類型,基于該多個文本信息分別對應的至少一個網址信息的點擊次數,分別確定該多個文本信息包括的命名實體屬于該實體類型的概率;
將該多個文本信息包括的命名實體、該實體類型和該多個文本信息包括的命名實體屬于該實體類型的概率,存儲在命名實體、實體類型與實體概率之間的對應關系中。
可選的,基于該多個文本信息分別對應的至少一個網址信息的點擊次數,分別確定該多個文本信息包括的命名實體屬于該實體類型的概率,包括:
對于該多個文本信息中的每個文本信息,將該文本信息對應的至少一個網址信息的點擊次數相加,得到該文本信息的點擊總次數;
判斷該文本信息的點擊總次數是否大于或等于次數閾值;
如果該文本信息的點擊總次數大于或等于該次數閾值,則基于該文本信息對應的至少一個網址信息的點擊次數和該文本信息的點擊總次數,確定該文本信息包括的命名實體屬于該實體類型的概率。
可選的,基于該文本信息對應的至少一個網址信息的點擊次數和該文本信息的點擊總次數,確定該文本信息包括的命名實體屬于該實體類型的概率,包括:
從該文本信息對應的至少一個網址信息的點擊次數中,選擇屬于該實體類型的網址信息的點擊次數;
基于選擇的點擊次數和該文本信息的點擊總次數,確定該文本信息屬于該實體類型的概率,得到文本信息概率;
基于該文本信息包括的命名實體,從該多個文本信息中,選擇包括該命名實體的文本信息,得到第一文本信息集合;
確定多個文本信息概率的平均值,得到該文本信息包括的命名實體屬于該實體類型的概率,該多個文本信息概率為該第一文本信息集合包括的文本信息屬于該實體類型的概率。
可選的,判斷所述文本信息的點擊總次數是否大于或等于次數閾值之后,還包括:
如果該文本信息的點擊總次數小于該次數閾值,則基于該文本信息包括的命名實體,從預設數據庫中,獲取第一特征向量和該第一特征向量包括的每個特征詞的頻次,該預設數據庫至少包括預設網頁數據;
基于第二文本信息集合中每個文本信息包括的命名實體屬于該實體類型的概率和該搜索日志,獲取實體概率范圍包括的多個概率區(qū)間對應的第二特征向量和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次,該第二文本信息集合包括該多個文本信息中點擊總次數大于或等于該次數閾值的文本信息;
基于該第一特征向量、該多個概率區(qū)間對應的第二特征向量、該第一特征向量包括的每個特征詞的頻次和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次,確定該文本信息包括的命名實體屬于該實體類型的概率。
可選的,基于第二文本信息集合中每個文本信息包括的命名實體屬于該實體類型的概率和該搜索日志,獲取實體概率范圍包括的多個概率區(qū)間對應的第二特征向量和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次,包括:
對于該多個概率區(qū)間中的每個概率區(qū)間,基于第二文本信息集合中每個文本信息包括的命名實體屬于該實體類型的概率,獲取實體概率位于該概率區(qū)間 的命名實體;
從獲取的命名實體中,選擇屬于該實體類型的第一指定數值個命名實體;
基于選擇的命名實體,從該搜索日志中,獲取該概率區(qū)間對應的第二特征向量和該概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次。
可選的,基于該第一特征向量、該多個概率區(qū)間對應的第二特征向量、該第一特征向量包括的每個特征詞的頻次和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次,確定該文本信息包括的命名實體屬于該實體類型的概率,包括:
對于該多個概率區(qū)間中的每個概率區(qū)間,選擇該第一特征向量和該概率區(qū)間對應的第二特征向量中包括的相同特征詞,得到多個相同特征詞;
從該第一特征向量包括的每個特征詞的頻次中,選擇該多個相同特征詞的頻次,得到多個第一頻次,以及從該概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次中,選擇該多個相同特征詞的頻次,得到多個第二頻次;
基于該多個概率區(qū)間分別對應的多個第一頻次和該多個概率區(qū)間分別對應的多個第二頻次,確定該第一特征向量和該多個概率區(qū)間對應的第二特征向量之間的相似度,得到多個相似度;
基于該多個相似度,確定該文本信息包括的命名實體屬于該實體類型的概率。
可選的,將該多個文本信息包括的命名實體、該實體類型和該多個文本信息包括的命名實體屬于該實體類型的概率,存儲在命名實體、實體類型與實體概率之間的對應關系中之后,還包括:
對于該多個實體類型中的每個實體類型,基于該實體類型、輔助實體類型和該命名實體、實體類型與實體概率之間的對應關系,確定第一命名實體集合和第二命名實體集合,該輔助實體類型為該多個實體類型中除該實體類型之外的任一實體類型;
基于該第一命名實體集合、該第二命名實體集合和該搜索日志,獲取多個 特征詞和該多個特征詞屬于該實體類型的概率;
將該多個特征詞、該實體類型和該多個特征詞屬于該實體類型的概率,存儲在特征詞、實體類型與特征詞概率之間的對應關系中。
可選的,基于該實體類型、輔助實體類型和該命名實體、實體類型與實體概率之間的對應關系,確定第一命名實體集合和第二命名實體集合,包括:
基于該實體類型,從該命名實體、實體類型與實體概率之間的對應關系中,選擇實體概率大于第一概率閾值的命名實體,得到第一命名實體集合;
基于輔助實體類型,從該命名實體、實體類型與實體概率之間的對應關系中,選擇實體概率小于第二概率閾值的命名實體,得到第二命名實體集合。
可選的,基于該第一命名實體集合、該第二命名實體集合和該搜索日志,獲取多個特征詞和該多個特征詞屬于該實體類型的概率,包括:
從該搜索日志中,獲取該第一命名實體集合包括的每個命名實體所在的文本信息和該第二命名實體集合包括的每個命名實體所在的文本信息,得到第三文本信息集合和第四文本信息集合;
從該第三文本信息集合中,分別獲取離該第一命名實體集合包括的每個命名實體最近的第二指定數值個詞語,得到該多個特征詞;
基于該第三文本信息集合和該第四文本信息集合,確定該多個特征詞屬于該實體類型的概率。
可選的,基于該第三文本信息集合和該第四文本信息集合,確定該多個特征詞屬于該實體類型的概率,包括:
對于該多個特征詞中的每個特征詞,從該第三文本信息集合中,獲取包括該特征詞的文本信息的個數,得到第一實體個數;
從該第四文本信息集合中,獲取包括該特征詞的文本信息的個數,得到第二實體個數;
基于該第一實體個數和該第二實體個數,計算該特征詞屬于該實體類型的概率。
本發(fā)明實施例能夠基于搜索日志和預設數據庫,建立命名實體、實體類型與實體概率之間的對應關系,以及建立特征詞、實體類型與特征詞概率之間的對應關系。因此,當命名實體識別裝置從待處理的文本信息中,獲取到目標命名實體和目標特征詞后,可以基于該目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取多個目標實體類型和多個目標實體概率,并基于該目標特征詞和該多個目標實體類型,從存儲的特征詞、實體類型與特征詞概率之間的對應關系中,獲取多個目標特征詞概率,基于該多個目標實體概率和該多個目標特征詞概率,識別該目標命名實體,提高了命名實體識別的準確率。
請參考圖11,其示出了本發(fā)明一個實施例提供的一種命名實體識別裝置的結構示意圖。該命名實體識別裝置可以為服務器1100,該服務器1100包括中央處理單元(CPU)1101、包括隨機存取存儲器(RAM)1102和只讀存儲器(ROM)1103的系統(tǒng)存儲器1104,以及連接系統(tǒng)存儲器1104和中央處理單元1101的系統(tǒng)總線1105。服務器1100還包括幫助計算機內的各個器件之間傳輸信息的基本輸入/輸出系統(tǒng)(I/O系統(tǒng))1106,和用于存儲操作系統(tǒng)1113、應用程序1110和其他程序模塊1115的大容量存儲設備1107。
所述基本輸入/輸出系統(tǒng)1106包括有用于顯示信息的顯示器1108和用于用戶輸入信息的諸如鼠標、鍵盤之類的輸入設備1109。其中所述顯示器1108和輸入設備1109都通過連接到系統(tǒng)總線1105的輸入輸出控制器1110連接到中央處理單元1101。所述基本輸入/輸出系統(tǒng)1106還可以包括輸入輸出控制器1110以用于接收和處理來自鍵盤、鼠標、或電子觸控筆等多個其他設備的輸入。類似地,輸入輸出控制器1110還提供輸出到顯示屏、打印機或其他類型的輸出設備。
所述大容量存儲設備1107通過連接到系統(tǒng)總線1105的大容量存儲控制器(未示出)連接到中央處理單元1101。所述大容量存儲設備1107及其相關聯(lián)的計算機可讀介質為服務器1100提供非易失性存儲。也就是說,所述大容量存儲 設備1107可以包括諸如硬盤或者CD-ROM驅動器之類的計算機可讀介質(未示出)。
不失一般性,所述計算機可讀介質可以包括計算機存儲介質和通信介質。計算機存儲介質包括以用于存儲諸如計算機可讀指令、數據結構、程序模塊或其他數據等信息的任何方法或技術實現(xiàn)的易失性和非易失性、可移動和不可移動介質。計算機存儲介質包括RAM、ROM、EPROM、EEPROM、閃存或其他固態(tài)存儲其技術,CD-ROM、DVD或其他光學存儲、磁帶盒、磁帶、磁盤存儲或其他磁性存儲設備。當然,本領域技術人員可知所述計算機存儲介質不局限于上述幾種。上述的系統(tǒng)存儲器1104和大容量存儲設備1107可以統(tǒng)稱為存儲器。
根據本發(fā)明的各種實施例,服務器1100還可以通過諸如因特網等網絡連接到網絡上的遠程計算機運行。也即服務器1100可以通過連接在所述系統(tǒng)總線1105上的網絡接口單元1111連接到網絡1112,或者說,也可以使用網絡接口單元1111來連接到其他類型的網絡或遠程計算機系統(tǒng)(未示出)。
所述存儲器還包括一個或者一個以上的程序,所述一個或者一個以上程序存儲于存儲器中,所述一個或者一個以上程序包含用于進行本發(fā)明實施例提供的命名實體識別方法的指令,包括:
從待處理的文本信息中,獲取目標命名實體和目標特征詞;
基于該目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取多個目標實體類型和多個目標實體概率;
基于該目標特征詞和該多個目標實體類型,從存儲的特征詞、實體類型與特征詞概率之間的對應關系中,獲取多個目標特征詞概率;
基于該多個目標實體概率和該多個目標特征詞概率,識別該目標命名實體。
可選的,基于該目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取多個目標實體類型和多個目標實體概率之前,還包括:
從存儲的搜索日志中,獲取該搜索日志包括的多個文本信息分別對應的至 少一個網址信息和該至少一個網址信息的點擊次數,該搜索日志中包括文本信息、網址信息和點擊次數之間的對應關系;
基于該多個文本信息分別對應的至少一個網址信息,對該多個文本信息包括的命名實體進行分類,得到多個實體類型;
對于該多個實體類型中的每個實體類型,基于該多個文本信息分別對應的至少一個網址信息的點擊次數,分別確定該多個文本信息包括的命名實體屬于該實體類型的概率;
將該多個文本信息包括的命名實體、該實體類型和該多個文本信息包括的命名實體屬于該實體類型的概率,存儲在命名實體、實體類型與實體概率之間的對應關系中。
可選的,基于該多個文本信息分別對應的至少一個網址信息的點擊次數,分別確定該多個文本信息包括的命名實體屬于該實體類型的概率,包括:
對于該多個文本信息中的每個文本信息,將該文本信息對應的至少一個網址信息的點擊次數相加,得到該文本信息的點擊總次數;
判斷該文本信息的點擊總次數是否大于或等于次數閾值;
如果該文本信息的點擊總次數大于或等于該次數閾值,則基于該文本信息對應的至少一個網址信息的點擊次數和該文本信息的點擊總次數,確定該文本信息包括的命名實體屬于該實體類型的概率。
可選的,基于該文本信息對應的至少一個網址信息的點擊次數和該文本信息的點擊總次數,確定該文本信息包括的命名實體屬于該實體類型的概率,包括:
從該文本信息對應的至少一個網址信息的點擊次數中,選擇屬于該實體類型的網址信息的點擊次數;
基于選擇的點擊次數和該文本信息的點擊總次數,確定該文本信息屬于該實體類型的概率,得到文本信息概率;
基于該文本信息包括的命名實體,從該多個文本信息中,選擇包括該命名 實體的文本信息,得到第一文本信息集合;
確定多個文本信息概率的平均值,得到該文本信息包括的命名實體屬于該實體類型的概率,該多個文本信息概率為該第一文本信息集合包括的文本信息屬于該實體類型的概率。
可選的,判斷所述文本信息的點擊總次數是否大于或等于次數閾值之后,還包括:
如果該文本信息的點擊總次數小于該次數閾值,則基于該文本信息包括的命名實體,從預設數據庫中,獲取第一特征向量和該第一特征向量包括的每個特征詞的頻次,該預設數據庫至少包括預設網頁數據;
基于第二文本信息集合中每個文本信息包括的命名實體屬于該實體類型的概率和該搜索日志,獲取實體概率范圍包括的多個概率區(qū)間對應的第二特征向量和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次,該第二文本信息集合包括該多個文本信息中點擊總次數大于或等于該次數閾值的文本信息;
基于該第一特征向量、該多個概率區(qū)間對應的第二特征向量、該第一特征向量包括的每個特征詞的頻次和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次,確定該文本信息包括的命名實體屬于該實體類型的概率。
可選的,基于第二文本信息集合中每個文本信息包括的命名實體屬于該實體類型的概率和該搜索日志,獲取實體概率范圍包括的多個概率區(qū)間對應的第二特征向量和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次,包括:
對于該多個概率區(qū)間中的每個概率區(qū)間,基于第二文本信息集合中每個文本信息包括的命名實體屬于該實體類型的概率,獲取實體概率位于該概率區(qū)間的命名實體;
從獲取的命名實體中,選擇屬于該實體類型的第一指定數值個命名實體;
基于選擇的命名實體,從該搜索日志中,獲取該概率區(qū)間對應的第二特征 向量和該概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次。
可選的,基于該第一特征向量、該多個概率區(qū)間對應的第二特征向量、該第一特征向量包括的每個特征詞的頻次和該多個概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次,確定該文本信息包括的命名實體屬于該實體類型的概率,包括:
對于該多個概率區(qū)間中的每個概率區(qū)間,選擇該第一特征向量和該概率區(qū)間對應的第二特征向量中包括的相同特征詞,得到多個相同特征詞;
從該第一特征向量包括的每個特征詞的頻次中,選擇該多個相同特征詞的頻次,得到多個第一頻次,以及從該概率區(qū)間對應的第二特征向量包括的每個特征詞的頻次中,選擇該多個相同特征詞的頻次,得到多個第二頻次;
基于該多個概率區(qū)間分別對應的多個第一頻次和該多個概率區(qū)間分別對應的多個第二頻次,確定該第一特征向量和該多個概率區(qū)間對應的第二特征向量之間的相似度,得到多個相似度;
基于該多個相似度,確定該文本信息包括的命名實體屬于該實體類型的概率。
可選的,將該多個文本信息包括的命名實體、該實體類型和該多個文本信息包括的命名實體屬于該實體類型的概率,存儲在命名實體、實體類型與實體概率之間的對應關系中之后,還包括:
對于該多個實體類型中的每個實體類型,基于該實體類型、輔助實體類型和該命名實體、實體類型與實體概率之間的對應關系,確定第一命名實體集合和第二命名實體集合,該輔助實體類型為該多個實體類型中除該實體類型之外的任一實體類型;
基于該第一命名實體集合、該第二命名實體集合和該搜索日志,獲取多個特征詞和該多個特征詞屬于該實體類型的概率;
將該多個特征詞、該實體類型和該多個特征詞屬于該實體類型的概率,存儲在特征詞、實體類型與特征詞概率之間的對應關系中。
可選的,基于該實體類型、輔助實體類型和該命名實體、實體類型與實體概率之間的對應關系,確定第一命名實體集合和第二命名實體集合,包括:
基于該實體類型,從該命名實體、實體類型與實體概率之間的對應關系中,選擇實體概率大于第一概率閾值的命名實體,得到第一命名實體集合;
基于輔助實體類型,從該命名實體、實體類型與實體概率之間的對應關系中,選擇實體概率小于第二概率閾值的命名實體,得到第二命名實體集合。
可選的,基于該第一命名實體集合、該第二命名實體集合和該搜索日志,獲取多個特征詞和該多個特征詞屬于該實體類型的概率,包括:
從該搜索日志中,獲取該第一命名實體集合包括的每個命名實體所在的文本信息和該第二命名實體集合包括的每個命名實體所在的文本信息,得到第三文本信息集合和第四文本信息集合;
從該第三文本信息集合中,分別獲取離該第一命名實體集合包括的每個命名實體最近的第二指定數值個詞語,得到該多個特征詞;
基于該第三文本信息集合和該第四文本信息集合,確定該多個特征詞屬于該實體類型的概率。
可選的,基于該第三文本信息集合和該第四文本信息集合,確定該多個特征詞屬于該實體類型的概率,包括:
對于該多個特征詞中的每個特征詞,從該第三文本信息集合中,獲取包括該特征詞的文本信息的個數,得到第一實體個數;
從該第四文本信息集合中,獲取包括該特征詞的文本信息的個數,得到第二實體個數;
基于該第一實體個數和該第二實體個數,計算該特征詞屬于該實體類型的概率。
本發(fā)明實施例能夠基于搜索日志和預設數據庫,建立命名實體、實體類型與實體概率之間的對應關系,以及建立特征詞、實體類型與特征詞概率之間的對應關系。因此,當命名實體識別裝置從待處理的文本信息中,獲取到目標命 名實體和目標特征詞后,可以基于該目標命名實體,從存儲的命名實體、實體類型與實體概率之間的對應關系中,獲取多個目標實體類型和多個目標實體概率,并基于該目標特征詞和該多個目標實體類型,從存儲的特征詞、實體類型與特征詞概率之間的對應關系中,獲取多個目標特征詞概率,基于該多個目標實體概率和該多個目標特征詞概率,識別該目標命名實體,提高了命名實體識別的準確率。
以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。