專利名稱:一種人物蹤跡的搜索方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)通信領(lǐng)域,尤其涉及一種人物蹤跡的搜索方法及裝置。
背景技術(shù):
目前大量的新聞報道中都會有新聞人物在具體時間、地點所從事的活動,通過對 新聞?wù)Z料中人物蹤跡的挖掘,可以向互聯(lián)網(wǎng)用戶呈現(xiàn)出特定人物在特定時間段內(nèi)去過的地 方,所從事過的活動,甚至可以預(yù)告他們將要從事的活動?,F(xiàn)有技術(shù)提供的人物蹤跡的搜索 方法主要通過人工統(tǒng)計特定人物在具體時間、地點所從事的活動。在實現(xiàn)本發(fā)明的過程中,現(xiàn)有技術(shù)所提供的技術(shù)方案存在如下問題現(xiàn)有技術(shù)的方案通過人工統(tǒng)計的方法來獲取人物蹤跡的,其效率較低,且容易發(fā) 生人為錯誤,當(dāng)新聞數(shù)量特別大時,人工也無法準(zhǔn)確統(tǒng)計,進而無法獲取人物的蹤跡。
發(fā)明內(nèi)容
本發(fā)明實施方式提供一種人物蹤跡的搜索方法,所述方法包括將存儲的新聞數(shù)據(jù)中的每個獨立的句子通過模式匹配提取每個獨立句子中的時 間信息;在包含有時間信息的獨立句子中提取地點信息,在檢測出該地點信息的前一個相 鄰的詞存在于存儲的趨向描述詞集合時,則確定所述地點信息為有效的地點信息;在包含有效地點信息的獨立句子中提取人物信息,如提取的人物信息為唯一的人 物,則將所述獨立句子中的人物、時間、地點作為該人物的一條蹤跡,并存儲該人物蹤跡。本發(fā)明還提供一種人物蹤跡的搜索裝置,所述裝置包括時間單元,用于將存儲的新聞數(shù)據(jù)中的每個獨立的句子通過模式匹配提取每個獨 立句子中的時間信息;地點單元,用于在包含有時間信息的獨立句子中提取地點信息,在檢測出該地點 信息的前一個相鄰的詞存在于存儲的趨向描述詞集合時,則確定所述地點信息為有效的地 點fn息;任務(wù)單元,用于在包含有效地點信息的獨立句子中提取人物信息,如提取的人物 信息為唯一的人物,則將所述獨立句子中的人物、時間、地點作為該人物的一條蹤跡,并存 儲該人物蹤跡。由上述所提供的技術(shù)方案可以看出,本發(fā)明實施例的技術(shù)方案能自動搜索人物的 蹤跡,具有效率高,不會發(fā)生人為錯誤的優(yōu)點,且在新聞數(shù)量巨大的情況下,也能對任務(wù)蹤 跡進行準(zhǔn)確的統(tǒng)計。
圖1為本發(fā)明提供的一種人物蹤跡的搜索方法的流程圖;圖2為本發(fā)明一實施例提供的一種人物蹤跡的搜索方法的流程圖。
圖3為本發(fā)明提供的一種人物蹤跡的搜索裝置的結(jié)構(gòu)圖
具體實施例方式本發(fā)明實施方式提供一種人物蹤跡的搜索方法,該方法如圖1所示,包括S11、將存儲的新聞數(shù)據(jù)中的每個獨立的句子通過模式匹配提取每個獨立句子中 的時間信息;獲取時間信息的方法可以為,對上述獨立的句子使用正則表達式來實現(xiàn)對時間信 息的提?。灰部梢杂妹杜e所有可能的日期,與句子中的日期進行逐個匹配。上述正則表達式的具體實現(xiàn)方法可以參見JAVA、C++等程序開發(fā)語言中相關(guān)描 述。S12、在包含有時間信息的獨立句子中提取地點信息,在檢測出該地點信息的前一 個相鄰的詞存在于存儲的趨向描述詞集合時,則確定該地點信息為有效的地點信息。上述提取出地點信息的方法可以為將獨立句子進行分詞處理后,提取句子中的 地點信息。提取地點信息的方法還可以為枚舉所有可能的地點信息,與句子中的詞進行逐 個匹配,該所有的地點信息可以為全國所有的城市名稱。上述趨向描述詞集合可以為{〃在〃,“于〃,“抵達〃,“抵〃,“來到〃,“前往〃,“飛往〃,“飛 抵〃,“返回〃,“趕回〃,“回〃,“蒞臨〃,“赴〃,“去〃,“到〃,“去往〃,“ 訪問〃,“考察〃,“登陸〃,“離開〃,“趕往〃,“重返〃,“去〃,“來〃,“到 達〃,“飛離〃,“行至〃,“來回〃,“往返〃,“奔赴〃,“開赴〃,“留在〃,“ 進入〃,“登錄〃,“趕到〃,“來到了〃,“抵達了〃,“返回了〃,“趕回了〃,“ 趕到了〃,“進入了〃,“到達了〃,“離開了〃,“到了〃,“去了〃,“來了〃,“ 飛離了")S13、在包含有效地點信息的獨立句子中提取人物信息,如提取的人物信息為唯一 的人物,則將該獨立句子中的人物、時間、地點作為該人物的一條蹤跡,并存儲該人物蹤跡。本發(fā)明提供的人物蹤跡的搜索方法能自動搜索人物的蹤跡,具有效率高,不會發(fā) 生人為錯誤的優(yōu)點,且在新聞數(shù)量巨大的情況下,也能對任務(wù)蹤跡進行準(zhǔn)確的統(tǒng)計。—實施例,本實施例提供一種人物蹤跡的搜索方法,本實施例的技術(shù)場景為,本實 施例在數(shù)據(jù)庫存儲的新聞數(shù)據(jù)中搜索人物的蹤跡,該數(shù)據(jù)庫的新聞數(shù)據(jù)可以由系統(tǒng)定期在 網(wǎng)上抓取,然后存儲于數(shù)據(jù)庫內(nèi),該方法如圖2所示,包括如下步驟S21、將新聞數(shù)據(jù)中的每個獨立的句子通過模式匹配提取每個獨立句子中的時間 fn息;實現(xiàn)S21的具體方法可以為,對上述獨立的句子使用正則表達式來實現(xiàn)對時間信 息提取,其中上述正則表達式中的日期規(guī)則可以為模糊日期規(guī)則,如昨天、今天、去年、明年 等,也可以為精準(zhǔn)日期規(guī)則,如2009-10-17等;當(dāng)然在實際情況中,用戶也可以根據(jù)自己的 需要對日期規(guī)則進行修改,例如增加或減少日期規(guī)則的數(shù)量。S22、在包含有時間信息的獨立句子中進行分詞處理,并提取地點信息,在檢測出 該地點信息的前一個相鄰的詞存在于趨向描述詞集合時,則確定該地點信息為有效的地點 fn息;
S22中的地點信息可以為全國區(qū)級以上的地點名稱,該趨向描述詞集合可以為上 述47個趨向描述詞,當(dāng)然在實際情況中,用戶也可以根據(jù)自己的需要對趨向描述詞集合進 行修改,例如增加或減少趨向描述詞集合的數(shù)量。上述相鄰的詞為緊跟地點信息的詞,即該地點信息和趨向描述詞中間不能存在任 何的詞以及標(biāo)點符號。S23、在包含有效地點信息的獨立句子中提取人物信息,如提取的人物信息為唯一 的人物,則將該獨立句子中的人物、時間、地點作為該人物的一條蹤跡。實現(xiàn)S23的方法可以為,采用分詞系統(tǒng)的人名識別從獨立的句子中提取人物信 息,當(dāng)然在實際情況中也可以采用其他的人名識別方法來提取人物信息,本發(fā)明并不局限 實現(xiàn)該方法的具體方式。可選的,上述方法還可以包括下述步驟之一,如單獨包括S24、S25或S26 ;當(dāng)然也 可以包括S24、S25和S26 ;還可以包括SM和S25。S24、統(tǒng)計相同的人物蹤跡出現(xiàn)的次數(shù),并將該增加到存儲的人物蹤跡中。S25、在具有人物蹤跡的獨立句子中采用獲取事件描述詞,并對該事件描述詞賦予 權(quán)重值;并將該事件描述詞和事件描述詞的權(quán)重值增加到存儲的人物蹤跡中。上述獲取事件描述詞的方法可以為下述方式中的任意一種方式A、搜索獨立句子中與預(yù)先存儲的事件描述詞列表匹配的事件描述詞,并將該 匹配的事件描述詞作為獲取的事件描述詞。其實現(xiàn)方法具體為,搜索獨立句子中的詞,將搜索到的詞與預(yù)先存儲的事件描述 詞列表中的事件描述詞一一對比,如相同且說明具有匹配的事件描述詞。上述事件描述詞列表中的事件描述詞用戶可以根據(jù)需要進行設(shè)定,如新聞發(fā)布 會、歌友會、上海經(jīng)濟論壇等等。方式B、提取句子中的動詞,將該動詞作為獲取的事件描述詞。上述權(quán)重值用戶可以按事件的重要程度給每個事件描述詞設(shè)定一權(quán)重值,原則 為,方式A中的時間描述詞的權(quán)重值大于方式B中的事件描述詞權(quán)重值。增加次數(shù)、事件描述詞和描述詞的權(quán)重值后的蹤跡具體的表示方式可以如下表
權(quán)利要求
1.一種人物蹤跡的搜索方法,其特征在于,所述方法包括將存儲的新聞數(shù)據(jù)中的每個獨立的句子通過模式匹配提取每個獨立句子中的時間信息;在包含有時間信息的獨立句子中提取地點信息,在檢測出該地點信息的前一個相鄰的 詞存在于存儲的趨向描述詞集合時,則確定所述地點信息為有效的地點信息;在包含有效地點信息的獨立句子中提取人物信息,如提取的人物信息為唯一的人物, 則將所述獨立句子中的人物、時間、地點作為該人物的一條蹤跡,并存儲該人物蹤跡。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法在存儲該人物蹤跡之前還包括 統(tǒng)計相同的人物蹤跡出現(xiàn)的次數(shù),并將該增加到存儲的人物蹤跡中。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法將該增加到存儲的人物蹤跡中 后,還包括在具有人物蹤跡的獨立句子中獲取事件描述詞,并對該事件描述詞賦予權(quán)重值;并將 該事件描述詞和事件描述詞的權(quán)重值增加到存儲的人物蹤跡中。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述在具有人物蹤跡的獨立句子中獲取 事件描述詞包括搜索所述獨立句子中與預(yù)先存儲的事件描述詞列表匹配的事件描述詞,并將該匹配的 事件描述詞作為獲取的事件描述詞;或提取句子中的動詞,將該動詞作為獲取的事件描述詞。
5.根據(jù)權(quán)利要求3所述方法,其特征在于,所述方法在存儲該人物蹤跡之后,還包括 接收到查找特定人物在特定日期的命令時,在存儲的蹤跡中獲取與該特定人物和特定日期相匹配的蹤跡,并選擇人物蹤跡的出現(xiàn)次數(shù)超出次數(shù)閾值且事件描述詞的權(quán)重值最大 的蹤跡輸出。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述在包含有時間信息的獨立句子中提 取地點信息包括將所述獨立句子進行分詞處理后,提取地點信息。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,將存儲的新聞數(shù)據(jù)中的每個獨立的句子 通過模式匹配提取每個獨立句子中的時間信息包括對所述每個獨立的句子采用正則表達式提取所述每個獨立句子中的時間信息。
8.一種人物蹤跡的搜索裝置,其特征在于,所述裝置包括時間單元,用于將存儲的新聞數(shù)據(jù)中的每個獨立的句子通過模式匹配提取每個獨立句 子中的時間信息;地點單元,用于在包含有時間信息的獨立句子中提取地點信息,在檢測出該地點信息 的前一個相鄰的詞存在于存儲的趨向描述詞集合時,則確定所述地點信息為有效的地點信 息;任務(wù)單元,用于在包含有效地點信息的獨立句子中提取人物信息,如提取的人物信息 為唯一的人物,則將所述獨立句子中的人物、時間、地點作為該人物的一條蹤跡,并存儲該 人物蹤跡。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括次數(shù)單元,用于統(tǒng)計相同的人物蹤跡出現(xiàn)的次數(shù),并將該增加到存儲的人物蹤跡中。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述裝置還包括事件單元,用于在具有人物蹤跡的獨立句子中獲取事件描述詞,并對該事件描述詞賦 予權(quán)重值;并將該事件描述詞和事件描述詞的權(quán)重值增加到存儲的人物蹤跡中。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括輸出單元,用于接收到查找特定人物在特定日期的命令時,在存儲的蹤跡中獲取與該 特定人物和特定日期相匹配的蹤跡,并選擇人物蹤跡的出現(xiàn)次數(shù)超出次數(shù)閾值且事件描述 詞的權(quán)重值最大的蹤跡輸出。
全文摘要
本發(fā)明實施方式提供了一種人物蹤跡的搜索方法及裝置,該方法及裝置屬于網(wǎng)絡(luò)通信領(lǐng)域,該方法包括將存儲的新聞數(shù)據(jù)中的每個獨立的句子通過模式匹配提取每個獨立句子中的時間信息;在獨立句子中提取地點信息,在檢測出該地點信息的前一個相鄰的詞存在于存儲的趨向描述詞集合時,則確定所述地點信息為有效的地點信息;在獨立句子中提取人物信息,如提取的人物信息為唯一的人物,則將所述獨立句子中的人物、時間、地點作為該人物的一條蹤跡,并存儲該人物蹤跡。該方法及裝置具有其效率較高,不會發(fā)生人為錯誤,當(dāng)新聞數(shù)量特別大時,能獲取人物蹤跡的優(yōu)點。
文檔編號G06F17/30GK102053997SQ200910235898
公開日2011年5月11日 申請日期2009年10月29日 優(yōu)先權(quán)日2009年10月29日
發(fā)明者姜愛榮, 李務(wù)斌, 段孟成, 賈自艷 申請人:騰訊科技(深圳)有限公司