一種查找人員影蹤的方法及裝置制造方法
【專利摘要】本發(fā)明實(shí)施方式提供了一種查找人員影蹤的方法及裝置,該方法及裝置屬于網(wǎng)絡(luò)通信領(lǐng)域,該方法包括:將存儲(chǔ)的新聞數(shù)據(jù)中的每個(gè)獨(dú)立的句子通過模式匹配提取每個(gè)獨(dú)立句子中的時(shí)間信息;在獨(dú)立句子中提取地點(diǎn)信息,在檢測(cè)出該地點(diǎn)信息的前一個(gè)相鄰的詞存在于存儲(chǔ)的趨向描述詞集合時(shí),則確定所述地點(diǎn)信息為有效的地點(diǎn)信息;在獨(dú)立句子中提取人員信息,如提取的人物信息為唯一的人員,則將所述獨(dú)立句子中的人員、時(shí)間、地點(diǎn)作為該人物的一條影蹤,并存儲(chǔ)該人員影蹤。該方法及裝置具有其效率較高,不會(huì)發(fā)生人為錯(cuò)誤,當(dāng)新聞數(shù)量特別大時(shí),能獲取人員影蹤的優(yōu)點(diǎn)。
【專利說明】一種查找人員影蹤的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)通信領(lǐng)域,尤其涉及一種查找人員影蹤的方法及裝置。
【背景技術(shù)】
[0002]目前大量的新聞報(bào)道中都會(huì)有新聞人員在具體時(shí)間、地點(diǎn)所從事的活動(dòng),通過對(duì)新聞?wù)Z料中人員影蹤的挖掘,可以向互聯(lián)網(wǎng)用戶呈現(xiàn)出特定人員在特定時(shí)間段內(nèi)去過的地方,所從事過的活動(dòng),甚至可以預(yù)告他們將要從事的活動(dòng)?,F(xiàn)有技術(shù)提供的人員影蹤的搜索方法主要通過人工統(tǒng)計(jì)特定人員在具體時(shí)間、地點(diǎn)所從事的活動(dòng)。
[0003]在實(shí)現(xiàn)本發(fā)明的過程中,現(xiàn)有技術(shù)所提供的技術(shù)方案存在如下問題:
現(xiàn)有技術(shù)的方案通過人工統(tǒng)計(jì)的方法來獲取人員影蹤的,其效率較低,且容易發(fā)生人為錯(cuò)誤,當(dāng)新聞數(shù)量特別大時(shí),人工也無法準(zhǔn)確統(tǒng)計(jì),進(jìn)而無法獲取人員的影蹤。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實(shí)施方式提供一種查找人員影蹤的方法,所述方法包括:
將存儲(chǔ)的新聞數(shù)據(jù)中的每個(gè)獨(dú)立的句子通過模式匹配提取每個(gè)獨(dú)立句子中的時(shí)間信息;
在包含有時(shí)間信息的獨(dú)立句子中提取地點(diǎn)信息,在檢測(cè)出該地點(diǎn)信息的前一個(gè)相鄰的詞存在于存儲(chǔ)的趨向描述詞集合時(shí),則確定所述地點(diǎn)信息為有效的地點(diǎn)信息;
在包含有效地點(diǎn)信息的獨(dú)立句子中提取人員信息,如提取的人員信息為唯一的人員,則將所述獨(dú)立句子中的人員、時(shí)間、地點(diǎn)作為該人員的一條影蹤,并存儲(chǔ)該人員影蹤。
[0005]本發(fā)明還提供一種查找人員影蹤的裝置,所述裝置包括:
在間單元,用于將存儲(chǔ)的新聞數(shù)據(jù)中的每個(gè)獨(dú)立的句子通過模式匹配提取每個(gè)獨(dú)立句子中的時(shí)間信息;
地點(diǎn)單元,用于在包含有時(shí)間信息的獨(dú)立句子中提取地點(diǎn)信息,在檢測(cè)出該地點(diǎn)信息的前一個(gè)相鄰的詞存在于存儲(chǔ)的趨向描述詞集合時(shí),則確定所述地點(diǎn)信息為有效的地點(diǎn)信息;
任務(wù)單元,用于在包含有效地點(diǎn)信息的獨(dú)立句子中提取人員信息,如提取的人員信息為唯一的人員,則將所述獨(dú)立句子中的人員、時(shí)間、地點(diǎn)作為該人員的一條蹤跡,并存儲(chǔ)該人員影蹤。
[0006]由上述所提供的技術(shù)方案可以看出,本發(fā)明實(shí)施例的技術(shù)方案能自動(dòng)搜索人員的影蹤,具有效率高,不會(huì)發(fā)生人為錯(cuò)誤的優(yōu)點(diǎn),且在新聞數(shù)量巨大的情況下,也能對(duì)任務(wù)影蹤進(jìn)行準(zhǔn)確的統(tǒng)計(jì)。
【專利附圖】
【附圖說明】
[0007]圖1為本發(fā)明提供的一種查找人員影蹤的方法的流程圖;
圖2為本發(fā)明一實(shí)施例提供的一種查找人員影蹤的方法的流程圖。
[0008]圖3為本發(fā)明提供的一種查找人員影蹤的裝置的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0009]本發(fā)明實(shí)施方式提供一種查找人員影蹤的方法,該方法如圖1所示,包括:
S11、將存儲(chǔ)的新聞數(shù)據(jù)中的每個(gè)獨(dú)立的句子通過模式匹配提取每個(gè)獨(dú)立句子中的時(shí)間信息;
獲取時(shí)間信息的方法可以為,對(duì)上述獨(dú)立的句子使用正則表達(dá)式來實(shí)現(xiàn)對(duì)時(shí)間信息的提??;也可以用枚舉所有可能的日期,與句子中的日期進(jìn)行逐個(gè)匹配。
[0010]上述正則表達(dá)式的具體實(shí)現(xiàn)方法可以參見JAVA、C++等程序開發(fā)語(yǔ)言中相關(guān)描述。
[0011]S12、在包含有時(shí)間信息的獨(dú)立句子中提取地點(diǎn)信息,在檢測(cè)出該地點(diǎn)信息的前一個(gè)相鄰的詞存在于存儲(chǔ)的趨向描述詞集合時(shí),則確定該地點(diǎn)信息為有效的地點(diǎn)信息。
[0012]上述提取出地點(diǎn)信息的方法可以為:將獨(dú)立句子進(jìn)行分詞處理后,提取句子中的地點(diǎn)信息。提取地點(diǎn)信息的方法還可以為:枚舉所有可能的地點(diǎn)信息,與句子中的詞進(jìn)行逐個(gè)匹配,該所有的地點(diǎn)信息可以為全國(guó)所有的城市名稱。
[0013]上述趨向描述詞集合可以為:
{"在","于","抵達(dá)","抵","來到","前往","飛往","飛抵","返回","趕回","回","蒞臨","赴","去","到","去往","訪問","考察","登陸","離開","趕往","重返","去","來","至IJ達(dá)","飛離","行至","來回","往返","奔赴","開赴","留在","進(jìn)入","登錄","趕到","來到了","抵達(dá)了","返回了","趕回了","趕到了","進(jìn)入了","到達(dá)了","離開了","到了","去了","來了","飛離了" }
S13、在包含有效地點(diǎn)信息的獨(dú)立句子中提取人員信息,如提取的人員信息為唯一的人員,則將該獨(dú)立句子中的人員、時(shí)間、地點(diǎn)作為該人員的一條影蹤,并存儲(chǔ)該人員影蹤。
[0014]本發(fā)明提供的人員影蹤的查找方法能自動(dòng)查找人員的影蹤,具有效率高,不會(huì)發(fā)生人為錯(cuò)誤的優(yōu)點(diǎn),且在新聞數(shù)量巨大的情況下,也能對(duì)任務(wù)影蹤進(jìn)行準(zhǔn)確的統(tǒng)計(jì)。
[0015]一實(shí)施例,本實(shí)施例提供一種查找人員影蹤的方法,本實(shí)施例的技術(shù)場(chǎng)景為,本實(shí)施例在數(shù)據(jù)庫(kù)存儲(chǔ)的新聞數(shù)據(jù)中查找人員的影蹤,該數(shù)據(jù)庫(kù)的新聞數(shù)據(jù)可以由系統(tǒng)定期在網(wǎng)上抓取,然后存儲(chǔ)于數(shù)據(jù)庫(kù)內(nèi),該方法如圖2所示,包括如下步驟:
S21、將新聞數(shù)據(jù)中的每個(gè)獨(dú)立的句子通過模式匹配提取每個(gè)獨(dú)立句子中的時(shí)間信息;實(shí)現(xiàn)S21的具體方法可以為,對(duì)上述獨(dú)立的句子使用正則表達(dá)式來實(shí)現(xiàn)對(duì)時(shí)間信息提取,其中上述正則表達(dá)式中的日期規(guī)則可以為模糊日期規(guī)則,如昨天、今天、去年、明年等,也可以為精準(zhǔn)日期規(guī)則,如2009-10-17等;當(dāng)然在實(shí)際情況中,用戶也可以根據(jù)自己的需要對(duì)日期規(guī)則進(jìn)行修改,例如增加或減少日期規(guī)則的數(shù)量。
[0016]S22、在包含有時(shí)間信息的獨(dú)立句子中進(jìn)行分詞處理,并提取地點(diǎn)信息,在檢測(cè)出該地點(diǎn)信息的前一個(gè)相鄰的詞存在于趨向描述詞集合時(shí),則確定該地點(diǎn)信息為有效的地點(diǎn)信息;
S22中的地點(diǎn)信息可以為全國(guó)區(qū)級(jí)以上的地點(diǎn)名稱,該趨向描述詞集合可以為上述47個(gè)趨向描述詞,當(dāng)然在實(shí)際情況中,用戶也可以根據(jù)自己的需要對(duì)趨向描述詞集合進(jìn)行修改,例如增加或減少趨向描述詞集合的數(shù)量。
[0017]上述相鄰的詞為緊跟地點(diǎn)信息的詞,即該地點(diǎn)信息和趨向描述詞中間不能存在任何的詞以及標(biāo)點(diǎn)符號(hào)。
[0018]S23、在包含有效地點(diǎn)信息的獨(dú)立句子中提取人物信息,如提取的人物信息為唯一的人員,則將該獨(dú)立句子中的人員、時(shí)間、地點(diǎn)作為該人員的一條蹤跡。
[0019]實(shí)現(xiàn)S23的方法可以為,采用分詞系統(tǒng)的人名識(shí)別從獨(dú)立的句子中提取人員信息,當(dāng)然在實(shí)際情況中也可以采用其他的人名識(shí)別方法來提取人員信息,本發(fā)明并不局限實(shí)現(xiàn)該方法的具體方式。
[0020]可選的,上述方法還可以包括下述步驟之一,如單獨(dú)包括S24、S25或S26 ;當(dāng)然也可以包括S24、S25和S26 ;還可以包括S24和S25。
[0021]S24、統(tǒng)計(jì)相同的人員影蹤出現(xiàn)的次數(shù),并將該增加到存儲(chǔ)的人員影蹤中。
[0022]S25、在具有人員影蹤的獨(dú)立句子中采用獲取事件描述詞,并對(duì)該事件描述詞賦予權(quán)重值;并將該事件描述詞和事件描述詞的權(quán)重值增加到存儲(chǔ)的人員影蹤中。
[0023]上述獲取事件描述詞的方法可以為下述方式中的任意一種:
方式A、搜索獨(dú)立句子中與預(yù)先存儲(chǔ)的事件描述詞列表匹配的事件描述詞,并將該匹配的事件描述詞作為獲取的事件描述詞。
[0024]其實(shí)現(xiàn)方法具體為,搜索獨(dú)立句子中的詞,將搜索到的詞與預(yù)先存儲(chǔ)的事件描述詞列表中的事件描述詞一一對(duì)比,如相同且說明具有匹配的事件描述詞。
[0025]上述事件描述詞列表中的事件描述詞用戶可以根據(jù)需要進(jìn)行設(shè)定,如新聞發(fā)布會(huì)、歌友會(huì)、上海經(jīng)濟(jì)論壇等等。
[0026]方式B、提取句子中的動(dòng)詞,將該動(dòng)詞作為獲取的事件描述詞。
[0027]上述權(quán)重值用戶可以按事件的重要程度給每個(gè)事件描述詞設(shè)定一權(quán)重值,原則為,方式A中的時(shí)間描述詞的權(quán)重值大于方式B中的事件描述詞權(quán)重值。
[0028]S26、接收到查找特定人員在特定日期的命令時(shí),在存儲(chǔ)的影蹤中獲取與該特定人員和特定日期相匹配的蹤跡,并選擇人員影蹤的出現(xiàn)次數(shù)超出次數(shù)閾值且事件描述詞的權(quán)重值最大的影蹤輸出。
[0029]本實(shí)施例提供的人員影蹤的搜索方法能自動(dòng)搜索人員的蹤跡,具有效率聞的特點(diǎn),不會(huì)發(fā)生人為錯(cuò)誤的優(yōu)點(diǎn),且在新聞數(shù)量巨大的情況下,也能對(duì)任務(wù)影蹤進(jìn)行準(zhǔn)確的統(tǒng)計(jì),該方法還可以對(duì)相同的人員影蹤進(jìn)行統(tǒng)計(jì),并增加了事件描述詞及其權(quán)重值,具體的體現(xiàn)了人員影蹤的可靠性。
[0030]本發(fā)明還提供一種查找人員影蹤的裝置,該裝置如圖3所示:包括:
時(shí)間單元31,用于將存儲(chǔ)的新聞數(shù)據(jù)中的每個(gè)獨(dú)立的句子通過模式匹配提取每個(gè)獨(dú)立句子中的時(shí)間信息;
地點(diǎn)單元32,用于在包含有時(shí)間信息的獨(dú)立句子中提取地點(diǎn)信息;在檢測(cè)出該地點(diǎn)信息的前一個(gè)相鄰的詞存在于趨向描述詞集合時(shí),則確定所述地點(diǎn)信息為有效的地點(diǎn)信息;人物單元33,用于在包含有效地點(diǎn)信息的獨(dú)立句子中提取人物信息,如提取的人員信息為唯一的人員,則將所述獨(dú)立句子中的人員、時(shí)間、地點(diǎn)作為該人員的一條蹤跡,并存儲(chǔ)該人員影蹤。
[0031]可選的,上述裝置還包括:
次數(shù)單元34,用于統(tǒng)計(jì)相同的人員影蹤出現(xiàn)的次數(shù),并將該增加到存儲(chǔ)的人員影蹤中。
[0032]可選的,上述裝置還包括:
事件單元35,用于在具有人員影蹤的獨(dú)立句子中獲取事件描述詞,并對(duì)該事件描述詞賦予權(quán)重值;并將該事件描述詞和事件描述詞的權(quán)重值增加到存儲(chǔ)的人員影蹤中。
[0033]上述獲取事件描述詞的具體方式可以參見方法實(shí)施例中的相關(guān)描述。
[0034]可選的,上述裝置還包括:
輸出單元36,用于接收到查找特定人員在特定日期的命令時(shí),在存儲(chǔ)的影蹤中獲取與該特定人員和特定日期相匹配的影蹤,并選擇人員影蹤的出現(xiàn)次數(shù)超出次數(shù)閾值且事件描述詞的權(quán)重值最大的影蹤輸出。
[0035]本實(shí)施例提供的人員影蹤的搜索裝置能自動(dòng)搜索人員的影蹤,具有效率高的特點(diǎn),不會(huì)發(fā)生人為錯(cuò)誤的優(yōu)點(diǎn),且在新聞數(shù)量巨大的情況下,也能對(duì)任務(wù)影蹤進(jìn)行準(zhǔn)確的統(tǒng)計(jì),該方法還可以對(duì)相同的人員影蹤進(jìn)行統(tǒng)計(jì),并增加了事件描述詞及其權(quán)重值,具體的體現(xiàn)了人員影蹤的可靠性。
[0036]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲(chǔ)于計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),包括上述方法步驟,所述的存儲(chǔ)介質(zhì)包括:R0M/RAM、磁盤、光盤等。
[0037]綜上所述,本發(fā)明【具體實(shí)施方式】提供的技術(shù)方案,具有自動(dòng)搜索人員的影蹤,具有效率高的特點(diǎn),不會(huì)發(fā)生人為錯(cuò)誤的優(yōu)點(diǎn),且在新聞數(shù)量巨大的情況下,也能對(duì)任務(wù)影蹤進(jìn)行準(zhǔn)確的統(tǒng)計(jì),該方法還可以對(duì)相同的人員影蹤進(jìn)行統(tǒng)計(jì),并增加了事件描述詞及其權(quán)重值,具體的體現(xiàn)了人員影蹤的可靠性的優(yōu)點(diǎn)。
【權(quán)利要求】
1.一種查找人員影蹤的方法,其特征在于,所述方法包括:將存儲(chǔ)的新聞數(shù)據(jù)中的每個(gè)獨(dú)立的句子通過模式匹配提取每個(gè)獨(dú)立句子中的時(shí)間信息;在包含有時(shí)間信息的獨(dú)立句子中提取地點(diǎn)信息,在檢測(cè)出該地點(diǎn)信息的前一個(gè)相鄰的詞存在于存儲(chǔ)的趨向描述詞集合時(shí),則確定所述地點(diǎn)信息為有效的地點(diǎn)信息;在包含有效地點(diǎn)信息的獨(dú)立句子中提取人員信息,如提取的人員信息為唯一的人員,則將所述獨(dú)立句子中的人員、時(shí)間、地點(diǎn)作為該人員的一條影蹤,并存儲(chǔ)該人員影蹤;在具有人員影蹤的獨(dú)立句子中獲取事件描述詞,并對(duì)該事件描述詞賦予權(quán)重值;并將該事件描述詞和事件描述詞的權(quán)重值增加到存儲(chǔ)的人員影蹤中。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法在存儲(chǔ)該人員影蹤之前還包括:統(tǒng)計(jì)相同的人員影蹤出現(xiàn)的次數(shù),并將該相同的人員影蹤出現(xiàn)的次數(shù)增加到存儲(chǔ)的人員影蹤中。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述在具有人員影蹤的獨(dú)立句子中獲取事件描述詞包括:搜索所述獨(dú)立句子中與預(yù)先存儲(chǔ)的事件描述詞列表匹配的事件描述詞,并將該匹配的事件描述詞作為獲取的事件描述詞;或提取句子中的動(dòng)詞,將該動(dòng)詞作為獲取的事件描述詞。
4.根據(jù)權(quán)利要求1所述方法,其特征在于,所述方法在存儲(chǔ)該人員影蹤之后,還包括:接收到查找特定人員在特定日期的命令時(shí),在存儲(chǔ)的影蹤中獲取與該特定人員和特定日期相匹配的影蹤,并選擇人員影蹤的出現(xiàn)次數(shù)超出次數(shù)閾值且事件描述詞的權(quán)重值最大的影蹤輸出。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述在包含有時(shí)間信息的獨(dú)立句子中提取地點(diǎn)信息包括:將所述獨(dú)立句子進(jìn)行分詞處理后,提取地點(diǎn)信息。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,將存儲(chǔ)的新聞數(shù)據(jù)中的每個(gè)獨(dú)立的句子通過模式匹配提取每個(gè)獨(dú)立句子中的時(shí)間信息包括:對(duì)所述每個(gè)獨(dú)立的句子采用正則表達(dá)式提取所述每個(gè)獨(dú)立句子中的時(shí)間信息。
7.一種查找人員影蹤的裝置,其特征在于,所述裝置包括:時(shí)間單元,用于將存儲(chǔ)的新聞數(shù)據(jù)中的每個(gè)獨(dú)立的句子通過模式匹配提取每個(gè)獨(dú)立句子中的時(shí)間信息;地點(diǎn)單元,用于在包含有時(shí)間信息的獨(dú)立句子中提取地點(diǎn)信息,在檢測(cè)出該地點(diǎn)信息的前一個(gè)相鄰的詞存在于存儲(chǔ)的趨向描述詞集合時(shí),則確定所述地點(diǎn)信息為有效的地點(diǎn)信息;任務(wù)單元,用于在包含有效地點(diǎn)信息的獨(dú)立句子中提取人員信息,如提取的人員信息為唯一的人物,則將所述獨(dú)立句子中的人員、時(shí)間、地點(diǎn)作為該人員的一條影蹤,并存儲(chǔ)該人員影蹤;事件單元,用于在具有人員影蹤的獨(dú)立句子中獲取事件描述詞,并對(duì)該事件描述詞賦予權(quán)重值;并將該事件描述詞和事件描述詞的權(quán)重值增加到存儲(chǔ)的人員影蹤中。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括:次數(shù)單元,用于統(tǒng)計(jì)相同的人員影蹤出現(xiàn)的次數(shù),并將該相同的人員影蹤出現(xiàn)的次數(shù)增加到存儲(chǔ)的人員影蹤中。
【文檔編號(hào)】G06F17/27GK104239483SQ201410451454
【公開日】2014年12月24日 申請(qǐng)日期:2014年9月8日 優(yōu)先權(quán)日:2014年9月8日
【發(fā)明者】劉健萍 申請(qǐng)人:劉健萍