本發(fā)明實施例標準化技術(shù)涉及領(lǐng)域,特別是涉及一種時間的提取方法及裝置。
背景技術(shù):
隨著計算機技術(shù)以及互聯(lián)網(wǎng)技術(shù)的發(fā)展,用戶越來越依賴網(wǎng)絡(luò),從查閱新聞、學習新知識、掌握新技能等都通過網(wǎng)絡(luò)來獲取資源。網(wǎng)絡(luò)中各類文獻資料越來越多,且文獻資料的來源也越來越廣,不同的用戶撰寫文獻的方式不同,導致各類文獻資料對同一類內(nèi)容的表述形式不同,或者是同一文獻中撰寫者采用不同的表述方式進行描述,諸如時間的表達,一般新聞中習慣用絕對時間進行表述,而論壇中的一些帖子更習慣用相對時間進行描述。
時間有中英文表述方式,例如2017-05-0515:01:01,january17(th),還有相對時間與絕對時間,例如2017-05-05,昨天晚上17點,以及同一類表述方式,使用不同的時間格式,例如2017-05-05,2017.05.05。在用戶對同一篇文獻或同一類型的文獻通過提取文獻中涉及到的時間進行比較時,由于沒有統(tǒng)一的時間的表述,提取出來的時間各種表達格式并存,不利于用戶進行查閱以及比較。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例的目的是提供一種時間的提取方法及裝置,在用戶進行時間提取時,將不同表述形式的時間轉(zhuǎn)化為同一類型的時間表述格式,有利于用戶查閱,提升用戶的使用體驗。
為解決上述技術(shù)問題,本發(fā)明實施例提供以下技術(shù)方案:
本發(fā)明實施例一方面提供了一種時間的提取方法,包括:
根據(jù)標點符號,將獲取到的文本信息切分為多條語句;
利用第一預(yù)設(shè)函數(shù)調(diào)用用戶輸入的時間匹配表達式,在多條所述語句中進行識別滿足所述時間匹配表達式的語句,作為提取目標語句;
根據(jù)各所述提取目標語句中包含的時間表述式,利用第二預(yù)設(shè)函數(shù)在適配器服務(wù)池中匹配對應(yīng)的適配器,所述適配器服務(wù)池包括多個適配器,各所述適配器用于將不同的時間表述式轉(zhuǎn)化為預(yù)設(shè)的時間表述式;
利用各所述適配器將各所述提取目標語句中的時間表述式轉(zhuǎn)化為預(yù)設(shè)的時間表述式,將轉(zhuǎn)化后的時間表述式進行提取。
可選的,在所述利用各所述適配器將各所述提取目標語句中的時間表述式轉(zhuǎn)化為預(yù)設(shè)的時間表述式之后,還包括:
根據(jù)各個所述提取目標語句中包含的時間表述式,生成時間格式列表,并向所述用戶進行展示;
接收所述用戶對所述時間格式列表中各個時間表述式進行格式更改的指令,根據(jù)所述指令將相應(yīng)的時間表述式的格式進行轉(zhuǎn)化。
可選的,所述利用第一預(yù)設(shè)函數(shù)調(diào)用用戶輸入的時間匹配表達式為:
利用findtime函數(shù)調(diào)用用戶輸入的時間匹配表達式。
可選的,在所述將轉(zhuǎn)化后的時間表述式進行提取之前,還包括:
判斷所述用戶更改的各個所述時間表述式中是否包含利用各所述適配器進行轉(zhuǎn)化的時間表述式;
當判定所述用戶更改的各個所述時間表述式中包含利用各所述適配器進行轉(zhuǎn)化的時間表述式,則將根據(jù)用戶指令進行轉(zhuǎn)化后的時間表述式作為轉(zhuǎn)化后的時間表述式,以用于進行提取。
可選的,所述時間匹配表達式為正則表達式。
可選的,所述利用第二預(yù)設(shè)函數(shù)在適配器服務(wù)池中匹配對應(yīng)的適配器為:
利用combin函數(shù)在適配器服務(wù)池中匹配對應(yīng)的適配器。
可選的,在所述利用各所述適配器將各所述提取目標語句中的時間表述式轉(zhuǎn)化為預(yù)設(shè)的時間表述式之后,還包括:
利用gettimelist函數(shù)將轉(zhuǎn)化后的時間表述式返回至所述文本信息中,以代替所述文本信息中對應(yīng)的時間表述式。
本發(fā)明實施例另一方面提供了一種時間的提取裝置,包括:
文本切分模塊,用于根據(jù)標點符號,將獲取到的文本信息切分為多條語句;
目標識別模塊,用于利用第一預(yù)設(shè)函數(shù)調(diào)用用戶輸入的時間匹配表達式,在多條所述語句中進行識別滿足所述時間匹配表達式的語句,作為提取目標語句;
目標匹配模塊,用于根據(jù)各所述提取目標語句中包含的時間表述式,利用第二預(yù)設(shè)函數(shù)在適配器服務(wù)池中匹配對應(yīng)的適配器,所述適配器服務(wù)池包括多個適配器,各所述適配器用于將不同的時間表述式轉(zhuǎn)化為預(yù)設(shè)的時間表述式;
第一目標轉(zhuǎn)化模塊,用于利用各所述適配器將各所述提取目標語句中的時間表述式轉(zhuǎn)化為預(yù)設(shè)的時間表述式,將轉(zhuǎn)化后的時間表述式進行提取。
可選的,還包括:
第二目標轉(zhuǎn)化模塊,用于根據(jù)各個所述提取目標語句中包含的時間表述式,生成時間格式列表,并向所述用戶進行展示;接收所述用戶對所述格式列表中各個時間表述式進行格式更改的指令,根據(jù)所述指令將相應(yīng)的時間表述式的格式進行轉(zhuǎn)化。
可選的,還包括:
判斷模塊,用于判斷所述用戶更改的各個所述時間表述式中是否包含利用各所述適配器進行轉(zhuǎn)化的時間表述式;當判定所述用戶更改的各個所述時間表述式中包含利用各所述適配器進行轉(zhuǎn)化的時間表述式,則將根據(jù)用戶指令進行轉(zhuǎn)化后的時間表述式作為轉(zhuǎn)化后的時間表述式,以用于進行提取。
本發(fā)明實施例提供了一種時間的提取方法,先對文本信息根據(jù)標點符號進行切分為多條語句;利用第一預(yù)設(shè)函數(shù)調(diào)用用戶輸入的時間匹配表達式,在多條語句中進行識別滿足時間匹配表達式的語句,作為提取目標語句;利用第二預(yù)設(shè)函數(shù)在適配器服務(wù)池中匹配對應(yīng)的適配器,然后利用適配器將不同的時間表述式轉(zhuǎn)化為預(yù)設(shè)的時間表述式;最后將轉(zhuǎn)化后的時間表述式進行提取。
本申請?zhí)峁┑募夹g(shù)方案的優(yōu)點在于,在將文本信息中涉及到的時間進行提取前,先將各個不同的時間表述式轉(zhuǎn)化為預(yù)設(shè)的時間表述式,使得提取出的時間表述式為統(tǒng)一格式,便于用戶進行查閱,有利于提升用戶使用體驗;此外,通過預(yù)先建立的適配器服務(wù)池,大大的縮短了不同格式時間轉(zhuǎn)化的時間,加快了數(shù)據(jù)處理速度,提高了整個時間提取的效率。
此外,本發(fā)明實施例還針對時間的提取方法提供了相應(yīng)的實現(xiàn)裝置,進一步使得所述方法更具有實用性,所述裝置具有相應(yīng)的優(yōu)點。
附圖說明
為了更清楚的說明本發(fā)明實施例或現(xiàn)有技術(shù)的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例提供的一種時間提取方法的流程示意圖;
圖2為本發(fā)明實施例提供的另一種時間提取方法的流程示意圖;
圖3為本發(fā)明實施例提供的再一種時間提取方法的流程示意圖;
圖4為本發(fā)明實施例提供的時間提取裝置的一種具體實施方式結(jié)構(gòu)圖;
圖5為本發(fā)明實施例提供的時間提取裝置的另一種具體實施方式結(jié)構(gòu)圖。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面結(jié)合附圖和具體實施方式對本發(fā)明作進一步的詳細說明。顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
本申請的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”、“第三”“第四”等是用于區(qū)別不同的對象,而不是用于描述特定的順序。此外術(shù)語“包括”和“具有”以及他們?nèi)魏巫冃危鈭D在于覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備沒有限定于已列出的步驟或單元,而是可包括沒有列出的步驟或單元。
在介紹了本發(fā)明實施例的技術(shù)方案后,下面詳細的說明本申請的各種非限制性實施方式。
首先請參見圖1,圖1為本發(fā)明實施例提供的一種時間的提取方法的流程示意圖,本發(fā)明實施例可包括以下內(nèi)容:
s101:根據(jù)標點符號,將獲取到的文本信息切分為多條語句。
可根據(jù)標點符號將文本信息切分為多條語句,例如逗號、句號、分號等。由于是從切分后的語句中去判斷是否含有目標,可選的,為了提高目標識別的準確率,當文本篇幅較短時,可采用逗號進行切分。但是當文本信息較多時,逗號切分的語句太多,導致后續(xù)匹配目標時耗時太長,故文本切分采用何種標點符號,可綜合考慮文本篇幅以及后續(xù)數(shù)據(jù)處理速度而定,本申請對此不作任何限定。
s102:利用第一預(yù)設(shè)函數(shù)調(diào)用用戶輸入的時間匹配表達式,在多條所述語句中進行識別滿足所述時間匹配表達式的語句,作為提取目標語句。
第一預(yù)設(shè)函數(shù)可為findtime函數(shù),當然,也可采用其他函數(shù),這均不影響本申請的實現(xiàn)。
時間匹配表達式可為正則表達式,正則表達式為一種文本規(guī)則的代碼,可用于進行匹配要尋找的目標,例如在文本中查找hi,可利用正則表達式/bhib/去文本中尋找hi。正則表達式可為用戶根據(jù)需求進行編寫的,然后輸入系統(tǒng)中。
s103:根據(jù)各所述提取目標語句中包含的時間表述式,利用第二預(yù)設(shè)函數(shù)在適配器服務(wù)池中匹配對應(yīng)的適配器,所述適配器服務(wù)池包括多個適配器,各所述適配器用于將不同的時間表述式轉(zhuǎn)化為預(yù)設(shè)的時間表述式。
預(yù)設(shè)的時間表述式可為根據(jù)不同的業(yè)務(wù),或不同的用戶需求,確定的一種固定的時間表述的格式,例如2017.5.515:23:34。
適配器服務(wù)池為預(yù)先建立的,包含多個適配器,適配器為根據(jù)用戶需求的標準時間表述格式,將常用的多種時間表述方式一一轉(zhuǎn)化為標準時間表述的格式。一個適配器中一般存儲一種時間表述式。在使用適配器之前,需要將待轉(zhuǎn)化的時間表述式與服務(wù)池中的多個適配器進行匹配,確定適配器存儲的時間表述式的格式與待轉(zhuǎn)化的表述式格式相同。例如待轉(zhuǎn)化的時間表述式為2017-5-5,那么需要找到存儲將年-月-日轉(zhuǎn)化為年.月.日的適配器。
可利用combin函數(shù)在適配器服務(wù)池中匹配對應(yīng)的適配器,當然,也可采用其他函數(shù),這均不影響本申請的實現(xiàn)。
s104:利用各所述適配器將各所述提取目標語句中的時間表述式轉(zhuǎn)化為預(yù)設(shè)的時間表述式,將轉(zhuǎn)化后的時間表述式進行提取。
再提取時間之前,利用匹配到的適配器將時間表述式轉(zhuǎn)化為預(yù)設(shè)的時間表述式,例如將2017-5-5轉(zhuǎn)化為2017.5.5。將轉(zhuǎn)化后的時間表述式提取出來。
在本發(fā)明實施例提供的技術(shù)方案中,在將文本信息中涉及到的時間進行提取前,先將各個不同的時間表述式轉(zhuǎn)化為預(yù)設(shè)的時間表述式,使得提取出的時間表述式為統(tǒng)一格式,便于用戶進行查閱,有利于提升用戶使用體驗;此外,通過預(yù)先建立的適配器服務(wù)池,大大的縮短了不同格式時間轉(zhuǎn)化的時間,加快了數(shù)據(jù)處理速度,提高了整個時間提取的效率。
在一種具體的實施方式中,請參閱圖2,本申請還提供了另外一個實施例,具體可包括:
s201-s203:具體的,與上述實施例的s101-s103所描述一致,此處不再贅述。
s204:利用各所述適配器將各所述提取目標語句中的時間表述式轉(zhuǎn)化為預(yù)設(shè)的時間表述式。
s205:根據(jù)各個所述提取目標語句中包含的時間表述式,生成時間格式列表,并向所述用戶進行展示。
s206:接收所述用戶對所述格式列表中各個時間表述式進行格式更改的指令,根據(jù)所述指令將相應(yīng)的時間表述式的格式進行轉(zhuǎn)化。
s207:將轉(zhuǎn)化后的時間表述式進行提取。
系統(tǒng)自動將提取出的時間表述式轉(zhuǎn)化為預(yù)設(shè)格式的時間表述式,將轉(zhuǎn)化后的各個表述式選取出來,可生成一個列表,向用戶進行展示。用戶通過對轉(zhuǎn)化的時間表述式的格式進行判斷正確與否,或者根據(jù)自身需求進行更改某幾個時間表述式,然后將進行更改的時間表述式發(fā)送一個轉(zhuǎn)化指令,系統(tǒng)根據(jù)指令將相應(yīng)的時間表述式的格式進行轉(zhuǎn)化。
經(jīng)過用戶的進一步確認,或者更改,提高了時間轉(zhuǎn)化的準確率,提升了用戶使用的靈活性以及使用體驗。
由于系統(tǒng)自動將時間表述式轉(zhuǎn)化為預(yù)設(shè)格式的時間表述式后,還接收用戶進行一次更改,對于某些時間表述式,可能經(jīng)過兩次轉(zhuǎn)化,且兩次轉(zhuǎn)化皆存儲了,宰進行提取時,為了避免發(fā)生紊亂,基于上述實施例,請參閱圖3,本申請還提供了另外一個實施例,具體可包括:
s301-s306:具體的,與上述實施例的s201-s206所描述一致,此處不再贅述。
s307:判斷所述用戶更改的各個所述時間表述式中是否包含利用各所述適配器進行轉(zhuǎn)化的時間表述式。
s308:當判定所述用戶更改的各個所述時間表述式中包含利用各所述適配器進行轉(zhuǎn)化的時間表述式,則將根據(jù)用戶指令進行轉(zhuǎn)化后的時間表述式作為轉(zhuǎn)化后的時間表述式,以用于進行提取。
s309:將轉(zhuǎn)化后的時間表述式進行提取。
對于經(jīng)過兩次轉(zhuǎn)化的時間表述式,以用戶的轉(zhuǎn)化指令為最終轉(zhuǎn)化的格式。有利于提升時間轉(zhuǎn)化的準確率、穩(wěn)定性以及可靠性,避免裝置發(fā)生混亂,從而有利于提升提取時間的準確率以及穩(wěn)定性。
由于時間表述式的轉(zhuǎn)化均是在文本進行切分之后,故在一種具體的實施方式中,還可包括:
利用gettimelist函數(shù)將轉(zhuǎn)化后的時間表述式返回至所述文本信息中,以代替所述文本信息中對應(yīng)的時間表述式。
通過將轉(zhuǎn)化后的時間表述式返回至原文本信息中代替原來的時間表述式,用戶可直接查看原文本信息中的時間表述,以及檢查提取出來的時間表述式是否準確,有利用提升用戶的閱讀體驗,有利于提取時間的準確性。
本發(fā)明實施例還針對時間的提取方法提供了相應(yīng)的實現(xiàn)裝置,進一步使得所述方法更具有實用性。下面對本發(fā)明實施例提供的時間的提取裝置進行介紹,下文描述的時間的提取裝置與上文描述的時間的提取方法可相互對應(yīng)參照。
參見圖4,圖4為本發(fā)明實施例提供的時間的提取裝置在一種具體實施方式下的結(jié)構(gòu)圖,該裝置可包括:
文本切分模塊401,用于根據(jù)標點符號,將獲取到的文本信息切分為多條語句。
目標識別模塊402,用于利用第一預(yù)設(shè)函數(shù)調(diào)用用戶輸入的時間匹配表達式,在多條所述語句中進行識別滿足所述時間匹配表達式的語句,作為提取目標語句。
目標匹配模塊403,用于根據(jù)各所述提取目標語句中包含的時間表述式,利用第二預(yù)設(shè)函數(shù)在適配器服務(wù)池中匹配對應(yīng)的適配器,所述適配器服務(wù)池包括多個適配器,各所述適配器用于將不同的時間表述式轉(zhuǎn)化為預(yù)設(shè)的時間表述式。
第一目標轉(zhuǎn)化模塊404,用于利用各所述適配器將各所述提取目標語句中的時間表述式轉(zhuǎn)化為預(yù)設(shè)的時間表述式,將轉(zhuǎn)化后的時間表述式進行提取。
可選的,在本實施例的一些實施方式中,請參閱圖5,所述裝置例如還可以包括:
第二目標轉(zhuǎn)化模405,用于根據(jù)各個所述提取目標語句中包含的時間表述式,生成時間格式列表,并向所述用戶進行展示;接收所述用戶對所述格式列表中各個時間表述式進行格式更改的指令,根據(jù)所述指令將相應(yīng)的時間表述式的格式進行轉(zhuǎn)化。
在本實施例的另一些實施方式中,請參閱圖5,所述裝置例如還可以包括:
判斷模塊406,用于判斷所述用戶更改的各個所述時間表述式中是否包含利用各所述適配器進行轉(zhuǎn)化的時間表述式;當判定所述用戶更改的各個所述時間表述式中包含利用各所述適配器進行轉(zhuǎn)化的時間表述式,則將根據(jù)用戶指令進行轉(zhuǎn)化后的時間表述式作為轉(zhuǎn)化后的時間表述式,以用于進行提取。
本申請還提供了另一個實施例,請參閱圖5,所述裝置例如還可以包括:
返回模塊407,用于利用gettimelist函數(shù)將轉(zhuǎn)化后的時間表述式返回至所述文本信息中,以代替所述文本信息中對應(yīng)的時間表述式。
本發(fā)明實施例所述時間的提取裝置的各功能模塊的功能可根據(jù)上述方法實施例中的方法具體實現(xiàn),其具體實現(xiàn)過程可以參照上述方法實施例的相關(guān)描述,此處不再贅述。此外,相同功能模塊的說明請參照實施例四,此處不再贅述。
由上可知,本發(fā)明實施例在將文本信息中涉及到的時間進行提取前,先將各個不同的時間表述式轉(zhuǎn)化為預(yù)設(shè)的時間表述式,使得提取出的時間表述式為統(tǒng)一格式,便于用戶進行查閱,有利于提升用戶使用體驗;此外,通過預(yù)先建立的適配器服務(wù)池,大大的縮短了不同格式時間轉(zhuǎn)化的時間,加快了數(shù)據(jù)處理速度,提高了整個時間提取的效率。
本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其它實施例的不同之處,各個實施例之間相同或相似部分互相參見即可。對于實施例公開的裝置而言,由于其與實施例公開的方法相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。
專業(yè)人員還可以進一步意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結(jié)合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認為超出本發(fā)明的范圍。
結(jié)合本文中所公開的實施例描述的方法或算法的步驟可以直接用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實施。軟件模塊可以置于隨機存儲器(ram)、內(nèi)存、只讀存儲器(rom)、電可編程rom、電可擦除可編程rom、寄存器、硬盤、可移動磁盤、cd-rom、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲介質(zhì)中。
以上對本發(fā)明所提供的一種時間的提取方法以及裝置進行了詳細介紹。本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想。應(yīng)當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以對本發(fā)明進行若干改進和修飾,這些改進和修飾也落入本發(fā)明權(quán)利要求的保護范圍內(nèi)。