亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文獻(xiàn)搜索方法和裝置與流程

文檔序號(hào):11519658閱讀:187來(lái)源:國(guó)知局
文獻(xiàn)搜索方法和裝置與流程

本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種文獻(xiàn)搜索方法和裝置。



背景技術(shù):

科研人員在進(jìn)行科學(xué)研究時(shí),通常需要查找相關(guān)領(lǐng)域的科研文獻(xiàn)來(lái)進(jìn)行參考。目前,科研人員在查找科研文獻(xiàn)時(shí),主要通過(guò)輸入文獻(xiàn)的標(biāo)題或doi(digitalobjectuniqueidentifier,數(shù)字對(duì)象唯一標(biāo)識(shí)符)進(jìn)行查詢。但是,由于文獻(xiàn)數(shù)量眾多,因此很難對(duì)需求的科研文獻(xiàn)進(jìn)行精確定位。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。為此,本發(fā)明的第一個(gè)目的在于提出一種文獻(xiàn)搜索方法,該方法通過(guò)文獻(xiàn)的doi獲取對(duì)應(yīng)的具有單篇標(biāo)記的文獻(xiàn),并以特型樣式展現(xiàn)文獻(xiàn),從而實(shí)現(xiàn)了精確定位目標(biāo)文獻(xiàn)并詳細(xì)展現(xiàn)目標(biāo)文獻(xiàn)信息。

本發(fā)明的第二個(gè)目的在于提出一種文獻(xiàn)搜索裝置。

為了實(shí)現(xiàn)上述目的,本發(fā)明第一方面實(shí)施例提出了一種文獻(xiàn)搜索方法,包括:接收用戶輸入的查詢語(yǔ)句;判斷查詢語(yǔ)句中是否包含數(shù)字對(duì)象唯一標(biāo)識(shí)符doi;如果包含doi,則提取doi,并根據(jù)doi獲取包含doi的具有單篇標(biāo)記的文獻(xiàn);以特型樣式展現(xiàn)文獻(xiàn)。

本發(fā)明實(shí)施例的文獻(xiàn)搜索方法,通過(guò)文獻(xiàn)的doi獲取對(duì)應(yīng)的具有單篇標(biāo)記的文獻(xiàn),并以特型樣式展現(xiàn)文獻(xiàn),從而實(shí)現(xiàn)了精確定位目標(biāo)文獻(xiàn)并詳細(xì)展現(xiàn)目標(biāo)文獻(xiàn)信息。

為達(dá)上述目的,本發(fā)明第二方面實(shí)施例提出了一種文獻(xiàn)搜索裝置,包括:接收模塊,用于接收用戶輸入的查詢語(yǔ)句;判斷模塊,用于判斷查詢語(yǔ)句中是否包含數(shù)字對(duì)象唯一標(biāo)識(shí)符doi;提取模塊,用于如果包含doi,則提取doi,并根據(jù)doi獲取包含doi的具有單篇標(biāo)記的文獻(xiàn);展現(xiàn)模塊,用于以特型樣式展現(xiàn)文獻(xiàn)。

本發(fā)明實(shí)施例的文獻(xiàn)搜索裝置,通過(guò)文獻(xiàn)的doi獲取對(duì)應(yīng)的具有單篇標(biāo)記的文獻(xiàn),并以特型樣式展現(xiàn)文獻(xiàn),從而實(shí)現(xiàn)了精確定位目標(biāo)文獻(xiàn)并詳細(xì)展現(xiàn)目標(biāo)文獻(xiàn)信息。

本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。

附圖說(shuō)明

圖1是在現(xiàn)有搜索引擎中輸入doi查找文獻(xiàn)的效果示意圖;

圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的文獻(xiàn)搜索方法的流程圖;

圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的建立doi倒排索引數(shù)據(jù)庫(kù)的流程圖;

圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的特型樣式展現(xiàn)文獻(xiàn)的效果示意圖;

圖5是根據(jù)本發(fā)明一個(gè)具體實(shí)施例的文獻(xiàn)搜索方法的流程圖;

圖6是根據(jù)本發(fā)明一個(gè)實(shí)施例的文獻(xiàn)搜索裝置的結(jié)構(gòu)示意圖;

圖7是根據(jù)本發(fā)明一個(gè)具體實(shí)施例的文獻(xiàn)搜索裝置的結(jié)構(gòu)示意圖;

圖8是根據(jù)本發(fā)明另一個(gè)具體實(shí)施例的文獻(xiàn)搜索裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。

科研工作者通常在查找科研文獻(xiàn)時(shí),需要精確查找到某篇具體的文獻(xiàn)。目前,主要通過(guò)在搜索引擎中輸入標(biāo)題精確查找文獻(xiàn)。但是由于科研人員眾多,標(biāo)題相同的文獻(xiàn)也較多,通過(guò)標(biāo)題很難對(duì)要查找的文獻(xiàn)進(jìn)行精確定位。因而,可以通過(guò)能夠表示文獻(xiàn)唯一性的doi查找文獻(xiàn)。

但是,在現(xiàn)有的搜索引擎中輸入包含文獻(xiàn)的doi的查詢語(yǔ)句,無(wú)法精確查找到對(duì)應(yīng)的文獻(xiàn),即現(xiàn)有的搜索引擎不支持doi檢索。如圖1所示,在360學(xué)術(shù)搜索引擎中輸入doi“10.1016/0735-1097(96)82380-1”后,點(diǎn)擊“搜索一下”,在搜索結(jié)果列表中有兩篇文獻(xiàn),未能精確定位doi為“10.1016/0735-1097(96)82380-1”的文獻(xiàn),并且從搜索結(jié)果列表中不能獲取文獻(xiàn)的詳細(xì)信息,如摘要、網(wǎng)絡(luò)來(lái)源等。

下面參考附圖描述本發(fā)明實(shí)施例的文獻(xiàn)搜索方法和裝置。

圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的文獻(xiàn)搜索方法的流程圖。

如圖2所示,該文獻(xiàn)搜索方法包括:

s201,接收用戶輸入的查詢語(yǔ)句。

例如,某科研人員在搜索引擎中輸入查詢語(yǔ)句查找文獻(xiàn),從而搜索引擎接收用戶輸入的查詢語(yǔ)句。

s202,判斷查詢語(yǔ)句中是否包含doi。

具體地,在獲取用戶輸入的查詢語(yǔ)句后,判斷查詢語(yǔ)句中是否包含doi。其中,doi是表明文獻(xiàn)唯一性的標(biāo)識(shí)符。

例如,在接收到用戶輸入的查詢語(yǔ)句“doi:10.1056/nejmoa062462論文”后,判斷查詢語(yǔ)句“doi:10.1056/nejmoa062462論文”中是否包含doi。

s203,如果包含doi,則提取doi,并根據(jù)doi獲取包含doi的具有單篇標(biāo)記的文獻(xiàn)。

具體地,如果查詢語(yǔ)句中包含doi,則去掉查詢語(yǔ)句中除doi以外的其他字符,以提取doi,并根據(jù)提取的doi獲取包含該doi的具有單篇標(biāo)記的文獻(xiàn)。

更具體地,在提取查詢語(yǔ)句中包含的doi后,將提取的doi與doi倒排索引數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行相關(guān)性計(jì)算,從而從doi倒排索引數(shù)據(jù)庫(kù)中獲取所有包含提取的doi的待選文獻(xiàn)。其中,待選文獻(xiàn)可包括包含該doi的參考文獻(xiàn),或者題錄信息中包含該doi的文獻(xiàn)等。

由于待選文獻(xiàn)中可能包含參考文獻(xiàn),因此在獲取待選文獻(xiàn)后,提取待選文獻(xiàn)的題錄信息中的doi號(hào),將提取的待選文獻(xiàn)的題錄信息中的doi號(hào)與查詢語(yǔ)句中的doi進(jìn)行匹配。對(duì)與查詢語(yǔ)句中包含的doi匹配一致的待選文獻(xiàn)進(jìn)行單篇標(biāo)記,也就是說(shuō),將待選文獻(xiàn)中文獻(xiàn)的doi號(hào)與查詢語(yǔ)句中的doi一致的文獻(xiàn)進(jìn)行單篇標(biāo)記,并可通過(guò)doi倒排索引數(shù)據(jù)庫(kù)獲取具有單篇標(biāo)記的文獻(xiàn)。

具體示例如下:用戶輸入查詢語(yǔ)句“doi:10.1056/nejmoa062462論文”,搜索引擎接收到查詢語(yǔ)句后,經(jīng)過(guò)判斷獲知查詢語(yǔ)句中包含doi。

通過(guò)判斷獲知查詢語(yǔ)句“doi:10.1056/nejmoa062462論文”中包含doi后,去掉查詢語(yǔ)句中除doi以外的字符“doi:”和“論文”,提取doi為:10.1056/nejmoa062462。在提取doi后,將提取的doi與doi倒排索引數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行相關(guān)性計(jì)算,從而從doi倒排索引數(shù)據(jù)庫(kù)中獲取包含該doi的待選文獻(xiàn)。獲取待選文獻(xiàn)后,提取待選文獻(xiàn)的題錄信息中的doi號(hào),將待選文獻(xiàn)的題錄信息中的doi號(hào)與“10.1056/nejmoa062462”進(jìn)行匹配。如果某待選文獻(xiàn)的題錄信息中的doi號(hào)與“10.1056/nejmoa062462”匹配一致,則對(duì)該待選文獻(xiàn)進(jìn)行單篇標(biāo)記,并從doi倒排索引數(shù)據(jù)庫(kù)中獲取具有單篇標(biāo)記的文獻(xiàn)。

此外,在根據(jù)查詢語(yǔ)句中的doi查詢doi倒排索引數(shù)據(jù)庫(kù),以獲取包含doi的待選文獻(xiàn)之前,可預(yù)先建立doi倒排索引數(shù)據(jù)庫(kù)。建立doi倒排索引數(shù)據(jù)庫(kù)的具體步驟,如圖3所示,可包括:

s301,獲取網(wǎng)絡(luò)中的文獻(xiàn)樣本。

具體地,從網(wǎng)絡(luò)或者文獻(xiàn)數(shù)據(jù)庫(kù),如知網(wǎng)、萬(wàn)方等文獻(xiàn)數(shù)據(jù)庫(kù)中,獲取文獻(xiàn)樣本。

s302,提取文獻(xiàn)樣本中的結(jié)構(gòu)化數(shù)據(jù)。

在獲取文獻(xiàn)樣本后,可利用機(jī)器學(xué)習(xí)模型、ocr(opticalcharacterrecognition,光學(xué)字符識(shí)別)技術(shù)、最大熵模型等,從文獻(xiàn)樣本中提取結(jié)構(gòu)化數(shù)據(jù),如標(biāo)題、作者、期刊、年份、期號(hào)、卷號(hào)、網(wǎng)絡(luò)來(lái)源、doi號(hào)、參考文獻(xiàn)等等。

s303,根據(jù)結(jié)構(gòu)化數(shù)據(jù)建立doi倒排索引數(shù)據(jù)庫(kù)。

根據(jù)提取的結(jié)構(gòu)化數(shù)據(jù),利用倒排索引技術(shù),建立文獻(xiàn)doi與對(duì)應(yīng)文獻(xiàn)的對(duì)應(yīng)關(guān)系,從而得到doi倒排索引數(shù)據(jù)庫(kù)。

s204,以特型樣式展現(xiàn)文獻(xiàn)。

具體地,根據(jù)查詢語(yǔ)句中的doi獲取具有單篇標(biāo)記的文獻(xiàn)即目標(biāo)文獻(xiàn)后,可提取單篇標(biāo)記的文獻(xiàn)的結(jié)構(gòu)化數(shù)據(jù),如標(biāo)題、作者、期刊、年份、期號(hào)、卷號(hào)、網(wǎng)絡(luò)來(lái)源、doi號(hào)、參考文獻(xiàn)等,并調(diào)用特型樣式模板,將結(jié)構(gòu)化數(shù)據(jù)插入特型樣式模板中以展現(xiàn)文獻(xiàn)。當(dāng)然,也可以對(duì)單篇標(biāo)記文獻(xiàn)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,生成如圖4所示的,具有一定格式的結(jié)構(gòu)化信息。

圖4是輸入查詢語(yǔ)句“10.3778/j.issn.1002-8331.2012.01.001”后,頁(yè)面中展現(xiàn)與doi“10.3778/j.issn.1002-8331.2012.01.001”對(duì)應(yīng)的文獻(xiàn)。由圖4可以看出,頁(yè)面中展現(xiàn)了與doi“10.3778/j.issn.1002-8331.2012.01.001”對(duì)應(yīng)的文獻(xiàn)的標(biāo)題、作者、摘要、期刊、年份、卷號(hào)、關(guān)鍵詞、引用量、網(wǎng)絡(luò)來(lái)源、免費(fèi)下載鏈接等信息。

比較圖4與圖1可知,與現(xiàn)有搜索方法相比,本發(fā)明實(shí)現(xiàn)了通過(guò)doi精確查找到文獻(xiàn),并且在頁(yè)面中詳細(xì)的展現(xiàn)文獻(xiàn)信息,從而可以方便用戶獲取文獻(xiàn)信息,并且用戶可通過(guò)頁(yè)面中的下載鏈接下載文獻(xiàn)。

綜上所述,本發(fā)明實(shí)施例的文獻(xiàn)搜索方法,通過(guò)文獻(xiàn)的doi獲取對(duì)應(yīng)的具有單篇標(biāo)記的文獻(xiàn),并以特型樣式展現(xiàn)文獻(xiàn),從而實(shí)現(xiàn)了精確定位目標(biāo)文獻(xiàn)并詳細(xì)展現(xiàn)目標(biāo)文獻(xiàn)信息。

圖5是根據(jù)本發(fā)明一個(gè)具體實(shí)施例的文獻(xiàn)搜索方法的流程圖。

如圖5所示,該文獻(xiàn)搜索方法包括:

s501,獲取網(wǎng)絡(luò)中的文獻(xiàn)樣本。

具體地,從網(wǎng)絡(luò)或者文獻(xiàn)數(shù)據(jù)庫(kù),如知網(wǎng)、萬(wàn)方等文獻(xiàn)數(shù)據(jù)庫(kù)中,獲取文獻(xiàn)樣本。

s502,提取文獻(xiàn)樣本中的結(jié)構(gòu)化數(shù)據(jù)。

在獲取文獻(xiàn)樣本后,可利用機(jī)器學(xué)習(xí)模型、ocr技術(shù)、最大熵模型等,從文獻(xiàn)樣本中提取結(jié)構(gòu)化數(shù)據(jù),如標(biāo)題、作者、期刊、年份、期號(hào)、卷號(hào)、網(wǎng)絡(luò)來(lái)源、doi號(hào)、參考文獻(xiàn)等等。

s503,根據(jù)結(jié)構(gòu)化數(shù)據(jù)建立doi倒排索引數(shù)據(jù)庫(kù)。

根據(jù)提取的結(jié)構(gòu)化數(shù)據(jù),利用倒排索引技術(shù),建立文獻(xiàn)doi與對(duì)應(yīng)文獻(xiàn)的對(duì)應(yīng)關(guān)系,從而得到doi倒排索引數(shù)據(jù)庫(kù)。

s504,用戶輸入查詢語(yǔ)句“doi:10.1056/nejmoa062462論文”。

用戶在搜索引擎中輸入查詢語(yǔ)句“doi:10.1056/nejmoa062462論文”,從而搜索引擎接收用戶輸入的查詢語(yǔ)句。

s505,查詢語(yǔ)句中是否包含doi。

在接收用戶輸入的查詢語(yǔ)句“doi:10.1056/nejmoa062462論文”后,判斷查詢語(yǔ)句中是否包含doi。

s506,提取查詢語(yǔ)句中的doi。

如果查詢語(yǔ)句中包含doi,則去掉查詢語(yǔ)句中除doi以外的其他字符,提取doi。經(jīng)過(guò)判斷查詢語(yǔ)句“doi:10.1056/nejmoa062462論文”中包含doi,提取doi為“doi:10.1056/nejmoa062462”。

s507,常規(guī)檢索。

如果查詢語(yǔ)句中不包含doi,則根據(jù)查詢語(yǔ)句進(jìn)行常規(guī)檢索。

s508,計(jì)算提取的doi與doi倒排索引數(shù)據(jù)庫(kù)中的數(shù)據(jù)的相關(guān)性,獲取待選文獻(xiàn)。

具體地,在提取查詢語(yǔ)句中的doi“10.1056/nejmoa062462”后,計(jì)算提取的doi“10.1056/nejmoa062462”與doi倒排索引數(shù)據(jù)中的數(shù)據(jù)的相關(guān)性,從而從doi倒排索引數(shù)據(jù)庫(kù)中獲取待選文獻(xiàn)。

s509,將待選文獻(xiàn)的題錄信息中的doi號(hào)與“10.1056/nejmoa062462”進(jìn)行匹配。

由于待選文獻(xiàn)中可能包含參考文獻(xiàn),因此提取待選文獻(xiàn)的題錄信息中的doi號(hào),將提取的待選文獻(xiàn)的題錄信息中的doi號(hào)與“10.1056/nejmoa062462”進(jìn)行匹配。

s510,是否匹配一致。

判斷待選文獻(xiàn)的題錄信息中的doi號(hào)與“10.1056/nejmoa062462”是否匹配一致。

s511,對(duì)與“10.1056/nejmoa062462”匹配一致的待選文獻(xiàn)進(jìn)行單篇標(biāo)記,并獲取單篇標(biāo)記的文獻(xiàn)。

如果某待選文獻(xiàn)的題錄信息中的doi號(hào)與“10.1056/nejmoa062462”匹配一致,則對(duì)與“10.1056/nejmoa062462”匹配一致的doi號(hào)對(duì)應(yīng)的待選文獻(xiàn)進(jìn)行單篇標(biāo)記,并獲取單篇標(biāo)記的文獻(xiàn)。

s512,不作處理

如果所有待選文獻(xiàn)的題錄信息中的doi號(hào)與“10.1056/nejmoa062462”均不匹配,則不作處理。

s513,展現(xiàn)獲取的單篇標(biāo)記的文獻(xiàn)。

在獲取與“10.1056/nejmoa062462”匹配一致的doi號(hào)對(duì)應(yīng)的單篇標(biāo)記的文獻(xiàn)后,可提取單篇標(biāo)記的文獻(xiàn)的結(jié)構(gòu)化數(shù)據(jù),如標(biāo)題、作者、期刊、年份、期號(hào)、卷號(hào)、網(wǎng)絡(luò)來(lái)源、doi號(hào)、參考文獻(xiàn)等,并調(diào)用特型樣式模板,將結(jié)構(gòu)化數(shù)據(jù)插入特型樣式模板中以展現(xiàn)文獻(xiàn)。當(dāng)然,可以對(duì)單篇標(biāo)記文獻(xiàn)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,生成具有一定格式的結(jié)構(gòu)化信息。

下面結(jié)合圖6對(duì)本發(fā)明實(shí)施例提出的文獻(xiàn)搜索裝置進(jìn)行詳細(xì)描述。圖6是根據(jù)本發(fā)明一個(gè)實(shí)施例的文獻(xiàn)搜索裝置的結(jié)構(gòu)示意圖。

如圖6所示,該文獻(xiàn)搜索裝置可包括:接收模塊610、判斷模塊620、提取模塊630、展現(xiàn)模塊640。

其中,接收模塊610用于接收用戶輸入的查詢語(yǔ)句。

例如,某科研人員在搜索引擎中輸入查詢語(yǔ)句查找文獻(xiàn),從而接收模塊610接收用戶輸入的查詢語(yǔ)句。

判斷模塊620用于判斷查詢語(yǔ)句中是否包含doi。

具體地,在接收模塊610獲取用戶輸入的查詢語(yǔ)句后,判斷模塊620判斷查詢語(yǔ)句中是否包含doi。其中,doi是表明文獻(xiàn)唯一性的標(biāo)識(shí)符。

例如,在接收模塊610接收到用戶輸入的查詢語(yǔ)句“doi:10.1056/nejmoa062462論文”后,判斷模塊620判斷查詢語(yǔ)句“doi:10.1056/nejmoa062462論文”中是否包含doi。

提取模塊630用于如果包含doi,則提取doi,并根據(jù)doi獲取包含doi的具有單篇標(biāo)記的文獻(xiàn)。

如圖7所示,在圖6的基礎(chǔ)上,提取模塊630包括:獲取單元631、匹配單元632、標(biāo)記單元633。其中,獲取單元631用于根據(jù)doi查詢doi倒排索引數(shù)據(jù)庫(kù),以獲取包含doi的待選文獻(xiàn);匹配單元632用于將待選文獻(xiàn)的題錄信息中的doi號(hào)與doi進(jìn)行匹配;標(biāo)記單元633用于對(duì)與doi匹配一致的待選文獻(xiàn)進(jìn)行單篇標(biāo)記,并獲取具有單篇標(biāo)記的文獻(xiàn)。

具體地,如果查詢語(yǔ)句中包含doi,則提取模塊630去掉查詢語(yǔ)句中除doi以外的其他字符,提取doi,并根據(jù)提取的doi獲取包含該doi的具有單篇標(biāo)記的文獻(xiàn)。

更具體地,在提取查詢語(yǔ)句中包含的doi后,獲取單元631將提取的doi與doi倒排索引數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行相關(guān)性計(jì)算,從而從doi倒排索引數(shù)據(jù)庫(kù)中獲取所有包含提取的doi的待選文獻(xiàn)。其中,待選文獻(xiàn)可包括包含該doi的參考文獻(xiàn),或者題錄信息中包含該doi的文獻(xiàn)等。

由于參考文獻(xiàn)中可能包含參考文獻(xiàn),因此在獲取待選文獻(xiàn)后,匹配單元632提取待選文獻(xiàn)的題錄信息中的doi號(hào),將提取的待選文獻(xiàn)的題錄信息中的doi號(hào)與查詢語(yǔ)句中的doi進(jìn)行匹配。標(biāo)記單元633對(duì)與查詢語(yǔ)句中包含的doi匹配一致的待選文獻(xiàn)進(jìn)行單篇標(biāo)記,即從待選文獻(xiàn)中選出文獻(xiàn)的doi與查詢語(yǔ)句中的doi一致的文獻(xiàn)進(jìn)行單篇標(biāo)記,并可通過(guò)doi倒排索引數(shù)據(jù)庫(kù)獲取具有單篇標(biāo)記的文獻(xiàn)。

具體示例如下:用戶輸入查詢語(yǔ)句“doi:10.1056/nejmoa062462論文”,接收模塊610接收到查詢語(yǔ)句后,經(jīng)過(guò)判斷模塊420判斷獲知查詢語(yǔ)句中包含doi。

判斷模塊620判斷獲知查詢語(yǔ)句“doi:10.1056/nejmoa062462論文”中包含doi后,提取模塊630去掉查詢語(yǔ)句中除doi以外的字符“doi:”和“論文”,提取doi為:10.1056/nejmoa062462。在提取doi后,獲取單元631將提取的doi與doi倒排索引數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行相關(guān)性計(jì)算,從而從doi倒排索引數(shù)據(jù)庫(kù)中獲取包含該doi的待選文獻(xiàn)。獲取待選文獻(xiàn)后,提取待選文獻(xiàn)的題錄信息中的doi號(hào),匹配單元632計(jì)算待選文獻(xiàn)的題錄信息中的doi號(hào)與“10.1056/nejmoa062462”進(jìn)行匹配。如果某待選文獻(xiàn)的題錄信息中的doi號(hào)與“10.1056/nejmoa062462”匹配一致,則標(biāo)記單元633對(duì)該待選文獻(xiàn)進(jìn)行單篇標(biāo)記,并從doi倒排索引數(shù)據(jù)庫(kù)中獲取具有單篇標(biāo)記的文獻(xiàn)。

此外,如圖8所示,在圖7的基礎(chǔ)上,提取模塊630還包括建立單元634。

建立單元634用于在根據(jù)doi查詢doi倒排索引數(shù)據(jù)庫(kù),以獲取包含doi的待選文獻(xiàn)之前,預(yù)先建立doi倒排索引數(shù)據(jù)庫(kù)。

在根據(jù)查詢語(yǔ)句中的doi查詢doi倒排索引數(shù)據(jù)庫(kù),以獲取包含doi的待選文獻(xiàn)之前,可預(yù)先建立doi倒排索引數(shù)據(jù)庫(kù)。在建立doi倒排索引數(shù)據(jù)庫(kù)后,可根據(jù)預(yù)先建立的doi倒排索引數(shù)據(jù)庫(kù)和查詢語(yǔ)句中的doi獲取具有單篇標(biāo)記的文獻(xiàn)。具體示例如下:

首先,建立單元634從網(wǎng)絡(luò)或者文獻(xiàn)數(shù)據(jù)庫(kù),如知網(wǎng)、萬(wàn)方等文獻(xiàn)數(shù)據(jù)庫(kù)中,獲取文獻(xiàn)樣本。在獲取文獻(xiàn)樣本后,可利用機(jī)器學(xué)習(xí)模型、ocr技術(shù)、最大熵模型等,從文獻(xiàn)樣本中提取結(jié)構(gòu)化數(shù)據(jù),如標(biāo)題、作者、期刊、年份、期號(hào)、卷號(hào)、網(wǎng)絡(luò)來(lái)源、doi號(hào)、參考文獻(xiàn)中等等。

然后,根據(jù)提取的結(jié)構(gòu)化數(shù)據(jù),利用倒排索引技術(shù),建立文獻(xiàn)doi與對(duì)應(yīng)文獻(xiàn)的對(duì)應(yīng)關(guān)系,從而得到doi倒排索引數(shù)據(jù)庫(kù)。

進(jìn)而,在某用戶在搜索引擎中輸入查詢語(yǔ)句“doi:10.1056/nejmoa062462論文”后,獲取單元631將提取的查詢語(yǔ)句中的doi“10.1056/nejmoa062462”與預(yù)先的建立doi倒排索引數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行相關(guān)性計(jì)算,從而獲取doi倒排索引數(shù)據(jù)庫(kù)中所有包含doi“10.1056/nejmoa062462”的文獻(xiàn)作為待選文獻(xiàn)。在獲取單元631獲取待選文獻(xiàn)后,匹配單元632提取待選文獻(xiàn)的題錄信息中的doi號(hào),將提取的doi號(hào)與查詢語(yǔ)句中的doi進(jìn)行匹配。如果某待選文獻(xiàn)的題錄信息中的doi號(hào)與查詢語(yǔ)句中的doi匹配一致,則標(biāo)記單元633對(duì)該待選文獻(xiàn)進(jìn)行單篇標(biāo)記,從而可以獲取具有單篇標(biāo)記的文獻(xiàn)。

展現(xiàn)模塊640用于以特型樣式展現(xiàn)文獻(xiàn)。

具體地,根據(jù)查詢語(yǔ)句中的doi獲取具有單篇標(biāo)記的文獻(xiàn)即目標(biāo)文獻(xiàn)后,展現(xiàn)模塊640可提取單篇標(biāo)記的文獻(xiàn)的結(jié)構(gòu)化數(shù)據(jù),如標(biāo)題、作者、期刊、年份、期號(hào)、卷號(hào)、網(wǎng)絡(luò)來(lái)源、doi號(hào)、參考文獻(xiàn)等,并調(diào)用特型樣式模板,將結(jié)構(gòu)化數(shù)據(jù)插入特型樣式模板中以展現(xiàn)文獻(xiàn)。當(dāng)然,也可以對(duì)單篇標(biāo)記文獻(xiàn)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,生成如圖4所示的,具有一定格式的結(jié)構(gòu)化信息。

圖4是輸入查詢語(yǔ)句“10.3778/j.issn.1002-8331.2012.01.001”后,頁(yè)面中展現(xiàn)與doi“10.3778/j.issn.1002-8331.2012.01.001”對(duì)應(yīng)的文獻(xiàn)。由圖4可以看出,頁(yè)面中展現(xiàn)了與doi“10.3778/j.issn.1002-8331.2012.01.001”對(duì)應(yīng)的文獻(xiàn)的標(biāo)題、作者、摘要、期刊、年份、卷號(hào)、關(guān)鍵詞、引用量、網(wǎng)絡(luò)來(lái)源、免費(fèi)下載鏈接等信息。

比較圖4與圖1可知,與現(xiàn)有搜索方法相比,本發(fā)明實(shí)現(xiàn)了通過(guò)doi精確查找到文獻(xiàn),并且可在頁(yè)面中詳細(xì)的展現(xiàn)文獻(xiàn)的結(jié)構(gòu)化信息,從而可以方便用戶獲取文獻(xiàn)信息,并且用戶可通過(guò)頁(yè)面中的下載鏈接下載文獻(xiàn)。

綜上所述,本發(fā)明實(shí)施例的文獻(xiàn)搜索裝置,通過(guò)文獻(xiàn)的doi獲取對(duì)應(yīng)的具有單篇標(biāo)記的文獻(xiàn),并以特型樣式展現(xiàn)文獻(xiàn),從而實(shí)現(xiàn)了精確定位目標(biāo)文獻(xiàn)并詳細(xì)展現(xiàn)目標(biāo)文獻(xiàn)信息。

在本說(shuō)明書的描述中,參考術(shù)語(yǔ):“一個(gè)實(shí)施例”、“具體實(shí)施例”“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書中,對(duì)上述術(shù)語(yǔ)的示意性表述不必須針對(duì)的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說(shuō)明書中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。

盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1