檢索輔助裝置、方法
【專利說明】檢索輔助裝置、方法
[0001]本申請以日本專利申請2014-188230(申請日期:2014年9月16日)為基礎(chǔ),根據(jù)該申請而享受優(yōu)先權(quán)。本申請通過參考該申請而包含該申請的全部內(nèi)容。
技術(shù)領(lǐng)域
[0002]本發(fā)明的實施方式涉及一種檢索輔助裝置、方法及程序。
【背景技術(shù)】
[0003]隨著英特網(wǎng)的普及和個人電腦、智能手機(jī)及平板電腦終端等設(shè)備的多樣化及商品化,容易通過Web文件獲取信息。因此,實現(xiàn)了如下方法及應(yīng)用程序:在Web文件等電子化文件中,實現(xiàn)相當(dāng)于在作為紙質(zhì)媒體的報紙或雜志中進(jìn)行的“剪報”的操作。尤其是智能手機(jī)及平板電腦終端的普及,使得文件中句子的選擇及移動操作變得簡單,因此可容易地進(jìn)行剪報。
[0004]在從以剪報形式存儲的文件中檢索與某一文件相關(guān)的相關(guān)文件時,在由系統(tǒng)提示相關(guān)文件的情況下,由于顯示空間有限,通常而言,進(jìn)行頁面經(jīng)過縮小的縮略顯示的情況較多。但僅靠縮略顯示的話,難以了解相關(guān)文件的內(nèi)容,因此存在如下情況:提示文件的標(biāo)題、創(chuàng)建時間及收集時間等屬性信息,或者添加用戶明確賦予的標(biāo)記信息等來作為用戶了解相關(guān)文件的概要的線索。此外,有這樣一種技術(shù):根據(jù)在所收集的多個剪報文件之間同時出現(xiàn)的關(guān)鍵詞來提不相關(guān)文件。
【發(fā)明內(nèi)容】
[0005]但即便提示在文件之間同時出現(xiàn)的關(guān)鍵詞,所提示的關(guān)鍵詞也未必有助于用戶判斷相關(guān)性,只有提取同時出現(xiàn)的關(guān)鍵詞,才能提不相關(guān)文件。
[0006]本公開是為了解決上述問題而成,其目的在于提供一種可對擴(kuò)展用戶興趣的關(guān)鍵詞的提示進(jìn)行輔助的檢索輔助裝置、方法及程序。
[0007]本實施方式的檢索輔助裝置包括第1解析部、第1獲取部、測定部、提取部及存儲部。第1解析部對作為經(jīng)剪報而成的文件的剪報文件進(jìn)行解析,獲取表示作為該剪報文件的來源的原文件的位置的位置信息。第1獲取部參考所述位置信息,在所述原文件有更新的情況下,獲取作為已更新的所述原文件的更新文件。測定部測定所述原文件的第1更新頻率。提取部從所述剪報文件中提取1個以上的第1關(guān)鍵詞,并使用根據(jù)所述第1更新頻率而設(shè)定的關(guān)鍵詞提取方式從所述更新文件中提取1個以上的第2關(guān)鍵詞。存儲部對所述剪報文件分別關(guān)聯(lián)所述1個以上的第1關(guān)鍵詞、所述更新文件及所述1個以上的第2關(guān)鍵詞并加以存儲。
[0008]通過上述構(gòu)成的檢索輔助裝置,可對擴(kuò)展用戶興趣的關(guān)鍵詞的提示進(jìn)行輔助。
【附圖說明】
[0009]圖1為表示本實施方式的檢索輔助裝置的方塊圖。
[0010]圖2為表示文件數(shù)據(jù)的更新處理的流程圖。
[0011]圖3為表示文件數(shù)據(jù)存儲部中所存儲的文件數(shù)據(jù)的一例之圖。
[0012]圖4為表示相關(guān)文件提示處理的流程圖。
[0013]圖5為表示關(guān)鍵詞提取部的關(guān)鍵詞提取處理的流程圖。
[0014]圖6為表示更新模式與關(guān)鍵詞提取方式的關(guān)系的一例之圖。
[0015]圖7為表示相關(guān)文件檢索部的相關(guān)文件判定處理的流程圖。
[0016]圖8為表示提示部中的相關(guān)文件及關(guān)鍵詞的提示例之圖。
【具體實施方式】
[0017]下面,一邊參考附圖,一邊對本實施方式的檢索輔助裝置、方法及程序進(jìn)行詳細(xì)說明。再者,在以下的實施方式中,將標(biāo)注同一參考符號的部分視為進(jìn)行同樣動作的部分,并酌情省略重復(fù)的說明。
[0018]參考圖1的方塊圖,對本實施方式的檢索輔助裝置進(jìn)行說明。
[0019]本實施方式的檢索輔助裝置100包括文件數(shù)據(jù)存儲部101、剪報文件解析部102、更新文件獲取部103、鏈接信息解析部104、鏈接目的地文件獲取部105、更新頻率測定部106、關(guān)鍵詞提取部107、屬性更新部108、查詢文件解析部109、相關(guān)文件檢索部110及提示部 111。
[0020]文件數(shù)據(jù)存儲部101存儲與1個以上的剪報文件相關(guān)的文件數(shù)據(jù)。剪報文件是表示經(jīng)電子化的整個文件或部分區(qū)域的經(jīng)用戶剪報(剪切出來)的范圍的文件。例如,若為觸控面板式顯示畫面,則用戶可利用觸控筆或手指等通過畫圈動作來指定文件中的區(qū)域,由此對指定的部分區(qū)域進(jìn)行剪報,生成剪報文件。此外,也可通過在文件中畫下劃線或標(biāo)記,或者對首行做標(biāo)簽等對文件附加注解的操作來進(jìn)行剪報而生成剪報文件。關(guān)于文件數(shù)據(jù)存儲部101,將參考圖3而在后文中敘述。
[0021]剪報文件解析部102從文件數(shù)據(jù)存儲部101接收剪報文件并對剪報文件進(jìn)行解析,獲取表示作為獲取剪報文件時的原始文件的原文件的位置的位置信息。作為位置信息,例如可列舉URL或IP地址。
[0022]更新文件獲取部103從剪報文件解析部102接收原文件的位置信息,并且參考位置信息而檢索WEB 150,從而判定在獲取到文件數(shù)據(jù)存儲部101中所存儲的剪報文件的時間點之后原文件是否有更新。在原文件有更新的情況下,獲取作為已更新的原文件的更新文件。
[0023]鏈接信息解析部104分別從剪報文件解析部102接收剪報文件、從更新文件獲取部103接收更新文件,并對剪報文件及更新文件進(jìn)行解析,獲取剪報文件及更新文件中所包含的鏈接信息。鏈接信息是表示存在于文件中的超鏈接等通向其他文件的鏈接的信息。
[0024]鏈接目的地文件獲取部105從鏈接信息解析部104接收鏈接信息,并從WEB 150中檢索并獲取作為鏈接目的地的文件的鏈接目的地文件。
[0025]更新頻率測定部106分別從鏈接信息解析部104接收剪報文件及更新文件、從鏈接目的地文件獲取部105接收鏈接目的地文件,并測定原文件的更新頻率以及鏈接目的地文件的更新頻率。
[0026]關(guān)鍵詞提取部107從更新頻率測定部106接收剪報文件、更新文件及鏈接目的地文件。關(guān)鍵詞提取部107從剪報文件中提取1個以上的關(guān)鍵詞,并使用與更新頻率相符的關(guān)鍵詞提取方式從更新文件及鏈接目的地文件中提取1個以上的關(guān)鍵詞。關(guān)鍵詞提取方式表示在提取關(guān)鍵詞時以何種基準(zhǔn)及何種算法進(jìn)行提取。關(guān)于關(guān)鍵詞提取部107的詳情,將參考圖5而在后文中敘述。
[0027]屬性更新部108從關(guān)鍵詞提取部107接收1個以上的關(guān)鍵詞,并對文件數(shù)據(jù)存儲部101中所存儲的剪報文件的文件數(shù)據(jù)分別關(guān)聯(lián)更新文件、鏈接目的地文件及1個以上的關(guān)鍵詞,由此進(jìn)行更新處理。
[0028]查詢文件解析部109獲取作為成為檢索查詢的文件的查詢文件,并對查詢文件進(jìn)行解析而獲取單詞特征量。查詢文件可通過用戶指定剪報文件來確定,也可通過用戶輸入新文件來確定。
[0029]相關(guān)文件檢索部110從查詢文件解析部109接收查詢文件及單詞特征量,并以相關(guān)文件的形式從文件數(shù)據(jù)存儲部101中檢索并獲取與查詢文件的單詞特征量的類似度為閾值以上的剪報文件。
[0030]提示部111例如為顯示器,從相關(guān)文件檢索部110接收并提示查詢文件、相關(guān)文件以及與相關(guān)文件關(guān)聯(lián)的更新文件、鏈接目的地文件及關(guān)鍵詞。
[0031]接著,參考圖2的流程圖,對文件數(shù)據(jù)存儲部101中所存儲的剪報文件的文件數(shù)據(jù)的更新處理進(jìn)行說明。
[0032]又,在本實施方式中,是假設(shè)將剪報文件未經(jīng)處理地預(yù)先存儲在文件數(shù)據(jù)存儲部101中的情況,但也可為剪報文件解析部102在生成剪報文件的時間點獲取剪報文件,并進(jìn)行后續(xù)處理。
[0033]在步驟S201中,剪報文件解析部102從文件數(shù)據(jù)存儲部101獲取剪報文件。
[0034]在步驟S202中,剪報文件解析部102對剪報文件進(jìn)行解析,獲取原文件的位置信息。
[0035]在步驟S203中,剪報文件解析部102判定原文件是否有更新。關(guān)于更新的判定,若剪報文件解析部102中所存儲的剪報文件與存在于位置信息所表示的位置的原文件之間存在差異,則只要判定原文件有更新即可。在原文件有更新的情況下,進(jìn)入至步驟S204,在無更新的情況下,進(jìn)入至步驟S205。
[0036]在步驟S204中