,更新文件獲取部103獲取更新文件。再者,在判定更新時原文件已更新多次的情況下,也可獲取多個更新文件。
[0037]在步驟S205中,鏈接信息解析部104對剪報文件及更新文件的鏈接信息進行解析。
[0038]在步驟S206中,鏈接信息解析部104判定鏈接信息所指向的位置是否存在鏈接目的地文件。若存在鏈接目的地文件,則進入至步驟S207,若不存在鏈接目的地文件,則進入至步驟S208。
[0039]在步驟S207中,鏈接目的地文件獲取部105獲取鏈接目的地文件。
[0040]在步驟S208中,關鍵詞提取部107從剪報文件、更新文件及鏈接目的地文件中提取關鍵詞。
[0041]在步驟S209中,屬性更新部108對文件數(shù)據(jù)存儲部101中所存儲的剪報文件的文件數(shù)據(jù)進行更新。以上,對剪報文件的文件數(shù)據(jù)的更新處理進行了參考并結束。
[0042]接著,參考圖3,對文件數(shù)據(jù)存儲部101中所存儲的文件數(shù)據(jù)的一例進行說明。
[0043]圖3所示的文件數(shù)據(jù)存儲部101中所存儲的表格300包含文件ID 301、剪報時刻302、最后更新時刻303、鏈接信息304、文件本體305、原始關鍵詞306及擴展關鍵詞307。
[0044]文件ID 301是用以識別文件的標識符。剪報時刻302是對原文件進行剪報處理的時刻。最后更新時刻303表示原文件有更新的情況下的原文件的最新更新時間。若原文件無更新,則可將與剪報時刻相同之值作為最后更新時刻303之值,也可為空。
[0045]鏈接信息304是表示鏈接目的地文件的位置的URL等地址。
[0046]文件本體305是剪報文件、更新文件及鏈接目的地文件的數(shù)據(jù)本體,例如HTML (Hypertext Markup Language)形式的數(shù)據(jù)。再者,在剪報文件為被剪報的文件的部分區(qū)域的情況下,對進行剪報的時間點的整個文件的數(shù)據(jù)也加以存儲。
[0047]原始關鍵詞306是從剪報文件中提取出來的關鍵詞。又,在剪報文件為被剪報的文件的部分區(qū)域的情況下,也可從被剪報的整個文件中提取關鍵詞。
[0048]擴展關鍵詞307是從更新文件及鏈接目的地文件中獲取的關鍵詞。
[0049]在圖3之例中,例如,文件ID 301 “001”上分別關聯(lián)有剪報時刻302 “2014-01-2313:32:13”、最后更新時刻 303 “2014-02-2215:13:40”、鏈接信息304 “http://www…”、文件本體305 “〈HTML〉…”、原始關鍵詞306 “節(jié)能、氣體”、擴展關鍵詞307 “節(jié)能支持展、Smart-UPS”。
[0050]接著,參考圖4的流程圖,對相關文件提示處理進行說明。
[0051]在步驟S401中,查詢文件解析部109獲取查詢文件。
[0052]在步驟S402中,查詢文件解析部109對查詢文件進行解析,提取查詢文件的單詞特征量。
[0053]在步驟S403中,相關文件檢索部110以查詢文件為起點,從文件數(shù)據(jù)存儲部101中檢索相關文件。
[0054]在步驟S404中,相關文件檢索部110判定是否存在相關文件。存在相關文件時,進入至步驟S405,不存在相關文件時,結束處理。
[0055]在步驟S405中,相關文件檢索部110獲取相關文件以及與相關文件關聯(lián)的更新文件、鏈接目的地文件及關鍵詞(包括原始關鍵詞及擴展關鍵詞)。
[0056]在步驟S406中,提示部111提示查詢文件、相關文件、更新文件、鏈接目的地文件以及與它們分別關聯(lián)的關鍵詞。以上,相關文件提不處理結束。
[0057]接著,參考圖5的流程圖,對關鍵詞提取部107的關鍵詞提取處理進行說明。
[0058]在步驟S501中,設定更新頻率的時間寬度。更新頻率的時間寬度表示以多長的時間間隔進行更新,此處,假設3天、5小時等指定值。再者,也可根據(jù)用戶所收集的剪報文件組的原文件的更新頻率情況來動態(tài)地設定時間寬度,并不限于指定值。
[0059]在步驟S502中,根據(jù)更新頻率的時間寬度判定原文件的更新模式。更新模式是用以根據(jù)更新的頻率及規(guī)則性對剪報文件進行分類的模式。例如,在將更新頻率的時間寬度設定為3小時的情況下,若3小時內(nèi)有4次以上更新,則分組為更新頻率較高的文件,若有1次以上3次以下的更新,則分組為周期性更新的文件,一次更新也沒有時,則分組為靜態(tài)文件。再者,更新模式也可不固定,可根據(jù)更新情況對剪報文件進行適當?shù)姆纸M,針對經(jīng)分組的剪報文件組的每一特征來動態(tài)地進行分類。
[0060]在步驟S503中,根據(jù)更新頻率的時間寬度判定鏈接目的地文件的更新模式。對于鏈接目的地文件,也是只要利用與步驟S502同樣的方法判定更新模式即可。
[0061]在步驟S504中,根據(jù)經(jīng)判定的更新模式進行關鍵詞提取方式的加權。此處,所謂加權,除了包括對同一關鍵詞提取方式變更權重的參數(shù)以外,還包括關鍵詞的提取算法本身的變更。作為加權,例如,只要確定與更新文件的布局以及鏈接目的地文件的布局相關的邏輯要素、以及從字段中的哪一區(qū)域中提取關鍵詞即可。
[0062]在步驟S505中,按照關鍵詞提取方式提取關鍵詞。以上,關鍵詞提取處理結束。
[0063]接著,參考圖6,對更新模式與關鍵詞提取方式的關系的一例進行說明。
[0064]圖6所示的表格600中,更新模式包括高頻率更新601、周期性更新602及無更新603,并對這些更新模式分別按每一類別604設定關鍵詞提取方式的權重。
[0065]類別604包括算法、文件中的屬性及參數(shù),但并不限定于此,也可包含其他要素。
[0066]例如,就算法而言,在周期性更新602中運用未知單詞提取方式,在無更新603中運用固有表達提取方式,若為像高頻率更新601那樣更新頻率較高的頁面,由于僅主動提取新出現(xiàn)的關鍵詞,因此運用新單詞提取方式即可。
[0067]就文件中的屬性而言,在周期性更新602中,將被賦予“value”屬性的關鍵詞的權重設為1.5倍。在無更新603中,由于文件未被更新,因此標題較為重要的可能性較高,所以將被賦予“title”屬性的關鍵詞的權重設為1.5倍。在高頻率更新601中,例如假設價格等被頻繁更新,因此將被賦予“price”屬性的關鍵詞的權重設為1.2倍。
[0068]此外,在算法中的作為針對單詞的權重的“W”和作為文件中的單詞的出現(xiàn)位置的“L”可變的情況下,對它們分別進行不同的加權。
[0069]接著,參考圖7,對相關文件檢索部110的相關文件判定處理進彳丁說明。
[0070]在步驟S701中,對查詢文件進行文章結構解析,提取邏輯要素。具體而言,是檢測何種要素及屬性中包含何種字符串及短語。
[0071]在步驟S702中,對查詢文件進行詞素解析,提取關鍵詞。關鍵詞可為由詞素解析所得結果、名詞及名詞的連接范圍、未知單詞與名詞的組合(連接)等構成的字符串,也能在出現(xiàn)這些字符串的統(tǒng)計信息的基礎上使用C-Value等來檢測適當?shù)倪B接范圍。
[0072]在步驟S703中,對作為關鍵詞的出現(xiàn)單詞及短語計算文件數(shù)據(jù)存儲部101中所存儲的剪報文件的 TF/IDF(Term Frequency-1nverse Document Frequency)值,并且生成根據(jù)文件的邏輯要素(出現(xiàn)位置)而變更權重后的文件矢量。
[0073]在步驟S704中,計算查詢文件的文件矢量與文件數(shù)據(jù)存儲部101中所存儲的剪報文件的文件矢量的余弦距離。
[0074]在步驟S705中,判定余弦距離為閾值以下、即類似度為閾值以上的剪報文件為與查詢文件類似的相關文件,并從具有類似度較高的文件矢量的剪報文件中以相關文件的形式依序獲取。以上,相關文件檢索處理結束。
[0075]接著,參考圖8,對提不部111中的相關文件及關鍵詞的提不的一例進彳丁說明。
[