專利名稱:文件關(guān)聯(lián)性判定系統(tǒng)與方法
技術(shù)領(lǐng)域:
本發(fā)明是關(guān)于一種文件關(guān)聯(lián)性判定系統(tǒng)與方法,尤指關(guān)于一種先擷取文件中的關(guān)鍵詞,再依兩文件的關(guān)鍵詞來判定其是否具有關(guān)聯(lián)性的文件關(guān)聯(lián)性判定系統(tǒng)與方法。
隨著科技的發(fā)展,各種如網(wǎng)頁、電子書或新聞稿等文件的產(chǎn)生與傳播越來越快速,連帶地,各種文件的數(shù)量也日益龐大,使得搜尋某種特定內(nèi)容的文件變得越來越困難。以網(wǎng)際網(wǎng)路為例,若使用者欲在一儲(chǔ)存有上萬筆文件的網(wǎng)站中,找尋所需要的某些特定內(nèi)容的資料,其勢必需要花費(fèi)許多的時(shí)間與心力在搜集與整理上。
為解決上述問題,在現(xiàn)有技術(shù)中,多半是將各種文件以特定的資料結(jié)構(gòu)儲(chǔ)存于一資料庫中,再配合搜尋引擎來協(xié)助使用者搜尋其所需的資料。例如,使用者先輸入關(guān)鍵字后,搜尋引擎即針對(duì)使用者所輸入的關(guān)鍵字,于資料庫中搜尋內(nèi)容中具有此關(guān)鍵字的文件。使用者可以運(yùn)用布林運(yùn)算的觀念,對(duì)關(guān)鍵字進(jìn)行各種的組合,以縮小搜尋的范圍。使用者亦可針對(duì)某個(gè)搜尋的結(jié)果作更進(jìn)一步的搜尋,例如,再輸入另一關(guān)鍵字,以針對(duì)第一次搜尋所找到的數(shù)百篇文件再次進(jìn)行篩選。
上述現(xiàn)有技術(shù)的缺點(diǎn),為就算使用者找到了一篇符合其需要的特定文件,此篇特定文件對(duì)后續(xù)搜尋工作的進(jìn)行并沒有幫助。換言之,當(dāng)以關(guān)鍵字搜尋的方式找到了數(shù)篇后,使用者必須一篇篇檢視其內(nèi)容,以尋找其需要的文件,而在這個(gè)過程中,找到一篇文件并不會(huì)加速后續(xù)的檢視速度。使用者仍需對(duì)后續(xù)文件進(jìn)行撿視,以得知其它文件是否為其所需的文件。
此外,以關(guān)鍵字來查詢并不一定就可以查詢到所有的相關(guān)聯(lián)文件。例如,有可能兩篇文件的主題相近,內(nèi)客相關(guān)聯(lián),然而使用者在搜尋時(shí)是以關(guān)鍵字來進(jìn)行搜尋,且兩篇文件中有一篇文件的內(nèi)容中剛好沒有此關(guān)鍵字,這種情況下使用者就只能搜尋到一篇文件,而無法兩篇都搜尋到。若避免此狀況的發(fā)生,使用者必須同時(shí)輸入多個(gè)關(guān)鍵字,并以聯(lián)集的方式進(jìn)行搜尋。然而此種作法勢必會(huì)搜尋到大量文件,需要花費(fèi)更多的時(shí)間與精力來逐篇篩選。
再者,在某些情況下,使用者是先看到一篇特定文件后,想搜尋與此特定文件具有關(guān)聯(lián)性的文件。這種情況以新聞網(wǎng)站最為常見。此時(shí),若僅以關(guān)鍵字來進(jìn)行搜索,則使用者必須先桃出此篇特定文件的關(guān)鍵字后,再以搜尋引擎來依關(guān)鍵字進(jìn)行搜尋。如此不但非常不便,同時(shí)也無法避免前述的兩個(gè)搜尋文件時(shí)所可能遭遇到的問題。
針對(duì)上述問題,本發(fā)明的目的為提供一種文件關(guān)聯(lián)性判定系統(tǒng)與方法,其可判定文件之間的關(guān)聯(lián)性,進(jìn)而提升使用者搜尋相關(guān)聯(lián)文件的速度與效率。
本發(fā)明的目的可以通過以下措施來達(dá)到一種文件關(guān)聯(lián)性判定系統(tǒng),其判定一特定文件與一待判定文件之間是否具有關(guān)聯(lián)性,包含一關(guān)鍵詞擷取裝置,其擷取該特定文件的至少一特定文件關(guān)鍵詞,以構(gòu)成一特定文件關(guān)鍵詞組,該關(guān)鍵詞擷取裝置亦擷取該待判定文件的至少一待判定文件關(guān)鍵詞,以構(gòu)成一待判定文件關(guān)鍵詞組;以及一關(guān)聯(lián)性判定裝置,其是對(duì)比該特定文件關(guān)鍵詞組與該待判定文件關(guān)鍵詞組,并當(dāng)該特定文件關(guān)鍵詞組與該待判定文件關(guān)鍵詞組的相似程度到達(dá)一預(yù)定程度時(shí),判定該待判定文件與該特定文件具有關(guān)聯(lián)性。
一種文件關(guān)聯(lián)性判定方法,其判定一特定文件與一待判定文件之間是否具有關(guān)聯(lián)性,包含一特定文件關(guān)鍵詞擷取程序,其擷取該特定文件的至少一特定文件關(guān)鍵詞,以構(gòu)成一特定文件關(guān)鍵詞組;一待判定文件關(guān)鍵詞擷取程序,其擷取該待判定文件的至少一待判定文件關(guān)鍵詞,以構(gòu)成一待判定文件關(guān)鍵詞組;以及一對(duì)比程序,其對(duì)比該特定文件關(guān)鍵詞組與該待判定文件關(guān)鍵詞組,并當(dāng)該特定文件關(guān)鍵詞組與待判定文件關(guān)鍵詞組相似程度到達(dá)一預(yù)定程度時(shí),判定該待判定文件與該特定文件具有關(guān)聯(lián)性。
為達(dá)上述目的,依本發(fā)明的文件關(guān)聯(lián)性判定系統(tǒng)與方法包括一關(guān)鍵詞擷取裝置以及一關(guān)聯(lián)性判定裝置。關(guān)鍵詞擷取裝置擷取一特定文件的至少一特定文件關(guān)鍵詞,以構(gòu)成一特定文件關(guān)鍵詞組。關(guān)鍵詞擷取裝置亦擷取一待判定文件的至少一待判定文件關(guān)鍵詞,以構(gòu)成一待判定文件關(guān)鍵詞組。關(guān)聯(lián)性判定裝置則對(duì)比特定文件關(guān)鍵詞組與待判定文件關(guān)鍵詞組,并當(dāng)特定文件關(guān)鍵詞組與待判定文件關(guān)鍵詞組的相似程度到達(dá)一預(yù)定程度時(shí),判定待判定文件與特定文件具有關(guān)聯(lián)性。
本發(fā)明亦揭露一種文件關(guān)聯(lián)性判定方法,包括一特定文件關(guān)鍵詞擷取程序、一待判定文件關(guān)鍵詞擷取程序以及一對(duì)比程序。特定文件關(guān)鍵詞擷取程序擷取一特定文件的至少一特定文件關(guān)鍵詞,以構(gòu)成一特定文件關(guān)鍵詞組。待判定文件關(guān)鍵詞擷取程序擷取一待判定文件的至少一待判定文件關(guān)鍵詞,以構(gòu)成一待判定文件關(guān)鍵詞組。對(duì)比程序則對(duì)比特定文件關(guān)鍵詞組與待判定文件關(guān)鍵詞組,并當(dāng)特定文件關(guān)鍵詞組與待判定文件關(guān)鍵詞組的相似程度到達(dá)一預(yù)定程度時(shí),判定待判定文件與特定文件具有關(guān)聯(lián)性。
本發(fā)明相比現(xiàn)有技術(shù)具有如下優(yōu)點(diǎn)經(jīng)由上述的系統(tǒng)架構(gòu)與流程,使用者將可利用文件之間的關(guān)聯(lián)性來搜尋文件資料庫中的文件,藉以更增進(jìn)文件搜尋的效率,減少使用者搜尋資料所需的時(shí)間與心力。
以下將參照相關(guān)附圖,說明依本發(fā)明較佳實(shí)施例的文件關(guān)聯(lián)性判定系統(tǒng)與方法,其中相同的元件將以相同的參照符號(hào)加以說明。
圖1為一示意圖,顯示依本發(fā)明較佳實(shí)施例的文件關(guān)聯(lián)性判定系統(tǒng)的架構(gòu)。
圖2為一示意圖,顯示于依本發(fā)明較佳實(shí)施例的文件關(guān)聯(lián)性判定系統(tǒng)中,關(guān)鍵詞擷取裝置11的架構(gòu)的實(shí)施形態(tài)。
圖3為一示意圖,顯示于依本發(fā)明較佳實(shí)施例的文件關(guān)聯(lián)性判定系統(tǒng)中,另一種關(guān)鍵詞擷取裝置11的架構(gòu)的實(shí)拖形態(tài)。
圖4為一流程圖,顯示依本發(fā)明較佳實(shí)施例的文件關(guān)聯(lián)性判定方法的流程。
圖5為一示意圖,顯示運(yùn)用依本發(fā)明較佳實(shí)施例的文件關(guān)聯(lián)性判定系統(tǒng)來搜尋在文件資料庫中與特定文件具有關(guān)聯(lián)性的文件的實(shí)施形態(tài)。
圖6為一流程圖,顯示運(yùn)用圖5所示的實(shí)拖形態(tài)來搜尋與特定文件具有關(guān)聯(lián)性的文件的流程。
圖號(hào)說明1文件關(guān)聯(lián)性判定系統(tǒng) 43對(duì)比程序11關(guān)鍵詞擷取裝置51文件資料庫111長詞優(yōu)先斷詞摸組 52文件瀏覽裝置112統(tǒng)計(jì)模組 53待判定文件讀取裝置113多連文刪除/合并摸組 54關(guān)鍵詞儲(chǔ)存裝置12關(guān)聯(lián)性判定裝置55文件關(guān)聯(lián)性記錄裝置20特定文件 61判斷程序21特定文件關(guān)鍵詞組 62待判定文件讀取程序30判定文件 63判斷程序31待判定文件關(guān)鍵詞組64特定文件關(guān)鍵詞擷取程序4文件關(guān)聯(lián)性判定方法 65判斷程序41特定文件關(guān)鍵詞擷取程序66待判定文件關(guān)鍵詞擷取程序42待判定文件關(guān)鍵詞擷取程序 67對(duì)比程序68判斷程序 80使用者69文件關(guān)聯(lián)性提供程序請(qǐng)參照?qǐng)D1,依本發(fā)明較佳實(shí)施例的文件關(guān)聯(lián)性判定系統(tǒng)1主要包括一關(guān)鍵詞擷取裝置11以及一關(guān)聯(lián)性判定裝置12。關(guān)鍵詞擷取裝置11是擷取特定文件20的至少一特定文件關(guān)鍵詞,以構(gòu)成一特定文件關(guān)鍵詞組21。關(guān)鍵詞擷取裝置11亦擷取待判定文件30的至少一待判定文件關(guān)鍵詞,以構(gòu)成一待判定文件關(guān)鍵詞組31。關(guān)聯(lián)性判定裝置12則對(duì)比特定文件關(guān)鍵詞組21與待判定文件關(guān)鍵詞組31,并當(dāng)兩者的相似程度到達(dá)一預(yù)定程度時(shí),判定待判定文件30與特定文件20具有關(guān)聯(lián)性。
請(qǐng)參照?qǐng)D2,關(guān)鍵詞擷取裝置11可以采用一長詞優(yōu)先斷詞模組111先對(duì)特定文件20與待判定文件30以長詞優(yōu)先斷詞法進(jìn)行斷詞處理后,再以一統(tǒng)計(jì)摸組以統(tǒng)計(jì)方式擷取特定文件20的特定文件關(guān)鍵詞,以及待判定文件30的待判定文件關(guān)鍵詞。所謂「長詞優(yōu)先斷詞法」,是指利用一儲(chǔ)存有眾多中文常用詞的詞典,將特定文件20與待判定文件30中的所有文字,以「長詞優(yōu)先」的原則進(jìn)行斷詞。例如,在對(duì)特定文件20進(jìn)行斷詞時(shí),若在特定文件20中出現(xiàn)了「臺(tái)北市」這個(gè)詞,而在詞典中,儲(chǔ)存了「臺(tái)北」與「臺(tái)北市」兩個(gè)中文常用詞,此時(shí),由于斷詞是以「長詞優(yōu)先」為原則,故不會(huì)將「臺(tái)北市」這個(gè)詞切斷為「臺(tái)北」與「市」兩個(gè)詞,而會(huì)將「臺(tái)北市」視為一個(gè)詞。依此原則不斷循環(huán),即可將特定文件20內(nèi)容轉(zhuǎn)換為許多中文常用詞的組合。
接著,統(tǒng)計(jì)模組112則對(duì)斷詞的結(jié)果進(jìn)行統(tǒng)計(jì),將出現(xiàn)次數(shù)到達(dá)一閥值,或出現(xiàn)的比率高于一定比率的詞視為關(guān)鍵詞。例如,若設(shè)定出現(xiàn)15次以上的詞為關(guān)鍵詞,而在特定文件20中,「總統(tǒng)大選」這個(gè)詞出現(xiàn)了16次,則統(tǒng)計(jì)模組112即將「總統(tǒng)大選」這個(gè)詞視為特定文件20關(guān)鍵詞。經(jīng)由此種方法,統(tǒng)計(jì)模組112可自特定文件20中擷取出至少一個(gè)特定文件關(guān)鍵詞,并記錄于特定文件關(guān)腱詞組21中。同理,亦可得到自待判定文件30所擷取出來的待判定文件關(guān)鍵詞組31。
請(qǐng)參照?qǐng)D3,關(guān)鍵詞擷取裝置11亦可采用一多連文刪除/合并模組113,以多連文刪除/合并法來擷取特定文件20的特定文件關(guān)鍵詞,以及待判定文件30的待判定文件關(guān)鍵詞。所謂「多連文刪除/合并法」,是指先將特定文件20或待判定文件30中的所有中文字先依順序轉(zhuǎn)變?yōu)閺?fù)數(shù)個(gè)「雙連文」的組合(以「臺(tái)北市政府」此一短句為例,其所可能產(chǎn)生的「雙連文」有四個(gè),分別為「臺(tái)北」、「北市」、「市政」與「政府」),且當(dāng)相鄰兩個(gè)「雙連文」的出現(xiàn)次數(shù)均高于一閥值時(shí),將兩者合并為一「三連文」(例如,將「臺(tái)北」與「北市」合并為「臺(tái)北市」,并將出現(xiàn)次數(shù)未達(dá)到閥值的雙連文刪除。如此,利用不斷地將直到出現(xiàn)次數(shù)低于閥值的多連文刪除,保留出現(xiàn)次數(shù)高于閥值的多連文,以及合并兩個(gè)彼此相鄰且出現(xiàn)次數(shù)均高于閥值的多連文,最后剩下的即為在特定文件20或待判定文件30中出現(xiàn)次數(shù)高于一定閥值,且經(jīng)過充份合并過后的多連文。由于最后剩下的多連文的出現(xiàn)次數(shù)均高于閥值,故可將其視為特定文件20或待判定文件30的關(guān)鍵詞,并儲(chǔ)存于特定文件關(guān)鍵詞組21或待判定文件關(guān)鍵詞組31。
在取得特定文件關(guān)鍵詞組21與待判定文件關(guān)鍵詞組31后,關(guān)聯(lián)性判定裝置12即進(jìn)行對(duì)比,以判定待判定文件30與特定文件20是否具有關(guān)聯(lián)性。當(dāng)特定文件關(guān)鍵詞組21與待判定文件關(guān)鍵詞組31的相似程度到達(dá)一預(yù)定程度時(shí),關(guān)聯(lián)性判定裝置12即判定該待判定文件與該特定文件具有關(guān)聯(lián)性。此處所謂的「預(yù)定程度」可視實(shí)際狀況而有所不同。例如,可設(shè)定為特定文件關(guān)鍵詞組21與待判定文件關(guān)鍵詞組31必須完全吻合,待判定文件30與特定文件20才具有關(guān)聯(lián)性,或者特定文件關(guān)鍵詞組21與待判定文件關(guān)鍵詞組31的相似程度達(dá)到百分的八十時(shí),判定文件30與特定文件20即具有關(guān)聯(lián)性。明顯地,關(guān)聯(lián)性判定裝置12在判定待判定文件30與特定文件20是否具有關(guān)聯(lián)性時(shí),作為判定依據(jù)「預(yù)定程度」會(huì)和幾個(gè)條件有關(guān),包括特定文件關(guān)鍵詞與待判定文件關(guān)鍵詞的個(gè)數(shù)、特定文件20與待判定文件30的字?jǐn)?shù)、以及長詞優(yōu)先斷詞法或多連文刪除/合并法中所設(shè)定的閥值的大小等。所以,「預(yù)定程度」應(yīng)依照實(shí)際情況而有所調(diào)整。例如,若待判定文件30與特定文件20平均約有1000字,且關(guān)鍵詞擷取裝置11最多只取出現(xiàn)次數(shù)最多的三個(gè)關(guān)鍵詞,則可將關(guān)聯(lián)性判定裝置12作為判定依據(jù)的「預(yù)定程度」,設(shè)定為特定文件關(guān)鍵詞組21與待判定文件關(guān)鍵詞組31必須完全吻合,待判定文件30與特定文件20才具有關(guān)聯(lián)性。熟悉此項(xiàng)技術(shù)者可以依實(shí)際的需要,對(duì)「預(yù)定程度」作適當(dāng)?shù)男薷呐c調(diào)整,或者由文件關(guān)聯(lián)性判定系統(tǒng)1依據(jù)文件的字?jǐn)?shù)與類型等自動(dòng)進(jìn)行調(diào)整。
圖4所示者為以上述的文件關(guān)聯(lián)性判定系統(tǒng)1所實(shí)現(xiàn)的文件關(guān)聯(lián)性判定方法4的流程。其中,特定文件關(guān)鍵詞擷取程序41擷取特定文件20的特定文件關(guān)鍵詞,以構(gòu)成特定文件關(guān)鍵詞組21。待判定文件關(guān)鍵詞擷取程序42擷取待判定文件30的待判定文件關(guān)鍵詞,以構(gòu)成待判定文件關(guān)鍵詞組31。對(duì)比程序43則對(duì)比特定文件關(guān)鍵詞組21與待判定文件關(guān)鍵詞組31,并當(dāng)特定文件關(guān)鍵詞組21與待判定文件關(guān)鍵詞組31的相似程度到達(dá)一預(yù)定程度時(shí),判定待判定文件30與特定文件20具有關(guān)聯(lián)性。各程序的詳細(xì)內(nèi)容均如前所述,故在此不在贅述。惟需注意,特定文件關(guān)鍵詞擷取程序41與待判定文件關(guān)鍵詞擷取程序42的順序可以對(duì)調(diào),而不影響文件對(duì)比的結(jié)果。
依本發(fā)明的文件關(guān)聯(lián)性判定系統(tǒng)與方法可以判定文件之間的關(guān)聯(lián)性,故可與各種文件資料庫或搜尋系統(tǒng)配合以進(jìn)行多種運(yùn)用,使文件的搜尋更為便利。請(qǐng)參照?qǐng)D5,例如,文件關(guān)聯(lián)性判定系統(tǒng)1可與一文件資料庫51配合,當(dāng)使用者80透過文件瀏覽裝置52瀏覽到一篇特定文件20時(shí),可利用文件關(guān)聯(lián)性判定系統(tǒng)1來搜尋與特定文件20具有關(guān)聯(lián)性的其它文件。此時(shí),待判定文件讀取裝置53即依序讀取所有文件資料庫中的待判定文件30,以進(jìn)行與特定文件20之間的關(guān)聯(lián)性判定。在待判定文件30經(jīng)過文件關(guān)聯(lián)性判定系統(tǒng)1的處理之后,待判定文件關(guān)鍵詞即儲(chǔ)存于關(guān)鍵詞儲(chǔ)存裝置54,其與特定文件20的關(guān)聯(lián)性則記錄于文件關(guān)聯(lián)性記錄裝置55。如此,即可找到在文件資料庫51中,所有與特定文件20具有關(guān)聯(lián)性的待判定文件30。
請(qǐng)參照?qǐng)D6,當(dāng)使用者運(yùn)用圖5所示的架構(gòu)來搜尋與特定文件20具關(guān)聯(lián)性的文件時(shí),首先在程序61中,判斷此特定文件20是否已經(jīng)在文件關(guān)聯(lián)性記錄裝置55中,已記錄了與其它待判定文件30的關(guān)聯(lián)性記錄。若有,則直接依先前的記錄將待判定文件提供給使用者即可,若沒有,則進(jìn)入待判定文件讀取程序62,由待判定文件讀取裝置53從文件資料庫51中依續(xù)讀取待判定文件30。
接著,在程序63中,若特定文件20于關(guān)鍵詞儲(chǔ)存裝置54中沒有關(guān)鍵詞記錄,則進(jìn)入特定文件關(guān)鍵詞擷取程序64,由關(guān)鍵詞擷取裝置11來擷取特定文件20的關(guān)鍵詞,并將其記錄至關(guān)鍵詞儲(chǔ)存裝置54。若在程序63中,特定文件20于關(guān)鍵詞儲(chǔ)存裝置54中已有關(guān)鍵詞記錄,則直接跳至程序65,判斷待判定文件30于關(guān)鍵詞儲(chǔ)存裝置54中是否有關(guān)鍵詞記錄。若無,則進(jìn)入待判定文件關(guān)鍵詞擷取程序66,由關(guān)鍵詞擷取裝置11來擷取待判定文件30的關(guān)鍵詞。若有,則直接跳至對(duì)比程序67,由關(guān)聯(lián)性判定裝置12來進(jìn)行關(guān)聯(lián)性的判定。
當(dāng)針對(duì)此篇待判定文件30與特定文件20的關(guān)聯(lián)性判斷完畢后,即于程序68中,判斷是否仍有其它的待判定文件30。若有則回到待判定文件讀取程序62。若無則進(jìn)入文件關(guān)聯(lián)性提供程序69,將所找到的與特定文件20具有關(guān)聯(lián)性的待判定文件提供給使用者80。
以上所述僅為舉例性,而非為限制性。任何未脫離木發(fā)明的精神與范疇,而對(duì)其進(jìn)行的等效修改或變更,均應(yīng)包含于后附的申請(qǐng)專利范圍中。
權(quán)利要求
1.一種文件關(guān)聯(lián)性判定系統(tǒng),其判定一特定文件與一待判定文件之間是否具有關(guān)聯(lián)性,其特征是包含一關(guān)鍵詞擷取裝置,其擷取該特定文件的至少一特定文件關(guān)鍵詞,以構(gòu)成一特定文件關(guān)鍵詞組,該關(guān)鍵詞擷取裝置亦擷取該待判定文件的至少一待判定文件關(guān)鍵詞,以構(gòu)成一待判定文件關(guān)鍵詞組;以及一關(guān)聯(lián)性判定裝置,其是對(duì)比該特定文件關(guān)鍵詞組與該待判定文件關(guān)鍵詞組,并當(dāng)該特定文件關(guān)鍵詞組與該待判定文件關(guān)鍵詞組的相似程度到達(dá)一預(yù)定程度時(shí),判定該待判定文件與該特定文件具有關(guān)聯(lián)性。
2.如權(quán)利要求1所述的文件關(guān)聯(lián)性判定系統(tǒng),其特征是其中該關(guān)鍵詞擷取裝置是先以一斷詞模組對(duì)該特定文件與該待判定文件進(jìn)行斷詞處理后,再以一統(tǒng)計(jì)模組以統(tǒng)計(jì)方式擷取該特定文件的該特定文件關(guān)鍵詞,以及該待判定文件的該待判定文件關(guān)鍵詞。
3.如權(quán)利要求2所述的文件關(guān)聯(lián)性判定系統(tǒng),其特征是其中該斷詞模組是為一長詞優(yōu)先斷詞模組。
4.如權(quán)利要求1所述的文件關(guān)聯(lián)性判定系統(tǒng),其特征是其中該關(guān)鍵詞擷取裝置是以一多連文刪除/合并模組自該特定文件與該待判定文件擷取該特定文件關(guān)鍵詞以及該待判定文件關(guān)鍵詞。
5.如權(quán)利要求1所述的文件關(guān)聯(lián)性判定系統(tǒng),其特征是更包含一關(guān)鍵詞儲(chǔ)存裝置,其儲(chǔ)存該待判定文件的該待判定文件關(guān)鍵詞。
6.如權(quán)利要求5所述的文件關(guān)聯(lián)性判定系統(tǒng),其特征是其中該關(guān)聯(lián)性判定裝置是自該關(guān)鍵詞儲(chǔ)存裝置讀取該待判定文件關(guān)鍵詞組,以對(duì)比該特定文件關(guān)鍵詞組與該待判定文件關(guān)鍵詞組。
7.如權(quán)利要求1所述的文件關(guān)聯(lián)性判定系統(tǒng),其特征是其中該待判定文件是自一儲(chǔ)存多數(shù)個(gè)待判定文件的文件資料庫取出。
8.如權(quán)利要求7所述的文件關(guān)聯(lián)性判定系統(tǒng),其特征是更包含一待判定文件讀取裝置,其是自該待判定文件資料庫中,依序讀取這些待判定文件。
9.如權(quán)利要求7所述的文件關(guān)聯(lián)性判定系統(tǒng),其特征是更包含一文件關(guān)聯(lián)性記錄裝置,其記錄該特定文件與該待判定文件資料庫中的這些待判定文件之間是否具有關(guān)聯(lián)性。
10.如權(quán)利要求1所述的文件關(guān)聯(lián)性判定系統(tǒng),其特征是其中該預(yù)定程度是指該特定文件關(guān)鍵詞組與該待判定文件關(guān)鍵詞組的相似程度為完全相同。
11.一種文件關(guān)聯(lián)性判定方法,其判定一特定文件與一待判定文件之間是否具有關(guān)聯(lián)性,其特征是包含一特定文件關(guān)鍵詞擷取程序,其擷取該特定文件的至少一特定文件關(guān)鍵詞,以構(gòu)成一特定文件關(guān)鍵詞組;一待判定文件關(guān)鍵詞擷取程序,其擷取該待判定文件的至少一待判定文件關(guān)鍵詞,以構(gòu)成一待判定文件關(guān)鍵詞組;以及一對(duì)比程序,其對(duì)比該特定文件關(guān)鍵詞組與該待判定文件關(guān)鍵詞組,并當(dāng)該特定文件關(guān)鍵詞組與待判定文件關(guān)鍵詞組相似程度到達(dá)一預(yù)定程度時(shí),判定該待判定文件與該特定文件具有關(guān)聯(lián)性。
12.如權(quán)利要求11所述的文件關(guān)聯(lián)性判定方法,其特征是其中該特定文件關(guān)鍵詞擷取程序是先依一中文長詞優(yōu)先斷詞法對(duì)該特定文件進(jìn)行斷詞處理后,再以統(tǒng)計(jì)方式擷取該特定文件的該特定文件關(guān)鍵詞;且該待判定文件關(guān)鍵詞擷取程序是先以中文長詞優(yōu)先斷詞法對(duì)該待判定文件進(jìn)行斷詞處理后,再以統(tǒng)計(jì)方式擷取該待判定文件的該待判定文件關(guān)鍵詞。
13.如權(quán)利要求11所述的文件關(guān)聯(lián)性判定方法,其特征是其中該特定文件關(guān)鍵詞擷取程序是先以多連文刪除/合并法對(duì)該特定文件進(jìn)行斷詞處理后,再以統(tǒng)計(jì)方式擷取該特定文件的該特定文件關(guān)鍵詞;且該待判定文件關(guān)鍵詞擷取程序是先以多連文刪除/合并法對(duì)該待判定文件進(jìn)行斷詞處理后,再以統(tǒng)計(jì)方式擷取該待判定文件的該待判定文件關(guān)鍵詞。
14.如權(quán)利要求11所述的文件關(guān)聯(lián)性判定方法,其特征是更包含一關(guān)鍵詞儲(chǔ)存程序,其儲(chǔ)存該待判定文件的該待判定文件關(guān)鍵詞于一關(guān)鍵詞儲(chǔ)存裝置中。
15.如權(quán)利要求14所述的文件關(guān)聯(lián)性判定方法,其特征是其中該對(duì)比是自該關(guān)鍵詞儲(chǔ)存裝置讀取該待判定文件關(guān)鍵詞組,以對(duì)比該特定文件關(guān)鍵詞組與該待判定文件關(guān)鍵詞組。
16.如權(quán)利要求11所述的文件關(guān)聯(lián)性判定方法,其特征是其中該待判定文件是自一儲(chǔ)存多數(shù)個(gè)待判定文件的待判定文件資料庫取出。
17.如權(quán)利要求16所述的文件關(guān)聯(lián)性判定方法,其特征是更包含一待判定文件讀取程序,其是自該待判定文件資料庫中,依序讀取這些待判定文件。
18如權(quán)利要求16所述的文件關(guān)聯(lián)性判定方法,其特征是更包含一文件關(guān)聯(lián)性記錄程序,其記錄該特定文件與該待判定文件資料庫中的這些待判定文件之間是否具有關(guān)聯(lián)性。
19.如權(quán)利要求11所述的文件關(guān)聯(lián)性判定方法,其特征是其中該預(yù)定程度是指該特定文件關(guān)鍵詞組與該待判定文件關(guān)鍵詞組的相似程度為完全相同。
全文摘要
一種文件關(guān)聯(lián)性判定系統(tǒng),包括一關(guān)鍵詞擷取裝置及一關(guān)聯(lián)性判定裝置。關(guān)鍵詞擷取裝置擷取一特定文件至少一特定文件關(guān)鍵詞,構(gòu)成特定文件關(guān)鍵詞組。同時(shí)擷取待判定文件至少一待判定文件關(guān)鍵詞,構(gòu)成一待判定文件關(guān)鍵詞組。關(guān)聯(lián)性判定裝置則對(duì)比特定文件關(guān)鍵詞組與待判定文件關(guān)鍵詞組,當(dāng)兩關(guān)鍵詞組的相似程度到達(dá)一預(yù)定程度時(shí),判定待判定文件與特定文件具有關(guān)聯(lián)性。本發(fā)明亦揭露一種以文件關(guān)聯(lián)性判定系統(tǒng)實(shí)現(xiàn)的文件關(guān)聯(lián)性判定方法。
文檔編號(hào)G06F17/30GK1369839SQ0110410
公開日2002年9月18日 申請(qǐng)日期2001年2月16日 優(yōu)先權(quán)日2001年2月16日
發(fā)明者楊立偉 申請(qǐng)人:意藍(lán)科技股份有限公司