亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)的制作方法

文檔序號(hào):6355415閱讀:449來源:國知局
專利名稱:自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng),特別是一種不需經(jīng)過斷詞處理,直接搜尋文件中關(guān)鍵詞的自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)。
隨著科技的發(fā)展,現(xiàn)今的時(shí)代已經(jīng)成為一資訊爆炸的時(shí)代,大量的文件,例如新聞、論文、評(píng)論與專利資料等,均可藉由電腦與網(wǎng)際網(wǎng)絡(luò)快速地流通,因此,文件取得困難的問題已大幅減少,取而代之是文件的搜尋與整理等問題。如果采用傳統(tǒng)圖書館的分類方式,依照領(lǐng)域來對(duì)由電腦與網(wǎng)際網(wǎng)絡(luò)來流通的文件進(jìn)行逐篇分類,則勢必要用人工閱讀的方式將文件一一歸類,如此將需要大量的人力來進(jìn)行文件整理的工作。若單純以編號(hào)的方式來整理,則欲搜尋資料又相當(dāng)不便。因此,許多電腦科學(xué)的研究學(xué)者均開始嘗試用電腦來自動(dòng)找出文件中的關(guān)鍵字,用以搜尋或整理大量的文件。
一般而言,若欲利用電腦來找出一電腦可讀取文件中的關(guān)鍵詞,多半均先對(duì)文件進(jìn)行斷詞處理后,再依斷詞的結(jié)果來找出文件的關(guān)鍵詞。所謂的“斷詞”,是指將由成串字元所組成的文句進(jìn)行分割,使文句被切割成許多有意義的詞匯。例如,若文件中包括了“臺(tái)北市政府”,則先將“臺(tái)北市政府”分割成為”臺(tái)北市”與”政府,再根據(jù)文件中兩者的出現(xiàn)次數(shù),來決定其是否為文件的關(guān)鍵詞。然而,若欲實(shí)時(shí)處理大量的文件時(shí),例如對(duì)一文件資料庫中的所有文件依關(guān)鍵詞進(jìn)行自動(dòng)分類,或是在網(wǎng)絡(luò)上欲實(shí)時(shí)地利用關(guān)鍵字來對(duì)數(shù)篇文件進(jìn)行過濾時(shí),利用斷詞法來找尋文件中的關(guān)鍵字將太過耗時(shí)。此外,若欲對(duì)文件進(jìn)行斷詞處理,則勢必要另外維護(hù)斷詞所需的文法規(guī)則資料庫或字詞資料庫,耗費(fèi)額外的時(shí)間與成本。
所以,如何利用電腦技術(shù)來提供一種簡單且快速的關(guān)鍵詞學(xué)習(xí)方法與系統(tǒng),以便處理大量的文件,并進(jìn)一步使用于例如文件自動(dòng)摘要、文件自動(dòng)分類或文件自動(dòng)過濾等資料檢索的相關(guān)應(yīng)用上,已成為一亟待解決的重要問題。
針對(duì)上述問題,本發(fā)明的目的為提供一種自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng),其可利用電腦技術(shù)自動(dòng)搜尋電腦可讀取文件中的關(guān)鍵詞,以大幅縮短搜索關(guān)鍵詞所需的時(shí)間。
本發(fā)明的另一目的為提供一種自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng),其不需對(duì)文件進(jìn)行斷詞處理,故處理速度快,且不需維護(hù)復(fù)雜的文法規(guī)則資料庫或字詞資料庫。
本發(fā)明的另一目的為提供一種自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng),其可有效率地處理大量的文件,并可進(jìn)一步使用于例如文件自動(dòng)摘要、文件自動(dòng)分類或文件自動(dòng)過濾等資料檢索的相關(guān)應(yīng)用。
為達(dá)上述目的,依本發(fā)明的自動(dòng)搜尋文件中關(guān)鍵詞的方法包括一串列產(chǎn)生程序、一候選元素選取程序、一結(jié)合程序以及一關(guān)鍵詞取出程序。串列產(chǎn)生程序計(jì)算一電腦可讀取文件中的所有雙連文的出現(xiàn)次數(shù),并將雙連文置于一串列中,以作為串列的多個(gè)元素。候選元素選取程序選取串列中的第一個(gè)元素作為前候選元素,以及第二個(gè)元素作為后候選元素。結(jié)合程序是當(dāng)前候選元素與后候選元素的出現(xiàn)次數(shù)均高于一閥值時(shí),將前候選元素與后候選元素合并為一合并元素。將合并元素置于一合并串列中,并將合并元素的出現(xiàn)次數(shù)加一。關(guān)鍵詞取出程序則當(dāng)前候選元素的出現(xiàn)次數(shù)高于該閥值,且前候選元素先前尚未與其它元素結(jié)合過時(shí)。將前候選元素置入關(guān)鍵詞串列,以得到電腦可讀取文件中的關(guān)鍵詞。
本發(fā)明還提供一種自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng),包括一串列產(chǎn)生模塊、一候選元素選取模塊、一結(jié)合模塊以及一關(guān)鍵詞取出模塊。串列產(chǎn)生模塊計(jì)算一電腦可讀取文件中的所有雙連文的出現(xiàn)次數(shù),并將雙連文置于一串列中,以作為串列的多個(gè)元素。候選元素選取模塊選取串列中的第一個(gè)元素作為前候選元素,以及第二個(gè)元素作為后候選元素。結(jié)合模塊是當(dāng)前候選元素與后候選元素的出現(xiàn)次數(shù)均高于一閥值時(shí),將前候選元素與后候選元素合并為一合并元素,將合并元素置于一合并串列中,并將合并元素的出現(xiàn)次數(shù)加一。關(guān)鍵詞取出模塊則當(dāng)前候選元素的出現(xiàn)次數(shù)高于該閥值,且前候選元素先前尚未與其它元素結(jié)合過時(shí),將前候選元素置入關(guān)鍵詞串列,以得到電腦可讀取文件中的關(guān)鍵詞。


圖1為一流程圖,顯示依本發(fā)明較佳實(shí)施例的自動(dòng)搜尋文件中關(guān)鍵詞的方法的流程。
圖2為一示意圖,顯示依本發(fā)明較佳實(shí)施例的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)的組成。
附圖符號(hào)說1自動(dòng)搜尋文件中關(guān)鍵詞的方法102第一判斷程序101串列產(chǎn)生程序 103合并串列清空程序104候選元素選取程序 21串列產(chǎn)生模塊105第二判斷程序 22合并串列清空模塊106結(jié)合程序 23候選元素選取模塊107第三判斷程序 24結(jié)合模塊108關(guān)鍵詞取出程序 25關(guān)鍵詞取出模塊109第四判斷程序 26候選元素移位模塊110候選元素移位程序 27取代模塊111取代程序 51文件2自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng) 52關(guān)鍵詞以下將參照相關(guān)附圖,說明依本發(fā)明較佳實(shí)施例的自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng),其中相同的元件將以相同的參照符號(hào)加以說明。
首先,在本發(fā)明中所謂的“多連文(N-gram)”指文件內(nèi)容中所有可能出現(xiàn)的多字詞。以“中文資訊檢索”短句為例,其所可能產(chǎn)生的“雙連文(Bigram)”有五個(gè),分別為
中文、文資、資訊、訊檢、檢索其所可能產(chǎn)生的“三連文(Trigram)”則有四個(gè),分別為中文資`文資訊、資訊檢、訊檢索依此類推,對(duì)于一文件的內(nèi)容,可一直取到N連文為止。一般,可將N設(shè)為文件中所可能出現(xiàn)詞的最大長度,例如,對(duì)于“中文資訊檢索”而言,其最長可以取到六連文,即“中文資訊檢索”本身。
由于具有完整意義的詞,如上述的“中文”、“資訊”等,必定會(huì)在文件中完整出現(xiàn),而不會(huì)只出現(xiàn)其中一部份。而另一方面,可單獨(dú)出現(xiàn)的詞也多半為具有完整意義的詞,例如“資訊檢索”具有完整意義,但“資訊”亦有完整意義,故亦可單獨(dú)在文件中的其它地方出現(xiàn)。所以,本發(fā)明采用上述的原理作為基本假設(shè),即”關(guān)鍵詞將于文件中重覆出現(xiàn)”,以及”具有完整意義的詞不會(huì)只部份出現(xiàn)于文件中”來對(duì)文件進(jìn)行關(guān)鍵字的搜尋。
請(qǐng)參照?qǐng)D1,依本發(fā)明較佳實(shí)施例的自動(dòng)搜尋文件中關(guān)鍵詞的方法1是先進(jìn)行一串列產(chǎn)生程序101,以計(jì)算一電腦可讀取文件中的所有雙連文的出現(xiàn)次數(shù),并將雙連文置于一串列中,以作為串列的多個(gè)元素。以“資訊系資訊檢索系統(tǒng)”為例,其可能產(chǎn)生的雙連文為“資訊”、“訊系”、“系資”、“資訊”與“訊檢”、“檢索”、“索系”與“系統(tǒng)”,且除了“資訊”的出現(xiàn)次數(shù)為兩次之外,各雙連文的出現(xiàn)次數(shù)皆為一次,故于串列產(chǎn)生程序101中,即將各雙連文加入串列中以作為元素,并記錄各該雙連文的出現(xiàn)次數(shù)。
接著,在第一判斷程序102中,判斷串列是否為空串列。此時(shí),由于串列中尚有元素,故接著進(jìn)行合并串列清空程序103,以刪除合并串列中所有的元素。事實(shí)上,此時(shí)在合并串列中并無任何元素存在,故此時(shí)合并串列清空程序103不需進(jìn)行任何刪除的動(dòng)作。
接著,在候選元素選取程序104中,選取串列中的第一個(gè)元素以作為前候選元素,并選取串列中的第二個(gè)元素以作為后候選元素。在本實(shí)施例中,由于串列的第一個(gè)元素為“資訊”,第二個(gè)元素為“訊系”,故此時(shí)前候選元素即為“資訊”,而后候選元素則為“訊系”。
然后,第二判斷程序105判別前候選元素與后候選元素的出現(xiàn)次數(shù)是否均高于閥值,若是則進(jìn)行結(jié)合程序106,以將前候選元素與后候選元素合并為一合并元素。閥值的大小可依實(shí)際需要加以設(shè)定,例如依照文件的長度加以調(diào)整,長度越長的文件則閥值越大,長度越短的文件則閥值越小。在本實(shí)施例中由于“資訊系資訊檢索系統(tǒng)”的長度較短,故將閥值設(shè)定為1,意謂只要出現(xiàn)兩次以上的多連文即可成為關(guān)鍵詞。
此時(shí),前候選元素“資訊”的出現(xiàn)次數(shù)為2,其大于閥值,而后候選元素“訊系”出現(xiàn)次數(shù)為1,其等于閥值,并未大于閥值,故其并不會(huì)進(jìn)入結(jié)合程序106,而是進(jìn)入第三判斷程序107。
在第三判斷程序107中,若前候選元素的出現(xiàn)次數(shù)高于閥值,且前候選元素先前尚未與其它元素結(jié)合過時(shí),即將前候選元素置入關(guān)鍵詞串列。此時(shí),由于前候選元素“資訊”的出現(xiàn)次數(shù)大于閥值。且其先前并未與任何其它元素合并過,故進(jìn)入關(guān)鍵詞取出程序108,將前候選元素“資訊”置入關(guān)鍵詞串列中。注意,此處所提及的先前并未與任何其它元素合并過”的意義,是指若該單元先前已被合并過,則其會(huì)出現(xiàn)于較長的詞中,成為該較長的詞的一部份,故已合并過的元素即使再次成為前候選元素,也不會(huì)被放入關(guān)鍵字串列中。否則,如果可合并元素一方面可于合并后被置入合并串列,另一方面又會(huì)被置入關(guān)鍵字串列話。將造成關(guān)鍵字串列中元素為非完整詞匯的機(jī)率增大。
然后,進(jìn)行第四判斷程序109,以判斷串列是否結(jié)束。由于此時(shí)串列尚未結(jié)束,故進(jìn)入候選元素移位程序110,以將串列中前候選元素的下一元素設(shè)為前候選元素,并將后候選元素的下一元素設(shè)為后候選元素。即,將原前候選元素“資訊”的下一個(gè)元素“訊系”設(shè)為新的前候選元素,而將原后候選元素“訊系”的下一個(gè)元素“系資”設(shè)為新的后候選元素。換而言之,在候選元素移位程序110中,將前候選元素與后候選元素在串列中向后移位一個(gè)元素。
在候選元素移位程序110的后,即回到第二判斷程序105,以對(duì)新設(shè)定的前候選元素與后候選元素進(jìn)行第二判斷程序105或第三判斷程序107的判定。
若在第四判斷程序109中判定串列已經(jīng)結(jié)束,即,前候選元素已經(jīng)是串列中的最后一個(gè)元素“系統(tǒng)”,則進(jìn)入取代程序111,將串列中的元素以合并串列中的元素取代。由于在原本的串列中,除了“資訊”此一元素的出現(xiàn)次數(shù)大于閥值之外,其它元素的出現(xiàn)次數(shù)均未大于閥值,故并不會(huì)有任何的元素合并情況產(chǎn)生。因此,合并串列中并不會(huì)有任何元素,導(dǎo)致串列中的元素均將被刪除。接著,在第一判斷程序102中,由于串列為空,故結(jié)束整個(gè)自動(dòng)搜尋文件中關(guān)鍵詞的方法1的流程。
在上述的流程中,最后在關(guān)鍵詞串列中會(huì)留下“資訊”此一元素,且其出現(xiàn)次數(shù)為兩次。此一元素即可視為“資訊是資訊檢索系統(tǒng)”的關(guān)鍵詞。當(dāng)然,在流程結(jié)束的后,尚可對(duì)關(guān)鍵詞串列中的各元素進(jìn)行進(jìn)一步整理,如使用常用詞典作簡單的過濾等,以篩選出更適當(dāng)?shù)年P(guān)鍵字。
經(jīng)由上述流程可以得知,從將文件分解為雙連文開始,經(jīng)由反覆進(jìn)行元素合并以及將低于閥值的元素刪除的動(dòng)作,串列中的元素將會(huì)越來越少,最后在關(guān)鍵字串列中所記錄的,即為出現(xiàn)次數(shù)超過閥值,且合并過后的多連文。不完整的詞(如“訊系”、“系資”等)都會(huì)被刪除。如此,將可找到文件中出現(xiàn)了一定以上次數(shù),且為完整詞匯的關(guān)鍵詞。
請(qǐng)參照?qǐng)D2,依本發(fā)明較佳實(shí)施例的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)2包括一串列產(chǎn)生模塊2、一合并串列清空模塊22、一候選元素選取模塊23、一結(jié)合模塊24、一關(guān)鍵詞取出模塊25、一候選元素移位模塊26以及一取代模塊27。在本實(shí)施例中,各模塊均為儲(chǔ)存于一電腦裝置中的程序模塊,其記錄于一儲(chǔ)存裝置,如記憶體、硬盤機(jī)或光盤機(jī)等中,使一中央處理單元讀取各模塊之后,即進(jìn)行如前所述的自動(dòng)搜尋文件中關(guān)鍵詞的方法1的流程,以找出文件51中的關(guān)鍵詞。然而,熟悉該項(xiàng)技術(shù)者亦可對(duì)其進(jìn)行等效的修改與應(yīng)用,例如將各模塊制作成為實(shí)體電路,以將其內(nèi)置于如電子字典或個(gè)人數(shù)位助理等電子裝置中,以對(duì)文件51進(jìn)行如前所述自動(dòng)搜尋文件中關(guān)鍵詞的方法1的工作,而不超出本發(fā)明的精神與范圍。
自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)2可自一記憶裝置(如記憶體)或記錄媒體(如磁盤或光盤)中讀取文件51,或經(jīng)由網(wǎng)際網(wǎng)絡(luò)自另一網(wǎng)絡(luò)伺服器讀取文件51。在讀取文件51后,各模塊即依前述的自動(dòng)搜尋文件中關(guān)鍵詞的方法1的流程,搜尋文件51的關(guān)鍵詞52。當(dāng)找出文件51中的關(guān)鍵詞52后,即可依關(guān)鍵詞52對(duì)文件51進(jìn)行各種處理,如文件自動(dòng)摘要,文件自動(dòng)分類或文件自動(dòng)過濾等。需注意,在上述的實(shí)施例中,雖均以中文作為例子,然而依本發(fā)明的自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)并不僅限于處理中文,而可應(yīng)用于日文,韓文等多種文字。
依本發(fā)明的自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)利用電腦技術(shù)自動(dòng)搜尋電腦可讀取文件中的關(guān)鍵詞,故可大幅縮短搜索關(guān)鍵詞所需的時(shí)間。
依本發(fā)明的自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)并不需對(duì)文件進(jìn)行斷詞處理,故其處理速度快,且不需維護(hù)復(fù)雜的文法規(guī)則資料庫或字詞資料庫。
依本發(fā)明的自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)的處理速度快,故當(dāng)使用于例如文件自動(dòng)摘要,文件自動(dòng)分類或文件自動(dòng)過濾等資料檢索的相關(guān)應(yīng)用上時(shí),可更有效率地處理大量的文件。
以上所述僅為舉例,而非為限制。任何未脫離本發(fā)明的精神與范圍,而對(duì)其進(jìn)行的等效修改或變更,均應(yīng)包含于本專利的權(quán)利要求范圍中。
權(quán)利要求
1.一種自動(dòng)搜尋文件中關(guān)鍵詞的方法,包含一串列產(chǎn)生程序,計(jì)算一電腦可讀取文件中的所有雙連文的出現(xiàn)次數(shù),并將此類雙連文置于一串列中,以作為該串列的多個(gè)元素;一候選元素選取程序,選取該串列中的第一個(gè)元素為前候選元素,并選取該串列中的第二個(gè)元素為后候選元素;一結(jié)合程序,當(dāng)該前候選元素與該后候選元素的出現(xiàn)次數(shù)均高于一閥值時(shí),將該前候選元素與該后候選元素合并為一合并元素,將該合并元素置于一合并串列中,并將該合并元素的出現(xiàn)次數(shù)加一;以及一關(guān)鍵詞取出程序,當(dāng)該前候選元素的出現(xiàn)次數(shù)高于該閥值,且該前候選元素先前尚未與其它元素結(jié)合過時(shí),將該前候選元素置入關(guān)鍵詞串列,以得到該電腦可讀取文件中的關(guān)鍵詞。
2.如權(quán)利要求1所述的自動(dòng)搜尋文件中關(guān)鍵詞的方法,進(jìn)一步包含一合并串列清空程序,系將該合并串列中的元素全部刪除。
3.如權(quán)利要求1所述的自動(dòng)搜尋文件中關(guān)鍵詞的方法,進(jìn)一步包含一取代程序,將該串列中的元素以該合并串列中的元素取代。
4.如權(quán)利要求1所述的自動(dòng)搜尋文件中關(guān)鍵詞的方法,進(jìn)一步包含一候選元素移位程序,將該串列中,該原前候選元素的下一元素設(shè)為新的前候選元素,并將原后候選元素的下一元素設(shè)為新的后候選元素。
5.一種自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng),包含一串列產(chǎn)生模塊,計(jì)算一電腦可讀取文件中的所有雙連文的出現(xiàn)次數(shù),并將該等雙連文置于一串列中,以作為該串列的多個(gè)元素;一候選元素選取模塊,選取該串列中的第一個(gè)元素為前候選元素,并選取該串列中的第二個(gè)元素為后候選元素一結(jié)合模塊,當(dāng)該前候選元素與該后候選元素的出現(xiàn)次數(shù)均高于一閥值時(shí),將該前候選元素與該后候選元素合并為一合并元素,將該合并元素置于一合并串列中,并將該合并元素的出現(xiàn)次數(shù)加一;以及一關(guān)鍵詞取出模塊,當(dāng)該前候選元素的出現(xiàn)次數(shù)高于該閥值,且該前候選元素先前尚未與其它元素結(jié)合過時(shí),將該前候選元素置入關(guān)鍵詞串列,以得到該電腦可讀取文件中的關(guān)鍵詞。
6.如權(quán)利要求5所述的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng),進(jìn)一步包含一合并串列清空模塊,將該合并串列中的元素全部刪除。
7.如權(quán)利要求5所述的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng),進(jìn)一步包含一取代模塊,將該串列中的元素以該合并串列中的元素取代。
8.如權(quán)利要求5所述的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng),進(jìn)一步包含一候選元素移位模塊,將該串列中,該原本前候選元素的下一元素設(shè)為新的前候選元素,并將原本后候選元素的下一元素設(shè)為新的后候選元素。
9.一種自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng),包含一中央處理單元以及一儲(chǔ)存裝置,其儲(chǔ)存至少一程序碼,使該中央處理單元于讀取該程序碼后,可執(zhí)行以下程序一串列產(chǎn)生程序,計(jì)算一電腦可讀取文件中的所有雙連文的出現(xiàn)次數(shù),并將該等雙連文置于一串列中,以作為該串列的多個(gè)元素;一候選元素選取程序,選取該串列中的第一個(gè)元素為前候選元素,并選取該串列中的第二個(gè)元素為后候選元素;一結(jié)合程序,當(dāng)該前候選元素與該后候選元素的出現(xiàn)次數(shù)均高于一閥值時(shí),將該前候選元素與該后候選元素合并為一合并元素,將該合并元素置于一合并串列中,并將該合并元素的出現(xiàn)次數(shù)加一;以及一關(guān)鍵詞取出程序,當(dāng)該前候選元素的出現(xiàn)次數(shù)高于該閥值,且該前候選元素先前尚未與其它元素結(jié)合過時(shí),將該前候選元素置入關(guān)鍵詞串列,以得到該電腦可讀取文件中的關(guān)鍵詞。
10.如權(quán)利要求9所述的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng),其中該中央處理單元于讀取該程序碼后,進(jìn)一步執(zhí)行一合并串列清空程序,將該合并串列中的元素全部刪除。
11.如權(quán)利要求9所述的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng),其中該中央處理單元于讀取該程序碼后,進(jìn)一步執(zhí)行一取代程序,將該串列中的元素以該合并串列中的元素取代。
12.如權(quán)利要求9所述的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng),其中該中央處理單元于讀取該程序碼后,進(jìn)一步執(zhí)行一候選元素移位程序,將該串列中,該原前候選元素的下一元素設(shè)為新的前候選元素,并將原后候選元素的下一元素設(shè)為新的后候選元素。
全文摘要
一種自動(dòng)搜尋文件中關(guān)鍵詞的方法,包括一串列產(chǎn)生程序、一候選元素選取程序、一結(jié)合程序以及一關(guān)鍵詞取出程序。選取串列中的第一個(gè)元素作為前候選元素,以及第二個(gè)元素作為后候選元素。當(dāng)前候選元素與后候選元素的出現(xiàn)次數(shù)均高于一閥值時(shí),前候選元素與后候選元素合并為一合并元素。當(dāng)候選元素的出現(xiàn)次數(shù)高于該閥值,將候選元素置入關(guān)鍵詞串列,以得到電腦可讀取文件中的關(guān)鍵詞。本發(fā)明還包括一種實(shí)現(xiàn)此方法的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)。
文檔編號(hào)G06F17/30GK1354432SQ0013244
公開日2002年6月19日 申請(qǐng)日期2000年11月17日 優(yōu)先權(quán)日2000年11月17日
發(fā)明者楊立偉 申請(qǐng)人:意藍(lán)科技股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1