自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)的制作方法

文檔序號(hào)：6355415閱讀：449來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)，特別是一種不需經(jīng)過斷詞處理，直接搜尋文件中關(guān)鍵詞的自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)。
隨著科技的發(fā)展，現(xiàn)今的時(shí)代已經(jīng)成為一資訊爆炸的時(shí)代，大量的文件，例如新聞、論文、評(píng)論與專利資料等，均可藉由電腦與網(wǎng)際網(wǎng)絡(luò)快速地流通，因此，文件取得困難的問題已大幅減少，取而代之是文件的搜尋與整理等問題。如果采用傳統(tǒng)圖書館的分類方式，依照領(lǐng)域來對(duì)由電腦與網(wǎng)際網(wǎng)絡(luò)來流通的文件進(jìn)行逐篇分類，則勢必要用人工閱讀的方式將文件一一歸類，如此將需要大量的人力來進(jìn)行文件整理的工作。若單純以編號(hào)的方式來整理，則欲搜尋資料又相當(dāng)不便。因此，許多電腦科學(xué)的研究學(xué)者均開始嘗試用電腦來自動(dòng)找出文件中的關(guān)鍵字，用以搜尋或整理大量的文件。
一般而言，若欲利用電腦來找出一電腦可讀取文件中的關(guān)鍵詞，多半均先對(duì)文件進(jìn)行斷詞處理后，再依斷詞的結(jié)果來找出文件的關(guān)鍵詞。所謂的“斷詞”，是指將由成串字元所組成的文句進(jìn)行分割，使文句被切割成許多有意義的詞匯。例如，若文件中包括了“臺(tái)北市政府”，則先將“臺(tái)北市政府”分割成為”臺(tái)北市”與”政府，再根據(jù)文件中兩者的出現(xiàn)次數(shù)，來決定其是否為文件的關(guān)鍵詞。然而，若欲實(shí)時(shí)處理大量的文件時(shí)，例如對(duì)一文件資料庫中的所有文件依關(guān)鍵詞進(jìn)行自動(dòng)分類，或是在網(wǎng)絡(luò)上欲實(shí)時(shí)地利用關(guān)鍵字來對(duì)數(shù)篇文件進(jìn)行過濾時(shí)，利用斷詞法來找尋文件中的關(guān)鍵字將太過耗時(shí)。此外，若欲對(duì)文件進(jìn)行斷詞處理，則勢必要另外維護(hù)斷詞所需的文法規(guī)則資料庫或字詞資料庫，耗費(fèi)額外的時(shí)間與成本。
所以，如何利用電腦技術(shù)來提供一種簡單且快速的關(guān)鍵詞學(xué)習(xí)方法與系統(tǒng)，以便處理大量的文件，并進(jìn)一步使用于例如文件自動(dòng)摘要、文件自動(dòng)分類或文件自動(dòng)過濾等資料檢索的相關(guān)應(yīng)用上，已成為一亟待解決的重要問題。
針對(duì)上述問題，本發(fā)明的目的為提供一種自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)，其可利用電腦技術(shù)自動(dòng)搜尋電腦可讀取文件中的關(guān)鍵詞，以大幅縮短搜索關(guān)鍵詞所需的時(shí)間。
本發(fā)明的另一目的為提供一種自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)，其不需對(duì)文件進(jìn)行斷詞處理，故處理速度快，且不需維護(hù)復(fù)雜的文法規(guī)則資料庫或字詞資料庫。
本發(fā)明的另一目的為提供一種自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)，其可有效率地處理大量的文件，并可進(jìn)一步使用于例如文件自動(dòng)摘要、文件自動(dòng)分類或文件自動(dòng)過濾等資料檢索的相關(guān)應(yīng)用。
為達(dá)上述目的，依本發(fā)明的自動(dòng)搜尋文件中關(guān)鍵詞的方法包括一串列產(chǎn)生程序、一候選元素選取程序、一結(jié)合程序以及一關(guān)鍵詞取出程序。串列產(chǎn)生程序計(jì)算一電腦可讀取文件中的所有雙連文的出現(xiàn)次數(shù)，并將雙連文置于一串列中，以作為串列的多個(gè)元素。候選元素選取程序選取串列中的第一個(gè)元素作為前候選元素，以及第二個(gè)元素作為后候選元素。結(jié)合程序是當(dāng)前候選元素與后候選元素的出現(xiàn)次數(shù)均高于一閥值時(shí)，將前候選元素與后候選元素合并為一合并元素。將合并元素置于一合并串列中，并將合并元素的出現(xiàn)次數(shù)加一。關(guān)鍵詞取出程序則當(dāng)前候選元素的出現(xiàn)次數(shù)高于該閥值，且前候選元素先前尚未與其它元素結(jié)合過時(shí)。將前候選元素置入關(guān)鍵詞串列，以得到電腦可讀取文件中的關(guān)鍵詞。
本發(fā)明還提供一種自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)，包括一串列產(chǎn)生模塊、一候選元素選取模塊、一結(jié)合模塊以及一關(guān)鍵詞取出模塊。串列產(chǎn)生模塊計(jì)算一電腦可讀取文件中的所有雙連文的出現(xiàn)次數(shù)，并將雙連文置于一串列中，以作為串列的多個(gè)元素。候選元素選取模塊選取串列中的第一個(gè)元素作為前候選元素，以及第二個(gè)元素作為后候選元素。結(jié)合模塊是當(dāng)前候選元素與后候選元素的出現(xiàn)次數(shù)均高于一閥值時(shí)，將前候選元素與后候選元素合并為一合并元素，將合并元素置于一合并串列中，并將合并元素的出現(xiàn)次數(shù)加一。關(guān)鍵詞取出模塊則當(dāng)前候選元素的出現(xiàn)次數(shù)高于該閥值，且前候選元素先前尚未與其它元素結(jié)合過時(shí)，將前候選元素置入關(guān)鍵詞串列，以得到電腦可讀取文件中的關(guān)鍵詞。

圖1為一流程圖，顯示依本發(fā)明較佳實(shí)施例的自動(dòng)搜尋文件中關(guān)鍵詞的方法的流程。
圖2為一示意圖，顯示依本發(fā)明較佳實(shí)施例的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)的組成。
附圖符號(hào)說1自動(dòng)搜尋文件中關(guān)鍵詞的方法102第一判斷程序101串列產(chǎn)生程序 103合并串列清空程序104候選元素選取程序 21串列產(chǎn)生模塊105第二判斷程序 22合并串列清空模塊106結(jié)合程序 23候選元素選取模塊107第三判斷程序 24結(jié)合模塊108關(guān)鍵詞取出程序 25關(guān)鍵詞取出模塊109第四判斷程序 26候選元素移位模塊110候選元素移位程序 27取代模塊111取代程序 51文件2自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng) 52關(guān)鍵詞以下將參照相關(guān)附圖，說明依本發(fā)明較佳實(shí)施例的自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)，其中相同的元件將以相同的參照符號(hào)加以說明。
首先，在本發(fā)明中所謂的“多連文(N-gram)”指文件內(nèi)容中所有可能出現(xiàn)的多字詞。以“中文資訊檢索”短句為例，其所可能產(chǎn)生的“雙連文(Bigram)”有五個(gè)，分別為
中文、文資、資訊、訊檢、檢索其所可能產(chǎn)生的“三連文(Trigram)”則有四個(gè)，分別為中文資`文資訊、資訊檢、訊檢索依此類推，對(duì)于一文件的內(nèi)容，可一直取到N連文為止。一般，可將N設(shè)為文件中所可能出現(xiàn)詞的最大長度，例如，對(duì)于“中文資訊檢索”而言，其最長可以取到六連文，即“中文資訊檢索”本身。
由于具有完整意義的詞，如上述的“中文”、“資訊”等，必定會(huì)在文件中完整出現(xiàn)，而不會(huì)只出現(xiàn)其中一部份。而另一方面，可單獨(dú)出現(xiàn)的詞也多半為具有完整意義的詞，例如“資訊檢索”具有完整意義，但“資訊”亦有完整意義，故亦可單獨(dú)在文件中的其它地方出現(xiàn)。所以，本發(fā)明采用上述的原理作為基本假設(shè)，即”關(guān)鍵詞將于文件中重覆出現(xiàn)”，以及”具有完整意義的詞不會(huì)只部份出現(xiàn)于文件中”來對(duì)文件進(jìn)行關(guān)鍵字的搜尋。
請(qǐng)參照?qǐng)D1，依本發(fā)明較佳實(shí)施例的自動(dòng)搜尋文件中關(guān)鍵詞的方法1是先進(jìn)行一串列產(chǎn)生程序101，以計(jì)算一電腦可讀取文件中的所有雙連文的出現(xiàn)次數(shù)，并將雙連文置于一串列中，以作為串列的多個(gè)元素。以“資訊系資訊檢索系統(tǒng)”為例，其可能產(chǎn)生的雙連文為“資訊”、“訊系”、“系資”、“資訊”與“訊檢”、“檢索”、“索系”與“系統(tǒng)”，且除了“資訊”的出現(xiàn)次數(shù)為兩次之外，各雙連文的出現(xiàn)次數(shù)皆為一次，故于串列產(chǎn)生程序101中，即將各雙連文加入串列中以作為元素，并記錄各該雙連文的出現(xiàn)次數(shù)。
接著，在第一判斷程序102中，判斷串列是否為空串列。此時(shí)，由于串列中尚有元素，故接著進(jìn)行合并串列清空程序103，以刪除合并串列中所有的元素。事實(shí)上，此時(shí)在合并串列中并無任何元素存在，故此時(shí)合并串列清空程序103不需進(jìn)行任何刪除的動(dòng)作。
接著，在候選元素選取程序104中，選取串列中的第一個(gè)元素以作為前候選元素，并選取串列中的第二個(gè)元素以作為后候選元素。在本實(shí)施例中，由于串列的第一個(gè)元素為“資訊”，第二個(gè)元素為“訊系”，故此時(shí)前候選元素即為“資訊”，而后候選元素則為“訊系”。
然后，第二判斷程序105判別前候選元素與后候選元素的出現(xiàn)次數(shù)是否均高于閥值，若是則進(jìn)行結(jié)合程序106，以將前候選元素與后候選元素合并為一合并元素。閥值的大小可依實(shí)際需要加以設(shè)定，例如依照文件的長度加以調(diào)整，長度越長的文件則閥值越大，長度越短的文件則閥值越小。在本實(shí)施例中由于“資訊系資訊檢索系統(tǒng)”的長度較短，故將閥值設(shè)定為1，意謂只要出現(xiàn)兩次以上的多連文即可成為關(guān)鍵詞。
此時(shí)，前候選元素“資訊”的出現(xiàn)次數(shù)為2，其大于閥值，而后候選元素“訊系”出現(xiàn)次數(shù)為1，其等于閥值，并未大于閥值，故其并不會(huì)進(jìn)入結(jié)合程序106，而是進(jìn)入第三判斷程序107。
在第三判斷程序107中，若前候選元素的出現(xiàn)次數(shù)高于閥值，且前候選元素先前尚未與其它元素結(jié)合過時(shí)，即將前候選元素置入關(guān)鍵詞串列。此時(shí)，由于前候選元素“資訊”的出現(xiàn)次數(shù)大于閥值。且其先前并未與任何其它元素合并過，故進(jìn)入關(guān)鍵詞取出程序108，將前候選元素“資訊”置入關(guān)鍵詞串列中。注意，此處所提及的先前并未與任何其它元素合并過”的意義，是指若該單元先前已被合并過，則其會(huì)出現(xiàn)于較長的詞中，成為該較長的詞的一部份，故已合并過的元素即使再次成為前候選元素，也不會(huì)被放入關(guān)鍵字串列中。否則，如果可合并元素一方面可于合并后被置入合并串列，另一方面又會(huì)被置入關(guān)鍵字串列話。將造成關(guān)鍵字串列中元素為非完整詞匯的機(jī)率增大。
然后，進(jìn)行第四判斷程序109，以判斷串列是否結(jié)束。由于此時(shí)串列尚未結(jié)束，故進(jìn)入候選元素移位程序110，以將串列中前候選元素的下一元素設(shè)為前候選元素，并將后候選元素的下一元素設(shè)為后候選元素。即，將原前候選元素“資訊”的下一個(gè)元素“訊系”設(shè)為新的前候選元素，而將原后候選元素“訊系”的下一個(gè)元素“系資”設(shè)為新的后候選元素。換而言之，在候選元素移位程序110中，將前候選元素與后候選元素在串列中向后移位一個(gè)元素。
在候選元素移位程序110的后，即回到第二判斷程序105，以對(duì)新設(shè)定的前候選元素與后候選元素進(jìn)行第二判斷程序105或第三判斷程序107的判定。
若在第四判斷程序109中判定串列已經(jīng)結(jié)束，即，前候選元素已經(jīng)是串列中的最后一個(gè)元素“系統(tǒng)”，則進(jìn)入取代程序111，將串列中的元素以合并串列中的元素取代。由于在原本的串列中，除了“資訊”此一元素的出現(xiàn)次數(shù)大于閥值之外，其它元素的出現(xiàn)次數(shù)均未大于閥值，故并不會(huì)有任何的元素合并情況產(chǎn)生。因此，合并串列中并不會(huì)有任何元素，導(dǎo)致串列中的元素均將被刪除。接著，在第一判斷程序102中，由于串列為空，故結(jié)束整個(gè)自動(dòng)搜尋文件中關(guān)鍵詞的方法1的流程。
在上述的流程中，最后在關(guān)鍵詞串列中會(huì)留下“資訊”此一元素，且其出現(xiàn)次數(shù)為兩次。此一元素即可視為“資訊是資訊檢索系統(tǒng)”的關(guān)鍵詞。當(dāng)然，在流程結(jié)束的后，尚可對(duì)關(guān)鍵詞串列中的各元素進(jìn)行進(jìn)一步整理，如使用常用詞典作簡單的過濾等，以篩選出更適當(dāng)?shù)年P(guān)鍵字。
經(jīng)由上述流程可以得知，從將文件分解為雙連文開始，經(jīng)由反覆進(jìn)行元素合并以及將低于閥值的元素刪除的動(dòng)作，串列中的元素將會(huì)越來越少，最后在關(guān)鍵字串列中所記錄的，即為出現(xiàn)次數(shù)超過閥值，且合并過后的多連文。不完整的詞(如“訊系”、“系資”等)都會(huì)被刪除。如此，將可找到文件中出現(xiàn)了一定以上次數(shù)，且為完整詞匯的關(guān)鍵詞。
請(qǐng)參照?qǐng)D2，依本發(fā)明較佳實(shí)施例的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)2包括一串列產(chǎn)生模塊2、一合并串列清空模塊22、一候選元素選取模塊23、一結(jié)合模塊24、一關(guān)鍵詞取出模塊25、一候選元素移位模塊26以及一取代模塊27。在本實(shí)施例中，各模塊均為儲(chǔ)存于一電腦裝置中的程序模塊，其記錄于一儲(chǔ)存裝置，如記憶體、硬盤機(jī)或光盤機(jī)等中，使一中央處理單元讀取各模塊之后，即進(jìn)行如前所述的自動(dòng)搜尋文件中關(guān)鍵詞的方法1的流程，以找出文件51中的關(guān)鍵詞。然而，熟悉該項(xiàng)技術(shù)者亦可對(duì)其進(jìn)行等效的修改與應(yīng)用，例如將各模塊制作成為實(shí)體電路，以將其內(nèi)置于如電子字典或個(gè)人數(shù)位助理等電子裝置中，以對(duì)文件51進(jìn)行如前所述自動(dòng)搜尋文件中關(guān)鍵詞的方法1的工作，而不超出本發(fā)明的精神與范圍。
自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)2可自一記憶裝置(如記憶體)或記錄媒體(如磁盤或光盤)中讀取文件51，或經(jīng)由網(wǎng)際網(wǎng)絡(luò)自另一網(wǎng)絡(luò)伺服器讀取文件51。在讀取文件51后，各模塊即依前述的自動(dòng)搜尋文件中關(guān)鍵詞的方法1的流程，搜尋文件51的關(guān)鍵詞52。當(dāng)找出文件51中的關(guān)鍵詞52后，即可依關(guān)鍵詞52對(duì)文件51進(jìn)行各種處理，如文件自動(dòng)摘要，文件自動(dòng)分類或文件自動(dòng)過濾等。需注意，在上述的實(shí)施例中，雖均以中文作為例子，然而依本發(fā)明的自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)并不僅限于處理中文，而可應(yīng)用于日文，韓文等多種文字。
依本發(fā)明的自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)利用電腦技術(shù)自動(dòng)搜尋電腦可讀取文件中的關(guān)鍵詞，故可大幅縮短搜索關(guān)鍵詞所需的時(shí)間。
依本發(fā)明的自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)并不需對(duì)文件進(jìn)行斷詞處理，故其處理速度快，且不需維護(hù)復(fù)雜的文法規(guī)則資料庫或字詞資料庫。
依本發(fā)明的自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)的處理速度快，故當(dāng)使用于例如文件自動(dòng)摘要，文件自動(dòng)分類或文件自動(dòng)過濾等資料檢索的相關(guān)應(yīng)用上時(shí)，可更有效率地處理大量的文件。
以上所述僅為舉例，而非為限制。任何未脫離本發(fā)明的精神與范圍，而對(duì)其進(jìn)行的等效修改或變更，均應(yīng)包含于本專利的權(quán)利要求范圍中。
權(quán)利要求
1.一種自動(dòng)搜尋文件中關(guān)鍵詞的方法，包含一串列產(chǎn)生程序，計(jì)算一電腦可讀取文件中的所有雙連文的出現(xiàn)次數(shù)，并將此類雙連文置于一串列中，以作為該串列的多個(gè)元素；一候選元素選取程序，選取該串列中的第一個(gè)元素為前候選元素，并選取該串列中的第二個(gè)元素為后候選元素；一結(jié)合程序，當(dāng)該前候選元素與該后候選元素的出現(xiàn)次數(shù)均高于一閥值時(shí)，將該前候選元素與該后候選元素合并為一合并元素，將該合并元素置于一合并串列中，并將該合并元素的出現(xiàn)次數(shù)加一；以及一關(guān)鍵詞取出程序，當(dāng)該前候選元素的出現(xiàn)次數(shù)高于該閥值，且該前候選元素先前尚未與其它元素結(jié)合過時(shí)，將該前候選元素置入關(guān)鍵詞串列，以得到該電腦可讀取文件中的關(guān)鍵詞。
2.如權(quán)利要求1所述的自動(dòng)搜尋文件中關(guān)鍵詞的方法，進(jìn)一步包含一合并串列清空程序，系將該合并串列中的元素全部刪除。
3.如權(quán)利要求1所述的自動(dòng)搜尋文件中關(guān)鍵詞的方法，進(jìn)一步包含一取代程序，將該串列中的元素以該合并串列中的元素取代。
4.如權(quán)利要求1所述的自動(dòng)搜尋文件中關(guān)鍵詞的方法，進(jìn)一步包含一候選元素移位程序，將該串列中，該原前候選元素的下一元素設(shè)為新的前候選元素，并將原后候選元素的下一元素設(shè)為新的后候選元素。
5.一種自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)，包含一串列產(chǎn)生模塊，計(jì)算一電腦可讀取文件中的所有雙連文的出現(xiàn)次數(shù)，并將該等雙連文置于一串列中，以作為該串列的多個(gè)元素；一候選元素選取模塊，選取該串列中的第一個(gè)元素為前候選元素，并選取該串列中的第二個(gè)元素為后候選元素一結(jié)合模塊，當(dāng)該前候選元素與該后候選元素的出現(xiàn)次數(shù)均高于一閥值時(shí)，將該前候選元素與該后候選元素合并為一合并元素，將該合并元素置于一合并串列中，并將該合并元素的出現(xiàn)次數(shù)加一；以及一關(guān)鍵詞取出模塊，當(dāng)該前候選元素的出現(xiàn)次數(shù)高于該閥值，且該前候選元素先前尚未與其它元素結(jié)合過時(shí)，將該前候選元素置入關(guān)鍵詞串列，以得到該電腦可讀取文件中的關(guān)鍵詞。
6.如權(quán)利要求5所述的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)，進(jìn)一步包含一合并串列清空模塊，將該合并串列中的元素全部刪除。
7.如權(quán)利要求5所述的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)，進(jìn)一步包含一取代模塊，將該串列中的元素以該合并串列中的元素取代。
8.如權(quán)利要求5所述的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)，進(jìn)一步包含一候選元素移位模塊，將該串列中，該原本前候選元素的下一元素設(shè)為新的前候選元素，并將原本后候選元素的下一元素設(shè)為新的后候選元素。
9.一種自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)，包含一中央處理單元以及一儲(chǔ)存裝置，其儲(chǔ)存至少一程序碼，使該中央處理單元于讀取該程序碼后，可執(zhí)行以下程序一串列產(chǎn)生程序，計(jì)算一電腦可讀取文件中的所有雙連文的出現(xiàn)次數(shù)，并將該等雙連文置于一串列中，以作為該串列的多個(gè)元素；一候選元素選取程序，選取該串列中的第一個(gè)元素為前候選元素，并選取該串列中的第二個(gè)元素為后候選元素；一結(jié)合程序，當(dāng)該前候選元素與該后候選元素的出現(xiàn)次數(shù)均高于一閥值時(shí)，將該前候選元素與該后候選元素合并為一合并元素，將該合并元素置于一合并串列中，并將該合并元素的出現(xiàn)次數(shù)加一；以及一關(guān)鍵詞取出程序，當(dāng)該前候選元素的出現(xiàn)次數(shù)高于該閥值，且該前候選元素先前尚未與其它元素結(jié)合過時(shí)，將該前候選元素置入關(guān)鍵詞串列，以得到該電腦可讀取文件中的關(guān)鍵詞。
10.如權(quán)利要求9所述的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)，其中該中央處理單元于讀取該程序碼后，進(jìn)一步執(zhí)行一合并串列清空程序，將該合并串列中的元素全部刪除。
11.如權(quán)利要求9所述的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)，其中該中央處理單元于讀取該程序碼后，進(jìn)一步執(zhí)行一取代程序，將該串列中的元素以該合并串列中的元素取代。
12.如權(quán)利要求9所述的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)，其中該中央處理單元于讀取該程序碼后，進(jìn)一步執(zhí)行一候選元素移位程序，將該串列中，該原前候選元素的下一元素設(shè)為新的前候選元素，并將原后候選元素的下一元素設(shè)為新的后候選元素。
全文摘要
一種自動(dòng)搜尋文件中關(guān)鍵詞的方法,包括一串列產(chǎn)生程序、一候選元素選取程序、一結(jié)合程序以及一關(guān)鍵詞取出程序。選取串列中的第一個(gè)元素作為前候選元素,以及第二個(gè)元素作為后候選元素。當(dāng)前候選元素與后候選元素的出現(xiàn)次數(shù)均高于一閥值時(shí),前候選元素與后候選元素合并為一合并元素。當(dāng)候選元素的出現(xiàn)次數(shù)高于該閥值,將候選元素置入關(guān)鍵詞串列,以得到電腦可讀取文件中的關(guān)鍵詞。本發(fā)明還包括一種實(shí)現(xiàn)此方法的自動(dòng)搜尋文件中關(guān)鍵詞的系統(tǒng)。
文檔編號(hào)G06F17/30GK1354432SQ0013244
公開日2002年6月19日申請(qǐng)日期2000年11月17日優(yōu)先權(quán)日2000年11月17日
發(fā)明者楊立偉申請(qǐng)人:意藍(lán)科技股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊立偉
技術(shù)所有人：意藍(lán)科技股份有限公司
我是此專利的發(fā)明人

上一篇：處理內(nèi)容數(shù)據(jù)的方法
上一篇：一種高分辨率資料文檔快速數(shù)字化裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

關(guān)鍵詞快速排名系統(tǒng)相關(guān)技術(shù)

天津關(guān)鍵詞排名系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

自動(dòng)搜尋文件中關(guān)鍵詞的方法與系統(tǒng)的制作方法