專利名稱:具有辨識分類搜尋儲存功能的文件控管系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明是關(guān)于一種文件儲存系統(tǒng)及遠程文件控管方法,尤指一種具有辨 識分類搜尋儲存功能的文件控管系統(tǒng)及遠程文件控管方法。
背景技術(shù):
傳統(tǒng)的文件控管系統(tǒng),例如TW-200500899 (相當(dāng)于US-20040267557, CN1567326),雖然可以將用戶上傳的電子文件,放置于與此電子文件所指定 的地址相對應(yīng)的資料夾中,但因依方法儲存的電子文件,日后要搜尋該檔案 時,只有靠記憶找到該資料夾,再從該資料夾的大量檔案中,逐筆搜尋出所 需要的電子文件,這對用戶造成很大的困擾。本發(fā)明利用光學(xué)識別器、特征 標(biāo)記識別器等技術(shù),在存盤的同時,自動建立特征標(biāo)記索引,讓日后用戶只 要隨便鍵入該電子文件的任一或多個特征標(biāo)記,就能馬上找到該電子文件。
發(fā)明內(nèi)容
本發(fā)明的一目的在于提供一種文件控管系統(tǒng)。
本發(fā)明的另一目的在于提供一種具有辨識、分類、搜尋、儲存功能的文 件控管系統(tǒng)。
本發(fā)明的又一目的在于提供一種由光學(xué)字符識別器辨讀特征標(biāo)記的文件 控管系統(tǒng)。
本發(fā)明的再一 目的在于提供一種以特征標(biāo)記做為文件索引的文件控管系統(tǒng)。
本發(fā)明的另 一 目的在于提供一種由光學(xué)字符識別器辨讀特征標(biāo)記,并以 該特征標(biāo)記做為文件索引的文件控管系統(tǒng)。
本發(fā)明的又一目的在于提供一種由特征標(biāo)記搜尋文件再經(jīng)由網(wǎng)頁服務(wù)器 輸出的文件控管系統(tǒng)。
本發(fā)明的再一目的在于提供一種包含網(wǎng)頁服務(wù)器、檔案接收服務(wù)器、光 學(xué)字符識別器和數(shù)據(jù)庫的文件控管系統(tǒng)。
本發(fā)明的另一目的在于提供一種具有辨識、分類、搜尋、儲存功能的遠程文件控管方法。
本發(fā)明的又一目的在于提供一種由光學(xué)字符識別器辨讀特征標(biāo)記的遠程 文件控管方法。
本發(fā)明的再一目的在于提供一種以特征標(biāo)記做為文件索引的遠程文件控 管方法。
本發(fā)明的另一 目的在于提供一種由光學(xué)字符識別器辨讀特征標(biāo)記,并以 該特征標(biāo)記做為文件索引的遠程文件控管方法。
本發(fā)明的又一目的在于提供一種由特征標(biāo)記搜尋文件再經(jīng)由網(wǎng)頁服務(wù)器 輸出的遠程文件控管方法。
本發(fā)明的再一目的在于提供一種包含網(wǎng)頁服務(wù)器、檔案接收服務(wù)器、光 學(xué)字符識別器和數(shù)據(jù)庫的遠程文件控管方法。
本發(fā)明的一種具有辨識分類搜尋儲存功能的文件控管系統(tǒng),其包含 一網(wǎng)頁服務(wù)器;
—檔案接收服務(wù)器,用以由該網(wǎng)頁服務(wù)器讀取文件; 一光學(xué)識別器,用以對該檔案接收服務(wù)器讀取的文件中的非文字內(nèi)容進 行光學(xué)識別;
一特征標(biāo)記識別器,用以建立該輸入文件的特征標(biāo)記;及 一數(shù)據(jù)庫,用以儲存該讀入文件,及/或依需要將數(shù)據(jù)庫的文件經(jīng)由該網(wǎng) 頁服務(wù)器輸出;
其特征在于 '
該光學(xué)識別器可自動對該輸入文件的非文字部分進行光學(xué)辨識,得到光 學(xué)辨識結(jié)果;
該特征標(biāo)記識別器,用以依該文件的特征內(nèi)容,建立該文件的特征標(biāo)記, 其中該文件的特征內(nèi)容包含該文件的文字內(nèi)容及/或該光學(xué)辨識的結(jié)果;
其儲存文件時,是依該檔案接收服務(wù)器讀入的來源辨識信息及/或該文件 的特征標(biāo)記進行分類,做為儲存該輸入數(shù)據(jù)的依據(jù);及
其于儲存該文件時,依該特征標(biāo)記建立索引,用以做為系統(tǒng)欲輸出文件 時,搜尋該筆文件的依據(jù)。
上述所謂文件,是泛指電子文件(例如電子郵件的本文及/或附件、傳真 機傳送的電子文件、掃瞄裝置讀入的電子文件、計算機所產(chǎn)生的各式電子檔 案);或經(jīng)由轉(zhuǎn)換技術(shù)所得到的電子信息,例如紙本文件(文字資料、圖式、 窗體等)、照片等可透過掃瞄裝置轉(zhuǎn)成電子文件;實物、樣品等可透過數(shù)字照 相轉(zhuǎn)成電子文件;或任意可轉(zhuǎn)換成電子文件的信息所轉(zhuǎn)成的電子信息。文件格式并無一定限制,例如TXT、 MS-0ffice、 PDF、 JPG、 GIF、 TIFF、 HTML等。 上述網(wǎng)頁服務(wù)器,可采用任意已知的網(wǎng)頁服務(wù)器,例如IIS、 Apache、 TOMCAT、 ColdFusion、 Websphere、 Jrun、 Abyss、 RaidenHTTPD或WebObjects
等;當(dāng)然也可以是自己完成、委外完成或合作完成的類似網(wǎng)頁服務(wù)器;以采 用IIS、 Apache、 iomcat、 Coldfusion或Webshphere為較佳;以采用IIS、 Apache或Tomcat為更佳。
上述檔案接收服務(wù)器,可采用任意已知的檔案接收服務(wù)器,用以負責(zé)接 收透過網(wǎng)絡(luò)協(xié)議、服務(wù)傳送至系統(tǒng)的附加信息及實體檔案,例如HTTP、HTTPS、 WebDAV、 SMTP、 IMAP、 FTP、 SFTP、 TFTP、 RSYNC、 Bittorrent、 CVS及/或SVN 等;當(dāng)然也可以是自己完成、委外完成或合作完成的類似檔案接收服務(wù)器; 以采用Http、 FTP、 IMAP、及/或SMTP為較佳;以采用FTP、 IMAP、及/或SMTP
為更佳。
上述光學(xué)識別器,可為任意已知的光學(xué)識別器,諸如光學(xué)字符識別器(例 如ABBYY公司的FINE READER)、條形碼識別器(例如一般的一維條形碼識別器、 二維條形碼識別器)等;當(dāng)然也可以是自己完成、委外完成或合作完成的類似 光學(xué)識別器。若該光學(xué)識別器為條形碼識別器,則客戶必須使用條形碼,造 成客戶的困擾,因此, 一般而言以使用光學(xué)字符識別器為較佳。
若該讀入文件只含文字內(nèi)容時,則該文字內(nèi)容即為該文件的特征內(nèi)容。 若該讀入文件不含文字內(nèi)容時,則該光學(xué)識別器的辨識結(jié)果即為該文件 的特征內(nèi)容。
若該讀入文件同時含文字內(nèi)容和非文字內(nèi)容時,其可以為單純光學(xué)識別 器的辨識結(jié)果、或單純文字內(nèi)容、或文字內(nèi)容加辨識結(jié)果做為該文件的特征 內(nèi)容。 一般而言,當(dāng)光學(xué)識別器為光學(xué)字符識別器時,通常以文字內(nèi)容加辨 識結(jié)果做為該文件的特征內(nèi)容;當(dāng)光學(xué)識別器為條形碼識別器時,通常以辨 識結(jié)果做為該文件的特征內(nèi)容。
上述特征標(biāo)記識別器,可采用任意已知的特征標(biāo)記識別器,例如意藍公 司的龍巻風(fēng)搜尋引擎;當(dāng)然也可以是自己完成、委外完成或合作完成的類似 特征標(biāo)記識別器。
上述的特征標(biāo)記識別器,其對該文件的特征內(nèi)容,進行諸如斷詞斷句、 關(guān)鍵詞擷取及/或文件內(nèi)涵分析,以建立該文件的特征標(biāo)記。 一般而言,該特 征標(biāo)記識別器除上述功能外,以進一步具有新詞學(xué)習(xí)、用字、用語、詞性或 意境分析等功能為較佳。
在特殊狀況下,例如經(jīng)特征標(biāo)記識別器辨識后,不含特征標(biāo)記時,必 要時,系統(tǒng)可要求使用者提示特征標(biāo)記,或自動對該特征標(biāo)記加注諸如"其它類別"做為特征標(biāo)記。此外,該特殊狀況,必要時,可列入諸如新詞學(xué)習(xí)、
意境分析的統(tǒng)計或分析,或資料勘探(data mining)等后續(xù)程序。
上述該來源辨識信息,其可為任意可辨識文件來源的信息,諸如文件頭 信息,例如傳送者、傳送者帳號、主旨、傳送來源(主機名稱、MAC地址、網(wǎng) 絡(luò)地址/IP Address)、文件名稱、傳送日期、檔案格式、檔案內(nèi)容摘要等。
上述數(shù)據(jù)庫于儲存文件時,可依該檔案接收服務(wù)器讀入的來源辨識信息 (例如文件頭)進行分類,儲存該輸入資料,例如分類方式(資料夾)為
<A001公司> (客戶1)
〈A002公司〉(客戶2)
〈A0O3公司〉(客戶3)
〈A004公司〉(客戶4)
其中A001公司、A002公司、A003公司、A004公司等,可以是各該公司 的公司名稱、公司代號、公司網(wǎng)域名稱、公司電話號碼等,及/或其組合。
上述數(shù)據(jù)庫于儲存文件時,也可依該檔案接收服務(wù)器讀入的來源辨識信 息(例如文件頭)進行分類及進一步分類,以儲存該該輸入資料,例如分類方 式(資料夾)為
〈A001公司〉(客戶1) 〈B1-00D 〈Bl-002〉 〈Bl"003〉
〈A002公司〉(客戶2) <B2~001> <B2"002> <B2"003〉
〈A003公司〉(客戶3)
〈A004公司〉(客戶4)
其中A001公司、A002公司、A003公司、A004公司等,可以是各該公司 的公司名稱、公司代號、公司網(wǎng)域名稱、公司電話號碼等,及/或其組合。 Bl"OOl、 Bl-002、 B1-003等分別為A001公司的部門名稱或部門代號、使用者名稱(文件頭信息為電子郵件地址時)、或該公司自訂的分類方式;B2"001、 B2-002、 B2-003等分別為A002公司的部門名稱或部門代號、使用者名稱(文 件頭信息為電子郵件地址時)、或該公司自訂的分類方式;因此該分類方式可 以多于兩層的分類。
必要時,上述分類亦可納入上述特征內(nèi)容或特征標(biāo)記,做為分類的依據(jù) 之一,但以不納入所述信息做為分類的依據(jù)為較佳。
上述數(shù)據(jù)庫于儲存文件時,可依該檔案接收服務(wù)器讀入的來源辨識信息 (例如文件頭)、特征內(nèi)容、特征標(biāo)記、儲存日期時間、及/或流水號等,做為 儲存檔案時的檔名,例如A001公司的檔案儲存為 <A001公司> (客戶1)
BX001-al說明.doc (檔名1) BX002-al規(guī)范.xls (檔名2) BX003-a2內(nèi)容.doc (檔名3) BX004-a3介紹.pdf (檔名4)
其中BX001、 BX002、 BX003、 BX004為流水號,"al說明.doc"、 "al規(guī) 范.xls"、 "a2內(nèi)容.doc"、 "a3介紹.pdf"的主文件名是系統(tǒng)根據(jù)部份特征內(nèi) 容自動訂定的,而擴展名是依據(jù)各該檔案格式自動訂定的。
若各客戶的主檔名都含流水號,則各分類(含細分類)內(nèi)的檔案都不會重 復(fù)。但檔名不含流水號時,在特殊狀況下,新文件自動產(chǎn)生的檔名,可能和 相同分類(含細分類)內(nèi)的既存文件的檔名相同,此時,系統(tǒng)可要求使用者提 示新的檔名,或自動對該特征標(biāo)記加注諸如日期(及/或時間)等辨識碼。特殊 狀態(tài)下,諸如檔名不具特異性,例如主文件名為空符號或數(shù)據(jù)庫禁制符號時, 此時,系統(tǒng)可要求使用者提示新的檔名,或自動對該特征標(biāo)記加注諸如日期 (及/或時間)等辨識碼。
上述特征標(biāo)記,其可為一個或復(fù)數(shù)個特征用字及/或特征用語的集合。當(dāng) 建立索引時,以各單一特征用字或特征用語分別建立該文件的索引為主,但 亦可進一步建立以復(fù)數(shù)個特征用字及/或特征用語的文件索引,但一般在檢索 時采用"and"功能取代后者。例如檔案l經(jīng)光學(xué)識別器辨識后,得到的特征 內(nèi)容為"…XX1…XX2…XX3XX4…",經(jīng)特征識別器辨識后,得到的特征用語
為XXI、 XX2、 XX3、 XX4、 XX3XX4......等,其中特征用語XX3XX4為特征用語
XX3和特征用語XX4的復(fù)合特征用語,且系統(tǒng)自動設(shè)定文件名為"YYY"";而 檔案2經(jīng)光學(xué)識別器辨識后,得到的特征內(nèi)容為:"…XX1…XX3…XX4…XX5…", 經(jīng)特征識別器辨識后,得到的特征用語為XXI、 XX3、 XX4、 XX5……等,且系統(tǒng)自動設(shè)定文件名為"ZZZ"";則系統(tǒng)將自動產(chǎn)生特征用語索引如下
XXI......YYY
XXI......ZZZ
XX2......YYY
XX3......YYY
XX3......ZZZ
XX3XX4......YYY
XX4......YYY
XX5......ZZZ
當(dāng)客戶想瀏覽或輸出其所儲存的文件時,可憑客戶名稱(或代號、網(wǎng)域名 稱、電話號碼等),配合密碼(例如文字密碼、條形碼、指紋、虹膜等),檢索 待瀏覽或輸出的文件,檢索方式含任意已知的檢索方式,例如全文檢索、關(guān) 鍵詞(特征用語、特征用詞)檢索、分類檢索、日期及/或時間檢索,或日期區(qū) 間等檢索。以特征用語檢索為例,例如上述案例中
日后該用戶想要檢索含XX1的檔案,可找到檔案YYY和檔案ZZZ(當(dāng)然可 能還有其它也含XXI的檔案);
曰后該用戶想要檢索含XX2的檔案,可找到檔案YYY,但無法找到檔案
ZZZ;
日后該用戶想要檢索同時含XX3和XX4的檔案,即可找到檔案YYY和檔 案ZZZ;
日后該用戶想要檢索含XX3XX4的檔案,只能找到檔案YYY,無法找到檔 案ZZZ。
本發(fā)明的遠程文件控管方法,其包括 一文件接收步驟,用以接收上傳的電子文件; 一文件分解步驟,用以分解該電子文件的來源辨識信息; 一分類步驟,用以依該來源辨識信息進行分類;及 一檔案儲存步驟,用以依該分類儲存該電子文件; 其特征在于其進一步包括
一特征標(biāo)記辨識步驟,用以該電子文件的內(nèi)容辨識特征標(biāo)記;及 一索引建立歩驟,用以依該特征標(biāo)記建立索引,作為系統(tǒng)欲輸出該電子
文件時,搜尋該筆該電子文件的依據(jù)。
上述所謂電子文件、來源辨識信息、分類方式、檔案儲存方式、特征標(biāo)
記辨識方式、建立索引方式、輸出電子文件方式,都類如前述。本發(fā)明方法
的實際處理程序則如下述較佳具體例或?qū)嵤├觥?00810211235.X 依特征標(biāo)記進行細部分類,則該分類步驟和特征標(biāo)記辨識步驟的關(guān)系,可以是依來源辨識信息進行粗分類,而后等進行特征標(biāo)記辨識步驟后,再依特征標(biāo)記進行細部分類;也可以是先執(zhí)行特征標(biāo)記辨識步驟,再執(zhí)行分類步驟(含粗分類和細部分類)。
上述方法中,若分類是單純依來源辨識信息進行分類,不再依特征標(biāo)記進行細部分類,則該分類步驟和特征標(biāo)記辨識步驟的關(guān)系,可以是先執(zhí)行'分類步驟,再執(zhí)行特征標(biāo)記辨識步驟,這種情況下,特征標(biāo)記辨識步驟和檔案儲存步驟其先后順序也可以對調(diào),甚至是實質(zhì)上同步進行或交互進行;也可以是先執(zhí)行特征標(biāo)記辨識步驟,再執(zhí)行分類步驟;當(dāng)然兩者實質(zhì)上同步進行或交互進行也可以。
圖la為本發(fā)明會員接收傳真時的上傳/存檔機制示意圖。圖lb為本發(fā)明會員掃瞄并上傳資料的存檔機制示意圖。圖lc為本發(fā)明會員單純上傳資料的存檔機制示意圖。圖2為本發(fā)明會員檢索檔案和文件控管系統(tǒng)下傳檔案的機制示意圖。圖3為本發(fā)明會員和文件控管系統(tǒng)的結(jié)構(gòu)方塊圖。圖4為本發(fā)明文件控管系統(tǒng)執(zhí)行儲存任務(wù)的一較佳執(zhí)行流程示意圖。圖5為本發(fā)明文件控管系統(tǒng)執(zhí)行儲存任務(wù)的另一較佳執(zhí)行流程示意圖。圖6為本發(fā)明文件控管系統(tǒng)執(zhí)行儲存任務(wù)的另一較佳執(zhí)行流程示意圖。圖7為本發(fā)明文件控管系統(tǒng)中580(進行細部分類)步驟的一較佳執(zhí)行流程示意圖。
圖8為本發(fā)明文件控管系統(tǒng)中580(進行細部分類)步驟的另一較佳執(zhí)行流程示意圖。
圖9為本發(fā)明文件控管系統(tǒng)執(zhí)行檢索任務(wù)的一較佳執(zhí)行流程示意圖。圖10為本發(fā)明文件控管方法的一較佳具體例的流程示意圖。附圖標(biāo)記
100.文件控管系統(tǒng) 110.網(wǎng)頁服務(wù)器 120.檔案接收服務(wù)器
130.光學(xué)字符識別器(OCR) 140.數(shù)據(jù)庫
150.特征標(biāo)記識別器 180.接收上傳文件 190.存檔任務(wù)192.接收上傳資訊194.執(zhí)行檢索任務(wù) 196.執(zhí)行下傳檔案200.會員的多功能事務(wù)機 205.計算機(電腦)
210.傳真機制 220.掃描機制 230.打印機制240.復(fù)印機制280.接收文件(掃描文件)290.上傳文件292.上傳特征用語296.接收下傳檔案
300,傳真發(fā)送單位310.傳真文件
510.接收電子文件520.分解電子文件
530.依檔頭粗分類540.光學(xué)字符辨識542.判斷含非文字內(nèi)容
550.建立特征內(nèi)容560.辨識特征標(biāo)記570.建立索引
580.進行細部分類581.判斷有關(guān)鍵詞否582.依關(guān)鍵詞分類
583.判斷手動分類否584.依輸入值分類585.無細部分類
586.完成(細部)分類590.依分類存檔
610.接收檢索信息620.執(zhí)行檢索任務(wù)
630.判定有檔案否640.下傳檔案信息650.下傳檢索結(jié)果
具體實施例方式
為進一步說明本發(fā)明,茲以較佳具體例配合圖式說明于后
圖la中,外部傳真發(fā)送單位300發(fā)送傳真文件310給系統(tǒng)會員時,會員的多功能事務(wù)機200(以下簡稱MFP),于接收到的傳真文件而獲得接收文件280時,即透過網(wǎng)絡(luò)上傳該上傳文件290至文件控管系統(tǒng)100;當(dāng)文件控管系統(tǒng)接收上傳文件180,立即執(zhí)行存檔任務(wù)190。
圖lb中,當(dāng)會員欲儲存既有資料時,利用MFP的掃描功能掃描該文件,獲得掃描文件280,并透過網(wǎng)絡(luò)上傳該掃描文件,執(zhí)行上傳文件290至文件控管系統(tǒng)100;當(dāng)文件控管系統(tǒng)接收上傳文件180,立B纟執(zhí)行存檔任務(wù)190。
圖lc中,當(dāng)會員欲儲存既有電子文件時,直接透過網(wǎng)絡(luò)上傳該上傳文件290至文件控管系統(tǒng)100;當(dāng)文件控管系統(tǒng)接收上傳文件180,立即執(zhí)行存檔任務(wù)190。
圖2中,當(dāng)會員欲檢索既有電子文件時,直接以計算機205透過網(wǎng)絡(luò),執(zhí)行上傳特征用語292上傳該文件的一或多個特征用語至文件控管系統(tǒng)100;當(dāng)文件控管系統(tǒng)執(zhí)行接收上傳資訊192接收到該上傳資料,立即執(zhí)行檢索任務(wù)194,而后執(zhí)行下傳檔案196將檢索結(jié)果(下傳合乎檢索條件的檔案,或下傳"無"的訊息)下傳給用戶,用戶通過執(zhí)行接收下傳檔案296獲得檢索結(jié)果。
圖3中100為文件控管系統(tǒng),110、 120、 130、 140、 150分別為文件控管系統(tǒng)的網(wǎng)頁服務(wù)器、檔案接收服務(wù)器、光學(xué)字符識別器(OCR)、數(shù)據(jù)庫和特征標(biāo)記識別器;200為會員端的MFP, 210、 220、 230、 240分別為MFP的傳真機制、掃描機制、打印機制、復(fù)印機制。
圖4顯示當(dāng)文件控管系統(tǒng)執(zhí)行接收電子文件510接收上傳的電子文件后,立即執(zhí)行分解電子文件520分解該電子文件的文件頭,依檔頭粗分類530,并將電子文件中的非文字進t,光學(xué)字符識別540,而后,依OCR辨識結(jié)果,配合該電子文件的文字內(nèi)容,執(zhí)行建立特征內(nèi)容550建立該文件的特征內(nèi)容,再利用龍巻風(fēng)搜尋引擎,由建立特征內(nèi)容550辨識特征標(biāo)記560;而后, 一方面依特征標(biāo)記建立索引570,作為系統(tǒng)欲輸出文件時,搜尋該筆文件的依據(jù);另一方面依特征標(biāo)記,進行細部分類580,而后依分類結(jié)果(粗分類加細分類),執(zhí)行依分類存檔590儲存該電子文件。
圖5顯示當(dāng)文件控管系統(tǒng)執(zhí)行接收電子文件510接收上傳的電子文件后,立即執(zhí)行分解電子文件520分解該電子文件的文件頭,并執(zhí)行依檔頭分類530進行分類,而后,將電子文件中的非文字進行光學(xué)字符識別540,并依OCR辨識結(jié)果,執(zhí)行建立特征內(nèi)容550依序建立該文件的特征內(nèi)容,再依特征內(nèi)容辨識特征標(biāo)記560,并依特征標(biāo)記建立索引570,作為系統(tǒng)欲輸出文件時,搜尋該筆文件的依據(jù),最后執(zhí)行依分類存檔590依文件頭分類儲存該電子文件。
圖6顯示當(dāng)文件控管系統(tǒng)執(zhí)行接收電子文件510接收上傳的電子文件后,立即執(zhí)行分解電子文件520分解該電子文件的文件頭,執(zhí)行依檔頭分類530進行分類,并執(zhí)行依分類存檔590進行分類及依文件頭分類儲存該電子文件;而后,將電子文件中的非文字進行光學(xué)字符識別540;執(zhí)行建立特征內(nèi)容550將OCR的結(jié)果和文件中的文字內(nèi)容合并為特征內(nèi)容,再依特征內(nèi)容辨識特征標(biāo)記560,并依特征標(biāo)記建立索引570,作為系統(tǒng)欲輸出文件時,搜尋該筆文件的依據(jù)。
圖7為圖3中辨識特征標(biāo)記560步驟加上進行細部分類580步驟的細部流程圖,其是在特征標(biāo)記中找關(guān)鍵詞,執(zhí)行判斷有關(guān)鍵詞否581看看是否含關(guān)鍵詞,若含關(guān)鍵詞依關(guān)鍵詞進一步執(zhí)行依關(guān)鍵詞分類582,以完成(細部)分類586;若不含關(guān)鍵詞,則由使用者決定是否執(zhí)行判斷手動分類否583,若是,則執(zhí)行依輸入值分類584,依其鍵入內(nèi)容做為細部分類,以完成(細部)分類5挑;若否,則執(zhí)行無細部分類585,亦即完成(細部)分類586。
圖8顯示進行細部分類580步驟的另一細部流程圖,其是在執(zhí)行辨識特征標(biāo)記560步驟后獲得的特征標(biāo)記中找關(guān)鍵詞,執(zhí)行判斷有關(guān)鍵詞否581看看是否含關(guān)鍵詞,若含關(guān)鍵詞依關(guān)鍵詞進一步執(zhí)行依關(guān)鍵詞分類582,以完成(細部)分類586;若不含關(guān)鍵詞,則執(zhí)行無細部分類585,亦即完成(細部)分類586。
圖9顯示系統(tǒng)在執(zhí)行接收檢索信息610步驟,接收到檢索信息后,立即依上傳的檢索條件執(zhí)行檢索任務(wù)620步驟進行檢索,執(zhí)行判定有檔案否630步驟,判斷是否有合乎條件的檔案,若有合乎條件的檔案,就執(zhí)行下傳檔案
信息640步驟,將合乎條件的檔案下傳給用戶;若沒有合乎條件的檔案,就 執(zhí)行下傳檢索結(jié)果650步驟,下傳"沒有合乎條件的檔案"的訊息給用戶。
圖IO為本發(fā)明方法一較佳具體例的流程圖。當(dāng)文件控管系統(tǒng)執(zhí)行收電子 文件510步驟接收上傳的電子文件后,立即執(zhí)行分解電子文件520步驟,分 解該電子文件的文件頭,執(zhí)行依檔頭粗分類530步驟,依檔頭進行分類,并 執(zhí)行依分類存檔590步驟,依文件頭分類儲存該電子文件;而后,執(zhí)行判斷 含非文字內(nèi)容542步驟,判斷文件中是否含"非文字內(nèi)容",若含"非文字內(nèi) 容",則將電子文件中的非文字進行光學(xué)字符識別540,而后進行建立特征內(nèi) 容550步驟(將OCR的結(jié)果和文件中的文字內(nèi)容合并為特征內(nèi)容);若不含"非 文字內(nèi)容",則直接進行建立特征內(nèi)容550步驟(直接以文件中的文字內(nèi)容做 為特征內(nèi)容);而后,依特征內(nèi)容辨識特征標(biāo)記560,并依特征標(biāo)記建立索引 570,作為系統(tǒng)欲輸出文件時,搜尋該筆文件的依據(jù)。
另以本案說明書為例,說明本案光學(xué)字符辨識540步驟、建立特征內(nèi)容 550步驟、辨識特征標(biāo)記560步驟和建立索引570步驟,以及檢索該檔案的狀 況如下
本案內(nèi)容包括發(fā)明名稱、說明書摘要、說明書、權(quán)利要求、附圖…… 等,其中發(fā)明名稱、說明書摘要、說明書、權(quán)利要求……等為文字內(nèi)容,附 圖為非文字內(nèi)容,因此在光學(xué)字符辨識540步驟中,光學(xué)字符識別器將對附 圖進行光學(xué)字符辨識。以圖la為例,OCR后,會得到"300傳真發(fā)送單位"、 "310傳真文件"、"200MFP(系統(tǒng)會員)"、"280接收文件"、"290上傳文件"、 "100文件控管系統(tǒng)"、"180接收上傳文件"、"190執(zhí)行存檔任務(wù)"等文字 內(nèi)容。
建立特征內(nèi)容550步驟中,會將光學(xué)字符辨識540步驟辨識所得的文字 內(nèi)容,和原來的文字內(nèi)容(發(fā)明名稱、說明書摘要、說明書、權(quán)利要求……等) 合并,成為特征內(nèi)容,
辨識特征標(biāo)記560步驟中,特征標(biāo)記辨識器會對建立特征內(nèi)容550步驟 所建立的特征內(nèi)容,迸行特征標(biāo)記辨識。以發(fā)明名稱進行特征標(biāo)記辨識為例, 將會得到"辨識、分類、搜尋、儲存、文件、控管、系統(tǒng)"等特征用語,以 圖1經(jīng)OCR后所得的文字迸行特征標(biāo)記辨識為例,將會得到"傳真、發(fā)送、 單位、文件、MFP、系統(tǒng)、會員、接收、上傳、控管、執(zhí)行、存檔、任務(wù)"等 特征用語。
在建立索引570步驟中,系統(tǒng)會依辨識特征標(biāo)記560步驟辨識所得的特征用語,對待存檔案(圖3或圖4所示的流程)或既存檔案(圖5所示的流程),進行建立索引的程序。設(shè)若系統(tǒng)自動設(shè)定文件名為"具有辨識分類搜尋儲存功能的文件控管系統(tǒng)"(下文中簡化為文件控管系統(tǒng)),以發(fā)明名稱內(nèi)所含的
特征用語為例,系統(tǒng)將自動產(chǎn)生特征用語索引如表l:
表l:以EM^內(nèi)的特征用語所建立的索引表
辨識文件控管系統(tǒng)
辨識分類文件控管系統(tǒng)
辨識分類搜尋文件控管系統(tǒng)
辨識分類搜尋儲存文件控管系統(tǒng)
辨識分類搜尋儲存文件文件控管系統(tǒng)
辨識分類搜尋儲存文件控管文件控管系統(tǒng)
辨識分類搜尋儲存文件控管系統(tǒng)文件控管系統(tǒng)
分類文件控管系統(tǒng)
分類搜尋文件控管系統(tǒng)
分類搜尋儲存文件控管系統(tǒng)
分類搜尋儲存文件文件控管系統(tǒng)
分類搜尋儲存文件控管文件控管系統(tǒng)
分類搜尋儲存文件控管系統(tǒng)文件控管系統(tǒng)
搜尋文件控管系統(tǒng)
搜尋儲存文件控管系統(tǒng)
搜尋儲存文件文件控管系統(tǒng)
搜尋儲存文件控管文件控管系統(tǒng)
搜尋儲存文件控管系統(tǒng)文件控管系統(tǒng)
儲存文件控管系統(tǒng)
儲存文件文件控管系統(tǒng)
儲存文件控管文件控管系統(tǒng)
儲存文件控管系統(tǒng)文件控管系統(tǒng)
文件文件控管系統(tǒng)
文件控管文件控管系統(tǒng)
文件控管系統(tǒng)文件控管系統(tǒng)
控管文件控管系統(tǒng)
控管系統(tǒng)文件控管系統(tǒng)
系統(tǒng)文件控管系統(tǒng)
15再以圖l所含的特征用語為例,系統(tǒng)將自動產(chǎn)生新增的特征用語索引如
表2:
表2:以閨1中的特征用語所建立的索引表
傳真文件控管系統(tǒng)
傳真發(fā)送文件控管系統(tǒng)
傳真發(fā)送單位文件控管系統(tǒng)
發(fā)送文件控管系統(tǒng)
發(fā)送單位文件控管系統(tǒng)
單位文件控管系統(tǒng)
傳真文件文件控管系統(tǒng)
MFP文件控管系統(tǒng)
系統(tǒng)會員文件控管系統(tǒng)
會員文件控管系統(tǒng)
接收文件控管系統(tǒng)
接收文件文件控管系統(tǒng)
上傳文件控管系統(tǒng)
上傳文件文件控管系統(tǒng)
接收上傳文件控管系統(tǒng)
接收上傳文件文件控管系統(tǒng)
執(zhí)行文件控管系統(tǒng)
執(zhí)行存檔文件控管系統(tǒng)
執(zhí)行存檔任務(wù)文件控管系統(tǒng)
存檔文件控管系統(tǒng)
存檔任務(wù)文件控管系統(tǒng)
任務(wù)文件控管系統(tǒng)
表2中不含"m、,蹄、w牛蹄亂ag、體亂皿"等特征用語的索引,因為所述索引,在表i中已出現(xiàn)。
在存檔并建立索引表后,則系統(tǒng)用戶可利用特征用語檢索/顯示/下載該
檔案。例如文件控管系統(tǒng)100用戶以"儲存"進行特征用語檢索,文件控管系統(tǒng)200 (會員的多功能事務(wù)機200 )在接收檢索信息610步驟中接收檢索信息后,立即執(zhí)行檢索任務(wù)620步驟,看看索引表中是否含"儲存"這個特征用語(判定有檔案否630步驟),檢索結(jié)果為索引表中含"儲存"這個特征用語,因此接著執(zhí)行下傳檔案信息640步驟,亦即系統(tǒng)會將本文件下載到會員端。會員接收該信息后,可自行決定顯示及/或下載本文件。
權(quán)利要求
1.一種具有辨識分類搜尋儲存功能的文件控管系統(tǒng),其包含一網(wǎng)頁服務(wù)器;一檔案接收服務(wù)器,用以由該網(wǎng)頁服務(wù)器,讀取及/或輸出文件;一光學(xué)識別器,用以對該檔案接收服務(wù)器讀取的文件中的非文字內(nèi)容進行光學(xué)識別;一特征標(biāo)記識別器,用以建立該輸入文件的特征標(biāo)記;及一數(shù)據(jù)庫,用以儲存該讀入文件,及/或依需要將數(shù)據(jù)庫的文件經(jīng)由該檔案接收服務(wù)器和網(wǎng)頁服務(wù)器輸出;其特征是該光學(xué)識別器可自動對該輸入文件的非文字部分進行光學(xué)辨識,得到光學(xué)辨識結(jié)果;該特征標(biāo)記識別器,用以依該文件的特征內(nèi)容,建立該文件的特征標(biāo)記,其中該文件的特征內(nèi)容包含該文件的文字內(nèi)容及/或該光學(xué)辨識的結(jié)果;其儲存文件時,是依該檔案接收服務(wù)器讀入的來源辨識信息及/或該文件的特征標(biāo)記進行分類,做為儲存該輸入數(shù)據(jù)的依據(jù);及其于儲存該文件時,依該特征標(biāo)記建立索引,用以做為系統(tǒng)欲輸出文件時,搜尋該筆文件的依據(jù)。
2. 如權(quán)利要求1所述的文件控管系統(tǒng),其中該光學(xué)識別器為光學(xué)字符識 別器。
3. 如權(quán)利要求1所述的文件控管系統(tǒng),其中系統(tǒng)儲存文件時,是依該檔 案接收服務(wù)器讀入的來源辨識信息進行分類,做為儲存該輸入資料的依據(jù)。
4. 如權(quán)利要求1所述的文件控管系統(tǒng),其中該來源辨識信息為文件頭信息。
5. 如權(quán)利要求1所述的文件控管系統(tǒng),其中該文件為電子文件。
6. 如權(quán)利要求5所述的文件控管系統(tǒng),其中該文件為電子郵件、傳真機 傳送的電子文件、掃瞄裝置讀入的電子文件、及/或計算機所產(chǎn)生的各式電子 檔案。
7. 如權(quán)利要求1所述的文件控管系統(tǒng),其中該特征標(biāo)記識別器進一步具 有新詞學(xué)習(xí)及用字、用語、詞性或意境的統(tǒng)計分析功能。
8. 如權(quán)利要求1所述的文件控管系統(tǒng),其中該特征標(biāo)記識別器進一步具有資料探勘功能。
9. 如權(quán)利要求1所述的文件控管系統(tǒng),其中該網(wǎng)頁服務(wù)器為1IS、Apache、 Tomcat、 Coldfusion或Webshphere。
10. 如權(quán)利要求9所述的文件控管系統(tǒng),其中該網(wǎng)頁服務(wù)器為IIS、Apache 或Tomcat 0
11. 如權(quán)利要求1所述的文件控管系統(tǒng),其中該檔案接收服務(wù)器為Http、 FTP、 IMAP及/或SMTP。
12. 如權(quán)利要求11所述的文件控管系統(tǒng),其中該檔案接收服務(wù)器為FTP、 IMAP及/或SMTP。
13. —種遠程文件控管方法,其包括 一文件接收步驟,用以接收上傳的電子文件;—文件分解步驟,用以分解該電子文件的來源辨識信息; 一分類步驟,用以依該來源辨識信息進行分類;及 一檔案儲存步驟,用以依該分類儲存該電子文件; 其特征是,其進一步包括一特征標(biāo)記辨識步驟,用以該電子文件的內(nèi)容辨識特征標(biāo)記;及 一索引建立步驟,用以依該特征標(biāo)記建立索引,作為系統(tǒng)欲輸出該電 子文件時,搜尋該筆該電子文件的依據(jù)。
14. 如權(quán)利要求13所述的遠程文件控管方法,其中在該特征標(biāo)記辨識步 驟之前,進一步含一光學(xué)辨識步驟,用以辨識該電子文件中的非文字內(nèi)容, 并以辨識結(jié)果做為該特征標(biāo)記辨識步驟的特征標(biāo)記辨識內(nèi)容。
15. 如權(quán)利要求14所述的遠程文件控管方法,其中該光學(xué)辨識步驟,是 以光學(xué)字符辨識器進行光學(xué)辨識。
16. 如權(quán)利要求13所述的遠程文件控管方法,其中在該特征標(biāo)記辨識步 驟之前,進一步含一光學(xué)辨識步驟,用以辨識該電子文件中的非文字內(nèi)容, 并將辨識結(jié)果和該電子文件的文字內(nèi)容合并,做為該特征標(biāo)記辨識步驟的特 征標(biāo)記辨識內(nèi)容。
17. 如權(quán)利要求16所述的遠程文件控管方法,其中該光學(xué)辨識步驟,是 以光學(xué)字符辨識器進行光學(xué)辨識。
18. 如權(quán)利要求13所述的遠程文件控管方法,其中該來源辨識信息為文 件頭信息。
19. 如權(quán)利要求13所述的遠程文件控管方法,其中該特征標(biāo)記識別器進 一步具有新詞學(xué)習(xí)及用字、用語、詞性或意境的統(tǒng)計分析功能。
20. 如權(quán)利要求13所述的遠程文件控管方法,其中該特征標(biāo)記識別器進一步具有資料勘探功能。
21. 如權(quán)利要求13所述的遠程文件控管方法,其中該網(wǎng)頁服務(wù)器為IIS、 Apache、 Tomcat、 Coldfusion或Webshphere。
22. 如權(quán)利要求21所述的遠程文件控管方法,其中該網(wǎng)頁服務(wù)器為IIS、 Apache或Tomcat 。
23. 如權(quán)利要求13所述的遠程文件控管方法,其中該檔案接收服務(wù)器為 Http、 FTP、 IMAP及/或SMTP。
24. 如權(quán)利要求23所述的遠程文件控管方法,其中該檔案接收服務(wù)器為 FTP、 IMAP及/或SMTP。
全文摘要
本發(fā)明是關(guān)于一種文件儲存系統(tǒng)及遠程文件控管方法,尤指一種具有辨識分類搜尋儲存功能的文件控管系統(tǒng)及遠程文件控管方法。該具有辨識分類搜尋儲存功能的文件控管系統(tǒng),其包含一網(wǎng)頁服務(wù)器;一檔案接收服務(wù)器,用以由該網(wǎng)頁服務(wù)器,讀取文件;一光學(xué)識別器,用以對該檔案接收服務(wù)器讀取的文件中的非文字內(nèi)容進行光學(xué)識別;一特征標(biāo)記識別器,用以建立該輸入文件的特征標(biāo)記;及,一數(shù)據(jù)庫,用以儲存該讀入文件,及/或依需要將數(shù)據(jù)庫的文件經(jīng)由該檔案接收服務(wù)器和網(wǎng)頁服務(wù)器輸出。
文檔編號G06F17/30GK101676902SQ20081021123
公開日2010年3月24日 申請日期2008年9月19日 優(yōu)先權(quán)日2008年9月19日
發(fā)明者劉立恩, 林益邦, 陳衍彰 申請人:眾來科技股份有限公司