本發(fā)明屬于管理技術(shù)領(lǐng)域,特別涉及一種知識庫管理系統(tǒng)。
背景技術(shù):
在我們的日常生活和工作中,每個人在各自的領(lǐng)域內(nèi)不斷累計,形成不同層次的過程資源財富,涵蓋了文本、傳真、圖形、視頻、音頻等各個類型的知識財富載體。知識財富的不斷累計過程中,我們也面臨著一些問題,由于知識財富的來源不同、用途不同、載體不同等,往往導(dǎo)致知識財富的時間鏈條錯亂、關(guān)聯(lián)知識無法有效檢索、各類知識無法綜合運(yùn)用等問題的出現(xiàn),伴隨知識財富的持續(xù)積累,這種問題愈發(fā)突出,迫切需要行之有效的手段來錄入、管理、分析、統(tǒng)計知識財富。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種知識庫管理系統(tǒng),以解決現(xiàn)有技術(shù)中的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
一種知識庫管理系統(tǒng),以 Browser/Server 結(jié)構(gòu)作為系統(tǒng)的整體架構(gòu),系統(tǒng)架構(gòu)包括文件服務(wù)器和Web服務(wù)器;
上述系統(tǒng)還包括文件基本管理、文件集中存儲上傳、文件鏈接、文件處理、文件關(guān)聯(lián)、文件分享、規(guī)則使用、智能檢索和推薦系統(tǒng);
所述文件基本管理包括用戶對文件進(jìn)行新建、復(fù)制、粘貼、剪切、重命名、刪除、在線壓縮和解壓縮;支持Offcie文檔、PDF、圖像、音視頻和圖紙類文件;支持在線預(yù)覽各類格式的圖片、播放視頻、音頻以及瀏覽各類office文檔;文件下載;
所述文件集中存儲上傳包括用戶對文件的批量上傳和壓縮包導(dǎo)入;首先在前端進(jìn)行文件的切片操作,隨后進(jìn)行文件的分片上傳;
所述文件鏈接包括將文件發(fā)送至目錄;
所述文件處理在用戶上傳文件之后,利用Apache Lucene Tika算法,在后臺處理程序會對文件進(jìn)行文本抽取,提取其中的關(guān)鍵詞,或進(jìn)行元數(shù)據(jù)的信息提取,生成文件的摘要;文本處理還包括文件語言類型的檢測和真實(shí)類型判斷;其中,所運(yùn)用的Apache Lucene Tika算法,Tika由一個解析器框架,MIME檢測機(jī)制,語言檢測,和一個facade組件聯(lián)系所有組件。在整個結(jié)構(gòu)中,Tika的體系結(jié)構(gòu)是可擴(kuò)展的,新的解析器可以便捷地添加和刪除。其具體包括:語言檢測機(jī)制:支持語言識別,Tika 有一類叫做語言標(biāo)識符在包org.apache.tika.language及語言識別資料庫里面包含了語言檢測從給定文本的算法。每當(dāng)一個文本文件被傳遞到Tika時,它將檢測其中的語言。并且接受沒有語言的注釋文件和通過檢測該語言添加在該文件的元數(shù)據(jù)信息。其內(nèi)部使用N-gram算法進(jìn)行語言檢測;MIME檢測機(jī)制:Tika可以根據(jù)MIME標(biāo)準(zhǔn)檢測文檔類型。默認(rèn)MIME類型檢測是使用org.apache.tika.mime.mimeTypes。其使用org.apache.tika.detect.Detector 接口完成大部分內(nèi)容類型檢測;解析器接口:org.apache.tika.parser 解析器接口是其解析文檔的主要接口。該接口從提取文檔中的文本和元數(shù)據(jù),并總結(jié)了其對外部用戶愿意寫解析器插件。由于采用不同的具體解析器類,具體為各個文檔類型,因此支持大量的文件格式。這些格式的具體類不同的文件格式提供支持,無論是通過直接實(shí)現(xiàn)邏輯分析器或使用外部解析器庫;Tika Facade 類:通過實(shí)現(xiàn)基本用例,Tika作為facade的代理。它抽象了Tika庫的底層復(fù)雜性,比如說MIME檢測機(jī)制,解析器接口和語言檢測機(jī)制,并提供給用戶一個簡單的接口來使用。
所述文件關(guān)聯(lián),文件新建或上傳后,自動或手動為該文件生成唯一編號,并支持文檔的批量關(guān)聯(lián);
所述規(guī)則使用包括規(guī)則引擎和規(guī)則設(shè)置;
所述智能檢索使用Apache Lucene全文檢索引擎工具包,建立Solr全文搜索引擎,同時結(jié)合TF-IDF和命名實(shí)體識別生成預(yù)測詞條;
所述推薦系統(tǒng)基于Mahout的協(xié)同過濾算法和神經(jīng)網(wǎng)絡(luò)模型,形成有效的檢索體系。
其中,基于協(xié)同過濾的推薦引擎的輸入是用戶的歷史偏好信息,在 Mahout 里它被建模為 Preference(接口)。為了優(yōu)化性能,采用 Mahout 給出的兩個實(shí)現(xiàn)類,分別按照用戶和物品本身對用戶偏好進(jìn)行組裝,這樣就可以壓縮用戶 ID 或者物品 ID 的空間。
Mahout 提供的協(xié)同過濾的推薦策略,我們選擇其中最經(jīng)典的三種,User CF, Item CF 和 Slope One;
1.User CF:
1).從文件建立 DataModel,比如采用 FileDataModel。
2).基于用戶偏好數(shù)據(jù)計算用戶的相似度,比如 PearsonCorrelationSimilarity(基于皮爾遜相關(guān)系數(shù)計算相似度)
ItemSimilarity 也是類似的:
根據(jù)建立的相似度計算方法,找到鄰居用戶。這里找鄰居用戶的方法,也包括兩種:"固定數(shù)量的鄰居(NearestNUserNeighborhood:對每個用戶取固定數(shù)量 N 的最近鄰居)"和"相似度門檻鄰居(ThresholdUserNeighborhood:對每個用戶基于一定的限制,取落在相似度門限內(nèi)的所有用戶為鄰居)"計算方法。基于 DataModel,UserNeighborhood 和 UserSimilarity 構(gòu)建 GenericUserBasedRecommender,實(shí)現(xiàn) User CF 推薦策略。
2.Item CF 的實(shí)現(xiàn)與 User CF 類似,都是基于 ItemSimilarity。
3.Slope One
在大數(shù)據(jù)量時,User CF, Item CF的計算量會很大,從而導(dǎo)致推薦效率較差。因此采用更加輕量級的 CF 推薦策略:Slope One。
神經(jīng)網(wǎng)絡(luò)模型則由神經(jīng)網(wǎng)絡(luò)先生成候選文件列表,再對輸入文件(比如搜索結(jié)果候選前5條)列表打分排名,以便將排名靠前的文件推薦給用戶。
候選文件生成是依靠協(xié)同過濾算法產(chǎn)生一個寬泛的針對用戶的個性化推薦候選名單。排名神經(jīng)網(wǎng)絡(luò)是基于第一個候選生成網(wǎng)絡(luò)的列表,提供更精細(xì)的區(qū)分細(xì)化,從來達(dá)到較高的推薦命中率。通過定義目標(biāo)函數(shù)來提供一系列描述文件和用戶的特征,排名網(wǎng)絡(luò)則根據(jù)目標(biāo)函數(shù)來給每一個文件打分。分?jǐn)?shù)最高的一組文件就被推薦給用戶。
兩級神經(jīng)網(wǎng)絡(luò)模型的好處是可以處理百萬量級文件,且保證推薦給用戶的文件是高質(zhì)量的。推薦系統(tǒng)在開發(fā)和訓(xùn)練階段,采用了各種量化指標(biāo),如準(zhǔn)確率、覆蓋率、排名損耗等等。
所述Offcie文檔包括Word、Excel、PowerPoint、WPS、Visio的格式;所述文件處理中支持pdf、doc、docx、ppt、excel、txt、html、xml、zip、tar格式的文本文件。
所述文件關(guān)聯(lián),用戶通過手動設(shè)置主文件,并關(guān)聯(lián)其對應(yīng)的從文件,通過文件唯一編號,實(shí)現(xiàn)文件與相關(guān)文件、圖紙、圖片及其它格式附件進(jìn)行關(guān)聯(lián),點(diǎn)擊鏈接即可一鍵快速查看;對文件進(jìn)行自動關(guān)聯(lián),視頻生成縮略圖,圖片進(jìn)行壓縮,從而實(shí)現(xiàn)為圖片、音頻、視頻類文件增加縮略圖;文件增加摘要。
所述文件分享包括發(fā)送郵件分享,直接將文件的鏈接分享,省去借用郵箱服務(wù)器的中轉(zhuǎn)過程;分享至社交平臺;通過站內(nèi)信的方式共享文件;在移動端微信平臺部署的文件搜索共享;設(shè)置文件服務(wù)器,本地劃出物理空間作為虛擬文件服務(wù)器目錄用來存儲文件,F(xiàn)TP進(jìn)行文件的傳輸,Tomcat來維護(hù)這個虛擬文件服務(wù)器目錄和Web服務(wù)器Tomcat Server時,Tomcat中維護(hù)一個虛擬文件服務(wù)器,為每位用戶分配一個單獨(dú)的文件根目錄,所有上傳文件移入文件庫,每個用戶目錄下只存儲文件訪問鏈接。
還包括桌面式界面,常用文件以桌面快捷方式的形式展現(xiàn)給用戶,用戶無需每次在打開各個目錄中查找,使用時直接點(diǎn)擊該快捷方式即可查看相應(yīng)文檔。
文件上傳時自動生成唯一編號,支持文件的批量關(guān)聯(lián),可進(jìn)行手動關(guān)聯(lián)操作,用戶設(shè)置主文件,并關(guān)聯(lián)對應(yīng)的從文件;通過文件上傳時自動生成的唯一編號,實(shí)現(xiàn)文檔與相關(guān)文檔、圖紙、圖片及其它格式附件進(jìn)行關(guān)聯(lián),點(diǎn)擊鏈接一鍵快速查看;文件分享具有多種分享渠道,包括系統(tǒng)內(nèi)發(fā)送郵件分享,直接將文件的鏈接分享,省去借用郵箱服務(wù)器的中轉(zhuǎn)過程;在移動端微信平臺部署的文件搜索共享部分。
所述規(guī)則引擎,包括對文件進(jìn)行加密隱藏、自動備份、中轉(zhuǎn)、歸檔不常用文件、文件暫存;所述規(guī)則設(shè)置功能,為文件指定動作、條件和操作,當(dāng)動作觸發(fā)符合設(shè)定的條件,系統(tǒng)則自動執(zhí)行規(guī)則的操作。
所述智能檢索中建立的Solr全文搜索引擎,對檢索結(jié)果根據(jù)權(quán)重進(jìn)行智能排序,并使檢索詞高亮顯示;且為用戶提供跨語言信息檢索、拼寫檢查、正則檢索、實(shí)時檢索結(jié)果和條目的記錄,實(shí)現(xiàn)輔助檢索的最優(yōu)操作;檢索過程中,根據(jù)歷史記錄和網(wǎng)絡(luò)熱搜的自動補(bǔ)全行為;用戶能夠快速從海量資料中精準(zhǔn)檢索所需文件進(jìn)行智能檢索,檢索結(jié)果在顯示區(qū)域顯示。
所述推薦系統(tǒng),用戶檢索結(jié)果的顯示區(qū)域,結(jié)合用戶檢索結(jié)果的前五條進(jìn)行平行推薦,即“您可能還想找”的部分,針對檢索詞在用戶檢索的過程中為不同用戶生成檢索預(yù)測詞條。
上述系統(tǒng),還包括生成用戶日歷和動態(tài)部分;
用戶日歷是用戶上傳的文件數(shù)量記錄到文件日歷中;文件動態(tài)部分為用戶根據(jù)“上下文查找”的方式,快速找到自己需要的文件。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
本發(fā)明提取用戶知識中的財富,以 B/S 結(jié)構(gòu)作為系統(tǒng)的整體架構(gòu),將管理系統(tǒng)放在Web端,文件存儲在服務(wù)器端。在便捷操作的基礎(chǔ)上,對海量文件進(jìn)行有效的知識財富歸納、形成條理的文件分類體系,用戶可通過本系統(tǒng)進(jìn)行便捷的文件管理操作,本系統(tǒng)將用戶體驗(yàn)度放在首位位置,實(shí)現(xiàn)了極速文件動態(tài)、多平臺文件互聯(lián)、智能全文檢索、個性化規(guī)則定制、類視窗操作等功能。
附圖說明
圖1是本發(fā)明的系統(tǒng)架構(gòu)圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例對本發(fā)明作更進(jìn)一步的說明。
如圖1所示,一種知識庫管理系統(tǒng),以 Browser/Server 結(jié)構(gòu)作為系統(tǒng)的整體架構(gòu),系統(tǒng)架構(gòu)包括文件服務(wù)器和Web服務(wù)器;
上述系統(tǒng)還包括文件基本管理、文件集中存儲上傳、文件鏈接、文件處理、文件關(guān)聯(lián)、文件分享、規(guī)則使用、智能檢索和推薦系統(tǒng);
所述文件基本管理包括用戶對文件進(jìn)行新建、復(fù)制、粘貼、剪切、重命名、刪除、在線壓縮和解壓縮;支持Offcie文檔、PDF、圖像、音視頻和圖紙類文件;支持在線預(yù)覽各類格式的圖片、播放視頻、音頻以及瀏覽各類office文檔;文件下載;
所述文件集中存儲上傳包括用戶對文件的批量上傳和壓縮包導(dǎo)入;首先在前端進(jìn)行文件的切片操作,隨后進(jìn)行文件的分片上傳;
所述文件鏈接包括將文件發(fā)送至目錄;
所述文件處理在用戶上傳文件之后,利用Apache Lucene Tika算法,在后臺處理程序會對文件進(jìn)行文本抽取,提取其中的關(guān)鍵詞,或進(jìn)行元數(shù)據(jù)的信息提取,生成文件的摘要;文本處理還包括文件語言類型的檢測和真實(shí)類型判斷;其中,所運(yùn)用的Apache Lucene Tika算法,Tika由一個解析器框架,MIME檢測機(jī)制,語言檢測,和一個facade組件聯(lián)系所有組件。在整個結(jié)構(gòu)中,Tika的體系結(jié)構(gòu)是可擴(kuò)展的,新的解析器可以便捷地添加和刪除。其具體包括:語言檢測機(jī)制:支持語言識別,Tika 有一類叫做語言標(biāo)識符在包org.apache.tika.language及語言識別資料庫里面包含了語言檢測從給定文本的算法。每當(dāng)一個文本文件被傳遞到Tika時,它將檢測其中的語言。并且接受沒有語言的注釋文件和通過檢測該語言添加在該文件的元數(shù)據(jù)信息。其內(nèi)部使用N-gram算法進(jìn)行語言檢測;MIME檢測機(jī)制:Tika可以根據(jù)MIME標(biāo)準(zhǔn)檢測文檔類型。默認(rèn)MIME類型檢測是使用org.apache.tika.mime.mimeTypes。其使用org.apache.tika.detect.Detector 接口完成大部分內(nèi)容類型檢測;解析器接口:org.apache.tika.parser 解析器接口是其解析文檔的主要接口。該接口從提取文檔中的文本和元數(shù)據(jù),并總結(jié)了其對外部用戶愿意寫解析器插件。由于采用不同的具體解析器類,具體為各個文檔類型,因此支持大量的文件格式。這些格式的具體類不同的文件格式提供支持,無論是通過直接實(shí)現(xiàn)邏輯分析器或使用外部解析器庫;Tika Facade 類:通過實(shí)現(xiàn)基本用例,Tika作為facade的代理。它抽象了Tika庫的底層復(fù)雜性,比如說MIME檢測機(jī)制,解析器接口和語言檢測機(jī)制,并提供給用戶一個簡單的接口來使用。
所述文件關(guān)聯(lián),文件新建或上傳后,自動或手動為該文件生成唯一編號,并支持文檔的批量關(guān)聯(lián);
所述規(guī)則使用包括規(guī)則引擎和規(guī)則設(shè)置;
所述智能檢索使用Apache Lucene全文檢索引擎工具包,建立Solr全文搜索引擎,同時結(jié)合TF-IDF和命名實(shí)體識別生成預(yù)測詞條;
所述推薦系統(tǒng)基于Mahout的協(xié)同過濾算法和神經(jīng)網(wǎng)絡(luò)模型,形成有效的檢索體系。
其中,基于協(xié)同過濾的推薦引擎的輸入是用戶的歷史偏好信息,在 Mahout 里它被建模為 Preference(接口)。為了優(yōu)化性能,采用 Mahout 給出的兩個實(shí)現(xiàn)類,分別按照用戶和物品本身對用戶偏好進(jìn)行組裝,這樣就可以壓縮用戶 ID 或者物品 ID 的空間。
Mahout 提供的協(xié)同過濾的推薦策略,我們選擇其中最經(jīng)典的三種,User CF, Item CF 和 Slope One;
1.User CF:
1).從文件建立 DataModel,比如采用 FileDataModel。
2).基于用戶偏好數(shù)據(jù)計算用戶的相似度,比如 PearsonCorrelationSimilarity(基于皮爾遜相關(guān)系數(shù)計算相似度)
ItemSimilarity 也是類似的:
根據(jù)建立的相似度計算方法,找到鄰居用戶。這里找鄰居用戶的方法,也包括兩種:"固定數(shù)量的鄰居(NearestNUserNeighborhood:對每個用戶取固定數(shù)量 N 的最近鄰居)"和"相似度門檻鄰居(ThresholdUserNeighborhood:對每個用戶基于一定的限制,取落在相似度門限內(nèi)的所有用戶為鄰居)"計算方法?;?DataModel,UserNeighborhood 和 UserSimilarity 構(gòu)建 GenericUserBasedRecommender,實(shí)現(xiàn) User CF 推薦策略。
2.Item CF 的實(shí)現(xiàn)與 User CF 類似,都是基于 ItemSimilarity。
3.Slope One
在大數(shù)據(jù)量時,User CF, Item CF的計算量會很大,從而導(dǎo)致推薦效率較差。因此采用更加輕量級的 CF 推薦策略:Slope One。
神經(jīng)網(wǎng)絡(luò)模型則由神經(jīng)網(wǎng)絡(luò)先生成候選文件列表,再對輸入文件(比如搜索結(jié)果候選前5條)列表打分排名,以便將排名靠前的文件推薦給用戶。
候選文件生成是依靠協(xié)同過濾算法產(chǎn)生一個寬泛的針對用戶的個性化推薦候選名單。排名神經(jīng)網(wǎng)絡(luò)是基于第一個候選生成網(wǎng)絡(luò)的列表,提供更精細(xì)的區(qū)分細(xì)化,從來達(dá)到較高的推薦命中率。通過定義目標(biāo)函數(shù)來提供一系列描述文件和用戶的特征,排名網(wǎng)絡(luò)則根據(jù)目標(biāo)函數(shù)來給每一個文件打分。分?jǐn)?shù)最高的一組文件就被推薦給用戶。
兩級神經(jīng)網(wǎng)絡(luò)模型的好處是可以處理百萬量級文件,且保證推薦給用戶的文件是高質(zhì)量的。推薦系統(tǒng)在開發(fā)和訓(xùn)練階段,采用了各種量化指標(biāo),如準(zhǔn)確率、覆蓋率、排名損耗等等。
所述Offcie文檔包括Word、Excel、PowerPoint、WPS、Visio的格式;所述文件處理中支持pdf、doc、docx、ppt、excel、txt、html、xml、zip、tar格式的文本文件。
所述文件關(guān)聯(lián),用戶通過手動設(shè)置主文件,并關(guān)聯(lián)其對應(yīng)的從文件,通過文件唯一編號,實(shí)現(xiàn)文件與相關(guān)文件、圖紙、圖片及其它格式附件進(jìn)行關(guān)聯(lián),點(diǎn)擊鏈接即可一鍵快速查看;對文件進(jìn)行自動關(guān)聯(lián),視頻生成縮略圖,圖片進(jìn)行壓縮,從而實(shí)現(xiàn)為圖片、音頻、視頻類文件增加縮略圖;文件增加摘要。
所述文件分享包括發(fā)送郵件分享,直接將文件的鏈接分享,省去借用郵箱服務(wù)器的中轉(zhuǎn)過程;分享至社交平臺;通過站內(nèi)信的方式共享文件;在移動端微信平臺部署的文件搜索共享;設(shè)置文件服務(wù)器,本地劃出物理空間作為虛擬文件服務(wù)器目錄用來存儲文件,F(xiàn)TP進(jìn)行文件的傳輸,Tomcat來維護(hù)這個虛擬文件服務(wù)器目錄和Web服務(wù)器Tomcat Server時,Tomcat中維護(hù)一個虛擬文件服務(wù)器,為每位用戶分配一個單獨(dú)的文件根目錄,所有上傳文件移入文件庫,每個用戶目錄下只存儲文件訪問鏈接。
還包括桌面式界面,常用文件以桌面快捷方式的形式展現(xiàn)給用戶,用戶無需每次在打開各個目錄中查找,使用時直接點(diǎn)擊該快捷方式即可查看相應(yīng)文檔。
文件上傳時自動生成唯一編號,支持文件的批量關(guān)聯(lián),可進(jìn)行手動關(guān)聯(lián)操作,用戶設(shè)置主文件,并關(guān)聯(lián)對應(yīng)的從文件;通過文件上傳時自動生成的唯一編號,實(shí)現(xiàn)文檔與相關(guān)文檔、圖紙、圖片及其它格式附件進(jìn)行關(guān)聯(lián),點(diǎn)擊鏈接一鍵快速查看;文件分享具有多種分享渠道,包括系統(tǒng)內(nèi)發(fā)送郵件分享,直接將文件的鏈接分享,省去借用郵箱服務(wù)器的中轉(zhuǎn)過程;在移動端微信平臺部署的文件搜索共享部分。
所述規(guī)則引擎,包括對文件進(jìn)行加密隱藏、自動備份、中轉(zhuǎn)、歸檔不常用文件、文件暫存;所述規(guī)則設(shè)置功能,為文件指定動作、條件和操作,當(dāng)動作觸發(fā)符合設(shè)定的條件,系統(tǒng)則自動執(zhí)行規(guī)則的操作。
所述智能檢索中建立的Solr全文搜索引擎,對檢索結(jié)果根據(jù)權(quán)重進(jìn)行智能排序,并使檢索詞高亮顯示;且為用戶提供跨語言信息檢索、拼寫檢查、正則檢索、實(shí)時檢索結(jié)果和條目的記錄,實(shí)現(xiàn)輔助檢索的最優(yōu)操作;檢索過程中,根據(jù)歷史記錄和網(wǎng)絡(luò)熱搜的自動補(bǔ)全行為;用戶能夠快速從海量資料中精準(zhǔn)檢索所需文件進(jìn)行智能檢索,檢索結(jié)果在顯示區(qū)域顯示。
所述推薦系統(tǒng),用戶檢索結(jié)果的顯示區(qū)域,結(jié)合用戶檢索結(jié)果的前五條進(jìn)行平行推薦,即“您可能還想找”的部分,針對檢索詞在用戶檢索的過程中為不同用戶生成檢索預(yù)測詞條。
上述系統(tǒng),還包括生成用戶日歷和動態(tài)部分;
用戶日歷是用戶上傳的文件數(shù)量記錄到文件日歷中;文件動態(tài)部分為用戶根據(jù)“上下文查找”的方式,快速找到自己需要的文件。
一種知識庫管理系統(tǒng),包括KBMS(WEB server),KBMS(WEB server)與文件服務(wù)器(Tomcat)通信,KBMS(WEB server)、數(shù)據(jù)庫(Mysql)、索引庫(Solr)依次形成數(shù)據(jù)循環(huán),通過KBMS(WEB server)可以進(jìn)行全文檢索、智能檢索、預(yù)測詞條、推薦系統(tǒng)、批量上傳、文本抽?。ǚ衷~),文檔關(guān)聯(lián)、收/發(fā)文件、郵件、外鏈、桌面、規(guī)則引擎,其中文件抽?。ǚ衷~)包括文檔摘要、關(guān)鍵詞和命名實(shí)體識別。
一、文件基本管理
用戶可對文件進(jìn)行新建、復(fù)制、粘貼、剪切、重命名、刪除等操作,對文件進(jìn)行基本的管理操作;使用PageOffice本地組件,實(shí)現(xiàn)文件的在線壓縮和解壓縮,支持Office文檔、PDF、圖像、音視頻和圖紙等各類型文件;支持在線預(yù)覽各類格式的圖片、播放視頻、音頻以及瀏覽各類Office文件,包括Word、Excel、PowerPoint、WPS、Visio等格式。并且針對用戶的使用行為,結(jié)合系統(tǒng)的規(guī)則引擎可對文件進(jìn)行更進(jìn)一步的管理操作。
除此之外本系統(tǒng)還提供文件下載的功能,用戶可自由下載自己知識庫中的文件,也可以下載其他用戶共享的文件。
二、文件集中存儲上傳
針對大批量的文件,本系統(tǒng)提供給用戶文件的批量上傳及壓縮包導(dǎo)入等功能,首先在前端進(jìn)行文件的切片操作,隨后進(jìn)行文件的分片上傳,在加快上傳速度的同時,能有效減少文件上傳過程中由于斷網(wǎng)帶來的文件損失錯誤。
三、文檔鏈接
文檔鏈接功能支持將文檔發(fā)送至常用文檔,用戶無需每次在打開各個目錄中查找;本系統(tǒng)為用戶提供桌面形式的界面(類視窗操作界面),常用文件以桌面快捷方式的形式展現(xiàn)給用戶,用戶無需每次在打開各個目錄中查找,只需點(diǎn)擊該快捷方式即可查看相應(yīng)文檔。
另一方面,本系統(tǒng)支持將文檔發(fā)送至目錄,方便其他用戶查閱。
四、文本處理
用戶上傳文件之后,利用Apache Lucene Tika算法,本系統(tǒng)的后臺處理程序會對文本文件進(jìn)行文本抽取,支持pdf、doc、docx、ppt、excel、txt、html、xml、zip、tar等常見格式的文本文件,提取其中的關(guān)鍵詞,針對視頻、音頻等文件,進(jìn)行元數(shù)據(jù)的信息提取,并且利用命名實(shí)體識別(斯坦福NER包)、中文分詞(IKAnalyzer中文分詞包)等方式生成文件的摘要。還包括文件語言類型的檢測和真實(shí)類型判斷。
五、文檔關(guān)聯(lián)
文檔新建或上傳后,本系統(tǒng)會自動或手動為文件生成唯一編號,支持文檔的批量關(guān)聯(lián)。
關(guān)聯(lián)操作方面,用戶可手動設(shè)置主文件,并關(guān)聯(lián)對應(yīng)的從文件,方便用戶更好的使用文件。通過文件唯一編號,實(shí)現(xiàn)文檔與相關(guān)文檔、圖紙、圖片及其它格式附件進(jìn)行關(guān)聯(lián),點(diǎn)擊鏈接即可一鍵快速查看。
除了進(jìn)行手動關(guān)聯(lián)文件之外,本系統(tǒng)可以對用戶的文件格式進(jìn)行自動關(guān)聯(lián)??蔀橐曨l文件生成縮略圖,也可對圖片文件進(jìn)行壓縮,從而實(shí)現(xiàn)為圖片、音、視頻類文件增加縮略圖。此外本系統(tǒng)就還可以為各類文件增加摘要。
六、文件分享
本系統(tǒng)提供文件的四種分享渠道,包括發(fā)送郵件分享,直接將文件的鏈接分享,省去借用郵箱服務(wù)器的中轉(zhuǎn)過程;可分享至社交平臺,涵蓋QQ、微信、微博等平臺;也可通過站內(nèi)信的方式共享文件;在移動端微信平臺部署的文件搜索共享部分,可以解決用戶電腦不在身邊但需要使用文件的困難。以上的文件分享功能,可以幫助用戶進(jìn)行最大化的文件共享操作。
七、規(guī)則使用
本系統(tǒng)設(shè)置的規(guī)則引擎,可對文件進(jìn)行加密隱藏、自動備份、中轉(zhuǎn)、歸檔不常用文件、文件暫存設(shè)置等操作。除了引擎部分,本系統(tǒng)提供給用戶對文件進(jìn)行一系列的規(guī)則設(shè)置功能,為文件指定動作(組合)、條件和操作,當(dāng)動作觸發(fā)符合設(shè)定的條件,系統(tǒng)則自動執(zhí)行規(guī)則的操作,使我們的系統(tǒng)更具人性化。
目前,本系統(tǒng)所提供的主要規(guī)則有:
(1)按照Windows任務(wù)計劃生成縮略圖;
(2)按照用戶自定義的規(guī)則,定時向指定郵箱發(fā)送指定文件,規(guī)則可包括時間、收信人 、抄送人 、發(fā)送文件 、文字內(nèi)容等;
(3)可以按照用戶需求,將一長定時間內(nèi)不用的文件放入知識庫回收站;
(4)為上傳的文件設(shè)置用戶自定義分類標(biāo)簽或系統(tǒng)默認(rèn)歸檔標(biāo)簽;
(5)文件加密隱藏,需保護(hù)的文件被放入一個加密的文件空間里,訪問時需輸入獨(dú)立密碼;
(6)文件關(guān)聯(lián),用戶可自定義常用文件的打開方式、查看模式;
(7)用戶可以選擇是否自動備份,防止賬戶被惡意刪除,可有效恢復(fù)文件;
(8)文件中轉(zhuǎn)站,設(shè)定文件暫存周期,以定期清理節(jié)約空間,并能有效避免一次性文件的產(chǎn)生;
(9)設(shè)置文件生成鏈接時的默認(rèn)訪問規(guī)則,如訪問權(quán)限和生存周期,增強(qiáng)用戶知識的版權(quán)和安全性;
(10)自定義文件推薦功能的開啟,幫助用戶在檢索時更快更精確的獲取推薦知識;
(11)用戶可自定義文件摘要的表現(xiàn)形式-----屬性、關(guān)鍵詞、系統(tǒng)所提取的文件內(nèi)容等方面,方便用戶查找文件。
八、智能檢索
本系統(tǒng)基于Solr可進(jìn)行全文檢索操作,以數(shù)據(jù)庫為源,建立索引庫,查詢速度達(dá)到百萬條/毫秒,利用TF-IDF計算權(quán)重,對檢索結(jié)果根據(jù)權(quán)重進(jìn)行智能排序,并且使檢索詞高亮顯示;本系統(tǒng)為用戶提供的跨語言信息檢索、拼寫檢查、正則檢索(針對專業(yè)人士)、實(shí)時檢索結(jié)果和條目的記錄等功能,實(shí)現(xiàn)了輔助檢索的最優(yōu)操作;檢索過程中,根據(jù)歷史記錄和網(wǎng)絡(luò)熱搜的自動補(bǔ)全行為,結(jié)合我們的推薦系統(tǒng),給用戶帶來更好的體驗(yàn)。使得用戶能夠快速從海量資料中精準(zhǔn)檢索所需文件進(jìn)行智能搜索,并通過在檢索操作后對信息進(jìn)行接受、判斷、提取、分析和概括之后形成自己的知識體系。
九、推薦系統(tǒng)
在用戶檢索結(jié)果的顯示區(qū)域,本系統(tǒng)基于“協(xié)同過濾(Mahout)和神經(jīng)網(wǎng)絡(luò)模型(RapidMiner)”的算法,結(jié)合用戶檢索結(jié)果的前五條進(jìn)行平行推薦,即“您可能還想找”的部分,針對檢索詞在用戶檢索的過程中為不同用戶生成檢索預(yù)測詞條。
十、用戶日歷和動態(tài)部分
為幫助用戶進(jìn)行更好的文件查找使用等操作,本系統(tǒng)將用戶上傳的文件數(shù)量記錄到文件日歷中;在文件動態(tài)部分,用戶可根據(jù)“上下文查找”的方式,快速找到自己需要的文件。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出:對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。