專利名稱:互聯(lián)網(wǎng)信息共享系統(tǒng)及其信息共享方法
技術領域:
本發(fā)明涉及互聯(lián)網(wǎng)技術,更確切地說是涉及互聯(lián)網(wǎng)信息共享系統(tǒng)和利用該系統(tǒng)進行信息共享—發(fā)布與檢索的方法。
雖然互聯(lián)網(wǎng)至今沒有給它們的風險投資商們帶來可觀的經(jīng)濟效益,但消費大眾對互聯(lián)網(wǎng)的熱情卻并未消退,利用互聯(lián)網(wǎng)發(fā)電子郵件、看新聞、玩游戲、炒股票、聊天、遠程教育、電子商務等,這主要得益于其廉價且方便的通訊工具功能。但是,如果互聯(lián)網(wǎng)僅僅作為一個廉價的通訊工具,只能實現(xiàn)數(shù)據(jù)層面的信息共享,其應用和商業(yè)價值是不能得到真正體現(xiàn)的。
上網(wǎng)者都希望凡發(fā)布信息,能及時到達所有需要者面前;凡尋求信息,都能無一遺漏地自動來到自己面前。換句話說,只有語義層面上的互聯(lián)網(wǎng)信息共享,互聯(lián)網(wǎng)才能發(fā)展成為名符其實并不可替代的全球信息共享系統(tǒng),從而真正實現(xiàn)自身的應用和商業(yè)價值。因此,互聯(lián)網(wǎng)除了是一個廉價的通訊工具之外,還應該是一個海量信息的共享俱樂部,即一個全球信息共享系統(tǒng)。
中國專利申請?zhí)枮?8101156.X、名稱為“全息全選全程模板式人機對話語言翻譯方法”,該方法包括首先建立一個以句子為對象的自然語言全息受限對話模板,模板中包含有理解各種自然語言文字符號系統(tǒng)的所有必要語言信息要素;再在模板上通過全程全選式人機對話結果的多語轉換確定任意自然語言符號串實際攜帶的詞匯信息項和句法信息項,完成源語信息求解和譯文語義查詢。
此后,中國專利申請?zhí)枮?8125015.7、名稱為“開放式全息全選全程模板式人機互補語言翻譯方法”又對上述技術方案作出了改進與充實,包括建立一個開放的以句子為對象的自然語言翻譯多語通用人機對話全息模板,模板中包含有多語翻譯人機對話所需的全部有限備用信息項;根據(jù)人機對話及用有限備用信息項解釋任意新增文字符號的概念定義,求解各自然語言符號實際攜帶的所有信息項;系統(tǒng)自動轉換生成以句子為單元的譯文自然語言表達形式,并同時提供用譯文符號標注的原文符號信息項求解清單,供譯文用戶在需要時進行查詢。
上述方法所提出的是在計算機網(wǎng)絡中適于各網(wǎng)絡終端以不同自然語言進行信息傳遞交流的機器翻譯方法。通過機器翻譯處理使各網(wǎng)絡終端用戶僅使用自己的自然語言就可在網(wǎng)絡上進行語義信息傳遞,在計算機網(wǎng)絡中實現(xiàn)多語種語義信息交流,為提高網(wǎng)絡信息的傳遞效率和實現(xiàn)網(wǎng)絡信息資源的大眾化國際共享,掃除了不同自然語言語義信息傳遞障礙。
申請人認為將互聯(lián)網(wǎng)建設成為名符其實的信息共享系統(tǒng),在解決了不同自然語言語義信息傳遞障礙的情況下,還應著重解決三個基本技術信息發(fā)布;信息存儲;信息獲取。從理論上講,信息發(fā)布與信息獲取是針對同一信息的“對稱”行為,應該具有相同的數(shù)據(jù)關系模型,因此,問題的關鍵在于能否在包括文本、符號、圖像、聲音、多媒體等的不同數(shù)據(jù)類型中,提取出通用的數(shù)據(jù)要素和結構。
本發(fā)明的目的是設計一種互聯(lián)網(wǎng)信息共享系統(tǒng)及其信息共享方法,用于實現(xiàn)互聯(lián)網(wǎng)全球信息共享,使互聯(lián)網(wǎng)系統(tǒng)真正成為一個語義層面的全球信息共享系統(tǒng)。
實現(xiàn)本發(fā)明目的的技術方案是這樣的一種互聯(lián)網(wǎng)信息共享系統(tǒng)的信息共享方法,其特征在于包括A.建立包括不同語言版本文件摘要信息通用模板和文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫的信息共享系統(tǒng);B.進行共享信息存儲時,用戶在門戶網(wǎng)站上,利用不同語言版本文件摘要信息通用模板,對任意數(shù)據(jù)文件進行文件摘要信息輸入,系統(tǒng)將不同語言版本文件摘要信息的統(tǒng)一語義代碼存儲在文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫中,和根據(jù)用戶在不同語言版本文件摘要信息通用模板上的指定,將用戶的非文件摘要信息文本存儲于對應地址的數(shù)據(jù)存儲服務器中;C.進行共享信息檢索與瀏覽時,用戶在門戶網(wǎng)站上,在不同語言版本文件摘要信息通用模板上選擇并輸入檢索關鍵信息,系統(tǒng)搜索引擎搜索文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫,根據(jù)存儲信息與檢索信息間的匹配度,對存儲的文件摘要信息進行自動匹配與排序,供用戶使用統(tǒng)一語義代碼多語轉換瀏覽器瀏覽,并通過自動鏈接供用戶進一步訪問所指定的非文件摘要信息存儲服務器。
所述的步驟A中還包括,建立一個文本語義標注通用模板和統(tǒng)一語義代碼多語轉換瀏覽器;所述的步驟B中還包括,不同自然語言用戶,在對任意數(shù)據(jù)文件進行文件摘要信息輸入時還同時使用文本語義標注通用模板,對所輸入的不同自然語言文字符號進行通用語義信息人機交互標注;所述的步驟C中還包括,不同自然語言用戶,利用不同語言版本文件摘要信息通用模板選擇并輸入檢索關鍵信息時,還利用統(tǒng)一語義代碼多語轉換瀏覽器,瀏覽以不同語言文字形式顯示的關鍵字及關鍵句子信息。
所述的文本語義標注通用模板,是對不同自然語言符號,通過人機交互,標注多語通用概念定義、多語通用句法信息、多語通用時態(tài)信息、多語通用語態(tài)信息和多語通用語體信息。
所述的步驟B中,存儲文摘信息是按用戶在不同語言版本文件摘要信息通用模板上指定的保留時間請求,存儲在所述的文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫中。
所述的步驟B中,存儲文摘信息是按用戶所處地域,同時存儲在該用戶所在各自網(wǎng)站的文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫中和各地的全球數(shù)據(jù)共享文件摘要信息鏡像數(shù)據(jù)庫中。
所述的步驟C中,系統(tǒng)搜索引擎搜索各自網(wǎng)站文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫,還包括搜索全球數(shù)據(jù)共享文件摘要信息鏡像數(shù)據(jù)庫。
所述的不同語言版本文件摘要信息通用模板,包含有適于各種數(shù)據(jù)文件的信息綜合分類通用要素,包括從信息發(fā)布或信息獲取角度提供的功能選擇要素項、文件標題要素項、從數(shù)據(jù)形式角度提供的數(shù)據(jù)分類要素項、從特殊符號與語義影射關系角度提供的語義要素項、從人類客觀認知角度提供的知識分類要素項、從用戶主觀需求角度提供的應用分類要素項、從物理時空角度提供的消息分類要素項、從事件性質角度提供的主題分類要素項、和從信息對稱關系角度提供的信息發(fā)布對象要素項。
所述的文件標題要素項是提供文本語義標注的要素項。
所述的從數(shù)據(jù)形式角度提供的數(shù)據(jù)分類要素項包括文字、圖像及聲音。
所述的從特殊符號與語義影射關系角度提供的語義要素項包括含域名、郵箱、公式的符號項與含人名、公司名、公式名的符號解析語義影射關系項。
所述的從人類客觀認知角度提供的知識分類要素項是選擇專業(yè)或普通領域分類,包括政治、經(jīng)濟、科學、文化、體育、衛(wèi)生、軍事、通訊、社會及其它。
所述的從人類客觀認知角度提供的知識分類要素項,還包括填入關鍵詞或經(jīng)文本語義標注后的關鍵詞進一步限定所選知識分類子類的分類項。
所述的從用戶主觀需求角度提供的應用分類要素包括衣、食、住、行、健康、學習、謀生、互動、交易、生活、綜合、新聞及其它。
所述的從用戶主觀需求角度提供的應用分類要素,還包括填入關鍵詞或經(jīng)文本語義標注后的關鍵詞進一步擴展所選應用分類下各子類的分類項。
所述的從物理時空角度提供的消息分類要素包括時間、地點、人物、行為、事件、物品、理論和工具。
所述的從物理時空角度提供的消息分類要素項,還包括填入關鍵詞或經(jīng)文本語義標注后的關鍵詞,進一步限定所選消息分類的內容。
所述的從事件性質角度提供的主題分類要素項,包括狀態(tài)、背景、關系、歷史、影響和評價。
所述的從事件性質角度提供的主題分類要素,還包括填入關鍵詞或經(jīng)文本語義標注后的關鍵詞,進一步限定所選主題分類的內容。
所述的從信息對稱關系角度提供的信息發(fā)布對象分類要素項,包括企業(yè)、機構、個人、供方、需方、買方和賣方。
所述的從信息對稱關系角度提供的信息發(fā)布對象分類要素項,還包括填入關鍵詞或經(jīng)文本語義標注后的關鍵詞,進一步限定所選的信息發(fā)布對象分類。
還包括信息源要素項,包括選擇提供者、域名或郵箱、提供時間、提供地點和保留時間或選擇經(jīng)文本語義標注后的提供者、域名或郵箱、提供時間、提供地點和保留時間。
實現(xiàn)本發(fā)明目的的技術方案還是這樣的一種互聯(lián)網(wǎng)信息共享系統(tǒng),其特征在于包括建立不同語言版本文件摘要信息通用模板、文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫、文本語義標注通用模板和統(tǒng)一語義代碼多語轉換瀏覽器,并嵌入國際互聯(lián)網(wǎng)系統(tǒng)中。
本發(fā)明的互聯(lián)網(wǎng)信息共享系統(tǒng)及其信息共享方法的技術方案,是通過建立通用數(shù)據(jù)關系模型、建立通用的信息存儲數(shù)據(jù)庫和建立通用的數(shù)據(jù)檢索方法實現(xiàn)的;是通過提取出互聯(lián)網(wǎng)不同數(shù)據(jù)類型文件中通用的數(shù)據(jù)要素和結構,同時提供通用信息存儲數(shù)據(jù)庫、通用數(shù)據(jù)檢索方法和通用語義交流方法實現(xiàn)的。本發(fā)明的不同語言版本文件摘要信息通用模板上的所有分類要素項都可根據(jù)用戶的使用情況進行調整。
本發(fā)明的互聯(lián)網(wǎng)信息共享系統(tǒng)及其信息共享方法的技術方案,既簡潔、可靠、實用,又可同時滿足以上各條全球信息共享需求;既可與現(xiàn)有互聯(lián)網(wǎng)信息共享方式并存,又不需要創(chuàng)建任何協(xié)議和通訊標準,還可移植到無線互聯(lián)網(wǎng)絡。因此,不僅將實實在在地為全球網(wǎng)民一步步實現(xiàn)信息共享,而且將有力地推動互聯(lián)網(wǎng)信息服務業(yè),使之走上一條可贏利的健康發(fā)展之路。
下面結合實施例及附圖進一步說明本發(fā)明的技術方案。
圖1是本發(fā)明的不同語言版本文件摘要信息通用模板結構示意圖。
圖2是本發(fā)明所應用的在先專利申請“文本語義標注通用模板”結構示意圖。
圖3是本發(fā)明互聯(lián)網(wǎng)信息共享系統(tǒng)通用主流程中的信息加工與存儲的步驟框圖。
圖4是是本發(fā)明互聯(lián)網(wǎng)信息共享系統(tǒng)通用主流程中的信息轉換與瀏覽的步驟框圖。
圖5是利用本發(fā)明的系統(tǒng)與方法進行共享信息綜合服務的關系示意圖。
參見圖1,要將互聯(lián)網(wǎng)建設成為一個名符其實的信息共享系統(tǒng),首先要解決的總問題是建立起通用的共享信息數(shù)據(jù)庫關系模型,而且這個關系模型必須包括兩個層次的共享,即“文件”信息共享和“文本”信息共享,同時還能向所有用戶提供方便實用的信息存儲-獲取工具。
因為無論是文本文件還是非文本文件,其在互聯(lián)網(wǎng)上存儲與發(fā)布的基本單位皆為“文件”,但文件有多種數(shù)據(jù)類型,且每個文件的大小沒有限制標準,因此難以為文件建立通用的數(shù)據(jù)庫關系模型。但,任何類型的文件,均可提煉出可限定數(shù)據(jù)量的文字標題及文字信息摘要。
本發(fā)明的實現(xiàn)“文件”信息共享的基本方法就是建立一個“文摘”信息的通用輸入模板,即不同語言版本文件摘要信息通用模板,也即文件信息共享關系模型。該通用模板應能適用于信息共享中的信息發(fā)布、信息存儲與信息檢索諸環(huán)節(jié)。
圖中所示模板,以漢語方式標注出一“天鵝湖演出消息”的實施例文摘信息。
該文摘信息的通用標注模板包含有適于各種數(shù)據(jù)文件的十種信息綜合分類通用要素(1)從信息發(fā)布或信息獲取角度提供的功能選擇要素項,對本實施例來說,可根據(jù)用戶要求選擇獲取或發(fā)布;(2)文件標題要素項,該文件標題要素項是可利用圖2的標注模板進行多語種文本語義標注的要素項,本實施例的文件標題要素是“天鵝湖演出消息”;(3)從數(shù)據(jù)形式角度提供的數(shù)據(jù)分類要素項,所述的從數(shù)據(jù)形式角度提供的數(shù)據(jù)分類要素項包括文字、圖像及聲音,本實施例的數(shù)據(jù)分類要素是文字;(4)從特殊符號與語義影射關系角度提供的語義要素項,包括含域名、郵箱、公式的符號項與含人名、公司名、公式名等的符號解析語義影射關系項,用于進一步對文件標題進行具體解釋,對本實施例來說可不對其作標注;(5)從人類客觀認知角度提供的知識分類要素項,是用于選擇專業(yè)或普通領域的分類要素,包括政治、經(jīng)濟、科學、文化、體育、衛(wèi)生、軍事、通訊、社會及其它,該分類要素項,可再填入關鍵詞或利用圖2所示的標注模板進行多語種文本語義標注后的關鍵詞,進一步限定所選知識分類的子類,本實施例所選的領域分類是文化,再填入的子分類的關鍵詞是“戲劇”;(6)從用戶主觀需求角度提供的應用分類要素項,包括衣、食、住、行、健康、學習、謀生、互動、交易、生活、綜合、新聞及其它,該分類要素項,可再填入關鍵詞或利用圖2所示的標注模板進行多語種文本語義標注后的關鍵詞,進一步擴展或新增所選應用分類及其分類下各子類,本實施例所選的應用分類是生活,再填入的子分類的關鍵詞是“娛樂”;(7)從物理時空角度提供的消息分類要素項,包括時間、地點、人物、行為、事件、物品、理論和工具,該分類要素項,可再填入關鍵詞或利用圖2所示的標注模板進行多語種文本語義標注后的關鍵詞,進一步限定所選消息分類的內容,本實施例所選的消息分類包括地點2/2001,地點-北京,行為-演出;(8)從事件性質角度提供的主題分類要素項,包括狀態(tài)、背景、關系、歷史、影響和評價,該分類要素項,可再填入關鍵詞或利用圖2所示的標注模板進行多語種文本語義標注后的關鍵詞,進一步限定所選主題分類的內容,本實施例所選的主題分類是狀態(tài)項-票已售完;(9)從信息對稱關系角度提供的信息發(fā)布對象要素項,包括企業(yè)、機構、個人、供方、需方、買方和賣方,該分類要素項,可再填入關鍵詞或利用圖2所示的標注模板進行多語種文本語義標注后的關鍵詞,進一步限定所選信息發(fā)布對象分類的內容,本實施例未對其進行選擇;(10)信息源要素項,包括選擇提供者、域名或郵箱、提供時間、提供地點和保留時間,可再填入或利用圖2所示的標注模板進行多語種文本語義標注后的提供者、域名或郵箱、提供時間、提供地點和保留時間,本實施例所選的保留時間是10天。
顯然,使用不同語言的互聯(lián)網(wǎng)用戶,都能在這一通用模板上進行文件信息的發(fā)布或檢索,換句話說,只要建立起一個適用于任何數(shù)據(jù)文件的不同語言版本文件摘要信息通用模板,也就提取出了互聯(lián)網(wǎng)信息的通用數(shù)據(jù)要素和結構,獲得了一個文件摘要信息的通用數(shù)據(jù)庫,從而使互聯(lián)網(wǎng)成為一個名符其實的全球信息共享系統(tǒng)。
參見圖2,是實現(xiàn)本發(fā)明技術方案所應用的在先專利申請的文本語義標注通用模板結構。
從圖1可以看出,提供不同語言的“文摘”信息選項模板并不困難,但是,文摘信息不可能僅提供信息分類方法,它必須允許用戶自由輸入一定量的關鍵字甚至關鍵句子,因此,本發(fā)明的技術方案還涉及對用戶自由輸入的文本信息,如何實現(xiàn)語義信息多語共享的基本方法。
如果將互聯(lián)網(wǎng)上不同語言文本的翻譯需求,理解為“文本”語義信息共享需求,則“文本”信息共享與“文件”信息共享具有相同的基本環(huán)節(jié)語義信息發(fā)布、語義信息存儲與語義信息獲取。于是就可以在“文本”信息發(fā)布與獲取環(huán)節(jié)上提供一個共享的文本語義標注通用模板,一個在“文本”信息發(fā)布、存儲、獲取環(huán)節(jié)上皆適用的通用標注模板,來實現(xiàn)互聯(lián)網(wǎng)上的“文本”語義信息共享。
該模板中提供了適用于各種語言文本的語義信息通用要素,包括不同自然語言符號(單詞或句子),實施例以漢字寫出 “我現(xiàn)在需要文件信息共享系統(tǒng)”;由人機交互標注的多語通用概念定義標注項,包括對“我”多語標注為“本人”,對“現(xiàn)在”多語標注為“此時”,對“共享”標注為“共同分享”;由人機交互標注的多語通用句法信息標注項,包括對“我”多語標注為“主詞”,對“現(xiàn)在”多語標注為“謂詞修飾”,對“需要”標注為“謂詞”,對“文件信息共享”標注為“賓詞修飾”,對“系統(tǒng)”標注為“賓詞”;由人機交互標注的多語通用時態(tài)信息標注項,包括對“需要”多語標注為“現(xiàn)在時”;由人機交互標注的多語通用語態(tài)信息標注項,包括對“需要”多語標注為“主動”;由人機交互標注的多語通用語體信息標注項,包括對“我現(xiàn)在需要文件信息共享系統(tǒng)”多語標注為“書面語”。
從圖2所示可以看出,任何自然語言符號串,都可以用多語通用的有限語義信息項(包括有限基礎詞匯)進行語義標注(可參考《計算機世界》產(chǎn)品與技術版第19期文章《多語通訊的新技術幽靈-通用語言視窗》)。
由于標注選項受限,利用“文本”語義信息通用標注模板就可將文本信息發(fā)布方的文本語義標注結果,自動轉換成信息獲取方所需要的文字。并且對于原文的語義標注結果,也可通過采用一套轉換規(guī)則,自動轉換成按不同自然語言習慣表達的譯文。特別是,有了“文本語義信息標注通用模板”的幫助,即使“譯文”不夠準確,也能夠實現(xiàn)在不同語言用戶之間準確傳遞語義信息的任務。
本發(fā)明通過建立“不同語言版本文件摘要信息通用模板”、“文本語義標注通用模板”、“統(tǒng)一語義代碼多語轉換瀏覽器(或稱軟件)”及“文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫”,并嵌入在現(xiàn)有的國際互聯(lián)網(wǎng)信息傳播系統(tǒng)中,而建立起一個互聯(lián)網(wǎng)信息共享系統(tǒng),其信息共享的方法包括如圖3所示的信息加工與存儲程序,和如圖4所示的信息轉換與瀏覽程序。
參見圖3,圖中各框意義是框1,共享信息數(shù)據(jù)輸入采用現(xiàn)有文本文件輸入軟件輸入文本文件;框2,文本語義自動標注將文本文件傳輸?shù)秸Z義標注語料庫,與已經(jīng)標注過語義信息的文本語料進行自動匹配,以實現(xiàn)文本語義自動標注;框3,通用語義標注語料庫指已經(jīng)進行過語義標注的文本語料數(shù)據(jù)庫;框4,文本語義人機交互標注對未能在文本語料數(shù)據(jù)庫找到匹配對象的文本,進行人機交互標注、通過文本語義標注知識庫及規(guī)則庫進行自動標注和由用戶對標注結果進行審核及調整;框5,文本語義標注通用模板,如知識庫規(guī)則庫;框6,文本標注結果存儲建立文件標題,將文本標注結果存儲于文本信息數(shù)據(jù)庫;框7,文本存儲服務器即文本信息數(shù)據(jù)庫,可以是指定的專用數(shù)據(jù)庫,也可以是現(xiàn)有的存儲服務器;框8,文摘信息標注在“不同語言版本文件摘要信息通用模板”上對任意數(shù)據(jù)文件(包括圖形文件與聲音文件)進行關鍵字詞選擇與輸入框9,不同語言版本文件摘要信息通用模板;框10,文摘信息標注存儲將文摘信息的標注結果自動存儲于文摘信息數(shù)據(jù)庫中;框11,文摘信息數(shù)據(jù)庫是根據(jù)不同語言版本文件摘要信息通用模板結構建立起的文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫。
共享信息加工與存儲的方法主要包括1)不同語言用戶在使用不同語言的門戶網(wǎng)站上,采用“不同語言版本文件摘要信息通用模板”、“文本語義標注通用模板”(對自由填入的各語種的關鍵詞和句子,進行人機交互語義標注),對任意數(shù)據(jù)文件進行文件摘要信息輸入;2)不同語言用戶采用“文本語義標注通用模板”,對需要全球共享的文本信息進行通用語義標注,但如果用戶僅需要在一種語言用戶中實現(xiàn)信息共享,則不需要使用此模板作標注;3)將標注后的文摘信息、文本文件分別存儲,包括A、根據(jù)用戶對文摘信息的保留時間請求,將文摘信息存儲于文摘信息共享數(shù)據(jù)庫中,如不同地域的文摘信息,可存儲在不同地域門戶網(wǎng)站的文摘信息數(shù)據(jù)庫中;B、文本文件則存儲于用戶指定的任意(原有)文本存儲服務器中。
參見圖4,為本發(fā)明共享信息檢索與瀏覽流程框圖。其中的框7、框11具有與圖3所示相同的功能。框12,文摘信息查詢在“不同語言版本文件摘要信息通用模板”上進行關鍵字選擇和輸入;框13,文摘信息瀏覽根據(jù)用戶選擇和輸入的關鍵字,在文摘信息數(shù)據(jù)庫中自動檢索文件;框14,文摘信息瀏覽軟件(插件)包括文摘信息的多語解碼規(guī)則庫、排序規(guī)則、字符庫和瀏覽界面等;框15,文本信息瀏覽通過文件信息中的主頁標識,進入指定主頁;框16,文本信息瀏覽軟件包括文本信息的多語解碼規(guī)則庫、字符庫和瀏覽界面;框17,譯文加工將帶有語義標注信息的譯文文本文件傳輸?shù)阶g文加工語料庫,與已經(jīng)加工過的文本進行自動匹配,或根據(jù)文本語義標注結果,由人工進行譯文加工;框18,譯文加工語料庫帶有語義標注信息的已經(jīng)進行過譯文加工的文本語料數(shù)據(jù)庫。
共享信息檢索與瀏覽的方法主要包括1)用戶用自己熟悉的語言,在“不同語言版本文件摘要信息通用模板”上選擇和輸入檢索關鍵信息;2)搜索引擎在多個文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫中搜索,或在數(shù)據(jù)共享的鏡像文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫中搜索,并根據(jù)文件存儲信息與檢索信息的匹配程度,對所有文件摘要信息進行自動匹配和排序;3)用戶通過現(xiàn)有瀏覽器中的多語瀏覽軟件(插件),瀏覽以不同語言文字形式顯示的文摘信息;4)用戶在瀏覽文件信息之后,如果需要進一步瀏覽文本信息,再通過自動鏈接,訪問指定的文本信息存儲服務器;5)用戶通過現(xiàn)有瀏覽器中的多語瀏覽插件,瀏覽文本+語義標注信息。
本發(fā)明的不同語言版本文件摘要信息通用模板,具有極廣的實用價值,包括1.訪問網(wǎng)站任何網(wǎng)站只要在模板中提供相關信息,不同自然語言用戶皆可通過該“文摘模板”輸入檢索用的關鍵信息,自由訪問網(wǎng)站。發(fā)布或獲取信息標注結果瀏覽舉例如下,下例中冒號前為分類要素項,冒號后為用戶選項結果(關鍵字或關鍵句子),即實際顯示的結果,其中括弧外為選項結果,括弧內為用戶自由輸入的、已進行過文本語義標注的關鍵字、句。示例如下功能選擇發(fā)布或獲取標題(北京通用語言視窗公司)數(shù)據(jù)符號,映射(w-windows.com)領域通訊應用互動(多語翻譯)消息時間(2001)、地點(中國、北京)、事件(注冊)
主題狀態(tài)(開發(fā)產(chǎn)品)2.尋找郵件地址任何網(wǎng)民只要在“文摘模板”中提供相關信息,不同自然語言用戶即可通過在“文摘模板”輸入各種檢索關鍵信息,獲得郵件地址。示例如下功能選擇發(fā)布或獲取標題北京-劉莎數(shù)據(jù)符號,映射liusha@rol.net.cn領域通訊應用綜合消息時間(2001)、地點(中國、北京)、人物主題狀態(tài)(郵箱可使用)3.消息發(fā)布與獲取,示例如下功能選擇發(fā)布或獲取標題(不明皮膚疾病緊急求醫(yī))數(shù)據(jù)文字、圖像領域衛(wèi)生應用健康消息時間(1/2/2001-10/2/2001)、行為(緊急求醫(yī))主題狀態(tài)(病癥簡訴)對象機構(所有醫(yī)院皮膚科)4.商品交易,示例如下功能選擇發(fā)布/獲取標題(拍賣《天鵝湖)》手稿)數(shù)據(jù)文字領域文化(戲劇)應用交易消息時間(2/2001-10/2001)、行為(拍賣)、物品(手稿)主題狀態(tài)(私人擁有)對象買方5.新聞發(fā)布,示例如下功能選擇發(fā)布標題(克林頓卸任)數(shù)據(jù)文字、圖像領域政治應用新聞消息時間(2/2001-10/2001)、地點(美國、白宮)、人物(總統(tǒng))主題狀態(tài)、影響、評價對象機構(新聞媒體)6.知識傳播與獲取,示例如下功能選擇發(fā)布/獲取標題(相對論)數(shù)據(jù)文字、符號-影射(E=MC2)領域科學(物理)應用綜合消息時間( )、地點( )、人物(愛因斯坦)、理論、工具主題背景、影響、評價提供方(倫敦圖書館)7.消息與知識綜合獲取,示例如下
標題巴以關系數(shù)據(jù)文字、圖像領域政治應用綜合消息時間(2001)、地點(中東)主題背景、關系、歷史、影響、狀態(tài)、評價對象機構(倫敦圖書館、北京圖書館、以色列XX新聞社)8.商業(yè)廣告發(fā)布,示例如下功能發(fā)布標題長城飯店數(shù)據(jù)多媒體領域生活應用住消息時間(2001)、地點(中國、北京)主題歷史、狀態(tài)(有空房)對象需方9.非商業(yè)廣告發(fā)布,示例如下功能獲取標題尋求國內航班打折機票數(shù)據(jù)文字領域生活應用行消息時間(2001)、地點(中國、北京)、物品(機票)主題狀態(tài)(北京至上海,打六折)
10.適時多語對話,示例如下標題意甲聯(lián)賽現(xiàn)場討論數(shù)據(jù)文字領域體育(足球)應用娛樂消息時間(2001某月某日)、地點(意大利都靈)、行為(比賽)主題評價(須使用由信息共享系統(tǒng)提供的在線文本語義標注模板及BBS瀏覽器進行多語對話)。
參見圖5,圖中示出本發(fā)明信息共享系統(tǒng)提供信息共享服務的關系框圖。本發(fā)明的互聯(lián)網(wǎng)信息共享系統(tǒng)及其信息共享方法,可在現(xiàn)有互聯(lián)網(wǎng)通訊模式中成長,初期可采用信息共享軟件的“多點式”推廣應用,包括通過為數(shù)據(jù)庫類(圖書館、媒體、數(shù)據(jù)庫)網(wǎng)站直接提供信息共享軟件,在網(wǎng)民不需要任何新增軟件的前提下,直接提供網(wǎng)站信息的多語直接檢索和瀏覽,并開展多語文本信息訂閱服務;為普通企業(yè)和機構網(wǎng)站提供信息共享軟件,在網(wǎng)民不需要任何新增軟件的前提下,直接實現(xiàn)網(wǎng)站共享信息的多語直接檢索、瀏覽,以及與用戶進行多語溝通;為門戶類網(wǎng)站提供信息共享軟件,在網(wǎng)民不需要任何新增軟件的前提下,直接提供多語“廣告信息”自動匹配,以及提供多語共享BBS服務;為個人用戶提供文本信息共享軟件,使其能夠使用該軟件獨立實現(xiàn)電子郵件多語翻譯等,在上述多點式服務網(wǎng)站對共享信息的服務達到一定規(guī)模后,在不同語言的大型門戶類網(wǎng)站可提供一站式“信息共享”綜合服務。服務的基本方式可遵循收費會員制,按個人、普通企業(yè)、數(shù)據(jù)庫類企業(yè)分級并按年計費,提供軟件和服務。向會員提供的服務內容可包括向用戶提供信息共享軟件功能;向用戶提供不同語言版本文件摘要信息通用模板;向用戶提供文本語義標注通用模板;用戶訪問原文標注及譯文加工語料庫的權限;向用戶提供主頁、電子郵件的多語瀏覽軟件(指定譯文解碼軟件)。會員可在線使用的服務包括共享文摘信息存儲鏡像數(shù)據(jù)庫;共享文摘信息通用搜索引擎;共享廣告信息自動匹配、推送(按時、空用量單獨計費);多語共享主題分類聊天;多語對話加密專線等。
權利要求
1.一種互聯(lián)網(wǎng)信息共享系統(tǒng)的信息共享方法,其特征在于包括A.建立包括不同語言版本文件摘要信息通用模板和文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫的信息共享系統(tǒng);B.進行共享信息存儲時,用戶在門戶網(wǎng)站上,利用不同語言版本文件摘要信息通用模板,對任意數(shù)據(jù)文件進行文件摘要信息輸入,系統(tǒng)將不同語言版本文件摘要信息的統(tǒng)一語義代碼存儲在文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫中,和根據(jù)用戶在不同語言版本文件摘要信息通用模板上的指定,將用戶的非文件摘要信息文本存儲于對應地址的數(shù)據(jù)存儲服務器中;C.進行共享信息檢索與瀏覽時,用戶在門戶網(wǎng)站上,在不同語言版本文件摘要信息通用模板上選擇并輸入檢索關鍵信息,系統(tǒng)搜索引擎搜索文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫,根據(jù)存儲信息與檢索信息間的匹配度,對存儲的文件摘要信息進行自動匹配與排序,供用戶使用統(tǒng)一語義代碼多語轉換瀏覽器瀏覽,并通過自動鏈接供用戶進一步訪問所指定的非文件摘要信息存儲服務器。
2.根據(jù)權利要求1所述的一種互聯(lián)網(wǎng)信息共享系統(tǒng)的信息共享方法,其特征在于所述的步驟A中還包括,建立一個文本語義標注通用模板和統(tǒng)一語義代碼多語轉換瀏覽器;所述的步驟B中還包括,不同自然語言用戶,在對任意數(shù)據(jù)文件進行文件摘要信息輸入時還同時使用文本語義標注通用模板,對所輸入的不同自然語言文字符號進行通用語義信息人機交互標注;所述的步驟C中還包括,不同自然語言用戶,利用不同語言版本文件摘要信息通用模板選擇并輸入檢索關鍵信息時,還利用統(tǒng)一語義代碼多語轉換瀏覽器,瀏覽以不同語言文字形式顯示的關鍵字及關鍵句子信息。
3.根據(jù)權利要求2所述的一種互聯(lián)網(wǎng)信息共享系統(tǒng)的信息共享方法,其特征在于所述的文本語義標注通用模板,是對不同自然語言符號,通過人機交互,標注多語通用概念定義、多語通用句法信息、多語通用時態(tài)信息、多語通用語態(tài)信息和多語通用語體信息。
4.根據(jù)權利要求1或2所述的一種互聯(lián)網(wǎng)信息共享系統(tǒng)的信息共享方法,其特征在于所述的步驟B中,存儲文摘信息是按用戶在不同語言版本文件摘要信息通用模板上指定的保留時間請求,存儲在所述的文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫中。
5.根據(jù)權利要求1或2所述的一種互聯(lián)網(wǎng)信息共享系統(tǒng)的信息共享方法,其特征在于所述的步驟B中,存儲文摘信息是按用戶所處地域,同時存儲在該用戶所在各自網(wǎng)站的文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫中和各地的全球數(shù)據(jù)共享文件摘要信息鏡像數(shù)據(jù)庫中。
6.根據(jù)權利要求1或2所述的一種互聯(lián)網(wǎng)信息共享系統(tǒng)的信息共享方法,其特征在于所述的步驟C中,系統(tǒng)搜索引擎搜索各自網(wǎng)站文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫,還包括搜索全球數(shù)據(jù)共享文件摘要信息鏡像數(shù)據(jù)庫。
7.根據(jù)權利要求1或2所述的一種互聯(lián)網(wǎng)信息共享系統(tǒng)的信息共享方法,其特征在于所述的不同語言版本文件摘要信息通用模板,包含有適于各種數(shù)據(jù)文件的信息綜合分類通用要素,包括從信息發(fā)布或信息獲取角度提供的功能選擇要素項、文件標題要素項、從數(shù)據(jù)形式角度提供的數(shù)據(jù)分類要素項、從特殊符號與語義影射關系角度提供的語義要素項、從人類客觀認知角度提供的知識分類要素項、從用戶主觀需求角度提供的應用分類要素項、從物理時空角度提供的消息分類要素項、從事件性質角度提供的主題分類要素項、和從信息對稱關系角度提供的信息發(fā)布對象要素項。
8.根據(jù)權利要求7所述的一種互聯(lián)網(wǎng)信息共享系統(tǒng)的信息共享方法,其特征在于所述的文件標題要素項是提供文本語義標注的要素項;所述的從數(shù)據(jù)形式角度提供的數(shù)據(jù)分類要素項包括文字、圖像及聲音;所述的從特殊符號與語義影射關系角度提供的語義要素項包括含域名、郵箱、公式的符號項與含人名、公司名、公式名的符號解析語義影射關系項;所述的從人類客觀認知角度提供的知識分類要素項是選擇專業(yè)或普通領域分類,包括政治、經(jīng)濟、科學、文化、體育、衛(wèi)生、軍事、通訊、社會及其它;所述的從用戶主觀需求角度提供的應用分類要素包括衣、食、住、行、健康、學習、謀生、互動、交易、生活、綜合、新聞及其它;所述的從物理時空角度提供的消息分類要素包括時間、地點、人物、行為、事件、物品、理論和工具;所述的從事件性質角度提供的主題分類要素項,包括狀態(tài)、背景、關系、歷史、影響和評價;所述的從信息對稱關系角度提供的信息發(fā)布對象分類要素項,包括企業(yè)、機構、個人、供方、需方、買方和賣方;還包括信息源要素項,包括選擇提供者、域名或郵箱、提供時間、提供地點和保留時間或選擇經(jīng)文本語義標注后的提供者、域名或郵箱、提供時間、提供地點和保留時間。
9.根據(jù)權利要求7所述的一種互聯(lián)網(wǎng)信息共享系統(tǒng)的信息共享方法,其特征在于所述的從人類客觀認知角度提供的知識分類要素項,還包括填入關鍵詞或經(jīng)文本語義標注后的關鍵詞進一步限定所選知識分類子類的分類項;所述的從用戶主觀需求角度提供的應用分類要素,還包括填入關鍵詞或經(jīng)文本語義標注后的關鍵詞進一步擴展所選應用分類下各子類的分類項;所述的從物理時空角度提供的消息分類要素項,還包括填入關鍵詞或經(jīng)文本語義標注后的關鍵詞,進一步限定所選消息分類的內容;所述的從事件性質角度提供的主題分類要素,還包括填入關鍵詞或經(jīng)文本語義標注后的關鍵詞,進一步限定所選主題分類的內容。
10.一種互聯(lián)網(wǎng)信息共享系統(tǒng),其特征在于包括建立不同語言版本文件摘要信息通用模板、文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫、文本語義標注通用模板和統(tǒng)一語義代碼多語轉換瀏覽器,并嵌入國際互聯(lián)網(wǎng)系統(tǒng)中。
全文摘要
本發(fā)明涉及一種互聯(lián)網(wǎng)信息共享系統(tǒng)及信息共享方法,包括:建立包括不同語言版本文件摘要信息通用模板、文件摘要信息統(tǒng)一代碼數(shù)據(jù)庫、文本語義標注通用模板和摘要、文本信息的統(tǒng)一語義代碼多語轉換瀏覽器的信息共享系統(tǒng),并嵌入國際互聯(lián)網(wǎng)系統(tǒng)中;用戶利用不同語言版本文件摘要信息通用模板,對任意數(shù)據(jù)文件進行摘要信息輸入、存儲與檢索,在統(tǒng)一語義代碼多語轉換瀏覽器上,實現(xiàn)共享信息瀏覽,和進一步訪問存儲于用戶指定地址中的非文摘信息存儲服務器。
文檔編號G06F17/30GK1374603SQ0110915
公開日2002年10月16日 申請日期2001年3月9日 優(yōu)先權日2001年3月9日
發(fā)明者劉莎 申請人:劉莎