專利名稱:基于文本片斷的計(jì)算機(jī)漢字知識(shí)庫(kù)采集系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)信息采集系統(tǒng),特別涉及基于文本片斷的計(jì)算機(jī)漢字 知識(shí)庫(kù)采集系統(tǒng)。
背景技術(shù):
我們的生活和工作中產(chǎn)生了大量的漢字信息,并已經(jīng)轉(zhuǎn)換成計(jì)算機(jī)能認(rèn) 識(shí)的格式,存儲(chǔ)在計(jì)算機(jī)硬盤(pán)上。為了方便利用這些計(jì)算機(jī)漢字信息,人們 建立了知識(shí)庫(kù),存儲(chǔ)在計(jì)算機(jī)硬盤(pán)上。構(gòu)建這些在計(jì)算機(jī)硬盤(pán)上的知識(shí)庫(kù)一
般有兩種方式 一種是建立精確的知識(shí)描述,如"玫瑰是紅色的",由人手通 過(guò)鍵盤(pán)和鼠標(biāo)來(lái)輸入這些描述,典型的例子是專家系統(tǒng);另一種是建立文本 的存儲(chǔ)和關(guān)鍵字搜索體系,關(guān)鍵字間的關(guān)聯(lián)以及關(guān)鍵字與文本之間的關(guān)聯(lián)則 隱含了知識(shí),借助用戶的少量幫助,系統(tǒng)可以自動(dòng)對(duì)散布在各處的文本進(jìn)行 存檔、歸類和提取關(guān)鍵字,典型的例子包括Expert System的COGITO, Connotate的Information Agents,等等,而Google,百度等搜索引擎也提供 了部分的類似功能,但知識(shí)庫(kù)和關(guān)鍵字的精確度則低了許多。
第一種方式雖然能建立準(zhǔn)確的知識(shí)庫(kù),但需要大量的人力來(lái)輸入和驗(yàn) 證,因此知識(shí)庫(kù)進(jìn)展緩慢。第二種方式能在短時(shí)間建立起知識(shí)庫(kù),但知識(shí)庫(kù) 質(zhì)量不高,搜索結(jié)果還是需要最終用戶來(lái)篩選。由于企業(yè)信息化產(chǎn)生了大量 文本,企業(yè)投入了大量資金和精力建立了龐大的文本庫(kù),使得第二種方式應(yīng) 用極為廣泛。當(dāng)文本庫(kù)增長(zhǎng)到一定程度,關(guān)鍵字搜索的弊端就開(kāi)始顯示出來(lái)。 因?yàn)樗阉鞣祷氐慕Y(jié)果太多,真正的知識(shí)被隱藏在成千上萬(wàn)的文本之中,致使 最終用戶的篩選工作非常困難。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題有兩個(gè)首先,計(jì)算機(jī)漢字信息轉(zhuǎn)換錄入知 識(shí)庫(kù)的人工要少,最好在人們正常收集漢字信息的基礎(chǔ)上不增加人力,而且 不需要專門(mén)學(xué)習(xí),即技術(shù)上要解決與現(xiàn)有的用戶生成和收集計(jì)算機(jī)漢字信息 同步的問(wèn)題;其次,用戶在生成和收集計(jì)算機(jī)漢字信息時(shí)所隱含的知識(shí)要保 留下來(lái),即在技術(shù)上需要將知識(shí)與計(jì)算機(jī)漢字信息一起存儲(chǔ)在計(jì)算機(jī)硬盤(pán) 上。
本發(fā)明的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的 一種基于文本片斷的計(jì)算機(jī)漢字知識(shí)庫(kù)采集系統(tǒng),包括-文本片斷數(shù)據(jù)庫(kù),保存至少一個(gè)文本片斷記錄,所述文本片斷記錄包括
文本片斷所在文本的位置以及文本片斷在文本中的位置;
討論適配器,包括一個(gè)發(fā)送/接收單元,用于接收第三方系統(tǒng)的信息以及 向第三方系統(tǒng)發(fā)送信息,以及一個(gè)格式轉(zhuǎn)換單元,將討論數(shù)據(jù)庫(kù)中的內(nèi)部格
式與第三方系統(tǒng)的信息格式互相轉(zhuǎn)換;
討論數(shù)據(jù)庫(kù),存儲(chǔ)經(jīng)過(guò)格式轉(zhuǎn)換單元轉(zhuǎn)換格式后的信息;
知識(shí)數(shù)據(jù)庫(kù),用存儲(chǔ)預(yù)先定義的連接詞來(lái)定義文本片斷之間的關(guān)系,以
及該關(guān)系特有的屬性。
其中,所述的文本片斷為文字型文本片斷、圖片型文本片斷和/或多媒體
文本片斷。
所述文字型文本片斷的記錄包括所述文本的位置,以及所述文本片斷文 字行號(hào)的范圍、字詞的范圍或段落的范圍;所述圖片型文本片斷的記錄包括 圖片文件的位置,以及所述文本片斷所表示的截圖的范圍坐標(biāo);所述多媒體 文本片斷的記錄包括該多媒體文件的位置,以及文本片斷的起始和結(jié)束時(shí) 間。
在文本片斷數(shù)據(jù)庫(kù)中,利用網(wǎng)絡(luò)地址URL指明文本片斷所在文本的位置。所述第三方系統(tǒng)為外部的論壇系統(tǒng)、電子郵件系統(tǒng)或即時(shí)通訊系統(tǒng)。 所述內(nèi)部格式有如下組成部分本討論標(biāo)題,本討論作者,本討論收件
人,本討論時(shí)間,本討論內(nèi)容,本討論針對(duì)的文本片斷,對(duì)本討論針對(duì)的文
本片斷的問(wèn)題或解答。
所述知識(shí)數(shù)據(jù)庫(kù)的記錄包括源文本片斷、目標(biāo)文本片斷、連接詞以及屬
性信息,其中文本片斷是文本片斷數(shù)據(jù)庫(kù)記錄的文本片斷。知識(shí)庫(kù)中記載的
文本片斷為該片斷在文本片斷庫(kù)中的獨(dú)特編號(hào),無(wú)須復(fù)制該片斷的全部?jī)?nèi)容。
本發(fā)明的積極進(jìn)步效果在于把計(jì)算機(jī)漢字信息產(chǎn)生時(shí)附帶的知識(shí)予以 保存,大大節(jié)省了日后檢索知識(shí)庫(kù)所耗費(fèi)的時(shí)間,能明顯提高企事業(yè)單位對(duì) 專業(yè)知識(shí)的使用,從而節(jié)省產(chǎn)品研發(fā)、客戶服務(wù)和決策等的成本。
圖l為本發(fā)明一實(shí)施例的示意圖。
具體實(shí)施例方式
下面結(jié)合附圖給出本發(fā)明較佳實(shí)施例,以詳細(xì)說(shuō)明本發(fā)明的技術(shù)方案。
首先,每個(gè)文本可以分成很多片斷。 一個(gè)典型的片斷就是"第23行到 28行"。而在文本以及文本片斷之間,存在邏輯關(guān)系。建立文本片斷之間的 關(guān)系,不管這些片斷是來(lái)自同一個(gè)文件還是不同的文件。例如,"文本A的 第二個(gè)片斷""解釋""文本K的第12個(gè)片斷"。每個(gè)關(guān)系包括:源文本片斷, 目的文本片斷、連接詞以及該關(guān)系所具有的屬性。
本發(fā)明用線索化的討論來(lái)建立這些連接。線索化的討論可以是在論壇、 電子郵件、即時(shí)通訊等第三方系統(tǒng)中進(jìn)行。
系統(tǒng)預(yù)先定義一些連接詞,例如,"證明","符合"。 一個(gè)用戶可以選取 他所關(guān)心的文本片斷,通過(guò)鍵盤(pán)、鼠標(biāo),或者手機(jī)輸入,作為討論主題來(lái)發(fā) 起線索化的討論。其他用戶同樣通過(guò)鍵盤(pán)、鼠標(biāo)或手機(jī)輸入對(duì)該主題的回復(fù),就構(gòu)成了一個(gè)"線索"?;貜?fù)中可以隨意選取其他文本片斷,并加上預(yù)定義 的連接詞。例如, 一個(gè)用戶可以對(duì)"研發(fā)項(xiàng)目計(jì)劃"的"預(yù)算"部分提出疑 問(wèn),而另一位用戶可以回復(fù),指出該預(yù)算"符合""公司年度預(yù)算"的"研 發(fā)部門(mén)"部分。用戶之間這個(gè)發(fā)問(wèn)和回復(fù)過(guò)程所建立的文本片斷之間的連接, 會(huì)被保存到知識(shí)庫(kù)中。
根據(jù)上述原理,本發(fā)明提供一種基于文本片斷的計(jì)算機(jī)漢字知識(shí)庫(kù)采集 系統(tǒng),包括有
文本片斷數(shù)據(jù)庫(kù)100,保存至少一個(gè)文本片斷記錄,所述文本片斷記錄 包括文本片斷所在文本的位置以及文本片斷在文本中的位置,利用網(wǎng)絡(luò)地址
URL指明文本片斷所在文本的位置,或者其它可以指明該文本位置的索引。 文本片斷數(shù)據(jù)庫(kù)100不保存該文本或該文本片斷的實(shí)際內(nèi)容。
其中,所述的文本片斷可以是文字型文本片斷、圖片型文本片斷和/或多 媒體文本片斷。
對(duì)于文字型文本片斷,記錄中包括所述文本的位置,以及所述文本片斷 文字行號(hào)的范圍、字詞的范圍或段落的范圍,例如,100行到123行,字100 到234,或第4段,范圍也可以用搜索標(biāo)記來(lái)表示,例如,某文本片斷的開(kāi) 頭是"信息技術(shù)"在文中的第三次出現(xiàn)。文字型文本包含的圖片和表格就是 用搜索標(biāo)記表示的,例如,第3張圖片,或第10個(gè)表格。
對(duì)于圖片型文本片斷,記錄包括圖片文件的位置,以及所述文本片斷所 表示的截圖的范圍坐標(biāo),例如,圖片本身的大小是400x300, 一個(gè)圖片片斷 就是包含在該圖片的一個(gè)小窗口,相對(duì)于圖片,左上角的坐標(biāo)為(120, 30), 右下角的坐標(biāo)為(200, 200),所以該片斷用(120, 30, 200, 200)表示。
而對(duì)于多媒體文本片斷,記錄則包括該多媒體文件的位置,以及文本片 斷的起始和結(jié)束時(shí)間,例如, 一個(gè)DVD電影的第12分20秒到15分11秒, 就用(12:20, 15:11)來(lái)表示。
以及,討論適配器200,包括發(fā)送/接收單元,用于接收第三方系統(tǒng)600 的信息以及向第三方系統(tǒng)600發(fā)送信息;格式轉(zhuǎn)換單元,將討論數(shù)據(jù)庫(kù)中的內(nèi)部格式與第三方系統(tǒng)600的信息格式互相轉(zhuǎn)換。所述第三方系統(tǒng)600為外 部的論壇系統(tǒng)、電子郵件系統(tǒng)或即時(shí)通訊系統(tǒng)。
線索化討論可以有不同的格式。例如,用戶可以在論壇中發(fā)帖,通過(guò)電 子郵件討論,還能通過(guò)及時(shí)通訊來(lái)交流。這些討論用統(tǒng)一內(nèi)部格式形成數(shù)據(jù) 庫(kù)存儲(chǔ)在服務(wù)器硬盤(pán)上。
內(nèi)部格式有如下組成部分本討論標(biāo)題,本討論作者,本討論收件人, 本討論時(shí)間,本討論內(nèi)容,本討論針對(duì)的文本片斷,對(duì)本討論針對(duì)的文本片 斷的問(wèn)題或解答。
格式轉(zhuǎn)換單元把這些不同的討論格式轉(zhuǎn)換成內(nèi)部格式,以便存在討論數(shù) 據(jù)庫(kù)300的硬盤(pán)上。例如,電子郵件的主題、作者、收件人、時(shí)間、內(nèi)容、 附件,被轉(zhuǎn)換為內(nèi)部數(shù)據(jù)的標(biāo)題、作者、收件人、時(shí)間、內(nèi)容、文本片斷(由 附件轉(zhuǎn)換而來(lái))、針對(duì)文本片斷的問(wèn)題或解答(由解析內(nèi)容和附件得到)。格 式轉(zhuǎn)換的過(guò)程可使用現(xiàn)有技術(shù)完成。
發(fā)送/接收單元,從上述的各種第三方系統(tǒng)獲取信息,傳給該格式轉(zhuǎn)換單 元進(jìn)行轉(zhuǎn)換,以及將從討論數(shù)據(jù)庫(kù)中取出的數(shù)據(jù)并發(fā)送到論壇、電子郵件和 及時(shí)通訊中去,在發(fā)送之前,數(shù)據(jù)格式已經(jīng)被所述格式轉(zhuǎn)換單元轉(zhuǎn)換成相應(yīng) 的第三方系統(tǒng)的信息格式。
討論數(shù)據(jù)庫(kù)300用于存儲(chǔ)經(jīng)過(guò)格式轉(zhuǎn)換單元轉(zhuǎn)換格式后的信息;
為了存儲(chǔ)文本片斷的關(guān)系,本系統(tǒng)還設(shè)有知識(shí)數(shù)據(jù)庫(kù)400,用存儲(chǔ)預(yù)先 定義的連接詞來(lái)定義文本片斷之間的關(guān)系,以及該關(guān)系特有的屬性。每條記 錄包括原文本片斷、目標(biāo)文本片斷、連接詞以及屬性信息,其中文本片斷是 討論數(shù)據(jù)庫(kù)記錄的文本片斷。知識(shí)庫(kù)中記載的文本片斷為該片斷在文本片斷 庫(kù)中的獨(dú)特編號(hào),無(wú)須復(fù)制該片斷的全部?jī)?nèi)容。如表l所示源文本片斷目標(biāo)文本片斷連 接詞屬性
"項(xiàng)目計(jì)劃"的"預(yù)算""2007年公司預(yù)算"的"研發(fā)預(yù) 算""符合""數(shù)值上低 于,,
"常見(jiàn)網(wǎng)絡(luò)問(wèn)題"的"第 12條""萬(wàn)路公司用戶手冊(cè)"的"第200 頁(yè)""解決方 法是"
表1
上述第一條記錄中,原文本片斷是"項(xiàng)目計(jì)劃"這個(gè)文本中的片斷——
"預(yù)算",而目標(biāo)文本片斷是"2007年公司預(yù)算"這個(gè)文本中的片斷——"研 發(fā)預(yù)算",這兩個(gè)片斷之間的邏輯關(guān)系通過(guò)預(yù)先設(shè)定的連接詞"符合"表達(dá), 而這個(gè)關(guān)系具有特定的屬性,即項(xiàng)目計(jì)劃的預(yù)算是"數(shù)值上低于"2007年公 司預(yù)算中的研發(fā)預(yù)算。
如圖1所示,本系統(tǒng)可以設(shè)定在一個(gè)系統(tǒng)服務(wù)器500上,客戶端700通 過(guò)計(jì)算機(jī)網(wǎng)絡(luò)訪問(wèn)和使用本系統(tǒng)??蛻舳?00運(yùn)行用戶界面程序,可以是包 括鍵盤(pán)、鼠標(biāo)和顯示器的計(jì)算機(jī),或者移動(dòng)電腦終端,以及手機(jī)。用戶可以 用客戶端選擇文本和片斷,參與線索化的討論??蛻舳?00通過(guò)計(jì)算機(jī)網(wǎng)絡(luò) 與運(yùn)行文本片斷庫(kù)、討論數(shù)據(jù)庫(kù)、討論適配器和知識(shí)庫(kù)的系統(tǒng)服務(wù)器500通 訊。
本系統(tǒng)使用過(guò)程中還需要其它用于支持本系統(tǒng)運(yùn)行的部分,如用戶登錄 系統(tǒng)等用戶界面,存取和操作數(shù)據(jù)庫(kù)信息的程序等,這些部分可以采用現(xiàn)有 技術(shù)。
下面以表l中第二條記錄為例,說(shuō)明使用通過(guò)本系統(tǒng)的過(guò)程。 用戶甲登陸到系統(tǒng)并選擇"常見(jiàn)網(wǎng)絡(luò)問(wèn)題",在其使用的第一客戶端顯 示該文本,并讓甲選擇文本片斷。甲選擇該文本的第12條,寫(xiě)下求助的話, "誰(shuí)能解決這個(gè)問(wèn)題?",通過(guò)其使用的第一客戶端在論壇發(fā)表,并且生成 一個(gè)新的線索化討論的記錄,包含該文本片斷和用戶的問(wèn)題等,存儲(chǔ)在討論 數(shù)據(jù)庫(kù)300和文本片斷庫(kù)100中,然后通過(guò)討論適配器200把該討論發(fā)到論壇上。
用戶乙登陸到論壇見(jiàn)到該討論,選擇"萬(wàn)路公司用戶手冊(cè)",其所使用
的第二客戶端顯示該文本,并讓乙選擇文本片斷。乙選擇該文本的第200頁(yè)。 在第二客戶端顯示所有的連接詞。乙選擇"解決方法是",并寫(xiě)下"這樣做
就可以了,我也碰到過(guò)這個(gè)問(wèn)題",更新該線索化討論的記錄,包含乙選擇 的文本片斷、連接詞和乙的回復(fù),存儲(chǔ)在討論數(shù)據(jù)庫(kù)300和文本片斷庫(kù)100 中,然后通過(guò)討論適配器200把該討論發(fā)到論壇上。
用戶乙所推薦的連接,即"常見(jiàn)網(wǎng)絡(luò)問(wèn)題"的"第12條","解決方法 是","萬(wàn)路公司用戶手冊(cè)"的"第200頁(yè)",同時(shí)也被存入知識(shí)數(shù)據(jù)庫(kù)400 之中。
權(quán)利要求
1、 一種基于文本片斷的計(jì)算機(jī)漢字知識(shí)庫(kù)采集系統(tǒng),其特征在于,該系統(tǒng)包括文本片斷數(shù)據(jù)庫(kù),保存至少一個(gè)文本片斷記錄,所述文本片斷記錄包括文本片斷所在文本的位置以及文本片斷在文本中的位置;討論適配器,包括一個(gè)發(fā)送/接收單元,用于接收第三方系統(tǒng)的信息以及向第三方系統(tǒng)發(fā)送信息,以及一個(gè)格式轉(zhuǎn)換單元,將討論數(shù)據(jù)庫(kù)中的內(nèi)部格式與第三方系統(tǒng)的信息格式互相轉(zhuǎn)換;討論數(shù)據(jù)庫(kù),存儲(chǔ)經(jīng)過(guò)格式轉(zhuǎn)換單元轉(zhuǎn)換格式后的信息;知識(shí)數(shù)據(jù)庫(kù),用存儲(chǔ)預(yù)先定義的連接詞來(lái)定義文本片斷之間的關(guān)系,以及該關(guān)系特有的屬性。
2、 根據(jù)權(quán)利要求1所述的基于文本片斷的計(jì)算機(jī)漢字知識(shí)庫(kù)采集系統(tǒng), 其特征在于,所述的文本片斷為文字型文本片斷、圖片型文本片斷和/或多媒 體文本片斷。
3、 根據(jù)權(quán)利要求2所述的基于文本片斷的計(jì)算機(jī)漢字知識(shí)庫(kù)采集系統(tǒng), 其特征在于,所述文字型文本片斷的記錄包括所述文本的位置,以及所述文 本片斷文字行號(hào)的范圍、字詞的范圍或段落的范圍;所述圖片型文本片斷的 記錄包括圖片文件的位置,以及所述文本片斷所表示的截圖的范圍坐標(biāo);所 述多媒體文本片斷的記錄包括該多媒體文件的位置,以及文本片斷的起始和 結(jié)束時(shí)間。
4、 根據(jù)權(quán)利要求1所述的基于文本片斷的計(jì)算機(jī)漢字知識(shí)庫(kù)采集系統(tǒng), 其特征在于,在文本片斷數(shù)據(jù)庫(kù)中,利用網(wǎng)絡(luò)地址URL指明文本片斷所在 文本的位置。
5、 根據(jù)1-4任一權(quán)利要求所述的基于文本片斷的計(jì)算機(jī)漢字知識(shí)庫(kù)采 集系統(tǒng),其特征在于,所述第三方系統(tǒng)為外部的論壇系統(tǒng)、電子郵件系統(tǒng)或即時(shí)通訊系統(tǒng)。
6、 根據(jù)權(quán)利要求5所述的基于文本片斷的計(jì)算機(jī)漢字知識(shí)庫(kù)采集系統(tǒng),其特征在于,所述內(nèi)部格式有如下組成部分本討論標(biāo)題,本討論作者,本 討論收件人,本討論時(shí)間,本討論內(nèi)容,本討論針對(duì)的文本片斷,對(duì)本討論 針對(duì)的文本片斷的問(wèn)題或解答。
7、 根據(jù)權(quán)利要求6所述的基于文本片斷的計(jì)算機(jī)漢字知識(shí)庫(kù)采集系統(tǒng), 其特征在于,所述知識(shí)數(shù)據(jù)庫(kù)的記錄包括源文本片斷、目標(biāo)文本片斷、連接 詞以及屬性信息,其中文本片斷是文本片斷數(shù)據(jù)庫(kù)記錄的文本片斷。知識(shí)庫(kù) 中記載的文本片斷為該片斷在文本片斷庫(kù)中的獨(dú)特編號(hào),無(wú)須復(fù)制該片斷的 全部?jī)?nèi)容。
全文摘要
本發(fā)明公開(kāi)了一種基于文本片斷的計(jì)算機(jī)漢字知識(shí)庫(kù)采集系統(tǒng),包括文本片斷數(shù)據(jù)庫(kù),保存文本片斷記錄,包括文本片斷所在文本的位置以及文本片斷在文本中的位置;討論適配器,包括發(fā)送/接收單元,用于接收第三方系統(tǒng)的信息以及向第三方系統(tǒng)發(fā)送信息,以及格式轉(zhuǎn)換單元,將討論數(shù)據(jù)庫(kù)中的內(nèi)部格式與第三方系統(tǒng)的信息格式互相轉(zhuǎn)換;討論數(shù)據(jù)庫(kù),存儲(chǔ)經(jīng)過(guò)格式轉(zhuǎn)換后的信息;知識(shí)數(shù)據(jù)庫(kù),用存儲(chǔ)預(yù)先定義的連接詞來(lái)定義文本片斷之間的關(guān)系,以及該關(guān)系特有的屬性。本發(fā)明把計(jì)算機(jī)漢字信息產(chǎn)生時(shí)附帶的知識(shí)予以保存,大大節(jié)省了日后檢索知識(shí)庫(kù)所耗費(fèi)的時(shí)間,能明顯提高企事業(yè)單位對(duì)專業(yè)知識(shí)的使用,從而節(jié)省產(chǎn)品研發(fā)、客戶服務(wù)和決策等的成本。
文檔編號(hào)G06F17/30GK101286148SQ20071003941
公開(kāi)日2008年10月15日 申請(qǐng)日期2007年4月12日 優(yōu)先權(quán)日2007年4月12日
發(fā)明者勝 朱 申請(qǐng)人:上海思闊雅軟件有限公司