專利名稱:從文檔到排名短語(yǔ)的語(yǔ)義分析的制作方法
從文檔到排名短語(yǔ)的語(yǔ)義分析
背景技術(shù):
用于向潛在消費(fèi)者呈現(xiàn)廣告的傳統(tǒng)技術(shù)提供了在其中呈現(xiàn)出這 些廣告的多個(gè)媒介。目前,與雜志出版商在他們的雜志中出售廣告 空間相類似,人們可以通過(guò)出售文檔中的空間,而在他們的非網(wǎng)站 內(nèi)容文檔中布置廣告。廣告也可以例如經(jīng)由廣告—黃幅而顯示在網(wǎng)站 上。另外,廣告可以經(jīng)由贊助廣告而顯示在搜索引擎上。在目標(biāo)廣 告中,廣告商通過(guò)選擇關(guān)鍵字或關(guān)鍵字詞組,并通過(guò)與也期望這些 關(guān)鍵字或關(guān)鍵字詞組相關(guān)的網(wǎng)站上出現(xiàn)他們廣告的其它廣告商竟?fàn)?而為廣告付費(fèi)。
當(dāng)最終用戶登錄包含廣告的網(wǎng)站時(shí),廣告(廣告商已經(jīng)為關(guān)鍵
字或關(guān)鍵字詞組出價(jià))被顯示。廣告的顯示稱為"印象(impression )"。 廣告商并不為印象付費(fèi)。相反,廣告商為他們的目標(biāo)消費(fèi)者最有可 能在為找到他們的產(chǎn)品類型或服務(wù)類型而在搜索欄中輸入的"關(guān)鍵 字"而出價(jià)。當(dāng)最終用戶選擇(即,"點(diǎn)擊")廣告時(shí),廣告商因 該選擇而被計(jì)費(fèi)。無(wú)論廣告商為導(dǎo)致廣告顯示(即,印象)的關(guān)鍵 字或關(guān)鍵字詞組出價(jià)多少,廣告商都被計(jì)費(fèi)。最終用戶每點(diǎn)擊一次 該廣告,廣告商都由于該選擇被計(jì)費(fèi)。例如,如果廣告商出售藍(lán)點(diǎn) (bluedot),則廣告商將為關(guān)鍵字"藍(lán)點(diǎn)"出價(jià),并期望用戶在搜 索欄中鍵入這些字、瀏覽他們的廣告、點(diǎn)擊這個(gè)廣告并且最終購(gòu)買。 這些廣告稱為"贊助鏈接"或"贊助廣告",并出現(xiàn)在搜索引擎的 網(wǎng)頁(yè)上鄰近搜索結(jié)果處或在搜索結(jié)果之上。廣告商只是當(dāng)最終用戶 選擇(即,"點(diǎn)擊")廣告時(shí)才為廣告付費(fèi),這是已知的"按每次 點(diǎn)擊支付"。每當(dāng)最終用戶選擇(即,"點(diǎn)擊")出現(xiàn)在網(wǎng)站所有 者的網(wǎng)站上的廣告時(shí),該網(wǎng)站所有者也會(huì)有少量的收入
發(fā)明內(nèi)容
傳統(tǒng)的計(jì)算;f幾系統(tǒng)有許多缺陷。例如,這些傳統(tǒng)系統(tǒng)(例如, 傳統(tǒng)廣告內(nèi)容服務(wù)系統(tǒng))需要手動(dòng)輸入被用于確定廣告關(guān)聯(lián)性的關(guān) 鍵字。具體地,搜索引擎通常依賴諸如關(guān)鍵字元標(biāo)簽的網(wǎng)站管理者 提供的信息。這里,網(wǎng)站管理者可以向期望的搜索引擎提交網(wǎng)頁(yè)或 URI (統(tǒng)一資源標(biāo)識(shí)符),該搜索引擎會(huì)發(fā)出蜘蛛(spider)以"爬 取,,該頁(yè)面、從中提取到其它頁(yè)面的鏈接以及在該網(wǎng)頁(yè)中發(fā)現(xiàn)的索 引信息。搜索引擎蜘蛛下載該頁(yè)面,并且在搜索引擎自己的服務(wù)器 時(shí)存儲(chǔ)該頁(yè)面,其中,在搜索引擎自已的服務(wù)器中有稱為索引器的 第二程序,其提取關(guān)于該頁(yè)面的各種信息。由于網(wǎng)站管理者通常通 過(guò)加入不相關(guān)的關(guān)鍵字以虛作i增加他們網(wǎng)站的頁(yè)面印象以及增加他 們的廣告收入,而經(jīng)常濫用提交的元標(biāo)簽,所以基于元數(shù)據(jù)來(lái)為頁(yè) 面編制索引并不很可靠。由于這會(huì)導(dǎo)致為不相關(guān)的搜索創(chuàng)建條件以 及創(chuàng)建具有不準(zhǔn)確搜索結(jié)果排名的搜索,所以網(wǎng)站管理者負(fù)面地影 響搜索引擎的聲譽(yù)。
傳統(tǒng)系統(tǒng)的另外缺陷在于針對(duì)從廣告商群體(pool)收集的廣告 關(guān)鍵字來(lái)匹配用戶查詢(或用戶創(chuàng)建的電子郵件文本)。為了實(shí)施 這樣的技術(shù),傳統(tǒng)搜索引擎依賴跨越巨量?jī)?nèi)容搜索基礎(chǔ)架構(gòu)的數(shù)據(jù) 挖掘。維持這樣的基礎(chǔ)架構(gòu)花費(fèi)高昂,而且久而久之,隨著存儲(chǔ)的 數(shù)據(jù)量的顯著增加而變得復(fù)雜。由于還必須創(chuàng)建和存儲(chǔ)為了高效挖 掘數(shù)據(jù)而需要與預(yù)定廣告關(guān)鍵字的復(fù)雜聯(lián)系和數(shù)據(jù)關(guān)系,并且還要 保持其容易訪問(wèn)且響應(yīng)于用戶查詢及時(shí)被處理,這點(diǎn)尤其可以體會(huì)。
這里討論的技術(shù)顯著克服了諸如上面已討論那些之類的傳統(tǒng)應(yīng) 用和現(xiàn)有技術(shù)已知的其它技術(shù)的缺陷。正如進(jìn)一步被討論,這里的 某些特定實(shí)施方式是針對(duì)語(yǔ)義分析器的。這里描述的語(yǔ)義分析器的 一個(gè)或多個(gè)實(shí)施方式與傳統(tǒng)系統(tǒng)相比,允i午自動(dòng)分析文檔以識(shí)別關(guān) 鍵字。
例如,用戶具有需要關(guān)鍵字的大文檔,以確保與文件內(nèi)容相關(guān) 的廣告將與該文件一起被呈現(xiàn)。用戶不是該文檔的作者,而且僅具
有關(guān)于該文檔內(nèi)容的相關(guān)主題的淺顯知識(shí)。雖然如此,該用戶期望字。在一個(gè)實(shí)施方式中,該語(yǔ)義分析器能夠自動(dòng)向用戶提供這樣的 關(guān)鍵字。
與用戶浪費(fèi)時(shí)間閱讀整篇文檔不同,語(yǔ)義分析器自動(dòng)分析文檔 中的短語(yǔ),而且評(píng)估文檔內(nèi)容與短語(yǔ)的關(guān)聯(lián)性。語(yǔ)義分析器提取短 語(yǔ)(短語(yǔ)是包括一個(gè)或多個(gè)并列字、標(biāo)點(diǎn)、數(shù)字和/或縮寫的組)的 所有出現(xiàn)(即,提及)、對(duì)提取的短語(yǔ)執(zhí)行統(tǒng)計(jì)功能(或計(jì)算),
排名類。
基于反饋廣告的優(yōu)良程度,語(yǔ)義分析器允許用戶審核和編輯語(yǔ) 義短語(yǔ)的列表。 一旦用戶預(yù)覽出語(yǔ)義短語(yǔ)反饋廣告的優(yōu)良程度,語(yǔ) 義分析器便允許用戶將期望的語(yǔ)義短語(yǔ)作為語(yǔ)義關(guān)鍵字關(guān)聯(lián)回到文 檔中。
因此,語(yǔ)義分析器向用戶提供了這樣的優(yōu)勢(shì),即,與用戶對(duì)文 檔主題對(duì)象的理解無(wú)關(guān),而是從基于從文檔中提取的文本的列表已 排名語(yǔ)義短語(yǔ)中確定關(guān)鍵字。而且,允許該用戶當(dāng)與文檔一起呈現(xiàn) 廣告時(shí),預(yù)覽具體某個(gè)語(yǔ)義短語(yǔ)如何最終執(zhí)行。
特別地,語(yǔ)義分析器對(duì)語(yǔ)義短語(yǔ)進(jìn)行排名,以反映它們與文檔 的主題和話題的關(guān)系。在語(yǔ)義分析器執(zhí)行文本提取之前,文本和文 檔可以與任意預(yù)先選擇的關(guān)鍵字沒有關(guān)系。語(yǔ)義分析器從文檔中提 取文本,并且對(duì)提取出的文本執(zhí)行語(yǔ)義分析。語(yǔ)義分析器提供多個(gè) 已排名的語(yǔ)義短語(yǔ)作為該語(yǔ)義分析的結(jié)果,和將語(yǔ)義短語(yǔ)作為語(yǔ)義 關(guān)鍵字與該文檔相關(guān)聯(lián)。語(yǔ)義短語(yǔ)定義出與該文檔一起被呈現(xiàn)的內(nèi) 容,該內(nèi)容是廣告、到遠(yuǎn)程信息資源的鏈接或第二文檔。
這里披露的其它實(shí)施方式包括任意類型的計(jì)算化設(shè)備、工作站、 手持或膝上型計(jì)算機(jī),或配置有軟件和/或電路(例如,處理器)以 處理這里披露的方法的全部或任意操作的其它設(shè)備。換句話說(shuō),被 編程或配置以如這里解釋的來(lái)進(jìn)行操作的諸如計(jì)算機(jī)或數(shù)據(jù)通信設(shè) 備或任意類型處理器的計(jì)算化設(shè)備,視為這里披露的實(shí)施方式。這驟和操作的軟件程序。 一種這樣的實(shí)施方式包括具有編碼其上的計(jì) 算機(jī)程序邏輯的計(jì)算機(jī)可讀介質(zhì)的計(jì)算機(jī)程序產(chǎn)品,當(dāng)在具有存儲(chǔ) 器和處理器耦合的計(jì)算化設(shè)備中執(zhí)行時(shí),為處理器編程以執(zhí)行這里
披露的操作。典型地,這些布置被提供為布置或編碼在諸如光學(xué) 介質(zhì)(例如,CD-ROM)、軟盤或硬盤、或一或多個(gè)ROM或RAM 或PROM芯片中諸如固件或微代碼的其它介質(zhì)的計(jì)算機(jī)可讀介質(zhì)上 的軟件、代碼和/或其它數(shù)據(jù)(例如,數(shù)據(jù)結(jié)構(gòu)),或作為專用集成 電路(ASIC)。軟件或固件或其它這種配置可以安裝到計(jì)算化設(shè)備 中,以引起該計(jì)算化設(shè)備執(zhí)行作為在這里披露的實(shí)施方式所解釋的 技術(shù)。
可以理解,這里披露的系統(tǒng)可以僅實(shí)施為軟件程序,軟件和硬 件,或僅硬件。這里披露的實(shí)施方式,可以在數(shù)據(jù)通信設(shè)備和這些 設(shè)備的其它計(jì)算化設(shè)備和軟件系統(tǒng)中使用,諸如由美國(guó)加利福尼亞 圣何塞的Adobe系統(tǒng)集成公司制造的那些,此后在這里稱為"Adobe" 和"Adobe系統(tǒng)"。
根據(jù)下面對(duì)配置用于提供反映文檔主題和話題的語(yǔ)義短語(yǔ)排名
列表的語(yǔ)義分析器的方法和裝置的實(shí)施方式的更加特定描述,如在
各個(gè)不同視圖中用相同參考符號(hào)表示相同部分的附圖中所圖示,本
發(fā)明的前述以及其它目標(biāo)、特點(diǎn)和優(yōu)點(diǎn)將變得明顯。附圖側(cè)重于圖
示出與本發(fā)明一致的方法和裝置的實(shí)施方式、原則和概念,并沒有 必要嚴(yán)格依照比例。
圖1為配置有根椐這里的實(shí)施方式的語(yǔ)義分析器的計(jì)算機(jī)系統(tǒng) 的框圖。
圖2為配置有根據(jù)這里的實(shí)施方式的語(yǔ)義分析器的計(jì)算機(jī)系統(tǒng) 的框圖。
圖3為由語(yǔ)義分析器執(zhí)行的處理步驟的流程圖。
10圖4為根據(jù)這里的實(shí)施方式,由語(yǔ)義分析器執(zhí)行對(duì)提取文本的 語(yǔ)義處理的處理步驟的流程圖。
圖5為根據(jù)這里的實(shí)施方式,由語(yǔ)義分析器執(zhí)行對(duì)提取文本的 統(tǒng)計(jì)處理的處理步驟的流程圖。
圖6為根據(jù)這里的實(shí)施方式,由語(yǔ)義分析器執(zhí)行提供語(yǔ)義短語(yǔ) 的排名列表以及內(nèi)容預(yù)覽的處理步驟的流程圖。
具體實(shí)施例方式
根據(jù)這里的實(shí)施方式,語(yǔ)義分析器被配置以提供反映本文檔的 主題和話題的語(yǔ)義短語(yǔ)的排名列表。這樣的已排名語(yǔ)義短語(yǔ)可以由 用戶選擇,以作為文檔的關(guān)鍵字。具體地,在語(yǔ)義分析器執(zhí)行文本 提取之前,文本和文檔可以與任意預(yù)先選擇的關(guān)鍵字沒有關(guān)系。語(yǔ) 義分析器從文檔中提取文本,并且對(duì)提取出的文本執(zhí)行語(yǔ)義分析。 以作為語(yǔ)義分析的結(jié)果,語(yǔ)義分析器提供多個(gè)已排名語(yǔ)義短語(yǔ),并 且將語(yǔ)義短語(yǔ)作為語(yǔ)義關(guān)鍵字與該文檔相關(guān)聯(lián)。語(yǔ)義短語(yǔ)定義出與 文檔一起呈現(xiàn)的內(nèi)容,該內(nèi)容是廣告、到遠(yuǎn)程信息資源的鏈接或第 二文檔。
可以理解,標(biāo)志是包含文檔中單詞(誤拼寫的或虛構(gòu)的),以 及來(lái)自標(biāo)點(diǎn)、縮寫和數(shù)字等字符的任意串。短語(yǔ)可以是標(biāo)志的連續(xù) 組,諸如兩或三個(gè)單詞。另外,提及是短語(yǔ)在文檔中的實(shí)例,或者 換句話說(shuō),短語(yǔ)在文檔中的單次出現(xiàn)。關(guān)鍵字是具有特別意義的單 詞或概念,諸如被分離出或指定為具有特別意義的短語(yǔ)。語(yǔ)義分析 器根據(jù)由語(yǔ)義分析器的計(jì)算所推導(dǎo)的關(guān)聯(lián)分?jǐn)?shù),對(duì)在文檔中發(fā)現(xiàn)的 短語(yǔ)進(jìn)行排名。語(yǔ)義分析器接著向用戶提供機(jī)會(huì)以便預(yù)覽已排名短 語(yǔ),以及選擇哪個(gè)已排名短語(yǔ)作為文檔的關(guān)^t字。
現(xiàn)在轉(zhuǎn)到圖1,框圖示出根據(jù)這里的實(shí)施方式,實(shí)施、運(yùn)行、翻 譯、操作或以其他方式執(zhí)行語(yǔ)義分析器應(yīng)用150-1和/或語(yǔ)義分析器 過(guò)程150-2 (例如,由用戶108控制的應(yīng)用150-1的執(zhí)行版本)的計(jì) 算機(jī)系統(tǒng)IIO的架構(gòu)實(shí)例。計(jì)算機(jī)系統(tǒng)IIO可以是任意類型的計(jì)算化設(shè)備,諸如個(gè)人計(jì)算機(jī)、工作站、便攜式計(jì)算設(shè)備、控制臺(tái)、膝 上型計(jì)算機(jī)、網(wǎng)絡(luò)終端或類似。
如在當(dāng)前實(shí)例中所示,計(jì)算機(jī)系統(tǒng)110包括諸如數(shù)據(jù)總線、主
板或耦合存儲(chǔ)器系統(tǒng)112、處理器113、輸入/輸出接口 114和顯示器 130的其它電路的互連結(jié)構(gòu)111。輸入設(shè)備116(例如,諸如4建盤、 鼠標(biāo)、觸摸板等的--個(gè)或多個(gè)用戶/開發(fā)者控制設(shè)備)通過(guò)輸入Z輸出 (I/O)接口 114耦合到計(jì)算機(jī)系統(tǒng)110和處理器113。
存儲(chǔ)器系統(tǒng)112可以是任意類型的計(jì)算機(jī)可讀介質(zhì),以及在這 個(gè)實(shí)例中,其編碼有支持這里將進(jìn)一步解釋的功能操作的產(chǎn)生、顯 示和實(shí)施的自封閉時(shí)間線^修剪器應(yīng)用150-l。例如,可以在顯示器130 提供已排名語(yǔ)義短語(yǔ)210的列表。而且,可以響應(yīng)于用戶108從已 排名語(yǔ)義短語(yǔ)210的列表中選擇一個(gè)或多個(gè)語(yǔ)義短語(yǔ),提供內(nèi)容預(yù) 覽220。
在計(jì)算機(jī)系統(tǒng)110的操作中,處理器113經(jīng)由互連111訪問(wèn)存 儲(chǔ)器系統(tǒng)112,以發(fā)起、運(yùn)行、執(zhí)行、翻譯或以其他方式執(zhí)行語(yǔ)義分 析器應(yīng)用150-1的邏輯指令。以這種方式執(zhí)行語(yǔ)義分析器應(yīng)用150-1 會(huì)產(chǎn)生語(yǔ)義分析器過(guò)程150-2。換句話說(shuō),語(yǔ)義分析器過(guò)程150-2表 示語(yǔ)義分析器應(yīng)用150-1的于運(yùn)行時(shí)在計(jì)算化設(shè)備110中的處理器 113內(nèi)部或其上l丸行或?qū)嵤┑囊粋€(gè)或多個(gè)部分或運(yùn)行時(shí)實(shí)例(或整個(gè) 應(yīng)用150-1 )。
關(guān)于圖2,示出了配置有根據(jù)這里的實(shí)施方式的語(yǔ)義分析器150 的計(jì)算機(jī)系統(tǒng)110的方框圖。語(yǔ)義分析器150包括文本提取器150-1、 語(yǔ)義處理器150-2、短語(yǔ)存儲(chǔ)150-3、統(tǒng)計(jì)量處理器150-4,以及報(bào)告 組件150-5。另外,該計(jì)算機(jī)系統(tǒng)100包括顯示器130,以提供針對(duì) 文檔200的語(yǔ)義短語(yǔ)的已排名列表210的視圖以及由所選擇的語(yǔ)義 短語(yǔ)定義的內(nèi)容的預(yù)覽220。
一旦將文檔200提交到計(jì)算機(jī)系統(tǒng)110,會(huì)由語(yǔ)義分析器150處 理。開始,文本提取器150-1使用例如標(biāo)準(zhǔn)開源文本3是取從文檔200 提耳又純文本??梢岳斫?,純文本可以表示ASCII 4各式的文本數(shù)據(jù)。
12純文本可以是每個(gè)機(jī)器或計(jì)算器上的幾乎所有應(yīng)用支持的便攜式格 式,不包含任意的格式命令。接著,純文本被提交到語(yǔ)義處理器
150-2。
語(yǔ)義處理器150-2可以包括一個(gè)或多個(gè)短語(yǔ)、提及和主題提取 器。語(yǔ)義處理器150-2另外還可以包括具有結(jié)束詞消除的標(biāo)志化器 (tokenizer),以從文檔文本提取一序列標(biāo)志并且移除諸如介詞、限 定詞和邏輯算子的不重要單詞(例如,不重要文本,不重要文本串)。 語(yǔ)義處理器150-2識(shí)別標(biāo)志、短語(yǔ);計(jì)數(shù)短語(yǔ)和標(biāo)志的單次出現(xiàn)(即,
提及偏置)。
在短語(yǔ)存儲(chǔ)150-3中,所有提取的語(yǔ)義短語(yǔ)、提及和主題可以存 儲(chǔ)在一組標(biāo)準(zhǔn)化的關(guān)系數(shù)據(jù)庫(kù)表中,以允許對(duì)提取數(shù)據(jù)的有效統(tǒng)計(jì) 處理。例如,在一個(gè)實(shí)施方式中,關(guān)系模式可以每行存儲(chǔ)一個(gè)提及/ 主題,以允許使用SQL統(tǒng)計(jì)和分析函數(shù)的排名處理。
另外,在統(tǒng)計(jì)處理器150-4中,可以對(duì)從文檔200提取的所有短 語(yǔ)施加幾個(gè)統(tǒng)計(jì)排名函數(shù),以確定最相關(guān)和重要的語(yǔ)義短語(yǔ)??梢?理解,對(duì)于某些類型的文檔內(nèi)容,可能適合不同的統(tǒng)計(jì)和排名方法。 因此,語(yǔ)義分析器150為許多類型的文檔提供語(yǔ)義短語(yǔ)。這種類型 的文檔包括但是不局限于,諸如具有一個(gè)中心主題和少量子話題的 新聞故事的長(zhǎng)文章、諸如具有大量領(lǐng)域詞匯和公知的文檔結(jié)構(gòu)(摘 要、介紹、結(jié)論、參考,等等)的會(huì)議和期刊會(huì)議記錄的科技期刊 和科技論文,電子郵件,信件,以及特征在于較少文檔結(jié)構(gòu)而且可 能具有許多相同重要性的不同想法的通告。
最后,在報(bào)告組件150-5中,根據(jù)統(tǒng)計(jì)數(shù)據(jù)創(chuàng)建語(yǔ)義短語(yǔ)的已排 名列表210。創(chuàng)建已排名列表210的視圖,并且經(jīng)由顯示器130提供 給用戶108。語(yǔ)義分析器150允許用戶108測(cè)試哪些已排名語(yǔ)義短語(yǔ) 對(duì)于文檔200是最佳的。經(jīng)由報(bào)告組件150-5,用戶108從列表210 中選擇一個(gè)或多個(gè)語(yǔ)義短語(yǔ)。內(nèi)容預(yù)覽220被創(chuàng)建并顯示給用戶。 內(nèi)容預(yù)覽220向用戶顯示由選擇的語(yǔ)義短語(yǔ)所界定的內(nèi)容的集合視圖。
圖3為由語(yǔ)義分析器150執(zhí)行的處理步驟310-340的流程圖300。 流程圖300中的步驟涉及在圖2的框圖中示出的特征。語(yǔ)義分析器 150 (例如,圖1中的語(yǔ)義分析器應(yīng)用150-1和/或語(yǔ)義分析器過(guò)程 150-2)自動(dòng)分析文檔以根據(jù)語(yǔ)義關(guān)聯(lián)性來(lái)排名短語(yǔ)。具體地,在步 驟310,語(yǔ)義分析器150從文檔200提取文本,而且在步驟315,從 文檔200提取純文本??梢岳斫?,在文本提取之前,文本和文檔200 與任意預(yù)先選擇的一個(gè)或多個(gè)關(guān)鍵字沒有關(guān)系。在步驟320,語(yǔ)義分 析器150對(duì)提取出的文本執(zhí)行語(yǔ)義分析。在步驟330,作為語(yǔ)義分析 的結(jié)果,語(yǔ)義分析器150提供多個(gè)已排名的語(yǔ)義短語(yǔ),而且在步驟 340,將語(yǔ)義短語(yǔ)與該文檔200相關(guān)聯(lián)。語(yǔ)義短語(yǔ)定義出與文檔200 一起呈現(xiàn)的內(nèi)容,該內(nèi)容是廣告、到遠(yuǎn)程信息資源的鏈接或第二文 檔。
圖4為根據(jù)這里的實(shí)施方式,由語(yǔ)義分析器150執(zhí)行對(duì)提取文 本的語(yǔ)義處理的處理步驟410-450的流程圖400。流程圖400中的步 驟涉及在圖2的框圖中示出的語(yǔ)義處理器150-2。在步驟410,語(yǔ)義 分析器150在提取的純文本內(nèi)識(shí)別至少一個(gè)標(biāo)志,該標(biāo)志表示文檔 中的一串文本和字符。具體地,語(yǔ)義分析器150基于在文檔200中 的出現(xiàn)而保留標(biāo)志(例如,文檔200中的單詞)。然而,不需要保 留標(biāo)點(diǎn)、算數(shù)符號(hào)、數(shù)字、介詞、限定詞和邏輯算子。
在步驟420,語(yǔ)義分析器150為表示標(biāo)志在文檔中出現(xiàn)的總次數(shù) 的標(biāo)志值列表。在步驟430,語(yǔ)義分析器150在提取的純文本中識(shí)別 至少一個(gè)短語(yǔ),該短語(yǔ)包含相鄰標(biāo)志的分組。在步驟440,語(yǔ)義分析 器150為短語(yǔ)(Xj)的短語(yǔ)值(n)列表,該值表示該短語(yǔ)在文檔中 出現(xiàn)的總次數(shù)。
例如,假設(shè)有關(guān)于清醒夢(mèng)境的主題內(nèi)容的文檔200具有在文檔 200中出現(xiàn)的每個(gè)短語(yǔ)。短語(yǔ)"夢(mèng)狀態(tài),,提及(例如,單個(gè)出現(xiàn))2 次。短語(yǔ)"清醒夢(mèng)境,,提及(例如,單個(gè)出現(xiàn))8次。短語(yǔ)"我的夢(mèng) 提及4次,而短語(yǔ)"夢(mèng)世界"僅僅提及1次。每個(gè)短語(yǔ)都指定有該
14短語(yǔ)在文檔中單個(gè)出現(xiàn)的總次數(shù)的提及值。因此,由于提及(例如,
單個(gè)出現(xiàn))了 2次短語(yǔ)"夢(mèng)狀態(tài)",所以"夢(mèng)狀態(tài)"的提及值為2。 在這些短語(yǔ)中,標(biāo)志"夢(mèng),,都出現(xiàn)其中,出現(xiàn)總共15次。諸如 "夢(mèng)"的標(biāo)志的標(biāo)志出現(xiàn)值是標(biāo)志作為短語(yǔ)的 一 部分在文檔的所有 提取短語(yǔ)中出現(xiàn)的總次數(shù)。因此,"夢(mèng)"的標(biāo)志出現(xiàn)值是15。
在步驟450,語(yǔ)義分析器150為短語(yǔ)的至少 一個(gè)提及偏置(offset) 列表,該提及偏置表示短語(yǔ)在文檔中單個(gè)出現(xiàn)(即,提及)的位置。 例如,短語(yǔ)"清醒夢(mèng)境,,在文檔200中被提及(例如,單個(gè)出現(xiàn))8 次,所以"清醒夢(mèng)境"的提及值是8(n-8)。"清醒夢(mèng)境,,的8 個(gè)單次出現(xiàn)中的每一個(gè)都將具有表示它在文檔200中的位置的提及 偏置。"清醒夢(mèng)境"的首次出現(xiàn)將具有提及偏置,其表示比"清醒 夢(mèng)境"的第7次出現(xiàn)的提及偏置在文檔200中的位置更早位置。因 此,"清醒夢(mèng)境"的第7次出現(xiàn)將具有這樣的提及偏置,其表示了 在文檔200中比"清醒夢(mèng)境,,的第8次(nth)出現(xiàn)的提及偏置的位 置更早的位置。
圖5為根據(jù)這里的實(shí)施方式,由語(yǔ)義分析器150執(zhí)行對(duì)提取文 本的統(tǒng)計(jì)處理的處理步驟510-565的流程圖500。標(biāo)志和短語(yǔ)的統(tǒng)計(jì) 處理的目的是產(chǎn)生分?jǐn)?shù)以對(duì)每個(gè)語(yǔ)義短語(yǔ)進(jìn)行排名,從而幫助評(píng)估 語(yǔ)義短語(yǔ)返回諸如高度關(guān)聯(lián)性廣告的內(nèi)容的合適性。流程圖500描 述每個(gè)文檔類型的最佳排名算法。流程圖500中的步驟涉及在圖2 的框圖中示出的統(tǒng)計(jì)處理器150-4。在步驟510,語(yǔ)義分析器150計(jì) 算至少一個(gè)短語(yǔ)統(tǒng)計(jì)量。可以理解,步驟515-565的下列討論描述一 個(gè)或多個(gè)可以分別和共同(取決于文檔200的特定類型)計(jì)算的短 語(yǔ)統(tǒng)計(jì)量。
在步驟515,語(yǔ)義分析器150計(jì)算短語(yǔ)的標(biāo)志頻率(tf(Xj)), 作為短語(yǔ)中標(biāo)志的標(biāo)志值的函數(shù),該函數(shù)包括短語(yǔ)中標(biāo)志的標(biāo)志出 現(xiàn)值的平均值和中間值中的至少一個(gè)。例如,諸如"夢(mèng)狀態(tài),,的短 語(yǔ)的標(biāo)志頻率為它的所有標(biāo)志的標(biāo)志出現(xiàn)值的函數(shù)。因此,"夢(mèng)狀 態(tài),,的標(biāo)志頻率為"夢(mèng)"(15)和"狀態(tài),,(2)的標(biāo)志值的函數(shù)。即使可以使用任意的函數(shù),用于計(jì)算短語(yǔ)Xj的平均標(biāo)志頻率tf ( Xj ) 的函數(shù)是各個(gè)標(biāo)志出現(xiàn)值的平均值或中間值。
在步驟520,語(yǔ)義分析器150計(jì)算短語(yǔ)的平均偏置(moffset( Xj))。 短語(yǔ)的平均偏置由下列等式確定
<formula>formula see original document page 16</formula>
可以理解,offset (mi)表示短語(yǔ)(Xj)在文檔200內(nèi)的一組n 次出現(xiàn)中的單個(gè)出現(xiàn)(即,提及)的提及偏置。因此,總共8次出 現(xiàn)(n-8)的"清醒夢(mèng)境"的第7次出現(xiàn)的提及偏置由offset (m7) 表示??梢岳斫猓琻可以等于或者大于1 (n = 1 )。
利用中間偏置,在步驟525,語(yǔ)義分析器150計(jì)算短語(yǔ)的偏置標(biāo) 準(zhǔn)差(soffset(Xj))。偏置標(biāo)準(zhǔn)差由下面的等式確定
<formula>formula see original document page 16</formula>在步驟530,當(dāng)文檔200是討論多個(gè)中心話題的長(zhǎng)文章時(shí),語(yǔ)義 分析器150計(jì)算文章分值(ascore(Xj))。文章分值由下面的等式 確定
<formula>formula see original document page 16</formula>也就是,對(duì)于文章分值,分子是短語(yǔ)的"宏頻"(由短語(yǔ)在文 檔200中的出現(xiàn)次數(shù)(n)測(cè)定)、這些短語(yǔ)的出現(xiàn)的"分布"(由
這些出現(xiàn)的位置的標(biāo)準(zhǔn)差測(cè)定)、作為短語(yǔ)的標(biāo)志頻率的平方根的
短語(yǔ)"微頻"(由文檔中200中標(biāo)志的頻率的中間值測(cè)定)的乘積。 由于假定主題提及均勻分布,所以這被中間偏置的平方根約分(例 如,除)。
在步驟530的ascore (Xj)測(cè)量中,短語(yǔ)頻率作出積極貢獻(xiàn),而
且其標(biāo)志還貢獻(xiàn)由于其平方根而具有較小影響的平均頻率。而且, 短語(yǔ)在文檔中的分布程度(或在開始或最后頻繁提及)還對(duì)整體分 值做出積極貢獻(xiàn)。在步驟535,當(dāng)文檔是科技文章時(shí),語(yǔ)義分析器150計(jì)算科技文 章分值(tscore (Xj))。相反,如果短語(yǔ)的提及在文檔200中平均 分布,步驟530的先前測(cè)量ascore ( Xj)使用短語(yǔ)在文檔中位置的標(biāo) 準(zhǔn)差。接著,ascore (Xj)的值最大。然而,對(duì)于步驟535的科技文 章,文檔開始和結(jié)尾的短語(yǔ)可能只有一半,接著標(biāo)準(zhǔn)差也最大。因 此,只有當(dāng)提及(例如,單個(gè)發(fā)生)在文檔200中平均分布時(shí),科 技分值ascore ( Xj)才最大。通過(guò)獲取短語(yǔ)的相鄰提及間差異的標(biāo)準(zhǔn) 差,而利用了短語(yǔ)的提及的分布平均性??萍挤种涤上铝械仁酱_定
在步驟540,語(yǔ)義分析器150計(jì)算短語(yǔ)的兩個(gè)單個(gè)出現(xiàn)的至少一 個(gè)差(r)。具體地,r定義為下列等式中的一個(gè)。=o#"(w,)-o 、 r, =o,"m,)-')和r +/=c/oc/e"-o,e"w 」。可以理解,c/oc/ew表示
文檔200中的文本和字符的總數(shù)。
在步驟545,語(yǔ)義分析器150計(jì)算中間差距""P J。平均差 距由下面等式確定
在步驟550,語(yǔ)義分析器150計(jì)算差距標(biāo)準(zhǔn)差(VWz#",。差 距標(biāo)準(zhǔn)差由下面等式確定
在步驟555,當(dāng)文檔200是信件(例如,信件、電子郵件、通告) 時(shí),語(yǔ)義分析器150計(jì)算標(biāo)準(zhǔn)差信件分值和微頻信件分值。標(biāo)準(zhǔn)差 信件分值假定短語(yǔ)提及在文檔200中的分布(由其提及偏置的標(biāo) 準(zhǔn)差測(cè)定)與出現(xiàn)次數(shù)(n)等同關(guān)聯(lián)性。 一般地,在文檔200中均 勻提及的短語(yǔ)具有最大分值,在開始和結(jié)尾處同等(叫uaUy)提及 的短語(yǔ)也是這樣。經(jīng)常提及但是在分離部分的短語(yǔ)具有較低的權(quán)重。 對(duì)于大部分電子郵件、通告和信件,這非常合適。微頻信件分值包括對(duì)"微頻"的測(cè)量,典型地,其對(duì)于使用更多先進(jìn)或科技語(yǔ)言的 文檔產(chǎn)生更好的結(jié)果。
在步驟560,語(yǔ)義分析器150定義標(biāo)準(zhǔn)差信件分值(sdlscore(Xj))。
標(biāo)準(zhǔn)差信件分值由下列等式確定sdlscore(Xj)-n(soffset(Xj))。在步
驟565,語(yǔ)義分析器150定義微頻信件分值(mflscore(Xj))。微頻信件 分值由下列等式確定w為cwe(x,)="扭 )(碌"(;c,))。
可以理解,對(duì)于更快的計(jì)算機(jī),這些公式可以封裝到一組關(guān)系 數(shù)據(jù)庫(kù)視圖定義中,這些定義使用文本標(biāo)志化的高效實(shí)施來(lái)計(jì)算標(biāo) 志頻率。接著這些視圖定義可以用于呈現(xiàn)和格式化計(jì)算結(jié)果。
圖6為根據(jù)這里的實(shí)施方式,由語(yǔ)義分析器150執(zhí)行提供語(yǔ)義 短語(yǔ)的已排名列表以及內(nèi)容預(yù)覽的處理步驟610-635的流程圖600。 流程圖600中的某些步驟涉及在圖2的框圖中示出的報(bào)告組件 150-5。另外,用于多個(gè)作為語(yǔ)義分析結(jié)果而提供已排名語(yǔ)義短語(yǔ)的 步驟330在步驟610-620中詳細(xì)描述。
在步驟610,語(yǔ)義分析器150提供多個(gè)已排名語(yǔ)義短語(yǔ)的列表, 該列表根據(jù)一個(gè)或多個(gè)短語(yǔ)統(tǒng)計(jì)量對(duì)語(yǔ)義短語(yǔ)進(jìn)行排名。例如,用 戶接口 (例如,G.U.I,網(wǎng)頁(yè)瀏覽器)可以顯示和概述出列出的統(tǒng)計(jì) 排名算法的結(jié)果。在用戶接口中,可以顯示語(yǔ)義短語(yǔ)(基于提取的 文本)及其各自語(yǔ)義統(tǒng)計(jì)量??梢岳斫猓雅琶Z(yǔ)義短語(yǔ)210的列 表是可排序的,而且能夠被用戶操縱以調(diào)整排名結(jié)果。
在步驟615,語(yǔ)義分析器150從列表中選擇一個(gè)或多個(gè)語(yǔ)義短語(yǔ),
以創(chuàng)建由選中的一個(gè)或者多個(gè)語(yǔ)義短語(yǔ)中每一個(gè)所定義的內(nèi)容的預(yù)
覽(例如,彈出窗口、 G.U.I、網(wǎng)頁(yè)瀏覽器),該預(yù)覽顯示由選中的
一個(gè)或者多個(gè)語(yǔ)義短語(yǔ)中每一個(gè)所確定的內(nèi)容的聚合。具體地,在 用戶接口中列出的已排名語(yǔ)義短語(yǔ)被使能,從而能夠呈現(xiàn)定義的內(nèi)
容(例如,實(shí)際廣告)以確定選中的語(yǔ)義短語(yǔ)的有效性。
例如,用戶可以從已排名語(yǔ)義短語(yǔ)210的列表中選擇兩個(gè)短語(yǔ)。 響應(yīng)于該選擇,語(yǔ)義分析器150可以創(chuàng)建內(nèi)容預(yù)覽220,并且顯示由 選中的語(yǔ)義短語(yǔ)確定的內(nèi)容(例如,廣告)。在一個(gè)實(shí)施方式中,
18如果從已排名語(yǔ)義短語(yǔ)210的列表中選擇的短語(yǔ)是"化學(xué)工程"和 "學(xué)院",則內(nèi)容預(yù)覽220接著顯示與"化學(xué)工程"和"學(xué)院"相 關(guān)的廣告,從而用戶可以判定語(yǔ)義短語(yǔ)"化學(xué)工程"和"學(xué)院"是 否提供了保證指定"化學(xué)工程"和"學(xué)院"作為文檔200的語(yǔ)義關(guān) 鍵字的期望廣告。如果用戶確定選擇的語(yǔ)義短語(yǔ)的內(nèi)容預(yù)覽220是 可接受的,則語(yǔ)義分析器150向用戶提供為文檔200創(chuàng)建關(guān)鍵字的 功能性。具體地,在步驟620,語(yǔ)義分析器150從列表中指定一個(gè)或 多個(gè)語(yǔ)義短語(yǔ),以作為語(yǔ)義關(guān)鍵字與文檔200相關(guān)聯(lián)。
用于將至少一個(gè)語(yǔ)義短語(yǔ)與文檔200相關(guān)聯(lián)的步驟340的細(xì)節(jié) 包括,在步驟625,語(yǔ)義分析器150將該至少一個(gè)語(yǔ)義短語(yǔ)插入到文 檔的元數(shù)據(jù)部分。在步驟630,語(yǔ)義分析器150將該至少一個(gè)語(yǔ)義短 語(yǔ)插入到文檔的可擴(kuò)展元數(shù)據(jù)平臺(tái)(XMP)部分??梢岳斫?,元數(shù) 據(jù)平臺(tái)或稱XMP,是使用在PDF、攝影和照片編輯應(yīng)用中的可擴(kuò)展 標(biāo)記語(yǔ)言。XMP定義可以與任意已定義的元數(shù)據(jù)項(xiàng)目的集合一起使 用的元數(shù)據(jù)模型。XMP還為基本屬性定義了特定方案,用于記錄資 源(例如,文檔)經(jīng)過(guò)多個(gè)處理步驟的歷史,例如,從被攝影、掃 描,或創(chuàng)作為文本;或者經(jīng)過(guò)照片編輯步驟(諸如,剪裁或調(diào)色), 整裝成最終圖像。XMP可以允許每個(gè)軟件程序或設(shè)備沿著該途徑, 增加自身信息到數(shù)字資源(例如文檔),其隨后可以在最終數(shù)字文 件中予以保留。
在步驟635,語(yǔ)義分析器150為文檔200指定策略。該策略使該 文檔200能夠利用與該文檔200相關(guān)聯(lián)的至少一個(gè)語(yǔ)義短語(yǔ)作為語(yǔ) 義關(guān)4建字,以當(dāng)文檔20(H皮呈現(xiàn)時(shí)顯示該內(nèi)容。在可選方式中,該 策略4吏文檔200能夠忽略與該文檔相關(guān)聯(lián)的該至少一個(gè)語(yǔ)義短語(yǔ), 以當(dāng)文檔200被呈現(xiàn)時(shí)不顯示該內(nèi)容。
再次注意,這里的技術(shù)良好適用于配置用以自動(dòng)分析文檔和提
的語(yǔ)義分析器。然而,應(yīng)當(dāng)注意,這里的實(shí)施方式并不局 于應(yīng)用 在這些應(yīng)用中,這里討論的技術(shù)還良好適用于其它應(yīng)用。
19雖然參照優(yōu)選實(shí)施方式特別示出和描述了本發(fā)明,本領(lǐng)域技術(shù) 人員可以理解,可以不脫離由附錄權(quán)利要求所限定的本發(fā)明的精神 和范圍,作出各種形式上或詳細(xì)的改變。期望本發(fā)明的范圍覆蓋這 些變化。因此,本申請(qǐng)實(shí)施方式的前面描述并不意欲為限制性的。 相反,在下面權(quán)利要求中呈現(xiàn)對(duì)本發(fā)明的任意限制。
權(quán)利要求
1.一種由計(jì)算機(jī)實(shí)施的方法,包括從文檔中提取文本;對(duì)從該文檔提取出的文本執(zhí)行語(yǔ)義分析;作為該語(yǔ)義分析的結(jié)果,提供多個(gè)已排名的語(yǔ)義短語(yǔ);和將至少一個(gè)語(yǔ)義短語(yǔ)與該文檔相關(guān)聯(lián),該至少一個(gè)語(yǔ)義短語(yǔ)定義出將與該文檔一起被呈現(xiàn)的內(nèi)容。
2. 如權(quán)利要求1的由計(jì)算機(jī)實(shí)施的方法,其中該至少一個(gè)語(yǔ)義短語(yǔ)定義出將與該文檔一起被呈現(xiàn)的內(nèi)容包括定義出包括廣告、到遠(yuǎn)程信息資源的鏈接和第二文檔的組中的至少 一個(gè)。
3. 如權(quán)利要求1的由計(jì)算機(jī)實(shí)施的方法,其中從該文檔中提取文本包括從該文檔中才是耳又純文本,該文本和該文檔與一個(gè)或多個(gè)預(yù)先選擇的關(guān)鍵字沒有關(guān)系。
4. 如權(quán)利要求3的由計(jì)算機(jī)實(shí)施的方法,其中從該文本4是取純文本包括在提取的純文本中識(shí)別至少一個(gè)標(biāo)志,該標(biāo)志表示文檔中的文本與字符的串;為表示該標(biāo)志在該文檔中出現(xiàn)的總次數(shù)的標(biāo)志值列表;在提取的純文本中識(shí)別至少一個(gè)短語(yǔ),該短語(yǔ)包含標(biāo)志的連續(xù)分組;為短語(yǔ)(巧)的短語(yǔ)值(w)列表,該短語(yǔ)值(w)表示該短語(yǔ)在該文檔中出現(xiàn)的總次數(shù);和為該短語(yǔ)的至少 一 個(gè)提及偏置列表,該提及偏置w))表示短語(yǔ)(x,)在一組w次出現(xiàn)中的單個(gè)出現(xiàn)(w,.)在該文檔中的位置,其中w可以等于或大于1。
5. 如權(quán)利要求4的由計(jì)算機(jī)實(shí)施的方法,進(jìn)一步包括計(jì)算至少一個(gè)短語(yǔ)統(tǒng)計(jì)量,該至少一個(gè)短語(yǔ)統(tǒng)計(jì)量從包含下列的組中選才奪作為該短語(yǔ)中標(biāo)志的標(biāo)志值的函數(shù),來(lái)計(jì)算短語(yǔ)的標(biāo)志頻率(Wx,.)),該函數(shù)包括該短語(yǔ)中標(biāo)志的標(biāo)志值的平均值和中間值中的至少一個(gè);計(jì)算該短語(yǔ)的中間偏置(woj^W(x》);和計(jì)算該短語(yǔ)的偏置標(biāo)準(zhǔn)差(。
6. 如權(quán)利要求5的由計(jì)算機(jī)實(shí)施的方法,進(jìn)一步包括當(dāng)該文檔是討論至少 一 個(gè)中心主題的長(zhǎng)文章時(shí),計(jì)算文章分值(wco 0,))。
7. 如^又利要求5的由計(jì)算機(jī)實(shí)施的方法,進(jìn)一步包括當(dāng)該文檔是科技文章時(shí),計(jì)算科技文章分值("cwe(x,.)),該科技文章分值包括計(jì)算該短語(yǔ)的兩個(gè)單個(gè)出現(xiàn)的至少 一 個(gè)差值(r);計(jì)算中間差距Ofe));和計(jì)算差距標(biāo)準(zhǔn)差("^別力))。
8. 如^又利要求5的由計(jì)算機(jī)實(shí)施的方法,進(jìn)一步包含當(dāng)該文檔是信件時(shí),計(jì)算標(biāo)準(zhǔn)差信件分值和計(jì)算微頻信件分值。
9. 如^又利要求1的由計(jì)算才幾實(shí)施的方法,其中作為該語(yǔ)義分析的結(jié)果,提供多個(gè)已排名的語(yǔ)義短語(yǔ)包括提供該多個(gè)排名的語(yǔ)義短語(yǔ)的列表,該列表根據(jù)一個(gè)或多個(gè)短語(yǔ)統(tǒng)計(jì)量對(duì)該i吾義短i吾4非名;從該列表中選擇一個(gè)或多個(gè)語(yǔ)義短語(yǔ),以創(chuàng)建由選擇的一個(gè)或多個(gè)語(yǔ)義短語(yǔ)中每一個(gè)所定義的內(nèi)容的預(yù)覽;該預(yù)覽顯示由選擇的一個(gè)或多個(gè)語(yǔ)義短語(yǔ)中每一個(gè)所定義的內(nèi)容的聚集;和從該列表中指定一個(gè)或多個(gè)語(yǔ)義短語(yǔ),以作為一個(gè)或多個(gè)語(yǔ)義關(guān)鍵字與該文檔相關(guān)聯(lián)。
10. 如權(quán)利要求1的由計(jì)算機(jī)實(shí)施的方法,其中將該至少一個(gè)語(yǔ)義短語(yǔ)關(guān)聯(lián)到該文檔中包括將該至少一個(gè)語(yǔ)義短語(yǔ)插入到該文檔的元^:據(jù)部分。
11. 如權(quán)利要求10的由計(jì)算機(jī)實(shí)施的方法,其中將該至少一個(gè)語(yǔ)義短語(yǔ)插入到該文檔的元數(shù)據(jù)部分包括將該至少 一個(gè)語(yǔ)義短語(yǔ)插入到該文檔的XMP (可擴(kuò)展元數(shù)據(jù)平臺(tái))部分。
12. 如權(quán)利要求1的由計(jì)算機(jī)實(shí)施的方法,進(jìn)一步包括為該文檔指定策略,該策略使該文檔能利用與該文檔相關(guān)聯(lián)的該至少 一個(gè)語(yǔ)義短語(yǔ)作為語(yǔ)義關(guān)鍵字,以當(dāng)文檔被呈現(xiàn)時(shí)顯示該內(nèi)容,該策略進(jìn)一步使該文檔能夠忽略與該文檔相關(guān)聯(lián)的該至少一個(gè)語(yǔ)義短語(yǔ),以當(dāng)文檔^f皮呈現(xiàn)時(shí)不顯示該內(nèi)容。
13. —種包含編碼其上的可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),該可執(zhí)行指令可操作在計(jì)算化設(shè)備上以執(zhí)行處理,包括用于從文檔中提取文本的指令;用于作為該語(yǔ)義分析的結(jié)果,提供多個(gè)已排名的語(yǔ)義短語(yǔ)的指令;和用于將至少一個(gè)語(yǔ)義短語(yǔ)與該文檔相關(guān)聯(lián)的指令,該至少一個(gè)語(yǔ)義短語(yǔ)定義出與該文檔一起被呈現(xiàn)的內(nèi)容。
14. 如權(quán)利要求13的計(jì)算機(jī)可讀介質(zhì),其中該至少一個(gè)語(yǔ)義短語(yǔ)定義出與該文檔一起被呈現(xiàn)的內(nèi)容包括用于定義出包括廣告、到遠(yuǎn)程信息資源的鏈接和第二文檔的組中的至少 一 個(gè)的指令。
15. 如權(quán)利要求13的計(jì)算機(jī)可讀介質(zhì),其中用于從該文檔中提取文本的指令包括用于從該文檔中提取純文本的指令,該文本和該文檔與 一個(gè)或多個(gè)預(yù)先選擇的關(guān)鍵字沒有關(guān)系。
16. 如權(quán)利要求15的計(jì)算機(jī)可讀介質(zhì),其中用于從該文本提取純文本的指令包括用于在4是取的純文本中識(shí)別至少一個(gè)標(biāo)志的指令,該標(biāo)志表示該文檔中的文本與字符的串;用于為表示該標(biāo)志在該文檔中出現(xiàn)的總次數(shù)的標(biāo)志值列表的指令;用于在提取的純文本中識(shí)別至少 一 個(gè)短語(yǔ)的指令,該短語(yǔ)包括標(biāo)志的連續(xù)分組;用于為短語(yǔ)(x;)的短語(yǔ)值(")列表的指令,該短語(yǔ)值(")表示該短語(yǔ)在該文檔中出現(xiàn)的總次數(shù);和用于為該短語(yǔ)的至少 一 個(gè)提及偏置列表的指令,該提及偏置(^y^"(W,))表示短語(yǔ)(X;)的 一組"次出現(xiàn)中的單個(gè)出現(xiàn)(W,)在文檔中的位置,其中"可以等于或大于l。
17. 如權(quán)利要求16的計(jì)算機(jī)可讀介質(zhì),進(jìn)一步包括用于計(jì)算至少一個(gè)短語(yǔ)統(tǒng)計(jì)量的指令,該用于計(jì)算至少一個(gè)短語(yǔ)統(tǒng)計(jì)量的指令從包括下列的組中選擇用于作為短語(yǔ)中標(biāo)志的標(biāo)志值的函數(shù),來(lái)計(jì)算短語(yǔ)的標(biāo)志頻率((/(X;))的指令,該函數(shù)包括短語(yǔ)中標(biāo)志的標(biāo)志值的平均值和中間值中的至少一個(gè);用于計(jì)算該短語(yǔ)的中間偏置(woj^的指令;和用于計(jì)算該短語(yǔ)的偏置標(biāo)準(zhǔn)差(sq/^"09))的指令。
18. 如權(quán)利要求17的計(jì)算機(jī)可讀介質(zhì),進(jìn)一步包括用于當(dāng)該文檔是討論至少一個(gè)中心主題的長(zhǎng)文章時(shí)計(jì)算文章分值("^we(;9))的指令。
19. 如權(quán)利要求17的計(jì)算機(jī)可讀介質(zhì),進(jìn)一步包括用于當(dāng)該文檔是科技文章時(shí)計(jì)算科技文章分值Oco"(x》)的指令,該用于計(jì)算該科技文章分值的指令包括用于計(jì)算該短語(yǔ)的兩個(gè)單個(gè)出現(xiàn)的至少一個(gè)差值(。的指令;用于計(jì)算中間差距(r(力))的指令;和用于計(jì)算差距標(biāo)準(zhǔn)差0^^x,))的指令。
20. 如權(quán)利要求17的計(jì)算機(jī)可讀介質(zhì),進(jìn)一步包括用于當(dāng)該文檔是信件時(shí),計(jì)算標(biāo)準(zhǔn)差信件分值的指令和用于計(jì)算微頻信件分值的指令。
21. 如權(quán)利要求13的計(jì)算機(jī)可讀介質(zhì),其中用于作為該語(yǔ)義分析的結(jié)果,來(lái)提供多個(gè)已排名的語(yǔ)義短語(yǔ)的指令包括用于提供該多個(gè)已排名的語(yǔ)義短語(yǔ)的列表的指令,該列表根據(jù)一個(gè)或多個(gè)短語(yǔ)統(tǒng)計(jì)量對(duì)該語(yǔ)義短語(yǔ)排名;用于從該列表中選擇一個(gè)或多個(gè)語(yǔ)義短語(yǔ)以創(chuàng)建由選擇的一個(gè)或多個(gè)語(yǔ)義短語(yǔ)中每一個(gè)所定義的內(nèi)容的預(yù)覽的指令;該預(yù)覽顯示由選擇的一個(gè)或多個(gè)語(yǔ)義短語(yǔ)中每一個(gè)所定義的內(nèi)容的聚集;和用于從該列表中指定一個(gè)或多個(gè)語(yǔ)義短語(yǔ)以作為一個(gè)或多個(gè)語(yǔ)義關(guān)鍵字與該文檔相關(guān)聯(lián)的指令。
22. 如權(quán)利要求13的計(jì)算機(jī)可讀介質(zhì),其中用于將該至少一個(gè)語(yǔ)義短語(yǔ)關(guān)聯(lián)到該文檔中的指令包括用于將該至少一個(gè)語(yǔ)義短語(yǔ)插入到該文檔的元數(shù)據(jù)部分的指令。
23. 如權(quán)利要求22的計(jì)算機(jī)可讀介質(zhì),其中用于將該至少一個(gè)語(yǔ)義短語(yǔ)插入到該文檔的元數(shù)據(jù)部分的指令包括用于將該至少一個(gè)語(yǔ)義短語(yǔ)插入到該文檔的X M P (可擴(kuò)展元數(shù)據(jù)平臺(tái)部分)的指令。
24. 如權(quán)利要求13的計(jì)算機(jī)可讀介質(zhì),進(jìn)一步包括用于為該文檔指定策略的指令,該策略使該文檔能夠利用與該文檔相關(guān)聯(lián)的該至少一個(gè)語(yǔ)義短語(yǔ)作為語(yǔ)義關(guān)鍵字,以當(dāng)該文檔被呈現(xiàn)時(shí)顯示該內(nèi)容,該策略進(jìn)一步使該文檔能夠忽略與該文檔相關(guān)聯(lián)的該至少一個(gè)語(yǔ)義短語(yǔ),以當(dāng)該文檔^皮呈現(xiàn)時(shí)不顯示該內(nèi)容。
25. —種計(jì)算機(jī)系統(tǒng),包括處理器;存儲(chǔ)器單元,其存儲(chǔ)與該處理器執(zhí)行的應(yīng)用相關(guān)聯(lián)的指令;和互連,其耦合該處理器和存儲(chǔ)器單元,使該計(jì)算機(jī)系統(tǒng)能夠執(zhí)行該應(yīng)用而且執(zhí)行才喿作從文檔中提取文本;對(duì)從該文檔提耳又出的文本^l行語(yǔ)義分析;作為該語(yǔ)義分析的結(jié)果,來(lái)提供多個(gè)已排名的語(yǔ)義短語(yǔ);和將至少一個(gè)語(yǔ)義短語(yǔ)與該文檔相關(guān)聯(lián),該至少一個(gè)語(yǔ)義短語(yǔ)定義出與該文檔一起被呈現(xiàn)的內(nèi)容。
全文摘要
一種為語(yǔ)義分析器提供的方法、裝置和計(jì)算機(jī)產(chǎn)品,用于產(chǎn)生和排名語(yǔ)義短語(yǔ)以反映它們與文檔主題和話題的關(guān)聯(lián)性。在語(yǔ)義分析器執(zhí)行文本提取之前,文本和文檔可以與任意預(yù)先選擇的關(guān)鍵字沒有關(guān)系。語(yǔ)義分析器從文檔中提取文本,并且對(duì)提取出的文本執(zhí)行語(yǔ)義分析。作為該語(yǔ)義分析的結(jié)果,語(yǔ)義分析器提供多個(gè)已排名的語(yǔ)義短語(yǔ),并且將語(yǔ)義短語(yǔ)作為語(yǔ)義關(guān)鍵字與該文檔相關(guān)聯(lián)。語(yǔ)義短語(yǔ)定義出與該文檔一起被呈現(xiàn)的內(nèi)容,該內(nèi)容是廣告、到遠(yuǎn)程信息資源的鏈接和第二文檔。
文檔編號(hào)G06F7/00GK101681251SQ200880015001
公開日2010年3月24日 申請(qǐng)日期2008年3月14日 優(yōu)先權(quán)日2007年3月27日
發(fā)明者N·格哈姆拉維, W·常 申請(qǐng)人:奧多比公司