亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

給文本評分的方法和系統(tǒng)的制作方法

文檔序號:6351124閱讀:228來源:國知局
專利名稱:給文本評分的方法和系統(tǒng)的制作方法
給文本評分的方法和系統(tǒng)相關(guān)申請本申請要求如下專利申請的權(quán)益2009年9月8日提交、發(fā)明名稱為“SYSTEM AND METHODS FOR RANKING TEXTUAL INFORMATION AND SEARCH RESULTS BASED ON INFORMATIVITY”、發(fā)明人為Hong Liang Qiao、和專利代理人案號為LEXE-P002. PRO的美國臨時專利申請第61/243,953號;以及2010年9月17日提交、發(fā)明名稱為“METHOD AND SYSTEM FOR SCORING TEXTS”、發(fā)明人為Hong Liang Qiao、和專利代理人案號為LEXE-P002 的美國非臨時專利申請第12/884,395號。通過引用將這兩個申請全文并入本文中用于所有目的。
背景技術(shù)
傳統(tǒng)搜索引擎通常使用像非來源于正在排序的網(wǎng)頁的信息那樣的外部信息來排序搜索結(jié)果。例如,傳統(tǒng)搜索引擎可能使用與特定網(wǎng)頁的外部鏈接的數(shù)量來確定特定網(wǎng)頁的重要性。外部鏈接可以駐留在其它源(例如,網(wǎng)頁、文檔等)中并且可以將用戶引向特定網(wǎng)頁。這樣,傳統(tǒng)搜索引擎可以根據(jù)與每個網(wǎng)頁的外部鏈接的各自數(shù)量來排序每個網(wǎng)頁。盡管外部信息通常被傳統(tǒng)搜索引擎用來進(jìn)行搜索和排序網(wǎng)頁,但往往是每個網(wǎng)頁的重要性或價值的不良指標(biāo)。例如,可能只有很少或甚至沒有外部鏈接指向一個潛在重要文檔,因此該文檔可能未被傳統(tǒng)搜索引擎返回或排得比其應(yīng)該達(dá)到的低。作為另一個例子, 如果一個名人的聲望最近受到毀損,則將傳統(tǒng)搜索引擎用于有關(guān)該名人的自傳信息的搜索可能適得其反地返回與聲望毀損有關(guān)的眾多較不重要結(jié)果。這樣,用戶可能無法使用依靠外部信息的傳統(tǒng)搜索引擎定位含有更重要或有價值信息的網(wǎng)頁。概括地說,本文公開了如下內(nèi)容。公開了給文本評分的計算機實現(xiàn)方法、計算機可讀媒體和系統(tǒng)。可以確定一個或多個文本內(nèi)的主題,并將其用于給每個文本評分,其中每個文本的總分可以指示每個文本的各自重要性和/或價值。每個文本的分?jǐn)?shù)可以根據(jù)主題的數(shù)量、主題的類型、與主題相聯(lián)系的主題元素的頻率、與主題相聯(lián)系的主題元素的分布、主題在文本中的位置、和它們的某種組合等來確定。這樣,可以較少依靠外部信息地使用每個文本內(nèi)的信息更精確地確定一個或多個文本的重要性或價值。另外,通過使用內(nèi)部信息進(jìn)行與搜索相聯(lián)系的排序操作和/或過濾操作,可以將更相關(guān)的搜索結(jié)果返給用戶。

發(fā)明內(nèi)容
于是,需要改進(jìn)網(wǎng)頁或其它文本的重要性或價值的確定。另外,需要提供作為對內(nèi)容搜索的回報的更相關(guān)搜索結(jié)果。本發(fā)明的實施例提供了如下所述的對這些需要等的新解決方案。這里所述的實施例針對給文本評分的計算機實現(xiàn)方法、計算機可讀媒體和系統(tǒng)。 更具體地說,可以確定一個或多個文本內(nèi)的主題,并將其用于給每個文本評分,其中每個文本的總分可以指示每個文本的各自重要性和/或價值。每個文本的分?jǐn)?shù)可以根據(jù)主題的數(shù)量、主題的類型、與主題相聯(lián)系的主題元素的頻率、與主題相聯(lián)系的主題元素的分布、主題在文本中的位置、和它們的某種組合等來確定。這樣,可以較少依靠外部信息(例如,指向特定文檔的超鏈接的數(shù)量)地使用每個文本內(nèi)的信息(例如,內(nèi)部信息)更精確地確定一個或多個文本的重要性或價值。另外,通過使用內(nèi)部信息進(jìn)行與搜索相聯(lián)系的排序操作和/或過濾操作,可以將更相關(guān)的搜索結(jié)果返給用戶。在一個實施例中,一種給文本評分的方法包括確定與文本的多個部分相聯(lián)系的多個主題,其中多個部分的每個部分包含至少一個各自字符。指定多個分?jǐn)?shù)給多個主題,其中多個分?jǐn)?shù)的每個分?jǐn)?shù)對應(yīng)于多個主題的各自主題。根據(jù)多個分?jǐn)?shù)為文本確定總分。在另一個實施例中,一種計算機可讀媒體可以含有具體化在其中使計算機系統(tǒng)可以執(zhí)行根據(jù)文本的內(nèi)容給文本評分的方法的計算機可讀程序代碼。以及在又一個實施例中,一種系統(tǒng)可以包括處理器和存儲器,其中存儲器包括當(dāng)被該系統(tǒng)執(zhí)行時,實現(xiàn)根據(jù)文本的內(nèi)容給文本評分的方法的指令。構(gòu)思如下構(gòu)思受到本申請支持構(gòu)思I. 一種給文本評分的方法,所述方法包含確定與所述文本的多個部分相聯(lián)系的多個主題,其中所述多個部分的每個部分包含至少一個各自字符;指定多個分?jǐn)?shù)給所述多個主題,其中所述多個分?jǐn)?shù)的每個分?jǐn)?shù)對應(yīng)于所述多個主題的各自主題;以及根據(jù)所述多個分?jǐn)?shù)確定所述文本的總分。構(gòu)思2.如構(gòu)思I所述的方法,其中所述文本是從由網(wǎng)頁、電子文檔、和電子書組成的群體中選擇的。構(gòu)思3.如構(gòu)思I所述的方法,進(jìn)一步包含使用短語分塊確定所述文本的所述多個部分。構(gòu)思4.如構(gòu)思I所述的方法,其中所述確定所述多個主題進(jìn)一步包含確定與所述多個部分的一個部分相聯(lián)系的至少一個主題元素;如果所述至少一個主題元素的多個實例的分布落在預(yù)定范圍之內(nèi),并且如果所述部分的第一實例處在靠近所述文本的開頭的位置上,以及所述部分的第二實例處在靠近所述文本的末端的位置上,則將所述部分與主要主題相聯(lián)系;以及如果所述至少一個主題元素的所述多個實例的所述分布未落在所述預(yù)定范圍之內(nèi),則將所述部分與次要主題相聯(lián)系。構(gòu)思5.如構(gòu)思I所述的方法,其中所述確定所述多個主題進(jìn)一步包含如果所述多個部分的一部分的多個實例的分布落在預(yù)定范圍內(nèi),以及如果一個主要主題與所述文本的至少一個其它部分相聯(lián)系,則將所述部分與補充主題相聯(lián)系。構(gòu)思6.如構(gòu)思I所述的方法,其中所述指定多個分?jǐn)?shù)進(jìn)一步包含根據(jù)從由如下組成的群體中選擇的屬性確定每個主題的各自分?jǐn)?shù)所述文本中的每個主題的至少一個主題元素的各自多個實例的各自頻率、所述文本中的每個主題的至少一個主題元素的各自多個實例的各自分布、和所述文本中的每個主題的至少一個各自位置。構(gòu)思7.如構(gòu)思I所述的方法,進(jìn)一步包含訪問用戶提交的搜索詢問;
根據(jù)所述搜索詢問進(jìn)行至少一個網(wǎng)頁的搜索以生成搜索結(jié)果,其中所述搜索結(jié)果包含所述文本;以及根據(jù)所述搜索結(jié)果的各自總分來排序所述搜索結(jié)果。構(gòu)思8.如構(gòu)思7所述的方法,其中所述排序進(jìn)一步包含根據(jù)所述搜索詢問中與每個所述搜索結(jié)果相聯(lián)系的各自主題的數(shù)量和類型來排序所述搜索結(jié)果。構(gòu)思9.如構(gòu)思7所述的方法,進(jìn)一步包含根據(jù)每個所述搜索結(jié)果的各自總分過濾所述搜索結(jié)果,其中所述過濾進(jìn)一步包含過濾所述搜索結(jié)果以便識別至少一個搜索結(jié)果。構(gòu)思10.如構(gòu)思7所述的方法,進(jìn)一步包含根據(jù)所述至少一個網(wǎng)頁每一個的各自總分來排序所述至少一個網(wǎng)頁。構(gòu)思11.如構(gòu)思7所述的方法,進(jìn)一步包含根據(jù)多個網(wǎng)頁每一個的各自總分過濾所述多個網(wǎng)頁,其中所述過濾進(jìn)一步包含過濾所述多個網(wǎng)頁以便識別所述至少一個網(wǎng)頁。構(gòu)思12. —種含有具體化在其中使計算機系統(tǒng)可以執(zhí)行給文本評分的方法的計算機可讀程序代碼的計算機可讀媒體,所述方法包含確定與所述文本的多個部分相聯(lián)系的多個主題,其中所述多個部分的每個部分包含至少一個各自字符;指定多個分?jǐn)?shù)給所述多個主題,其中所述多個分?jǐn)?shù)的每個分?jǐn)?shù)對應(yīng)于所述多個主題的各自主題;以及根據(jù)所述多個分?jǐn)?shù)確定所述文本的總分。構(gòu)思13.如構(gòu)思12所述的計算機可讀媒體,其中所述文本是從由網(wǎng)頁、電子文檔、 和電子書組成的群體中選擇的。構(gòu)思14.如構(gòu)思12所述的計算機可讀媒體,其中所述方法進(jìn)一步包含使用短語分塊確定所述文本的所述多個部分。構(gòu)思15.如構(gòu)思12所述的計算機可讀媒體,其中所述確定所述多個主題進(jìn)一步包含確定與所述多個部分的一個部分相聯(lián)系的至少一個主題元素;如果所述至少一個主題元素的多個實例的分布落在預(yù)定范圍之內(nèi),且如果所述部分的第一實例處在靠近所述文本的開頭的位置上,以及所述部分的第二實例處在靠近所述文本的末端的位置上,則將所述部分與主要主題相聯(lián)系;以及如果所述至少一個主題元素的所述多個實例的所述分布未落在所述預(yù)定范圍之內(nèi),則將所述部分與次要主題相聯(lián)系。構(gòu)思16.如構(gòu)思12所述的計算機可讀媒體,其中所述確定所述多個主題進(jìn)一步包含如果所述多個部分的一部分的所述多個實例的分布落在預(yù)定范圍內(nèi),以及如果一個主要主題與所述文本的至少一個其它部分相聯(lián)系,則將所述部分與補充主題相聯(lián)系。構(gòu)思17.如構(gòu)思12所述的計算機可讀媒體,其中所述指定多個分?jǐn)?shù)進(jìn)一步包含根據(jù)從由如下組成的群體中選擇的屬性確定每個主題的各自分?jǐn)?shù)所述文本中的每個主題的至少一個主題元素的各自多個實例的各自頻率、所述文本中的每個主題的至少一個主題元素的各自多個實例的各自分布、和所述文本中的每個主題的至少一個各自位置。構(gòu)思18.如構(gòu)思12所述的計算機可讀媒體,其中所述方法進(jìn)一步包含訪問用戶提交的搜索詢問;根據(jù)所述搜索詢問進(jìn)行至少一個網(wǎng)頁的搜索以生成搜索結(jié)果,其中所述搜索結(jié)果包含所述文本;以及根據(jù)所述搜索結(jié)果的各自總分來排序所述搜索結(jié)果。構(gòu)思19.如構(gòu)思18所述的計算機可讀媒體,其中所述排序進(jìn)一步包含根據(jù)所述搜索詢問中與每個所述搜索結(jié)果相聯(lián)系的各自主題的數(shù)量和類型來排序所述搜索結(jié)果。構(gòu)思20.如構(gòu)思18所述的計算機可讀媒體,其中所述方法進(jìn)一步包含根據(jù)每個所述搜索結(jié)果的各自總分過濾所述搜索結(jié)果,其中所述過濾進(jìn)一步包含過濾所述搜索結(jié)果以便識別至少一個搜索結(jié)果。構(gòu)思21.如構(gòu)思18所述的計算機可讀媒體,其中所述方法進(jìn)一步包含根據(jù)所述至少一個網(wǎng)頁每一個的各自總分來排序所述至少一個網(wǎng)頁。構(gòu)思22.如構(gòu)思18所述的計算機可讀媒體,其中所述方法進(jìn)一步包含根據(jù)多個網(wǎng)頁每一個的各自總分來過濾所述多個網(wǎng)頁,其中所述過濾進(jìn)一步包含過濾所述多個網(wǎng)頁以便識別所述至少一個網(wǎng)頁。構(gòu)思23. —種包含處理器和存儲器的系統(tǒng),其中所述存儲器包含當(dāng)被所述系統(tǒng)執(zhí)行時實現(xiàn)給文本評分的方法的指令,所述方法包含確定與所述文本的多個部分相聯(lián)系的多個主題,其中所述多個部分的每個部分包含至少一個各自字符;指定多個分?jǐn)?shù)給所述多個主題,其中所述多個分?jǐn)?shù)的每個分?jǐn)?shù)對應(yīng)于所述多個主題的各自主題;以及根據(jù)所述多個分?jǐn)?shù)確定所述文本的總分。構(gòu)思24.如構(gòu)思23所述的系統(tǒng),其中所述文本是從由網(wǎng)頁、電子文檔、和電子書組成的群體中選擇的。構(gòu)思25.如構(gòu)思23所述的系統(tǒng),其中所述方法進(jìn)一步包含使用短語分塊確定所述文本的所述多個部分。構(gòu)思26.如構(gòu)思23所述的系統(tǒng),其中所述確定所述多個主題進(jìn)一步包含確定與所述多個部分的一個部分相聯(lián)系的至少一個主題元素;如果所述至少一個主題元素的多個實例的分布落在預(yù)定范圍之內(nèi),且如果所述部分的第一實例處在靠近所述文本的開頭的位置上,以及所述部分的第二實例處在靠近所述文本的末端的位置上,則將所述部分與主要主題相聯(lián)系;以及如果所述至少一個主題元素的所述多個實例的所述分布未落在所述預(yù)定范圍之內(nèi),則將所述部分與次要主題相聯(lián)系。構(gòu)思27.如構(gòu)思23所述的系統(tǒng),其中所述確定所述多個主題進(jìn)一步包含如果所述多個部分的一部分的所述多個實例的分布落在預(yù)定范圍內(nèi),以及如果一個主要主題與所述文本的至少一個其它部分相聯(lián)系,則將所述部分與補充主題相聯(lián)系。構(gòu)思28.如構(gòu)思23所述的系統(tǒng),其中所述指定多個分?jǐn)?shù)進(jìn)一步包含根據(jù)從由如下組成的群體中選擇的屬性確定每個主題的各自分?jǐn)?shù)所述文本中的每個主題的至少一個主題元素的各自多個實例的各自頻率、所述文本中的每個主題的至少一個主題元素的各自多個實例的各自分布、和所述文本中的每個主題的至少一個各自位置。構(gòu)思29.如構(gòu)思23所述的系統(tǒng),其中所述方法進(jìn)一步包含訪問用戶提交的搜索詢問;根據(jù)所述搜索詢問進(jìn)行至少一個網(wǎng)頁的搜索以生成搜索結(jié)果,其中所述搜索結(jié)果包含所述文本;以及根據(jù)所述搜索結(jié)果的各自總分來排序所述搜索結(jié)果。構(gòu)思30.如構(gòu)思29所述的系統(tǒng),其中所述排序進(jìn)一步包含根據(jù)所述搜索詢問中與每個所述搜索結(jié)果相聯(lián)系的各自主題的數(shù)量和類型來排序所述搜索結(jié)果。構(gòu)思31.如構(gòu)思29所述的系統(tǒng),其中所述方法進(jìn)一步包含根據(jù)每個所述搜索結(jié)果的各自總分過濾所述搜索結(jié)果,其中所述過濾進(jìn)一步包含過濾所述搜索結(jié)果以便識別至少一個搜索結(jié)果。構(gòu)思32.如構(gòu)思29所述的系統(tǒng),其中所述方法進(jìn)一步包含根據(jù)所述至少一個網(wǎng)頁每一個的各自總分來排序所述至少一個網(wǎng)頁。構(gòu)思33.如構(gòu)思29所述的系統(tǒng),其中所述方法進(jìn)一步包含根據(jù)多個網(wǎng)頁每一個的各自總分過濾所述多個網(wǎng)頁,其中所述過濾進(jìn)一步包含過濾所述多個網(wǎng)頁以便識別所述至少一個網(wǎng)頁。


本發(fā)明將非限制性地通過例子例示在其中相同標(biāo)號表示相同元件的附圖的圖形中。圖I示出了依照本發(fā)明的一個實施例給一個或多個文本評分的示范性系統(tǒng);圖2示出了依照本發(fā)明的一個實施例給一個或多個文本評分的示范性計算機實現(xiàn)進(jìn)程的流程圖;圖3A示出了依照本發(fā)明的一個實施例確定與文本相聯(lián)系的至少一個主題的示范性計算機實現(xiàn)進(jìn)程的流程圖的第一部分;圖3B示出了依照本發(fā)明的一個實施例確定與文本相聯(lián)系的至少一個主題的示范性計算機實現(xiàn)進(jìn)程的流程圖的第二部分;圖3C示出了依照本發(fā)明的一個實施例確定與文本相聯(lián)系的至少一個主題的示范性計算機實現(xiàn)進(jìn)程的流程圖的第三部分;圖4示出了依照本發(fā)明的一個實施例的示范性主題元素數(shù)據(jù)庫;圖5示出了依照本發(fā)明的一個實施例的示范性變體數(shù)據(jù)庫;圖6示出了依照本發(fā)明的一個實施例對多個主題確定多個分?jǐn)?shù)的示范性計算機實現(xiàn)進(jìn)程的流程圖;圖7示出了依照本發(fā)明的一個實施例的示范性屬性評分?jǐn)?shù)據(jù)庫;圖8示出了依照本發(fā)明的一個實施例的示范性文本評分?jǐn)?shù)據(jù)庫;圖9示出了依照本發(fā)明的一個實施例進(jìn)行與搜索相聯(lián)系的一次或多次操作的示范性計算機實現(xiàn)進(jìn)程的流程圖;圖10示出了依照本發(fā)明的一個實施例縮放多個文本的多個各自總分的示范性計算機實現(xiàn)進(jìn)程的流程圖;以及圖11示出了可以實現(xiàn)本發(fā)明的實施例的示范性計算機系統(tǒng)平臺。
具體實施例方式現(xiàn)在詳細(xì)介紹其例子例示在附圖中的本發(fā)明的實施例。雖然本發(fā)明將結(jié)合附圖來討論,但要明白的是無意使本發(fā)明只局限于這些實施例。相反,本發(fā)明旨在涵蓋可以包括在如所附權(quán)利要求書限定的本發(fā)明的精神和范圍內(nèi)的可替代物、變型和等效物。而且,在本發(fā)明的如下詳細(xì)描述中,為了使人們?nèi)媪私獗景l(fā)明,給出了許多具體細(xì)節(jié)。但是,本發(fā)明的實施例不用這些具體細(xì)節(jié)也可以實施。在其它情況下,未詳細(xì)描述眾所周知的方法、過程、 部件和電路,以免不必要地掩蓋本發(fā)明的各個方面。記號和術(shù)語如下詳細(xì)描述的一些部分通過對計算機存儲器內(nèi)的數(shù)據(jù)位的操作的過程、邏輯塊、進(jìn)程和其它符號表示的形式給出。這些描述和表示是數(shù)據(jù)處理領(lǐng)域的普通技術(shù)人員用于最有效地向該領(lǐng)域的其它普通技術(shù)人員傳達(dá)他們的工作的實質(zhì)的手段。在本申請中,將過程、邏輯塊、進(jìn)程等構(gòu)想成導(dǎo)致所希望結(jié)果的步驟或指令的自給序列。這些步驟是要求物理操縱物理量的步驟。通常,盡管未必如此,但這些量呈現(xiàn)能夠在計算機系統(tǒng)中被存儲、被傳送、被組合、被比較、和要不然被操縱的電或磁信號的形式。然而,應(yīng)當(dāng)銘記,所有這些和類似術(shù)語都要與適當(dāng)物理量相聯(lián)系,并且僅僅是應(yīng)用于這些量的方便標(biāo)記。正如從下面的討論中明顯看到的那樣,除非另有說明,應(yīng)該懂得,在
整個本發(fā)明中,利用諸如‘‘接受”、“訪問”、“加上”、‘:‘分析”、‘:‘應(yīng)用”、‘:‘組裝”、‘:‘指定”、“聯(lián)系”、“計算”、‘‘捕獲”、‘‘組合”、‘‘通信”、“比較”、“收集”、‘‘創(chuàng)建”、‘‘定義”、‘‘描繪”、‘:‘檢測”、“確定”、“曰-=P ” i M/Jn、‘建立”、‘‘執(zhí)行”、‘‘過濾”、“生成”、“分組”、‘‘識別”、‘:‘啟動”、‘‘交互”、‘:‘修改”、“監(jiān)視”、“移動”、‘‘輸出”、‘‘進(jìn)行”、‘‘放置”、“給出”、“處理”、‘‘編程”、‘‘提供”、‘‘詢問”、‘‘排序”、“除去”、“重復(fù)”、‘:‘取樣”、‘“分類” V“存儲”、“減去”、“變換”、“使用”等的術(shù)語的討論指的是操縱計算
機系統(tǒng)的寄存器和存儲器內(nèi)表示成物理(電子)量的數(shù)據(jù)和將其變換成計算機系統(tǒng)的存儲器或寄存器,或其它這樣的信息存儲、傳輸或顯示設(shè)備內(nèi)類似地表示成物理量的其它數(shù)據(jù)的計算機系統(tǒng)或類似電子計算設(shè)備的動作和進(jìn)程。本發(fā)明實施例圖I示出了依照本發(fā)明的一個實施例給一個或多個文本評分的示范性系統(tǒng)100。 如圖I所示,評分部件110的分?jǐn)?shù)確定部件111可以根據(jù)內(nèi)部信息(例如,依照圖2的進(jìn)程 200)確定存儲在文本數(shù)據(jù)庫112中的一個或多個文本的各自分?jǐn)?shù),其中內(nèi)部信息可以包括每個文本的各自內(nèi)容(例如,至少一個主題)??梢詫⒃u分的結(jié)果存儲在文本評分?jǐn)?shù)據(jù)庫113 中。在一個實施例中可以將評分的結(jié)果用于進(jìn)行與搜索相聯(lián)系的至少一次操作(例如,依照圖9的進(jìn)程900)。例如,過濾部件130可以訪問為每個文本確定的各自分?jǐn)?shù),并使用各自分?jǐn)?shù)過濾文本(例如,選擇或識別分?jǐn)?shù)在預(yù)定閾值之上的文本子集等)。過濾可以在進(jìn)行搜索之前(例如,識別搜索引擎120進(jìn)行一次或多次搜索的文本子集)和/或在進(jìn)行搜索之后(例如,識別搜索引擎120進(jìn)行的搜索的結(jié)果子集)進(jìn)行。作為另一個例子,排序部件140可以訪問為每個文本確定的各自分?jǐn)?shù),并使用各自分?jǐn)?shù)排序文本(例如,按分?jǐn)?shù)遞增的次序排列文本,按分?jǐn)?shù)遞減的次序排列文本等)。排序可以在進(jìn)行搜索之前(例如,定序搜索引擎120進(jìn)行一次或多次搜索的文本)和/或在進(jìn)行搜索之后(例如,排列或定序搜索引擎120進(jìn)行的搜索的結(jié)果)進(jìn)行。這樣,本發(fā)明的實施例通過使用內(nèi)部信息給文本評分,能夠?qū)⒏嚓P(guān)的搜索結(jié)果返給用戶。在一個實施例中,本發(fā)明的實施例可以降低對外部信息的依賴性(例如,指向特定文檔的超鏈接的數(shù)量),以便進(jìn)一步改善至少一個文本的重要性和/或價值的確定,改善至少一個文本的搜索或與至少一個文本的搜索有關(guān)的其它操作(例如,過濾、排序等)等。例如,在相對較少外部鏈接(例如,超鏈接)指向較重要或有價值文本的情況下,與依靠外部信息確定文本的重要性和/或價值(例如,倘若指向文本的超鏈接數(shù)量相對較少,則確定文本的重要性和/或價值相對較低)的傳統(tǒng)解決方案相比,可以使用內(nèi)部信息更精確地確定文本的重要性和/或價值。作為另一個例子,在相對較多數(shù)量外部鏈接指向較不重要或有較小價值文本的情況下,與依靠外部信息確定文本的重要性和/或價值(例如,倘若指向文本的超鏈接數(shù)量相對較多,則確定文本的重要性和/或價值相對較高)的傳統(tǒng)解決方案相比,可以使用內(nèi)部信息更精確地確定文本的重要性和/或價值。在一個實施例中,可以在(例如,存儲在文本數(shù)據(jù)庫112中的至少一個文本的)內(nèi)聯(lián)網(wǎng)或?qū)S镁W(wǎng)絡(luò)160內(nèi)進(jìn)行(例如,通過搜索引擎120)搜索,并且可以將搜索結(jié)果提供給專用網(wǎng)絡(luò)內(nèi)的至少一個計算機系統(tǒng)(例如,152,154等)。在一個實施例中,文本數(shù)據(jù)庫112內(nèi)的一個或多個文本可能包括機密信息和/或可能包括與文本數(shù)據(jù)庫112內(nèi)的其它文本的相對較少或甚至沒有超鏈接??商娲氖牵梢灾辽倬植吭趯S镁W(wǎng)絡(luò)160之外地(例如,在文本數(shù)據(jù)庫190等的至少一個文本上)進(jìn)行(例如,通過搜索引擎120)搜索。在這種情況下,可以將搜索結(jié)果提供給專用網(wǎng)絡(luò)160內(nèi)的至少一個計算機系統(tǒng)(例如,152,154等)和/或?qū)S镁W(wǎng)絡(luò)160之外的至少一個計算機系統(tǒng)(例如,182,184等)。專用網(wǎng)絡(luò)160可以包括可以具有有限或沒有互聯(lián)網(wǎng)聯(lián)通性地通信的任意個計算機系統(tǒng)或設(shè)備。專用網(wǎng)絡(luò)160內(nèi)的計算機系統(tǒng)或設(shè)備可以通過局域網(wǎng)(LAN)、虛擬專用網(wǎng)絡(luò) (VPN)等耦合。盡管圖I示出了特定數(shù)量和排列的部件,但應(yīng)該懂得,在其它實施例中系統(tǒng)100可以含有不同數(shù)量和/或排列的部件。另外,盡管圖I示出了帶有特定部件(例如,分?jǐn)?shù)確定部件111、文本數(shù)據(jù)庫112、文本評分?jǐn)?shù)據(jù)庫113、主題元素數(shù)據(jù)庫114、變體數(shù)據(jù)庫115、屬性評分?jǐn)?shù)據(jù)庫116等)的評分部件110,但應(yīng)該懂得,在其它實施例中評分部件110可以含有不同數(shù)量的部件。例如,在一個實施例中一個或多個數(shù)據(jù)庫(例如,文本數(shù)據(jù)庫112、文本評分?jǐn)?shù)據(jù)庫113、主題元素數(shù)據(jù)庫114、變體數(shù)據(jù)庫115、屬性評分?jǐn)?shù)據(jù)庫116、它們的某種組合等)可以處在評分部件110的外部。并且,應(yīng)該懂得,在一個實施例中專用網(wǎng)絡(luò)160的一個或多個部件可以經(jīng)由互聯(lián)網(wǎng)170通信。圖2示出了依照本發(fā)明的一個實施例給一個或多個文本評分的示范性計算機實現(xiàn)進(jìn)程200的流程圖。如圖2所示,步驟210牽涉到確定文本的多個部分。該文本可以是網(wǎng)頁、電子文檔(例如,Microsoft Word文檔、Microsoft Excel電子表格、Adobe PDF等)、和電子書等。在步驟210中確定的文本的每個部分可以包括至少一個各自字符(例如,字母、 數(shù)字、符號、圖標(biāo)等)。例如,可以發(fā)現(xiàn)句子“Barack Obama lives in the White House”包括三個分立部分“Barack Obama”、“l(fā)ives in”和“White House”。在一個實施例中,可以在步驟210中使用短語分塊(例如,根據(jù)統(tǒng)計、語法規(guī)則等)或類似處理來確定多個部分。步驟220牽涉到確定與文本的多個部分(例如,在步驟210中確定的)相聯(lián)系的多個主題。在一個實施例中,文本的部分的數(shù)量可以大于主題的數(shù)量(例如,可能不是文本的每個部分都與一個主題相聯(lián)系)??梢詫⒃诓襟E220中確定的每個主題與至少一個主題元素 (例如,與主題的例子有關(guān)和/或提供主題的例子的一個或多個詞匯)相聯(lián)系,其中在一個實施例中可以將主題與各自主題元素之間的關(guān)聯(lián)存儲在主題元素數(shù)據(jù)庫114中(例如,如圖4 所示)。主題元素也可以包括一個詞匯的“變體”或可替代形式(例如,如圖5所示,“speaks”、 “ spoke”、“ spoken”和“ speaking”可以是詞匯“ speak”的變體),其中變體可以包括在主題數(shù)據(jù)庫(例如,114)中和/或包括在分立數(shù)據(jù)庫(例如,變體數(shù)據(jù)庫115)中。多個主題可以包括一個主要主題(例如,在文本中的至少一個主題元素的實例的分布落在預(yù)定范圍之內(nèi)的情況下,在一個部分的一個實例處在靠近文本的開頭的位置上而該部分的另一個實例處在靠近文本的末端的位置上的情況下等)、一個次要主題(例如,在文本中的至少一個主題元素的實例的分布未落在預(yù)定范圍之內(nèi)的情況下等)、一個補充主題(例如,在文本中的一個部分的實例的分布落在預(yù)定范圍之內(nèi),以及至少一個其它部分與主要主題相聯(lián)系的情況下等)、一個潛在主要主題(例如,在文本中的一個部分的實例的分布落在預(yù)定范圍之內(nèi)的情況下等)、它們的某種組合等。在一個實施例中,步驟220可以依照圖3A、3B和/或3C的進(jìn)程300來執(zhí)行。如圖2所示,步驟230牽涉到將多個分?jǐn)?shù)指定給多個主題(例如,在步驟220中確定的)。每個主題可以接受基于一種或多種屬性的各自分?jǐn)?shù),其中一種或多種屬性可以包括文本中的每個主題的各自多個主題元素的各自頻率(例如,基于與文本的長度有關(guān)的文本中的各自主題元素的實例的數(shù)量)、文本中的每個主題的各自多個主題元素的各自分布(例如,基于文本中的各自主題元素的相繼實例之間的距離,其中至少一個主題元素的實例之間的“距離”可以用字符、詞匯、符號等的數(shù)量來表達(dá))、和文本中的每個主題的至少一種各自位置(例如,基于主題的至少一個實例是否處在靠近文本的開頭和/或末端的位置上)。在一個實施例中,在步驟230中指定的分?jǐn)?shù)可以依照圖6的進(jìn)程600來確定。步驟240牽涉到根據(jù)多個分?jǐn)?shù)(例如,在步驟230中指定的)確定文本的總分。在一個實施例中總分可以通過求和多個分?jǐn)?shù)(例如,在步驟230中指定給每個主題的各自分?jǐn)?shù))來計算。并且,在一個實施例中,在步驟240中確定的總分可以指示文本的重要性或價值(例如,根據(jù)本文的一個或多個主題)。于是,進(jìn)程200可以用于根據(jù)文本內(nèi)的信息(例如,內(nèi)部信息)確定文本的總分。進(jìn)程200可以有利地用于確定較少或沒有外部超鏈接(例如,在至少一個其它文本內(nèi))指向文本的文本的總分。另外,進(jìn)程200可以有利地用于確定包括機密信息的文本(例如,旨在專用網(wǎng)絡(luò)160內(nèi)共享)的總分。這樣,通過使用內(nèi)部信息(例如,較少依靠外部信息地)進(jìn)行與搜索相聯(lián)系的排序操作和/或過濾操作,可以將更相關(guān)的搜索結(jié)果返給用戶。圖3A、3B和3C示出了依照本發(fā)明的一個實施例確定與文本相聯(lián)系的至少一個主題的示范性計算機實現(xiàn)過程300的流程圖。如圖3A所示,步驟305牽涉到訪問文本的多個部分的第一部分。該文本可以是網(wǎng)頁、電子文檔(例如,Microsoft Word文檔、Microsoft Excel電子表格、Adobe PDF等)、和電子書等。在一個實施例中多個部分可以依照進(jìn)程200 的步驟210來確定。另外,在一個實施例中第一部分可以從數(shù)據(jù)庫(例如,文本數(shù)據(jù)庫112、文本數(shù)據(jù)庫190等)中訪問。步驟310牽涉到確定在主題數(shù)據(jù)庫(例如114)中是否找到該部分(例如,在步驟 305中訪問的第一部分或在步驟320中訪問的另一個部分)。步驟310可以通過將一個部分的至少一個字符與主題數(shù)據(jù)庫(例如,114)中的至少一個條目相比較來執(zhí)行。如果在主題數(shù)據(jù)庫中未找到該部分(例如,該部分包括不是列在主題數(shù)據(jù)庫中的主題的詞匯),則可以在步驟315中確定文本是否包括另一個部分。如果文本未包括另一個部分,則可以如本文所討論執(zhí)行步驟385。另一種情況是,如果文本未包括另一個部分,則可以在步驟320中訪問下一個部分,然后對下一個部分執(zhí)行步驟310。另一種情況是,如果在主題數(shù)據(jù)庫中找到該部分(例如,該部分包括如圖4所示是列在主題數(shù)據(jù)庫中的主題的詞匯“food”),則可以在步驟325中確定與該部分相聯(lián)系的至少一個主題元素。例如,如果該部分包括詞匯“food”,則可以確定詞匯“bread”、“meat”、 “fruit”和“nuts”是與該部分相聯(lián)系的主題元素。一個主題元素可以包括與主題的例子有關(guān)和/或提供主題的例子的一個或多個詞匯。主題元素也可以包括一個詞匯的“變體”或可替代形式(例如,如圖5所示,“speaks”、“spoke'“spoken”和“speaking”可以是詞匯 “speak”的變體),其中變體可以包括在主題數(shù)據(jù)庫(例如,114)中和/或包括在分立數(shù)據(jù)庫 (例如,變體數(shù)據(jù)庫115)中。這樣,在一個實施例中,步驟325可能牽涉到確定與一個主題相聯(lián)系的至少一個變體,其中該變體可以通過索引主題數(shù)據(jù)庫114和/或變體數(shù)據(jù)庫115來確定。在一個實施例中,步驟325可以通過使用該部分的至少一個字符(例如,詞匯“food”) 對主題數(shù)據(jù)庫114進(jìn)行索引來執(zhí)行,以便返回“bread”、“meat”、“frUit”和“nuts” (例如, 如圖4所示)的主題元素。如圖3B所示,步驟330牽涉到確定在文本中是否找到至少一個主題元素(例如,在步驟325中確定的)的多個實例。步驟330可能牽涉到進(jìn)行文本的一次或多次詞匯搜索,以識別至少一個主題元素的多個實例。例如,可以進(jìn)行文本的第一詞匯搜索,以識別主題元素 “bread”的任何實例,可以進(jìn)行文本的第二詞匯搜索,以識別主題元素“meat”的任何實例, 依此類推。如果在步驟330中找到至少一個主題元素的多個實例(例如,只有一個主題元素的多個實例、第一主題元素的至少一個實例、和第二主題元素的至少一個實例等),則可以執(zhí)行步驟335。步驟335牽涉到確定文本中的至少一個主題元素的多個實例(例如,在步驟330中識別的)的分布是否落在預(yù)定范圍之內(nèi)。在一個實施例中,可以認(rèn)為落在預(yù)定范圍之內(nèi)的分布是“均勻分布”,而可以認(rèn)為落在預(yù)定范圍之外的分布是“非均勻分布”。在一個實施例中,可以通過對至少一個主題元素的每個相繼實例對之間的“距離”(例如,詞匯、字符、符號等的數(shù)量)求平均來確定該分布(例如,文本中的至少一個主題元素的多個實例的分布)。每個相繼對可以包括同一主題元素的兩個實例;或一個主題元素的實例和另一個主題元素的實例。這樣,在一個實施例中,步驟335可能牽涉到計算平均“距離”并將其與預(yù)定范圍相比較,其中預(yù)定范圍可能隨文本的長度(例如,詞匯、字符、符號等的數(shù)量)而變。如果在步驟335中確定平均距離未落在預(yù)定范圍之內(nèi),則可以在步驟340中將該部分與一個次要主題相聯(lián)系,然后可以執(zhí)行步驟315。另一種情況是,如果在步驟335中確定平均距離落在預(yù)定范圍之內(nèi),則可以執(zhí)行步驟345。如圖3B所示,步驟345牽涉到確定該部分的一個實例是否處在靠近文本的開頭的位置上和該部分的另一個實例是否處在靠近文本的末端的位置上。例如,步驟345可能牽涉到確定是否從文本的開頭開始在預(yù)定個詞匯、字符、符號等之內(nèi)找到該部分的第一實例。作為另一個例子,步驟345可能牽涉到確定是否從文本的末端開始在預(yù)定個詞匯、字符、符號等之內(nèi)找到該部分的第二實例。如果在步驟345中確定該部分的一個實例處在靠近文本的開頭的位置上和該部分的另一個實例處在靠近文本的末端的位置上,則可以在步驟350中將該部分與一個主要主題相聯(lián)系,然后可以執(zhí)行步驟315。另一種情況是,如果在步驟345中確定該部分的一個實例未處在靠近文本的開頭的位置上和/或該部分的另一個實例未處在靠近文本的末端的位置上,則可以在步驟355中將該部分與一個主要主題相聯(lián)系,然后可以執(zhí)行步驟315。在一個實施例中,步驟355還可能牽涉到做上降低確定性地進(jìn)行該部分與一個主要主題的聯(lián)系(例如,與在步驟350中進(jìn)行的聯(lián)系相比)的記號。以后在利用總分的應(yīng)用(例如,使用總分排序多個文本、過濾多個文本等的搜索)中,可以使用這個記號確定主題的分?jǐn)?shù)、和文本的總分。如果在步驟330中在文本中未找到至少一個主題元素的多個實例(例如,只有一個主題元素的多個實例、第一主題元素的至少一個實例、和第二主題元素的至少一個實例等),則如圖3C所示可以在步驟360中確定文本中的該部分的多個實例的分布是否落在預(yù)定范圍之內(nèi)。在一個實施例中,可以認(rèn)為落在預(yù)定范圍之內(nèi)的分布是“均勻分布”,而可以認(rèn)為落在預(yù)定范圍之外的分布是“非均勻分布”。在一個實施例中,可以通過對該部分的每個相繼實例對之間的“距離”(例如,詞匯、字符、符號等的數(shù)量)求平均來確定該分布(例如,文本中的該部分的分布)。這樣,在一個實施例中,步驟360可能牽涉到計算平均“距離”并將其與預(yù)定范圍相比較,其中預(yù)定范圍可能隨文本的長度(例如,詞匯、字符、符號等的數(shù)量) 而變。如果在步驟360中確定平均距離未落在預(yù)定范圍之內(nèi),則在步驟365中不將該部分與任何主題相聯(lián)系,然后可以執(zhí)行步驟315。另一種情況是,如果在步驟360中確定平均距離落在預(yù)定范圍之內(nèi),則可以執(zhí)行步驟370。如圖3C所示,步驟370牽涉到確定是否已經(jīng)將一個主要主題與另一個部分相聯(lián)系 (例如,如在步驟350或355中對另一個部分執(zhí)行的)。如果在步驟370中確定未將一個主要主題與另一個部分相聯(lián)系,則可以在步驟375中將該部分與一個潛在主要主題相聯(lián)系,然后可以執(zhí)行步驟315。另一種情況是,如果在步驟370中確定已將一個主要主題與另一個部分相聯(lián)系,則可以在步驟380中將該部分與一個補充主題相聯(lián)系,然后可以執(zhí)行步驟315。轉(zhuǎn)回到圖3A,如果在步驟315中確定文本不包括另一個部分(例如,已經(jīng)對本文的所有部分執(zhí)行了步驟310和325到380,或它們的某種組合),則可以執(zhí)行步驟385。步驟 385牽涉到確定是否將文本的任何部分都與一個主要主題相聯(lián)系。如果在步驟385中確定文本的至少一個部分與主要主題相聯(lián)系,則可以在步驟390中將潛在主要主題的所有聯(lián)系改變成與補充主題的聯(lián)系(例如,以前在步驟375中與潛在主要主題相聯(lián)系的任何部分現(xiàn)在可以取而代之與補充主題相聯(lián)系)。另一種情況是,如果在步驟385中確定文本沒有部分與主要主題相聯(lián)系,則可以終止過程300。圖6示出了依照本發(fā)明的一個實施例對多個主題確定多個分?jǐn)?shù)的示范性計算機實現(xiàn)進(jìn)程600的流程圖。如圖6所示,步驟610牽涉到確定文本中的每個主題的至少一個主題元素的各自多個實例的頻率。在一個實施例中,特定主題的主題元素的頻率可以通過將與特定主題(例如,包括主題元素的標(biāo)準(zhǔn)形式、主題元素的變體、它們的某種組合等)相聯(lián)系的主題元素的實例的數(shù)量除以文本的長度(例如,表達(dá)成詞匯、字符、符號等的數(shù)量)來確定,其中可以對文本的每個主題重復(fù)這種操作。在一個實施例中,特定主題的主題元素的頻率可以通過將與特定主題(例如,包括主題元素的標(biāo)準(zhǔn)形式、主題元素的變體、它們的某種組合等)相聯(lián)系的主題元素的實例的數(shù)量來確定。并且,在一個實施例中,可替代地在步驟 610中確定文本中的每個主題的各自多個主題元素的頻率。步驟620牽涉到確定文本中的每個主題的至少一個主題元素的各自多個實例的分布。在一個實施例中,特定主題的主題元素的分布可以通過對主題元素的每個相繼實例對之間的“距離”(例如,詞匯、字符、符號等的數(shù)量)求平均來確定,其中可以對文本的每個主題重復(fù)這種操作。每個相繼對可以包括同一主題元素(例如,主題元素的標(biāo)準(zhǔn)形式、主題元素的變體、它們的某種組合等)的兩個實例;或一個主題元素(例如,主題元素的標(biāo)準(zhǔn)形式、主題元素的變體、它們的某種組合等)的實例和另一個主題元素(例如,主題元素的標(biāo)準(zhǔn)形式、主題元素的變體、它們的某種組合等)的實例。如圖6所示,步驟630牽涉到確定文本中的每個主題(例如,與每個主題相聯(lián)系的至少一個各自部分)的至少一個各自實例的至少一個各自位置。在一個實施例中,步驟630 可能牽涉到確定特定主題的至少一個實例是否處在靠近文本的開頭的位置上(例如,從文本的開頭開始在預(yù)定個詞匯、字符、符號等之內(nèi))。在一個實施例中,步驟630可能牽涉到確定特定主題的至少一個實例是否處在靠近文本的末端的位置上(例如,從文本的末端開始在預(yù)定個詞匯、字符、符號等之內(nèi))。步驟640牽涉到根據(jù)文本的至少一種屬性確定每個主題的各自分?jǐn)?shù)。例如,步驟 640可能牽涉到根據(jù)文本中的主題的至少一個主題元素的多個實例的頻率(例如,如在步驟 610中所確定)、文本中的主題的至少一個主題元素的多個實例的分布(例如,如在步驟620 中所確定)、文本中的主題的至少一個實例的位置(例如,如在步驟630中所確定)、它們的某種組合等確定每個主題的各自分?jǐn)?shù)。在一個實施例中,在步驟640中可以通過求和多個分?jǐn)?shù)(例如,使用屬性評分?jǐn)?shù)據(jù)庫116確定的)計算每個主題的各自分?jǐn)?shù)。例如,可以根據(jù)在步驟610中的確定的頻率(例如,表達(dá)成分?jǐn)?shù)、百分比等)從屬性評分?jǐn)?shù)據(jù)庫116 (例如,如圖7所示)中確定與頻率相聯(lián)系的第一分?jǐn)?shù)。作為另一個例子,可以根據(jù)在步驟620中的確定的分布(例如,用詞匯、字符、 符號等表達(dá)的平均“距離”)從屬性評分?jǐn)?shù)據(jù)庫116 (例如,如圖7所示)中確定與分布相聯(lián)系的第二分?jǐn)?shù)。作為又一個例子,可以根據(jù)在步驟630中的確定的位置(例如,靠近文本的開頭、靠近文本的末端、靠近文本的開頭和末端兩者等)從屬性評分?jǐn)?shù)據(jù)庫116 (例如,如圖 7所示)中確定與位置相聯(lián)系的第三分?jǐn)?shù)。在一個實施例中,可以將文本中的每個主題的各自分?jǐn)?shù)(例如,如在步驟640中所確定)存儲在如圖8所示的文本評分?jǐn)?shù)據(jù)庫113中。如圖8所示,文本評分?jǐn)?shù)據(jù)庫113可以包括與每個文本相聯(lián)系的至少一個各自主題(例如,如使用進(jìn)程300所確定)、與每個主題相對應(yīng)的各自主題類型(例如,如使用進(jìn)程300所確定)、和與每個主題相對應(yīng)的各自分?jǐn)?shù)(例如,如使用進(jìn)程600所確定)。圖9示出了依照本發(fā)明的一個實施例進(jìn)行與搜索相聯(lián)系的一次或多次操作的示范性計算機實現(xiàn)進(jìn)程900的流程圖。如圖9所示,步驟910牽涉到確定多個網(wǎng)頁的每個網(wǎng)頁的各自總分。在一個實施例中,步驟910可以依照圖3的進(jìn)程300來執(zhí)行,其中可以對多個網(wǎng)頁的每個網(wǎng)頁重復(fù)進(jìn)程300。步驟920牽涉到根據(jù)各自總分來排序多個網(wǎng)頁。例如,可以按各自總分遞增、各自總分遞減等的次序排列網(wǎng)頁。在一個實施例中,在步驟920中進(jìn)行的排序可以在進(jìn)行多個網(wǎng)頁的搜索之前進(jìn)行。并且,在一個實施例中,步驟920可以由排序部件(例如,140)來執(zhí)行。如圖9所示,步驟930牽涉到根據(jù)各自總分過濾多個網(wǎng)頁。例如,步驟930可能牽涉到識別具有在預(yù)定閾值之上的各自總分的多個網(wǎng)頁的子集。在一個實施例中,在步驟930 中進(jìn)行的過濾可以在進(jìn)行多個網(wǎng)頁的搜索之前進(jìn)行。并且,在一個實施例中,步驟930可以由過濾部件(例如,130)來執(zhí)行。步驟940牽涉到訪問用戶提交的搜索詢問。搜索詢問可以包括至少一個字符、至少一個詞匯、至少一個符號等。在一個實施例中,搜索詢問可以使用圖形用戶界面輸入。如圖9所示,步驟950牽涉到根據(jù)搜索詢問(例如,在步驟940中訪問的)進(jìn)行搜索以生成搜索結(jié)果(例如,包括至少一個網(wǎng)頁)。在一個實施例中,搜索可以是基于搜索詢問的一個或多個部分的關(guān)鍵詞搜索。并且,在一個實施例中,步驟950可以由搜索引擎(例如, 120)來執(zhí)行。步驟960牽涉到至少部分根據(jù)搜索結(jié)果的每個的各自總分來排序搜索結(jié)果。例如,可以按各自總分遞增、各自總分遞減等的次序排列搜索結(jié)果。在一個實施例中,在步驟 960中進(jìn)行的排序可以在在步驟950中進(jìn)行多個網(wǎng)頁的搜索之后進(jìn)行。在一個實施例中,步驟960可以由排序部件(例如,140 )來執(zhí)行。并且,在一個實施例中,步驟960可能牽涉到縮放搜索結(jié)果的各自總分(例如,依照圖10的進(jìn)程1000進(jìn)行,然后根據(jù)搜索結(jié)果的各自縮放總分來排序搜索結(jié)果。圖10示出了依照本發(fā)明的一個實施例縮放多個文本的多個各自總分的示范性計算機實現(xiàn)進(jìn)程的流程圖。如圖10所示,步驟1010牽涉到訪問第一搜索結(jié)果。第一搜索結(jié)果可以包括在作為搜索(例如,如在進(jìn)程900的步驟950中所執(zhí)行)的結(jié)果生成的多個搜索
結(jié)果中。步驟1020牽涉到確定在搜索詢問(例如,由用戶在進(jìn)程900的步驟940中提交)中找到的搜索結(jié)果的主題的數(shù)量和類型。在一個實施例中,主題的數(shù)量和類型可以使用文本評分?jǐn)?shù)據(jù)庫113 (例如,如圖8所示)來確定。如圖10所示,步驟1030牽涉到根據(jù)主題的數(shù)量和類型確定與搜索結(jié)果相聯(lián)系的縮放因子。在一個實施例中,縮放因子“S”可以使用如下方程計算S=N . *V . +N *V +N t . *V t . + N . *V .,
Lw 1 major major comp comp 1IpoterLtialmajor * potentialmajor 1 1 minor minor7其中N_OT可以是搜索結(jié)果的主要主題的數(shù)量(例如,如圖8所示的“文本I”含有兩個主要主題等),其中Nramp可以是搜索結(jié)果的補充主題的數(shù)量(例如,如圖8所示的“文本 3”含有兩個補充主題等),其中N_ntialmajOT可以是搜索結(jié)果的潛在主要主題的數(shù)量(例如,如圖8所示的“文本3”含有一個潛在主要主題等),和其中Nmi■可以是搜索結(jié)果的次要主題的數(shù)量(例如,如圖8所示的“文本2”含有兩個次要主題等)。Vma_可以是與主要主題相聯(lián)系的數(shù)值或權(quán)重,Vramp可以是與補充主題相聯(lián)系的數(shù)值或權(quán)重,V_ntialm_可以是與潛在主要主題相聯(lián)系的數(shù)值或權(quán)重,和Vmi■可以是與次要主題相聯(lián)系的數(shù)值或權(quán)重。在一個實施例中,與指定主題類型相聯(lián)系的各自權(quán)重可以使用表I來確定。
權(quán)利要求
1.一種給文本評分的方法,所述方法包含確定與所述文本的多個部分相聯(lián)系的多個主題,其中所述多個部分的每個部分包含至少一個各自字符;指定多個分?jǐn)?shù)給所述多個主題,其中所述多個分?jǐn)?shù)的每個分?jǐn)?shù)對應(yīng)于所述多個主題的各自主題;以及根據(jù)所述多個分?jǐn)?shù)確定所述文本的總分。
2.如權(quán)利要求I所述的方法,其中所述文本是從由網(wǎng)頁、電子文檔、和電子書組成的群體中選擇的。
3.如權(quán)利要求I所述的方法,進(jìn)一步包含使用短語分塊確定所述文本的所述多個部分。
4.如權(quán)利要求I所述的方法,其中所述確定所述多個主題進(jìn)一步包含確定與所述多個部分的一個部分相聯(lián)系的至少一個主題元素;如果所述至少一個主題元素的多個實例的分布落在預(yù)定范圍之內(nèi),并且如果所述部分的第一實例處在靠近所述文本的開頭的位置上,以及所述部分的第二實例處在靠近所述文本的末端的位置上,則將所述部分與主要主題相聯(lián)系;以及如果所述至少一個主題元素的所述多個實例的所述分布未落在所述預(yù)定范圍之內(nèi),則將所述部分與次要主題相聯(lián)系。
5.如權(quán)利要求I所述的方法,其中所述確定所述多個主題進(jìn)一步包含如果所述多個部分的一部分的多個實例的分布落在預(yù)定范圍內(nèi),以及如果一個主要主題與所述文本的至少一個其它部分相聯(lián)系,則將所述部分與補充主題相聯(lián)系。
6.如權(quán)利要求I所述的方法,其中所述指定多個分?jǐn)?shù)進(jìn)一步包含根據(jù)從由如下組成的群體中選擇的屬性確定每個主題的各自分?jǐn)?shù)所述文本中的每個主題的至少一個主題元素的各自多個實例的各自頻率、所述文本中的每個主題的至少一個主題元素的各自多個實例的各自分布、和所述文本中的每個主題的至少一個各自位置。
7.如權(quán)利要求I所述的方法,進(jìn)一步包含訪問用戶提交的搜索詢問;根據(jù)所述搜索詢問進(jìn)行至少一個網(wǎng)頁的搜索以生成搜索結(jié)果,其中所述搜索結(jié)果包含所述文本;以及根據(jù)所述搜索結(jié)果的各自總分來排序所述搜索結(jié)果。
8.如權(quán)利要求7所述的方法,其中所述排序進(jìn)一步包含根據(jù)所述搜索詢問中與每個所述搜索結(jié)果相聯(lián)系的各自主題的數(shù)量和類型來排序所述搜索結(jié)果。
9.如權(quán)利要求7所述的方法,進(jìn)一步包含根據(jù)每個所述搜索結(jié)果的各自總分來過濾所述搜索結(jié)果,其中所述過濾進(jìn)一步包含過濾所述搜索結(jié)果以便識別至少一個搜索結(jié)果。
10.如權(quán)利要求7所述的方法,進(jìn)一步包含根據(jù)所述至少一個網(wǎng)頁每一個的各自總分來排序所述至少一個網(wǎng)頁。
11.如權(quán)利要求7所述的方法,進(jìn)一步包含根據(jù)多個網(wǎng)頁每一個的各自總分過濾所述多個網(wǎng)頁,其中所述過濾進(jìn)一步包含過濾所述多個網(wǎng)頁以便識別所述至少一個網(wǎng)頁。
12.—種含有具體化在其中使計算機系統(tǒng)執(zhí)行給文本評分的方法的計算機可讀程序代碼的計算機可讀媒體,所述方法包含確定與所述文本的多個部分相聯(lián)系的多個主題,其中所述多個部分的每個部分包含至少一個各自字符;指定多個分?jǐn)?shù)給所述多個主題,其中所述多個分?jǐn)?shù)的每個分?jǐn)?shù)對應(yīng)于所述多個主題的各自主題;以及根據(jù)所述多個分?jǐn)?shù)確定所述文本的總分。
13.如權(quán)利要求12所述的計算機可讀媒體,其中所述文本是從由網(wǎng)頁、電子文檔、和電子書組成的群體中選擇的。
14.如權(quán)利要求12所述的計算機可讀媒體,其中所述方法進(jìn)一步包含使用短語分塊確定所述文本的所述多個部分。
15.如權(quán)利要求12所述的計算機可讀媒體,其中所述確定所述多個主題進(jìn)一步包含 確定與所述多個部分的一個部分相聯(lián)系的至少一個主題元素;如果所述至少一個主題元素的多個實例的分布落在預(yù)定范圍之內(nèi),且如果所述部分的第一實例處在靠近所述文本的開頭的位置上,以及所述部分的第二實例處在靠近所述文本的末端的位置上,則將所述部分與主要主題相聯(lián)系;以及如果所述至少一個主題元素的所述多個實例的所述分布未落在所述預(yù)定范圍之內(nèi),則將所述部分與次要主題相聯(lián)系。
16.如權(quán)利要求12所述的計算機可讀媒體,其中所述確定所述多個主題進(jìn)一步包含 如果所述多個部分的一部分的多個實例的分布落在預(yù)定范圍內(nèi),以及如果一個主要主題與所述文本的至少一個其它部分相聯(lián)系,則將所述部分與補充主題相聯(lián)系。
17.如權(quán)利要求12所述的計算機可讀媒體,其中所述指定多個分?jǐn)?shù)進(jìn)一步包含根據(jù)從由如下組成的群體中選擇的屬性確定每個主題的各自分?jǐn)?shù)所述文本中的每個主題的至少一個主題元素的各自多個實例的各自頻率、所述文本中的每個主題的至少一個主題元素的各自多個實例的各自分布、和所述文本中的每個主題的至少一個各自位置。
18.如權(quán)利要求12所述的計算機可讀媒體,其中所述方法進(jìn)一步包含訪問用戶提交的搜索詢問;根據(jù)所述搜索詢問進(jìn)行至少一個網(wǎng)頁的搜索以生成搜索結(jié)果,其中所述搜索結(jié)果包含所述文本;以及根據(jù)所述搜索結(jié)果的各自總分來排序所述搜索結(jié)果。
19.如權(quán)利要求18所述的計算機可讀媒體,其中所述排序進(jìn)一步包含根據(jù)所述搜索詢問中與每個所述搜索結(jié)果相聯(lián)系的各自主題的數(shù)量和類型來排序所述搜索結(jié)果。
20.如權(quán)利要求18所述的計算機可讀媒體,其中所述方法進(jìn)一步包含根據(jù)每個所述搜索結(jié)果的各自總分來過濾所述搜索結(jié)果,其中所述過濾進(jìn)一步包含過濾所述搜索結(jié)果以便識別至少一個搜索結(jié)果。
21.如權(quán)利要求18所述的計算機可讀媒體,其中所述方法進(jìn)一步包含根據(jù)所述至少一個網(wǎng)頁每一個的各自總分來排序所述至少一個網(wǎng)頁。
22.如權(quán)利要求18所述的計算機可讀媒體,其中所述方法進(jìn)一步包含根據(jù)多個網(wǎng)頁每一個的各自總分來過濾所述多個網(wǎng)頁,其中所述過濾進(jìn)一步包含過濾所述多個網(wǎng)頁以便識別所述至少一個網(wǎng)頁。
23.一種包含處理器和存儲器的系統(tǒng),其中所述存儲器包含當(dāng)被所述系統(tǒng)執(zhí)行時實現(xiàn)給文本評分的方法的指令,所述方法包含確定與所述文本的多個部分相聯(lián)系的多個主題,其中所述多個部分的每個部分包含至少一個各自字符;指定多個分?jǐn)?shù)給所述多個主題,其中所述多個分?jǐn)?shù)的每個分?jǐn)?shù)對應(yīng)于所述多個主題的各自主題;以及根據(jù)所述多個分?jǐn)?shù)確定所述文本的總分。
24.如權(quán)利要求23所述的系統(tǒng),其中所述文本是從由網(wǎng)頁、電子文檔、和電子書組成的群體中選擇的。
25.如權(quán)利要求23所述的系統(tǒng),其中所述方法進(jìn)一步包含使用短語分塊確定所述文本的所述多個部分。
26.如權(quán)利要求23所述的系統(tǒng),其中所述確定所述多個主題進(jìn)一步包含確定與所述多個部分的一個部分相聯(lián)系的至少一個主題元素;如果所述至少一個主題元素的多個實例的分布落在預(yù)定范圍之內(nèi),且如果所述部分的第一實例處在靠近所述文本的開頭的位置上,以及所述部分的第二實例處在靠近所述文本的末端的位置上,則將所述部分與主要主題相聯(lián)系;以及如果所述至少一個主題元素的所述多個實例的所述分布未落在所述預(yù)定范圍之內(nèi),則將所述部分與次要主題相聯(lián)系。
27.如權(quán)利要求23所述的系統(tǒng),其中所述確定所述多個主題進(jìn)一步包含如果所述多個部分的一部分的多個實例的分布落在預(yù)定范圍內(nèi),以及如果一個主要主題與所述文本的至少一個其它部分相聯(lián)系,則將所述部分與補充主題相聯(lián)系。
28.如權(quán)利要求23所述的系統(tǒng),其中所述指定多個分?jǐn)?shù)進(jìn)一步包含根據(jù)從由如下組成的群體中選擇的屬性確定每個主題的各自分?jǐn)?shù)所述文本中的每個主題的至少一個主題元素的各自多個實例的各自頻率、所述文本中的每個主題的至少一個主題元素的各自多個實例的各自分布、和所述文本中的每個主題的至少一個各自位置。
29.如權(quán)利要求23所述的系統(tǒng),其中所述方法進(jìn)一步包含訪問用戶提交的搜索詢問;根據(jù)所述搜索詢問進(jìn)行至少一個網(wǎng)頁的搜索以生成搜索結(jié)果,其中所述搜索結(jié)果包含所述文本;以及根據(jù)所述搜索結(jié)果的各自總分來排序所述搜索結(jié)果。
30.如權(quán)利要求29所述的系統(tǒng),其中所述排序進(jìn)一步包含根據(jù)所述搜索詢問中與每個所述搜索結(jié)果相聯(lián)系的各自主題的數(shù)量和類型來排序所述搜索結(jié)果。
31.如權(quán)利要求29所述的系統(tǒng),其中所述方法進(jìn)一步包含根據(jù)每個所述搜索結(jié)果的各自總分過濾所述搜索結(jié)果,其中所述過濾進(jìn)一步包含過濾所述搜索結(jié)果以便識別至少一個搜索結(jié)果。
32.如權(quán)利要求29所述的系統(tǒng),其中所述方法進(jìn)一步包含根據(jù)所述至少一個網(wǎng)頁每一個的各自總分來排序所述至少一個網(wǎng)頁。
33.如權(quán)利要求29所述的系統(tǒng),其中所述方法進(jìn)一步包含根據(jù)多個網(wǎng)頁每一個的各自總分過濾所述多個網(wǎng)頁,其中所述過濾進(jìn)一步包含過濾所述多個網(wǎng)頁以便識別所述至少一個網(wǎng)頁。
全文摘要
本文公開了給文本評分的計算機實現(xiàn)方法、計算機可讀媒體和系統(tǒng)??梢源_定一個或多個文本內(nèi)的主題,并將其用于給每個文本評分,其中每個文本的總分可以指示每個文本的各自重要性和/或價值。每個文本的分?jǐn)?shù)可以根據(jù)主題的數(shù)量、主題的類型、與主題相聯(lián)系的主題元素的頻率、與主題相聯(lián)系的主題元素的分布、主題在文本中的位置、和它們的某種組合等來確定。這樣,可以較少依靠外部信息地使用每個文本內(nèi)的信息更精確地確定一個或多個文本的重要性或價值。另外,通過使用內(nèi)部信息進(jìn)行與搜索相聯(lián)系的排序操作和/或過濾操作,可以將更相關(guān)的搜索結(jié)果返給用戶。
文檔編號G06F17/21GK102612691SQ201080051769
公開日2012年7月25日 申請日期2010年9月17日 優(yōu)先權(quán)日2009年9月18日
發(fā)明者喬宏亮 申請人:萊克西私人有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1