專利名稱:一種從眾多網(wǎng)絡(luò)標(biāo)簽里生成折射詞的方法
技術(shù)領(lǐng)域:
本發(fā)明要求保護(hù)的技術(shù)方案所屬的技術(shù)領(lǐng)域是互聯(lián)網(wǎng)的數(shù)據(jù)挖掘、數(shù)據(jù)檢索和數(shù)據(jù)顯示。
背景技術(shù):
目前,許多網(wǎng)絡(luò)文章,如博客和新聞,往往被作者或者編輯者附加一些標(biāo)簽。網(wǎng)友通過一個標(biāo)簽找到許多包含該標(biāo)簽的標(biāo)簽串,但是,這些標(biāo)簽串呈現(xiàn)為散亂的分布形式,網(wǎng)友需要對這些散亂的眾多標(biāo)簽進(jìn)行人工識別,這耗費(fèi)了網(wǎng)友的精力;并且,在標(biāo)簽串非常多的情況下,網(wǎng)友很難從這些散亂的標(biāo)簽里總結(jié)出關(guān)聯(lián)性最強(qiáng)的標(biāo)簽。本發(fā)明可以從這些散亂的標(biāo)簽里生成有用的折射詞。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種從眾多網(wǎng)絡(luò)標(biāo)簽里生成折射詞的方法。本發(fā)明解決該技術(shù)問題所采用的技術(shù)方案是由計算機(jī)處理,把一篇網(wǎng)絡(luò)文章里附加的2-N個標(biāo)簽作為一個標(biāo)簽串,標(biāo)簽串里有多少個標(biāo)簽就生成多少個衍生串,每個標(biāo)簽均有一次機(jī)會成為對應(yīng)衍生串的領(lǐng)頭詞;把大量衍生串以相同的領(lǐng)頭詞為前提,添加到一個或者多個總串里,相同的跟隨詞累計頻度,并且,同一個總串里的各個跟隨詞依據(jù)頻度排序,從而得到一個或者多個總串。由計算機(jī)處理,當(dāng)用戶使用搜索引擎時,每輸入一個字符,則使用當(dāng)前已經(jīng)輸入的全部字符或者部分字符在各個總串的領(lǐng)頭詞里檢索,檢索到相同的領(lǐng)頭詞時,返回一次檢索結(jié)果,為用戶顯示一個對應(yīng)總串里的N個跟隨詞。由計算機(jī)處理,當(dāng)執(zhí)行網(wǎng)頁的搜索時,同時,使用標(biāo)簽的全部字符或者部分字符在各個總串的領(lǐng)頭詞里檢索,檢索到相同的領(lǐng)頭詞時,返回一次檢索結(jié)果,為用戶顯示一個對應(yīng)總串里的N個跟隨詞。由計算機(jī)處理,把不同的總串分別生成動態(tài)網(wǎng)頁或者靜態(tài)網(wǎng)頁,在網(wǎng)頁里包含總串的領(lǐng)頭詞和N個跟隨詞。在本申請的描述里,多處使用N這個英文字母。N代表大于2的一個具體數(shù)字。不同地方使用的N,不一定是相同的數(shù)字。大多網(wǎng)友都有體會,搜索資料時,往往耗費(fèi)大量的時間和精力,也不一定能夠找到有用的資料。本發(fā)明讓網(wǎng)友更加方便地找到所需的資料,減輕勞動強(qiáng)度,爭取更多的休閑時間,并且有利于身心健康?!罢凵湓~”的含義在同一個“總串”里,各個“跟隨詞”相對“領(lǐng)頭詞”來說,也叫做折射詞;頻度越高的“跟隨詞”與“領(lǐng)頭詞”之間的折射關(guān)系越大。另外,在文章里標(biāo)出的鏈接詞,也是一種標(biāo)簽形式。使用這種鏈接詞生成“標(biāo)簽串”,進(jìn)而生成“衍生串”和“總串”也在本申請的保護(hù)范圍之內(nèi)?!皹?biāo)簽串”體現(xiàn)的是同一個網(wǎng)友的行為?!翱偞眲?chuàng)造性地綜合了多個網(wǎng)友的行為。
圖1是本發(fā)明的流程圖。
具體實(shí)施例方式下面對照附圖舉例說明本發(fā)明的優(yōu)選方案。網(wǎng)友的標(biāo)簽可以是一個字、一個詞、幾個用空格間隔的詞語或者任意字符串。下面對“標(biāo)簽串”進(jìn)行詳細(xì)的介紹。計算機(jī)從眾多網(wǎng)絡(luò)文章里采集標(biāo)簽,把同一篇文章里的2-N個不同的“標(biāo)簽”,作為一個“標(biāo)簽串”對待。下面介紹把“標(biāo)簽串”加工成為“衍生串”的方案。一個“標(biāo)簽串”包含2-N個“標(biāo)簽”,其中的任何兩個“標(biāo)簽” 一般均不相同(相同也可以,但是,從科學(xué)的角度來說,不嚴(yán)謹(jǐn))。一個“標(biāo)簽串”包含多少個“標(biāo)簽”,就需要拆分為多少個“衍生串”。比如包含6個標(biāo)簽,就需要拆分為6個“衍生串”。比如使用“ I,,作為各個標(biāo)簽之間的分割標(biāo)識。從第一篇文章里提取出來的標(biāo)簽串如下Microsoft SQL Server微軟| C# |關(guān)系數(shù)據(jù)庫| SQL注入攻擊從第二篇文章里提取出來的標(biāo)簽串如下C#|.NET Framework 安德斯 海爾斯伯格(Anders Hejlsberg) Visual Studio. NET|Microsoft SQL Server 面向?qū)ο笳Z言從第三篇文章里提取出來的標(biāo)簽串如下微軟I比爾·蓋茨I家用電腦I全球富豪排名按照上方第一個“標(biāo)簽串”為例,介紹把“標(biāo)簽串”進(jìn)化成為“衍生串”的方案。我們知道該標(biāo)簽串里的這5個標(biāo)簽,僅僅是作者或者編輯者逐個書寫的,這5個標(biāo)簽之間沒有其它實(shí)際意義上的排序。這5個標(biāo)簽在標(biāo)簽串里的地位是相同的。所以,需要“衍生”出 5個“衍生串”。每個標(biāo)簽均有機(jī)會成為其中一個“衍生串”的“領(lǐng)頭詞”。所以說,在衍生串里,“領(lǐng)頭詞”與“跟隨詞”之間的地位是不同的。正因?yàn)椤皹?biāo)簽串”里的5個標(biāo)簽的地位相同,所以,需要“衍生”出5個“衍生串”,讓每一個“標(biāo)簽”都擔(dān)當(dāng)一次“衍生串”的“領(lǐng)頭詞”。 如下Microsoft SQL Server微軟| C# |關(guān)系數(shù)據(jù)庫| SQL注入攻擊微軟I Microsoft SQL Server | C# |關(guān)系數(shù)據(jù)庫| SQL注入攻擊C# I Microsoft SQL Server微軟|關(guān)系數(shù)據(jù)庫| SQL注入攻擊關(guān)系數(shù)據(jù)庫!Microsoft SQL Server微軟|C#|SQL注入攻擊SQL注入攻擊!Microsoft SQL Server微軟| C# |關(guān)系數(shù)據(jù)庫在上方的5行(段落)中,第一行(段落)與“標(biāo)簽串”里的詞和排序完全一樣。 不同的是,現(xiàn)在把原來“標(biāo)簽串”里的第一個標(biāo)簽當(dāng)作了“領(lǐng)頭詞”對待,從而成為了一個“衍生串”。既然“標(biāo)簽串”里的每一個標(biāo)簽的地位相等,那么,也需要讓每一個標(biāo)簽都有一次成為“領(lǐng)頭詞”的機(jī)會,所以,需要“衍生”出5個“衍生串”,如上方的5行(段落)“衍生串”。上方5行(段落)衍生串里,每行(段落)的第一個標(biāo)簽均是“所在行(即衍生串)” 的領(lǐng)頭詞。每行(段落)的其它4個的詞被視為“所在行(即衍生串),,的“跟隨詞”。同理,把第二個“標(biāo)簽串”加工成為“衍生串”。如下C#|.NET Framework 安德斯 海爾斯伯格(Anders Hejlsberg) Visual Studio. NET|Microsoft SQL Server 面向?qū)ο笳Z言. NET Framework | C# 安德斯 海爾斯伯格(Anders Hejlsberg) Visual Studio. NET|Microsoft SQL Server 面向?qū)ο笳Z言安德斯·海爾斯伯格(AndersHejlsberg) .NET Framework | C# | Visual Studio. NET|Microsoft SQL Server 面向?qū)ο笳Z言Visual Studio. NET |. NET Framework 安德斯·海爾斯伯格(Anders Hejlsberg) C#|Microsoft SQL Server 面向?qū)ο笳Z言Microsoft SQL Server |. NET Framework!安德斯·海爾斯伯格(Anders Hejlsberg) | Visual Studio. NET | C# 面向?qū)ο笳Z言面向?qū)ο笳Z言I.NET Framework安德斯·海爾斯伯格(Anders Hejlsberg) I Visual Studio. NET|Microsoft SQL Server|C#同理,把第三個“標(biāo)簽串”加工成為“衍生串”。如下微軟I比爾·蓋茨I家用電腦I全球富豪排名比爾·蓋茨I微軟I家用電腦I全球富豪排名家用電腦I微軟I比爾·蓋茨I全球富豪排名全球富豪排名I微軟I比爾·蓋茨I家用電腦到目前為止,每個“標(biāo)簽串”均被加工成為了多個“衍生串”。一個“標(biāo)簽串”包含多少個“標(biāo)簽”,這個“標(biāo)簽串”就會被加工成為多少個“衍生串”。每一行(段落)代表一個“衍生串”。每個“衍生串”都有一個“領(lǐng)頭詞”,第一個“詞”就是“領(lǐng)頭詞”。在“衍生串” 里,“領(lǐng)頭詞”的地位高于“跟隨詞”的地位。但是,每個“衍生串”里的各個“跟隨詞”之間仍然沒有地位之分。在同一個“衍生串”里,各個“跟隨詞”的地位是相等的,位置是可以互換的。但是, “領(lǐng)頭詞”的位置不能與“跟隨詞”的位置互換。這一點(diǎn)與“標(biāo)簽串”不同。在“標(biāo)簽串”里, 沒有“領(lǐng)頭詞”,所以,“標(biāo)簽串,,里的任何“詞,,之間的位置都是可以互換的。在上方的各組衍生串里,第一行(段落)的“衍生串”與原始的“標(biāo)簽串”從形式上看完全相同,但是,“衍生串”的第一個標(biāo)簽(作為領(lǐng)頭詞)的位置不能變動;也就是說, 除了(領(lǐng)頭詞)之外,“衍生串”里的其它“跟隨詞”之間不區(qū)分先后,沒有順序,可以互換位置。在上方的各組衍生串里,第二行(段落)的“衍生串”把原始“標(biāo)簽串”里的第二個標(biāo)簽排在最前面,作為領(lǐng)頭詞;“衍生串”里的其它“跟隨詞”之間不區(qū)分先后,沒有順序, 可以互換位置。依此類推。下面介紹把“衍生串”添加到“總串”的具體方案。把各個“衍生串”逐一添加到與之相同“領(lǐng)頭詞”的“總串”里。各個“衍生串”在計算機(jī)里添加到“總串”里。日后,根據(jù)各個新的“衍生串”不斷地更新“總串”。
在所有的“總串”里,如果沒有查找到相同“領(lǐng)頭詞”的“總串”,那么,該“衍生串” 作為一個整體,就會成為一個全新的“總串”,被保存在計算機(jī)上。在之前的所有“總串”里,如果查找到相同“領(lǐng)頭詞”的“總串”,那么,把“衍生串” 里的所有“跟隨詞”逐個添加到“總串”里。與“總串”里的“跟隨詞”相同的“跟隨詞”,為 “總串”的對應(yīng)“跟隨詞”增加一個頻度?!翱偞崩餂]有的“跟隨詞”當(dāng)即新增到“總串”里。 頻度高的“跟隨詞”排序在前,但是,無論“跟隨詞”的頻度再高,也必須排在“領(lǐng)頭詞”的后“頻度”的含義相當(dāng)于“次數(shù)”?!把苌崩锏摹邦I(lǐng)頭詞”不能添加為“總串”的“跟隨詞”,也不能成為“總串”里的第二個“領(lǐng)頭詞”,因?yàn)橐粋€“總串,,只能有一個“領(lǐng)頭詞”。在計算機(jī)上,把“衍生串”添加到相同“領(lǐng)頭詞”的“總串”里時,與“總串”里的“跟隨詞”相比較,相同的“跟隨詞”增加1頻度,而不是把相同的“跟隨詞”重復(fù)地添加到“總串”里。新的“跟隨詞”,添加到“總串”里之后成為“總串”里頻度為1的新的“跟隨詞”。在前面的介紹里,涉及到了 “標(biāo)簽串”、“衍生串”和“總串”。下面總結(jié)一下它們的不同特點(diǎn)。“標(biāo)簽串”里沒有“領(lǐng)頭詞”,并且各個“標(biāo)簽”之間沒有地位之分。“衍生串”高級了一步,有領(lǐng)頭詞,但是,各個“跟隨詞”之間仍然沒有地位之分?!翱偞崩锏母鱾€“跟隨詞”需要根據(jù)頻度排序。同一個“總串”里的各個“跟隨詞” 之間有地位之分,頻度高的“跟隨詞”排在前面。但是,在同一個“總串”里,某個“跟隨詞” 的頻度無論再高,也只能排在“領(lǐng)頭詞”的后面。頻度最高的“跟隨詞”排在“領(lǐng)頭詞”之后的第一個位置。凡是有“領(lǐng)頭詞”的串,每個串里只能有一個“領(lǐng)頭詞”。有“領(lǐng)頭詞”的串添加到另一種有“領(lǐng)頭詞”的串里的前提是,這兩個串的“領(lǐng)頭詞”相同。一種串的“領(lǐng)頭詞”不能成為另一種串里的“跟隨詞”。一種串的“領(lǐng)頭詞,,添加到另一種串的“領(lǐng)頭詞”時,相當(dāng)于為另一個串的“領(lǐng)頭詞”增加一個頻度。當(dāng)然,也可以不增加“領(lǐng)頭詞”頻度,因?yàn)樵黾印邦I(lǐng)頭詞”的頻度,意義不大(其主要意義在于反映該串的活躍度)。添加后的“跟隨詞”,當(dāng)即從“衍生串”里刪除。因?yàn)槭前选把苌崩锏摹案S詞” 逐一添加到“總串”的“跟隨詞”里,所以,在(衍生串)里也是逐一刪除掉已經(jīng)添加到“總串”的“跟隨詞”。最后,刪除衍生串里的領(lǐng)頭詞,該衍生串的任務(wù)算作結(jié)束,“衍生串”的整串(含該串的所有數(shù)據(jù))被自動刪除掉。依據(jù)這種方案,與“領(lǐng)頭詞”關(guān)聯(lián)性強(qiáng)的“跟隨詞”,會逐漸地排序在前面。由計算機(jī)處理,當(dāng)用戶使用搜索引擎時,每輸入一個字符,則使用當(dāng)前已經(jīng)輸入的全部字符或者部分字符在各個總串的領(lǐng)頭詞里檢索,檢索到相同的領(lǐng)頭詞時,返回一次檢索結(jié)果,為用戶顯示一個對應(yīng)總串里的N個跟隨詞。由計算機(jī)處理,當(dāng)執(zhí)行網(wǎng)頁的搜索時,同時,使用標(biāo)簽的全部字符或者部分字符在各個總串的領(lǐng)頭詞里檢索,檢索到相同的領(lǐng)頭詞時,返回一次檢索結(jié)果,為用戶顯示一個對應(yīng)總串里的N個跟隨詞。由計算機(jī)處理,把不同的總串分別生成動態(tài)網(wǎng)頁或者靜態(tài)網(wǎng)頁,在網(wǎng)頁里包含總串的領(lǐng)頭詞和N個跟隨詞。
6
本發(fā)明中提到的計算機(jī)是具備cpu功能的任何固定或者移動設(shè)備,可以是服務(wù)器計算機(jī)、可以是客戶端計算機(jī)、也可以是相互協(xié)作的客戶端計算機(jī)和服務(wù)器計算機(jī)。相互協(xié)作是指通過內(nèi)網(wǎng)或者公網(wǎng)等互聯(lián)網(wǎng)進(jìn)行協(xié)作。計算機(jī)包括個人電腦、移動設(shè)備、臺式機(jī)電腦、筆記本電腦、移動電話等等。把“總串,,的數(shù)據(jù)提取出來,放在家用電腦的客戶端,或者,放在手機(jī)里,在斷開互聯(lián)網(wǎng)或者連接互聯(lián)網(wǎng)的情況下,從而供用戶檢索和顯示數(shù)據(jù),也在本發(fā)明的保護(hù)范圍之內(nèi)。本申請的實(shí)施例僅僅用于解釋本發(fā)明,而不用于限定本發(fā)明。本發(fā)明中的實(shí)施例均為示例性的非限制性實(shí)施例。本領(lǐng)域的技術(shù)人員可以在本發(fā)明的精神下,并在權(quán)利要求書的范圍內(nèi)進(jìn)行多種改變、修改或者替換。然而,這些改變、修改或者替換均應(yīng)在本發(fā)明的保護(hù)范圍之內(nèi)。根據(jù)具體實(shí)施例的不同,本發(fā)明可以體現(xiàn)出本申請中所闡述的全部或部分之技術(shù)效果。
權(quán)利要求
1.一種從眾多網(wǎng)絡(luò)標(biāo)簽里生成折射詞的方法,其特征是由計算機(jī)處理,把一篇網(wǎng)絡(luò)文章里附加的2-N個標(biāo)簽作為一個標(biāo)簽串,標(biāo)簽串里有多少個標(biāo)簽就生成多少個衍生串, 每個標(biāo)簽均有一次機(jī)會成為對應(yīng)衍生串的領(lǐng)頭詞;把大量衍生串以相同的領(lǐng)頭詞為前提, 添加到一個或者多個總串里,相同的跟隨詞累計頻度,并且,同一個總串里的各個跟隨詞依據(jù)頻度排序,從而得到一個或者多個總串。
2.根據(jù)權(quán)利要求1所述的一種從眾多網(wǎng)絡(luò)標(biāo)簽里生成折射詞的方法,其特征是由計算機(jī)處理,當(dāng)用戶使用搜索引擎時,每輸入一個字符,則使用當(dāng)前已經(jīng)輸入的全部字符或者部分字符在各個總串的領(lǐng)頭詞里檢索,檢索到相同的領(lǐng)頭詞時,返回一次檢索結(jié)果,為用戶顯示一個對應(yīng)總串里的N個跟隨詞。
3.根據(jù)權(quán)利要求1所述的一種從眾多網(wǎng)絡(luò)標(biāo)簽里生成折射詞的方法,其特征是由計算機(jī)處理,當(dāng)執(zhí)行網(wǎng)頁的搜索時,同時,使用標(biāo)簽的全部字符或者部分字符在各個總串的領(lǐng)頭詞里檢索,檢索到相同的領(lǐng)頭詞時,返回一次檢索結(jié)果,為用戶顯示一個對應(yīng)總串里的N 個跟隨詞。
4.根據(jù)權(quán)利要求1所述的一種從眾多網(wǎng)絡(luò)標(biāo)簽里生成折射詞的方法,其特征是由計算機(jī)處理,把不同的總串分別生成動態(tài)網(wǎng)頁或者靜態(tài)網(wǎng)頁,在網(wǎng)頁里包含總串的領(lǐng)頭詞和N 個跟隨詞。
全文摘要
一種從眾多網(wǎng)絡(luò)標(biāo)簽里生成折射詞的方法。所屬的技術(shù)領(lǐng)域是互聯(lián)網(wǎng)的數(shù)據(jù)挖掘、數(shù)據(jù)檢索和數(shù)據(jù)顯示。許多網(wǎng)絡(luò)文章,如博客和新聞,往往被作者或者編輯者附加一些標(biāo)簽。網(wǎng)友通過一個標(biāo)簽找到許多包含該標(biāo)簽的標(biāo)簽串,但是,這些標(biāo)簽串呈現(xiàn)為散亂的分布形式,網(wǎng)友需要對這些散亂的眾多標(biāo)簽進(jìn)行人工識別,這耗費(fèi)了網(wǎng)友的精力;并且,在標(biāo)簽串非常多的情況下,網(wǎng)友很難從這些散亂的標(biāo)簽里總結(jié)出關(guān)聯(lián)性最強(qiáng)的標(biāo)簽。本發(fā)明可以從這些散亂的標(biāo)簽里生成有用的折射詞。
文檔編號G06F17/30GK102346742SQ201010244308
公開日2012年2月8日 申請日期2010年8月4日 優(yōu)先權(quán)日2010年8月4日
發(fā)明者張占平 申請人:張占平