亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種學術資源推薦服務系統(tǒng)與方法與流程

文檔序號:12596419閱讀:來源:國知局

技術特征:

1.一種學術資源推薦服務系統(tǒng),所述學術資源為公布在互聯網上的各種電子文本,所述學術資源推薦服務系統(tǒng)包括網絡爬蟲、文本分類模型、位于本地的待推薦學術資源數據庫,由網絡爬蟲在互聯網上爬取學術資源,其特征在于,用文本分類模型按預定A個類別分類后存儲于本地的待推薦學術資源數據庫,提供學術資源數據庫開放的API供展示及資源推薦模塊調用,所述學術資源推薦服務系統(tǒng)還包括學術資源模型、資源質量值計算模型、用戶興趣模型,在用戶的終端殖入跟蹤軟件模塊,用于跟蹤記錄用戶的網上瀏覽行為;基于不同群體用戶的歷史瀏覽行為數據,計算不同身份的用戶對各個類型學術資源的關注程度,從資源類型、學科分布、關鍵詞分布和LDA潛在主題分布共四個維度對學術資源建模,結合用戶的興趣學科和歷史瀏覽行為數據,對用戶興趣模型建模,計算學術資源模型與用戶興趣模型之間的相似度,再結合資源質量值計算推薦度,最后根據推薦度為用戶進行學術資源Top-N推薦。

2.如權利要求1所述的學術資源推薦服務系統(tǒng),其特征在于,所述網絡爬蟲為主題爬蟲,并配置LDA主題模型,所述LDA主題模型是一個“文檔-主題-詞”的三層貝葉斯生成模型,預先為所述LDA主題模型配置一個語料庫,語料庫中包括訓練語料,用訓練語料按設定主題數K讓LDA主題模型訓練,利用LDA主題模型訓練時的聚詞功能在訓練語料經LDA主題模型訓練后獲得按設定主題數K分別聚集成K個主題關聯詞集合,即得到主題爬蟲本次爬行的K個主題文檔;所述主題爬蟲在普通網絡爬蟲的基礎上進一步包括主題確定模塊、相似度計算模塊、URL優(yōu)先級排序模塊;所述主題爬蟲為按學術主題數分布的多個分布式爬蟲,每個分布式爬蟲對應一個學術主題,各分布式爬蟲同時獲得多個學術主題的學術資源;主題爬蟲每次爬行過程中,主題爬蟲的主題確定模塊確定目標主題及其主題文檔,用所述主題文檔指導主題相似度的計算,相似度計算模塊對所爬取的頁面上每個錨文本并結合該頁面內容進行主題相似度計算及判斷,剔除錨文本結合該頁面的主題相似度小于設定閾值的超鏈接,選取錨文本結合該頁面的主題相似度大于設定閾值的URL,由主題爬蟲維護一個由已訪問網頁的超鏈接所指的未訪問網頁的URL隊列,該URL隊列根據相似度高低降序排列,主題爬蟲按URL隊列的排列順序先后不斷地訪問各URL的網頁,爬取相應學術資源,并不斷地將所爬取的學術資源分類標簽后存入數據庫,針對本次爬行的主題文檔,直至未訪問隊列URL為空;將所述主題爬蟲每次所爬取的學術資源作為LDA主題模型訓練用的新的語料;并不斷重復主題爬蟲爬行過程,使得各主題文檔的所集合的主題關聯詞不斷得以補充更新,所爬取的學術資源不斷得以補充更新至一個人為認可的程度。

3.如權利要求2所述的學術資源推薦服務系統(tǒng),其特征在于,所述語料庫中還包括類別明確的驗證語料,用于預先用驗證語料按預定類別數A讓所述文本分類模型進行分類驗證,以獲得文本分類模型對A個類別中的每個類別的分類準確率,作為文本分類模型對A個類別中的每個類別的歸類可信度指標;該準確率為被文本分類模型分到某個類別的所有驗證語料中屬被正確分類的語料的比率,并預設分類準確率閾值。

4.如權利要求3所述的學術資源推薦服務系統(tǒng),其特征在于,將所有學科分為75個學科類別,即所述類別數A為75個類別,利用LDA主題模型訓練時設定主題數K為100個,所述文本分類模型進行分類驗證時預設分類準確率閾值為80%。

5.一種以資源推薦服務系統(tǒng)為相關用戶提供學術資源推薦服務的方法,所述學術資源為公布在互聯網上的各種電子文本,包括使用網絡爬蟲在互聯網上爬取學術資源,其特征在于,使用文本分類模型將所爬取的學術資源按預定A個類別進行分類后存儲,形成學術資源數據庫,提供學術資源數據庫開放的API供展示及資源推薦模塊調用,使用學術資源模型、資源質量值計算模型、用戶興趣模型,在用戶的終端殖入跟蹤軟件模塊,用于跟蹤記錄用戶的網上瀏覽行為;向用戶推薦其相應的學術資源的過程包括冷啟動推薦階段與二次推薦階段,冷啟動推薦階段基于興趣學科為用戶推薦符合其興趣學科的優(yōu)質資源,所述優(yōu)質資源即為經資源質量值計算模型計算后比較所得的資源質量值高的學術資源,資源質量值為資源權威度、資源社區(qū)熱度和資源時新度的算術平均值或加權平均值;二次推薦階段,分別對用戶興趣模型和資源模型建模,計算用戶興趣模型與資源模型二者的相似性,再結合資源質量值計算推薦度,最后根據推薦度為用戶進行學術資源Top-N推薦。

6.如權利要求5所述的方法,其特征在于,所述資源質量值Quality計算包括,資源的權威度Authority的計算公式如下:

<mrow> <mi>A</mi> <mi>u</mi> <mi>t</mi> <mi>h</mi> <mi>o</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mi>L</mi> <mi>e</mi> <mi>v</mi> <mi>e</mi> <mi>l</mi> <mo>+</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mi>C</mi> <mi>i</mi> <mi>t</mi> <mi>e</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中Level是資源發(fā)表刊物級別被量化后的得分,將刊物級別分為5個等級,分數依次為1、0.8、0.6、0.4和0.2分。頂尖雜志或會議如Nature、Science得1分,第二級別的如ACM Transaction得0.8分,最低級別的得0.2分;Cite的計算公式如下:

Cite=Cites/maxCite (2)

Cite是資源被引量的量化結果,Cites是資源的被引量,maxCite是資源來源數據庫中最大的被引量;

資源社區(qū)熱度Popularity的計算公式如下:

Popularity=readTimes/maxReadTimes (3)

readTimes是論文的閱讀次數,maxReadTimes是資源來源數據庫中最大的閱讀次數;

資源的時新度Recentness計算方法相同,公式如下:

<mrow> <mi>Re</mi> <mi>c</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>n</mi> <mi>e</mi> <mi>s</mi> <mi>s</mi> <mo>=</mo> <mfrac> <mrow> <mn>12</mn> <mo>*</mo> <mrow> <mo>(</mo> <mi>y</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> <mo>-</mo> <mi>min</mi> <mi>Y</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mi>m</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> <mi>h</mi> <mo>-</mo> <mi>min</mi> <mi>M</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> <mi>h</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mn>12</mn> <mo>*</mo> <mrow> <mo>(</mo> <mi>max</mi> <mi>Y</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> <mo>-</mo> <mi>min</mi> <mi>Y</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mi>max</mi> <mi>M</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> <mi> </mi> <mi>h</mi> <mo>-</mo> <mi>min</mi> <mi>M</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> <mi> </mi> <mi>h</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

year和month分別是資源的發(fā)表年份和月份;minYear、minMonth、maxYear和maxMonth是該類資源的來源數據庫中所有資源的最早和最晚發(fā)表年份和月份;

資源質量值Quality計算方法如下:

<mrow> <mi>Q</mi> <mi>u</mi> <mi>a</mi> <mi>l</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> <mi>A</mi> <mi>u</mi> <mi>t</mi> <mi>h</mi> <mi>o</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mo>+</mo> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> <mi>P</mi> <mi>o</mi> <mi>p</mi> <mi>u</mi> <mi>l</mi> <mi>a</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mo>+</mo> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> <mi>Re</mi> <mi>c</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>n</mi> <mi>e</mi> <mi>s</mi> <mi>s</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

7.如權利要求5所述的方法,其特征在于,所述學術資源模型表示如下:

Mr={Tr,Kr,Ct,Lr} (6)

其中,Tr為學術資源的學科分布向量,是該學術資源分布在A個學科類別的概率值,由貝葉斯多項式模型得到;

Kr={(kr1r1),(kr2r2),…,(krmrm)},m為關鍵詞個數,kri(1≤i≤m)表示單條學術資源第i個關鍵詞,ωri為關鍵詞kri的權重,通過改進后的tf-idf算法得到,計算公式如下:

w(i,r)表示文檔r中第i個關鍵詞的權重,tf(i,r)表示第i個關鍵詞在文檔r中出現的頻度,Z表示文檔集的總篇數,L表示包含關鍵詞i的文檔數;Lr為潛在主題分布向量,Lr={lr1,lr2,lr3…,lrN1},N1是潛在主題數量;Ct為資源類型,t的取值可以為1,2,3,4,5即五大類學術資源:論文、專利、新聞、會議和圖書;

根據用戶使用移動軟件的行為特點,將用戶對一個學術資源的操作行為分為打開、閱讀、星級評價、分享和收藏,用戶興趣模型基于用戶背景及瀏覽過的學術資源,根據用戶的不同瀏覽行為,結合學術資源模型,構建用戶興趣模型,用戶興趣模型表示如下:

Mu={Tu,Ku,Ct,Lu} (8)

其中,Tu是用戶一段時間內瀏覽過的某類學術資源的學科分布向量,Tr是經過用戶行為后,形成的用戶學科偏好分布向量,即

<mrow> <msub> <mi>T</mi> <mi>u</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> </mrow> </mfrac> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> </mrow> </msubsup> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>&times;</mo> <msub> <mi>T</mi> <mrow> <mi>j</mi> <mi>r</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

其中,sum為用戶產生過行為的學術資源總數,sj為用戶對學術資源j產生行為后的“行為系數”,該值越大說明用戶越喜歡該資源。Tjr表示第j篇資源的學科分布向量;sj的計算綜合考慮了打開、閱讀、評價、收藏和分享等行為,能夠準確反映用戶對資源的偏好程度。

Ku={(ku1u1),(ku2u2),…,(kuN2uN2)}是用戶偏好關鍵詞分布,N2為關鍵詞個數,kui(1≤i≤N2)表示第i個用戶偏好關鍵詞,ωui為關鍵詞kui的權重,通過用戶u一段時間內產生過行為的所有學術資源的“關鍵詞分布向量”Kr計算得到;

K′jr=sj*Kjr (10)

根據公式10可以計算出每篇學術資源新的關鍵詞分布向量,再選取所有資源新的關鍵詞分布向量的TOP-N2作為用戶關鍵詞偏好分布向量Ku;

Lu為用戶的LDA潛在主題偏好分布向量,由學術資源的LDA潛在主題分布向量Lr={lr1,lr2,lr3…,lrN1}計算得到,方法同Tu

<mrow> <msub> <mi>L</mi> <mi>u</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> </mrow> </mfrac> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> </mrow> </msubsup> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>&times;</mo> <msub> <mi>L</mi> <mrow> <mi>j</mi> <mi>r</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

用戶興趣與資源模型二者的相似性計算如下:

學術資源模型表示:

Mr={Tr,Kr,Ct,Lr} (12)

用戶興趣模型表示:

Mu={Tu,Ku,Ct,Lu} (13)

用戶學科偏好分布向量Tu與學術資源學科分布向量Tr的相似度通過余弦相似度計算,即:

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>u</mi> </msub> <mo>,</mo> <msub> <mi>T</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>T</mi> <mi>u</mi> </msub> <mo>&times;</mo> <msub> <mi>T</mi> <mi>r</mi> </msub> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>T</mi> <mi>u</mi> </msub> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>T</mi> <mi>r</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>

用戶LDA潛在主題偏好分布向量Lu與學術資源LDA潛在主題分布向量Lr的相似度通過余弦相似度計算,即:

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>u</mi> </msub> <mo>,</mo> <msub> <mi>L</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>L</mi> <mi>u</mi> </msub> <mo>&times;</mo> <msub> <mi>L</mi> <mi>r</mi> </msub> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>L</mi> <mi>u</mi> </msub> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>L</mi> <mi>r</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>15</mn> <mo>)</mo> </mrow> </mrow>

用戶關鍵詞偏好分布向量Ku與學術資源關鍵詞分布向量Kr的相似度計算通過Jaccard Similarity進入計算:

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>K</mi> <mi>u</mi> </msub> <mo>,</mo> <msub> <mi>K</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mfrac> <mrow> <msub> <mi>K</mi> <mi>u</mi> </msub> <mo>&cap;</mo> <msub> <mi>K</mi> <mi>r</mi> </msub> </mrow> <mrow> <msub> <mi>K</mi> <mi>u</mi> </msub> <mo>&cup;</mo> <msub> <mi>K</mi> <mi>r</mi> </msub> </mrow> </mfrac> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>16</mn> <mo>)</mo> </mrow> </mrow>

則用戶興趣模型與學術資源模型的相似度為:

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>M</mi> <mi>u</mi> </msub> <mo>,</mo> <msub> <mi>M</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>&sigma;</mi> <mo>*</mo> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>u</mi> </msub> <mo>,</mo> <msub> <mi>T</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&rho;</mi> <mo>*</mo> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>K</mi> <mi>u</mi> </msub> <mo>,</mo> <msub> <mi>K</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&tau;</mi> <mo>*</mo> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>u</mi> </msub> <mo>,</mo> <msub> <mi>L</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>&rho;</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>&tau;</mi> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>17</mn> <mo>)</mo> </mrow> </mrow>

其中,σ+ρ+τ=1,具體權重分配由實驗訓練得到。

引入推薦度Recommendation_degree概念,某一學術資源的推薦度越大說明該資源越符合用戶的興趣偏好,且資源越優(yōu)質,推薦度計算公式如下:

Recommendation_degree=λ1Sim(Mu,Mn)+λ2Quality(λ12=1) (18)

二次推薦階段便是根據學術資源的推薦度進行Top-N推薦。

8.如權利要求5所述的方法,其特征在于,所述網絡爬蟲為主題爬蟲,并配置LDA主題模型,所述LDA主題模型是一個“文檔-主題-詞”的三層貝葉斯生成模型,預先為所述LDA主題模型配置一個語料庫,語料庫中包括訓練語料,用訓練語料按設定主題數K讓LDA主題模型訓練,利用LDA主題模型訓練時的聚詞功能在訓練語料經LDA主題模型訓練后獲得按設定主題數K分別聚集成K個主題關聯詞集合,即得到主題爬蟲本次爬行的K個主題文檔;所述主題爬蟲在普通網絡爬蟲的基礎上進一步包括主題確定模塊、相似度計算模塊、URL優(yōu)先級排序模塊;所述主題爬蟲為按學術主題數分布的多個分布式爬蟲,每個分布式爬蟲對應一個學術主題,各分布式爬蟲同時獲得多個學術主題的學術資源;主題爬蟲每次爬行過程中,主題爬蟲的主題確定模塊確定目標主題及其主題文檔,用所述主題文檔指導主題相似度的計算,相似度計算模塊對所爬取的頁面上每個錨文本并結合該頁面內容進行主題相似度計算及判斷,剔除錨文本結合該頁面的主題相似度小于設定閾值的超鏈接,選取錨文本結合該頁面的主題相似度大于設定閾值的URL,由主題爬蟲維護一個由已訪問網頁的超鏈接所指的未訪問網頁的URL隊列,該URL隊列根據相似度高低降序排列,主題爬蟲按URL隊列的排列順序先后不斷地訪問各URL的網頁,爬取相應學術資源,并不斷地將所爬取的學術資源分類標簽后存入數據庫,針對本次爬行的主題文檔,直至未訪問隊列URL為空;將所述主題爬蟲每次所爬取的學術資源作為LDA主題模型訓練用的新的語料;并不斷重復主題爬蟲爬行過程,使得各主題文檔的所集合的主題關聯詞不斷得以補充更新,所爬取的學術資源不斷得以補充更新至一個人為認可的程度。

9.如權利要求5所述的方法,其特征在于,所述語料庫中還包括類別明確的驗證語料,用于預先用驗證語料按預定類別數A讓所述文本分類模型進行分類驗證,以獲得文本分類模型對A個類別中的每個類別的分類準確率,作為文本分類模型對A個類別中的每個類別的歸類可信度指標;該準確率為被文本分類模型分到某個類別的所有驗證語料中屬被正確分類的語料的比率,并預設分類準確率閾值;用所述文本分類模型對每一篇待分類文本進行文本分類時具體包括以下步驟:

步驟一、對每一篇待分類文本進行預處理,預處理包括分詞、去停留詞,并保留專有名詞,分別計算該文本的經預處理后的所有詞的特性權重,詞的特性權重數值與在該文本中出現的次數成正比,與在所述訓練語料中出現的次數成反比,將計算所得的詞集按其特性權重數值大小降序排列,提取每一篇待分類文本原始詞集的前面部分作為其特征詞集;

步驟二、使用文本分類模型,選取每一篇待分類文本原始特征詞集用來分別計算該篇文本可能歸屬預定A個類別中各個類別的概率值,選取概率值最大的類別作為該篇文本分類類別;

步驟三、對步驟二的文本分類結果進行判斷,如果文本分類模型對該類別的分類準確率數值達到設定閾值就直接輸出結果;如果文本分類模型對該類別的分類準確率數值未達到設定閾值,就進入步驟四;

步驟四、將每一篇經預處理的文本輸入所述LDA主題模型,用LDA主題模型計算出該篇文本對應所設定的K個主題中的每個主題的權重值,選取權重值最大的主題,并將預先經LDA主題模型訓練后所得到的該主題下的主題關聯詞中的前Y個詞加入至該篇文本的原始特征詞集之中共同作為擴充后的特征詞集,再次使用文本分類模型,分別計算該篇文本可能歸屬預定A個類別中各個類別的概率值,選取概率值最大的類別作為該篇文本最終分類類別。

10.如權利要求9所述的方法,其特征在于,所述文本分類模型的主要計算公式為:

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>x</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>x</mi> <mi>n</mi> </msub> <mo>|</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>c</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>19</mn> <mo>)</mo> </mrow> </mrow>

其中P(cj|x1,x2,…,xn)表示特征詞(x1,x2,…,xn)同時出現時該文本屬于類別Cj的概率;其中P(cj)表示訓練文本集中,屬于類別cj的文本占總數的比率,P(x1,x2,…,xn|cj)表示如果待分類文本屬于類別cj,則這篇文本的特征詞集為(x1,x2,…,xn)的概率,P(c1,c2,…,cn)表示給定的所有類別的聯合概率。

當前第2頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1