亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于互聯(lián)網(wǎng)數(shù)據(jù)形成產(chǎn)品數(shù)據(jù)庫方法和系統(tǒng)與流程

文檔序號:11802838閱讀:204來源:國知局
一種基于互聯(lián)網(wǎng)數(shù)據(jù)形成產(chǎn)品數(shù)據(jù)庫方法和系統(tǒng)與流程
本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)處理技術(shù)領(lǐng)域,具體而言,涉及一種基于互聯(lián)網(wǎng)數(shù)據(jù)形成產(chǎn)品數(shù)據(jù)庫方法和系統(tǒng)。

背景技術(shù):
目前,一些主流網(wǎng)站的產(chǎn)品目錄形成,都是針對各行業(yè)采用固定產(chǎn)品發(fā)布模板,形成一個產(chǎn)品的描述。并且,對于同一個產(chǎn)品的描述方式,各個網(wǎng)站所采取的標(biāo)準(zhǔn)也不同。這樣,由于產(chǎn)品發(fā)布標(biāo)準(zhǔn)格式不統(tǒng)一,對于產(chǎn)品需求方來說,需求標(biāo)準(zhǔn)各式各樣,由于各大網(wǎng)站產(chǎn)品描述格式不統(tǒng)一,因此對于產(chǎn)品信息進行綜合整理較為困難,無法獲知符合需求標(biāo)準(zhǔn)的產(chǎn)品較為全面的信息,若按需求標(biāo)準(zhǔn)來進行產(chǎn)品挑選,對于大批量多型號產(chǎn)品選擇的情況,往往需要閱讀海量網(wǎng)頁,效率低下。綜上所述,相關(guān)技術(shù)中由于缺乏一種統(tǒng)一的產(chǎn)品描述標(biāo)準(zhǔn),而導(dǎo)致產(chǎn)品信息整理困難的技術(shù)問題。

技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種基于互聯(lián)網(wǎng)數(shù)據(jù)形成產(chǎn)品數(shù)據(jù)庫方法和系統(tǒng),以解決上述的問題。在本發(fā)明的實施例中提供了一種基于互聯(lián)網(wǎng)數(shù)據(jù)形成產(chǎn)品數(shù)據(jù)庫方法,包括步驟:步驟A,采用主題爬蟲技術(shù),抓取與主題相關(guān)度高于預(yù)設(shè)閾值的網(wǎng)頁數(shù)據(jù),其中,所述主題相關(guān)度通過內(nèi)容相關(guān)度分析和鏈接相關(guān)度分析進行計算;步驟B,將抓取的所述網(wǎng)頁數(shù)據(jù)進行結(jié)構(gòu)化存儲;步驟C,對所述結(jié)構(gòu)化存儲的網(wǎng)頁數(shù)據(jù)按照產(chǎn)品所屬類別進行自動分類;步驟D,統(tǒng)計自動分類后的網(wǎng)頁數(shù)據(jù)中產(chǎn)品屬性的出現(xiàn)次數(shù)和出現(xiàn)時間,根據(jù)預(yù)設(shè)的權(quán)重對產(chǎn)品屬性出現(xiàn)次數(shù)和出現(xiàn)時間進行加權(quán)計算,得到產(chǎn)品屬性決策值,根據(jù)所述產(chǎn)品屬性決策值確定產(chǎn)品屬性排列順序;其中,產(chǎn)品屬性的出現(xiàn)次數(shù)記為F,產(chǎn)品屬性的出現(xiàn)時間記為T,以及數(shù)據(jù)來源的權(quán)重記為W,通過公式(F+T)*W,得到所述產(chǎn)品屬性決策值。其中,所述步驟A包括步驟:對經(jīng)過內(nèi)容特征提取后的網(wǎng)頁數(shù)據(jù)進行分析,判定網(wǎng)頁內(nèi)容與指定主題相關(guān)度是否達到所述預(yù)設(shè)閾值,是,則保留該網(wǎng)頁,否,則過濾掉該網(wǎng)頁;和/或,對從網(wǎng)頁中提取的超鏈信息進行測算,得出每個URL所指頁面與指定主題的相關(guān)度,將相關(guān)度達到預(yù)設(shè)閾值的網(wǎng)頁保留;將保留的網(wǎng)頁的URL加入到爬行隊列中并根據(jù)其與主題相關(guān)度的高低進行排序;根據(jù)爬行隊列中的URL,與網(wǎng)絡(luò)建立連接后以下載其所指頁面內(nèi)容。其中,所述步驟B包括步驟:對抓取的網(wǎng)頁數(shù)據(jù)的網(wǎng)頁標(biāo)簽進行分析,對于不同的產(chǎn)品頁面,通過實體標(biāo)簽獲取產(chǎn)品實體信息,并形成記錄,通過屬性標(biāo)簽獲取對應(yīng)的產(chǎn)品屬性信息以及對應(yīng)的屬性值進行結(jié)構(gòu)化存儲。其中,所述步驟C包括步驟:提取網(wǎng)頁數(shù)據(jù)中的文本信息,確定用于自動分類的特征項集合,根據(jù)所述特征項集合重新描述訓(xùn)練文本向量,確定訓(xùn)練文本集;在當(dāng)前文本到達后,根據(jù)所述特征項集合中的特征詞分析當(dāng)前文本,確定當(dāng)前文本的向量表示;在訓(xùn)練文本集中選出與當(dāng)前文本最相似的K個文本,計算公式為:Wi表示第i篇文檔的特征向量,Wj表示第j篇文檔的特征向量,M為特征向量的維數(shù),sim(d)表示第i和j篇文檔的相似度,k表示文本向量的第k維;在與當(dāng)前文本最相似的K個文本中,依次計算每個的權(quán)重,計算公式如下:x是一個點,Cj是已知類別,di是x的k個最近的鄰居點,是向量和向量的相似度,為類別屬性函數(shù);依據(jù)得到的權(quán)重,計算當(dāng)前文本與K個文本之間的相似度,根據(jù)相似度,確定該當(dāng)前文本的所屬類別。其中,所述C包括步驟:預(yù)先依據(jù)訓(xùn)練樣本和分類體系建立類別向量空間;對一篇待分樣本進行分類時,計算待分樣本和每一個類別向量的相似度,然后選取相似度最大的類別作為該待分樣本所對應(yīng)的類別。其中,所述步驟C包括步驟:根據(jù)SVM算法和/或Bayes算法對網(wǎng)頁數(shù)據(jù)進行自動分類。其中,所述步驟D之后,還包括步驟:根據(jù)用戶輸入的產(chǎn)品屬性關(guān)鍵詞,檢索相匹配的產(chǎn)品信息并按照產(chǎn)品屬性決策值的高低將產(chǎn)品信息以列表形式進行顯示。本發(fā)明實施例還提供一種基于互聯(lián)網(wǎng)數(shù)據(jù)形成產(chǎn)品數(shù)據(jù)庫系統(tǒng),包括數(shù)據(jù)抓取模塊、結(jié)構(gòu)化存儲模塊、數(shù)據(jù)分類模塊和屬性決策模塊;所述數(shù)據(jù)抓取模塊,用于采用主題爬蟲技術(shù),抓取與主題相關(guān)度高于預(yù)設(shè)閾值的網(wǎng)頁數(shù)據(jù),其中,所述主題相關(guān)度通過內(nèi)容相關(guān)度分析和鏈接相關(guān)度分析進行計算;所述結(jié)構(gòu)化存儲模塊,用于將抓取的所述網(wǎng)頁數(shù)據(jù)進行結(jié)構(gòu)化存儲;所述數(shù)據(jù)分類模塊,用于對所述結(jié)構(gòu)化存儲的網(wǎng)頁數(shù)據(jù)按照產(chǎn)品所屬類別進行自動分類;所述屬性決策模塊,用于統(tǒng)計自動分類后的網(wǎng)頁數(shù)據(jù)中產(chǎn)品屬性的出現(xiàn)次數(shù)和出現(xiàn)時間,根據(jù)預(yù)設(shè)的權(quán)重對產(chǎn)品屬性出現(xiàn)次數(shù)和出現(xiàn)時間進行加權(quán)計算,得到產(chǎn)品屬性決策值,根據(jù)所述產(chǎn)品屬性決策值確定產(chǎn)品屬性排列順序;其中,產(chǎn)品屬性的出現(xiàn)次數(shù)記為F,產(chǎn)品屬性的出現(xiàn)時間記為T,以及數(shù)據(jù)來源的權(quán)重記為W,通過公式(F+T)*W,得到所述產(chǎn)品屬性決策值。其中,所述數(shù)據(jù)抓取模塊,用于:對經(jīng)過內(nèi)容特征提取后的網(wǎng)頁數(shù)據(jù)進行分析,判定網(wǎng)頁內(nèi)容與指定主題相關(guān)度是否達到所述預(yù)設(shè)閾值,是,則保留該網(wǎng)頁,否,則過濾掉該網(wǎng)頁;和/或,對從網(wǎng)頁中提取的超鏈信息進行測算,得出每個URL所指頁面與指定主題的相關(guān)度,將相關(guān)度達到預(yù)設(shè)閾值的網(wǎng)頁保留;將保留的網(wǎng)頁的URL加入到爬行隊列中并根據(jù)其與主題相關(guān)度的高低進行排序;根據(jù)爬行隊列中的URL,與網(wǎng)絡(luò)建立連接后以下載其所指頁面內(nèi)容。其中,所述結(jié)構(gòu)化存儲模塊,用于:對抓取的網(wǎng)頁數(shù)據(jù)的網(wǎng)頁標(biāo)簽進行分析,對于不同的產(chǎn)品頁面,通過實體標(biāo)簽獲取產(chǎn)品實體信息,并形成記錄,通過屬性標(biāo)簽獲取對應(yīng)的產(chǎn)品屬性信息以及對應(yīng)的屬性值進行結(jié)構(gòu)化存儲。本發(fā)明上述實施例的一種基于互聯(lián)網(wǎng)數(shù)據(jù)形成產(chǎn)品數(shù)據(jù)庫方法和系統(tǒng),通過抓取數(shù)據(jù)、結(jié)構(gòu)化存儲、自動分類和屬性決策值計算幾個步驟,將海量網(wǎng)頁數(shù)據(jù)中的產(chǎn)品信息進行結(jié)構(gòu)化存儲后進行分類,再對產(chǎn)品的各個屬性進行計算,得到產(chǎn)品顯示的各個屬性的排列順序,這樣,便對較為不統(tǒng)一的各種產(chǎn)品信息描述內(nèi)容進行了整理歸納,用戶在想要獲知某一產(chǎn)品的具體信息時,可根據(jù)產(chǎn)品屬性調(diào)取相關(guān)數(shù)據(jù),無需閱讀海量網(wǎng)頁,使得用戶對于互聯(lián)網(wǎng)中的產(chǎn)品信息無需進行搜集整理,即可獲知較為全面的綜合信息。同時,計算產(chǎn)品屬性決策值時,通過屬性的出現(xiàn)次數(shù)和時間進行加權(quán)計算,這樣,可以保證數(shù)據(jù)的實時性,滿足大多數(shù)用戶的實時需求。附圖說明圖1為本發(fā)明的一種基于互聯(lián)網(wǎng)數(shù)據(jù)形成產(chǎn)品數(shù)據(jù)庫方法的一個實施例的流程圖;圖2為本發(fā)明的一種基于互聯(lián)網(wǎng)數(shù)據(jù)形成產(chǎn)品數(shù)據(jù)庫方法的一個實施例中采用SVM算法的原理示意圖;圖3為本發(fā)明的一種基于互聯(lián)網(wǎng)數(shù)據(jù)形成產(chǎn)品數(shù)據(jù)庫系統(tǒng)的一個實施例的結(jié)構(gòu)示意圖。具體實施方式下面通過具體的實施例子并結(jié)合附圖對本發(fā)明做進一步的詳細描述。本發(fā)明實施例提供了一種基于互聯(lián)網(wǎng)數(shù)據(jù)形成產(chǎn)品數(shù)據(jù)庫方法,參見圖1所示,包括步驟:步驟S110:采用主題爬蟲技術(shù),抓取與主題相關(guān)度高于預(yù)設(shè)閾值的網(wǎng)頁數(shù)據(jù)。本發(fā)明實施例采用主題爬蟲技術(shù),利用主題爬行器實現(xiàn)基于主題的信息采集功能。一般由爬行隊列、網(wǎng)絡(luò)連接器、主題模型、內(nèi)容相關(guān)度分析以及鏈接相關(guān)度分析等功能模塊組成。其中,爬行隊列是由一系列主題相關(guān)度較高的URL(UniformResourceLocator,網(wǎng)頁地址)組成。除特別說明以外,本發(fā)明中URL均指網(wǎng)頁地址。爬行隊列在主題搜索引擎進行主題搜索之初是由種子站點組成,這些種子站點可以由該行業(yè)領(lǐng)域的專家給出,也可以借助一些權(quán)威網(wǎng)站自動生成。在搜索過程開始之后,系統(tǒng)發(fā)現(xiàn)新的URL,并根據(jù)主題相關(guān)度對其排序后補充到爬行隊列中。網(wǎng)絡(luò)連接器則根據(jù)爬行隊列中的URL,與網(wǎng)絡(luò)建立連接后以下載其所指頁面內(nèi)容。主題模型由主題建模方法來實現(xiàn),主題詞法是常用的主題建模方法。關(guān)鍵詞法以一組特征關(guān)鍵詞來表示主題內(nèi)容,包括用戶需求主題以及文檔內(nèi)容。一個主題關(guān)鍵詞可以是單個的詞短語,包括權(quán)重、語種等屬性,常用的相關(guān)度算法是詞頻統(tǒng)計法。其中,計算主題相關(guān)度,可以通過內(nèi)容相關(guān)度分析和鏈接相關(guān)度分析。內(nèi)容相關(guān)度分析是指系統(tǒng)對經(jīng)過內(nèi)容特征提取后的網(wǎng)頁數(shù)據(jù)進行分析,判定網(wǎng)頁內(nèi)容與指定主題相關(guān)度如何,過濾無關(guān)頁面,保留相關(guān)度達到閾值的網(wǎng)頁。鏈接相關(guān)度分析是指系統(tǒng)對從網(wǎng)頁中提取的超鏈信息進行測算,得出每個URL所指頁面與指定主題的相關(guān)度,將符合主題度要求的URL加入到爬行隊列中,并對其進行爬行優(yōu)先度排序,以保證相關(guān)度高的頁面優(yōu)先被檢索到。所述預(yù)設(shè)閾值,是根據(jù)網(wǎng)頁上數(shù)據(jù)與主題相關(guān)度大小判斷是否保留該網(wǎng)頁數(shù)據(jù)的一個相關(guān)度的量化分界值,可由本領(lǐng)域技術(shù)人員根據(jù)實際情況具體確定,本發(fā)明不一一列舉。若相關(guān)度用百分制表示,則預(yù)設(shè)閾值可以為60-100。步驟S111:將抓取的所述網(wǎng)頁數(shù)據(jù)進行結(jié)構(gòu)化存儲。本發(fā)明實施例,通過對抓取數(shù)據(jù)的網(wǎng)頁標(biāo)簽進行分析,形成標(biāo)簽知識庫,對抓取網(wǎng)頁數(shù)據(jù)進行結(jié)構(gòu)化存儲。對于不同的產(chǎn)品頁面,通過實體標(biāo)簽獲取產(chǎn)品實體,并形成記錄,通過屬性標(biāo)簽獲取對應(yīng)的產(chǎn)品屬性以及對應(yīng)的屬性值,進行結(jié)構(gòu)化存儲。步驟S112:對所述結(jié)構(gòu)化存儲的網(wǎng)頁數(shù)據(jù)按照產(chǎn)品所屬類別進行自動分類。自動分類的方式有多種,下面列舉幾種可實施方式:其中一種方法依據(jù)的分類規(guī)則為:該方法在定類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。具體的算法步驟如下:根據(jù)特征項集合重新描述訓(xùn)練文本向量;在當(dāng)前文本到達后,根據(jù)特征詞分詞當(dāng)前文本,確定當(dāng)前文本的向量表示;在訓(xùn)練文本集中選出與當(dāng)前文本最相似的K個文本,計算公式為:Wi表示第i篇檔的特征向量,Wj表示第j篇文檔的特征向量,M為特征向量的維數(shù),sim(d)表示第i和j篇文檔的相似度,K為向量的第k維;在當(dāng)前文本的K個鄰居中,依次計算每類的權(quán)重,計算公式如下:x是一個點,Cj是已知類別,di是x的k個最近的鄰居點,是向量和向量的相似度,為類別屬性函數(shù),如果di屬于類Cj,那么函數(shù)值為1,否則為0。之后,依據(jù)得到的權(quán)重,計算當(dāng)前文本與K個文本之間的相似度,根據(jù)相似度,確定該當(dāng)前文本的所屬類別。另一種方式為,將文檔表示為加權(quán)的特征向量:D=D(T1,W1;T2,W2;…;Tn,Wn),然后通過計算文本相似度的方法來確定待分樣本的類別。當(dāng)文本被表示為空間向量模型的時候,文本的相似度就可以借助特征向量之間的內(nèi)積來表示。此種方式一般事先依據(jù)語料庫中的訓(xùn)練樣本和分類體系建立類別向量空間。當(dāng)需要對一篇待分樣本進行分類的時候,只需要計算待分樣本和每一個類別向量的相似度即內(nèi)積,然后選取相似度最大的類別作為該待分樣本所對應(yīng)的類別。此外,還可采用SVM算法和/或Bayes算法對網(wǎng)頁數(shù)據(jù)進行自動分類。SVM算法,參見圖2所示,是從線性可分情況下的最優(yōu)分類面發(fā)展而來的,基本思想可見圖,分割線1和分割線2都能正確地將2類樣本分開,這樣的分割線有無線多條,但分割線1使2類樣本的間隙最大,稱之為最優(yōu)分類線(更高維即為最優(yōu)分類面或最優(yōu)超平面)。Bayes算法是一種在已知先驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。設(shè)訓(xùn)練樣本集分為M類,記為C={c1,…,ci,…cM},每類的先驗概率為P(ci),i=1,2,…,M。當(dāng)樣本集非常大時,可以認為P(ci)=ci類樣本數(shù)/總樣本數(shù)。對于一個待分樣本X,其歸于cj類的類條件概率是P(X/ci),則根據(jù)Bayes定理,可得到cj類的后驗概率P(ci/X):P(ci/x)=P(x/ci)·P(ci)/P(x)(式1-1)若P(ci/X)=MaxjP(cj/X),i=1,2,…,M,j=1,2,…,M,則有x∈ci(式1-2)式(1-2)是最大后驗概率判決準(zhǔn)則,將式(1-1)代入式(1-2),則有:若P(x/ci)P(ci)=Maxj[P(x/cj)P(cj)],i=1,2,…,M,j=1,2,…,M,則x∈ci。步驟S113:統(tǒng)計自動分類后的網(wǎng)頁數(shù)據(jù)中產(chǎn)品屬性的出現(xiàn)次數(shù)和出現(xiàn)時間,根據(jù)預(yù)設(shè)的權(quán)重對產(chǎn)品屬性出現(xiàn)次數(shù)和出現(xiàn)時間進行加權(quán)計算,得到產(chǎn)品屬性決策值,根據(jù)所述產(chǎn)品屬性決策值確定產(chǎn)品屬性排列順序。屬性決策包含兩個參數(shù),屬性的出現(xiàn)次數(shù)(F),屬性的出現(xiàn)時間(T),以及數(shù)據(jù)來源的權(quán)重(W),通過公式:(F+T)W,得到屬性決策值。依據(jù)該屬性決策值獲得屬性入選及排序。其中,屬性的出現(xiàn)時間的權(quán)重以及出現(xiàn)次數(shù)的權(quán)重,都可根據(jù)實際情況具體確定,一般地,數(shù)據(jù)來源的時間越久遠,則該數(shù)據(jù)的出現(xiàn)時間的權(quán)重越小。本發(fā)明實施例還提供一種基于互聯(lián)網(wǎng)數(shù)據(jù)形成產(chǎn)品數(shù)據(jù)庫系統(tǒng),參見圖3所示,包括數(shù)據(jù)抓取模塊1、結(jié)構(gòu)化存儲模塊2、數(shù)據(jù)分類模塊3和屬性決策模塊4。所述數(shù)據(jù)抓取模塊1,用于采用主題爬蟲技術(shù),抓取與主題相關(guān)度高于預(yù)設(shè)閾值的網(wǎng)頁數(shù)據(jù)。所述結(jié)構(gòu)化存儲模塊2,用于將抓取的所述網(wǎng)頁數(shù)據(jù)進行結(jié)構(gòu)化存儲。所述數(shù)據(jù)分類模塊3,用于對所述結(jié)構(gòu)化存儲的網(wǎng)頁數(shù)據(jù)按照產(chǎn)品所屬類別進行自動分類。所述屬性決策模塊4,用于統(tǒng)計自動分類后的網(wǎng)頁數(shù)據(jù)中產(chǎn)品屬性的出現(xiàn)次數(shù)和出現(xiàn)時間,根據(jù)預(yù)設(shè)的權(quán)重對產(chǎn)品屬性出現(xiàn)次數(shù)和出現(xiàn)時間進行加權(quán)計算,得到產(chǎn)品屬性決策值,根據(jù)所述產(chǎn)品屬性決策值確定產(chǎn)品屬性排列順序。該數(shù)據(jù)庫系統(tǒng)還應(yīng)設(shè)置有檢索器和管理平臺。檢索器為用戶提供查詢界面,根據(jù)用戶提出的檢索式對索引數(shù)據(jù)庫進行檢索,按相關(guān)度高低對查詢結(jié)果排序后將頁面鏈接及相關(guān)信息返回給用戶。管理平臺負責(zé)對整個系統(tǒng)進行監(jiān)控和管理,主要實現(xiàn)確定主題、初始化爬行器、控制爬行過程、協(xié)調(diào)優(yōu)化模塊間功能實現(xiàn)、用戶交互等功能。作為一個完善的搜索引擎,管理平臺還應(yīng)供跨平臺應(yīng)用網(wǎng)絡(luò)服務(wù)應(yīng)用接口。其中,作為一種可實施方式,所述數(shù)據(jù)抓取模塊1,用于:對經(jīng)過內(nèi)容特征提取后的網(wǎng)頁數(shù)據(jù)進行分析,判定網(wǎng)頁內(nèi)容與指定主題相關(guān)度是否達到所述預(yù)設(shè)閾值,是,則保留該網(wǎng)頁,否,則過濾掉該網(wǎng)頁;和/或,對從網(wǎng)頁中提取的超鏈信息進行測算,得出每個URL所指頁面與指定主題的相關(guān)度,將相關(guān)度達到預(yù)設(shè)閾值的網(wǎng)頁保留;將保留的網(wǎng)頁的URL加入到爬行隊列中并根據(jù)其與主題相關(guān)度的高低進行排序;根據(jù)爬行隊列中的URL,與網(wǎng)絡(luò)建立連接后以下載其所指頁面內(nèi)容。優(yōu)選地,作為一種可實施方式,所述結(jié)構(gòu)化存儲模塊2,用于:對抓取的網(wǎng)頁數(shù)據(jù)的網(wǎng)頁標(biāo)簽進行分析,對于不同的產(chǎn)品頁面,通過實體標(biāo)簽獲取產(chǎn)品實體信息,并形成記錄,通過屬性標(biāo)簽獲取對應(yīng)的產(chǎn)品屬性信息以及對應(yīng)的屬性值進行結(jié)構(gòu)化存儲。綜上,本發(fā)明實施例所提供的方法和系統(tǒng),主要運用網(wǎng)絡(luò)爬蟲技術(shù),對海量網(wǎng)頁進行抓取,主要對綜合類電子商務(wù)網(wǎng)站、垂直類電子商務(wù)網(wǎng)站、生產(chǎn)商網(wǎng)站、采購商網(wǎng)站進行抓取,并提取出最新、有效產(chǎn)品及相關(guān)數(shù)據(jù),之后運用數(shù)據(jù)結(jié)構(gòu)化存儲技術(shù)對抓取的數(shù)據(jù)進行結(jié)構(gòu)化存儲,建立電子商務(wù)數(shù)據(jù)源。再運用數(shù)據(jù)分類技術(shù),把抓取的數(shù)據(jù)進行分類。通過為各類目建立學(xué)習(xí)樣本數(shù)據(jù),通過數(shù)據(jù)的語料,命名實體識別,語義理解,優(yōu)化樣本等智能化技術(shù),并輔以人工修正,實現(xiàn)數(shù)據(jù)自動分類。最后,通過屬性決策系統(tǒng),對屬性出現(xiàn)的頻率、時間進行分析,結(jié)合用戶錄入習(xí)慣分析,形成各分類下的屬性排列規(guī)則,生成各分類的描述標(biāo)準(zhǔn)。這樣,通過對以上技術(shù)的綜合運用,形成了對各行業(yè)產(chǎn)品描述的統(tǒng)一標(biāo)準(zhǔn),通過對采購商標(biāo)準(zhǔn)進行采集,可形成正對特定采購商的產(chǎn)品描述標(biāo)準(zhǔn),同時產(chǎn)品描述內(nèi)容可以在多個標(biāo)準(zhǔn)間進行轉(zhuǎn)換,適應(yīng)不同的采購商查看,并可對接采購系統(tǒng),通過接口實現(xiàn)訂單內(nèi)容自動初始化,極大的提高系統(tǒng)的處理效率。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1