數(shù)據(jù)處理方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請涉及互聯(lián)網(wǎng)技術(shù),特別涉及數(shù)據(jù)處理方法和裝置。
【背景技術(shù)】
[0002] 為使本申請容易理解,下面先對本申請涉及的技術(shù)術(shù)語進行描述:
[0003] 分詞:是將一個序列切分成一個一個單獨的詞。該序列可以為中文漢字序列,也可 以為中文漢字和專有英文詞組成的序列。
[0004] 知識庫:其是諸多個語義樹的集合。而一個語義樹是由語義相同或者相近的一組 詞的集合組成的。
[0005] 特征向量詞:用來表示某一個文檔的特征的詞,其包括至少一個詞。
[0006] 內(nèi)鏈詞:是在問答社區(qū)的正文中出現(xiàn)的,用戶可以點擊并且跳轉(zhuǎn)到其它頁面上的 鏈接及描述文字。其可以作為一個文檔的特征向量詞。
[0007] 自內(nèi)鏈詞:屬于內(nèi)鏈詞的一種,是知識庫中某一類詞條中用于指向同一類詞條中 其他詞條的鏈接及描述文字。
[0008] 以上對本申請涉及的技術(shù)術(shù)語進行了描述。
[0009] 在現(xiàn)有技術(shù)中,當(dāng)對知識庫中的詞(稱為待處理詞)進行一些數(shù)據(jù)處理時,如果能 夠自動推薦出該待處理詞相關(guān)的自內(nèi)鏈詞,使用戶從推薦的自內(nèi)鏈詞中找到自己感興趣的 詞,無需用戶主動重新獲取,這一方面提高知識庫的詞訪問效率,另一方面也能節(jié)省因為用 戶頻繁訪問知識庫所浪費的資源。然而,現(xiàn)有技術(shù)中尚沒有一種方式能夠挖掘并推薦待處 理詞相關(guān)的自內(nèi)鏈詞。因此,一種用于挖掘待處理詞相關(guān)的自內(nèi)鏈詞的數(shù)據(jù)處理方法是當(dāng) 前亟待解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0010] 本申請?zhí)峁┝藬?shù)據(jù)處理方法和裝置,以實現(xiàn)在處理知識庫中某一詞時,自動挖掘 出該詞相關(guān)的自內(nèi)鏈詞。
[0011] 本申請?zhí)峁┑募夹g(shù)方案包括:
[0012] 一種數(shù)據(jù)處理方法,包括:
[0013] 確定待處理詞的特征向量詞;
[0014] 將在所述待處理詞專屬的結(jié)果頁中出現(xiàn)的設(shè)定的內(nèi)鏈詞作為所述待處理詞的候 選自內(nèi)鏈詞;
[0015] 按照確定待處理詞的特征向量詞的方式確定每一候選自內(nèi)鏈詞的特征向量詞;
[0016] 按照設(shè)定的推薦分?jǐn)?shù)計算方法計算并利用每一候選自內(nèi)鏈詞的特征向量詞和所 述待處理詞的特征向量詞計算每一候選自內(nèi)鏈詞的推薦分?jǐn)?shù);
[0017] 選取設(shè)定數(shù)量個推薦分?jǐn)?shù)高的候選自內(nèi)鏈詞作為所述待處理詞相關(guān)的自內(nèi)鏈詞。
[0018] 一種數(shù)據(jù)處理方法,該方法包括:
[0019] 將預(yù)先設(shè)置的知識庫中除待處理詞之外的其他詞作為所述待處理詞的候選自內(nèi) 鏈詞;
[0020] 獲取每一候選自內(nèi)鏈詞在設(shè)定時間內(nèi)被用戶訪問的次數(shù);
[0021] 計算所述知識庫中所有詞在所述設(shè)定時間內(nèi)被用戶訪問的次數(shù)之和;
[0022] 按照設(shè)定的推薦分?jǐn)?shù)計算方法并利用每一候選自內(nèi)鏈詞在設(shè)定時間內(nèi)被用戶訪 問的次數(shù)和所述知識庫中所有詞在所述設(shè)定時間內(nèi)被用戶訪問的次數(shù)之和計算所述每一 候選自內(nèi)鏈詞的推薦分?jǐn)?shù);
[0023] 選取設(shè)定數(shù)量個推薦分?jǐn)?shù)高的候選自內(nèi)鏈詞作為待處理詞的相關(guān)的自內(nèi)鏈詞。
[0024] 一種數(shù)據(jù)處理裝置,該裝置包括:
[0025] 第一確定單元,用于確定待處理詞的特征向量詞;
[0026] 第二確定單元,用于將在所述待處理詞專屬的結(jié)果頁中出現(xiàn)的設(shè)定的內(nèi)鏈詞作為 所述待處理詞的候選自內(nèi)鏈詞;
[0027] 第三確定單元,用于按照第一確定單元確定待處理詞的特征向量詞的方式確定每 一候選自內(nèi)鏈詞的特征向量詞;
[0028] 計算單元,用于按照設(shè)定的推薦分?jǐn)?shù)計算方法計算并利用每一候選自內(nèi)鏈詞的特 征向量詞和所述待處理詞的特征向量詞計算每一候選自內(nèi)鏈詞的推薦分?jǐn)?shù);
[0029] 選取單元,用于選取設(shè)定數(shù)量個推薦分?jǐn)?shù)高的候選自內(nèi)鏈詞作為待處理詞的相關(guān) 的自內(nèi)鏈詞。
[0030] 一種數(shù)據(jù)處理裝置,該裝置包括:
[0031] 確定單元,用于將預(yù)先設(shè)置的知識庫中除待處理詞之外的其他詞作為所述待處理 詞的候選自內(nèi)鏈詞;
[0032] 獲取單元,用于獲取每一候選自內(nèi)鏈詞在設(shè)定時間內(nèi)被用戶訪問的次數(shù);
[0033] 第一計算單元,用于計算所述知識庫中所有詞在所述設(shè)定時間內(nèi)被用戶訪問的次 數(shù)之和;
[0034] 第二計算單元,用于按照設(shè)定的推薦分?jǐn)?shù)計算方法并利用每一候選自內(nèi)鏈詞在設(shè) 定時間內(nèi)被用戶訪問的次數(shù)和所述知識庫中所有詞在所述設(shè)定時間內(nèi)被用戶訪問的次數(shù) 之和計算所述每一候選自內(nèi)鏈詞的推薦分?jǐn)?shù);
[0035] 選取單元,用于選取設(shè)定數(shù)量個推薦分?jǐn)?shù)高的候選自內(nèi)鏈詞作為待處理詞的相關(guān) 的自內(nèi)鏈詞。
[0036] 由以上技術(shù)方案可以看出,本發(fā)明中,通過確定待處理詞的特征向量詞和候選自 內(nèi)鏈詞,利用所述待處理詞的特征向量詞和每一候選自內(nèi)鏈詞的特征向量詞計算每一候選 自內(nèi)鏈詞的推薦分?jǐn)?shù),選取設(shè)定數(shù)量個推薦分?jǐn)?shù)高的候選自內(nèi)鏈詞作為所述待處理詞相關(guān) 的自內(nèi)鏈詞,能夠?qū)崿F(xiàn)在處理某一詞時,自動挖掘出該詞的自內(nèi)鏈詞的目的。
[0037] 進一步地,本發(fā)明中,由于在處理某一詞時能夠自動推薦出該詞相關(guān)的自內(nèi)鏈詞, 使用戶從推薦的自內(nèi)鏈詞中找到自己感興趣的詞,無需用戶主動重新獲取,這一方面提高 知識庫的詞訪問效率,另一方面也能節(jié)省因為用戶頻繁訪問知識庫所浪費的資源。
【附圖說明】
[0038] 圖1為本發(fā)明實施例1提供的方法流程圖;
[0039] 圖2為本發(fā)明實施例1提供的特征向量詞確定流程圖;
[0040] 圖3為本發(fā)明實施例2提供的相關(guān)度確定流程圖;
[0041] 圖4為本發(fā)明實施例1提供的特征向量詞另一確定流程圖;
[0042]圖5為本發(fā)明實施例2提供的方法流程圖;
[0043]圖6為本發(fā)明實施例提供的裝置結(jié)構(gòu)圖;
[0044] 圖7為本發(fā)明實施例提供的另一裝置結(jié)構(gòu)圖。
【具體實施方式】
[0045] 為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對 本發(fā)明進行詳細(xì)描述。
[0046] 本發(fā)明提供的方法能夠在處理某一詞時,能夠自動挖掘出該詞相關(guān)的自內(nèi)鏈詞, 實現(xiàn)在處理某一詞時,自動挖掘出該詞的自內(nèi)鏈詞的目的。
[0047] 下面通過兩個實施例對本發(fā)明提供的方法進行描述:
[0048] 實施例1 :
[0049] 參見圖1,圖1為本發(fā)明實施例1提供的方法流程圖。如圖1所示,該方法包括以 下步驟:
[0050] 步驟101,確定待處理詞的特征向量詞。
[0051] 本發(fā)明中,所述待處理詞可包括至少一個詞。
[0052] 下文重點描述了如何確定待處理詞的特征向量詞的方法,本步驟101暫不贅述。
[0053] 步驟102,將在所述待處理詞專屬的結(jié)果頁中出現(xiàn)的設(shè)定的內(nèi)鏈詞作為所述待處 理詞的候選自內(nèi)鏈詞。
[0054] 本發(fā)明中,待處理詞為預(yù)先設(shè)置的知識庫中的詞,其中,在設(shè)置知識庫時,本發(fā)明 可針對知識庫中的每一詞都專門設(shè)定一個專屬的結(jié)果頁,用于解釋或者描述該詞。
[0055] 基于此,本步驟102中,就基于知識庫的設(shè)置,從知識庫中找到所述待處理詞專屬 的結(jié)果頁。其中,該結(jié)果頁中可包括一些在知識庫中有專屬結(jié)果頁的詞,針對這些詞,其在 接收到用戶觸發(fā)比如點擊時會自動跳轉(zhuǎn)到其專屬結(jié)果頁,因此可稱為內(nèi)鏈詞。當(dāng)本步驟102 發(fā)現(xiàn)所述待處理詞專屬的結(jié)果頁中出現(xiàn)一些如前所述的內(nèi)鏈詞時,本步驟102就將該發(fā)現(xiàn) 的內(nèi)鏈詞作為所述待處理詞的候選自內(nèi)鏈詞,以便后續(xù)從所述待處理詞的候選自內(nèi)鏈詞中 挖掘出優(yōu)先級比較高的詞作為待處理詞相關(guān)的自內(nèi)鏈詞并推薦給用戶。
[0056] 步驟103,按照步驟101確定待處理詞的特征向量詞的方式確定每一候選自內(nèi)鏈 詞的特征向量詞。
[0057] 步驟104,按照設(shè)定的推薦分?jǐn)?shù)計算方法計算并利用每一候選自內(nèi)鏈詞的特征向 量詞和所述待處理詞的特征向量詞計算每一候選自內(nèi)鏈詞的推薦分?jǐn)?shù)。
[0058] 優(yōu)選地,在上述步驟103中,之所以按照相同方式確定候選自內(nèi)鏈詞與待處理詞 的特征向量詞,目的是方便本步驟104計算推薦分?jǐn)?shù),避免因為不同方式確定的特征向量 詞無法進行推薦分?jǐn)?shù)計算。
[0059] 另外,至于本步驟104中設(shè)定的推薦分?jǐn)?shù)計算方法,其可根據(jù)實際情況設(shè)置,t匕 如,可設(shè)置為相關(guān)度計算方法,或者其他方式,本發(fā)明并不具體限定。
[0060] 步驟105,選取設(shè)定數(shù)量個推薦分?jǐn)?shù)高的候選自內(nèi)鏈詞作為待處理詞相關(guān)的自內(nèi) 鏈詞。
[0061] 至此,通過上述步驟101至步驟105即可自動挖掘出待處理詞相關(guān)的自內(nèi)鏈詞。
[0062] 下面對圖1所示流程中步驟101確定待處理詞的特征向量詞的方式進行描述:
[0063] 優(yōu)選地,本發(fā)明中可采用以下兩種方式確定待處理詞的特征向量詞:
[0064]方式1 :
[0065] 本方式1下,步驟101確定待處理詞的特征向量詞的方法可包括圖2所示的以下 步驟:
[0066] 步驟201,確定所述待處理詞專屬結(jié)果頁的文檔。
[0067]基于上文描述的,在知識庫中的每一詞都有一個專屬的結(jié)果頁,所述待處理詞條 作為知識庫的詞,其肯定有一個專屬的結(jié)果頁。當(dāng)進入所述待處理詞專屬的結(jié)果頁時,按照 現(xiàn)有文檔規(guī)定很容易確定所述待處理詞專屬的結(jié)果頁對應(yīng)的文檔,即稱為所述待處理詞專 屬結(jié)果頁的文檔。
[0068] 步驟202,確定設(shè)定閾值個與所述文檔具有高相關(guān)度的詞,將確定的詞確定為所述 待處理詞的特征向量詞。
[0069] 優(yōu)選地,本方式1下,步驟202具體實現(xiàn)可包括如圖3所示流程:
[0070] 步驟301,對所述待處理詞進行分詞處理和去噪聲干擾,得到對應(yīng)的處理結(jié)果。
[0071] 本步驟301中,待處理詞并非一個單獨的中文漢字,