一種用于對(duì)待分類(lèi)詞條進(jìn)行分類(lèi)的方法、裝置與設(shè)備的制作方法
【專(zhuān)利摘要】本發(fā)明的目的是提供一種用于對(duì)待分類(lèi)詞條進(jìn)行分類(lèi)的方法、裝置與設(shè)備。其中,本發(fā)明將待分類(lèi)詞條與多個(gè)網(wǎng)頁(yè)分別進(jìn)行相似度計(jì)算,以獲取所述待分類(lèi)詞條分別與所述多個(gè)網(wǎng)頁(yè)的相似度信息;接著將所述相似度信息大于預(yù)定相似度閾值的至少一個(gè)網(wǎng)頁(yè)確定為提取網(wǎng)頁(yè);隨后根據(jù)所述提取網(wǎng)頁(yè)包括的多個(gè)已分類(lèi)詞條分別所屬的分類(lèi)信息的出現(xiàn)頻次,來(lái)由所述多個(gè)已分類(lèi)詞條分別所屬的分類(lèi)信息中選擇至少一個(gè)分類(lèi)信息作為所述待分類(lèi)詞條的分類(lèi)信息。本方案實(shí)現(xiàn)了自動(dòng)化地對(duì)待分類(lèi)詞條進(jìn)行分類(lèi)操作,從而降低人工分類(lèi)成本,在保證分類(lèi)質(zhì)量的前提下極大地提升了分類(lèi)效率,進(jìn)而為擴(kuò)充輸入法詞庫(kù)中詞條擴(kuò)充與完善提供了保證。
【專(zhuān)利說(shuō)明】—種用于對(duì)待分類(lèi)詞條進(jìn)行分類(lèi)的方法、裝置與設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,尤其涉及一種用于對(duì)待分類(lèi)詞條進(jìn)行分類(lèi)的方法、裝置與設(shè)備。
【背景技術(shù)】
[0002]在現(xiàn)有的輸入法技術(shù)中,對(duì)輸入法詞庫(kù)的詞條擴(kuò)充方式主要為抓取網(wǎng)頁(yè)中的待分類(lèi)詞條,隨后對(duì)待分類(lèi)詞條執(zhí)行人工分類(lèi)操作,而尚未存在較好的自動(dòng)分類(lèi)方式。當(dāng)面對(duì)海量的待分類(lèi)詞條數(shù)據(jù)時(shí),人工分類(lèi)方式成本較高,且分類(lèi)效率較低,嚴(yán)重影響輸入法詞庫(kù)的詞條擴(kuò)充與完善。
[0003]因此,如何實(shí)現(xiàn)自動(dòng)化地對(duì)待分類(lèi)詞條進(jìn)行分類(lèi),成為目前亟待解決的問(wèn)題之一。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是提供一種用于對(duì)待分類(lèi)詞條進(jìn)行分類(lèi)的方法、裝置與設(shè)備。
[0005]根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于對(duì)待分類(lèi)詞條進(jìn)行分類(lèi)的方法,該方法包括以下步驟:
[0006]a將待分類(lèi)詞條與多個(gè)網(wǎng)頁(yè)分別進(jìn)行相似度計(jì)算,以獲取所述待分類(lèi)詞條分別與所述多個(gè)網(wǎng)頁(yè)的相似度信息;
[0007]b將所述相似度信息大于預(yù)定相似度閾值的至少一個(gè)網(wǎng)頁(yè)確定為提取網(wǎng)頁(yè);
[0008]c根據(jù)所述提取網(wǎng)頁(yè)包括的多個(gè)已分類(lèi)詞條分別所屬的分類(lèi)信息的出現(xiàn)頻次,來(lái)由所述多個(gè)已分類(lèi)詞條分別所屬的分類(lèi)信息中選擇至少一個(gè)分類(lèi)信息作為所述待分類(lèi)詞條的分類(lèi)信息。
[0009]根據(jù)本發(fā)明的另一方面,還提供了一種用于對(duì)待分類(lèi)詞條進(jìn)行分類(lèi)的分類(lèi)裝置,該分類(lèi)裝置包括:
[0010]第一相似度獲取裝置,用于將待分類(lèi)詞條與多個(gè)網(wǎng)頁(yè)分別進(jìn)行相似度計(jì)算,以獲取所述待分類(lèi)詞條分別與所述多個(gè)網(wǎng)頁(yè)的相似度信息;
[0011]第一網(wǎng)頁(yè)確定裝置,用于將所述相似度信息大于預(yù)定相似度閾值的至少一個(gè)網(wǎng)頁(yè)確定為提取網(wǎng)頁(yè);
[0012]分類(lèi)選擇裝置,用于根據(jù)所述提取網(wǎng)頁(yè)包括的多個(gè)已分類(lèi)詞條分別所屬的分類(lèi)信息的出現(xiàn)頻次,來(lái)由所述多個(gè)已分類(lèi)詞條分別所屬的分類(lèi)信息中選擇至少一個(gè)分類(lèi)信息作為所述待分類(lèi)詞條的分類(lèi)信息。
[0013]與現(xiàn)有技術(shù)相比,本發(fā)明與現(xiàn)有技術(shù)的區(qū)別在于:1)基于待分類(lèi)詞條與多個(gè)網(wǎng)頁(yè)的相似度信息來(lái)確定多個(gè)網(wǎng)頁(yè)中的提取網(wǎng)頁(yè),根據(jù)提取網(wǎng)頁(yè)包括的多個(gè)已分類(lèi)詞條分別所屬的分類(lèi)信息的出現(xiàn)頻次,從多個(gè)已分類(lèi)詞條分別所屬的分類(lèi)信息中選擇至少一個(gè)分類(lèi)信息作為待分類(lèi)詞條的分類(lèi)信息,實(shí)現(xiàn)了自動(dòng)化地對(duì)待分類(lèi)詞條進(jìn)行分類(lèi)操作,從而降低人工分類(lèi)成本,在保證分類(lèi)質(zhì)量的前提下極大地提升了分類(lèi)效率,進(jìn)而為擴(kuò)充輸入法詞庫(kù)中詞條擴(kuò)充與完善提供了保證;2)重復(fù)地執(zhí)行相似度信息獲取操作、提取網(wǎng)頁(yè)確定操作、分類(lèi)信息選擇操作和待分類(lèi)詞條確定操作,在滿(mǎn)足預(yù)定的停止條件時(shí)結(jié)束重復(fù)執(zhí)行操作,實(shí)現(xiàn)了自動(dòng)提取待分類(lèi)詞條、并對(duì)待分類(lèi)詞條自動(dòng)進(jìn)行分類(lèi)的分類(lèi)循環(huán)操作,進(jìn)一步提升分類(lèi)效率,適于從海量網(wǎng)頁(yè)中提取待分類(lèi)詞條并對(duì)其自動(dòng)執(zhí)行分類(lèi),進(jìn)一步為快速準(zhǔn)確地?cái)U(kuò)充輸入法詞庫(kù)提供了有力保證。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0014]通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0015]圖1示出根據(jù)本發(fā)明一個(gè)方面的用于對(duì)待分類(lèi)詞條進(jìn)行分類(lèi)的分類(lèi)裝置的裝置示意圖;
[0016]圖2示出根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的用于對(duì)待分類(lèi)詞條進(jìn)行分類(lèi)的分類(lèi)裝置的裝置示意圖;
[0017]圖3示出根據(jù)本發(fā)明另一個(gè)方面的用于對(duì)待分類(lèi)詞條進(jìn)行分類(lèi)的方法流程圖;
[0018]圖4示出根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的用于對(duì)待分類(lèi)詞條進(jìn)行分類(lèi)的方法流程圖。
[0019]附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
【具體實(shí)施方式】
[0020]下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
[0021]圖1示出根據(jù)本發(fā)明一個(gè)方面的用于對(duì)待分類(lèi)詞條進(jìn)行分類(lèi)的分類(lèi)裝置的裝置示意圖。本實(shí)施例的分類(lèi)裝置包含于網(wǎng)絡(luò)設(shè)備中;該分類(lèi)裝置包括第一相似度獲取裝置1、第一網(wǎng)頁(yè)確定裝置2和分類(lèi)選擇裝置3。
[0022]其中,所述網(wǎng)絡(luò)設(shè)備包括一種能夠按照預(yù)先設(shè)定或存儲(chǔ)的指令,自動(dòng)進(jìn)行數(shù)值計(jì)算和信息處理的電子設(shè)備,其硬件包括但不限于微處理器、專(zhuān)用集成電路(ASIC)、可編程門(mén)陣列(FPGA)、數(shù)字處理器(DSP)、嵌入式設(shè)備等。所述網(wǎng)絡(luò)設(shè)備包括但不限于計(jì)算機(jī)、網(wǎng)絡(luò)主機(jī)、單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器集或多個(gè)服務(wù)器構(gòu)成的云。在此,云由基于云計(jì)算(Cloud Computing)的大量計(jì)算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī)。本領(lǐng)域技術(shù)人員應(yīng)能理解上述網(wǎng)絡(luò)設(shè)備僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的網(wǎng)絡(luò)設(shè)備如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。
[0023]首先,第一相似度獲取裝置I將待分類(lèi)詞條與多個(gè)網(wǎng)頁(yè)分別進(jìn)行相似度計(jì)算,以獲取所述待分類(lèi)詞條分別與所述多個(gè)網(wǎng)頁(yè)的相似度信息。
[0024]其中,所述多個(gè)網(wǎng)頁(yè)包括通過(guò)網(wǎng)絡(luò)爬蟲(chóng)等網(wǎng)頁(yè)獲取工具從互聯(lián)網(wǎng)隨機(jī)獲取的多個(gè)網(wǎng)頁(yè);優(yōu)選地,所述多個(gè)網(wǎng)頁(yè)可包括對(duì)從互聯(lián)網(wǎng)隨機(jī)獲取的海量網(wǎng)頁(yè)進(jìn)行掃描,并從中提取的包括待分類(lèi)詞條的多個(gè)網(wǎng)頁(yè)。
[0025]具體地,第一相似度獲取裝置I獲取相似度信息的方式包括但不限于:
[0026]I)確定待分類(lèi)詞條分別在多個(gè)網(wǎng)頁(yè)中的出現(xiàn)頻次信息,并將該出現(xiàn)頻次作為該待分類(lèi)詞條分別與該等網(wǎng)頁(yè)相似度信息;
[0027]其中,本發(fā)明所述頻次包括但不限于頻率和/或次數(shù)。[0028]在一示例中,待分類(lèi)詞條為“桌球”,第一相似度獲取裝置I確定該待分類(lèi)詞條在網(wǎng)頁(yè)A、B、C中的出現(xiàn)頻次分別為5、7、1,則將該等出現(xiàn)頻次作為待分類(lèi)詞條與網(wǎng)頁(yè)A、B、C的相似度信息。
[0029] 2)優(yōu)選地(參照?qǐng)D1),所述第一相似度獲取裝置包括切詞裝置(圖未示)、頻次確定裝置(圖未示)和計(jì)算裝置(圖未示);其中,切詞裝置對(duì)所述多個(gè)網(wǎng)頁(yè)分別進(jìn)行切詞處理,來(lái)獲取各個(gè)網(wǎng)頁(yè)分別包括的多個(gè)切詞片段;頻次確定裝置確定所述多個(gè)切詞片段分別在每個(gè)網(wǎng)頁(yè)中的出現(xiàn)頻次信息;計(jì)算裝置根據(jù)所述出現(xiàn)頻次信息,來(lái)計(jì)算所述待分類(lèi)詞條分別與所述多個(gè)網(wǎng)頁(yè)中各個(gè)網(wǎng)頁(yè)的相似度。
[0030]具體地,首先,切詞裝置對(duì)多個(gè)網(wǎng)頁(yè)的每一個(gè)進(jìn)行切詞處理,來(lái)獲取多個(gè)網(wǎng)頁(yè)的每個(gè)網(wǎng)頁(yè)分別包括的多個(gè)切詞片段;接著,頻次確定裝置確定該多個(gè)切詞片段分別在每個(gè)網(wǎng)頁(yè)中的出現(xiàn)頻次信息;隨后,計(jì)算裝置根據(jù)多個(gè)切詞片段分別在每個(gè)網(wǎng)頁(yè)中的出現(xiàn)頻次信息,通過(guò)TF-1DF算法抽取每個(gè)網(wǎng)頁(yè)的特征向量詞,并通過(guò)向量空間模型技術(shù)使用特征向量矩陣來(lái)表示每一個(gè)網(wǎng)頁(yè),隨后將待分類(lèi)詞條與該等特征向量矩陣通過(guò)例如余弦相關(guān)度或空間距離法等算法進(jìn)行計(jì)算,來(lái)獲取待分類(lèi)詞條與該等網(wǎng)頁(yè)的相似度信息。
[0031]其中,所述TF-1DF算法是信息檢索和數(shù)據(jù)挖掘中使用的一種加權(quán)統(tǒng)計(jì)算法,用以評(píng)估一詞條對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度;TF-1DF的計(jì)算方式如下式所示:
[0032]
【權(quán)利要求】
1.一種用于對(duì)待分類(lèi)詞條進(jìn)行分類(lèi)的方法,該方法包括以下步驟: a將待分類(lèi)詞條與多個(gè)網(wǎng)頁(yè)分別進(jìn)行相似度計(jì)算,以獲取所述待分類(lèi)詞條分別與所述多個(gè)網(wǎng)頁(yè)的相似度信息; b將所述相似度信息大于預(yù)定相似度閾值的至少一個(gè)網(wǎng)頁(yè)確定為提取網(wǎng)頁(yè);c根據(jù)所述提取網(wǎng)頁(yè)包括的多個(gè)已分類(lèi)詞條分別所屬的分類(lèi)信息的出現(xiàn)頻次,來(lái)由所述多個(gè)已分類(lèi)詞條分別所屬的分類(lèi)信息中選擇至少一個(gè)分類(lèi)信息作為所述待分類(lèi)詞條的分類(lèi)信息。
2.根據(jù)權(quán)利要求1所述的方法,其中,該方法還包括: d根據(jù)所述提取網(wǎng)頁(yè)中包括的未分類(lèi)詞條的出現(xiàn)頻次,來(lái)由所述未分類(lèi)詞條中確定一個(gè)未分類(lèi)詞條作為待分類(lèi)詞條; 重復(fù)執(zhí)行步驟a、b、c、d,直至滿(mǎn)足預(yù)定的停止條件。
3.根據(jù)權(quán)利要求2所述的方法,其中,該方法還包括: w在首次重復(fù)執(zhí)行步驟a、b、C、d前,確定待分類(lèi)詞條。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述步驟w包括: -將已分類(lèi)詞條與所述多個(gè)網(wǎng)頁(yè)分別進(jìn)行相似度計(jì)算,以獲取所述已分類(lèi)詞條分別與所述多個(gè)網(wǎng)頁(yè)的相似度信息; -將所述相似度信息大于預(yù)定相似度閾值的至少一個(gè)網(wǎng)頁(yè)確定為待分類(lèi)詞條提取網(wǎng)頁(yè); -根據(jù)所述提取網(wǎng)頁(yè)包括的多個(gè)未分類(lèi)詞條的出現(xiàn)頻次,來(lái)由所述未分類(lèi)詞條中確定一個(gè)未分類(lèi)詞條作為待分類(lèi)詞條。
5.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其中,所述步驟a包括: -對(duì)所述多個(gè)網(wǎng)頁(yè)分別進(jìn)行切詞處理,來(lái)獲取各個(gè)網(wǎng)頁(yè)分別包括的多個(gè)切詞片段; -確定所述多個(gè)切詞片段分別在每個(gè)網(wǎng)頁(yè)中的出現(xiàn)頻次信息; -根據(jù)所述出現(xiàn)頻次信息,來(lái)計(jì)算所述待分類(lèi)詞條分別與所述多個(gè)網(wǎng)頁(yè)中各個(gè)網(wǎng)頁(yè)的相似度。
6.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的方法,其中,該方法還包括: -根據(jù)已確定至少一個(gè)分類(lèi)信息的詞條,更新其所對(duì)應(yīng)的至少一個(gè)分類(lèi)詞表。
7.一種用于對(duì)待分類(lèi)詞條進(jìn)行分類(lèi)的分類(lèi)裝置,該分類(lèi)裝置包括: 第一相似度獲取裝置,用于將待分類(lèi)詞條與多個(gè)網(wǎng)頁(yè)分別進(jìn)行相似度計(jì)算,以獲取所述待分類(lèi)詞條分別與所述多個(gè)網(wǎng)頁(yè)的相似度信息; 第一網(wǎng)頁(yè)確定裝置,用于將所述相似度信息大于預(yù)定相似度閾值的至少一個(gè)網(wǎng)頁(yè)確定為提取網(wǎng)頁(yè); 分類(lèi)選擇裝置,用于根據(jù)所述提取網(wǎng)頁(yè)包括的多個(gè)已分類(lèi)詞條分別所屬的分類(lèi)信息的出現(xiàn)頻次,來(lái)由所述多個(gè)已分類(lèi)詞條分別所屬的分類(lèi)信息中選擇至少一個(gè)分類(lèi)信息作為所述待分類(lèi)詞條的分類(lèi)信息。
8.根據(jù)權(quán)利要求7所述的分類(lèi)裝置,其中,該分類(lèi)裝置還包括: 第一詞條確定裝置,用于根據(jù)所述提取網(wǎng)頁(yè)中包括的未分類(lèi)詞條的出現(xiàn)頻次,來(lái)由所述未分類(lèi)詞條中確定一個(gè)未分類(lèi)詞條作為待分類(lèi)詞條; 控制裝置,用于在滿(mǎn)足預(yù)定的停止條件時(shí),結(jié)束確定所述待分類(lèi)詞條。
9.根據(jù)權(quán)利要求8所述的分類(lèi)裝置,其中,該分類(lèi)裝置還包括: 第二詞條確定裝置,用于在第一相似度獲取裝置首次獲取相似度信息前,確定待分類(lèi)詞條。
10.根據(jù)權(quán)利要求9所述的分類(lèi)裝置,其中,所述第二詞條確定裝置包括: 第二相似度獲取裝置,用于將已分類(lèi)詞條與所述多個(gè)網(wǎng)頁(yè)分別進(jìn)行相似度計(jì)算,以獲取所述已分類(lèi)詞條分別與所述多個(gè)網(wǎng)頁(yè)的相似度信息; 第二網(wǎng)頁(yè)確定裝置,用于將所述相似度信息大于預(yù)定相似度閾值的至少一個(gè)網(wǎng)頁(yè)確定為待分類(lèi)詞條提取網(wǎng)頁(yè); 第三詞條確定裝置,用于根據(jù)所述提取網(wǎng)頁(yè)包括的多個(gè)未分類(lèi)詞條的出現(xiàn)頻次,來(lái)由所述未分類(lèi)詞條中確定一個(gè)未分類(lèi)詞條作為待分類(lèi)詞條。
11.根據(jù)權(quán)利要求7至10任一項(xiàng)所述的分類(lèi)裝置,其中,所述第一相似度獲取裝置包括: 切詞裝置,用于對(duì)所述多個(gè)網(wǎng)頁(yè)分別進(jìn)行切詞處理,來(lái)獲取各個(gè)網(wǎng)頁(yè)分別包括的多個(gè)切詞片段; 頻次確定裝置,用于確定所述多個(gè)切詞片段分別在每個(gè)網(wǎng)頁(yè)中的出現(xiàn)頻次信息; 計(jì)算裝置,用于根據(jù)所述出現(xiàn)頻次信息,來(lái)計(jì)算所述待分類(lèi)詞條分別與所述多個(gè)網(wǎng)頁(yè)中各個(gè)網(wǎng)頁(yè)的相似度。
12.根據(jù)權(quán)利要求7至11任一項(xiàng)所述的分類(lèi)裝置,其中,該分類(lèi)裝置還包括: 更新裝置,用于根據(jù)已確定至少一個(gè)分類(lèi)信息的詞條,更新其所對(duì)應(yīng)的至少一個(gè)分類(lèi)詞表。
13.一種網(wǎng)絡(luò)設(shè)備,包括如權(quán)利要求7至12中至少一項(xiàng)所述的分類(lèi)裝置。
【文檔編號(hào)】G06F17/30GK103984685SQ201310049244
【公開(kāi)日】2014年8月13日 申請(qǐng)日期:2013年2月7日 優(yōu)先權(quán)日:2013年2月7日
【發(fā)明者】何明哲 申請(qǐng)人:百度國(guó)際科技(深圳)有限公司