亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文本匹配方法和裝置與流程

文檔序號(hào):12596204閱讀:284來源:國(guó)知局
文本匹配方法和裝置與流程
本申請(qǐng)涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種文本匹配方法和裝置。
背景技術(shù)
:現(xiàn)有技術(shù)中,可以通過哈希算法進(jìn)行網(wǎng)頁(yè)重排和文本信息匹配。現(xiàn)有哈希算法中的局部敏感哈希算法實(shí)現(xiàn)文本信息匹配。具體地,局部敏感哈希(localsensitivehash,即LSH)是一個(gè)將高維空間中的相似狀態(tài)或者臨近的點(diǎn)放入同一個(gè)桶內(nèi)的hash算法,一般用于相似文本處理。而局部敏感哈希中的MinHash,用文本中的一個(gè)詞的哈希值表示該文本的狀態(tài),在對(duì)兩個(gè)文本做匹配時(shí),對(duì)兩個(gè)文本的狀態(tài)進(jìn)行匹配,即基于兩個(gè)詞的哈希值匹配兩個(gè)文本,若兩個(gè)詞的哈希值一致,則認(rèn)為該兩個(gè)文本為匹配文本。使用該種方法,在應(yīng)用在長(zhǎng)文本匹配時(shí),篩選效率很低。因?yàn)殚L(zhǎng)文本中有大量的高頻詞,很多文本相似度為10%~20%,通過該種方法可能篩選出過多的候選樣本,在項(xiàng)目應(yīng)用中導(dǎo)致時(shí)間和內(nèi)存上都出現(xiàn)問題。上述的用文本中一個(gè)詞的哈希值表示該文本,兩個(gè)文本匹配時(shí),用這兩個(gè)哈希值做匹配,相同即認(rèn)為匹配,不相同即認(rèn)為不匹配的方案,匹配結(jié)果不精確。針對(duì)上述文本匹配的方法匹配結(jié)果不精確的問題,目前尚未提出有效的解決方案。技術(shù)實(shí)現(xiàn)要素:本申請(qǐng)實(shí)施例提供了一種文本匹配方法和裝置,以至少解決文本匹配的方法匹配結(jié)果不精確的技術(shù)問題。根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,提供了一種文本匹配方法,該方法包括:獲取多個(gè)待處理文本中各個(gè)待處理文本的至少兩條詞語(yǔ)屬性信息,其中,多個(gè)待處理文本至少包括待匹配文本和文本庫(kù)中的多個(gè)預(yù)存文本,每條詞語(yǔ)屬性信息用于記錄待處理文本所包含的一個(gè)詞語(yǔ)與待處理文本的索引關(guān)系;從多個(gè)預(yù)存文本的詞語(yǔ)屬性信息中,提取與待匹配文本的詞語(yǔ)屬性信息對(duì)應(yīng)的詞語(yǔ)屬性信息;基于提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系,確定多個(gè)預(yù)存文本中與待匹配文本匹配的匹配文本。根據(jù)本申請(qǐng)實(shí)施例的另一方面,還提供了一種文本匹配裝置,該文本匹配裝置包括:獲取單元,用于獲取多個(gè)待處理文本中各個(gè)待處理文本的至少兩條詞語(yǔ)屬性信息,其中,多個(gè)待處理文本至少包括待匹配文本和文本庫(kù)中的多個(gè)預(yù)存文本,每條詞語(yǔ)屬性信息用于記錄待處理文本所包含的一個(gè)詞語(yǔ)與待處理文本的索引關(guān)系;提取單元,用于從多個(gè)預(yù)存文本的詞語(yǔ)屬性信息中,提取與待匹配文本的詞語(yǔ)屬性信息對(duì)應(yīng)的詞語(yǔ)屬性信息;匹配單元,用于基于提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系,確定多個(gè)預(yù)存文本中與待匹配文本匹配的匹配文本。在本申請(qǐng)實(shí)施例中,使用待匹配文本包含的至少兩個(gè)詞表示一個(gè)文本的特征,其中,每個(gè)詞用一個(gè)詞語(yǔ)屬性信息表示,在通過多個(gè)文本與待匹配文本進(jìn)行匹配時(shí),從多個(gè)文本的大量的詞語(yǔ)屬性信息中,分別提取與該待匹配文本的各條詞語(yǔ)屬性信息匹配的信息,并基于該提取到的信息確定與該待匹配文本相匹配的文本。在現(xiàn)有技術(shù)中每個(gè)文本的特征用一個(gè)詞的信息表示,如果該預(yù)存文本的信息與待匹配文本的信息相匹配,則認(rèn)為該預(yù)存文本與待匹配文本相匹配,得到匹配條目一般為數(shù)千條,;而本申請(qǐng)至少用兩個(gè)詞代表一個(gè)文本的特征,在進(jìn)行信息匹配時(shí),使用至少兩條信息進(jìn)行匹配,篩選精確度高了很多,得到的篩選條目從數(shù)千條降低到了數(shù)十條,解決了現(xiàn)有技術(shù)的文本匹配的方法匹配結(jié)果不精確的問題。附圖說明此處所說明的附圖用來提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本申請(qǐng)的示意性實(shí)施例及其說明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中:圖1是本申請(qǐng)實(shí)施例的一種計(jì)算機(jī)終端的示意圖;圖2是根據(jù)本申請(qǐng)實(shí)施例的文本匹配方法的流程圖;圖3是根據(jù)本申請(qǐng)實(shí)施例的一種可選的文本匹配方法的流程圖;圖4是根據(jù)本申請(qǐng)實(shí)施例的另一種可選的文本匹配方法的流程圖;圖5是根據(jù)本申請(qǐng)實(shí)施例的再一種可選的文本匹配方法的流程圖;圖6是根據(jù)本申請(qǐng)實(shí)施例的文本匹配裝置的示意圖;圖7是根據(jù)本申請(qǐng)實(shí)施例的一種計(jì)算機(jī)終端的結(jié)構(gòu)框圖。具體實(shí)施方式為了使本
技術(shù)領(lǐng)域
的人員更好地理解本申請(qǐng)方案,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分的實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請(qǐng)保護(hù)的范圍。需要說明的是,本申請(qǐng)的說明書和權(quán)利要求書及上述附圖中的術(shù)語(yǔ)“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本申請(qǐng)的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語(yǔ)“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。實(shí)施例1根據(jù)本申請(qǐng)實(shí)施例,還提供了一種文本匹配的方法實(shí)施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟??蛇x地,在本實(shí)施例中,上述文本匹配方法可以應(yīng)用于如圖1所示的終端10和服務(wù)器30所構(gòu)成的硬件環(huán)境中,終端可以與服務(wù)器通過網(wǎng)絡(luò)建立連接。上述網(wǎng)絡(luò)包括但不限于:廣域網(wǎng)、城域網(wǎng)或局域網(wǎng)。優(yōu)選地,上述的網(wǎng)絡(luò)為局域網(wǎng)。根據(jù)本申請(qǐng)實(shí)施例,提供了一種文本匹配方法,如圖2所示,該方法可以包括如下步驟:步驟S201:獲取多個(gè)待處理文本中各個(gè)待處理文本的至少兩條詞語(yǔ)屬性信息,其中,多個(gè)待處理文本至少包括待匹配文本和文本庫(kù)中的多個(gè)預(yù)存文本。其中,每條詞語(yǔ)屬性信息用于記錄待處理文本所包含的一個(gè)詞語(yǔ)與待處理文本的索引關(guān)系。步驟S203:從多個(gè)預(yù)存文本的詞語(yǔ)屬性信息中,提取與待匹配文本的詞語(yǔ)屬性信息對(duì)應(yīng)的詞語(yǔ)屬性信息。步驟S205:基于提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系,確定多個(gè)預(yù)存文本中與待匹配文本匹配的匹配文本。其中,待匹配文本與匹配文本的詞語(yǔ)屬性信息全部或部分匹配。采用本申請(qǐng)上述實(shí)施例,使用待匹配文本包含的至少兩個(gè)詞表示一個(gè)文本的特征,其中,每個(gè)詞用一個(gè)詞語(yǔ)屬性信息表示,在通過多個(gè)文本與待匹配文本進(jìn)行匹配時(shí),從多個(gè)文本的大量的詞語(yǔ)屬性信息中,分別提取與該待匹配文本的各條詞語(yǔ)屬性信息匹配的信息,并基于該提取到的信息確定與該待匹配文本相匹配的文本。在現(xiàn)有技術(shù)中每個(gè)文本的特征用一個(gè)詞的信息表示,如果該預(yù)存文本的信息與待匹配文本的信息相匹配,則認(rèn)為該預(yù)存文本與待匹配文本相匹配,得到匹配條目一般為數(shù)千條,;而本申請(qǐng)至少用兩個(gè)詞代表一個(gè)文本的特征,在進(jìn)行信息匹配時(shí),使用至少兩條信息進(jìn)行匹配,篩選精確度高了很多,得到的篩選條目從數(shù)千條降低到了數(shù)十條,解決了現(xiàn)有技術(shù)的文本匹配的方法匹配結(jié)果不精確的問題。上述實(shí)施例中,每條詞語(yǔ)屬性信息用于記錄待處理文本所包含的一個(gè)詞語(yǔ)與待處理文本的索引關(guān)系。下面結(jié)合圖3詳述上述實(shí)施例,如圖3所示該申請(qǐng)可以通過如下步驟實(shí)現(xiàn):步驟S301:獲取待匹配文本的至少兩條詞語(yǔ)屬性信息。其中,待匹配文本可以為用戶輸入的待匹配文本,可以是文本庫(kù)中預(yù)存的文本,本申請(qǐng)對(duì)待匹配文本的來源不做限定。步驟S302:獲取文本庫(kù)中各個(gè)預(yù)存文本的至少兩條詞語(yǔ)屬性信息。上述步驟S301和步驟S302的實(shí)現(xiàn)方法與上述步驟S201的實(shí)現(xiàn)方法一致,不同之處在于操作對(duì)象不同。其中,該申請(qǐng)中的文本庫(kù)中的各個(gè)預(yù)存文本可以為文本庫(kù)中預(yù)先存儲(chǔ)的多個(gè)樣本。步驟S303:從多個(gè)預(yù)存文本的詞語(yǔ)屬性信息中,提取與待匹配文本的詞語(yǔ)屬性信息對(duì)應(yīng)的詞語(yǔ)屬性信息。步驟S304:基于提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系,確定多個(gè)預(yù)存文本中與待匹配文本匹配的匹配文本。通過上述實(shí)施例,可以在海量的文本庫(kù)中篩選出相似度較高的文本。上述實(shí)施例中的文本可以為:較長(zhǎng)的文本,如大于500M的文本。上述的獲取多個(gè)待處理文本中各個(gè)待處理文本的至少兩條詞語(yǔ)屬性信息可以為至少10個(gè)或至少20個(gè)詞語(yǔ)的詞語(yǔ)屬性信息。根據(jù)本申請(qǐng)的上述實(shí)施例,基于提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系,確定多個(gè)預(yù)存文本中與待匹配文本匹配的文本包括:基于提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系,統(tǒng)計(jì)各個(gè)預(yù)存文本的詞語(yǔ)屬性信息數(shù)量;若預(yù)存文本的詞語(yǔ)屬性信息數(shù)量達(dá)到預(yù)設(shè)閾值,則確定該預(yù)存文本為待匹配文本的候選匹配文本;將確定的多個(gè)候選匹配文本,分別與待匹配文本進(jìn)行余弦匹配操作,得到多個(gè)預(yù)存文本中與待匹配文本匹配的匹配文本??蛇x地,從多個(gè)預(yù)存文本的詞語(yǔ)屬性信息中,提取與待匹配文本的詞語(yǔ)屬性信息對(duì)應(yīng)的詞語(yǔ)屬性信息之后,統(tǒng)計(jì)每個(gè)預(yù)存文本的詞語(yǔ)屬性信息,如果某個(gè)預(yù)存文本的詞語(yǔ)屬性信息達(dá)到預(yù)設(shè)閾值,則該預(yù)存文本為該待匹配文本的候選匹配文本,通過該方案可以找到待匹配文本的一個(gè)或多個(gè)候選匹配樣本。該預(yù)設(shè)閾值小于或等于步驟S201獲取到的詞語(yǔ)屬性信息的數(shù)量。通過上述實(shí)施例,可以通過文本包含的多個(gè)詞語(yǔ)的詞語(yǔ)屬性信息表示該文本,如果兩個(gè)文本的該多個(gè)詞語(yǔ)的部分或全部詞語(yǔ)的詞語(yǔ)屬性信息能匹配成功,則確定該兩個(gè)文本為相匹配的文本,用多個(gè)詞語(yǔ)信息表示一個(gè)文本,得到的候選匹配文本數(shù)量大大減小,從而在做余弦匹配時(shí)大大減小了計(jì)算量,且提高了匹配的精確度。下面結(jié)合圖4詳述上述實(shí)施例,如圖4所示該實(shí)施例可以通過如下步驟實(shí)現(xiàn):步驟S401:獲取待匹配文本至少兩條詞語(yǔ)屬性信息。每條詞語(yǔ)屬性信息中可以記錄該待匹配文本中一個(gè)詞語(yǔ)的詞語(yǔ)屬性與該待匹配文本的索引關(guān)系,該詞語(yǔ)屬性可以為該詞語(yǔ)的哈希值。步驟S402:獲取文本庫(kù)中各個(gè)預(yù)存文本的至少兩條詞語(yǔ)屬性信息。上述步驟S401和步驟S402的實(shí)現(xiàn)方法與上述步驟S201的實(shí)現(xiàn)方法一致,不同之處在于操作對(duì)象不同。步驟S403:從多個(gè)預(yù)存文本的詞語(yǔ)屬性信息中,提取與待匹配文本的詞語(yǔ)屬性信息對(duì)應(yīng)的詞語(yǔ)屬性信息。步驟S404:基于提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系,統(tǒng)計(jì)每個(gè)預(yù)存文本的詞語(yǔ)屬性信息數(shù)量。步驟S405:若預(yù)存文本的詞語(yǔ)屬性信息數(shù)量達(dá)到預(yù)設(shè)閾值,則確定該預(yù)存文本為待匹配文本的候選匹配文本。步驟S406:將確定的多個(gè)候選匹配文本,分別與待匹配文本進(jìn)行余弦匹配操作,得到多個(gè)預(yù)存文本中與待匹配文本匹配的文本。具體地,可以分別計(jì)算每個(gè)候選匹配文本與待匹配文本的余弦距離,距離最短的文本為匹配文本??蛇x地,可以計(jì)算候選匹配文本中的詞語(yǔ)和待匹配文本中的詞語(yǔ)的余弦距離,計(jì)算候選匹配文本中所有詞的余弦距離的加權(quán)值,將該加權(quán)值作為該候選匹配文本與待匹配文本的余弦距離。根據(jù)本申請(qǐng)的上述實(shí)施例,基于提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系,統(tǒng)計(jì)各個(gè)預(yù)存文本的詞語(yǔ)屬性信息數(shù)量包括:從提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系中,獲取提取到的詞語(yǔ)屬性信息中的文本標(biāo)識(shí),其中,同樣的文本標(biāo)識(shí)用于表示同樣的預(yù)存文本;統(tǒng)計(jì)各個(gè)文本標(biāo)識(shí)的數(shù)量,將文本標(biāo)識(shí)的數(shù)量作為文本標(biāo)識(shí)所表示的預(yù)存文本的詞語(yǔ)屬性信息數(shù)量。其中,索引關(guān)系用于記錄一個(gè)詞語(yǔ)的詞語(yǔ)屬性(如哈希值)與預(yù)存文本的文本標(biāo)識(shí)的對(duì)應(yīng)關(guān)系。下面結(jié)合表1詳述本申請(qǐng)上述實(shí)施例,表1示出了一個(gè)可選的實(shí)施例中提取到的詞語(yǔ)屬性信息所記錄的詞語(yǔ)的信息和文本標(biāo)識(shí):表1詞語(yǔ)屬性信息記錄的詞語(yǔ)屬性詞語(yǔ)屬性信息記錄的文本標(biāo)識(shí)10101A11101A10111A10111B11101C10101B10101D10111E10111F10101G10111H表1示出的實(shí)施例中,詞語(yǔ)屬性用二進(jìn)制的字符串表示,該實(shí)施例中通過步驟S201獲取了每個(gè)文本包含的三個(gè)詞語(yǔ)的詞語(yǔ)屬性信息,對(duì)于待匹配文本來說,該三個(gè)詞語(yǔ)為:10101、10111和11101。通過該表1中對(duì)應(yīng)同一個(gè)文本標(biāo)識(shí)的數(shù)量,得到:A表示的預(yù)存文本的詞語(yǔ)屬性信息數(shù)量為3,B表示的文本的詞語(yǔ)屬性信息的數(shù)量為2,C、D、E、F、G和H所表示的預(yù)存文本的詞語(yǔ)屬性信息數(shù)量分別為1。若上述實(shí)施例中的預(yù)設(shè)閾值設(shè)置為2,則確定A和B所表示的預(yù)存文本為候選匹配文本,分別計(jì)算兩個(gè)文本與待匹配文本的詞語(yǔ)的余弦距離,誰(shuí)距離短確定誰(shuí)為與待匹配文本匹配的匹配文本。根據(jù)本申請(qǐng)的上述實(shí)施例,獲取多個(gè)待處理文本中各個(gè)待處理文本的至少兩條詞語(yǔ)屬性信息可以包括:對(duì)待處理文本進(jìn)行分詞操作,得到待處理文本的多個(gè)詞語(yǔ);計(jì)算待處理文本所包含的各個(gè)詞語(yǔ)的哈希值;從獲取的哈希值中,提取N個(gè)哈希值,其中,N為大于等于2的自然數(shù);保存提取的各個(gè)哈希值與待處理文本的文本標(biāo)識(shí)的索引關(guān)系,生成待處理文本的N條詞語(yǔ)屬性信息。具體地,從獲取的哈希值中,提取N個(gè)哈希值包括:從獲取的哈希值中,提取前N個(gè)數(shù)值小的哈希值;或從獲取的哈希值中,提取數(shù)值小于預(yù)設(shè)數(shù)值的N個(gè)哈希值;或確定N個(gè)哈希值的哈希序列,其中,哈希序列中的哈希值按照數(shù)值從大到小排列;從哈希序列中提取排序在前N位的哈希值??蛇x地,從多個(gè)預(yù)存文本的詞語(yǔ)屬性信息中,提取與待匹配文本的詞語(yǔ)屬性信息對(duì)應(yīng)的詞語(yǔ)屬性信息可以包括:從多個(gè)預(yù)存文本的詞語(yǔ)屬性信息中,提取哈希值數(shù)值與待匹配文本的任一條詞語(yǔ)屬性信息中哈希值數(shù)值相同的詞語(yǔ)屬性信息。下面以相似文本匹配系統(tǒng)shadow為應(yīng)用場(chǎng)景結(jié)合圖5詳述上述實(shí)施例。如圖5所示,在獲取到用戶給的待匹配文本之后,執(zhí)行步驟S501:分別對(duì)文本庫(kù)中的所有樣本(即上述實(shí)施例中的預(yù)存文本)和待匹配文本建立索引。具體地,對(duì)文本庫(kù)中的所有樣本建立索引可以通過步驟S502和步驟S503實(shí)現(xiàn):步驟S502:對(duì)每個(gè)文本進(jìn)行分詞,并對(duì)每個(gè)詞計(jì)算一個(gè)hash值。步驟S503:基于多個(gè)哈希值計(jì)算索引。具體地,找出所有詞對(duì)應(yīng)hash詞中的最小值,用這個(gè)hash最小值建立對(duì)該文本的索引,即以minHash(即哈希值)為key(可以稱之為鍵),textID(即上述的文本標(biāo)識(shí))為value(可以稱之為值)存入multiMap(映射圖表),并將multiMap放在內(nèi)存中。對(duì)用戶給出的待匹配文本同樣進(jìn)行上述處理,以創(chuàng)建待匹配文本的處理。步驟S504:通過索引獲取候選匹配文本。具體地,用這個(gè)待匹配文本的索引去索引出textID的集合(即提取到的詞語(yǔ)屬性信息的集合)。步驟S505:逐一候選匹配文本的分值,得到匹配文本。具體地,將這些textID的集合中ID的原文本取出來,進(jìn)行精確的余弦匹配,找出相似度最高的文本。在上述實(shí)施例中,由于如果對(duì)樣本庫(kù)中每個(gè)樣本去一一匹配,那樣對(duì)空間和時(shí)間的造成的壓力太大。因此這個(gè)匹配過程可以概括為兩個(gè)步驟,第一步(即上述的步驟S501至步驟S504)通過局部敏感哈希算法篩選出一部分相似度較高候選樣本;第二步(即上述的步驟S505)從這些樣本中精確匹配找出最相似的樣本。上述實(shí)施例中,通過多值hash算法可以篩選出高相似度樣本。下面結(jié)合表2和表3詳述本申請(qǐng)實(shí)施例。通過本申請(qǐng)的上述實(shí)施例,可以分別獲取兩個(gè)文本的哈希值最小的20個(gè)詞的詞語(yǔ)屬性信息,如果這20個(gè)詞中有9(即上述的預(yù)設(shè)閾值)個(gè)詞相似,則認(rèn)為是相似度高的文本,這樣用多個(gè)值來代表一個(gè)文本的特征。具體地:對(duì)文本庫(kù)中預(yù)存的每個(gè)文本取哈希值最小的20個(gè)詞的哈希值,該20個(gè)哈希值(即上述的N個(gè)哈希值)可以為:minhash1,minhash2…minhash20,獲取這20個(gè)哈希值與該預(yù)存文本的索引關(guān)系(該索引關(guān)系可以記錄詞語(yǔ)的哈希值與文本標(biāo)識(shí)的對(duì)應(yīng)關(guān)系)生成詞語(yǔ)屬性信息:<minhash1,ID>,<minhash2,ID>,<minhash3,ID>……<minhash20,ID>,將該預(yù)存文本的20個(gè)詞語(yǔ)的詞語(yǔ)屬性信息同時(shí)加入Map中。對(duì)用戶進(jìn)來的文本(如上述的待匹配文本)同樣獲取20小的哈希值,并對(duì)每個(gè)哈希值都從map中取出與該哈希值的數(shù)值相同的索引關(guān)系所記錄的文本ID,這樣可以得到該待匹配文本的20個(gè)哈希值對(duì)應(yīng)的20個(gè)ID表,將這20個(gè)ID表合到一個(gè)大表格中,對(duì)重復(fù)出現(xiàn)次數(shù)超過9次的文本ID,取出作為初篩出來的候選匹配文本的ID。在本申請(qǐng)的上述實(shí)施例中,對(duì)于低相似度的文本選取的概率越低越好,對(duì)于高相似度的文本選取概率越高越好,這樣才能保證高精確度,低索引條目。因此,用文本的相似度和對(duì)應(yīng)被選取的概率作為指標(biāo),可以來檢驗(yàn)上述方法的精確度效果:假設(shè)A文本中的詞在B文本中出現(xiàn)的概率為p1,即B文本中的詞在A文本出現(xiàn)的概率為p2,即則兩個(gè)文本最小的20個(gè)hash值有至少9個(gè)相同的充要條件是:A文本的最小的20個(gè)hash值有至少9個(gè)出現(xiàn)在B文本中,且B文本最小的20個(gè)hash值有至少9個(gè)出現(xiàn)在A文本中??芍獌蓚€(gè)文本在一個(gè)hash值下相似的概率為再用三個(gè)hash值篩選出的結(jié)果取并,則兩個(gè)文本最終被認(rèn)為相似的概率為:P=1-(1-P1)3為了讓分析起來更簡(jiǎn)便和直觀,假設(shè)p1等于p2,則根據(jù)上述公式,將三個(gè)hash值取并算在一起得出如表2所示:表2其中相似度即代表為p1和p2的值,參數(shù)則是三個(gè)哈希值取并的參數(shù),表格中所有百分比的數(shù)據(jù)用于表示對(duì)應(yīng)該參數(shù)和該相似度的文本被選取的概率。從表1可以看到,最終即使相似度在30%,被選取的概率也是很低,而在相似度在70%以上,基本上不會(huì)出現(xiàn)被遺漏的情況。進(jìn)一步地,從提取到的詞語(yǔ)屬性信息的數(shù)量(如索引數(shù)量)上看,可以從表3得出直觀的效果:表3應(yīng)用場(chǎng)景現(xiàn)有技術(shù)本申請(qǐng)aliyunUrlAudit-black920.4678135.5527426aliyunUrlAudit-white1791.37474531.827333aliyunUrlAudit-white28387.2987367.360169其中,第一列示出了長(zhǎng)文本所在的不同應(yīng)用場(chǎng)景,第二列示出了用現(xiàn)有技術(shù)中的哈希算法時(shí)平均獲取到的索引數(shù)量,第三列則是通過本申請(qǐng)上述實(shí)施例獲取到的索引數(shù)量,從表3中可以看到提取到的索引數(shù)量上減少明顯,在準(zhǔn)確率上也有提升。通過本申請(qǐng)的上述實(shí)施例用多個(gè)key值來指向同一個(gè)文本,然后用部分匹配來匹配不同的文本,例如選最小的15個(gè),比較其中至少7個(gè)相同,可以得到精確的候選匹配文本,并進(jìn)而得到準(zhǔn)確的文本。本實(shí)施例中所提供的各個(gè)模塊與方法實(shí)施例對(duì)應(yīng)步驟所提供的使用方法相同、應(yīng)用場(chǎng)景也可以相同。當(dāng)然,需要注意的是,上述模塊涉及的方案可以不限于上述實(shí)施例中的內(nèi)容和場(chǎng)景,且上述模塊可以運(yùn)行在計(jì)算機(jī)終端或移動(dòng)終端,可以通過軟件或硬件實(shí)現(xiàn)。需要說明的是,對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本申請(qǐng)并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本申請(qǐng),某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本申請(qǐng)所必須的。通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到根據(jù)上述實(shí)施例的方法可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本申請(qǐng)的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)(如ROM/RAM、磁碟、光盤)中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例所述的方法。實(shí)施例2根據(jù)本申請(qǐng)實(shí)施例,還提供了一種文本匹配裝置,如圖6所示,該處理裝置可以包括:獲取單元20、提取單元40以及匹配單元60。其中,獲取單元,用于獲取多個(gè)待處理文本中各個(gè)待處理文本的至少兩條詞語(yǔ)屬性信息,其中,多個(gè)待處理文本至少包括待匹配文本和文本庫(kù)中的多個(gè)預(yù)存文本,每條詞語(yǔ)屬性信息用于記錄待處理文本所包含的一個(gè)詞語(yǔ)與待處理文本的索引關(guān)系。提取單元,用于從多個(gè)預(yù)存文本的詞語(yǔ)屬性信息中,提取與待匹配文本的詞語(yǔ)屬性信息對(duì)應(yīng)的詞語(yǔ)屬性信息。匹配單元,用于基于提取到的詞語(yǔ)屬性信息中記錄的索引信息,確定多個(gè)預(yù)存文本中與待匹配文本匹配的匹配文本。其中,待匹配文本與匹配文本的詞語(yǔ)屬性信息全部或部分匹配。采用本申請(qǐng)上述實(shí)施例,使用待匹配文本包含的至少兩個(gè)詞表示一個(gè)文本的特征,其中,每個(gè)詞用一個(gè)詞語(yǔ)屬性信息表示,在通過多個(gè)文本與待匹配文本進(jìn)行匹配時(shí),從多個(gè)文本的大量的詞語(yǔ)屬性信息中,分別提取與該待匹配文本的各條詞語(yǔ)屬性信息匹配的信息,并基于該提取到的信息確定與該待匹配文本相匹配的文本。在現(xiàn)有技術(shù)中每個(gè)文本的特征用一個(gè)詞的信息表示,如果該預(yù)存文本的信息與待匹配文本的信息相匹配,則認(rèn)為該預(yù)存文本與待匹配文本相匹配,得到匹配條目一般為數(shù)千條,;而本申請(qǐng)至少用兩個(gè)詞代表一個(gè)文本的特征,在進(jìn)行信息匹配時(shí),使用至少兩條信息進(jìn)行匹配,篩選精確度高了很多,得到的篩選條目從數(shù)千條降低到了數(shù)十條,解決了現(xiàn)有技術(shù)的文本匹配的方法匹配結(jié)果不精確的問題。上述實(shí)施例中,每條詞語(yǔ)屬性信息用于記錄待處理文本所包含的一個(gè)詞語(yǔ)與待處理文本的索引關(guān)系。其中,待匹配文本可以為用戶輸入的待匹配文本,可以是文本庫(kù)中預(yù)存的文本,本申請(qǐng)對(duì)待匹配文本的來源不做限定;該申請(qǐng)中的文本庫(kù)中的各個(gè)預(yù)存文本可以為文本庫(kù)中預(yù)先存儲(chǔ)的多個(gè)樣本。在上述實(shí)施例中,匹配單元可以包括:統(tǒng)計(jì)模塊,用于基于提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系,統(tǒng)計(jì)各個(gè)預(yù)存文本的詞語(yǔ)屬性信息數(shù)量;確定模塊,用于若預(yù)存文本的詞語(yǔ)屬性信息數(shù)量達(dá)到預(yù)設(shè)閾值,則確定該預(yù)存文本為待匹配文本的候選匹配文本;匹配模塊,用于將確定的多個(gè)候選匹配文本,分別與待匹配文本進(jìn)行余弦匹配操作,得到多個(gè)預(yù)存文本中與待匹配文本匹配的匹配文本。通過上述實(shí)施例,可以通過文本包含的多個(gè)詞語(yǔ)的詞語(yǔ)屬性信息表示該文本,如果兩個(gè)文本的該多個(gè)詞語(yǔ)的部分或全部詞語(yǔ)的詞語(yǔ)屬性信息能匹配成功,則確定該兩個(gè)文本為相匹配的文本,用多個(gè)詞語(yǔ)信息表示一個(gè)文本,得到的候選匹配文本數(shù)量大大減小,從而在做余弦匹配時(shí)大大減小了計(jì)算量,且提高了匹配的精確度??蛇x地,統(tǒng)計(jì)模塊可以包括:獲取子模塊,用于從提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系中,獲取文本標(biāo)識(shí),其中,同樣的文本標(biāo)識(shí)用于表示同樣的預(yù)存文本,索引關(guān)系用于記錄一個(gè)詞語(yǔ)的屬性信息與預(yù)存文本的文本標(biāo)識(shí)的對(duì)應(yīng)關(guān)系;統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)各個(gè)文本標(biāo)識(shí)的數(shù)量,將文本標(biāo)識(shí)的數(shù)量作為文本標(biāo)識(shí)所表示的預(yù)存文本的詞語(yǔ)屬性信息數(shù)量。可選地,可以計(jì)算候選匹配文本中的詞語(yǔ)和待匹配文本中的詞語(yǔ)的余弦距離,計(jì)算候選匹配文本中所有詞的余弦距離的加權(quán)值,將該加權(quán)值作為該候選匹配文本與待匹配文本的余弦距離。根據(jù)本申請(qǐng)的上述實(shí)施例,獲取單元可以包括:分詞操作模塊,用于對(duì)待處理文本進(jìn)行分詞操作,得到待處理文本的多個(gè)詞語(yǔ);哈希值計(jì)算模塊,用于計(jì)算待處理文本所包含的各個(gè)詞語(yǔ)的哈希值;哈希值提取模塊,用于從獲取的哈希值中,提取N個(gè)哈希值,其中,N為大于等于2的自然數(shù);生成模塊,用于保存提取的各個(gè)哈希值與待處理文本的文本標(biāo)識(shí)的索引關(guān)系,生成待處理文本的N條詞語(yǔ)屬性信息。具體地,哈希值提取模塊包括:第一提取子模塊,用于從獲取的哈希值中,提取前N個(gè)數(shù)值小的哈希值;或第二提取子模塊,用于從獲取的哈希值中,提取數(shù)值小于預(yù)設(shè)數(shù)值的N個(gè)哈希值;或第三提取子模塊,用于確定N個(gè)哈希值的哈希序列,其中,哈希序列中的哈希值按照數(shù)值從小到大排列;從哈希序列中提取排序在前N位的哈希值。需要說明的是,提取單元可以包括:信息提取模塊,用于從多個(gè)預(yù)存文本的詞語(yǔ)屬性信息中,提取哈希值數(shù)值與待匹配文本的任一條詞語(yǔ)屬性信息中哈希值數(shù)值相同的詞語(yǔ)屬性信息。本實(shí)施例中所提供的各個(gè)模塊與方法實(shí)施例對(duì)應(yīng)步驟所提供的使用方法相同、應(yīng)用場(chǎng)景也可以相同。當(dāng)然,需要注意的是,上述模塊涉及的方案可以不限于上述實(shí)施例中的內(nèi)容和場(chǎng)景,且上述模塊可以運(yùn)行在計(jì)算機(jī)終端或移動(dòng)終端,可以通過軟件或硬件實(shí)現(xiàn)。實(shí)施例3本申請(qǐng)的實(shí)施例可以提供一種計(jì)算機(jī)終端,該計(jì)算機(jī)終端可以是計(jì)算機(jī)終端群中的任意一個(gè)計(jì)算機(jī)終端設(shè)備??蛇x地,在本實(shí)施例中,上述計(jì)算機(jī)終端也可以替換為移動(dòng)終端等終端設(shè)備??蛇x地,在本實(shí)施例中,上述計(jì)算機(jī)終端可以位于計(jì)算機(jī)網(wǎng)絡(luò)的多個(gè)網(wǎng)絡(luò)設(shè)備中的至少一個(gè)網(wǎng)絡(luò)設(shè)備。可選地,圖7是根據(jù)本申請(qǐng)實(shí)施例的一種計(jì)算機(jī)終端的結(jié)構(gòu)框圖。如圖7所示,該服務(wù)器或終端包括:一個(gè)或多個(gè)(圖中僅示出一個(gè))處理器201、存儲(chǔ)器203、以及傳輸裝置205(如上述實(shí)施例中的發(fā)送裝置),如圖7所示,該終端還可以包括輸入輸出設(shè)備207。其中,存儲(chǔ)器203可用于存儲(chǔ)軟件程序以及模塊,如本申請(qǐng)實(shí)施例中的文本匹配方法對(duì)應(yīng)的程序指令/模塊,處理器通過運(yùn)行存儲(chǔ)在存儲(chǔ)器內(nèi)的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,即實(shí)現(xiàn)上述的文本匹配方法。存儲(chǔ)器可包括高速隨機(jī)存儲(chǔ)器,還可以包括非易失性存儲(chǔ)器,如一個(gè)或者多個(gè)磁性存儲(chǔ)裝置、閃存、或者其他非易失性固態(tài)存儲(chǔ)器。在一些實(shí)例中,存儲(chǔ)器可進(jìn)一步包括相對(duì)于處理器遠(yuǎn)程設(shè)置的存儲(chǔ)器,這些遠(yuǎn)程存儲(chǔ)器可以通過網(wǎng)絡(luò)連接至終端A。上述網(wǎng)絡(luò)的實(shí)例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動(dòng)通信網(wǎng)及其組合。上述的傳輸裝置205用于經(jīng)由一個(gè)網(wǎng)絡(luò)接收或者發(fā)送數(shù)據(jù),還可以用于處理器與存儲(chǔ)器之間的數(shù)據(jù)傳輸。上述的網(wǎng)絡(luò)具體實(shí)例可包括有線網(wǎng)絡(luò)及無(wú)線網(wǎng)絡(luò)。在一個(gè)實(shí)例中,傳輸裝置205包括一個(gè)網(wǎng)絡(luò)適配器(NetworkInterfaceController,NIC),其可通過網(wǎng)線與其他網(wǎng)絡(luò)設(shè)備與路由器相連從而可與互聯(lián)網(wǎng)或局域網(wǎng)進(jìn)行通訊。在一個(gè)實(shí)例中,傳輸裝置205為射頻(RadioFrequency,RF)模塊,其用于通過無(wú)線方式與互聯(lián)網(wǎng)進(jìn)行通訊。其中,具體地,存儲(chǔ)器203用于存儲(chǔ)應(yīng)用程序。處理器可以通過傳輸裝置調(diào)用存儲(chǔ)器存儲(chǔ)的信息及應(yīng)用程序,以執(zhí)行下述步驟:獲取多個(gè)待處理文本中各個(gè)待處理文本的至少兩條詞語(yǔ)屬性信息,其中,該多個(gè)待處理文本至少包括待匹配文本和文本庫(kù)中的多個(gè)預(yù)存文本,每條該詞語(yǔ)屬性信息用于記錄待處理文本所包含的一個(gè)詞語(yǔ)與該待處理文本的索引關(guān)系;從該多個(gè)預(yù)存文本的詞語(yǔ)屬性信息中,提取與該待匹配文本的詞語(yǔ)屬性信息對(duì)應(yīng)的詞語(yǔ)屬性信息;基于提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系,確定該多個(gè)預(yù)存文本中與該待匹配文本匹配的匹配文本??蛇x的,上述處理器還可以執(zhí)行如下步驟:對(duì)該待處理文本進(jìn)行分詞操作,得到該待處理文本的多個(gè)詞語(yǔ);計(jì)算該待處理文本所包含的各個(gè)該詞語(yǔ)的哈希值;從獲取的哈希值中,提取N個(gè)哈希值,其中,N為大于等于2的自然數(shù);保存提取的各個(gè)該哈希值與該待處理文本的文本標(biāo)識(shí)的索引關(guān)系,生成該待處理文本的N條該詞語(yǔ)屬性信息??蛇x的,上述處理器還可以執(zhí)行如下步驟:從獲取的哈希值中,提取前N個(gè)數(shù)值小的哈希值;或從獲取的哈希值中,提取數(shù)值小于預(yù)設(shè)數(shù)值的N個(gè)哈希值;或確定該N個(gè)哈希值的哈希序列,其中,哈希序列中的哈希值按照數(shù)值從小到大排列;從該哈希序列中提取排序在前N位的哈希值??蛇x的,上述處理器還可以執(zhí)行如下步驟:從該多個(gè)預(yù)存文本的詞語(yǔ)屬性信息中,提取哈希值數(shù)值與該待匹配文本的任一條詞語(yǔ)屬性信息中哈希值數(shù)值相同的詞語(yǔ)屬性信息??蛇x的,上述處理器還可以執(zhí)行如下步驟:基于提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系,統(tǒng)計(jì)各個(gè)預(yù)存文本的詞語(yǔ)屬性信息數(shù)量;若預(yù)存文本的詞語(yǔ)屬性信息數(shù)量達(dá)到預(yù)設(shè)閾值,則確定該預(yù)存文本為該待匹配文本的候選匹配文本;將確定的多個(gè)候選匹配文本,分別與該待匹配文本進(jìn)行余弦匹配操作,得到該多個(gè)預(yù)存文本中與該待匹配文本匹配的匹配文本??蛇x的,上述處理器還可以執(zhí)行如下步驟:從該提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系中,獲取文本標(biāo)識(shí),其中,同樣的文本標(biāo)識(shí)用于表示同樣的預(yù)存文本,該索引關(guān)系用于記錄該一個(gè)詞語(yǔ)的屬性信息與預(yù)存文本的文本標(biāo)識(shí)的對(duì)應(yīng)關(guān)系;統(tǒng)計(jì)各個(gè)該文本標(biāo)識(shí)的數(shù)量,將該文本標(biāo)識(shí)的數(shù)量作為該文本標(biāo)識(shí)所表示的預(yù)存文本的詞語(yǔ)屬性信息數(shù)量。采用本申請(qǐng)上述實(shí)施例,使用待匹配文本包含的至少兩個(gè)詞表示一個(gè)文本的特征,其中,每個(gè)詞用一個(gè)詞語(yǔ)屬性信息表示,在通過多個(gè)文本與待匹配文本進(jìn)行匹配時(shí),從多個(gè)文本的大量的詞語(yǔ)屬性信息中,分別提取與該待匹配文本的各條詞語(yǔ)屬性信息匹配的信息,并基于該提取到的信息確定與該待匹配文本相匹配的文本。在現(xiàn)有技術(shù)中每個(gè)文本的特征用一個(gè)詞的信息表示,如果該預(yù)存文本的信息與待匹配文本的信息相匹配,則認(rèn)為該預(yù)存文本與待匹配文本相匹配,得到匹配條目一般為數(shù)千條,;而本申請(qǐng)至少用兩個(gè)詞代表一個(gè)文本的特征,在進(jìn)行信息匹配時(shí),使用至少兩條信息進(jìn)行匹配,篩選精確度高了很多,得到的篩選條目從數(shù)千條降低到了數(shù)十條,解決了現(xiàn)有技術(shù)的文本匹配的方法匹配結(jié)果不精確的問題。本領(lǐng)域普通技術(shù)人員可以理解,圖7所示的結(jié)構(gòu)僅為示意,計(jì)算機(jī)終端也可以是智能手機(jī)(如Android手機(jī)、iOS手機(jī)等)、平板電腦、掌聲電腦以及移動(dòng)互聯(lián)網(wǎng)設(shè)備(MobileInternetDevices,MID)、PAD等終端設(shè)備。圖7其并不對(duì)上述電子裝置的結(jié)構(gòu)造成限定。例如,計(jì)算機(jī)終端10還可包括比圖7中所示更多或者更少的組件(如網(wǎng)絡(luò)接口、顯示裝置等),或者具有與圖7所示不同的配置。本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過程序來指令終端設(shè)備相關(guān)的硬件來完成,該程序可以存儲(chǔ)于一計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介質(zhì)可以包括:閃存盤、只讀存儲(chǔ)器(Read-OnlyMemory,ROM)、隨機(jī)存取器(RandomAccessMemory,RAM)、磁盤或光盤等。實(shí)施例4本申請(qǐng)的實(shí)施例還提供了一種存儲(chǔ)介質(zhì)??蛇x地,在本實(shí)施例中,上述存儲(chǔ)介質(zhì)可以用于保存上述實(shí)施例一所提供的文本匹配方法所執(zhí)行的程序代碼。可選地,在本實(shí)施例中,上述存儲(chǔ)介質(zhì)可以位于計(jì)算機(jī)網(wǎng)絡(luò)中計(jì)算機(jī)終端群中的任意一個(gè)計(jì)算機(jī)終端中,或者位于移動(dòng)終端群中的任意一個(gè)移動(dòng)終端中??蛇x地,在本實(shí)施例中,存儲(chǔ)介質(zhì)被設(shè)置為存儲(chǔ)用于執(zhí)行以下步驟的程序代碼:獲取多個(gè)待處理文本中各個(gè)待處理文本的至少兩條詞語(yǔ)屬性信息,其中,該多個(gè)待處理文本至少包括待匹配文本和文本庫(kù)中的多個(gè)預(yù)存文本,每條該詞語(yǔ)屬性信息用于記錄待處理文本所包含的一個(gè)詞語(yǔ)與該待處理文本的索引關(guān)系;從該多個(gè)預(yù)存文本的詞語(yǔ)屬性信息中,提取與該待匹配文本的詞語(yǔ)屬性信息對(duì)應(yīng)的詞語(yǔ)屬性信息;基于提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系,確定該多個(gè)預(yù)存文本中與該待匹配文本匹配的匹配文本??蛇x地,在本實(shí)施例中,存儲(chǔ)介質(zhì)被設(shè)置為存儲(chǔ)用于執(zhí)行以下步驟的程序代碼:對(duì)該待處理文本進(jìn)行分詞操作,得到該待處理文本的多個(gè)詞語(yǔ);計(jì)算該待處理文本所包含的各個(gè)該詞語(yǔ)的哈希值;從獲取的哈希值中,提取N個(gè)哈希值,其中,N為大于等于2的自然數(shù);保存提取的各個(gè)該哈希值與該待處理文本的文本標(biāo)識(shí)的索引關(guān)系,生成該待處理文本的N條該詞語(yǔ)屬性信息??蛇x地,在本實(shí)施例中,存儲(chǔ)介質(zhì)被設(shè)置為存儲(chǔ)用于執(zhí)行以下步驟的程序代碼:從獲取的哈希值中,提取前N個(gè)數(shù)值小的哈希值;或從獲取的哈希值中,提取數(shù)值小于預(yù)設(shè)數(shù)值的N個(gè)哈希值;或確定該N個(gè)哈希值的哈希序列,其中,哈希序列中的哈希值按照數(shù)值從小到大排列;從該哈希序列中提取排序在前N位的哈希值。可選地,在本實(shí)施例中,存儲(chǔ)介質(zhì)被設(shè)置為存儲(chǔ)用于執(zhí)行以下步驟的程序代碼:從該多個(gè)預(yù)存文本的詞語(yǔ)屬性信息中,提取哈希值數(shù)值與該待匹配文本的任一條詞語(yǔ)屬性信息中哈希值數(shù)值相同的詞語(yǔ)屬性信息??蛇x地,在本實(shí)施例中,存儲(chǔ)介質(zhì)被設(shè)置為存儲(chǔ)用于執(zhí)行以下步驟的程序代碼:基于提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系,統(tǒng)計(jì)各個(gè)預(yù)存文本的詞語(yǔ)屬性信息數(shù)量;若預(yù)存文本的詞語(yǔ)屬性信息數(shù)量達(dá)到預(yù)設(shè)閾值,則確定該預(yù)存文本為該待匹配文本的候選匹配文本;將確定的多個(gè)候選匹配文本,分別與該待匹配文本進(jìn)行余弦匹配操作,得到該多個(gè)預(yù)存文本中與該待匹配文本匹配的匹配文本。可選地,在本實(shí)施例中,存儲(chǔ)介質(zhì)被設(shè)置為存儲(chǔ)用于執(zhí)行以下步驟的程序代碼:從該提取到的詞語(yǔ)屬性信息中記錄的索引關(guān)系中,獲取文本標(biāo)識(shí),其中,同樣的文本標(biāo)識(shí)用于表示同樣的預(yù)存文本,該索引關(guān)系用于記錄該一個(gè)詞語(yǔ)的屬性信息與預(yù)存文本的文本標(biāo)識(shí)的對(duì)應(yīng)關(guān)系;統(tǒng)計(jì)各個(gè)該文本標(biāo)識(shí)的數(shù)量,將該文本標(biāo)識(shí)的數(shù)量作為該文本標(biāo)識(shí)所表示的預(yù)存文本的詞語(yǔ)屬性信息數(shù)量。采用本申請(qǐng)上述實(shí)施例,使用待匹配文本包含的至少兩個(gè)詞表示一個(gè)文本的特征,其中,每個(gè)詞用一個(gè)詞語(yǔ)屬性信息表示,在通過多個(gè)文本與待匹配文本進(jìn)行匹配時(shí),從多個(gè)文本的大量的詞語(yǔ)屬性信息中,分別提取與該待匹配文本的各條詞語(yǔ)屬性信息匹配的信息,并基于該提取到的信息確定與該待匹配文本相匹配的文本。在現(xiàn)有技術(shù)中每個(gè)文本的特征用一個(gè)詞的信息表示,如果該預(yù)存文本的信息與待匹配文本的信息相匹配,則認(rèn)為該預(yù)存文本與待匹配文本相匹配,得到匹配條目一般為數(shù)千條,;而本申請(qǐng)至少用兩個(gè)詞代表一個(gè)文本的特征,在進(jìn)行信息匹配時(shí),使用至少兩條信息進(jìn)行匹配,篩選精確度高了很多,得到的篩選條目從數(shù)千條降低到了數(shù)十條,解決了現(xiàn)有技術(shù)的文本匹配的方法匹配結(jié)果不精確的問題。上述本申請(qǐng)實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。在本申請(qǐng)的上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的技術(shù)內(nèi)容,可通過其它的方式實(shí)現(xiàn)。其中,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。另外,在本申請(qǐng)各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本申請(qǐng)的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可為個(gè)人計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、只讀存儲(chǔ)器(ROM,Read-OnlyMemory)、隨機(jī)存取存儲(chǔ)器(RAM,RandomAccessMemory)、移動(dòng)硬盤、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。以上所述僅是本申請(qǐng)的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本
技術(shù)領(lǐng)域
的普通技術(shù)人員來說,在不脫離本申請(qǐng)?jiān)淼那疤嵯拢€可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本申請(qǐng)的保護(hù)范圍。當(dāng)前第1頁(yè)1 2 3 
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1