本發(fā)明屬于司法信息檢索
技術(shù)領(lǐng)域:
,特別是涉及一種基于用戶行為特征的司法檢索結(jié)果自動(dòng)學(xué)習(xí)排序方法。
背景技術(shù):
:現(xiàn)有司法領(lǐng)域的類案檢索技術(shù),通常是基于關(guān)鍵詞的全文檢索系統(tǒng),而由于文書內(nèi)容信息龐雜,用戶通過(guò)這種全文檢索系統(tǒng),很難獲取到所需的信息,并且準(zhǔn)確率很低。本發(fā)明意在提供一種新的司法文書檢索方法,以提高檢索效率和檢索的準(zhǔn)確率,繼而適應(yīng)日益龐雜的司法文書檢索需求。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于提供一種基于用戶行為特征的司法檢索結(jié)果自動(dòng)學(xué)習(xí)排序方法,通過(guò)分析用戶檢索的行為,從中提取出特征,實(shí)現(xiàn)檢索引擎的檢索結(jié)果自動(dòng)優(yōu)化,大幅提高檢索效率,解決了現(xiàn)有的基于關(guān)鍵詞的全文檢索系統(tǒng)檢索難度大、準(zhǔn)確率底的問(wèn)題。為解決上述技術(shù)問(wèn)題,本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:本發(fā)明為一種基于用戶行為特征的司法檢索結(jié)果自動(dòng)學(xué)習(xí)排序方法,該方法包括如下步驟:(1)用戶產(chǎn)生查詢需求,并通過(guò)搜索引擎頁(yè)面輸入檢索內(nèi)容,提交查詢;(2)搜索引擎產(chǎn)生檢索結(jié)果并將其輸出至搜索引擎頁(yè)面,用戶通過(guò)搜索引擎頁(yè)面瀏覽檢索結(jié)果;若用戶不點(diǎn)擊檢索結(jié)果,則查詢操作自動(dòng)結(jié)束;若用戶點(diǎn)擊檢索結(jié)果,則執(zhí)行步驟(3);(3)搜索引擎實(shí)時(shí)記錄用戶的行為數(shù)據(jù),繼而搜索引擎根據(jù)行為數(shù)據(jù)提取出行為特征并將其傳送至判決模型,再由判決模型根據(jù)行為特征判定搜索引擎當(dāng)前頁(yè)面內(nèi)容是否有效,若判決模型判定當(dāng)前頁(yè)面內(nèi)容無(wú)效,則放棄當(dāng)前頁(yè)面內(nèi)容;若判決模型判定當(dāng)前頁(yè)面內(nèi)容有效,則執(zhí)行步驟(4);(4)搜索引擎記錄用戶檢索內(nèi)容并形成記錄信息,繼而搜索引擎根據(jù)記錄信息提取出檢索特征并將其傳送至自適應(yīng)模型;(5)搜索引擎訓(xùn)練自適應(yīng)模型并結(jié)合當(dāng)前用戶在步驟(1)中輸入的檢索內(nèi)容,對(duì)檢索結(jié)果進(jìn)行自動(dòng)學(xué)習(xí)排序,然后將排序后的檢索結(jié)果反饋至步驟(2)。進(jìn)一步地,步驟(3)中所述判決模型判決搜索引擎當(dāng)前頁(yè)面內(nèi)容是否有效的公式為:f判決結(jié)果=w1*f用戶停留時(shí)間+w2*f評(píng)論內(nèi)容+w3*f頁(yè)面選取內(nèi)容+w4*f頁(yè)面點(diǎn)擊內(nèi)容+…其中,f判決結(jié)果取值為0和1,f判決結(jié)果取值為0時(shí),則判決模型判定當(dāng)前頁(yè)面內(nèi)容無(wú)效,f判決結(jié)果取值為1時(shí),則判決模型判定當(dāng)前頁(yè)面內(nèi)容有效;f用戶停留時(shí)間為用戶停留時(shí)間提取的特征;f評(píng)論內(nèi)容為評(píng)論內(nèi)容提取的特征;f頁(yè)面選取內(nèi)容為頁(yè)面選取內(nèi)容提取的特征;f頁(yè)面點(diǎn)擊內(nèi)容為用戶頁(yè)面點(diǎn)擊內(nèi)容提取的特征,w1、w2、w3、w4為離線訓(xùn)練的權(quán)重。進(jìn)一步地,步驟(5)中對(duì)檢索結(jié)果進(jìn)行自動(dòng)學(xué)習(xí)排序的方法如下:在步驟(1)與步驟(2)之間,當(dāng)用戶在搜索引擎的檢索框中輸入檢索內(nèi)容并提交查詢后,首先檢索內(nèi)容通過(guò)訓(xùn)練的自適應(yīng)模型進(jìn)行分類,從而查找檢索記錄中是否有相應(yīng)的記錄信息,如果沒(méi)有相應(yīng)的記錄信息,則搜索引擎將該檢索內(nèi)容按照其在搜索引擎中的原始得分進(jìn)行自動(dòng)排序;如果有相應(yīng)的記錄信息,則搜索引擎對(duì)該檢索內(nèi)容的排序得分重新進(jìn)行計(jì)算,檢索內(nèi)容排序得分重新計(jì)算的公式如下:fscore=fsearch+fself-adaption其中,fsearch為檢索內(nèi)容在搜索引擎中的原始得分,fself-adaption為檢索內(nèi)容根據(jù)自適應(yīng)模型計(jì)算的得分,fscore為檢索內(nèi)容重新排序得分;搜索引擎對(duì)檢索內(nèi)容的排序得分重新計(jì)算后,按照檢索內(nèi)容當(dāng)前最新得分輸出檢索結(jié)果,檢索結(jié)果按照得分由多到少自動(dòng)排序,并將排序后的檢索結(jié)果反饋至步驟(2)。進(jìn)一步地,步驟(1)中所述的檢索內(nèi)容包括用戶輸入內(nèi)容、文書編號(hào)、文書主題詞集。進(jìn)一步地,步驟(2)中所述的行為數(shù)據(jù)包括用戶停留時(shí)間、評(píng)論內(nèi)容、頁(yè)面內(nèi)選取內(nèi)容、頁(yè)面內(nèi)點(diǎn)擊內(nèi)容。進(jìn)一步地,步驟(3)中所述的行為特征包括用戶停留時(shí)間提取的特征、評(píng)論內(nèi)容提取的特征、頁(yè)面選取內(nèi)容提取的特征和用戶頁(yè)面點(diǎn)擊內(nèi)容提取的特征;所述的記錄信息包括用戶輸入檢索內(nèi)容、司法文書編號(hào)、司法文書主題詞集。進(jìn)一步地,步驟(4)中所述的檢索特征包括用戶輸入內(nèi)容的特征、文書編號(hào)的特征、文書主題詞集的特征。本發(fā)明具有以下有益效果:本發(fā)明通過(guò)分析用戶檢索的行為,從中提取出用戶的行為特征,繼而根據(jù)行為特征判定搜素引擎當(dāng)前頁(yè)面內(nèi)容是否有效,從而篩選出有效的檢索內(nèi)容,繼而搜索引擎對(duì)有效的檢索內(nèi)容進(jìn)行記錄并訓(xùn)練自適應(yīng)模型,另外根據(jù)自適應(yīng)模型計(jì)算得出檢索內(nèi)容的得分,再結(jié)合搜索引擎中相應(yīng)的檢索內(nèi)容得分對(duì)檢索內(nèi)容進(jìn)行自動(dòng)排序,從而有利于保證用戶通過(guò)該檢索方法優(yōu)先獲得較為合適的檢索內(nèi)容,且該自動(dòng)學(xué)習(xí)排序方法隨著用戶的不斷使用將自適應(yīng)模型進(jìn)行迭代運(yùn)算和優(yōu)化,這樣就有利不斷更新輸出更加適合用戶需求的檢索結(jié)果,從而有利于實(shí)現(xiàn)檢索引擎的檢索結(jié)果自動(dòng)優(yōu)化,大幅提高檢索效率和檢索準(zhǔn)確率。當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。附圖說(shuō)明為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明的一種基于用戶行為特征的司法檢索結(jié)果自動(dòng)學(xué)習(xí)排序方法的總流程圖;圖2為本發(fā)明中檢索內(nèi)容重新排序的流程圖。具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。請(qǐng)參閱圖1所示,本發(fā)明為一種基于用戶行為特征的司法檢索結(jié)果自動(dòng)學(xué)習(xí)排序方法,該方法包括如下步驟:(1)用戶產(chǎn)生查詢需求,并通過(guò)搜索引擎頁(yè)面輸入檢索內(nèi)容,提交查詢;其中檢索內(nèi)容包括用戶輸入內(nèi)容、文書編號(hào)、文書主題詞集;(2)搜索引擎產(chǎn)生檢索結(jié)果并將其輸出至搜索引擎頁(yè)面,用戶通過(guò)搜索引擎頁(yè)面瀏覽檢索結(jié)果,檢索結(jié)果包括司法文書名稱及其編號(hào);用戶若點(diǎn)擊檢索結(jié)果中的某個(gè)司法文書,則執(zhí)行下一步驟(3),用戶若不點(diǎn)擊檢索結(jié)果,則查詢操作自動(dòng)結(jié)束;(3)搜索引擎實(shí)時(shí)記錄用戶的行為數(shù)據(jù),該行為數(shù)據(jù)包括用戶停留時(shí)間、評(píng)論內(nèi)容、頁(yè)面內(nèi)選取內(nèi)容、頁(yè)面內(nèi)點(diǎn)擊內(nèi)容;搜索引擎根據(jù)行為數(shù)據(jù)提取出相應(yīng)的行為特征并將所述行為特征傳送至判決模型,繼而由判決模型根據(jù)行為特征判定搜索引擎當(dāng)前頁(yè)面內(nèi)容是否有效,該判決模型的判決方法如下:f判決結(jié)果=w1*f用戶停留時(shí)間+w2*f評(píng)論內(nèi)容+w3*f頁(yè)面選取內(nèi)容+w4*f頁(yè)面點(diǎn)擊內(nèi)容+…其中,f用戶停留時(shí)間為用戶停留時(shí)間提取的特征;f評(píng)論內(nèi)容為評(píng)論內(nèi)容提取的特征;f頁(yè)面選取內(nèi)容為頁(yè)面選取內(nèi)容提取的特征;f頁(yè)面點(diǎn)擊內(nèi)容為用戶頁(yè)面點(diǎn)擊內(nèi)容提取的特征,w1、w2、w3、w4為離線訓(xùn)練的權(quán)重;其中,其中threshold是常數(shù),根據(jù)數(shù)據(jù)統(tǒng)計(jì)而來(lái);其中,這里需要對(duì)評(píng)論的內(nèi)容進(jìn)行情感識(shí)別,情感識(shí)別的結(jié)果分為正向和負(fù)向;其中,其中threshold是常數(shù),根據(jù)數(shù)據(jù)統(tǒng)計(jì)而來(lái);其中,其中threshold是常數(shù),根據(jù)數(shù)據(jù)統(tǒng)計(jì)而來(lái);當(dāng)f判決結(jié)果取值為0時(shí),即判定當(dāng)前頁(yè)面內(nèi)容無(wú)效,則放棄當(dāng)前頁(yè)面內(nèi)容;f判決結(jié)果取值為1時(shí),即判定當(dāng)前頁(yè)面內(nèi)容有效,則執(zhí)行下一步驟(4),該記錄信息包括用戶輸入檢索內(nèi)容、司法文書編號(hào)、司法文書主題詞集;其中,行為特征包括用戶停留時(shí)間提取的特征、評(píng)論內(nèi)容提取的特征、頁(yè)面選取內(nèi)容提取的特征和用戶頁(yè)面點(diǎn)擊內(nèi)容提取的特征;(4)搜索引擎記錄當(dāng)前用戶的檢索內(nèi)容并形成記錄信息,繼而搜索引擎根據(jù)記錄信息提取檢索特征并將其傳送至自適應(yīng)模型,檢索特征包括用戶輸入內(nèi)容的特征、文書編號(hào)的特征、文書主題詞集的特征;(5)搜索引擎訓(xùn)練自適應(yīng)模型并結(jié)合當(dāng)前用戶在步驟(1)中輸入的檢索內(nèi)容,對(duì)檢索結(jié)果進(jìn)行自動(dòng)學(xué)習(xí)排序,然后將排序后的檢索結(jié)果反饋至步驟(2),其具體排序方法如下:在步驟(1)與步驟(2)之間,即當(dāng)用戶在搜索引擎的檢索框中輸入檢索內(nèi)容并提交查詢后,如圖1結(jié)合圖2所示,首先檢索內(nèi)容通過(guò)訓(xùn)練的自適應(yīng)模型進(jìn)行分類,從而查找檢索記錄是否有相應(yīng)的記錄信息,如果沒(méi)有相應(yīng)的記錄信息,則搜索引擎將該檢索內(nèi)容按照其在搜索引擎中的原始得分進(jìn)行自動(dòng)排序;如果有相應(yīng)的記錄信息,則需要對(duì)該檢索內(nèi)容在搜索引擎中的排序得分進(jìn)行重新計(jì)算,檢索內(nèi)容排序得分重新計(jì)算的公式如下:fscore=fsearch+fself-adaption其中,fsearch為檢索內(nèi)容在搜索引擎中的原始得分,fself-adaption為檢索內(nèi)容根據(jù)自適應(yīng)模型訓(xùn)練計(jì)算得出的得分,fscore為檢索內(nèi)容重新排序得分;檢索內(nèi)容的排序得分重新計(jì)算后,搜索引擎按照檢索內(nèi)容當(dāng)前最新得分輸出檢索結(jié)果,檢索結(jié)果按照得分由多到少自動(dòng)排序,并將排序后的檢索結(jié)果反饋至步驟(2)。其中,搜索引擎訓(xùn)練自適應(yīng)模型的方法是:搜索引擎將經(jīng)過(guò)判決模型判定為有效的檢索內(nèi)容進(jìn)行集合、分類、羅列出來(lái),自適應(yīng)模型的結(jié)構(gòu)包括用戶輸入內(nèi)容、文書編號(hào)、文書主題詞集,自適應(yīng)模型的結(jié)構(gòu)如下表所示:用戶輸入內(nèi)容文書編號(hào)文書主題詞集aaa000b432c5dae11e5bbd9000c29217b49關(guān)鍵詞a、關(guān)鍵詞b、…bbb000ba7615dae11e5bbd9000c29217b49關(guān)鍵詞c、關(guān)鍵詞d、…綜上,搜索引擎為用于司法文書檢索的搜索引擎;用戶輸入內(nèi)容為用戶在搜索引擎檢索框中輸入的內(nèi)容;文書編號(hào)是用戶點(diǎn)擊瀏覽過(guò)且經(jīng)過(guò)步驟(3)判決為具有有效檢索內(nèi)容的司法文書的文書編碼;文書主題詞集,也即與文書相關(guān)聯(lián)的關(guān)鍵詞的集合,是指通過(guò)自然語(yǔ)言理解技術(shù)生成的用于表征與文書編號(hào)相應(yīng)的司法文書的一系列詞,其中自然語(yǔ)言理解技術(shù)是現(xiàn)有技術(shù)。最后需要說(shuō)明的是,以上公開(kāi)的本發(fā)明優(yōu)選實(shí)施例只是用于幫助闡述本發(fā)明。優(yōu)選實(shí)施例并沒(méi)有詳盡敘述所有的細(xì)節(jié),也不限制該發(fā)明僅為所述的具體實(shí)施方式。顯然,根據(jù)本說(shuō)明書的內(nèi)容,可作很多的修改和變化。本說(shuō)明書選取并具體描述這些實(shí)施例,是為了更好地解釋本發(fā)明的原理和實(shí)際應(yīng)用,從而使所屬
技術(shù)領(lǐng)域:
技術(shù)人員能很好地理解和利用本發(fā)明。本發(fā)明僅受權(quán)利要求書及其全部范圍和等效物的限制。當(dāng)前第1頁(yè)12