本發(fā)明屬于數(shù)據(jù)交易中的信息檢索
技術(shù)領(lǐng)域:
,更為具體地講,涉及一種基于數(shù)據(jù)映射的個性化隱私信息檢索方法。
背景技術(shù):
:隨著網(wǎng)絡(luò)信息技術(shù)飛速發(fā)展,各行各業(yè)對數(shù)據(jù)的需求量不斷增長,不論是在學(xué)術(shù)界還是在工業(yè)界都希望可以得到滿足生產(chǎn)和研究的數(shù)據(jù),并且數(shù)據(jù)在人們的生活中扮演著越來越重要的角色。政府部門、商業(yè)組織或研究機構(gòu)等各行業(yè)都需要大量的數(shù)據(jù)輸入來滿足各式各樣的需求,但是數(shù)據(jù)是復(fù)雜的,多變的,因此,各行業(yè)就需要從海量數(shù)據(jù)中搜索有用信息來滿足自身需要。但這樣有可能導(dǎo)致個體查詢內(nèi)容隱私以及查詢方的商業(yè)意圖的泄露,隨之而來的是各種解決私密信息(如日常習(xí)慣、不良歷史、信譽程度、以往病史等)方面的研究,以確保信息的利用在滿足行業(yè)需求的同時能保證個人隱私以及商業(yè)意圖不被泄露。正是這樣的需求使得安全可信的數(shù)據(jù)交易平臺應(yīng)運而生,為用戶提供保護數(shù)據(jù)主體隱私的安全隱私平臺。在各種保護隱私的數(shù)據(jù)檢索模型中最具代表性的是隱私信息檢索保護模型,隱私信息檢索經(jīng)過多年的研究,已經(jīng)形成了相對完善的理論體系。雖然一些方法還存在一定的缺陷,但隨著一些關(guān)鍵問題的解決,隱私信息檢索將越來越多地應(yīng)用到各個領(lǐng)域,許多行業(yè)為了保護數(shù)據(jù)查詢提供方的利益以及查詢方的商業(yè)利益,引入了隱私信息檢索方法。在進入了大數(shù)據(jù)時代之后,各種數(shù)據(jù)不斷融合,各大機構(gòu)都有足夠多的數(shù)據(jù),但是當他們想通過其他機構(gòu)查詢數(shù)據(jù)的時候,他們不想暴露自己的數(shù)據(jù)給數(shù)據(jù)提供方,然而對于此種需求目前行業(yè)內(nèi)并沒有有效的解決方法。技術(shù)實現(xiàn)要素:本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于數(shù)據(jù)映射的個性化隱私信息檢索方法,實現(xiàn)對買方檢索內(nèi)容和意圖隱私的良好保護。為實現(xiàn)上述發(fā)明目的,本發(fā)明基于數(shù)據(jù)映射的個性化隱私信息檢索方法,包括以下步驟:S1:數(shù)據(jù)交易平臺的買賣雙方協(xié)商得到檢索的參照列R;S2:賣方將其數(shù)據(jù)庫中的數(shù)據(jù)記錄進行偽ID編號,對每條數(shù)據(jù)記錄中參照列R的數(shù)據(jù)采用不可逆加密算法進行加密得到參照列數(shù)據(jù)密文,賣方將每條數(shù)據(jù)記錄的偽ID和參照列數(shù)據(jù)密文發(fā)送給買方;S3:買方在自己所要檢索的數(shù)據(jù)中提取參照列R對應(yīng)的數(shù)據(jù),采用與賣方相同的不可逆加密算法進行加密,在所接收到的偽ID和參照列數(shù)據(jù)密文中查詢得到檢索參照列數(shù)據(jù)密文對應(yīng)的偽ID,然后生成(k-1)M個假偽ID,其中k表示買方的隱私要求參數(shù),k>1,M表示買方檢索參照列數(shù)據(jù)個數(shù),將(k-1)M個假偽ID和對檢索參照列數(shù)據(jù)對應(yīng)的偽ID構(gòu)成k匿名集合,發(fā)送給賣方;S4:賣方根據(jù)買方所發(fā)送來的k匿名集合,在其數(shù)據(jù)庫中檢索得到數(shù)據(jù)記錄集,發(fā)送給買方;S5:買方接收到檢索記錄集后根據(jù)其真實檢索參照列數(shù)據(jù)對應(yīng)的偽ID在檢索記錄集中篩選出所需檢索記錄,得到檢索結(jié)果。本發(fā)明基于數(shù)據(jù)映射的個性化隱私信息檢索方法,數(shù)據(jù)交易平臺的買賣雙方協(xié)商得到檢索的參照列,賣方對其數(shù)據(jù)記錄進行偽ID編號進行數(shù)據(jù)映射,并采用不可逆加密算法進行加密得到參照列數(shù)據(jù)密文,一起發(fā)送給買方,買方采用相同的不可逆加密算法獲取查詢參照列數(shù)據(jù)密文,查詢得到對應(yīng)的偽ID,根據(jù)隱私要求參數(shù)k生成(k-1)M個假偽ID,然后將(k-1)M個假偽ID和M個所需檢索數(shù)據(jù)對應(yīng)的偽ID構(gòu)建k匿名集合發(fā)送給賣方,賣方將檢索得到的數(shù)據(jù)記錄集發(fā)送給買方,買方根據(jù)其真實檢索參照列數(shù)據(jù)對應(yīng)的偽ID在檢索記錄集中篩選出所需檢索記錄,得到檢索結(jié)果。采用本發(fā)明可以實現(xiàn)對買方檢索內(nèi)容和意圖隱私的良好保護。附圖說明圖1是本發(fā)明基于數(shù)據(jù)映射的個性化隱私信息檢索方法的具體實施方式流程圖。具體實施方式下面結(jié)合附圖對本發(fā)明的具體實施方式進行描述,以便本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當已知功能和設(shè)計的詳細描述也許會淡化本發(fā)明的主要內(nèi)容時,這些描述在這里將被忽略。實施例圖1是本發(fā)明基于數(shù)據(jù)映射的個性化隱私信息檢索方法的具體實施方式流程圖。如圖1所示,本發(fā)明基于數(shù)據(jù)映射的個性化隱私信息檢索方法的具體步驟包括:S101:買賣雙方協(xié)商檢索參照列:數(shù)據(jù)交易平臺的買賣雙方協(xié)商得到檢索的參照列R,例如身份證號、手機號等。通過這種方式,可以根據(jù)買方的自身需求情況和賣方的數(shù)據(jù)提供情況來確定檢索參照列,從而提供個性化的信息檢索。S102:賣方基于數(shù)據(jù)映射加密數(shù)據(jù):賣方將其數(shù)據(jù)庫中的數(shù)據(jù)記錄進行偽ID編號,對每條數(shù)據(jù)記錄中參照列R的數(shù)據(jù)采用不可逆加密算法進行加密得到參照列數(shù)據(jù)密文,賣方將每條數(shù)據(jù)記錄的偽ID和參照列數(shù)據(jù)密文發(fā)送給買方。偽ID編號就是對數(shù)據(jù)記錄進行統(tǒng)一編號,可以視為對數(shù)據(jù)記錄進行了映射,將每條數(shù)據(jù)記錄以一個偽ID來表示。本實施例中記賣方數(shù)據(jù)庫中的數(shù)據(jù)記錄數(shù)量為N,其偽ID為自然數(shù),那么數(shù)據(jù)記錄的偽ID為0-N-1,然后將偽ID發(fā)送給買方。顯然,偽ID是均勻分布的,這樣就忽略了實際數(shù)據(jù)的分布情況,防止了根據(jù)數(shù)據(jù)分布情況竊取信息的問題。表1是本實施例中賣方所保存數(shù)據(jù)記錄。表1如表1所示,本實施例中賣方保存有1000條數(shù)據(jù)記錄,因此其偽ID為0-999。本發(fā)明中賣方需要對每條數(shù)據(jù)記錄中參照列R的數(shù)據(jù)采用不可逆加密算法進行加密得到參照列數(shù)據(jù)密文,假設(shè)本實施例中選擇的參照列R為PhoneNum,則需要對每個PhoneNum進行加密,不可逆加密算法的特點就是無法根據(jù)密文解密得到原始明文。本實施例中采用SHA(SecureHashAlgorithm,安全散列算法)256加密算法來進行不可逆加密,該算法可以把任何類型的數(shù)據(jù)轉(zhuǎn)換成256位的數(shù)據(jù)摘要,兩個不同的數(shù)據(jù)不會產(chǎn)生同樣的數(shù)據(jù)摘要。以PhoneNum“15955592645”為例,采用SHA256加密算法得到的密文為“3BE481CA29E74A01367CEACA0B5C7F5EE53E9A407D26D4368EDD539541F7B13C”。該密文是不可逆的,不能將此密文轉(zhuǎn)變?yōu)槭謾C號。本發(fā)明中將賣方將每條數(shù)據(jù)記錄的偽ID和參照列數(shù)據(jù)密文發(fā)送給買方,可以有效保證賣方數(shù)據(jù)安全。S103:買方生成查詢集合:買方在自己所要檢索的數(shù)據(jù)中提取參照列R對應(yīng)的數(shù)據(jù),采用與賣方相同的不可逆加密算法進行加密,在所接收到的偽ID和參照列數(shù)據(jù)密文中查詢得到檢索參照列數(shù)據(jù)密文對應(yīng)的偽ID,然后生成(k-1)M個假偽ID,其中k表示買方的隱私要求參數(shù),k>1,M表示買方檢索參照列數(shù)據(jù)個數(shù),將(k-1)M個假偽ID和檢索參照列數(shù)據(jù)對應(yīng)的偽ID構(gòu)成k匿名集合,發(fā)送給賣方。表2是本實施例中買方的檢索參照列數(shù)據(jù)及對應(yīng)偽ID。IdPhoneNum015253592634118753594256218625562646315642592185415955592792表2如表2所示,本實施例中,需要查詢5個數(shù)據(jù),其對應(yīng)的偽ID為0,1,2,3,4。設(shè)置k=2,因此需要生成的假數(shù)據(jù)數(shù)量為5,即生成5個假偽ID,與表1中的年齡數(shù)據(jù)一起構(gòu)成k匿名集合。表3是本實施例中的k匿名集合。Id0810225131054101表3可見,本發(fā)明中買家將其檢索參照列數(shù)據(jù)采用同樣方式進行不可逆加密后,根據(jù)密文來查詢得到偽ID,再生成假偽ID一起構(gòu)成k匿名集合,這樣在傳輸檢索數(shù)據(jù)時,傳輸?shù)牟⒎菣z索參照列數(shù)據(jù),而是偽ID,偽ID數(shù)據(jù)不存在特殊的分布特征或其他數(shù)據(jù)特性,即使被竊取也很難獲取買方的檢索參照列數(shù)據(jù)。并且由于加入了假偽ID,賣方也不會得知買方的真實的檢索內(nèi)容和意圖隱私,加強了對買方的保護。S104:賣方信息檢索與反饋:賣方根據(jù)買方所發(fā)送來的k匿名集合在其數(shù)據(jù)庫中檢索得到數(shù)據(jù)記錄集,并發(fā)送給買方。S105:買方獲取檢索結(jié)果:買方接收到檢索記錄集后,根據(jù)其真實檢索參照列數(shù)據(jù)對應(yīng)的偽ID在檢索記錄集中篩選出所需檢索記錄,得到檢索結(jié)果。根據(jù)以上說明可知,本發(fā)明中買賣雙方通過協(xié)商檢索參照列,來實現(xiàn)個性化信息檢索,在檢索過程中賣方將其數(shù)據(jù)庫中的數(shù)據(jù)記錄進行偽ID編號以實現(xiàn)數(shù)據(jù)映射,然后將參照列數(shù)據(jù)采用不可逆加密算法進行加密,買方對檢索參照列數(shù)據(jù)進行加密,篩選出檢索參照列數(shù)據(jù)密文對應(yīng)的偽ID,發(fā)送給賣方進行檢索,從而解決了隱私信息檢索中對檢索內(nèi)容和意圖隱私保護問題。盡管上面對本發(fā)明說明性的具體實施方式進行了描述,以便于本
技術(shù)領(lǐng)域:
的技術(shù)人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于具體實施方式的范圍,對本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化是顯而易見的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護之列。當前第1頁1 2 3