本發(fā)明涉及生物數據標識符和大數據處理領域,特別涉及一種生物數據的產生標識符的方法及系統(tǒng)。
背景技術:
DOI標識符,是一種數字對象唯一標識符(Digital Object Unique Identifier-DOI)。DOI標識符屬于一套識別數字資源的機制,涵括的對象有視頻、報告或書籍等等。它既有一套為資源命名的機制,也有一套將識別號解析為具體地址的協議,也是云計算背景下最佳的“大數據”樣本存儲和應用技術。
具體地,DOI的體現形式主要包括:二維碼、條形碼、字符碼、網絡域名等,數字對象唯一性,是DOI的典型特征,也是數字時代的“身份證”號碼。DOI標識符由前綴和后綴兩部分組成,之間用“/”分開,并且前綴以“.”再分為兩部分。前綴由國際數字對象識別號基金會確定,后綴部分由資源發(fā)布者自行指定,用于區(qū)分一個單獨的數字資料,具有唯一性。
此外,目前比較成熟、被業(yè)界認可且已進入實用階段的標識符解析系統(tǒng)便是Handle System(以下簡稱Handle系統(tǒng)),該系統(tǒng)最早由美國DARPA資助CNRI機構進行研發(fā),其開發(fā)負責人是被稱為因特網技術先鋒人物、TCP/IP協議制定者之一的羅伯特.卡恩先生(Dr.Robert.Kahn),Handle系統(tǒng)推出以后受到了廣泛的關注和歡迎,目前其相關標準已被IETF接收為RFC文檔。Handle系統(tǒng)是一個通用的分布式名稱服務系統(tǒng),它包括一套開放的系統(tǒng)協議、唯一標識符名稱空間以及協議的參考實現模型,可以以高效、可擴展、可靠的方式提供基于網絡的唯一標識符注冊和解析服務。
Handle系統(tǒng)具有下述的突出特點:1)安全高效的解析和管理機制,具有認證/授權、數據保密、服務驗證、以及隱私保護等功能;2)可以獨立于物理運行環(huán)境,實現對標識符及其屬性的分布式服務和管理。目前,Handle系統(tǒng)可以為數字圖書館、數字出版等應用領域提供一種高效、可擴展、開放的唯一標識符系統(tǒng)。上述的DOI標識符是基于Handle標識符的真子集,Handle標識符是類似IP的一種技術,是TCP/IP發(fā)明的另一項標識符標準。
所謂的生物數據可包含:生物醫(yī)療的實驗器材,毛發(fā),血液樣本等各種類數據。在生物大數據領域,由于生物醫(yī)療數據量很大,相互關系混亂,不便于管理。而數字對象唯一標識符,是云計算背景下最佳的“大數據”樣本存儲和應用技術。
對于大數據的解決方案,目前有以下幾種方式:
中國專利ZL200510112526,一種產生標識符的方法,包括:A、配置ID的取值范圍,根據ID的可用性劃分ID的取值區(qū)間;B、對劃分的取值區(qū)間進行編號,利用隨機函數產生編號數據范圍內的一個隨機數,選擇編號與產生的隨機數相同的取值區(qū)間;判斷所選擇用于產生ID的取值區(qū)間內ID的個數,如果該取值區(qū)間內只有一個ID,則取該ID作為新產生的ID;如果該取值區(qū)間內有一個以上的ID,利用隨機函數產生該取值區(qū)間中ID數目范圍內的一個隨機數,取該取值區(qū)間中與該隨機數對應的ID,更新ID的取值區(qū)間。能夠產生滿足全部數字、唯一、隨機和長度可配置要求的ID。其考慮的僅是通用行業(yè)的標識符產生方法,并沒有考慮行業(yè)特點。
此外,中國專利申請201410487306.4,一種交互信息中DOI的處理方法及裝置,用以提高用戶獲取DOI所標識信息的效率。方法包括:服務器獲取交互信息中的數字對象唯一標識符DOI;對所述DOI進行解析,得到DOI所標識的信息;向客戶端推送DOI所標識的信息,以使得客戶端在信息交互界面展示DOI所標識的信息。
中國專利申請201410838339.9,一種信息展示方法及裝置,該方法包括:監(jiān)測針對DOI的指定操作,當監(jiān)測到針對所述DOI執(zhí)行了指定操作時,展示該DOI對應的概況信息。主要提供一種自動根據對應的資源(比如,音樂文件)去操作(去播放)的標識符。
中國專利申請201410785058.1,一種信息展示方法及裝置,該方法包括:對頁面中的數字對象唯一標識符DOI和其他信息的展示位置進行監(jiān)測,當監(jiān)測到所述其他信息的展示位置與所述DOI的展示位置發(fā)生重疊時,對所述其他信息進行隱藏處理。在本申請中,在掃描DOI的過程中,通過JavaScript來監(jiān)測頁面中DOI的展示位置,若監(jiān)測到頁面中的其他信息遮擋該DOI時,則將其他信息進行隱藏,以使得DOI可以清楚地展示。上述申請如果在顯示的時候被其他資源(比如,文件)擋住了,去自動顯示到前面,從而方便顯示。
標識符至少需要滿足以下的幾種方面功能:
1)方便打印
2)統(tǒng)一與通用
3)可以追溯采集時的狀態(tài)
鑒于上面的技術方案都存在不同的問題,所以有待提出用于管理生物數據標識符的規(guī)范,并且配套提出生成系統(tǒng)。
技術實現要素:
本發(fā)明要解決的技術問題是,提供用于管理生物數據標識符,且能夠規(guī)范生物數據的產生標識符的方法。
解決上述技術問題,一種生物數據的產生標識符的方法,包括如下步驟:
采集生物數據內容,根據設定規(guī)則產生標識符,所述標識符被配置為至少包括:
用以產生國際統(tǒng)一編碼的第一標識,
用以記錄采集來源的第二標識,
用以區(qū)分生物數據分類的第三標識,
用以用來記錄采集時間、生成唯一標識的第四標識,
將上述標識符同步至數據庫。
優(yōu)選地,所述標識符進一步被配置為:
<國際Handle標識符>/<采集機構>.<采集生物數據來源機構性質>.<采集生物數據分類>.<生物名稱>.<生物組織名>.<時間戳>.<三位流水號>
優(yōu)選地,所述第一標識進一步包括:國際統(tǒng)一編碼Handle或者DOI標識符。
優(yōu)選地,所述第二標識進一步包括:采集機構和/或采集生物數據來源機構性質,基于SPREC原理(Standard PREanalytical Code),基于SPREC原理,其也是制定標識符的狀態(tài),但是會把采集狀態(tài)寫到標識符里面。從所述標識符獲取得到生物數據的來源以及對數據進行溯源。
優(yōu)選地,所述第三標識進一步包括:采用統(tǒng)一命名的生物名稱和/或自定義組織名的生物組織名。
優(yōu)選地,所述第四標識進一步包括:用以記錄采集時間時間戳和/或作為唯一標識的流水號。
優(yōu)選地,所述采集生物數據內容的方法為:手動錄入、通過嵌入式芯片采集。
優(yōu)選地,方法還包括按照SMTP、POP3或者HTTP協議發(fā)送至指定郵箱中。
優(yōu)選地,所述采集生物數據內容的端口與數據庫采用socket通訊協議。
基于上述本發(fā)明還提供了一種生物數據的產生標識符的系統(tǒng),其包括:終端、客戶端服務器和服務端服務器,
所述終端被配置為:采集生物數據內容,在所述客戶端服務器根據設定規(guī)則產生標識符,
其中,所述標識符被配置為至少包括:
用以產生國際統(tǒng)一編碼的第一標識,
用以記錄采集來源的第二標識,
用以區(qū)分生物數據分類的第三標識,
用以用來記錄采集時間、生成唯一標識的第四標識,
所述服務端服務器被配置為接收上述標識符
本發(fā)明的有益效果:
1)由于所述標識符被配置為至少包括:用以產生國際統(tǒng)一編碼的第一標識,用以記錄采集來源的第二標識,用以區(qū)分生物數據分類的第三標識,用以用來記錄采集時間、生成唯一標識的第四標識。上述標識符生成的方法,標識符生成了就是唯一的。不僅可以溯源采集過程,還能夠唯一標識采集內容,這樣就對采集過程的狀態(tài)進行記錄。對于大量的生物數據,采用本發(fā)明的這類辦法管理起來訪問很快,相比于比如基于域名的DNS速度快很多。采用本發(fā)明中的標識符,不僅方便打印、統(tǒng)一與通用,同時唯一標識符還可以追溯采集時的狀態(tài),便于大數據的歸一化采集和后期處理。
2)另外,利用handle的前綴,可以全網訪問,handle的全球數據庫:http://hdl.handle.net/。
3)通過嵌入式芯片采集,通過嵌入式硬件移動采集使得采集過程更加便利,采集方式更為便攜。更進一步,用芯片生成標識符可以防止人為誤輸和篡改。
附圖說明
圖1是本發(fā)明中的方法流程示意圖;
圖2是圖1中的標識符結構示意圖;
圖3是圖1中的一種優(yōu)選實施方式示意圖;
圖4是本發(fā)明的系統(tǒng)結構示意圖。
具體實施方式
現在將參考一些示例實施例描述本公開的原理。可以理解,這些實施例僅出于說明并且?guī)椭绢I域的技術人員理解和實施例本公開的目的而描述,而非建議對本公開的范圍的任何限制。在此描述的本公開的內容可以以下文描述的方式之外的各種方式實施。
如本文中所述,術語“包括”及其各種變體可以被理解為開放式術語,其意味著“包括但不限于”。術語“基于”可以被理解為“至少部分地基于”。術語“一個實施例”可以被理解為“至少一個實施例”。術語“另一實施例”可以被理解為“至少一個其它實施例”。
可以理解,在本申請中的socket通訊協議,網絡上的兩個程序通過一個雙向的通信連接實現數據的交換,這個連接的一端稱為一個socket。建立網絡通信連接至少要一對端口號(socket)。首先,服務器監(jiān)聽:是服務器端套接字并不定位具體的客戶端套接字,而是處于等待連接的狀態(tài),實時監(jiān)控網絡狀態(tài)。其次,客戶端請求:是指由客戶端的套接字提出連接請求,要連接的目標是服務器端的套接字。為此,客戶端的套接字必須首先描述它要連接的服務器的套接字,指出服務器端套接字的地址和端口號,然后就向服務器端套接字提出連接請求。最后,連接確認:是指當服務器端套接字監(jiān)聽到或者說接收到客戶端套接字的連接請求,它就響應客戶端套接字的請求,建立一個新的線程,把服務器端套接字的描述發(fā)給客戶端,一旦客戶端確認了此描述,連接就建立好了。而服務器端套接字繼續(xù)處于監(jiān)聽狀態(tài),繼續(xù)接收其他客戶端套接字的連接請求
本申請中的長連接是指,即是要在客戶端與服務器之間創(chuàng)建和保持穩(wěn)定可靠的連接。通常的做法是,在服務器的程序中加入一個死循環(huán),在循環(huán)中監(jiān)測數據的變動。當發(fā)現新數據時,立即將其輸出給瀏覽器并斷開連接,瀏覽器在收到數據后,再次發(fā)起請求以進入下一個周期的長輪詢(long-polling)方式。長連接在頁面里嵌入一個隱蔵iframe,將這個隱蔵iframe的src屬性設為對一個長連接的請求或是采用xhr請求,服務器端就能源源不斷地往客戶端輸入數據。
請參考圖1是本發(fā)明中的方法流程示意圖,實施例中包括如下步驟:步驟S100采集生物數據內容,根據設定規(guī)則產生標識符,所述標識符被配置為至少包括:步驟S101用以產生國際統(tǒng)一編碼的第一標識,作為本實施例中的優(yōu)選,所述第一標識進一步包括:國際統(tǒng)一編碼Handle或者DOI標識符。步驟S102用以記錄采集來源的第二標識,作為本實施例中的優(yōu)選,所述第二標識進一步包括:采集機構和/或采集生物數據來源機構性質,基于SPREC原理,從所述標識符獲取得到生物數據的來源以及對數據進行溯源。步驟S103用以區(qū)分生物數據分類的第三標識,作為本實施例中的優(yōu)選,所述第三標識進一步包括:采用統(tǒng)一命名的生物名稱和/或自定義組織名的生物組織名。步驟S104用以用來記錄采集時間、生成唯一標識的第四標識,作為本實施例中的優(yōu)選,所述第四標識進一步包括:用以記錄采集時間時間戳和/或作為唯一標識的流水號。步驟S105將上述標識符同步至數據庫。
所述Handle是國際標準:基于RFC 3650。比如Handle為,200.500.11926。
Handle系統(tǒng)是一個通用的分布式名稱服務系統(tǒng),包括一套開放的系統(tǒng)協議、唯一標識符名稱空間以及協議的參考實現模型,可以以高效、可擴展、可靠的方式提供基于網絡的唯一標識符注冊和解析服務。
在一些實施例中,.<采集生物數據來源機構性質>包括但不限于:采集的生物數據是否涉及行政審批。
在一些實施例中,<采集生物數據來源機構性質>包括但不限于:采集的生物數據的機構的機構性質。
在一些實施例中,<采集生物數據來源機構性質>包括但不限于:客戶資源類別。
在一些實施例中,<采集生物數據來源機構性質>包括但不限于:
表1
在一些實施例中,<采集生物數據來源機構性質>包括但不限于:內部保留編碼、內部測試編碼、機關、事業(yè)單位、國有企業(yè)、民營上市企業(yè)、民營非上市企業(yè)、自然人。
表2
在一些實施例中,<采集生物數據來源機構性質>包括但不限于:內部保留編碼、內部測試編碼、直接采集、共享采集、委托采集等。
表3
在一些實施例中,<采集生物數據來源機構性質>包括但不限于:內部保留編碼、內部測試編碼、單項生物數據、多項生物數據等。
表4
在一些實施例中,生物名稱采用兼容林奈命名法,生物雙命名法,空格以"_"分割。
在一些實施例中,生物組織名采用自定義組織名,比如,自定義字符串,包含26個英文字母小寫和數字0-9。
在一些實施例中,<時間戳>.<三位流水號>用以記錄采集時間和唯一標識。比如,時間戳YYYY-MM-DD-HH-MM-SS-NN,YYYY:年,MM:月,DD:日,HH:時,MM:分,SS:秒,NN:毫秒。
上述步驟中的優(yōu)選,標識符設置為:<國際Handle標識符>/<采集機構>.<采集生物數據來源機構性質>.<采集生物數據分類>.<生物名稱>.<生物組織名>.<時間戳>.<三位流水號>。
上述步驟中的優(yōu)選,所述采集生物數據內容的方法為:手動錄入、通過嵌入式芯片采集。
上述步驟中的優(yōu)選,方法還包括按照SMTP、POP3或者HTTP協議發(fā)送至指定郵箱中,通過發(fā)送至指定郵箱增加數據同步效率。
上述步驟中的優(yōu)選,所述采集生物數據內容的端口與數據庫采用socket通訊協議。
圖2是圖1中的標識符結構示意圖,上述步驟中的優(yōu)選,標識符設置為:<國際Handle標識符>/<采集機構>.<采集生物數據來源機構性質>.<采集生物數據分類>.<生物名稱>.<生物組織名>.<時間戳>.<三位流水號>。
圖3是圖1中的一種優(yōu)選實施方式示意圖,一種生物數據的產生標識符的方法,包括如下步驟:
步驟S10手動錄入
步驟S11通過嵌入式芯片采集,本領域技術人員能夠明了,所述嵌入式芯片能夠將生物醫(yī)療的實驗器材、毛發(fā)、血液樣本等根據不同生物芯片進行采集得到,并通過嵌入式芯片處理后上傳至上位機。比如,嵌入式移動采集設備是一個通用的手持掃描設備,通過掃描生物資源樣本,可以獲取生物樣本數字化信息,采集方式更加便攜。又比如,對于生物數據采用血液樣本分析儀、皮膚毛發(fā)顯微分析儀等進行分析和采集。
步驟S100采集生物數據內容,根據設定規(guī)則產生標識符,所述標識符被配置為至少包括:
步驟S101用以產生國際統(tǒng)一編碼的第一標識,
步驟S102用以記錄采集來源的第二標識,
步驟S103用以區(qū)分生物數據分類的第三標識,
步驟S104用以用來記錄采集時間、生成唯一標識的第四標識,
步驟S1041按照SMTP、POP3或者HTTP協議發(fā)送至指定郵箱中,
步驟S1042所述采集生物數據內容的端口與數據庫采用socket通訊協議,
所述標識符進一步被配置為:
<國際Handle標識符>/<采集機構>.<采集生物數據來源機構性質>.<采集生物數據分類>.<生物名稱>.<生物組織名>.<時間戳>.<三位流水號>。
在所述步驟S11中通過嵌入式芯片采集,可以基于樹莓派上的操作系統(tǒng),生成數據的方式是通過特定軟件進行生成。樹莓派,Raspberry Pi,簡寫為RPi,(或者RasPi/RPI)是為學生計算機編程教育而設計,只有信用卡大小的微型電腦,其系統(tǒng)基于Linux。比如,其可基于ARM的微型電腦主板,以SD/MicroSD卡為內存硬盤,卡片主板周圍有1/2/4個USB接口和一個10/100以太網接口(A型沒有網口),可連接鍵盤、鼠標和網線,同時擁有視頻模擬信號的電視輸出接口和HDMI高清視頻輸出接口,以上部件全部整合在一張僅比信用卡稍大的主板上,具備所有PC的基本功能只需接通電視機和鍵盤,就能執(zhí)行如電子表格、文字處理、玩游戲、播放高清視頻等諸多功能。Raspberry Pi B款只提供電腦板,無內存、電源、鍵盤、機箱或連線。
特定軟件中UI界面為一采集機構元數據面板和一采集備注,包括:采集機構屬性、采集過程以及采集服務等。其中,采集機構屬性包括但不限于:機構編碼、自動生成的采集時間戳、采集流水號等。采集過程包括但不限于:采集性質、客戶來源類別、客戶服務類別以及客戶資源類別等。采集服務包括但不限于:服務性質或服務項目等。采集備注包括但不限于:采集正文和采集附件地址等。
步驟S105將上述標識符同步至數據庫。
在上述步驟S1041中,按照SMTP、POP3或者HTTP協議發(fā)送至指定郵箱中,可提高用戶活躍度。類似每個網站都會有狀態(tài)更新,而對于生物數據標識符的產生,大多數用戶不會經常去刷新看看有沒有什么新內容,通過郵件不僅能夠讓用戶得到及時的反饋,又能夠使得數據得到及時的備案。
圖4是本發(fā)明的系統(tǒng)結構示意圖,一種生物數據的產生標識符的系統(tǒng),包括:終端、客戶端服務器100和服務端服務器200,所述終端被配置為:采集生物數據內容,在所述客戶端服務器100根據設定規(guī)則產生標識符,其中,所述標識符被配置為至少包括:用以產生國際統(tǒng)一編碼的第一標識,用以記錄采集來源的第二標識,用以區(qū)分生物數據分類的第三標識,用以用來記錄采集時間、生成唯一標識的第四標識,所述服務端服務器200被配置為接收上述標識符,所述采集生物數據內容的方法為:手動錄入、通過嵌入式芯片采集。客戶端服務器100和服務端服務器200采用長連接。
在一些實施例中,系統(tǒng)中還包括郵件服務器,按照SMTP、POP3或者HTTP協議發(fā)送至指定郵箱中。
在一些實施例中,所述采集生物數據內容的端口與數據庫采用socket通訊協議。
應當理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現。例如,如果用硬件來實現,和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現:具有用于對數據信號實現邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現場可編程門陣列(FPGA)等。
在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結合。
總體而言,本公開的各種實施例可以以硬件或專用電路、軟件、邏輯或其任意組合實施。一些方面可以以硬件實施,而其它一些方面可以以固件或軟件實施,該固件或軟件可以由控制器、微處理器或其它計算設備執(zhí)行。雖然本公開的各種方面被示出和描述為框圖、流程圖或使用其它一些繪圖表示,但是可以理解本文描述的框、設備、系統(tǒng)、技術或方法可以以非限制性的方式以硬件、軟件、固件、專用電路或邏輯、通用硬件或控制器或其它計算設備或其一些組合實施。
此外,雖然操作以特定順序描述,但是這不應被理解為要求這類操作以所示的順序執(zhí)行或是以順序序列執(zhí)行,或是要求所有所示的操作被執(zhí)行以實現期望結果。在一些情形下,多任務或并行處理可以是有利的。類似地,雖然若干具體實現方式的細節(jié)在上面的討論中被包含,但是這些不應被解釋為對本公開的范圍的任何限制,而是特征的描述僅是針對具體實施例。在分離的一些實施例中描述的某些特征也可以在單個實施例中組合地執(zhí)行。相反對,在單個實施例中描述的各種特征也可以在多個實施例中分離地實施或是以任何合適的子組合的方式實施。
雖然本公開以具體結構特征和/或方法動作來描述,但是可以理解在所附權利要求書中限定的本公開并不必然限于上述具體特征或動作。而是,上述具體特征和動作僅公開為實施權利要求的示例形式。