用于識(shí)別原因性基因組變體的方法和系統(tǒng)的制作方法
【專利摘要】在本文中提供用于過(guò)濾包含基因組信息的數(shù)據(jù)集中的變體的方法和系統(tǒng)。
【專利說(shuō)明】用于識(shí)別原因性基因組變體的方法和系統(tǒng)
[0001] 相關(guān)申請(qǐng)的交叉引用
[0002] 本申請(qǐng)要求2011年11月7日提交的,名為"用于識(shí)別原因性(causal)基因組變 體的方法和系統(tǒng)"的美國(guó)臨時(shí)專利申請(qǐng)?zhí)?1/556, 599以及2011年11月7日提交的,名為 "用于識(shí)別原因性基因組變體的方法和系統(tǒng)"的美國(guó)臨時(shí)專利申請(qǐng)?zhí)?1/556, 758的權(quán)益和 優(yōu)先權(quán),通過(guò)參考將所述申請(qǐng)的全部?jī)?nèi)容引入用于所有目的。
【背景技術(shù)】
[0003] 全基因組測(cè)序能提供有關(guān)人類基因組中的60億堿基對(duì)的信息,然而,這種海量信 息的分析已經(jīng)證明是有挑戰(zhàn)性的。例如,在基因組之間存在大量變異,但僅一些變體真正影 響表型。在影響表型的變體中,僅這些中的子集與特定表型,例如疾病有關(guān)。目前,從實(shí)驗(yàn) 對(duì)象獲得全基因組序列信息的臨床醫(yī)師或研究人員面臨通過(guò)篩選大量變體信息來(lái)嘗試和 識(shí)別與特定表型有重大關(guān)系的變體的子集這樣的挑戰(zhàn)。在此描述了用于將研究人員或臨床 醫(yī)師的注意力集中在潛在相關(guān)的基因組變體上的系統(tǒng)和方法。
【發(fā)明內(nèi)容】
[0004] 在本文中提供了用于在包含基因組信息的數(shù)據(jù)集中過(guò)濾變體的方法和系統(tǒng)。
[0005] 在一些實(shí)施方式中,一種生物演化過(guò)濾器(biological context filter),其中,該 生物演化過(guò)濾器被配置成接收包含變體的數(shù)據(jù)集,與生物信息數(shù)據(jù)庫(kù)通信,以及通過(guò)與生 物信息有關(guān)的變體,過(guò)濾數(shù)據(jù)集來(lái)變換數(shù)據(jù)集,其中,過(guò)濾包括在數(shù)據(jù)集和一些或全部生物 信息之間建立關(guān)聯(lián)。在一些實(shí)施方式中,生物信息數(shù)據(jù)庫(kù)是精選匯總(curated)的生物醫(yī) 學(xué)內(nèi)容的知識(shí)庫(kù),其中,使用知識(shí)本體(ontology)來(lái)構(gòu)建所述知識(shí)庫(kù)。在一些實(shí)施方式中, 變體和生物信息之間的關(guān)聯(lián)包含由一個(gè)或多個(gè)中繼段(hop)定義的關(guān)系。在一些實(shí)施方式 中,用戶選擇用于過(guò)濾的生物信息。在一些實(shí)施方式中,過(guò)濾揭示與生物信息有關(guān)的變體。 在一些實(shí)施方式中,過(guò)濾屏蔽與生物信息無(wú)關(guān)的變體。在一些實(shí)施方式中,過(guò)濾屏蔽與生物 信息有關(guān)的變體。在一些實(shí)施方式中,過(guò)濾揭示與生物信息無(wú)關(guān)的變體。在一些實(shí)施方式 中,由數(shù)據(jù)集推斷用于過(guò)濾的生物信息。在一些實(shí)施方式中,由用戶先前輸入的研究設(shè)計(jì)信 息,推斷用于過(guò)濾的生物信息。
[0006] 在一些實(shí)施方式中,一種生物演化過(guò)濾器,其被配置成接收包含變體的數(shù)據(jù)集,其 中,所述數(shù)據(jù)集包含來(lái)自一個(gè)或多個(gè)個(gè)體的一個(gè)或多個(gè)樣本的變體數(shù)據(jù);與生物信息數(shù)據(jù) 庫(kù)通信;以及能通過(guò)與生物信息有關(guān)的變體,過(guò)濾數(shù)據(jù)集來(lái)變換數(shù)據(jù)集,其中,過(guò)濾包括在 數(shù)據(jù)集和一些或全部生物信息之間建立關(guān)聯(lián)。
[0007] 在一些實(shí)施方式中,生物演化過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的其他過(guò)濾器組合來(lái)生成最 終變體列表。在一些實(shí)施方式中,生物演化過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的下述過(guò)濾器的一個(gè)或 多個(gè)組合來(lái)達(dá)到少于200變體的最終變體列表:常見(jiàn)變體過(guò)濾器、預(yù)測(cè)有害過(guò)濾器、癌癥驅(qū) 動(dòng)變體過(guò)濾器、物理位置過(guò)濾器、遺傳分析過(guò)濾器、表達(dá)過(guò)濾器、用戶定義變體過(guò)濾器、藥物 遺傳學(xué)過(guò)濾器或定制注釋過(guò)濾器。在一些實(shí)施方式中,生物演化過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的 下述過(guò)濾器的一個(gè)或多個(gè)組合來(lái)達(dá)到少于50變體的最終變體列表:常見(jiàn)變體過(guò)濾器、預(yù)測(cè) 有害過(guò)濾器、癌癥驅(qū)動(dòng)變體過(guò)濾器、物理位置過(guò)濾器、遺傳分析過(guò)濾器、表達(dá)過(guò)濾器、用戶定 義變體過(guò)濾器、藥物遺傳學(xué)過(guò)濾器或定制注釋過(guò)濾器。
[0008] 在一些實(shí)施方式中,能由用戶調(diào)整生物演化過(guò)濾器的嚴(yán)格性,以及其中,來(lái)自用戶 的嚴(yán)格性調(diào)整變更下述的一個(gè)或多個(gè):在用于過(guò)濾的關(guān)聯(lián)中的中繼段的數(shù)量、在用于過(guò)濾 的關(guān)聯(lián)中的中繼段的強(qiáng)度、在用于過(guò)濾的關(guān)聯(lián)中的中繼段的凈效應(yīng);和/或在用于過(guò)濾的 關(guān)聯(lián)中的中繼段的上游或下游屬性。在一些實(shí)施方式中,基于最終過(guò)濾數(shù)據(jù)集中的所需變 體數(shù)量,自動(dòng)地調(diào)整生物演化過(guò)濾器的嚴(yán)格性,其中,嚴(yán)格性調(diào)整變更下述的一個(gè)或多個(gè): 在用于過(guò)濾的關(guān)聯(lián)中的中繼段的數(shù)量;在用于過(guò)濾的關(guān)聯(lián)中的中繼段的強(qiáng)度、在用于過(guò)濾 的關(guān)聯(lián)中的中繼段的凈效應(yīng);和/或在用于過(guò)濾的關(guān)聯(lián)中的中繼段的上游或下游屬性。
[0009] 在一些實(shí)施方式中,僅使用上游中繼段。在一些實(shí)施方式中,僅使用下游中繼段。 在一些實(shí)施方式中,使用中繼段的凈效應(yīng)。在一些實(shí)施方式中,用于過(guò)濾的生物信息是生物 功能。
[0010] 在一些實(shí)施方式中,生物功能是基因、轉(zhuǎn)錄本、蛋白、分子復(fù)合物、分子家族或酶活 性、治療或治療分子靶標(biāo)、通路、過(guò)程、表型、疾病、功能性結(jié)構(gòu)域、行為、解剖特性、生理性狀 或狀態(tài)、生物標(biāo)志物或其組合。在一些實(shí)施方式中,通過(guò)選擇用于過(guò)濾的生物信息,調(diào)整生 物演化過(guò)濾器的嚴(yán)格性。在一些實(shí)施方式中,生物演化過(guò)濾器被配置成從先前在同一數(shù)據(jù) 集上執(zhí)行的另一過(guò)濾器接收掩碼。
[0011] 在一些實(shí)施方式中,生物演化過(guò)濾器與用于將過(guò)濾過(guò)的數(shù)據(jù)集輸出給用戶的硬件 通信。在一些實(shí)施方式中,一種計(jì)算機(jī)程序產(chǎn)品,其具有制定生物演化過(guò)濾器的機(jī)器可讀指 令。
[0012] 在一些實(shí)施方式中,提供一種癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,所述癌癥驅(qū)動(dòng)變體過(guò)濾 器:被配置成接收包含變體的第一數(shù)據(jù)集,能通過(guò)與一種或多種增殖性病癥有關(guān)的變體,過(guò) 濾第一數(shù)據(jù)集來(lái)變換第一數(shù)據(jù)集。在一些實(shí)施方式中,所述癌癥驅(qū)動(dòng)變體過(guò)濾器與用于將 過(guò)濾數(shù)據(jù)集輸出給用戶的硬件通信。在一些實(shí)施方式中,懷疑第一數(shù)據(jù)集包含與一種或多 種增殖性病癥有關(guān)的變體。在一些實(shí)施方式中,第一數(shù)據(jù)集源自具有增殖性病癥的患者。在 一些實(shí)施方式中,增殖性病癥是癌癥。在一些實(shí)施方式中,用戶指定用于過(guò)濾的感興趣的一 種或多種增殖性病癥。在一些實(shí)施方式中,過(guò)濾揭示與一種或多種增殖性病癥有關(guān)的變體。 在一些實(shí)施方式中,過(guò)濾屏蔽與一種或多種增殖性病癥無(wú)關(guān)的變體。在一些實(shí)施方式中,過(guò) 濾屏蔽與一種或多種增殖性病癥有關(guān)的變體。在一些實(shí)施方式中,過(guò)濾揭示與一種或多種 增殖性病癥無(wú)關(guān)的變體。
[0013] 在一些實(shí)施方式中,所述癌癥驅(qū)動(dòng)變體過(guò)濾器:被配置成接收包含變體的數(shù)據(jù)集, 其中,所述數(shù)據(jù)集包含來(lái)自一個(gè)或多個(gè)個(gè)體的一個(gè)或多個(gè)樣本的變體數(shù)據(jù),能通過(guò)與一種 或多種增殖性病癥有關(guān)的變體,過(guò)濾數(shù)據(jù)集來(lái)變換數(shù)據(jù)集。
[0014] 在一些實(shí)施方式中,所述癌癥驅(qū)動(dòng)變體過(guò)濾器:被配置成接收包含變體的數(shù)據(jù)集, 其中,所述數(shù)據(jù)集包含來(lái)自一個(gè)或多個(gè)個(gè)體的一個(gè)或多個(gè)樣本的變體數(shù)據(jù),能通過(guò)與一種 或多種增殖性病癥有關(guān)的變體,過(guò)濾數(shù)據(jù)集來(lái)變換數(shù)據(jù)集。
[0015] 在一些實(shí)施方式中,由數(shù)據(jù)集推斷用于過(guò)濾的一種或多種增殖性病癥。在一些實(shí) 施方式中,由用戶先前輸入的研究設(shè)計(jì)信息,推斷用于過(guò)濾的一種或多種增殖性病癥。
[0016] 在一些實(shí)施方式中,癌癥驅(qū)動(dòng)變體過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的其他過(guò)濾器組合來(lái)生 成最終變體列表。在一些實(shí)施方式中,癌癥驅(qū)動(dòng)變體過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的下述過(guò)濾器 的一個(gè)或多個(gè)組合來(lái)達(dá)到少于200變體的最終變體列表:常見(jiàn)變體過(guò)濾器、預(yù)測(cè)有害過(guò)濾 器、生物演化過(guò)濾器、物理位置過(guò)濾器、遺傳分析過(guò)濾器、表達(dá)過(guò)濾器、用戶定義變體過(guò)濾 器、藥物遺傳學(xué)過(guò)濾器或定制注釋過(guò)濾器。在一些實(shí)施方式中,癌癥驅(qū)動(dòng)變體過(guò)濾器與過(guò) 濾器級(jí)聯(lián)中的下述過(guò)濾器的一個(gè)或多個(gè)組合來(lái)達(dá)到少于50變體的最終變體列表:常見(jiàn)變 體過(guò)濾器、預(yù)測(cè)有害過(guò)濾器、生物演化過(guò)濾器、物理位置過(guò)濾器、遺傳分析過(guò)濾器、表達(dá)過(guò)濾 器、用戶定義變體過(guò)濾器、藥物遺傳學(xué)過(guò)濾器或定制注釋過(guò)濾器。
[0017] 在一些實(shí)施方式中,所過(guò)濾的變體是觀察或預(yù)測(cè)滿足下述標(biāo)準(zhǔn)的一個(gè)或多個(gè)的變 體:位于具有動(dòng)物模型直向同源物的人類基因中,所述直向同源物具有癌癥相關(guān)的基因破 壞表型;影響已知的或預(yù)測(cè)的癌癥子網(wǎng)絡(luò)調(diào)控位點(diǎn);在強(qiáng)制或不強(qiáng)制適當(dāng)?shù)姆较蛐缘那闆r 下,影響癌癥相關(guān)的細(xì)胞過(guò)程;在變體和/或基因級(jí)別上,與知識(shí)庫(kù)中發(fā)布的癌癥文獻(xiàn)研究 結(jié)果關(guān)聯(lián);在強(qiáng)制或不強(qiáng)制適當(dāng)?shù)姆较蛐缘那闆r下,影響癌癥相關(guān)通路;和/或與癌癥治療 靶標(biāo)和/或上游/原因性子網(wǎng)絡(luò)有關(guān)。在一些實(shí)施方式中,所述標(biāo)準(zhǔn)被限制于一種或多種 特定癌癥疾病模型。
[0018] 在一些實(shí)施方式中,癌癥驅(qū)動(dòng)變體過(guò)濾器與生物信息數(shù)據(jù)庫(kù)通信,其中,生物信息 數(shù)據(jù)庫(kù)是精選匯總的生物醫(yī)學(xué)內(nèi)容的知識(shí)庫(kù),其中,使用知識(shí)本體來(lái)構(gòu)建所述知識(shí)庫(kù)。
[0019] 在一些實(shí)施方式中,癌癥驅(qū)動(dòng)變體過(guò)濾器的嚴(yán)格性是用戶可調(diào)的,其中,來(lái)自用戶 的嚴(yán)格性調(diào)整變更關(guān)系中的中繼段數(shù)和/或中繼段強(qiáng)度,和/或是否觀察到或預(yù)測(cè)到變體 具有下述特性的一個(gè)或多個(gè):位于具有動(dòng)物模型直向同源物的人類基因中,所述直向同源 物具有癌癥相關(guān)的基因破壞表型;影響已知的或預(yù)測(cè)的癌癥子網(wǎng)絡(luò)調(diào)控位點(diǎn);在強(qiáng)制或不 強(qiáng)制適當(dāng)?shù)姆较蛐缘那闆r下,影響癌癥相關(guān)的細(xì)胞過(guò)程;在變體和/或基因級(jí)別上,與知識(shí) 庫(kù)中發(fā)布的癌癥文獻(xiàn)研究結(jié)果關(guān)聯(lián);在強(qiáng)制或不強(qiáng)制適當(dāng)?shù)姆较蛐缘那闆r下,影響癌癥相 關(guān)通路;和/或與癌癥治療靶標(biāo)和/或上游/原因性子網(wǎng)絡(luò)有關(guān)。
[0020] 在一些實(shí)施方式中,基于最終過(guò)濾數(shù)據(jù)集中的所需變體數(shù)量,自動(dòng)地調(diào)整癌癥驅(qū) 動(dòng)變體過(guò)濾器的嚴(yán)格性,其中,嚴(yán)格性調(diào)整變更關(guān)系中的中繼段的數(shù)量和/或中繼段的強(qiáng) 度,和/或是否觀察到或預(yù)測(cè)到變體具有一個(gè)或多個(gè)下述特性:位于具有動(dòng)物模型直向同 源物的人類基因中,所述直向同源物具有癌癥相關(guān)的基因破壞表型;影響已知的或預(yù)測(cè)的 癌癥子網(wǎng)絡(luò)調(diào)控位點(diǎn);在強(qiáng)制或不強(qiáng)制適當(dāng)?shù)姆较蛐缘那闆r下,影響癌癥相關(guān)的細(xì)胞過(guò)程; 在變體和/或基因級(jí)別上,與知識(shí)庫(kù)中發(fā)布的癌癥文獻(xiàn)研究結(jié)果關(guān)聯(lián);在強(qiáng)制或不強(qiáng)制適 當(dāng)?shù)姆较蛐缘那闆r下,影響癌癥相關(guān)通路;和/或與癌癥治療靶標(biāo)和/或上游/原因性子網(wǎng) 絡(luò)有關(guān)。
[0021] 在一些實(shí)施方式中,與一種或多種增殖性病癥有關(guān)的變體是離經(jīng)觀察或預(yù)測(cè)具有 一個(gè)或多個(gè)下述特性的變體一個(gè)或多個(gè)中繼段的變體:位于具有動(dòng)物模型直向同源物的人 類基因中,所述直向同源物具有癌癥相關(guān)的基因破壞表型;影響已知的或預(yù)測(cè)的癌癥子網(wǎng) 絡(luò)調(diào)控位點(diǎn);在強(qiáng)制或不強(qiáng)制適當(dāng)?shù)姆较蛐缘那闆r下,影響癌癥相關(guān)的細(xì)胞過(guò)程;在變體 和/或基因級(jí)別上,與知識(shí)庫(kù)中發(fā)布的癌癥文獻(xiàn)研究結(jié)果關(guān)聯(lián);在強(qiáng)制或不強(qiáng)制適當(dāng)?shù)姆?向性的情況下,影響癌癥相關(guān)通路;和/或與癌癥治療靶標(biāo)和/或上游/原因性子網(wǎng)絡(luò)有 關(guān)。
[0022] 在一些實(shí)施方式中,通過(guò)加權(quán)中繼段的強(qiáng)度,調(diào)整癌癥驅(qū)動(dòng)變體過(guò)濾器的嚴(yán)格性。 在一些實(shí)施方式中,通過(guò)變更中繼段數(shù),調(diào)整癌癥驅(qū)動(dòng)變體過(guò)濾器的嚴(yán)格性。在一些實(shí)施方 式中,中繼段是上游中繼段或中繼段是下游中繼段。在一些實(shí)施方式中,確定中繼段的凈效 應(yīng),以及僅過(guò)濾與癌癥驅(qū)動(dòng)凈效應(yīng)有關(guān)的變體。在一些實(shí)施方式中,癌癥驅(qū)動(dòng)變體過(guò)濾器被 配置成從先前在同一數(shù)據(jù)集上執(zhí)行的另一過(guò)濾器接收掩碼。
[0023] 在一些實(shí)施方式中,一種計(jì)算機(jī)程序產(chǎn)品,具有制定癌癥驅(qū)動(dòng)變體過(guò)濾器的機(jī)器 可讀指令。
[0024] 在一些實(shí)施方式中,提供一種遺傳分析過(guò)濾器,其中,所述遺傳分析過(guò)濾器被配置 成接收包含變體的第一數(shù)據(jù)集,能根據(jù)遺傳邏輯,通過(guò)過(guò)濾第一數(shù)據(jù)集來(lái)變換第一數(shù)據(jù)集。 在一些實(shí)施方式中,遺傳分析過(guò)濾器與用于將過(guò)濾過(guò)的數(shù)據(jù)集輸出給用戶的硬件通信。在 一些實(shí)施方式中,遺傳分析過(guò)濾器進(jìn)一步被配置成接收從遺傳學(xué)上與第一數(shù)據(jù)集源有關(guān)的 樣本獲得的一個(gè)或多個(gè)額外數(shù)據(jù)集。
[0025] 在一些實(shí)施方式中,遺傳分析過(guò)濾器被配置成接收任選用于識(shí)別來(lái)自于同一個(gè)體 的樣本或其樣本在數(shù)據(jù)集中的個(gè)體之間的遺傳關(guān)系的信息。
[0026] 在一些實(shí)施方式中,數(shù)據(jù)集中的至少一個(gè)樣本是疾病案例樣本,以及數(shù)據(jù)集中的 另一樣本是來(lái)自相同個(gè)體的正常對(duì)照樣本,其中,過(guò)濾包括過(guò)濾在疾病和正常樣本兩者中 均觀察到的、或僅在疾病樣本或正常樣本中觀察到的變體。
[0027] 在一些實(shí)施方式中,數(shù)據(jù)集中的一個(gè)或多個(gè)樣本是數(shù)據(jù)集中的另一樣本的遺傳親 本。在一些實(shí)施方式中,過(guò)濾包括過(guò)濾來(lái)自于與孟德?tīng)栠z傳不兼容的數(shù)據(jù)集的變體。在一 些實(shí)施方式中,過(guò)濾包括過(guò)濾在父母中是雜合型的以及在來(lái)自他們的后代的樣本中是純合 型的變體。在一些實(shí)施方式中,過(guò)濾包括過(guò)濾在純合型子女的父母的至少一個(gè)中不存在的 變體。在一些實(shí)施方式中,過(guò)濾包括過(guò)濾在具有該變體的子女的父母兩者中均不存在的變 體。
[0028] 在一些實(shí)施方式中,先前已經(jīng)過(guò)濾過(guò)該數(shù)據(jù)集,以及其中,所述數(shù)據(jù)集中的數(shù)據(jù)點(diǎn) 的子集被之前的過(guò)濾器屏蔽。
[0029] 在一些實(shí)施方式中,過(guò)濾包括過(guò)濾在指定接合性下,在大于或等于案例樣本的特 定部分但小于或等于對(duì)照樣本的特定部分中存在的變體,和/或過(guò)濾在指定接合性下,在 小于或等于案例樣本的特定部分但大于或等于對(duì)照樣本的特定部分中存在的變體。
[0030] 在一些實(shí)施方式中,過(guò)濾包括過(guò)濾在指定質(zhì)量水平下,在大于或等于案例樣本的 特定部分但小于或等于對(duì)照樣本的特定部分中存在的變體,和/或過(guò)濾在指定質(zhì)量水平 下,在小于或等于案例樣本的特定部分但大于或等于對(duì)照樣本的特定部分中存在的變體。
[0031] 在一些實(shí)施方式中,第一數(shù)據(jù)集來(lái)自腫瘤樣本,以及第二數(shù)據(jù)集來(lái)自同一個(gè)體的 正常樣本,其中,過(guò)濾包括過(guò)濾在第一和第二數(shù)據(jù)集兩者中均觀察到的、或僅在腫瘤樣本或 正常樣本中觀察到的變體。
[0032] 在一些實(shí)施方式中,基于來(lái)自用戶對(duì)隱性遺傳性疾病、顯性遺傳性疾病、新生突變 或癌癥體細(xì)胞變體的預(yù)設(shè),配置遺傳邏輯。
[0033] 在一些實(shí)施方式中,以下變體被過(guò)濾,所述變體被推斷在(a)大于或等于案例樣 本的特定部分但小于或等于對(duì)照樣本的特定部分,或(b)小于或等于案例樣本的特定部分 但大于或等于照樣本的特定部分中,有助于基因功能的增益或喪失。
[0034] 在一些實(shí)施方式中,所述一個(gè)或多個(gè)額外數(shù)據(jù)集包括來(lái)自第一數(shù)據(jù)集源的遺傳親 本之一或其兩者的數(shù)據(jù)集。在一些實(shí)施方式中,過(guò)濾包括從第一數(shù)據(jù)集過(guò)濾與孟德?tīng)栠z傳 不兼容的變體。在一些實(shí)施方式中,過(guò)濾包括過(guò)濾在第一數(shù)據(jù)集源的父母雙方中均為純合 型但在第一數(shù)據(jù)集中為雜合型的變體。在一些實(shí)施方式中,過(guò)濾包括過(guò)濾在第一數(shù)據(jù)集源 的父母的至少一個(gè)中不存在但在第一數(shù)據(jù)集中為純合型的變體。在一些實(shí)施方式中,過(guò)濾 包括過(guò)濾在第一數(shù)據(jù)集源的父母兩者中均不存在,但存在于第一數(shù)據(jù)集中的變體。在一些 實(shí)施方式中,濾過(guò)的變體是位于基因組的半合子區(qū)中的單拷貝變體。
[0035] 在一些實(shí)施方式中,過(guò)濾包括過(guò)濾(a)當(dāng)至少一個(gè)親本是純合型時(shí),不存在于子 女中的變體,和/或(b)如果兩個(gè)親本是純合型時(shí),在子女中是雜合型的變體。
[0036] 在一些實(shí)施方式中,遺傳分析過(guò)濾器進(jìn)一步與生物信息數(shù)據(jù)庫(kù)通信,其中,生物信 息數(shù)據(jù)庫(kù)是精選匯總的生物醫(yī)學(xué)內(nèi)容的知識(shí)庫(kù),其中,使用知識(shí)本體來(lái)構(gòu)建所述知識(shí)庫(kù),以 及其中,來(lái)自第一數(shù)據(jù)集的變體通過(guò)中繼段,與生物信息關(guān)聯(lián)。
[0037] 在一些實(shí)施方式中,生物信息包括有關(guān)基因的單倍劑量不足的信息。在一些實(shí)施 方式中,過(guò)濾與單倍劑量不足基因有關(guān)的雜合變體。
[0038] 在一些實(shí)施方式中,以下變體被過(guò)濾,所述變體在(a)至少指定數(shù)量的或最小部 分的案例樣本和至多指定數(shù)量的或最大部分的對(duì)照樣本,或(b)至多指定數(shù)量的或最大部 分的案例樣本和至少指定數(shù)量的或最小部分的對(duì)照樣本中,以用戶指定的接合性和/或質(zhì) 量設(shè)定值出現(xiàn)。在一些實(shí)施方式中,以下變體被過(guò)濾,所述變體在(a)至少指定數(shù)量的或最 小部分的案例樣本和至多指定數(shù)量的或最大部分的對(duì)照樣本,或(b)至多指定數(shù)量的或最 大部分的案例樣本和至少指定數(shù)量的或最小部分的對(duì)照樣本中,影響同一基因。
[0039] 在一些實(shí)施方式中,以下變體被過(guò)濾,所述變體在(a)至少指定數(shù)量的或最小部 分的案例樣本和至多指定數(shù)量的或最大部分的對(duì)照樣本,或(b)至多指定數(shù)量的或最大部 分的案例樣本和至少指定數(shù)量的或最小部分的對(duì)照樣本中,影響在1個(gè)或多個(gè)中繼段內(nèi)的 相同網(wǎng)絡(luò)。在一些實(shí)施方式中,通過(guò)加權(quán)中繼段的強(qiáng)度,調(diào)整遺傳分析過(guò)濾器的嚴(yán)格性。
[0040] 在一些實(shí)施方式中,變更中繼段的數(shù)量,調(diào)整遺傳分析過(guò)濾器的嚴(yán)格性。在一些實(shí) 施方式中,中繼段是上游中繼段。在一些實(shí)施方式中,中繼段是下游中繼段。
[0041] 在一些實(shí)施方式中,先前已經(jīng)過(guò)濾過(guò)遺傳第一數(shù)據(jù)集,以及其中,所述第一數(shù)據(jù)集 中的數(shù)據(jù)點(diǎn)的子集被之前的過(guò)濾器屏蔽。在一些實(shí)施方式中,由用戶調(diào)整嚴(yán)格性。在一些 實(shí)施方式中,基于最終數(shù)據(jù)集中的所需變體數(shù)量,自動(dòng)地調(diào)整過(guò)濾器嚴(yán)格性。
[0042] 在一些實(shí)施方式中,遺傳分析過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的其他過(guò)濾器結(jié)合來(lái)產(chǎn)生用 戶感興趣的最終過(guò)濾數(shù)據(jù)集。在一些實(shí)施方式中,遺傳分析過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的下述 過(guò)濾器的一個(gè)或多個(gè)組合來(lái)達(dá)到少于50變體的最終變體列表:常見(jiàn)變體過(guò)濾器、預(yù)測(cè)有害 過(guò)濾器、生物演化過(guò)濾器、物理位置過(guò)濾器、癌癥驅(qū)動(dòng)變體過(guò)濾器、表達(dá)過(guò)濾器、用戶定義變 體過(guò)濾器、藥物遺傳學(xué)過(guò)濾器或定制注釋過(guò)濾器。在一些實(shí)施方式中,遺傳分析過(guò)濾器與過(guò) 濾器級(jí)聯(lián)中的下述過(guò)濾器的一個(gè)或多個(gè)組合來(lái)達(dá)到少于200變體的最終變體列表:常見(jiàn)變 體過(guò)濾器、預(yù)測(cè)有害過(guò)濾器、生物演化過(guò)濾器、物理位置過(guò)濾器、癌癥驅(qū)動(dòng)變體過(guò)濾器、表達(dá) 過(guò)濾器、用戶定義變體過(guò)濾器、藥物遺傳學(xué)過(guò)濾器或定制注釋過(guò)濾器。
[0043] 在一些實(shí)施方式中,嚴(yán)格性調(diào)整變更過(guò)濾器的接合性需求。在一些實(shí)施方式中,嚴(yán) 格性調(diào)整變更過(guò)濾器的變體質(zhì)量需求。在一些實(shí)施方式中,嚴(yán)格性調(diào)整變更用于過(guò)濾的案 例樣本的所需數(shù)量或部分。
[0044] 在一些實(shí)施方式中,嚴(yán)格性調(diào)整變更遺傳分析過(guò)濾器是否基于變體是否(a)通過(guò) 由用戶指定的接合性和/或質(zhì)量設(shè)定值發(fā)生,或(b)影響同一基因,或(c)影響在1個(gè)或多 個(gè)中繼段內(nèi)的同一網(wǎng)絡(luò)來(lái)過(guò)濾變體。在一些實(shí)施方式中,通過(guò)加權(quán)中繼段的強(qiáng)度來(lái)調(diào)整遺 傳分析過(guò)濾器的嚴(yán)格性。在一些實(shí)施方式中,通過(guò)變更中繼段數(shù),調(diào)整遺傳分析過(guò)濾器的嚴(yán) 格性。在一些實(shí)施方式中,確定中繼段的凈效應(yīng)和僅過(guò)濾與用戶選擇的凈效應(yīng)有關(guān)的變體。 在一些實(shí)施方式中,遺傳分析過(guò)濾器被配置成從先前在同一數(shù)據(jù)集上執(zhí)行的另一過(guò)濾器接 受掩碼。
[0045] 在一些實(shí)施方式中,一種遺傳分析過(guò)濾器:被配置成接收包含變體的數(shù)據(jù)集,其 中,所述數(shù)據(jù)集包含來(lái)自一個(gè)或多個(gè)個(gè)體的一個(gè)或多個(gè)樣本的變體數(shù)據(jù),以及能根據(jù)遺傳 邏輯,通過(guò)過(guò)濾數(shù)據(jù)集來(lái)變換數(shù)據(jù)集。
[0046] 在一些實(shí)施方式中,一種計(jì)算機(jī)程序產(chǎn)品具有制定遺傳分析過(guò)濾器的機(jī)器可讀指 令。
[0047] 在一些實(shí)施方式中,提供一種藥物遺傳學(xué)過(guò)濾器,其中,藥物遺傳學(xué)過(guò)濾器被配置 成接收包含變體的數(shù)據(jù)集,與生物信息數(shù)據(jù)庫(kù)通信,其中,生物信息數(shù)據(jù)庫(kù)是精選匯總的生 物醫(yī)學(xué)內(nèi)容的知識(shí)庫(kù),其中,使用知識(shí)本體來(lái)構(gòu)建所述知識(shí)庫(kù),其中,生物信息是與一種或 多種藥物有關(guān)的信息,以及能按照與生物信息有關(guān)的變體,通過(guò)過(guò)濾數(shù)據(jù)集,變換數(shù)據(jù)集, 其中,過(guò)濾包括在數(shù)據(jù)集和一些或全部生物信息之間建立關(guān)聯(lián)。在一些實(shí)施方式中,藥物遺 傳學(xué)過(guò)濾器與用于將過(guò)濾的數(shù)據(jù)集輸出給用戶的硬件通信。在一些實(shí)施方式中,與一種或 多種藥物有關(guān)的信息包括藥物靶標(biāo)、藥物反應(yīng)、藥物代謝或藥物毒性。在一些實(shí)施方式中, 變體和生物信息之間的關(guān)聯(lián)包括由一個(gè)或多個(gè)中繼段定義的關(guān)系。在一些實(shí)施方式中,用 戶選擇用于過(guò)濾的生物信息。
[0048] 在一些實(shí)施方式中,一種藥物遺傳學(xué)過(guò)濾器:被配置成接收包含變體的數(shù)據(jù)集,其 中,數(shù)據(jù)集包含來(lái)自一個(gè)或多個(gè)個(gè)體的一個(gè)或多個(gè)樣本的變體數(shù)據(jù)、與生物信息數(shù)據(jù)庫(kù)通 信,其中,生物信息數(shù)據(jù)庫(kù)是精選匯總的生物醫(yī)學(xué)內(nèi)容的知識(shí)庫(kù),其中,使用知識(shí)本體來(lái)構(gòu) 建所述知識(shí)庫(kù),其中,生物信息是與一種或多種藥物有關(guān)的信息;以及能按與生物信息有關(guān) 的變體,通過(guò)過(guò)濾數(shù)據(jù)集,變換數(shù)據(jù)集,其中,過(guò)濾包括在數(shù)據(jù)集和一些或全部生物信息之 間建立關(guān)聯(lián)。
[0049] 在一些實(shí)施方式中,過(guò)濾揭示與生物信息有關(guān)的變體。在一些實(shí)施方式中,過(guò)濾屏 蔽與生物信息無(wú)關(guān)的變體。在一些實(shí)施方式中,過(guò)濾屏蔽與生物信息有關(guān)的變體。在一些 實(shí)施方式中,過(guò)濾揭示與生物信息無(wú)關(guān)的變體。
[0050] 在一些實(shí)施方式中,由數(shù)據(jù)集推斷用于過(guò)濾的生物信息。在一些實(shí)施方式中,由先 前用戶輸入的研究設(shè)計(jì)信息,推斷用于過(guò)濾的生物信息。在一些實(shí)施方式中,藥物遺傳學(xué)過(guò) 濾器與過(guò)濾器級(jí)聯(lián)中的其他過(guò)濾器組合來(lái)生成最終變體列表。
[0051] 在一些實(shí)施方式中,藥物遺傳學(xué)過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的下述過(guò)濾器的一個(gè)或多 個(gè)組合來(lái)達(dá)到少于200變體的最終變體列表:常見(jiàn)變體過(guò)濾器、預(yù)測(cè)有害過(guò)濾器、癌癥驅(qū)動(dòng) 變體過(guò)濾器、物理位置過(guò)濾器、遺傳分析過(guò)濾器、表達(dá)過(guò)濾器、用戶定義變體過(guò)濾器、生物演 化過(guò)濾器、或定制注釋過(guò)濾器。在一些實(shí)施方式中,藥物遺傳學(xué)過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的下 述過(guò)濾器的一個(gè)或多個(gè)組合來(lái)達(dá)到少于50變體的最終變體列表:常見(jiàn)變體過(guò)濾器、預(yù)測(cè)有 害過(guò)濾器、癌癥驅(qū)動(dòng)變體過(guò)濾器、物理位置過(guò)濾器、遺傳分析過(guò)濾器、表達(dá)過(guò)濾器、用戶定義 變體過(guò)濾器、生物演化過(guò)濾器、或定制注釋過(guò)濾器。
[0052] 在一些實(shí)施方式中,能由用戶調(diào)整藥物遺傳學(xué)過(guò)濾器的嚴(yán)格性,以及其中,來(lái)自用 戶的嚴(yán)格性調(diào)整變更下述的一個(gè)或多個(gè):用于過(guò)濾的關(guān)聯(lián)中的中繼段數(shù);用于過(guò)濾的關(guān)聯(lián) 中的中繼段的強(qiáng)度;預(yù)測(cè)的藥物反應(yīng)信息是否用于過(guò)濾;預(yù)測(cè)的藥物代謝或毒性信息是否 用于過(guò)濾;所確立的藥物靶標(biāo)是否用于過(guò)濾;用于過(guò)濾的關(guān)聯(lián)中的中繼段的凈效應(yīng);和/或 用于過(guò)濾的關(guān)聯(lián)中的中繼段的上游或下游屬性。
[0053] 在一些實(shí)施方式中,基于最終過(guò)濾的數(shù)據(jù)集中的所需變體數(shù),自動(dòng)地調(diào)整藥物遺 傳學(xué)過(guò)濾器的嚴(yán)格性,其中,嚴(yán)格性調(diào)整變更下述的一個(gè)或多個(gè):用于過(guò)濾的關(guān)聯(lián)中的中繼 段數(shù);用于過(guò)濾的關(guān)聯(lián)中的中繼段的強(qiáng)度;預(yù)測(cè)的藥物反應(yīng)信息是否用于過(guò)濾;預(yù)測(cè)的藥 物代謝或毒性信息是否用于過(guò)濾;所確立的藥物靶標(biāo)是否用于過(guò)濾;用于過(guò)濾的關(guān)聯(lián)中的 中繼段的凈效應(yīng);和/或用于過(guò)濾的關(guān)聯(lián)中的中繼段的上游或下游屬性。
[0054] 在一些實(shí)施方式中,在藥物遺傳學(xué)過(guò)濾器中,僅使用上游中繼段、僅使用下游中繼 段,和/或使用中繼段的凈效應(yīng)。
[0055] 在一些實(shí)施方式中,由用戶調(diào)整藥物遺傳學(xué)過(guò)濾器的嚴(yán)格性。在一些實(shí)施方式中, 藥物遺傳學(xué)過(guò)濾器被配置成從先前在同一數(shù)據(jù)集上執(zhí)行的另一過(guò)濾器接受掩碼。
[0056] 在一些實(shí)施方式中,一種計(jì)算機(jī)程序產(chǎn)品具有制定藥物遺傳學(xué)過(guò)濾變體過(guò)濾器的 機(jī)器可讀指令。
[0057] 在一些實(shí)施方式中,提供一種預(yù)測(cè)有害過(guò)濾器,其中,預(yù)測(cè)有害過(guò)濾器:被配置成 接收包含變體的數(shù)據(jù)集,以及能按照被預(yù)測(cè)為有害或無(wú)害的變體,過(guò)濾數(shù)據(jù)來(lái)變換數(shù)據(jù)集。 在一些實(shí)施方式中,預(yù)測(cè)有害過(guò)濾器與用于將過(guò)濾的數(shù)據(jù)集輸出給用戶的硬件通信。
[0058] 在一些實(shí)施方式中,過(guò)濾包括將至少一個(gè)算法用于預(yù)測(cè)數(shù)據(jù)集中的有害或無(wú)害 變體,然后過(guò)濾所預(yù)測(cè)的有害或無(wú)害變體。在一些實(shí)施方式中,至少一個(gè)算法是SIFT、 BSIFT、PolyPhen、PolyPhen2、PANTHER、SNPs3D、FastSNP、SNAP、LS-SNP、PMUT、PupaSuite、 SNPeffect、SNPeffectV2. 0、F-SNP、MAPP、PhD-SNP、MutDB、SNP Function Portal、 PolyDoms、SNP@Promoter、Auto-Mute、MutPred、SNP@Ethnos、nsSNPanalyzer、SNP@Domain、 StSNP、MtSNPscore,或基因組變異服務(wù)器(Genome Variation Server)。
[0059] 在一些實(shí)施方式中,過(guò)濾保守的變體。在一些實(shí)施方式中,基于基因融合預(yù)測(cè)算 法,過(guò)濾預(yù)測(cè)有害變體。在一些實(shí)施方式中,基于產(chǎn)生或破壞預(yù)測(cè)的或?qū)嶒?yàn)上確認(rèn)的微RNA 結(jié)合位點(diǎn)的變體,過(guò)濾預(yù)測(cè)有害變體。在一些實(shí)施方式中,基于預(yù)測(cè)的拷貝數(shù)增益算法,過(guò) 濾預(yù)測(cè)有害變體。在一些實(shí)施方式中,基于預(yù)測(cè)拷貝數(shù)丟失算法,過(guò)濾預(yù)測(cè)有害變體。在一 些實(shí)施方式中,基于預(yù)測(cè)剪接位點(diǎn)丟失或剪接位點(diǎn)增益,過(guò)濾預(yù)測(cè)有害變體。在一些實(shí)施方 式中,基于已知或預(yù)測(cè)微RNA或ncRNA的破壞,過(guò)濾預(yù)測(cè)有害變體。在一些實(shí)施方式中,基 于破壞或產(chǎn)生已知的或預(yù)測(cè)的轉(zhuǎn)錄因子結(jié)合位點(diǎn),過(guò)濾預(yù)測(cè)有害變體。在一些實(shí)施方式中, 基于破壞或產(chǎn)生已知的或預(yù)測(cè)的增強(qiáng)子位點(diǎn),過(guò)濾預(yù)測(cè)有害變體。在一些實(shí)施方式中,基于 破壞非翻譯區(qū)(UTR),過(guò)濾預(yù)測(cè)有害變體。
[0060] 在一些實(shí)施方式中,預(yù)測(cè)有害過(guò)濾器進(jìn)一步與生物信息數(shù)據(jù)庫(kù)通信,其中,生物信 息數(shù)據(jù)庫(kù)是精選匯總的生物醫(yī)學(xué)內(nèi)容的知識(shí)庫(kù),其中,使用知識(shí)本體來(lái)構(gòu)建所述知識(shí)庫(kù),以 及其中,(a)直接基于知識(shí)庫(kù)中的一個(gè)或多個(gè)突變研究結(jié)果,或(b)通過(guò)基因研究結(jié)果和功 能預(yù)測(cè)算法的組合,使來(lái)自第一數(shù)據(jù)集的變體與生物信息關(guān)聯(lián)。在一些實(shí)施方式中,生物信 息包括有害表型,其中,過(guò)濾與有害表型有關(guān)的變體。在一些實(shí)施方式中,有害表型是疾病。
[0061] 在一些實(shí)施方式中,預(yù)測(cè)有害變體包括如下變體,所述變體:直接與知識(shí)庫(kù)中的突 變研究結(jié)果有關(guān)、是預(yù)測(cè)有害的(或非無(wú)害的)單核苷酸變體、是預(yù)測(cè)或已知的剪接位點(diǎn)、 預(yù)測(cè)會(huì)產(chǎn)生或破壞轉(zhuǎn)錄因子結(jié)合位點(diǎn)、是預(yù)測(cè)或已知的非編碼RNA、是預(yù)測(cè)或已知的miRNA 靶標(biāo)、或者是預(yù)測(cè)或已知的增強(qiáng)子。
[0062] 在一些實(shí)施方式中,預(yù)測(cè)有害變體包括如下變體,所述變體:直接與知識(shí)庫(kù)中的變 體研究結(jié)果有關(guān)、是預(yù)測(cè)有害的(或非無(wú)害的)單核苷酸變體、預(yù)測(cè)會(huì)產(chǎn)生或破壞RNA剪接 位點(diǎn)、預(yù)測(cè)會(huì)產(chǎn)生或破壞轉(zhuǎn)錄因子結(jié)合位點(diǎn)、預(yù)測(cè)會(huì)破壞非編碼RNA、預(yù)測(cè)會(huì)產(chǎn)生或破壞微 RNA靶標(biāo)、或預(yù)測(cè)會(huì)破壞已知的增強(qiáng)子。
[0063] 在一些實(shí)施方式中,預(yù)測(cè)有害過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的其他過(guò)濾器組合來(lái)產(chǎn)生用 戶感興趣的最終過(guò)濾數(shù)據(jù)集。在一些實(shí)施方式中,預(yù)測(cè)有害過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的下述 過(guò)濾器的一個(gè)或多個(gè)結(jié)合來(lái)達(dá)到少于50變體的最終變體列表:常見(jiàn)變體過(guò)濾器、生物演化 過(guò)濾器、物理位置過(guò)濾器、遺傳分析過(guò)濾器、癌癥驅(qū)動(dòng)變體過(guò)濾器、表達(dá)過(guò)濾器、用戶定義變 體過(guò)濾器、藥物遺傳學(xué)過(guò)濾器或定制注釋過(guò)濾器。在一些實(shí)施方式中,預(yù)測(cè)有害過(guò)濾器與過(guò) 濾器級(jí)聯(lián)中的下述過(guò)濾器的一個(gè)或多個(gè)結(jié)合來(lái)達(dá)到少于200變體的最終變體列表:常見(jiàn)變 體過(guò)濾器、生物演化過(guò)濾器、物理位置過(guò)濾器、遺傳分析過(guò)濾器、癌癥驅(qū)動(dòng)變體過(guò)濾器、表達(dá) 過(guò)濾器、用戶定義變體過(guò)濾器、藥物遺傳學(xué)過(guò)濾器或定制注釋過(guò)濾器。
[0064] 在一些實(shí)施方式中,由用戶調(diào)整預(yù)測(cè)有害過(guò)濾器的嚴(yán)格性。在一些實(shí)施方式中,基 于最終過(guò)濾的數(shù)據(jù)集中的所需變體數(shù),自動(dòng)地調(diào)整嚴(yán)格性。在一些實(shí)施方式中,基于致病性 注釋器,過(guò)濾預(yù)測(cè)有害變體。
[0065] 在一些實(shí)施方式中,預(yù)測(cè)有害過(guò)濾器被配置成從先前在同一數(shù)據(jù)集上執(zhí)行的另一 過(guò)濾器接受掩碼。
[0066] 在一些實(shí)施方式中,一種預(yù)測(cè)有害過(guò)濾器:被配置成接收包含變體的數(shù)據(jù)集,其 中,數(shù)據(jù)集包含來(lái)自一個(gè)或多個(gè)個(gè)體的一個(gè)或多個(gè)樣本的變體數(shù)據(jù);以及能通過(guò)預(yù)測(cè)有害 或無(wú)害的變體,過(guò)濾數(shù)據(jù)來(lái)變換數(shù)據(jù)集。
[0067] 在一些實(shí)施方式中,一種計(jì)算機(jī)程序產(chǎn)品具有制定預(yù)測(cè)有害過(guò)濾器的機(jī)器可讀指 令。
[0068] 在一些實(shí)施方式中,一種致病性注釋器使用預(yù)測(cè)有害過(guò)濾器和生物信息數(shù)據(jù)庫(kù)分 類變體,其中,生物信息數(shù)據(jù)庫(kù)是精選匯總的生物醫(yī)學(xué)內(nèi)容的知識(shí)庫(kù),以及其中,使用知識(shí) 本體來(lái)構(gòu)建所述知識(shí)庫(kù)。
[0069] 在一些實(shí)施方式中,致病性注釋器與用于將分類輸出給用戶的硬件通信。在一些 實(shí)施方式中,基于預(yù)測(cè)有害過(guò)濾器的結(jié)果與知識(shí)庫(kù)中支持或反駁各變體與有害表型的關(guān)聯(lián) 的證據(jù)的權(quán)重的組合,將變體輸出為下述類別:致病的、可能致病、不確定、可能良性,或良 性。在一些實(shí)施方式中,改變術(shù)語(yǔ),或者存在更多或更少的分類,例如,基于預(yù)測(cè)有害過(guò)濾器 的結(jié)果與知識(shí)庫(kù)中支持或反駁各變體與有害表型的關(guān)聯(lián)的證據(jù)的權(quán)重的組合,將變體輸出 為下述種類:致病的、推測(cè)致病、未知、推測(cè)良性,或良性。在一些實(shí)施方式中,分類包括以下 類別中的一種或多種:未知、未測(cè)試、非致病的、可能非致病的、可能致病的、致病的、藥物反 應(yīng)、組織相容性等。在一些實(shí)施方式中,a) "致病"是指沒(méi)有已知遺傳疾病的個(gè)體的基因組 數(shù)據(jù)庫(kù)中,變體頻率〈〇. 07%,以及來(lái)自生物醫(yī)學(xué)文獻(xiàn)中的多個(gè)不同文章的2個(gè)以上研究結(jié) 果在變體與有害表型之間建立原因性或關(guān)聯(lián)鏈接;"推測(cè)致病"、"可能致病"或"很可能致 病"是指沒(méi)有已知遺傳疾病的個(gè)體的基因組數(shù)據(jù)庫(kù)中的變體的頻率〈〇. 07%,以及1個(gè)研究 結(jié)果在變體與有害表型之間建立原因性或關(guān)聯(lián)鏈接;"未知"或"不確定"是指沒(méi)有已知遺傳 疾病的個(gè)體的基因組的數(shù)據(jù)庫(kù)中,變體的頻率在〇. 07%和0. 1%之間;"推測(cè)良性"或"可能 良性"或"可能非致病"是指在沒(méi)有已知遺傳疾病的個(gè)體的基因組數(shù)據(jù)庫(kù)中,變體的頻率在 0. 1%和1%之間;以及"良性"是指在沒(méi)有已知遺傳疾病的個(gè)體的基因組數(shù)據(jù)庫(kù)中,變體的 頻率> =1%。
[0070] 在一些實(shí)施方式中,致病性注釋器與定義與那一疾病有關(guān)的變體、基因和通路的 疾病模型的知識(shí)庫(kù)通信,其中,致病性注釋器利用疾病模型來(lái)疾病模型來(lái)提供用于特定變 體和特定疾病的具體組合的致病性評(píng)估。
[0071] 在一些實(shí)施方式中,一種預(yù)配置器,其中,該預(yù)配置器:被配置成接收與包含變體 的數(shù)據(jù)集有關(guān)的、由用戶提供的信息、與一個(gè)或多個(gè)過(guò)濾器通信、與包含變體的數(shù)據(jù)集通 信,以及至少部分根據(jù)由用戶提供的信息,控制過(guò)濾器,其中,該預(yù)配置器選擇與由用戶提 供的信息有關(guān)的過(guò)濾器和過(guò)濾器嚴(yán)格性來(lái)產(chǎn)生最終過(guò)濾的數(shù)據(jù)集。
[0072] 在一些實(shí)施方式中,預(yù)配置器控制下述過(guò)濾器中的一個(gè)或多個(gè)的添加、移除和嚴(yán) 格性設(shè)定值:常見(jiàn)變體過(guò)濾器、預(yù)測(cè)有害過(guò)濾器、遺傳分析過(guò)濾器、生物演化過(guò)濾器、藥物遺 傳學(xué)過(guò)濾器、物理位置過(guò)濾器,或癌癥驅(qū)動(dòng)變體過(guò)濾器。
[0073] 在一些實(shí)施方式中,預(yù)配置器優(yōu)化過(guò)濾器的添加或移除和過(guò)濾器嚴(yán)格性設(shè)定值來(lái) 實(shí)現(xiàn)不超出200變體的最終過(guò)濾數(shù)據(jù)集。
[0074] 在一些實(shí)施方式中,預(yù)配置器優(yōu)化過(guò)濾器的添加或移除和過(guò)濾器嚴(yán)格性設(shè)定值來(lái) 實(shí)現(xiàn)不超出50變體的最終過(guò)濾數(shù)據(jù)集。
[0075] 在一些實(shí)施方式中,由用戶提供的信息包括感興趣的疾病的遺傳模式。在一些實(shí) 施方式中,由用戶提供的信息包括能由預(yù)配置器識(shí)別為用于選擇過(guò)濾的指令的用戶輸入, 所述過(guò)濾:識(shí)別原因性疾病變體、識(shí)別癌癥驅(qū)動(dòng)變體、識(shí)別能分層或區(qū)分不同群體的變體, 或分析基因組來(lái)識(shí)別對(duì)健康管理、治療、個(gè)性化藥物和/或個(gè)別化藥物感興趣的變體。
[0076] 在一些實(shí)施方式中,預(yù)配置器與精選匯總的生物醫(yī)學(xué)內(nèi)容的知識(shí)庫(kù)通信,其中,使 用知識(shí)本體來(lái)構(gòu)建所述知識(shí)庫(kù)。
[0077] 在一些實(shí)施方式中,來(lái)自用戶的信息包括生物信息,生物信息包括一個(gè)或多個(gè)基 因、轉(zhuǎn)錄本、蛋白、通路、過(guò)程、表型、疾病、功能性結(jié)構(gòu)域、行為、解剖特性、生理性狀或狀態(tài)、 生理標(biāo)志物或其組合。
[0078] 在一些實(shí)施方式中,一種計(jì)算機(jī)程序產(chǎn)品具有制定預(yù)配置器的機(jī)器可讀指令。
[0079] 在一些實(shí)施方式中,在此提供一種用于識(shí)別預(yù)期原因性變體的方法,包括:接收變 體的列表、通過(guò)一個(gè)或多個(gè)常見(jiàn)變體過(guò)濾器過(guò)濾變體的列表、通過(guò)一個(gè)或多個(gè)預(yù)測(cè)有害過(guò) 濾器過(guò)濾變體的列表、通過(guò)一個(gè)或多個(gè)遺傳分析過(guò)濾器過(guò)濾變體的列表、通過(guò)一個(gè)或多個(gè) 生物演化過(guò)濾器過(guò)濾變體的列表,和將所過(guò)濾的變體列表輸出為預(yù)期原因性變體的列表。
[0080] 在一些實(shí)施方式中,原因性輸出步驟發(fā)生在接收步驟后的不到1天。
[0081] 在一些實(shí)施方式中,原因性輸出步驟發(fā)生在接收步驟后的不到1周。
[0082] 在一些實(shí)施方式中,變體的列表包括超出1百萬(wàn)的變體以及所輸出的過(guò)濾的變體 列表包括小于50變體。
[0083] 在一些實(shí)施方式中,一種圖形用戶界面用于顯示過(guò)濾器級(jí)聯(lián)的輸出,其中,過(guò)濾器 級(jí)聯(lián)包括下述的一個(gè)或多個(gè):常見(jiàn)變體過(guò)濾器、預(yù)測(cè)有害過(guò)濾器、遺傳分析過(guò)濾器,或生物 演化過(guò)濾器。
[0084] 在一些實(shí)施方式中,在此提供一種用于分發(fā)交互式報(bào)告的方法,包括步驟:接收?qǐng)?bào) 價(jià)請(qǐng)求,其中,報(bào)價(jià)請(qǐng)求包括客戶的數(shù)量的公開(kāi),其中,數(shù)量是客戶希望用于基因組分析服 務(wù)的報(bào)價(jià)的樣本數(shù);傳送至少部分基于樣本數(shù)的報(bào)價(jià),其中,報(bào)價(jià)包括使用生物信息數(shù)據(jù) 庫(kù),用于樣本中的變體的生物解釋的交互式報(bào)告的價(jià)格,其中,生物信息數(shù)據(jù)庫(kù)是精選匯總 的生物醫(yī)學(xué)內(nèi)容的知識(shí)庫(kù),以及其中,使用知識(shí)本體來(lái)構(gòu)建所述知識(shí)庫(kù);從客戶接收訂單, 其中,訂單包括定購(gòu)使用生物信息數(shù)據(jù)庫(kù),用于變體的生物解釋的交互式報(bào)告;以及向客戶 提供超級(jí)鏈接,其中,超級(jí)鏈接將客戶引導(dǎo)到使用生物信息數(shù)據(jù)庫(kù),用于變體的生物解釋的 交互式報(bào)告。
[0085] 在一些實(shí)施方式中,在此提供一種用于分發(fā)交互式報(bào)告的方法,包括步驟:接收?qǐng)?bào) 價(jià)請(qǐng)求,其中,報(bào)價(jià)請(qǐng)求包括客戶的數(shù)量的發(fā)現(xiàn),其中,數(shù)量是客戶希望用于基因組分析服 務(wù)的報(bào)價(jià)的樣本數(shù);傳送至少部分基于樣本數(shù)的報(bào)價(jià),其中,報(bào)價(jià)包括使用生物信息數(shù)據(jù) 庫(kù),用于變體的生物解釋的交互式報(bào)告的費(fèi)用;從客戶接收訂單,其中,訂單不包括定購(gòu)使 用生物信息數(shù)據(jù)庫(kù),用于變體的生物解釋的交互式報(bào)告;以及向客戶提供超級(jí)鏈接,其中, 超級(jí)鏈接將客戶引導(dǎo)到使用生物信息數(shù)據(jù)庫(kù),用于變體的生物解釋的交互式報(bào)告,為客戶 提供在線交易所述交互式報(bào)告的能力。在一些實(shí)施方式中,在提供第二報(bào)價(jià)前,已經(jīng)生成使 用生物信息數(shù)據(jù)庫(kù)的變體的生物解釋的交互式報(bào)告。在一些實(shí)施方式中,第二報(bào)價(jià)包括分 析的預(yù)覽。在一些實(shí)施方式中,分析的預(yù)覽是預(yù)測(cè)客戶會(huì)感興趣的變體。
[0086] 在一些實(shí)施方式中,提供一種使用生物信息數(shù)據(jù)庫(kù),為客戶提供交互式報(bào)告,用于 變體的生物解釋的方法,包括:從合作公司接收包含基因組信息的數(shù)據(jù)集,其中,合作公司 從客戶接收樣本以及由該樣本生成數(shù)據(jù)集,以及將數(shù)據(jù)集加載到用于變體的生物解釋的軟 件系統(tǒng),用于用戶未來(lái)訪問(wèn)。在一些實(shí)施方式中,軟件系統(tǒng)包括在本文中所述的過(guò)濾器的一 個(gè)或多個(gè)。在一些實(shí)施方式中,該方法進(jìn)一步包括:在生成交互式報(bào)告后,從客戶接收訂單 的確認(rèn);以及將交互式報(bào)告提供給客戶。在一些實(shí)施方式中,生物信息數(shù)據(jù)庫(kù)是精選匯總的 生物醫(yī)學(xué)內(nèi)容的知識(shí)庫(kù),以及其中,使用知識(shí)本體來(lái)構(gòu)建所述知識(shí)庫(kù)。
[0087] 在一些實(shí)施方式中,客戶是保健提供者。在一些實(shí)施方式中,客戶是個(gè)人。在一些 實(shí)施方式中,客戶是保健消費(fèi)者。在一些實(shí)施方式中,客戶是組織。
[0088] 在一些實(shí)施方式中,由基因組分析服務(wù)的提供者分發(fā)數(shù)據(jù)集,以及在同一天,將用 于所述數(shù)據(jù)集的交互式報(bào)告分發(fā)給客戶。在一些實(shí)施方式中,將由基因組分析服務(wù)的提供 者分發(fā)的數(shù)據(jù)集和用于所述數(shù)據(jù)集的交互式報(bào)告在同一周內(nèi)分發(fā)給客戶。在一些實(shí)施方式 中,分發(fā)能幾乎與客戶支付同時(shí)發(fā)生。
[0089] 在一些實(shí)施方式中,在同一天,向客戶報(bào)價(jià)基因組分析服務(wù)和將由所述基因組分 析服務(wù)產(chǎn)生的數(shù)據(jù)集的交互式報(bào)告。在一些實(shí)施方式中,報(bào)價(jià)在1小時(shí)、1分鐘內(nèi)或同時(shí)。
[0090] 在一些實(shí)施方式中,在同一天,向客戶報(bào)價(jià)基因組分析服務(wù)和將由所述基因組分 析服務(wù)產(chǎn)生的數(shù)據(jù)集的交互式報(bào)告。
[0091] 在一些實(shí)施方式中,使用過(guò)濾器級(jí)聯(lián),生成交互式報(bào)告,其中,過(guò)濾器級(jí)聯(lián)包括下 述的一個(gè)或多個(gè):藥物遺傳學(xué)、常見(jiàn)變體過(guò)濾器、預(yù)測(cè)有害過(guò)濾器、癌癥驅(qū)動(dòng)變體過(guò)濾器、物 理位置過(guò)濾器、遺傳分析過(guò)濾器、表達(dá)過(guò)濾器、用戶定義變體過(guò)濾器、生物演化過(guò)濾器,或定 制注釋過(guò)濾器。
[0092] 在一些實(shí)施方式中,一種用于向用戶顯示遺傳信息的方法,包括:向用戶顯示具有 一個(gè)軸上為樣本和另一軸上為出現(xiàn)在一個(gè)或多個(gè)樣本中的變體的二維網(wǎng)格,其中,網(wǎng)格的 每一單元表示每一樣本中的變體的不同實(shí)例(或缺少實(shí)例),在每一單元中顯示一個(gè)或多 個(gè)彩色圖標(biāo),其中,網(wǎng)格的每一單元中的一個(gè)或多個(gè)圖標(biāo)的顏色變化取決于由那一單元所 表示的變體是否被預(yù)測(cè)為導(dǎo)致功能增益、功能喪失,還是導(dǎo)致由那一單元所示的樣本中的 基因或基因網(wǎng)絡(luò)的正常功能。
[0093] 在一些實(shí)施方式中,在表示特定變體和特定樣本的單元內(nèi)的多個(gè)可視不同形狀線 性地與所述特定樣本中的所述特定變體的位置的接合性和/或拷貝數(shù)有關(guān)。
[0094] 在一些實(shí)施方式中,如果由單元所表示的樣本具有與參比基因組相同的基因型, 那一單元中的圖標(biāo)在形狀和/或顏色上不同。
[0095] 在一些實(shí)施方式中,根據(jù)基因型質(zhì)量,改變顏色強(qiáng)度,其中,顏色強(qiáng)度越高,表示越 高質(zhì)量度量。
[0096] 在一些實(shí)施方式中,單元中的一個(gè)或多個(gè)圖標(biāo)改變形狀和/或顏色,如果預(yù)測(cè)由 那一單兀表不的變體在由那一單兀表不的樣本中產(chǎn)生基因融合。
[0097] 在一些實(shí)施方式中,單元中的圖標(biāo)在形狀和/或顏色方面不同,如果由那一單元 表示的變體的位置不具有數(shù)據(jù),或在由那一單元表示的樣本中的那一變體的位置,沒(méi)有進(jìn) 行準(zhǔn)確基因型調(diào)用的能力。
[0098] 在一些實(shí)施方式中,一種計(jì)算機(jī)程序產(chǎn)品具有制定用于顯示遺傳信息的方法的機(jī) 器可讀指令。
[0099] 在一些實(shí)施方式中,一種計(jì)算機(jī)實(shí)現(xiàn)的系譜構(gòu)造器,其中,配置成來(lái)利用來(lái)自用戶 的輸入來(lái)識(shí)別最可能源自得到指定樣本的個(gè)體的母親的樣本;在另一實(shí)施方式,系譜構(gòu)造 器被配置來(lái)利用來(lái)自用戶的輸入來(lái)識(shí)別最可能源自得到指定樣本的個(gè)體的父親的樣本。在 其他實(shí)施方式中,系譜構(gòu)造器被配置成構(gòu)成系譜信息并且使信息可用于權(quán)利要求62的遺 傳分析過(guò)濾器,用于進(jìn)一步過(guò)濾變體。在一些實(shí)施方式中,系譜構(gòu)造器還可以推斷指定研究 內(nèi)的三人組和家庭關(guān)系,或識(shí)別潛在的系譜不一致性,諸如源自用戶輸入、源自計(jì)算分析的 關(guān)系之間的不一致性,或不一致性包括非親生、樣本貼錯(cuò)標(biāo)簽或樣本混淆錯(cuò)誤。
[0100] 在一些實(shí)施方式中,系譜構(gòu)造器將相同的單個(gè)標(biāo)識(shí)符指定給源自相同個(gè)人的多個(gè) 樣本,使得程序能從同一患者推斷患者的正常基因組和匹配腫瘤基因組。
[0101] 在一些實(shí)施方式中,一種計(jì)算機(jī)實(shí)現(xiàn)的統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器,其中,統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器被 配置成將過(guò)濾器級(jí)聯(lián)中的前一過(guò)濾器的輸入用作輸入;使用在兩個(gè)以上樣本組之間,統(tǒng)計(jì) 上顯著不同的基本等位、顯性、或隱性模型,過(guò)濾變體;使用負(fù)荷測(cè)試,以統(tǒng)計(jì)學(xué)顯著性來(lái)過(guò) 濾在兩個(gè)以上樣本組之間以不同的方式干擾基因的變體;以及使用通路或基因集負(fù)荷測(cè) 試,過(guò)濾在兩個(gè)以上樣本組之間以不同的方式干擾通路/基因集的變體。
[0102] 在一些實(shí)施方式中,統(tǒng)計(jì)過(guò)濾器使用從下述選擇的負(fù)荷測(cè)試:案例負(fù)荷、對(duì)照負(fù)荷 和雙向負(fù)荷測(cè)試,能夠區(qū)分受疾病影響和未受影響的狀態(tài)。在其他實(shí)施方式中,統(tǒng)計(jì)關(guān)聯(lián)過(guò) 濾器使用負(fù)荷測(cè)試,能夠區(qū)分受疾病影響和未受影響的狀態(tài),所述負(fù)荷測(cè)試僅利用通過(guò)輸 入到程序中的過(guò)濾器級(jí)聯(lián)中的前一過(guò)濾器的變體來(lái)計(jì)算統(tǒng)計(jì)上顯著的變體。
[0103] 在一些實(shí)施方式中,統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器能通過(guò)利用預(yù)測(cè)有害過(guò)濾器和遺傳分析,識(shí) 別有害并且導(dǎo)致推斷的在基因級(jí)別上的功能喪失或推斷的在基因級(jí)別上的功能增益的變 體。
[0104] 在一些實(shí)施方式中,統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器通過(guò)利用來(lái)自文獻(xiàn)的研究結(jié)果的知識(shí)庫(kù),能 區(qū)分受疾病影響和未受影響的狀態(tài),以及識(shí)別基因,所述基因基于從下述的一個(gè)或多個(gè)選 擇的一個(gè)或多個(gè)共享要素:通路生物學(xué)、結(jié)構(gòu)域、表達(dá)、生物過(guò)程、疾病關(guān)聯(lián)性、組或復(fù)合物 注釋,一起形成共同的相關(guān)集合。
[0105] 在一些實(shí)施方式中,統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器通過(guò)識(shí)別在兩個(gè)以上樣本組之間顯著更多或 顯著更少干擾所述通路或基因集的變體,區(qū)分受疾病影響和未受影響的狀態(tài)。
[0106] 在一些實(shí)施方式中,權(quán)利要求187的統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器,其中,能在通路/基因集庫(kù) 或其用戶指定子集上,執(zhí)行通路或基因集負(fù)荷測(cè)試。
[0107] 在一些實(shí)施方式中,一種計(jì)算機(jī)實(shí)現(xiàn)的發(fā)布功能部件,其中,發(fā)布功能部件被配置 成:使用戶指定感興趣的分析、使用戶輸入所述分析的簡(jiǎn)要名稱和描述、為用戶提供能由用 戶嵌入出版物中的URL互聯(lián)網(wǎng)鏈接、為用戶提供發(fā)行所公布的分析的能力,用于廣泛訪問(wèn); 以及在用戶所述發(fā)行后,為訪問(wèn)步驟(c)的URL或?yàn)g覽可用發(fā)布分析列表的其他用戶提供 對(duì)用戶發(fā)布的分析的訪問(wèn)。
[0108] 在一些實(shí)施方式中,一種計(jì)算機(jī)實(shí)現(xiàn)的可藥化通路功能部件,其中,假定一個(gè)或多 個(gè)患者樣本中,有作為疾病的原因性或驅(qū)動(dòng)變體的一個(gè)或多個(gè)變體,可藥化通路功能部件 被配置成:識(shí)別已知針對(duì)、活化和/或抑制在與所述一個(gè)或多個(gè)變體相同通路或基因網(wǎng)絡(luò) 中共同出現(xiàn)的基因、基因產(chǎn)物或基因集的藥物,通過(guò)原因性網(wǎng)絡(luò)分析,識(shí)別患者樣本中的所 述一個(gè)或多個(gè)變體對(duì)通路或基因網(wǎng)絡(luò)的預(yù)測(cè)凈效應(yīng),以及進(jìn)一步識(shí)別在步驟(a)中所識(shí)別 的藥物,其對(duì)通路或基因網(wǎng)絡(luò)的凈效應(yīng)與變體對(duì)所述通路或基因網(wǎng)絡(luò)的預(yù)測(cè)影響完全相 反。
[0109] 在一些實(shí)施方式中,可藥化通路功能部件用來(lái)識(shí)別基于患者的序列變體簡(jiǎn)檔,表 示患者很可能對(duì)一個(gè)或多個(gè)感興趣的特定藥物起反應(yīng)的患者樣本。
[0110] 在一些實(shí)施方式中,一種頻繁擊中(Frequent Hitters)過(guò)濾器被配置成:訪問(wèn)在 源自未受感興趣的疾病或表型影響的個(gè)體的樣本集合中,突變的高可變基因和基因組區(qū)的 知識(shí)庫(kù);過(guò)濾在高可變基因和/或基因組區(qū)內(nèi)出現(xiàn)的變體;以及通過(guò)三核苷酸重復(fù)注釋器, 列舉三核苷酸重復(fù)。
[0111] 在一些實(shí)施方式中,頻繁擊中過(guò)濾器的三核苷酸重復(fù)注釋器被配置成:與包含有 關(guān)良性的重復(fù)數(shù)和與一個(gè)或多個(gè)人類表型或其嚴(yán)重性有關(guān)的重復(fù)數(shù)的信息的已知三核苷 酸重復(fù)區(qū)的知識(shí)庫(kù)交互;評(píng)估一個(gè)或多個(gè)患者的全基因組或外顯子組測(cè)序樣本中,在知識(shí) 庫(kù)中定義的一個(gè)或多個(gè)基因組區(qū)處的三核苷酸重復(fù)的數(shù)量;對(duì)每一三核苷酸重復(fù),基于知 識(shí)庫(kù),評(píng)估在(b)計(jì)算的三核苷酸重復(fù)長(zhǎng)度是否足以導(dǎo)致表型;以及與預(yù)測(cè)有害過(guò)濾器通 信來(lái)基于三核苷酸重復(fù)注釋器的結(jié)果,實(shí)現(xiàn)導(dǎo)致表型的變體的過(guò)濾。
[0112] 通過(guò)參考引入
[0113] 在本說(shuō)明書(shū)中提及的所有公開(kāi)文獻(xiàn)和專利申請(qǐng)均通過(guò)參考引入本文,其引用程度 就如同將各主題公開(kāi)文獻(xiàn)或?qū)@暾?qǐng)具體地和單獨(dú)地地通過(guò)參考引入一樣。
【專利附圖】
【附圖說(shuō)明】
[0114] 在權(quán)利要求書(shū)中,具體地闡述本發(fā)明的新穎特征。通過(guò)參考闡述利用本發(fā)明的原 理的示例性實(shí)施方式的下述詳細(xì)描述和附圖,將獲得本發(fā)明的特征和優(yōu)點(diǎn)的更好理解,在 所述附圖中:
[0115] 圖1描繪了用戶界面的一個(gè)實(shí)施方式,其示出沿左手側(cè)垂直展開(kāi)的包含一個(gè)或多 個(gè)過(guò)濾器,在這種情況下,由常見(jiàn)變體過(guò)濾器、預(yù)測(cè)有害過(guò)濾器、遺傳分析過(guò)濾器和生物演 化過(guò)濾器組成的過(guò)濾器級(jí)聯(lián)。每一過(guò)濾器能夠從變體數(shù)據(jù)集"保留"、"排除"或"加回(add back) "變體。每一過(guò)濾器還可以任選地從在前過(guò)濾器獲取一個(gè)或多個(gè)掩碼作為輸入,其規(guī) 定在過(guò)濾器級(jí)聯(lián)的在前過(guò)濾步驟中,已經(jīng)保留哪些變體以及屏蔽哪些變體。在該非限制性 實(shí)例中,向用戶呈現(xiàn)最終過(guò)濾的變體數(shù)據(jù)集,以及在最左側(cè)堅(jiān)條中,在過(guò)濾器級(jí)聯(lián)的底部, 向用戶呈現(xiàn)在最終過(guò)濾的變體數(shù)據(jù)集中示出的變體數(shù)量和相關(guān)基因。在右側(cè)以表視圖形式 示出未被屏蔽掉的變體的詳情,用于顯示在左側(cè)過(guò)濾器級(jí)聯(lián)的選擇步驟保留的變體。
[0116] 彩色編碼的"案例樣本(Case Samples) "和"對(duì)照樣本(Control Samples) "列將 用于遺傳信息的分析的有用信息的頻譜組合成單一多色圖形顯示,在右側(cè)示出所述顯示的 圖例。藍(lán)色表示在基因級(jí)別上功能的喪失,橙色表示功能增益,以及黑色表示可能正常的基 因功能。圖形圖標(biāo)允許用戶快速目視檢測(cè)每一案例樣本和每一對(duì)照樣本的遺傳信息的多個(gè) 關(guān)鍵要素,包括:(a)拷貝數(shù)增益,(b)拷貝數(shù)丟失,(c)變體的接合性,(d)與參比基因組的 同一性,(e)變體或基因型質(zhì)量,(f)基因融合狀態(tài),(g)指定樣本中特定位置處基因型讀取 的不定性或能力缺乏,和/或(g)包括以下原因的功能喪失:純合型變體、半合區(qū)中的雜合 型變體、發(fā)生復(fù)合雜合或單倍劑量不足的基因中的雜合型變體。
[0117] 圖2描繪了(A)生物演化過(guò)濾器用戶界面的一個(gè)實(shí)施方式的視圖。注意右側(cè)的 生物演化過(guò)濾器用戶界面示出了用戶調(diào)整過(guò)濾器嚴(yán)格性的例子,其中,在該具體例子中,用 戶已經(jīng)選擇2個(gè)中繼段并且即將指定在感興趣的生物過(guò)程中,"直接活化/導(dǎo)致功能增益 (Directly Activate/Cause gain of function in)"的變體。過(guò)濾器用戶界面還允許用 戶指定下游中繼段和具有自動(dòng)補(bǔ)全功能(autocompletion)的一個(gè)或多個(gè)感興趣的生物概 念,所述自動(dòng)補(bǔ)全功能利用使用知識(shí)本體組織的知識(shí)庫(kù)。(B)鏈接到使用知識(shí)本體構(gòu)建的 知識(shí)庫(kù)的過(guò)濾器能從自動(dòng)補(bǔ)全功能受益,其中,用戶輸入生物概念名稱的全部或一部分,然 后呈現(xiàn)給用戶的是隨著用戶的每次擊鍵動(dòng)態(tài)更新的、所輸入字符包括來(lái)自所述本體的同義 詞的匹配物。這允許用戶方便地選擇生物信息和生物概念,以及允許在按各感興趣的生物 概念歸入所述本體中的概念中涉及的生物信息被自動(dòng)包括在內(nèi)。該非限制性例子顯示了在 用于生物演化過(guò)濾器的用戶界面內(nèi),基于使用知識(shí)本體構(gòu)建的知識(shí)庫(kù)的自動(dòng)補(bǔ)全功能的應(yīng) 用。
[0118] 圖3描繪用于癌癥驅(qū)動(dòng)變體過(guò)濾器的用戶界面的一個(gè)實(shí)施方式,其中,濾過(guò)的變 體被觀察或預(yù)測(cè)為滿足下述一個(gè)或多個(gè)標(biāo)準(zhǔn):
[0119] 1.在具有小鼠直向同源物的人類基因中,所述直向同源物具有癌癥相關(guān)基因破壞 表型,
[0120] 2.在強(qiáng)制或不強(qiáng)制適當(dāng)?shù)姆较蛐缘那闆r下,影響癌癥相關(guān)的細(xì)胞過(guò)程,
[0121] 3.在強(qiáng)制或不強(qiáng)制適當(dāng)?shù)姆较蛐缘那闆r下,影響癌癥相關(guān)通路,
[0122] 4.與癌癥治療靶標(biāo)和/或上游/原因性子網(wǎng)絡(luò)有關(guān),
[0123] 5.在變體和/或基因級(jí)別上,與知識(shí)庫(kù)中公開(kāi)的癌癥文獻(xiàn)研究結(jié)果關(guān)聯(lián),
[0124] 6.以指定頻率存在于體細(xì)胞變體的COSMIC數(shù)據(jù)庫(kù)中,和/或
[0125] 7.影響已知的或預(yù)測(cè)的癌癥通路子網(wǎng)絡(luò)調(diào)控位點(diǎn)。
[0126] 該過(guò)濾器還受益于將其他過(guò)濾器要素全部集中在與由疾病模型描述的特定癌癥 形式有關(guān)的生物信息上的、疾病模型(例如"乳腺癌")的選擇。
[0127] 圖4描繪用來(lái)識(shí)別癌癥驅(qū)動(dòng)變體的知識(shí)庫(kù)。
[0128] 圖5描繪一個(gè)實(shí)施方式中的常見(jiàn)變體過(guò)濾器。在該實(shí)施方式中,常見(jiàn)變體過(guò)濾器 能夠基于變體在一個(gè)或多個(gè)變體數(shù)據(jù)庫(kù)中的頻率來(lái)過(guò)濾變體。這為用戶提供了快速和方便 的機(jī)制,用于在變體數(shù)據(jù)集內(nèi)過(guò)濾(即屏蔽或暴露)在指定人群中,已經(jīng)觀察到以指定頻 率、高于指定頻率或低于指定頻率出現(xiàn)的變體的。
[0129] 圖6描繪定制注釋變體過(guò)濾器用戶界面的一個(gè)實(shí)施方式。在本發(fā)明的一些實(shí)施方 式中,用戶能基于變體數(shù)據(jù)集中的變體的字母數(shù)字注釋,產(chǎn)生定制過(guò)濾器,查找例如"染色 體"注釋欄等于"X"的變體將等效于用來(lái)識(shí)別X染色體上的變體的物理位置過(guò)濾器。同時(shí) 在一些實(shí)施方式中,用戶能將定制欄導(dǎo)入變體數(shù)據(jù)集中以及應(yīng)用定制注釋過(guò)濾器來(lái)在這些 定制欄中出現(xiàn)的注釋上過(guò)濾。該過(guò)濾器還能用于從RNA-Seq、蛋白質(zhì)組學(xué)或微陣列研究輸入 的表達(dá)數(shù)據(jù)欄,例如來(lái)識(shí)別出以大于或等于指定水平表示的存在于外顯子上的變體、或過(guò) 濾在染色質(zhì)免疫沉淀反應(yīng)或甲基化研究中識(shí)別的區(qū)域中出現(xiàn)的變體。
[0130] 圖7描繪遺傳分析過(guò)濾器用戶界面的一個(gè)實(shí)施方式,其允許通過(guò)變更(a)案例和/ 或?qū)φ战雍闲院?或(b)案例和/或?qū)φ兆凅w質(zhì)量或基因型質(zhì)量,和/或(c)案例樣本的 數(shù)量或部分,其中,變體(i)以所述案例接合性和案例質(zhì)量出現(xiàn)和/或(ii)影響同一基因, 和/或(iii)影響一個(gè)或多個(gè)中繼段內(nèi)的相同網(wǎng)絡(luò),和/或(d)對(duì)照樣本的數(shù)量,其中,變 體⑴以所述對(duì)照接合性和對(duì)照質(zhì)量出現(xiàn),和/或(ii)影響同一基因,和/或(iii)影響 一個(gè)或多個(gè)中繼段中的相同網(wǎng)絡(luò),來(lái)調(diào)整嚴(yán)格性。在此未示出實(shí)現(xiàn)(ii)和(iii)的界面, 但在本發(fā)明中,通過(guò)例如將底部的文字修改為"上述所選的基因型在2個(gè)案例樣本(100% ) 的至少[1/2]中,[出現(xiàn)/影響同一基因/影響同一網(wǎng)絡(luò)(1中繼段)]"能易于實(shí)現(xiàn)。上框 示出了簡(jiǎn)化的遺傳分析過(guò)濾器用戶界面的例子,通過(guò)點(diǎn)擊定制(customize)按鈕,其能擴(kuò) 展成在底部顯示的更復(fù)雜和豐富的特色遺傳分析過(guò)濾器。
[0131] 圖8描繪藥物遺傳學(xué)過(guò)濾器用戶界面的實(shí)施方式。該過(guò)濾器,與使用知識(shí)本體構(gòu) 建的精選匯總的生物醫(yī)學(xué)內(nèi)容的知識(shí)庫(kù)通信,能應(yīng)用與一個(gè)或多個(gè)藥物或藥物靶標(biāo)有關(guān)的 結(jié)構(gòu)化的生物醫(yī)學(xué)信息來(lái)快速地識(shí)別觀察到或預(yù)測(cè)到影響藥物反應(yīng)、藥物代謝、藥物毒性, 或影響一個(gè)或多個(gè)藥物的靶標(biāo)的變體。在優(yōu)選實(shí)施方式中,過(guò)濾器的缺省行為是識(shí)別滿足 一個(gè)或多個(gè)與任意藥物相關(guān)的這些標(biāo)準(zhǔn)的變體,在適用時(shí),任選能夠使用自動(dòng)補(bǔ)全工具過(guò) 濾出特定的目標(biāo)藥物或藥物祀標(biāo),所述自動(dòng)補(bǔ)全工具隨著用戶的每次敲鍵,向其顯示所述 本體內(nèi)感興趣的生物信息的匹配物,在這種情況下,藥物、藥物靶標(biāo)和它們既定的同義詞。 與其他過(guò)濾器一樣,藥物遺傳學(xué)過(guò)濾器能配置成排除(即屏蔽或移除滿足過(guò)濾標(biāo)準(zhǔn)的變 體)、僅保留(即屏蔽或移除不滿足過(guò)濾標(biāo)準(zhǔn)的所有變體),或增加(即,暴露或加回滿足過(guò) 濾標(biāo)準(zhǔn)的所有變體),作為過(guò)濾器操作的一部分。
[0132] 圖9描繪預(yù)測(cè)有毒過(guò)濾器用戶界面的一個(gè)實(shí)施方式,其允許用戶方便地配置基于 以下標(biāo)準(zhǔn)屏蔽或暴露數(shù)據(jù)集中的變體的過(guò)濾器的嚴(yán)格性:基于病原性注釋,變體是否在選 擇的感興趣的病原性種類中;變體是否被預(yù)測(cè)或觀察到與基因功能增益有關(guān);或變體是否 被預(yù)測(cè)或觀察到與基因功能喪失有關(guān)。與其他過(guò)濾器一樣,預(yù)測(cè)有毒過(guò)濾器能與其他上游 和下游過(guò)濾器交互,從之前的過(guò)濾器接收變體數(shù)據(jù)集和任選地,一個(gè)或多個(gè)掩碼,以及基于 過(guò)濾器設(shè)定值,屏蔽或暴露數(shù)據(jù)集內(nèi)的變體。
[0133] 圖10描繪用戶定義變體過(guò)濾器用戶界面的一個(gè)實(shí)施方式。在本發(fā)明的一些實(shí)施 方式中,用戶能保存用戶定義的基因和/或變體的列表,以及從計(jì)算機(jī)系統(tǒng)再調(diào)用那些列 表,用在用戶定義變體過(guò)濾器的實(shí)例中。在該非限制性例子中,用戶已經(jīng)從研究調(diào)取了推定 原因性變體集,并且正在應(yīng)用用戶定義變體過(guò)濾器來(lái)"僅保留"該列表中的變體。這具有屏 蔽或移除沒(méi)有出現(xiàn)在"頡骨推定原因性(cranio putative causal)"變體列表上的所有其 他變體的作用。
[0134] 圖11描繪向客戶提供用于變體的生物解讀的交互式報(bào)告的示例性流程圖。該過(guò) 程包含客戶、生成變體數(shù)據(jù)集的基因組服務(wù)提供者,以及用于變體的生物解讀的交互式報(bào) 告的提供者。與基因組服務(wù)的服務(wù)提供者的報(bào)價(jià)一起,提供用于變體的生物解讀的交互式 報(bào)告的報(bào)價(jià),并且按每一樣本定價(jià)。此外,基因組服務(wù)提供者將由客戶的樣本生成的數(shù)據(jù) 集,當(dāng)該數(shù)據(jù)集變?yōu)榭捎脮r(shí),直接上傳到交互式報(bào)告系統(tǒng),簡(jiǎn)化客戶經(jīng)歷并且一旦由基因組 服務(wù)提供者生成,允許客戶幾乎立即訪問(wèn)其變體數(shù)據(jù)集的交互式報(bào)告。注意,無(wú)論客戶在訂 購(gòu)她的基因組服務(wù)時(shí)是否訂購(gòu)該報(bào)告,都執(zhí)行該數(shù)據(jù)上載步驟。這在客戶從基因組服務(wù)提 供者接到其數(shù)據(jù)集準(zhǔn)備就緒的通知后,提供了與客戶就所述交互式報(bào)告進(jìn)行交易的第二次 機(jī)會(huì)。當(dāng)已經(jīng)完成基因組服務(wù)并且客戶的數(shù)據(jù)集準(zhǔn)備就緒時(shí),基因組服務(wù)提供者向客戶發(fā) 送將客戶引導(dǎo)到該交互式報(bào)告的鏈接??蛻魩缀跖c從服務(wù)提供者接到他們的測(cè)序結(jié)果可用 的通信的同時(shí),接收到該鏈接。
[0135] 圖12是示出代表性示例邏輯設(shè)備的框圖,通過(guò)該設(shè)備,能實(shí)現(xiàn)與本發(fā)明有關(guān)的數(shù) 據(jù)的審閱或分析。
[0136] 圖13描繪根據(jù)本發(fā)明構(gòu)造的系統(tǒng)的實(shí)施方式的流程圖。該系統(tǒng)提供一種方法,其 將用于獲得數(shù)據(jù)分析包的進(jìn)入權(quán)限的交易,與針對(duì)用來(lái)生成將輸入到數(shù)據(jù)分析包中用于分 析的數(shù)據(jù)集的產(chǎn)品或服務(wù)的交易進(jìn)行捆綁。
[0137] 圖14描繪用于家族性膠質(zhì)母細(xì)胞瘤的預(yù)期原因性變體的識(shí)別。
[0138] 圖15描繪個(gè)體化的癌癥RNA變體的識(shí)別。
【具體實(shí)施方式】
[0139] 定義
[0140] 如在下述描述中所使用的:
[0141] "疾病"是指所涉及的任何表型或表型特性,舉例來(lái)說(shuō),包括疾病或疾病狀態(tài)、疾病 的傾向性或易感性,或異常藥物反應(yīng)。疾病狀態(tài)的示例性和非限制性例子包括癌癥、高膽固 醇水平、充血性心力衰竭、高血壓、糖尿病、葡萄糖耐受不良、抑郁癥、焦慮、傳染病、中毒狀 態(tài)、藥物治療副作用、藥物治療無(wú)效、酒精中毒、上癮、外傷等等。
[0142] "疾病相關(guān)通路"是導(dǎo)致疾病的身體中的一系列生物化學(xué)反應(yīng),S卩,共同地影響疾 病狀態(tài)例如開(kāi)始、進(jìn)行、緩和或惡化的身體中的一系列、線性或分支的生物相互作用。這些 生物相互作用,即生物效應(yīng)或功能關(guān)系均是在身體內(nèi)出現(xiàn)的生物過(guò)程,例如,結(jié)合、激動(dòng)、拮 抗、抑制、活化、調(diào)控、改變等等。
[0143] "治療"和"治療的"包括預(yù)防或預(yù)防性的,以及包含與疾病狀態(tài)有關(guān)的癥狀的防止 和減輕、疾病狀態(tài)的進(jìn)展的抑制或延遲以及疾病狀態(tài)的治療。
[0144] "蛋白質(zhì)"或"基因產(chǎn)品"是指肽、寡肽、多肽或蛋白質(zhì),正如所翻譯的或在翻譯后被 修飾?;虍a(chǎn)品還能是RNA分子。
[0145] "研究結(jié)果"是用來(lái)構(gòu)建信息數(shù)據(jù)庫(kù)的數(shù)據(jù)。該數(shù)據(jù)可以來(lái)自公共資源,諸如數(shù)據(jù) 庫(kù)和科技出版物,但也可以包括專有數(shù)據(jù)或?qū)S泻凸矓?shù)據(jù)的混合。在各種實(shí)施方式中,研 究結(jié)果源自根據(jù)在下文更詳細(xì)概述的方法的自然語(yǔ)言(例如英語(yǔ))正式化的文本內(nèi)容。
[0146] "生物效應(yīng)"包括指定生物概念的分子效應(yīng)和這種概念在細(xì)胞、組織或生物體級(jí)別 上的效應(yīng)。
[0147] "變體"是指相對(duì)于確定的參比核苷酸或核苷酸序列,核苷酸或核苷酸序列的任何 特定變化,這樣的參比物包括但不限于被稱作NCBI36/hgl8和GRCh37/hgl9的公共參比人 類基因組序列。這還包括但不限于核酸修飾,諸如甲基化,以及基因組中的核苷酸或核苷酸 序列的異??截悢?shù)。
[0148] "全基因組"是指包括對(duì)象的可測(cè)序基因組的絕大部分,包括外顯子、內(nèi)含子和基 因間區(qū)。
[0149] "全基因組分析"是指從一個(gè)或多個(gè)全基因組的測(cè)序產(chǎn)生的數(shù)據(jù)的解釋。
[0150] "對(duì)象"通常是指具有可用于分析的相關(guān)序列信息,以及任選地,表型信息的生物 體。
[0151] "用戶"是指正使用在本文中所述的一種或多種方法來(lái)分析或解釋核苷酸序列信 息的人。
[0152] "疾病模型"是在疾病的進(jìn)展中涉及的、用科學(xué)確定的現(xiàn)象的知識(shí)本體的表現(xiàn)。這 些現(xiàn)象包括:患病個(gè)體通常表現(xiàn)出的所述疾病的特征性癥狀;疾病狀態(tài)中通常被異常調(diào)節(jié) 的細(xì)胞過(guò)程、或者信號(hào)或新陳代謝通路;已知影響疾病進(jìn)展或作為用于所述疾病的藥物的 靶標(biāo)的變體、基因或分子復(fù)合物。能將疾病模型中的現(xiàn)象翻譯為基因,所述基因來(lái)自報(bào)告這 些基因和現(xiàn)象之間的關(guān)系的獨(dú)立生物醫(yī)學(xué)研究結(jié)果。疾病模型中的現(xiàn)象在疾病狀態(tài)中可能 具有相關(guān)的方向性(過(guò)度活躍或不夠/不活躍),來(lái)自生物醫(yī)學(xué)研究結(jié)果的每一基因被確定 為如何來(lái)影響所述現(xiàn)象(增加/活化或降低/抑制)能被用來(lái)確定數(shù)據(jù)集中的變體對(duì)基因 的凈效應(yīng)(功能的增益或喪失)是否與促進(jìn)疾病進(jìn)展一致。
[0153] "過(guò)濾"是指注釋或變更一個(gè)或多個(gè)數(shù)據(jù)集。過(guò)濾能指從數(shù)據(jù)集保留、增加、減去 或加回?cái)?shù)據(jù)點(diǎn)。過(guò)濾能指屏蔽數(shù)據(jù)集中的一個(gè)或多個(gè)數(shù)據(jù)點(diǎn)。過(guò)濾能指暴露數(shù)據(jù)集中的數(shù) 據(jù)點(diǎn)。在一些實(shí)施方式中,過(guò)濾是迭代過(guò)程。在一些實(shí)施方式中,能通過(guò)一個(gè)或多個(gè)過(guò)濾器 執(zhí)行過(guò)濾。在一些實(shí)施方式中,由一個(gè)過(guò)濾器移除或屏蔽的數(shù)據(jù)點(diǎn)由第二過(guò)濾器加回或暴 露。在一些實(shí)施方式中,在變體列表上執(zhí)行過(guò)濾。濾過(guò)的數(shù)據(jù)集能小于或大于原始數(shù)據(jù)集。 在一些實(shí)施方式中,濾過(guò)的數(shù)據(jù)集包括未從原始數(shù)據(jù)集移除的數(shù)據(jù)點(diǎn)。在一些實(shí)施方式中, 濾過(guò)的數(shù)據(jù)集包括比原始數(shù)據(jù)集更多的信息。例如,濾過(guò)的數(shù)據(jù)集能包括下述的一個(gè)或多 個(gè):原始數(shù)據(jù)集、有關(guān)當(dāng)前是否屏蔽每一數(shù)據(jù)點(diǎn)的信息、有關(guān)先前是否屏蔽每一數(shù)據(jù)點(diǎn)的信 息,以及有關(guān)在前過(guò)濾的信息。有關(guān)在前過(guò)濾器的信息能是所應(yīng)用的過(guò)濾器的類型、為應(yīng)用 那一過(guò)濾器而選擇的任意變量、由該過(guò)濾器所做的任意假定或該過(guò)濾器所依賴的任意信息 (例如,來(lái)自數(shù)據(jù)庫(kù)的信息)。
[0154] "物理位置過(guò)濾器:"物理位置過(guò)濾器是這樣的過(guò)濾器,其將變體數(shù)據(jù)集用作輸入, 其中所述變體數(shù)據(jù)集包括來(lái)自一個(gè)或多個(gè)個(gè)體的一個(gè)或多個(gè)樣本的變體數(shù)據(jù),并且其基于 各變體出現(xiàn)的染色體,以及任選地,所述染色體上各變體的物理位置來(lái)過(guò)濾變體。這能是過(guò) 濾器級(jí)聯(lián)的非常有用的部件,因?yàn)樵试S用戶識(shí)別處于與感興趣的遺傳病一致的位置處的變 體。在一個(gè)簡(jiǎn)單和非限制性例子中,物理位置過(guò)濾器能用來(lái)識(shí)別位于X染色體上的那些變 體,用來(lái)識(shí)別X染色體連鎖病癥的原因性變體。物理位置過(guò)濾器能從用戶接收一個(gè)或多個(gè) 感興趣的物理位置以及識(shí)別在那些物理位置的任何一個(gè)或全部?jī)?nèi)的或與之重疊的變體。邏 輯"和"或邏輯"或"關(guān)系能存在于為過(guò)濾而指定的物理位置之間。在另一實(shí)施方式中,能 基于由用戶指定和/或從用戶的數(shù)據(jù)集和研究設(shè)計(jì)而推斷的研究設(shè)計(jì)參數(shù),自動(dòng)地選擇物 理位置。一個(gè)或多個(gè)物理位置能分別包括染色體和包含所述染色體上的感興趣的開(kāi)始和任 選停止坐標(biāo)的任選數(shù)值坐標(biāo)范圍。物理位置還能指定為一個(gè)或多個(gè)細(xì)胞學(xué)帶或帶范圍(例 如," 13ql4. 3_q21. 1")。物理位置還能指定為由兩個(gè)遺傳標(biāo)記限定的坐標(biāo)范圍,其中,所述 遺傳標(biāo)記可以包括下述的一個(gè)或多個(gè):RFLP (或限制性片段長(zhǎng)度多態(tài)性)、SSLP (或簡(jiǎn)單序 列長(zhǎng)度多態(tài)性)、AFLP (或擴(kuò)增片段長(zhǎng)度多態(tài)性)、RAPD (或隨機(jī)擴(kuò)增多態(tài)性DNA)、VNTR(或 可變數(shù)目串聯(lián)重復(fù)序列)、微衛(wèi)星多態(tài)性、SSR(或簡(jiǎn)單重復(fù)序列)、SNP(或單核苷酸多態(tài) 性)、STR(或短串聯(lián)重復(fù)序列)、SFP(或單征多態(tài)性)、DArT (或多樣性序列芯片技術(shù))、RAD 標(biāo)記(或限制位點(diǎn)相關(guān)的DNA標(biāo)記)。
[0155] 物理位置過(guò)濾器能基于變體是否在由用戶指定的坐標(biāo)范圍內(nèi)(或任選地,與之重 疊)并且位于指定染色體上,屏蔽或暴露來(lái)自數(shù)據(jù)集的變體。在一些實(shí)施方式中,能由用戶 調(diào)節(jié)物理位置過(guò)濾器的嚴(yán)格性,例如,選擇一個(gè)或多個(gè)染色體和坐標(biāo)范圍。在一些實(shí)施方式 中,能基于最終過(guò)濾的數(shù)據(jù)集中的變體的所需目標(biāo)數(shù)量,和/或基于數(shù)據(jù)集的方面和/或研 究設(shè)計(jì)的方面,自動(dòng)地配置物理位置過(guò)濾器的嚴(yán)格性。物理位置過(guò)濾器可以與其他過(guò)濾器 組合成過(guò)濾器級(jí)聯(lián)來(lái)將變體數(shù)據(jù)集變換成具有例如少于200或少于50變體的最終數(shù)據(jù)集。 在一些實(shí)施方式中,物理位置過(guò)濾器的功能由定制注釋過(guò)濾器實(shí)現(xiàn)。
[0156] "定制注釋過(guò)濾器":在本發(fā)明的各個(gè)實(shí)施方式中,定制注釋過(guò)濾器用戶能基于變 體數(shù)據(jù)集中的變體的字母數(shù)值注釋,產(chǎn)生定制過(guò)濾器,查找例如,"染色體"注釋欄等于"X" 的變體將等效于用來(lái)識(shí)別X染色體上的變體的物理位置過(guò)濾器。同時(shí),在一些實(shí)施方式中, 用戶能將定制欄輸入到變體數(shù)據(jù)集中,并且能應(yīng)用定制注釋過(guò)濾器來(lái)在存在于這些定制欄 或數(shù)據(jù)集中的任何其他欄中的注釋上過(guò)濾。在一些實(shí)施方式中,用于定制注釋過(guò)濾器的用 戶界面為用戶提供用于過(guò)濾的選項(xiàng),基于正為其創(chuàng)建過(guò)濾器的數(shù)據(jù)集中感興趣的指定欄的 內(nèi)容,優(yōu)化所述選項(xiàng)。例如,定制注釋過(guò)濾器能將"大于"、"大于或等于"、"等于"、"小于"、 "在..之間"或"小于或等于"提供為用于數(shù)值欄的方便過(guò)濾選項(xiàng)。在一些實(shí)施方式中,過(guò) 濾器為用戶提供選擇列表,用于在過(guò)濾選項(xiàng)中為具有低基數(shù)內(nèi)容的欄進(jìn)行選擇。在一些實(shí) 施方式中,定制注釋過(guò)濾器提供過(guò)濾選項(xiàng),諸如"包含"、"從…開(kāi)始"、"以…結(jié)束"和"是",用 于在包含文本信息的欄上過(guò)濾。該過(guò)濾器能被用于來(lái)自RNA-Seq、蛋白質(zhì)組學(xué)或微陣列研 究的輸入表達(dá)數(shù)據(jù)欄,以例如過(guò)濾存在于以大于或等于指定水平表達(dá)的外顯子上的變體, 或作為另一例子,過(guò)濾出現(xiàn)在染色質(zhì)免疫沉淀反應(yīng)研究中識(shí)別的區(qū)域中的變體,或者作為 又一例子,過(guò)濾影響以指定水平表達(dá)的基因或在該基因內(nèi)的變體,所述水平用絕對(duì)項(xiàng)或相 對(duì)項(xiàng)表示。定制注釋過(guò)濾器,與其他過(guò)濾器一樣,可以屏蔽或暴露、移除或加回滿足所指定 的過(guò)濾標(biāo)準(zhǔn)的變體。在一個(gè)實(shí)施方式中,定制注釋過(guò)濾器允許用戶"僅保留"、"排除"或"增 力口"滿足指定過(guò)濾標(biāo)準(zhǔn)的變體。定制注釋過(guò)濾器,與在本文中所述的所有其他過(guò)濾器一樣, 可以與一個(gè)或多個(gè)其他過(guò)濾器組合成過(guò)濾器級(jí)聯(lián)來(lái)將變體數(shù)據(jù)集變換成最終數(shù)據(jù)集。在一 些實(shí)施方式中,自動(dòng)或手動(dòng)地將過(guò)濾器組合配置,以產(chǎn)生用于傳送給用戶的具有例如少于 200或少于50變體的最終數(shù)據(jù)集。
[0157] "表達(dá)過(guò)濾器":表達(dá)過(guò)濾器是這樣的過(guò)濾器,其將變體數(shù)據(jù)集用作輸入,其中所述 變體數(shù)據(jù)集包括來(lái)自一個(gè)或多個(gè)個(gè)體的一個(gè)或多個(gè)樣本的變體數(shù)據(jù),并且其基于在指定樣 本中外顯子、轉(zhuǎn)錄本、基因、蛋白質(zhì)、肽、miRNA、非編碼RNA或其他生物實(shí)體的表達(dá)程度來(lái)過(guò) 濾變體以便"保留"、"排除"或"增加"變體。在一些實(shí)施方式中,表達(dá)過(guò)濾器在包含來(lái)自兩個(gè) 以上樣本的相對(duì)表達(dá)值的差異表達(dá)數(shù)據(jù)集上操作。在一些實(shí)施方式中,各種樣本的表達(dá)值 能被預(yù)加載到供表達(dá)過(guò)濾器使用的數(shù)據(jù)庫(kù)中。在一些實(shí)施方式中,所述數(shù)據(jù)庫(kù)是根據(jù)知識(shí) 本體構(gòu)建的知識(shí)庫(kù)。在一些實(shí)施方式中,表達(dá)過(guò)濾器使得用戶能夠輸入一個(gè)或多個(gè)例如來(lái) 自微陣列、RNA-Seq或蛋白質(zhì)組學(xué)研究的表達(dá)數(shù)據(jù)集。在一些實(shí)施方式中,由用戶輸入的數(shù) 據(jù)集直接對(duì)應(yīng)于在變體數(shù)據(jù)集中表示的個(gè)體和樣本。在一些實(shí)施方式中,表達(dá)過(guò)濾器由定 制注釋過(guò)濾器實(shí)現(xiàn)。表達(dá)過(guò)濾器,與在本文中所述的所有其他過(guò)濾器一樣,可以與一個(gè)或多 個(gè)其他過(guò)濾器組合成過(guò)濾器級(jí)聯(lián)來(lái)將變體數(shù)據(jù)集變換成最終數(shù)據(jù)集。在一些實(shí)施方式中, 自動(dòng)或手動(dòng)地將過(guò)濾器組合配置,以產(chǎn)生用于傳送給用戶的具有例如少于200或少于50變 體的最終數(shù)據(jù)集。
[0158] 除非具體說(shuō)明,"包括"和"包含"是指包括但不限于此,以及不帶具體數(shù)量的指稱 是指一個(gè)或多個(gè)。
[0159] 獲得基因組信息
[0160] 研究人員和臨床醫(yī)師能從對(duì)象獲得大量基因組信息。通常,對(duì)象能是具有基因組 的任何生物體。對(duì)象能是人,例如,為獲得其基因組序列而付費(fèi)的主體對(duì)象人。對(duì)象能是患 者,例如,懷疑具有遺傳疾病的患者。對(duì)象還能是研究對(duì)象,例如,具有感興趣的表型或疾病 的表面正常個(gè)體。對(duì)象還能是動(dòng)物,例如研究動(dòng)物或家畜。對(duì)象還能是細(xì)菌或植物。在一 些情況下,對(duì)象是一系列人造核苷酸。在一些情況下,從多個(gè)對(duì)象獲得基因組信息。在一些 情況下,從相關(guān)對(duì)象獲得基因組信息。
[0161] 在各個(gè)實(shí)施方式中,本發(fā)明允許分析和解釋基因組數(shù)據(jù)。為使用該系統(tǒng),用戶能獲 得基因組數(shù)據(jù)集或多個(gè)數(shù)據(jù)集。數(shù)據(jù)能賣給或贈(zèng)予用戶,但通常用戶將是執(zhí)行生物實(shí)驗(yàn)或 診斷的研究人員或臨床醫(yī)師。數(shù)據(jù)可以是從軟件提取或輸出的數(shù)據(jù)。例如,數(shù)據(jù)可以是由 測(cè)序?qū)嶒?yàn)生成的數(shù)據(jù)文件。在一些實(shí)施方式中,系統(tǒng)能從多個(gè)源,例如從多個(gè)用戶或在多個(gè) 實(shí)驗(yàn)上接收數(shù)據(jù)。在各個(gè)實(shí)施方式中,數(shù)據(jù)集的內(nèi)容包括與基因表達(dá)、基因分型、測(cè)序、單核 苷酸多態(tài)性、拷貝數(shù)目變異、單體型分析、基因組結(jié)構(gòu)或基因組變異有關(guān)的數(shù)據(jù)。數(shù)據(jù)集能 與診斷或臨床數(shù)據(jù)有關(guān),或能為了基礎(chǔ)科學(xué)研究生成數(shù)據(jù)集。
[0162] 通常,通過(guò)分析來(lái)自對(duì)象的樣本,獲得基因組信息。樣本能是包含對(duì)象的一些或全 部基因組的任何材料。例如,能從患者獲得血樣、頭發(fā)樣本或口頰涂片以便分析基因組。能 從同一對(duì)象獲得多個(gè)樣本。在一些實(shí)例中,從對(duì)象的癌變組織獲得樣本。在一些實(shí)例中,從 對(duì)象的免疫系統(tǒng)獲得樣本。在一些實(shí)例中,在不同時(shí)間點(diǎn),從同一對(duì)象獲得樣本。有時(shí),取 樣時(shí)間是規(guī)律的(例如,一天一次或一周一次),有時(shí),取樣時(shí)間受疾病的狀態(tài)控制(例如, 能在疾病癥狀增加時(shí)或當(dāng)患者有利地對(duì)藥物治療起反應(yīng)時(shí),獲取基因組樣本)。
[0163] 存在若干方法來(lái)通過(guò)分析基因組,生成基因組信息。能通過(guò)本領(lǐng)域非常公知的經(jīng) 典桑格測(cè)序方法,實(shí)現(xiàn)測(cè)序。還能使用高通量系統(tǒng),實(shí)現(xiàn)測(cè)序,一些高通量系統(tǒng)允許在被測(cè) 序核苷酸并入生長(zhǎng)鏈后馬上或在其并入時(shí),檢測(cè)所述核苷酸,即,實(shí)時(shí)或基本上實(shí)時(shí)檢測(cè) 序列。在一些情況下,高通量測(cè)序每小時(shí)生成至少1,〇〇〇、至少5, 000、至少10, 000、至少 20, 000、至少30, 000、至少40, 000、至少50, 000、至少100, 000或至少500, 000序列讀數(shù), 每一讀數(shù)為每次讀取至少50、至少60、至少70、至少80、至少90、至少100、至少120或至少 150喊基。
[0164] 在一些實(shí)施方式中,高通量測(cè)序包含通過(guò)合成化學(xué),基于可逆終止子的測(cè)序。例 如,Illumina的HiSeq2000機(jī)器在8天中能產(chǎn)生2000億DNA讀數(shù)。
[0165] 在一些實(shí)施方式中,高通量測(cè)序基于染料標(biāo)記的寡核苷酸的順序連接反應(yīng)。例如, 通過(guò)使用可從ABI Solid System獲得的技術(shù)。該基因分析平臺(tái)使得能夠?qū)B接到珠粒上 的克隆性擴(kuò)增的DNA片段進(jìn)行大規(guī)模的平行測(cè)序。
[0166] 在一些實(shí)施方式中,高通量測(cè)序包含使用可從Ion Torrent個(gè)人基因組測(cè)序儀 (PMG)獲得的技術(shù)。PGM能在兩小時(shí)內(nèi)執(zhí)行1千萬(wàn)次讀取。
[0167] 在一些實(shí)施方式中,高通量測(cè)序包含使用可從Helicos BioSciences Corporation (劍橋,馬薩諸塞)獲得的技術(shù),諸如單分子合成測(cè)序(SMSS) oSMSS允許在至多 24小時(shí)內(nèi)測(cè)序整個(gè)人類基因組。該快速測(cè)序方法還允許基本上實(shí)時(shí)或?qū)崟r(shí)地檢測(cè)序列中的 SNP核苷酸。SMSS很強(qiáng)大,因?yàn)榕cMIP技術(shù)一樣,其不要求在雜交前的預(yù)擴(kuò)增步驟。SMSS不 要求任何擴(kuò)增。在 US 公開(kāi)申請(qǐng)?zhí)?20060024711、20060024678、20060012793、20060012784 和20050100932中部分描述了 SMSS。
[0168] 在一些實(shí)施方式中,高通量測(cè)序包含使用可由454Lifesciences, Inc.(布蘭福 德,康涅狄格州)獲得的技術(shù),諸如包括光纖板的超微量滴定板裝置(Pico Titer Plate), 所述光纖板傳送由測(cè)序反應(yīng)生成的化學(xué)發(fā)光信號(hào)以便由儀器中的CCD照相機(jī)記錄。使用光 纖允許在4. 5小時(shí)中,檢測(cè)最少2千萬(wàn)個(gè)堿基對(duì)。
[0169] 在 Marguiles M.等的 "Genome sequencing in microfabricated high-density pricolitre reactors,',Nature,doi :10. 1038/nature03959,以及在 US 公開(kāi)申請(qǐng)?zhí)?20020012930、20030058629、20030100102、20030148344、20040248161、20050079510、 20050124022和20060078909中描述了在光纖檢測(cè)后使用珠粒擴(kuò)增的方法。
[0170] 在一些實(shí)施方式中,使用克隆單分子陣列(Solexa, Inc.)或利用可逆終止 子化學(xué)的合成測(cè)序(SBS),執(zhí)行高通量測(cè)序。在US專利號(hào)6, 969, 488、6, 897, 023、 6, 833, 246、6, 787, 308、和 US 公開(kāi)申請(qǐng) Nos. 20040106130、20030064398、20030022207 和 Constans, A.,The Scientist2003, 17 (13) : 36 中部分描述了這些技術(shù)。
[0171] 在一些實(shí)施方式中,RNA或DNA高通量測(cè)序能使用AnyDot芯片(Genovoxx,德 國(guó))發(fā)生。特別地,AnyDot芯片允許核苷酸熒光信號(hào)檢測(cè)的10x-50x增強(qiáng)。在國(guó)際公開(kāi)申 請(qǐng)?zhí)?W002/088382、W003/020968、W003/031947、W02005/044836、PCT/EP05/105657、PCT/ EP05/105655,和德國(guó)專利申請(qǐng)?zhí)?DE10149786、DE10214395、DE10356837、DE102004009704、 DE102004025696, DE102004025746, DE102004025694, DE102004025695, DE102004025744, DE102004025745和DE102005012301中部分描述了 AnyDot芯片及其使用方法。
[0172] 其他高通量測(cè)序系統(tǒng)包括在¥61^61",1,等,2001年2月16日5(^61?^、4(1 &1118,]\1 等,2000 年 3 月 24 日 Science、和 M. J, Levene,等,2003 年 1 月 Science299:682-686,以及 US公開(kāi)申請(qǐng)?zhí)?0030044781和2006/0078937中描述的那些高通量測(cè)序系統(tǒng)。大體上這些系 統(tǒng)包含經(jīng)在核酸分子上測(cè)量的聚合反應(yīng),通過(guò)臨時(shí)添加堿基,測(cè)序具有多個(gè)堿基的目標(biāo)核 酸分子,即,實(shí)時(shí)追蹤待測(cè)序的模板核酸分子上的核酸聚合酶的活性。然后,通過(guò)識(shí)別在堿 基添加順序中的每個(gè)步驟處,哪一堿基通過(guò)核酸聚合酶的催化活性被并入到目標(biāo)核酸的生 長(zhǎng)互補(bǔ)鏈中,能推導(dǎo)出序列。在適合于沿目標(biāo)核酸分子移動(dòng)和在活性位點(diǎn)延伸寡核苷酸引 物的位置處,提供目標(biāo)核酸分子復(fù)合物上的聚合酶。在活性位點(diǎn)附近提供多個(gè)標(biāo)記類型的 核苷酸類似物,每一可區(qū)別類型的核苷酸類似物與目標(biāo)核酸序列中的不同核苷酸互補(bǔ)。通 過(guò)使用聚合酶將核苷酸類似物添加到活性位點(diǎn)處的核酸鏈,來(lái)延伸生長(zhǎng)的核酸鏈,其中,所 添加的核苷酸類似物與目標(biāo)核酸在活性位點(diǎn)處的核苷酸互補(bǔ)。識(shí)別作為聚合步驟的結(jié)果而 被添加至寡核酸引物的核苷酸類似物。重復(fù)進(jìn)行提供標(biāo)記的核苷酸類似物、聚合生長(zhǎng)的核 酸鏈以及識(shí)別添加的核苷酸類似物的步驟,使得進(jìn)一步延伸核酸鏈并確定目標(biāo)核酸序列。
[0173] 在一個(gè)實(shí)施方式中,稀有細(xì)胞的遺傳材料的序列分析可以包括通過(guò)連接方案(簡(jiǎn) 并連接)的四色測(cè)序(例如SOLiD測(cè)序),其包含將錨定引物雜交到四個(gè)位置中的一個(gè)。然 后,執(zhí)行錨定引物針對(duì)用熒光染料標(biāo)記的簡(jiǎn)并九聚體的群體的酶連接反應(yīng)。在任何指定循 環(huán),所使用的九聚體的群體是結(jié)構(gòu),使得其位置之一的身份(identity)與附加到所述九聚 體的熒光團(tuán)的身份關(guān)聯(lián)。只要連接酶辨別出所述被查詢位置處的互補(bǔ)性,那么熒光信號(hào)允 許推導(dǎo)出堿基身份。在執(zhí)行連接和四色成像后,除去錨定引物:九聚體復(fù)合物,開(kāi)始新的循 環(huán)。在執(zhí)行連接后,成像序列信息的方法在本領(lǐng)域是公知的。
[0174] 在本發(fā)明的一些實(shí)施方式中,由用戶或客戶獲得基因組信息。基因組信息能經(jīng)網(wǎng) 絡(luò)傳送給接收基因組信息,分析信息并且將分析結(jié)果傳送回用戶或網(wǎng)絡(luò)的實(shí)體。在一些實(shí) 施方式中,僅傳送基因組信息的子集用于分析。只要在網(wǎng)絡(luò)上獲得或傳送基因組信息,則能 電子地存儲(chǔ)它。
[0175] 3.基因組變體的識(shí)別
[0176] 識(shí)別基因組信息中的變異是有用的,因?yàn)樗梢员硎緦?duì)象中的表型變異的原 因-一種理論是正常對(duì)象的基因組的不變區(qū)對(duì)編碼那些對(duì)象的發(fā)育和生存所需的主要成 分非常重要。變體可能說(shuō)明人之間的正常表型差異或變體可以說(shuō)明疾病相關(guān)變體。
[0177] 只要從對(duì)象獲得基因組信息,就能研究基因組信息來(lái)確定對(duì)象的基因組不同于標(biāo) 準(zhǔn)或?qū)φ栈蚪M之處。在一些實(shí)例中,基因組信息包括基因組或部分基因組。這些差異區(qū) 稱為"變體"。變體能是單核苷酸差異或能是較長(zhǎng)段基因組,例如,超出10, 100或1000堿基 對(duì)或更長(zhǎng)。變體還能包括一個(gè)或多個(gè)染色體的缺失。變體還能包括一個(gè)或多個(gè)染色體的插 入。變體能包括倒位或易位。在一些實(shí)例中,變體包括純合性區(qū)。在一些實(shí)例中,變體包括 基因組中的重復(fù)序列,例如,一個(gè)或多個(gè)三核苷酸重復(fù)(例如,一個(gè)或多個(gè)CAG重復(fù)或一個(gè) 或多個(gè)CGG重復(fù))。在一些實(shí)例中,變化包括重復(fù)序列數(shù)量上的差異。在一些實(shí)例中,變體 是SNP或SNV。在一些實(shí)例中,變體存在于線粒體遺材料、質(zhì)粒遺傳材料,或葉綠體遺傳材料 上。在一些實(shí)例中,變體處于特定染色體中,諸如se染色體。在一些實(shí)例中,變體處于染色 體內(nèi)的特定位置。
[0178] 在一些實(shí)例中,應(yīng)用在本文中所述的系統(tǒng)和方法來(lái)查找和研究轉(zhuǎn)錄組或部分轉(zhuǎn)錄 組中的變體。因此,在一些實(shí)例中,變體處于成熟mRNA、rRNA、tRNA或非編碼RNA中。
[0179] 在一些實(shí)例中,變體存在于人造核苷酸序列上。因此,在一些實(shí)施方式中,能使用 在本文中所述的系統(tǒng)和方法來(lái)分析包含人造核苷酸序列的樣本。
[0180] 能通過(guò)將基因組信息與先前收集的基因組信息數(shù)據(jù)庫(kù)進(jìn)行比較,識(shí)別變體?;蜻x 或并選地,能將基因組信息與測(cè)試樣本一致收集的樣本進(jìn)行比較來(lái)識(shí)別變體?;蜻x或并選 地,能從單個(gè)對(duì)象收集多個(gè)樣本。例如,能收集來(lái)自一個(gè)家庭的基因組樣本。這些樣本與大 量先前收集的樣本的數(shù)據(jù)庫(kù)有怎樣的區(qū)別能告知研究員來(lái)自該較大群體的變異。來(lái)自家庭 的基因組樣本還能相互比較來(lái)確定樣本間的變異。再例如,能從單個(gè)對(duì)象收集癌癥細(xì)胞的 基因組樣本和非癌癥細(xì)胞的基因組樣本。能確定來(lái)自單個(gè)對(duì)象的多個(gè)基因組樣本之間的變 體,以及任選地,與先前收集的基因組信息或家庭成員進(jìn)行比較。能統(tǒng)計(jì)地執(zhí)行基因組比較 來(lái)確定基因組樣本中的變體。
[0181] 4.變體的分析
[0182] 從指定樣本或樣本,很可能將發(fā)現(xiàn)許多變體,但僅一些變體與用戶有關(guān)(例如,與 疾病有關(guān)的變體)。因此,存在分析變體的重要性的需要。
[0183] 如在本文中所述的系統(tǒng)和方法,能分析變體。用于分析變體的方法和系統(tǒng)能用來(lái) 排序或過(guò)濾變體,以便將用戶的注意力集中在潛在相關(guān)變體上。給出用于確保為用戶提供 易處理的數(shù)據(jù)量的自動(dòng)方法和系統(tǒng)。
[0184] A)變體屬性的算法分析
[0185] 能使用算法來(lái)研究在基因組信息中識(shí)別的變體,以便例如預(yù)測(cè)變體如何起作用、 變體如何影響生物結(jié)果,或確定特定變體是否與特定表型有關(guān)。能使用各種算法來(lái)分析變 體。例如,能單獨(dú)或組合使用下述算法來(lái)分析變體:SIFT、PolyPhen、PolyPhen2、PANTHER、 SNPs3D、FastSNP、SNAP、LS-SNP、PMUT、PupaSuite、SNPeffect、SNPefTectV2· 0、F_SNP、MAPP、 PhD-SNP、MutDB、SNP Function Portal、PolyDoms、SNPOPromoter、Auto-Mute、MutPred、 SNPOEthnos、nsSNPanalyzer、SNPODomain、StSNP、MtSNPscore 或基因組變異服務(wù)器。這些 算法均試圖預(yù)測(cè)突變對(duì)蛋白質(zhì)功能/活性的影響。能將這些算法的預(yù)測(cè)輸出給用戶?;?者,算法的預(yù)測(cè)能用作系統(tǒng)的一部分,用于排序或過(guò)濾變體。在一些實(shí)例中,變體導(dǎo)致基因 產(chǎn)物,諸如RNA或蛋白質(zhì)的序列變化。在一些實(shí)例中,變體導(dǎo)致基因產(chǎn)物的轉(zhuǎn)錄或翻譯調(diào)控 的差異。在一些實(shí)例中,變體位于啟動(dòng)子、增強(qiáng)子、沉默基因或調(diào)節(jié)一個(gè)或多個(gè)感興趣基因 的另一調(diào)控序列中。在一些實(shí)例中,變體導(dǎo)致基因產(chǎn)物的剪接的變化。在一些實(shí)例中,變體 導(dǎo)致蛋白質(zhì)的翻譯后修飾或定位的變化,例如,磷酸化、細(xì)胞間運(yùn)輸或分泌的變化。在一些 實(shí)例中,變體導(dǎo)致基因產(chǎn)物的免疫原性的差異。
[0186] B)常見(jiàn)變體
[0187] 通過(guò)比較多個(gè)基因組樣本,可以確定在那些樣本上,個(gè)體變體有多常見(jiàn)。能對(duì)變體 指定數(shù)字或得分,其表示例如在指定群體中,那一變體的分布。例如,1000基因組項(xiàng)目已經(jīng) 收集了超出1000人對(duì)象的全基因組。將這些基因組進(jìn)行比較來(lái)量化人的遺傳變異。還能 執(zhí)行與美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館中的當(dāng)前研究或人類參比基因組修訂版18(hgl8)的比較。因 此,本發(fā)明的系統(tǒng)能確定樣本中個(gè)體變體有多常見(jiàn)(或共性得分的值)。
[0188] 不受理論的限制,識(shí)別常見(jiàn)變體可以用在識(shí)別導(dǎo)致疾病的變體中。例如,如果有疾 病的對(duì)象具有大量變體,研究人員能確定那些變體中的哪些在不具有疾病的群體中是常見(jiàn) 的。能不將這些常見(jiàn)變體視為導(dǎo)致疾病的變體?;蛘撸軐⑦@些常見(jiàn)變體排序?yàn)閷?dǎo)致疾病 變體的似然性更低。
[0189] 還能確定常見(jiàn)和不常見(jiàn)變體之間的關(guān)聯(lián)。例如,能計(jì)算兩個(gè)以上變體出現(xiàn)在指定 群體的指定對(duì)象中的似然性。研究人員能使用本發(fā)明的系統(tǒng)來(lái)確定例如,具有疾病的對(duì)象 是否具有變體的不太可能的組合。在一些實(shí)例中,在分析中利用單體型信息,以便例如確定 同時(shí)具有兩個(gè)變體的可能性。
[0190] C)將變體與信息關(guān)聯(lián)
[0191] 可能已經(jīng)在某種程度上研究了從對(duì)象識(shí)別出的變體,以及變體周圍或與之有關(guān)的 基因組區(qū)。將啟發(fā)研究人員或臨床醫(yī)師收集和分析與在樣本中識(shí)別出的變體有關(guān)的先前已 知的信息,例如,科技文獻(xiàn)中的信息。對(duì)所有所識(shí)別的變體收集該信息很耗時(shí)。收集也會(huì)很 困難,因?yàn)槲墨I(xiàn)用于描述可能與變體有關(guān)的特性的術(shù)語(yǔ)可能不一致??赡芙o研究人員或臨 床醫(yī)師留下難以在合理的時(shí)間框中篩選的大量信息。因此,在本文中所述的是用于從與基 因組變體有關(guān)的科技文獻(xiàn)識(shí)別信息的方法和系統(tǒng)。例如,只要變體位于基因組中并且與特 定基因相關(guān),研究人員將希望盡可能地了解該基因、其可能編碼的蛋白質(zhì)、包含所述蛋白質(zhì) 的通路以及已知受那一通路影響的任何疾病。該知識(shí)能幫助研究人員或臨床醫(yī)師確定該變 體是否很可能與感興趣的疾病或表型有關(guān)。因此,對(duì)每一變體,研究人員或臨床醫(yī)師能使用 大量公開(kāi)出版的科技文獻(xiàn)來(lái)試圖確定變體是否很可能與感興趣的疾病有關(guān),以及在一些實(shí) 施方式中,本發(fā)明具有用于加速該過(guò)程的方法和系統(tǒng)。在其他實(shí)施方式中,在本文中的方法 和系統(tǒng)用于通過(guò)根據(jù)研究人員或臨床醫(yī)師最可能感興趣的表型來(lái)排序或過(guò)濾,縮小臨床醫(yī) 師或研究人員應(yīng)當(dāng)注意哪些變體。
[0192] 能通過(guò)將變體與已知關(guān)于所述變體在基因組上的特定區(qū)的信息進(jìn)行比較,研究變 體。例如,如果已知變體存在于已知編碼特定蛋白質(zhì)或調(diào)控特定蛋白質(zhì)的表達(dá)的基因組區(qū) 中,那么,能將那一變體鏈接到那一蛋白質(zhì)、與那一蛋白質(zhì)有關(guān)的任何疾病、那一蛋白質(zhì)可 能在其中起作用的任何通路、已知針對(duì)該蛋白質(zhì)的任何藥物等等。因?yàn)樽凅w能遍布基因組, 因此,與該變體有關(guān)的信息量非常大。為了將大量變體與大量生物數(shù)據(jù)進(jìn)行比較,能使用可 獲得的各種計(jì)算機(jī)化系統(tǒng)和數(shù)據(jù)庫(kù)。
[0193] 指定樣本中的變體的數(shù)量可能非常大,例如,超出1,000、5, 000、10, 000、25, 000、 50, 000、100, 000、500, 000、1,000, 000或更大。研究人員或臨床醫(yī)師可能希望縮小或按優(yōu)先 程序排列待了解變體的數(shù)量。能使用過(guò)濾器來(lái)排序變體。在一些實(shí)例中,應(yīng)用一個(gè)或多個(gè) 過(guò)濾器識(shí)別少于500、200、100、50、30、10、5或更少變體,用于進(jìn)一步查詢和將一個(gè)或多個(gè) 所識(shí)別的變體輸出給用戶。例如,研究人員能從具有疾病的患者獲得樣本。然后,研究人員 能獲得全基因組序列。然后,研究人員能識(shí)別全基因組序列中的變體。然后,研究人員能使 用在本文中所述的系統(tǒng)和方法來(lái)識(shí)別與變體有關(guān)的科技文獻(xiàn)。接著,研究人員能按與變體 有關(guān)的已知特性排序或過(guò)濾變體。因此,例如,研究人員能將指令提供給計(jì)算機(jī)來(lái)識(shí)別與已 知屬性,例如,特定疾病、蛋白質(zhì)、基因、通路或患者群體具有已知關(guān)系的變體。相應(yīng)地,在本 文中描述了用于使用已知信息,例如,科技文獻(xiàn)中的信息排序或排列變體的方法和系統(tǒng)。
[0194] 變體周圍的序列還能與先前收集的數(shù)據(jù)進(jìn)行比較來(lái)預(yù)測(cè)變體周圍的基因組區(qū)的 功能。在各種實(shí)施方式中,接近但不與變體重疊的基因或基因組區(qū)與已知信息進(jìn)行比較。變 體和與已知信息比較的基因或基因組區(qū)之間的距離可以是變體有多大可能影響或與所述 基因或基因組區(qū)相關(guān)的度量。例如,研究人員可能選擇指示計(jì)算機(jī)選擇樣本中位于離感興 趣的基因特定距離內(nèi)的所有變體。如果返回太多結(jié)果,研究人員可能減小該距離,以便降低 所識(shí)別的變體的數(shù)量。在一些情況下,計(jì)算機(jī)將自動(dòng)地調(diào)整變體和感興趣的基因之間的距 離以便輸出預(yù)定數(shù)目的變體。
[0195] D)用于變體分析的數(shù)據(jù)庫(kù)
[0196] 使用在本文中所述的專用數(shù)據(jù)庫(kù)和計(jì)算機(jī)系統(tǒng),實(shí)現(xiàn)將大量已知信息與變體列表 進(jìn)行比較。相應(yīng)地,本發(fā)明的各種實(shí)施方式提供系統(tǒng)和方法,以映射和/或比較用戶提供的 基因組數(shù)據(jù)庫(kù)與知識(shí)本體或知識(shí)庫(kù)的內(nèi)容。在一些實(shí)施方式中,在用戶提供的數(shù)據(jù)集的內(nèi) 容和以知識(shí)本體或知識(shí)庫(kù)表示的生物實(shí)體之間,執(zhí)行映射和/或比較。在一些實(shí)施方式中, 選擇生物實(shí)體的子集,用于比較和/或映射。比較可以包括分析知識(shí)庫(kù)或知識(shí)本體中的生 物實(shí)體的屬性值之間的差異。映射可以包括識(shí)別或匹配用戶提供的數(shù)據(jù)集中的一個(gè)或多個(gè) 生物實(shí)體與在知識(shí)庫(kù)或知識(shí)本體中存儲(chǔ)的一個(gè)或多個(gè)生物實(shí)體。映射還能包括識(shí)別共享行 為,例如,用戶提供的數(shù)據(jù)集中的一個(gè)或多個(gè)生物實(shí)體的性質(zhì)的增加和知識(shí)庫(kù)或知識(shí)本體 中的一個(gè)或多個(gè)生物實(shí)體的增加。用戶提供的數(shù)據(jù)集可以包括本領(lǐng)域已知的各種適當(dāng)?shù)臄?shù) 據(jù)類型,例如基因表達(dá)、基因分型、測(cè)序或單核苷酸多態(tài)性、變體、拷貝數(shù)目變異、單體分型 或基因組結(jié)構(gòu)。數(shù)據(jù)集能與診斷或臨床數(shù)據(jù)有關(guān),或能生成數(shù)據(jù)集,用于基本科學(xué)研究。
[0197] 在各種實(shí)施方式中,可以在能交互的一個(gè)或多個(gè)數(shù)據(jù)庫(kù)中存儲(chǔ)和訪問(wèn)信息,例如, 科學(xué)研究結(jié)果。例如,第一數(shù)據(jù)庫(kù)能是根據(jù)通常采用效應(yīng)物基因(和/或產(chǎn)物)_>客體基 因(和/或產(chǎn)物)型關(guān)系的形式的預(yù)定因果關(guān)系構(gòu)造的科學(xué)研究結(jié)果的知識(shí)庫(kù)("KB") (在下文中,"研究結(jié)果KB")。在一些情況下,用于該研究結(jié)果KB的數(shù)據(jù)庫(kù)結(jié)構(gòu)是基于幀 的知識(shí)表示數(shù)據(jù)模型,盡管也可以將其他數(shù)據(jù)庫(kù)結(jié)構(gòu)用于科學(xué)研究結(jié)果的結(jié)構(gòu)化。第二數(shù) 據(jù)庫(kù)可以是知識(shí)本體。知識(shí)本體是與感興趣的領(lǐng)域有關(guān)的分類學(xué)和形式概念和關(guān)系的多 層次表示,最好以基于幀的格式組織。研究結(jié)果KB和知識(shí)本體在此統(tǒng)稱為知識(shí)表示系統(tǒng) ("KRS")。當(dāng)實(shí)施本發(fā)明時(shí),可以采用其他數(shù)據(jù)庫(kù)結(jié)構(gòu)來(lái)表示知識(shí)體,所述數(shù)據(jù)庫(kù)結(jié)構(gòu)包括 含有KRS的一個(gè)或多個(gè)知識(shí)庫(kù)。然而,當(dāng)使用知識(shí)本體與其他KB -起來(lái)形成KRS,或單獨(dú)作 為KRS時(shí),為推理有關(guān)并非顯而易見(jiàn)的科學(xué)研究結(jié)果的結(jié)論,尤其是在研究結(jié)果形成一系 列復(fù)雜或多方向的原因性事件的情況下,本發(fā)明的方法能利用在知識(shí)本體中定義的分類學(xué) 和形式概念和關(guān)系。因此,下文提供的是可以用來(lái)實(shí)施本發(fā)明的示例性知識(shí)本體的進(jìn)一步 描述。
[0198] 在此所述的系統(tǒng)能使用結(jié)構(gòu)化數(shù)據(jù)庫(kù)來(lái)組織數(shù)據(jù)。在一些實(shí)施方式中,系統(tǒng)包括 知識(shí)本體式數(shù)據(jù)庫(kù)。在一些實(shí)施方式中,數(shù)據(jù)分析包中的知識(shí)本體式數(shù)據(jù)庫(kù)包括與數(shù)據(jù)集 的生物內(nèi)容有關(guān)的有組織的信息。在 US2011-0191286A1、US2008-0033819A1、US7,650,339、 US2004-0236740A1、US7, 577, 683、US2007-0178473A1、和 US2006-0036368 中描述了與知識(shí) 本體式數(shù)據(jù)庫(kù)有關(guān)的系統(tǒng)和方法,所述文件通過(guò)參考引入本文。
[0199] 在各種實(shí)施方式中,在本文中所述的系統(tǒng)和方法涉及基因組信息的組織和分析, 所述基因組信息包括與基因、它們的DNA序列、mRNA、當(dāng)表達(dá)基因時(shí)產(chǎn)生的蛋白質(zhì)以及所表 達(dá)的蛋白質(zhì)的一個(gè)或多個(gè)生物效應(yīng)有關(guān)的信息,還包括其他相關(guān)信息。對(duì)讀者來(lái)說(shuō),很清楚 基因組信息還可以是與其他基因組學(xué)、蛋白質(zhì)組學(xué)、新陳代謝和行為信息有關(guān)的,與其他生 物過(guò)程有關(guān)的,以及與除蛋白質(zhì)和基因外的生物組成部分諸如細(xì)胞包括例如細(xì)胞的生物效 應(yīng)有關(guān)的信息。知識(shí)本體結(jié)構(gòu)的例子以基于幀的格式存儲(chǔ)其內(nèi)容,允許知識(shí)本體的檢索來(lái) 發(fā)現(xiàn)知識(shí)本體中存儲(chǔ)的項(xiàng)之間的關(guān)系或?qū)χM(jìn)行推理。在該示例性知識(shí)本體中,主要的組 織分組稱為類。類表示共享類似屬性的一組事物。例如,在本文中所述的知識(shí)本體中,一個(gè) 類是人類細(xì)胞,該類包括肺細(xì)胞、皮膚細(xì)胞、腦細(xì)胞等等。類的成員的每一個(gè)是那一類的"實(shí) 例",那些實(shí)例表示屬于特定類內(nèi)的單個(gè)項(xiàng)或要素。由此,對(duì)象的血細(xì)胞是人類細(xì)胞的類的 實(shí)例。
[0200] 知識(shí)本體中的不同實(shí)例之間的關(guān)系由"槽(slot)"定義。槽能視作關(guān)聯(lián)兩個(gè)類的 動(dòng)詞。例如,胰腺的β細(xì)胞具有槽"產(chǎn)生",其將它們鏈接到胰島素。"方面(facet)"表示 有關(guān)"槽"的更詳細(xì)信息并且在一些情況下,當(dāng)涉及類的特定實(shí)例時(shí),能限制槽能具有的值。 槽和方面限定和結(jié)構(gòu)化類之間的分類關(guān)系和部分子(partonomic)關(guān)系。
[0201] 當(dāng)將科學(xué)研究結(jié)果輸入到知識(shí)本體中時(shí),將每一研究結(jié)果分成其離散組分,或"概 念"。因此,例如,在研究結(jié)果:"在感染Sindbis病毒后,通過(guò)大鼠 DRG神經(jīng)元的凋亡,人類 Bax 蛋白力口速死亡(Human Bax protein accelerated the death by apoptosis of rat dorsal root ganglion (〃DRG")neurons after infection with Sindbis Virus),'中,下述 每一個(gè)加括號(hào)的短語(yǔ)是概念:在[感染][Sindbis病毒]后,通過(guò)[大鼠][DRG神經(jīng)元]的 [凋亡],[人類Bax蛋白]加速[死亡]。作用物概念是使得或?qū)е峦分械牧硪环磻?yīng)的 所述通路的物理生物成分。在該實(shí)例中,作用物概念是人類Bax蛋白和Sindbis病毒。作 用物概念很可能是基因或基因產(chǎn)物(包括例如受體和酶),但還可以是例如其他DNA序列 (包括例如未轉(zhuǎn)錄或未轉(zhuǎn)錄和翻譯的DNA)、RNA (包括例如mRNA轉(zhuǎn)錄本)、細(xì)胞以及細(xì)菌、病 毒或其他病原體。
[0202] 為增加知識(shí)本體效率,對(duì)相同的事物開(kāi)發(fā)共同的術(shù)語(yǔ)集是很有用的。對(duì)由不同實(shí) 驗(yàn)室應(yīng)用于同一基因、蛋白或其他生物材料的不同術(shù)語(yǔ),以及對(duì)隨慣例發(fā)展,隨時(shí)間改變的 術(shù)語(yǔ),是在快速進(jìn)展的科學(xué)領(lǐng)域,如基因組學(xué)中公認(rèn)的問(wèn)題。由此,最好組織基因組信息的 存儲(chǔ)和訪問(wèn)以確保語(yǔ)義一致性。例如,數(shù)據(jù)輸入能被限制成預(yù)置術(shù)語(yǔ)或術(shù)語(yǔ)匯編,包括將所 輸入的術(shù)語(yǔ)自動(dòng)地轉(zhuǎn)換成可接受術(shù)語(yǔ)的科學(xué)詞典,以及更新所述詞典或匯編的人工審核。
[0203] 與由知識(shí)本體獲得和描述的主題無(wú)關(guān),不管是基因組學(xué)還是毒物學(xué),有必要仔細(xì) 地檢驗(yàn)包括該主題的知識(shí)體,使得該知識(shí)能被組織成適當(dāng)?shù)念惒⑶矣蛇m當(dāng)槽和方面鏈接, 并且最終以允許適當(dāng)?shù)乇硎?、搜索、訪問(wèn)和維護(hù)包含在知識(shí)本體中的內(nèi)容和關(guān)系的形式存 儲(chǔ)。
[0204] 在共同受讓的美國(guó)專利:(1)6, 772, 160、(2) 6, 741,986 和(3) 7, 577, 683 中描述了 選擇用于將包括在知識(shí)本體中的信息或"事實(shí)"的源以及用來(lái)消化吸收那些源使得能以適 當(dāng)形式,將事實(shí)提供給知識(shí)本體的方法,所述專利的全部?jī)?nèi)容通過(guò)參考并入本文用于所有 目的。
[0205] 閱讀包括用于知識(shí)本體的數(shù)據(jù)源的文章的科學(xué)家可以通過(guò)填寫(xiě)事實(shí)模板,對(duì)那些 文章中包含的事實(shí)進(jìn)行摘要(abstract)。所摘要的事實(shí)是指從以知識(shí)本體的計(jì)算機(jī)信息語(yǔ) 言重寫(xiě)(例如,通過(guò)使用模板)的信息源檢索的事實(shí)。所完成的事實(shí)模板稱為實(shí)例化模板。 實(shí)例化模板的內(nèi)容位于知識(shí)本體中。這些事實(shí)模板的類型和格式由知識(shí)本體的內(nèi)容和結(jié)構(gòu) 規(guī)定。包含在這些事實(shí)中的信息還存儲(chǔ)在如上所述,用來(lái)存儲(chǔ)科學(xué)研究結(jié)果的研究結(jié)果KB 中。盡管研究結(jié)果KB中的所有信息均包含在知識(shí)本體中,但當(dāng)稍后檢索特定研究結(jié)果時(shí), 使用研究結(jié)果KB會(huì)是有利的,因?yàn)檫@有助于在以下情況中檢索多個(gè)研究結(jié)果的計(jì)算效率, 在所述情況中不需要有關(guān)知識(shí)本體內(nèi)研究結(jié)果中的例如效應(yīng)物和/或客體的分類的信息。
[0206] 知識(shí)本體的每一所允許的事實(shí)類型還能與事實(shí)模板關(guān)聯(lián),創(chuàng)建該事實(shí)模板以便于 將包括那一特定事實(shí)類型的信息或數(shù)據(jù)適當(dāng)輸入知識(shí)本體中。在科學(xué)家從這些資源進(jìn)行信 息摘要時(shí),將這些事實(shí)模板向其呈現(xiàn)。在本文中所述的用于生成知識(shí)本體和/或知識(shí)庫(kù)的 系統(tǒng)可以提供用于數(shù)據(jù)輸入的計(jì)算機(jī)界面。例如,模板內(nèi)的下拉菜單可以為系統(tǒng)的操作人 員提供用于特定事實(shí)類型的適當(dāng)?shù)念?、槽和方面?br>
[0207] 對(duì)信息進(jìn)行摘要的過(guò)程稱為結(jié)構(gòu)化知識(shí),因?yàn)槠鋵⒅R(shí)放在知識(shí)本體的結(jié)構(gòu)和架 構(gòu)中。用于結(jié)構(gòu)化知識(shí)的方法基于實(shí)驗(yàn)設(shè)計(jì)和生物概念的形式化模型。這些模型為捕獲通 常在學(xué)術(shù)文獻(xiàn)中發(fā)現(xiàn)的表述松散隨意的研究結(jié)果的相當(dāng)大部分提供構(gòu)架。特別是能夠有針 對(duì)性地捕獲具體等級(jí)的實(shí)驗(yàn)結(jié)果,其對(duì)本文所述的系統(tǒng)的用戶,例如,工業(yè)和學(xué)術(shù)科學(xué)家最 有價(jià)值。例如,在基因組領(lǐng)域中,能挑出聚焦在對(duì)基因、基因產(chǎn)物(RNA和蛋白質(zhì))和小分子 的干擾以及各種物理刺激兩者對(duì)生物系統(tǒng)的影響的知識(shí)。這些干擾和刺激形成示例性知識(shí) 本體的主干并且為開(kāi)發(fā)復(fù)合生物信息的更復(fù)雜表示提供必要構(gòu)架。
[0208] 能翻譯成知識(shí)本體的事實(shí)和生物關(guān)系的類型的例子是:a)Fadd蛋白量的增量增 加凋亡;b)Raf水平的減小增加 Rip2的活化;以及c)與野生型等位基因相比,CCR5的等位 基因 Λ32降低HIV傳輸。在一些實(shí)施方式中,根據(jù)過(guò)程和客體限定生物系統(tǒng)。分立的客體 是實(shí)際物體,諸如特定基因、蛋白、細(xì)胞和器官。過(guò)程是作用在那些客體上的動(dòng)作。過(guò)程的 例子包括磷酸化,其作用在諸如蛋白的分立客體上,以及作用在細(xì)胞上的細(xì)胞凋亡。對(duì)客體 的干擾能對(duì)過(guò)程或客體產(chǎn)生影響。使用客體和過(guò)程的這些概念,可以由各種事實(shí)類型表示 知識(shí)本體中的信息。
[0209] 如上所述,模板與每一事實(shí)類型關(guān)聯(lián)。在一些實(shí)施方式中,存在用于事實(shí)輸入到知 識(shí)本體中的五種模型類型??梢詫⑾鄳?yīng)的事實(shí)類型描述為觀察事實(shí)、比較事實(shí)、案例對(duì)照事 實(shí)、案例對(duì)照修飾物(modifier)事實(shí),或案例對(duì)照比較事實(shí)。當(dāng)然,如本領(lǐng)域的技術(shù)人員所 公知的,事實(shí)類型的結(jié)構(gòu)和種類由知識(shí)本體的知識(shí)領(lǐng)域而定。
[0210] 一些實(shí)施方式的上述事實(shí)類型的每一個(gè)的例子如下。觀察事實(shí)(0F)有關(guān)某物的 觀察。0F的例子是"觀察到INRS-1的酪氨酸磷酸化"。對(duì)照事實(shí)(CF)將一物的屬性與另一 物的屬性進(jìn)行比較。CF的例子是"一個(gè)器官中的淋巴細(xì)胞的大小大于另一器官中的淋巴細(xì) 胞的大小"。案例對(duì)照事實(shí)(CCF)描述某一事物的變更,導(dǎo)致某一事物的屬性方面的變化。 CCF的例子是"源自小鼠的Brca-Ι增加了 293細(xì)胞的凋亡率"。案例對(duì)照比較事實(shí)(CCCF) 將某一事物在第一事實(shí)中的影響與某一事物在第二事實(shí)中的影響進(jìn)行比較。CCCF的例子 是"Fas增加具有Brd4(由載體轉(zhuǎn)化引入)的293細(xì)胞的總凋亡,大于沒(méi)有Brd4的293細(xì) 胞的總凋亡"。案例對(duì)照修飾物事實(shí)(CCPMF)表示某一事物的變更,導(dǎo)致過(guò)程修飾物的屬性 的變化。CCPMF的例子是"源自小鼠的BRCA-1提高了 293細(xì)胞凋亡的誘導(dǎo)率。
[0211] 在一些實(shí)施方式中,事實(shí)驗(yàn)證方案包括源自模板的事實(shí)的自然語(yǔ)言顯示,使得科 學(xué)家能通過(guò)審閱輸入到模板中的結(jié)構(gòu)化事實(shí)的自然語(yǔ)言表示來(lái)校驗(yàn)所輸入到模板中的事 實(shí)是否是期望的事實(shí)。
[0212] 作為替代或附加地,通過(guò)使用計(jì)算機(jī)"讀取"和分析論文以及從其提取數(shù)據(jù),來(lái)自 動(dòng)地提取信息以用于包括在知識(shí)本體中。在這些實(shí)施方式中,首先使用計(jì)算語(yǔ)言學(xué)解釋自 然語(yǔ)言(例如英語(yǔ))源文本來(lái)最大程度地確定包含在自然語(yǔ)言來(lái)源中的"事實(shí)"的準(zhǔn)確含 義。在該"事實(shí)"被確定之后,其可以被審閱,然后根據(jù)自動(dòng)化過(guò)程、手動(dòng)過(guò)程(人工參與) 或兩者的結(jié)合來(lái)對(duì)其進(jìn)行摘要。在一些實(shí)施方式中,結(jié)合手動(dòng)和自動(dòng)過(guò)程用來(lái)校驗(yàn)從源文 本提取的事實(shí)是感興趣的事實(shí)、準(zhǔn)確地反映源文本的預(yù)期含義,以及為存儲(chǔ)在知識(shí)本體中, 被適當(dāng)?shù)亟Y(jié)構(gòu)化。數(shù)據(jù)源不限于期刊文章。其他數(shù)據(jù)源,包括例如公共數(shù)據(jù)庫(kù)、私有數(shù)據(jù)庫(kù) 和專有數(shù)據(jù),諸如在特定實(shí)驗(yàn)室內(nèi)開(kāi)發(fā)并且局限于該實(shí)驗(yàn)室的機(jī)密數(shù)據(jù)。
[0213] 研究結(jié)果信息可以來(lái)自非正式源,以及如上所述的更正式的文件和出版物源。例 如,可以使用搜索網(wǎng)絡(luò)然后試圖提取包含在看來(lái)有關(guān)感興趣的生物概念的頁(yè)面中的信息的 網(wǎng)絡(luò)搜索工具(例如,在互聯(lián)網(wǎng)上搜索的網(wǎng)絡(luò)爬蟲(chóng)),提取研究結(jié)果。作為替代或附加地,可 以使用搜索引擎來(lái)掃描公司郵件、討論組、PowerPoint演示文稿等等,來(lái)嘗試識(shí)別,然后提 取與生物功能有關(guān)的信息。當(dāng)然應(yīng)當(dāng)預(yù)期來(lái)自這些源的結(jié)果的較低質(zhì)量,因?yàn)閿?shù)據(jù)解析將 是自動(dòng)的,可能將比手動(dòng)輸入內(nèi)容有較高的錯(cuò)誤率,以及內(nèi)容源更大可能是非正式的或失 效的討論,而不是同行評(píng)審期刊等等。
[0214] 研究結(jié)果不需要限于基于文獻(xiàn)的私有或公共信息。例如,研究結(jié)果能包括來(lái)自例 如公司的微陣列芯片實(shí)驗(yàn)的研究結(jié)果。在這種情況下,能審閱陣列數(shù)據(jù)來(lái)試圖識(shí)別哪些基 因正被共表達(dá)和/或共調(diào)控,能由此推導(dǎo)出關(guān)系。然后,將這些研究結(jié)果直接加 入KB或直接加入圖形結(jié)構(gòu)。該數(shù)據(jù)還可以包括科學(xué)家直接輸入的研究結(jié)果,或能是直接來(lái) 自實(shí)驗(yàn)的數(shù)據(jù)(即,未經(jīng)科學(xué)家解釋)。上述的研究結(jié)果采集過(guò)程除數(shù)據(jù)提取或輸入過(guò)程 夕卜,也可以用作用于出版的工具。當(dāng)計(jì)劃提交出版時(shí),作者需要做的事是包括摘要和索引關(guān) 鍵字,還可能要求他們以"研究結(jié)果格式"寫(xiě)下他們的主要結(jié)論。在該預(yù)期用途中,作者或 第三方可以執(zhí)行研究結(jié)果提?。ɡ?,如與國(guó)家醫(yī)學(xué)圖書(shū)館目前負(fù)責(zé)審批、如果不是創(chuàng)建 的話,與論文摘要有關(guān)的關(guān)鍵字的方式一樣)。為創(chuàng)建結(jié)構(gòu)化數(shù)據(jù)庫(kù),不需要KRS技術(shù)。而 在一些情況下,KRS技術(shù)可能是有利的,因?yàn)樗?jiǎn)化數(shù)據(jù)采集和數(shù)據(jù)結(jié)構(gòu)化過(guò)程中的某些任 務(wù),還可以使用現(xiàn)有的關(guān)系、對(duì)象或XML數(shù)據(jù)庫(kù)技術(shù)來(lái)創(chuàng)建KB。
[0215] 通過(guò)從多個(gè)源采集數(shù)據(jù)并且存儲(chǔ)在數(shù)據(jù)庫(kù)中,諸如如上所述,可以確定先前非常 難以或甚至不可能識(shí)別的變體、基因和基因產(chǎn)物之間的關(guān)系,因?yàn)槔?,采集?shù)據(jù)的源的數(shù) 量以及使用不一致語(yǔ)言(例如,同時(shí)或隨時(shí)間流逝相同蛋白使用不同名稱)。因此,盡管對(duì) 一個(gè)或少量對(duì)象來(lái)說(shuō),可能能跟上與非常窄限定的領(lǐng)域有關(guān)的所有或大部分出版物,但想 要搜索公共數(shù)據(jù)源來(lái)識(shí)別與大量變體有關(guān)的疾病通路,而不借助于諸如上述的結(jié)構(gòu)化數(shù)據(jù) 庫(kù)的想法是不現(xiàn)實(shí)的。即使對(duì)于特定變體、疾病、基因或基因產(chǎn)物,不借助結(jié)構(gòu)化數(shù)據(jù)庫(kù),該 任務(wù)也會(huì)非常困難并且耗時(shí)。
[0216] 本發(fā)明的各種實(shí)施方式涉及分組知識(shí)庫(kù)或知識(shí)本體中的生物實(shí)體的方法和系統(tǒng)。 在一些實(shí)例中,使用方法學(xué),構(gòu)建分組來(lái)產(chǎn)生上述簡(jiǎn)檔(profile)。能使用生物實(shí)體的過(guò)程或 通路關(guān)聯(lián)生成簡(jiǎn)檔。在一些實(shí)例中,將對(duì)簡(jiǎn)檔或分組注釋由簡(jiǎn)檔或分組中統(tǒng)計(jì)學(xué)上顯著的 基因集共享的生物關(guān)聯(lián)。在一些實(shí)例中,共享類似生物關(guān)聯(lián),諸如生物過(guò)程、通路、或組織特 異性表達(dá)的簡(jiǎn)檔或分組將被匯編成簡(jiǎn)檔和分組的集合。然而,用于生成簡(jiǎn)檔或分組的集合 的根本原因不限于生物關(guān)聯(lián)。能使用由知識(shí)庫(kù)或知識(shí)本體制定的其他共享特性,形成簡(jiǎn)檔 和分組的集合。在一些實(shí)例中,能由除知識(shí)庫(kù)或知識(shí)本體外的其他源,諸如系統(tǒng)的管理員或 用戶,制定共享的特性?;蛘?,能在沒(méi)有任何顯而易見(jiàn)的原因或在用戶意愿(例如用戶喜愛(ài) 的簡(jiǎn)檔或分組)的情況下,生成集合。
[0217] 本發(fā)明的各種實(shí)施方式提供將知識(shí)本體或知識(shí)庫(kù)中的生物實(shí)體過(guò)濾成實(shí)體的子 集的方法和系統(tǒng)。在一些實(shí)例中,使用預(yù)先形成的組或簡(jiǎn)檔或其集合來(lái)將生物實(shí)體過(guò)濾成 子集。在一些實(shí)例中,系統(tǒng)允許用戶通過(guò)用戶界面生成過(guò)濾器或過(guò)濾器集?;蛘?,系統(tǒng)可以 提供預(yù)先配置的過(guò)濾器或過(guò)濾器集。在一些實(shí)例中,系統(tǒng)使用由用戶提供的輸入來(lái)生成、選 擇和/或修改預(yù)先配置的過(guò)濾器。在各種實(shí)施方式中,通過(guò)在本文中所述的標(biāo)準(zhǔn),過(guò)濾用戶 提供的數(shù)據(jù)中的序列變體,為用戶提供可管理的變體集。在許多情況下,在產(chǎn)生數(shù)據(jù)集的研 究目的背景下,應(yīng)用過(guò)濾器。
[0218] "簡(jiǎn)檔"可以包括有關(guān)諸如基因或基因產(chǎn)物的特定組合的概念的信息并且可以根 據(jù)所述概念來(lái)進(jìn)行限定,所述基因或基因產(chǎn)物看來(lái)以生物協(xié)同的方式起作用,例如形成以 下的全部或部分:疾病相關(guān)通路,細(xì)胞和/或細(xì)胞成分,解剖學(xué)部位,分子、細(xì)胞或疾病過(guò) 程,以及它們之間的關(guān)系。用在本論述中的"簡(jiǎn)檔"是指根據(jù)適合于研究人員的目的的標(biāo)準(zhǔn) 限定的、包含在數(shù)據(jù)庫(kù)中的數(shù)據(jù)的子集。就此而言,標(biāo)準(zhǔn)是指至少部分由研究人員的需要確 定的簡(jiǎn)檔的任何屬性。這可以包括根據(jù)一個(gè)或多個(gè)生物概念、簡(jiǎn)檔的大?。ɑ驁D形大小), 或簡(jiǎn)檔中的研究結(jié)果連通性限定的標(biāo)準(zhǔn)。因此,應(yīng)當(dāng)記住下述列舉的簡(jiǎn)檔標(biāo)準(zhǔn)的例子僅是 簡(jiǎn)檔定義標(biāo)準(zhǔn)的示例性實(shí)施方式。通常,應(yīng)理解并且真正預(yù)期簡(jiǎn)檔定義標(biāo)準(zhǔn)將在本發(fā)明的 不同應(yīng)用間改變,因?yàn)楦鶕?jù)本發(fā)明的簡(jiǎn)檔結(jié)構(gòu)受研究目的影響。
[0219] 由此,一個(gè)或多個(gè)簡(jiǎn)檔在通信信息中的效率由用來(lái)定義簡(jiǎn)檔的標(biāo)準(zhǔn)而定,其自然 而然地由正為其找尋信息的具體科學(xué)目標(biāo)而定。例如,如果認(rèn)為與特定細(xì)胞過(guò)程有關(guān)的信 息將對(duì)目標(biāo)通路非常有益,那么,與該細(xì)胞過(guò)程有關(guān)的研究結(jié)果將是當(dāng)選擇簡(jiǎn)檔標(biāo)準(zhǔn)時(shí)考 慮的因素。在另一情況下,研究結(jié)果源(例如組織類型)或簡(jiǎn)檔的大?。ɡ纾纠?jiǎn)檔的 圖形結(jié)構(gòu)的大?。┛赡苁怯行У暮?jiǎn)檔選擇準(zhǔn)則。
[0220] 本發(fā)明的分析的各個(gè)方面生成用于生物通路的計(jì)算模型。這些模型,稱為"簡(jiǎn)檔" 變?yōu)橛糜谠儐?wèn)和解釋基因組數(shù)據(jù)集,例如變體的工具。它們從KB中的研究結(jié)果構(gòu)建而成, 并且由基因(產(chǎn)物)抽象體(abstraction)以及它們已知的大分子相互作用的集合,以及 KB聲稱所述基因在其中起作用的各種生物過(guò)程組成。
[0221] 在示例性實(shí)施方式中,基因抽象包括KB中可能來(lái)自人和非人物種的基因和基因 產(chǎn)物的已知實(shí)例所映射的官方LocusLink基因符號(hào)。分子間相互作用由效應(yīng)物基因(產(chǎn) 物)一客體基因(產(chǎn)物)關(guān)系的特定實(shí)例組成,因此將基因(產(chǎn)物)實(shí)例映射到更抽象基 因符號(hào)允許推理出一般化的效應(yīng)物基因符號(hào)一客體基因符號(hào)關(guān)系(如前所述)。借用圖論 的概念,能將可用基因和基因相互作用計(jì)算上表示為由有向"邊"(用于相互作用)連接的 "節(jié)點(diǎn)"(用于基因)的集合,各種屬性與每一節(jié)點(diǎn)(基因?qū)傩裕╆P(guān)聯(lián),以及各種屬性與每一 邊關(guān)聯(lián)(例如分子過(guò)程類型、過(guò)程變化的方向、斷言所述相互作用的研究結(jié)果/出版物的數(shù) 量等等)。此外,各種屬性能與整個(gè)簡(jiǎn)檔關(guān)聯(lián),包括例如生物過(guò)程、簡(jiǎn)檔中基因的數(shù)量、構(gòu)建 方法等等。
[0222] 將豐富的節(jié)點(diǎn)、邊和圖形屬性的集合與簡(jiǎn)檔關(guān)聯(lián)的能力提供將各種選擇標(biāo)準(zhǔn)用在 簡(jiǎn)檔上的機(jī)會(huì):選擇節(jié)點(diǎn)和/或邊期間應(yīng)用的標(biāo)準(zhǔn)能提供所生成的簡(jiǎn)檔的組成和結(jié)構(gòu)的多 樣性。在簡(jiǎn)檔構(gòu)成后但在針對(duì)用戶提供的數(shù)據(jù)進(jìn)行評(píng)分之前應(yīng)用的標(biāo)準(zhǔn)能降低徒勞無(wú)功的 錯(cuò)誤"命中"或提供更集中的分析。在簡(jiǎn)檔構(gòu)成后和針對(duì)用戶提供的數(shù)據(jù)進(jìn)行評(píng)分后應(yīng)用 的標(biāo)準(zhǔn)能提供簡(jiǎn)檔的其它分級(jí)(通過(guò)評(píng)分以外的標(biāo)準(zhǔn)),用于由研究人員評(píng)審。在各個(gè)實(shí)施 方式中,在本文中所述的方法和系統(tǒng)使用過(guò)濾器來(lái)將標(biāo)準(zhǔn)應(yīng)用在簡(jiǎn)檔、其分組或集合上來(lái) 分級(jí)、強(qiáng)調(diào)、削弱或消除所述簡(jiǎn)檔、其分組或集合。
[0223] 簡(jiǎn)檔生成從適合某一標(biāo)準(zhǔn)集的主圖(或網(wǎng)絡(luò))的動(dòng)態(tài)預(yù)計(jì)算開(kāi)始。標(biāo)準(zhǔn)可以由系 統(tǒng)預(yù)置或用戶定義,以及可以屬于數(shù)據(jù)庫(kù)中的任何種類,例如基因或基因產(chǎn)物、化學(xué)物質(zhì)、 蛋白復(fù)合物、蛋白家族、過(guò)程、研究結(jié)果源、實(shí)驗(yàn)技術(shù)、有機(jī)體環(huán)境或其他標(biāo)準(zhǔn),例如,根據(jù)用 戶的數(shù)據(jù)缺少的基因。然后,基于由系統(tǒng)預(yù)置或用戶定義的另外的標(biāo)準(zhǔn),例如,用戶特別感 興趣的基因、每一簡(jiǎn)檔的節(jié)點(diǎn)的最大數(shù)等等,由該圖創(chuàng)建簡(jiǎn)檔。
[0224] 從概念上講,每一簡(jiǎn)檔是針對(duì)KB,查找滿足該標(biāo)準(zhǔn)的研究結(jié)果網(wǎng)絡(luò)的響應(yīng)。這些 簡(jiǎn)檔可以脫離KB的拷貝預(yù)先構(gòu)建來(lái)優(yōu)化性能(產(chǎn)生預(yù)制簡(jiǎn)檔庫(kù)),或可以直接針對(duì)KRS構(gòu) 建簡(jiǎn)檔,使得允許簡(jiǎn)檔包含當(dāng)前發(fā)現(xiàn)的研究結(jié)果,就象它們存儲(chǔ)在KB中一樣。還能使用某 種"自舉(bootstrap)方法"構(gòu)建簡(jiǎn)檔:能構(gòu)建初始簡(jiǎn)檔集,然后測(cè)試其對(duì)進(jìn)一步提供的數(shù) 據(jù)的變化的靈敏度,諸如表達(dá)變化,以及能擴(kuò)大最佳簡(jiǎn)檔(通過(guò)增加更多基因成員、通過(guò)合 并簡(jiǎn)檔,或通過(guò)改變定義簡(jiǎn)檔模型的標(biāo)準(zhǔn)),以及重復(fù)靈敏度測(cè)試。
[0225] 在示例性實(shí)施方式中,通過(guò)首先抽取KB研究結(jié)果的子集,然后將研究結(jié)果轉(zhuǎn)換成 大的圖形數(shù)據(jù)結(jié)構(gòu)來(lái)生成簡(jiǎn)檔。這本質(zhì)上是經(jīng)得起高性能圖形數(shù)據(jù)結(jié)構(gòu)操作的KB的簡(jiǎn)化 版本。該簡(jiǎn)化的一部分可以包括將來(lái)自基于文獻(xiàn)表示的研究結(jié)果,其中,每一研究結(jié)果表 示來(lái)自所實(shí)施的實(shí)驗(yàn)的結(jié)果,轉(zhuǎn)換成基于生物學(xué)的表示,其中,每一研究結(jié)果表示有關(guān)生物 學(xué)的結(jié)論。然后,簡(jiǎn)檔生成算法處理該圖來(lái)產(chǎn)生子網(wǎng)絡(luò)(簡(jiǎn)檔)的集合,所述子網(wǎng)絡(luò)可以 是分析特定的,例如用戶提供的生物數(shù)據(jù),諸如測(cè)序、變體或陣列表達(dá)數(shù)據(jù),被輸入作為簡(jiǎn) 檔生成算法的參數(shù),并且與輸入標(biāo)準(zhǔn)匹配。輸入標(biāo)準(zhǔn)的例子是簡(jiǎn)檔的大?。恳缓?jiǎn)檔的節(jié) 點(diǎn)數(shù))、它們是否在用戶數(shù)據(jù)集中顯示出差示結(jié)果,或者標(biāo)記為用戶感興趣、所包含的過(guò)程 (例如"活化+分裂"或"磷酸化"),和/或研究結(jié)果源(例如,僅在人的肝細(xì)胞中觀察到 的)。給定簡(jiǎn)檔生成算法和參數(shù)集,能預(yù)先生成許多這種集合。如果在KB的拷貝上構(gòu)建簡(jiǎn) 檔集合,當(dāng)KB改變時(shí)(例如當(dāng)添加新的研究結(jié)果時(shí)),可以重新構(gòu)建簡(jiǎn)檔來(lái)保持它們最新。 還可以動(dòng)態(tài)地構(gòu)建集合,即,當(dāng)KB改變時(shí),或當(dāng)新的用戶提供的生物數(shù)據(jù)變?yōu)榭捎脮r(shí)。在本 發(fā)明的范圍內(nèi)設(shè)想和考慮了任一配置。
[0226] 能使用各種簡(jiǎn)檔生成算法來(lái)生成在本文中所述的簡(jiǎn)檔,諸如基因中心算法。在一 些實(shí)施方式中,算法對(duì)KB中的每一基因創(chuàng)建一個(gè)簡(jiǎn)檔。每一基因的簡(jiǎn)檔由"錨定(anchor) " 簡(jiǎn)檔的基因和一組匹配某一標(biāo)準(zhǔn)的"鄰近"基因組成。"鄰近"基因或基因產(chǎn)物可以指通過(guò)由 將基因鏈接到錨定基因的研究結(jié)果、或這樣的研究結(jié)果的數(shù)量定義的某種關(guān)聯(lián),與錨(或 "種子")最直接相關(guān)的那些基因或基因產(chǎn)物。該方法稱為"模型驅(qū)動(dòng)型",因?yàn)楹?jiǎn)檔基于預(yù) 定的算法模型?;蛘?,可以使用"數(shù)據(jù)驅(qū)動(dòng)型"模型,其中,不預(yù)先生成簡(jiǎn)檔,相反,假定是用 戶感興趣的數(shù)據(jù)集(例如變體)以及由KB揭示的它們已知的相互作用?;旧?,能使用來(lái) 自KB的研究結(jié)果,以這種方式聯(lián)系所有用戶基因。
[0227] 在一些實(shí)施方式中,與第二生物實(shí)體最直接相關(guān)的"鄰近"生物實(shí)體,最常見(jiàn)的是 基因或基因產(chǎn)物,稱為與第二生物實(shí)體相隔一個(gè)"中繼段"。在一些實(shí)施方式中,彼此相隔一 個(gè)中繼段的生物實(shí)體是由知識(shí)本體構(gòu)成的知識(shí)庫(kù)中的邊連接的節(jié)點(diǎn)。在此所使用的"中繼 段"可以包括根據(jù)知識(shí)本體構(gòu)造的知識(shí)庫(kù)中的生物實(shí)體(包括但不限于基因/基因產(chǎn)物) 之間的關(guān)系。這些關(guān)系可以包括但不限于"結(jié)合"、"活化"或"抑制"。
[0228] 在非限定性例子中,可以按來(lái)自知識(shí)庫(kù)的文獻(xiàn)支持度和/或使直接相互作用優(yōu)于 間接相互作用,定義中繼段的強(qiáng)度或質(zhì)量。例如,如果在知識(shí)庫(kù)中存在許多特定事實(shí)的表 示,則中繼段更強(qiáng),以及如果在知識(shí)庫(kù)中存在特定事實(shí)的矛盾表示,則中繼段更弱。在另一 例子中,如果起因關(guān)系是中繼段源,則中繼段能更強(qiáng),如果關(guān)聯(lián)是中繼段源則更弱。在一些 實(shí)施方式中,能至少部分使用中繼段的數(shù)量來(lái)確定中繼段的強(qiáng)度。例如,能使第一中繼段重 于第二中繼段,以及第二中繼段重于第三中繼段。
[0229] 在先前所述的實(shí)施方式中,使用混合模型和數(shù)據(jù)驅(qū)動(dòng)方法,至少部分基于用戶預(yù) 定的數(shù)據(jù)集,例如變體來(lái)確定所構(gòu)成的簡(jiǎn)檔的屬性。在此使用"基因"來(lái)可互換地描述基因 或基因產(chǎn)物,在其指示在由知識(shí)本體構(gòu)建的知識(shí)庫(kù)中或在知識(shí)本體中表示的生物實(shí)體時(shí)。 可以使用純模型驅(qū)動(dòng)的方法來(lái)構(gòu)成簡(jiǎn)檔。該方法可以視作本質(zhì)為"基因中心":圍繞KB中 的每個(gè)基因符號(hào)來(lái)構(gòu)建通路簡(jiǎn)檔,將每個(gè)基因符號(hào)用作"種子"基因,并且包括在KB中已知 與所述種子相互作用的其它基因。用這種方式,簡(jiǎn)檔用來(lái)表示種子基因的"相互作用鄰域" 或"影響的范圍"。或者可以將非基因概念用作"種子"來(lái)構(gòu)建簡(jiǎn)檔。例如,能使用細(xì)胞過(guò) 程,如凋亡來(lái)選擇多個(gè)基因充當(dāng)種子,在這種情況下,凋亡中涉及的KB的所有或一些基因 子集。能將形成種子的基因添加到簡(jiǎn)檔,以及它們已知的分子間相互作用(如邊)。能通過(guò) 一次、二次或多次增加所需數(shù)目的"鄰近"基因,增加與原始種子基因可能不直接相關(guān)的更 多基因,進(jìn)一步擴(kuò)增簡(jiǎn)檔。與簡(jiǎn)檔中的"種子"的屬性無(wú)關(guān),能使用簡(jiǎn)檔來(lái)賦予數(shù)據(jù)集另外 的含義,如果它們能與用戶提供的數(shù)據(jù)集關(guān)聯(lián),諸如基因組數(shù)據(jù)集(例如變體),那么,"種 子"變?yōu)榻忉尩闹行摹?br>
[0230] 除"種子"節(jié)點(diǎn)和將該種子與其他節(jié)點(diǎn)相連的邊外,可以以各種方式構(gòu)建簡(jiǎn)檔。許 多這些方法受驅(qū)使來(lái)處理下述問(wèn)題:由KRS表示的整個(gè)大分子相互作用的集合通常會(huì)過(guò)大 和太不同,以致不能整體上與用戶提供的數(shù)據(jù),通常是與基因組內(nèi)容進(jìn)行比較。因此,需要 算法來(lái)將該大的"大分子相互作用空間""瓜分"成許多實(shí)用大小的相互作用鄰域來(lái)支持基 因組數(shù)據(jù)集的更細(xì)粒度探測(cè)。該瓜分的完成能在不同簡(jiǎn)檔之間具有相當(dāng)大的基因重疊,以 便最小化可以丟失基因的稀有組合的機(jī)會(huì)。另一方面,能設(shè)計(jì)大小適度的簡(jiǎn)檔,使得歸屬于 該簡(jiǎn)檔的生物功能的集合不會(huì)太不同或混雜。較小的簡(jiǎn)檔也顯著地有助于人工評(píng)審和解 釋。另一方面,簡(jiǎn)檔應(yīng)當(dāng)足夠大(即,它們應(yīng)當(dāng)包括例如足夠多個(gè)基因),使得當(dāng)計(jì)算與基 因組數(shù)據(jù)集和/或與生物關(guān)聯(lián),諸如在KB中定義的分子、細(xì)胞、生物體和/或疾病過(guò)程的關(guān) 系時(shí),有足夠的統(tǒng)計(jì)功效。另一考慮是連接到中心"種子"基因的基因集合中的簡(jiǎn)檔的相對(duì) 對(duì)稱性。換句話說(shuō),高度互連的"第一層"基因(即,直接與種子相連的基因)不應(yīng)當(dāng)用第2 層基因(即離種子一步的基因)來(lái)淹沒(méi)(swamp)簡(jiǎn)檔,因?yàn)檫@會(huì)改變簡(jiǎn)檔的種子基因中心 性。對(duì)集中在離感興趣的基因一個(gè)或多個(gè)中繼段的基因的研究,能將簡(jiǎn)檔設(shè)計(jì)成允許離所 需基因所需量的中繼段。例如,能生成包括離目標(biāo)基因1、2、3、4、5、6、7、8、9或10"中繼段" 的基因的簡(jiǎn)檔。
[0231] 為解決上述目的而開(kāi)發(fā)的另外的算法的例子稱為"螺旋"算法。在該算法中,由所 有已知的相互作用的全擴(kuò)展主圖生成簡(jiǎn)檔。由保存在KB中的成對(duì)大分子相互作用的整個(gè) 集合構(gòu)成該圖,以及在其不同部分,密度(節(jié)點(diǎn)間的連通性)自然不同。對(duì)由主圖中的節(jié)點(diǎn) 表不的每一基因或基因廣物:1)將基因(例如,隨機(jī)基因或包含變體的基因,或按另一標(biāo)準(zhǔn) 選擇的基因,例如,與特定生物通路的基因中的一個(gè))或其產(chǎn)物指定為"種子"節(jié)點(diǎn)。2)只 要支持種子和近鄰相互作用的主張的研究結(jié)果數(shù)大于1,增加所有直接相鄰節(jié)點(diǎn)(已知參 與種子基因的相互作用的基因),或如果已經(jīng)達(dá)到最大節(jié)點(diǎn)數(shù),則停止增加。消除僅基于單 個(gè)研究結(jié)果的相互作用被認(rèn)為是剔除未經(jīng)確認(rèn)或未充分證實(shí)的研究結(jié)果。這些是第1層 節(jié)點(diǎn)以及從種子到所述節(jié)點(diǎn)的連接是第1層邊。3)對(duì)每一第1層節(jié)點(diǎn),只要支持相互作用 的研究結(jié)果的數(shù)量為4或更大,匯編作為第1層節(jié)點(diǎn)的近鄰的節(jié)點(diǎn)和邊(除種子外)的列 表。這增加了所述相互作用中科學(xué)置信度的嚴(yán)格性,如上所述,這與一個(gè)基因?qū)α硪粋€(gè)基因 的影響度在它們之間存在居間基因時(shí)降低這樣的假設(shè)相一致。這些額外的節(jié)點(diǎn)和邊被視為 "第2層"候選物。4)通過(guò)減少研究結(jié)果數(shù),排序第2層候選邊。5)在已經(jīng)按研究結(jié)果數(shù)列 舉和排序所有第2層邊候選物后,開(kāi)始以循環(huán)方式,將第2層候選物增加到簡(jiǎn)檔,通過(guò)選擇 具有最高研究結(jié)果數(shù)的第2層邊,對(duì)第1層節(jié)點(diǎn)的每一個(gè),挑選一個(gè)第2層邊候選物。6)重 復(fù)步驟5)中的循環(huán)邊添加,直到用完第2層邊候選數(shù),或已經(jīng)達(dá)到用于簡(jiǎn)檔的最大節(jié)點(diǎn)數(shù)。 這導(dǎo)致基于具有證實(shí)相互作用的最大科學(xué)研究結(jié)果數(shù)的邊的簡(jiǎn)檔。
[0232] 上述"螺旋"法(基本上為可用節(jié)點(diǎn)的寬度優(yōu)先搜索)目標(biāo)在于以對(duì)稱方式擴(kuò)大簡(jiǎn) 檔。通過(guò)均等的機(jī)會(huì)(但優(yōu)先具有更多研究結(jié)果數(shù)的那些),從第1層節(jié)點(diǎn)增加第2層邊, 降低高度關(guān)聯(lián)的第1層節(jié)點(diǎn)(具有多個(gè)第2層邊)用其連接來(lái)淹沒(méi)簡(jiǎn)檔。由此,最佳地表 示種子基因周圍的影響范圍。還可以使用另外的簡(jiǎn)檔匯編算法。
[0233] 上述算法,當(dāng)應(yīng)用于KB中的每一基因或產(chǎn)物時(shí),產(chǎn)生簡(jiǎn)檔庫(kù),在其中采集每一基 因的影響范圍的模型。可以構(gòu)建簡(jiǎn)檔庫(kù),當(dāng)從可用邊選擇時(shí),使用特定的邊類型/分子過(guò)程 標(biāo)準(zhǔn)、細(xì)胞過(guò)程類型、疾病狀態(tài)等等(例如,僅結(jié)合、僅功能相互作用,或所有類型)。邊方向 性也能是標(biāo)準(zhǔn),在許多情況下,將上游或下游角色指定到節(jié)點(diǎn)。當(dāng)分析基因組數(shù)據(jù)集時(shí)(例 如,序列變體數(shù)據(jù)集),可使用簡(jiǎn)檔庫(kù)(或多個(gè)簡(jiǎn)檔庫(kù))中的每一對(duì)象模型來(lái)詢問(wèn)數(shù)據(jù)集。 在一些情況下,計(jì)算模型和數(shù)據(jù)集之間的相應(yīng)擬合。在一些情況下,在不同模型簡(jiǎn)檔中定義 的相互作用能指導(dǎo)數(shù)據(jù)分析。例如,在分析中,能考慮離一個(gè)或多個(gè)"種子"基因預(yù)定數(shù)目的 "中繼段"的模型簡(jiǎn)檔內(nèi)的"鄰近"基因。以選定方向性選擇這些"鄰近"基因來(lái)與"種子"基 因關(guān)聯(lián)。"鄰近"基因的變化對(duì)"種子"基因的凈影響(已知活化或非活化其他基因的活性 的一個(gè)基因活化/增加或抑制/減少作用的調(diào)和)能是標(biāo)準(zhǔn)。當(dāng)分析用戶提供的數(shù)據(jù)時(shí), "種子"基因?qū)?鄰近"基因的凈影響也能是標(biāo)準(zhǔn)。
[0234] 該方法稱為"模型驅(qū)動(dòng)型"。如上所述,還可以執(zhí)行簡(jiǎn)檔構(gòu)建的基本不同的"數(shù)據(jù) 驅(qū)動(dòng)型"方法。
[0235] 匯編簡(jiǎn)檔的用途集中在詢問(wèn)和解釋將簡(jiǎn)檔視作靜態(tài)模型的大型基因組數(shù)據(jù)集上。 簡(jiǎn)檔的另外的用途也是可行的。例如,能將通路簡(jiǎn)檔供給能允許研究交互基因的動(dòng)態(tài)行為 的模擬軟件。能使用分子間相互作用的過(guò)程屬性和方向性(增加/減小)來(lái)跟蹤有關(guān)簡(jiǎn)檔 中一個(gè)或多個(gè)基因的變化(充足)的"假設(shè)"情景分析以及那一變化對(duì)簡(jiǎn)檔的其他成員的后 果。布爾網(wǎng)絡(luò)和佩特里網(wǎng)提供可以用在這些模擬中的一些技術(shù)。能如何使用通路的另一例 子是在生成可檢驗(yàn)假定中。能設(shè)計(jì)計(jì)算系統(tǒng)來(lái)生成有關(guān)分子相互作用的實(shí)驗(yàn)上可檢驗(yàn)的預(yù) 測(cè),以及甚至可能報(bào)告用于執(zhí)行實(shí)驗(yàn)的可用試劑(例如在一些簡(jiǎn)檔基因中,小鼠基因敲除) 以及另外的信息。還能有用于簡(jiǎn)檔模型的修正/微調(diào)的計(jì)算支持來(lái)反映從那些實(shí)驗(yàn)驗(yàn)證獲 得的新知識(shí)。
[0236] 在各種實(shí)施方式中,基于與用戶提供的生物數(shù)據(jù)集,例如變體的關(guān)系,選擇和分級(jí) 簡(jiǎn)檔。例如,能分析來(lái)自患同一疾病的多個(gè)對(duì)象的序列變體數(shù)據(jù)。包含所述對(duì)象共有的多 個(gè)變體的簡(jiǎn)檔分級(jí)更高。如果共有變體在正常對(duì)象中不常見(jiàn),能進(jìn)一步調(diào)整分級(jí)??紤]在 指定簡(jiǎn)檔中找到所述變體集的統(tǒng)計(jì)學(xué)顯著性,能進(jìn)一步調(diào)整分級(jí)。還能以生物概念為基礎(chǔ), 基于簡(jiǎn)檔和疾病之間的匹配,調(diào)整分級(jí)。通過(guò)相對(duì)于用戶提供的數(shù)據(jù),例如,序列變體數(shù)據(jù) 或基因表達(dá)數(shù)據(jù),分級(jí)簡(jiǎn)檔來(lái)計(jì)算P值,對(duì)簡(jiǎn)檔進(jìn)行評(píng)分。在特定應(yīng)用中,存在所生成的許 多簡(jiǎn)檔庫(kù),每一簡(jiǎn)檔庫(kù)包含匹配用戶或系統(tǒng)指定標(biāo)準(zhǔn)的簡(jiǎn)檔。
[0237] 在一些實(shí)施方式中,可以開(kāi)發(fā)包括圖論度量的綜合計(jì)分度量,或作為綜合得分或 用于基于現(xiàn)有得分對(duì)匹配的簡(jiǎn)檔的粗略分級(jí)。例如,對(duì)使用第一度量非常均等得分的N個(gè) 簡(jiǎn)檔,進(jìn)一步基于例如假定基因越相關(guān),它們更可能一起運(yùn)轉(zhuǎn)的圖連通性度量分級(jí)它們。
[0238] 在另一實(shí)施方式中,系統(tǒng)能允許用戶注釋來(lái)表示(假定)表達(dá)數(shù)據(jù)集內(nèi)的依賴性。 具體地,如果用戶具有有關(guān)他們的實(shí)驗(yàn)中的基因(例如包含變體的基因)之間的依賴性的 先驗(yàn)知識(shí),能允許用戶將先驗(yàn)知識(shí)(例如作為邊注釋、新邊的添加或移除假定其證據(jù)弱的 邊)包括在待分析的基因集中。該特征可能要求分析基因集具有邊圖(如果期望以圖形 式顯示該信息),所述邊圖使用與簡(jiǎn)檔邊所基于的那些相同的指向性語(yǔ)義(semantics of directness),S卩,能由用戶提供的信息構(gòu)建數(shù)據(jù)驅(qū)動(dòng)型簡(jiǎn)檔?;蛘?,可以提供輸入為用于邊 的可視輸出而提供的邊和表的方式。由此,除來(lái)自文獻(xiàn)的研究結(jié)果外,用戶能增加他們自己 的研究結(jié)果,或通過(guò)例如指定置信量度,修改現(xiàn)有的研究結(jié)果。這些用戶的研究結(jié)果能是對(duì) KB本身或圖形本身的改進(jìn)。更新KB可以使用模板來(lái)輸入這些新的研究結(jié)果。如果將這些 研究結(jié)果增加到圖形,那么可以使用為圖形編輯定制的模板。然后,可以使用該產(chǎn)生的數(shù)據(jù) 或模型驅(qū)動(dòng)型簡(jiǎn)檔(或多個(gè)簡(jiǎn)檔,如果對(duì)基因集,存在一個(gè)以上的假定依賴性的話)來(lái)通過(guò) 例如與基于模型的簡(jiǎn)檔進(jìn)行同構(gòu)比較,進(jìn)一步分級(jí)現(xiàn)有的簡(jiǎn)檔。由此,在一些實(shí)施方式中, 相對(duì)于在KRS中聲稱的先驗(yàn)知識(shí)和有關(guān)數(shù)據(jù)的用戶的個(gè)體知識(shí)假設(shè),分級(jí)數(shù)據(jù)或模型驅(qū)動(dòng) 型簡(jiǎn)檔。
[0239] 可以將結(jié)果輸出在線提供給用戶,作為使所有相關(guān)KB應(yīng)用均可用的集成站點(diǎn)的 一部分。這能是有利的,因?yàn)樵谒休敵鲋猩傻亩鄠€(gè)信息基于在KB中存儲(chǔ)的概念和研究 結(jié)果,也可以使這樣的信息可為位于網(wǎng)絡(luò)(例如互聯(lián)網(wǎng))上的客戶獲得,用于詢問(wèn)KB以獲 得有關(guān)結(jié)果的更詳細(xì)信息。由此,本發(fā)明的實(shí)施方式能例如通過(guò)允許"點(diǎn)通(click-thru)" 和"下挖(drill-down) "功能性來(lái)將用戶從高級(jí)結(jié)果帶入到詳細(xì)支持證據(jù),與支持內(nèi)容緊密 結(jié)合。
[0240] 能揭示來(lái)自以統(tǒng)計(jì)上顯著的方式,與簡(jiǎn)檔中的基因的集合有關(guān)的KB的生物現(xiàn)象。 盡管簡(jiǎn)檔中的20或40基因各自可能與許多生物過(guò)程有關(guān),但最感興趣的生物過(guò)程是由簡(jiǎn) 檔中的許多基因共有的生物過(guò)程。為成為統(tǒng)計(jì)上顯著,共有生物關(guān)聯(lián)應(yīng)當(dāng)以比僅憑偶然所 期望的頻率高的頻率發(fā)生。此外,能計(jì)算出用于這些關(guān)聯(lián)的統(tǒng)計(jì)學(xué)顯著性度量,例如,使用 P值。
[0241] 例如,假定簡(jiǎn)檔X具有20基因,以及那些20個(gè)基因中,(從KB)已知12個(gè)基因與 細(xì)胞過(guò)程"遷移"有關(guān)。待回答的問(wèn)題是:鏈接到"遷移"的20個(gè)基因中的12個(gè)是否能被 簡(jiǎn)單地解釋為反映整個(gè)KB的基因集中,"遷移"細(xì)胞過(guò)程的頻率,或"遷移"基因的該濃度是 否為不常見(jiàn)。為回答該問(wèn)題,需要知道將KB中的任何隨機(jī)選擇的基因與"遷移"關(guān)聯(lián)的概 率(P)。通過(guò)計(jì)算KB中表示的各種細(xì)胞過(guò)程中的KB基因的分布,能確定該概率。然后,通 過(guò)將信息存儲(chǔ)在數(shù)據(jù)庫(kù)中,能使該分布通過(guò)分析軟件被快速訪問(wèn)。在一個(gè)示例性例子中,該 KB中的總共10, 500基因中的386個(gè)基因被鏈接到"遷移"的細(xì)胞過(guò)程。這表示任何隨機(jī)選 擇的基因?qū)⑹?遷移"基因的概率為386 + 10, 500或0. 0368。使用二項(xiàng)式分布,計(jì)算20個(gè) 隨機(jī)選擇的基因中的12被鏈接到"遷移"的概率:
[0242]
【權(quán)利要求】
1. 一種生物演化過(guò)濾器,其中,所述生物演化過(guò)濾器: (a) 被配置成接收包含變體的數(shù)據(jù)集,其中,所述數(shù)據(jù)集包含來(lái)自一個(gè)或多個(gè)個(gè)體的一 個(gè)或多個(gè)樣本的變體數(shù)據(jù), (b) 與生物信息數(shù)據(jù)庫(kù)通信,以及 (c) 通過(guò)與生物信息有關(guān)的變體,過(guò)濾數(shù)據(jù)集來(lái)變換數(shù)據(jù)集,其中,過(guò)濾包括在數(shù)據(jù)集 和一些或全部生物信息之間建立關(guān)聯(lián)。
2. 如權(quán)利要求1所述的生物演化過(guò)濾器,其中,生物信息數(shù)據(jù)庫(kù)是精選匯總的生物醫(yī) 學(xué)內(nèi)容的知識(shí)庫(kù),其中,使用知識(shí)本體來(lái)構(gòu)建所述知識(shí)庫(kù)。
3. 如權(quán)利要求2所述的生物演化過(guò)濾器,其中,變體和生物信息之間的關(guān)聯(lián)包含一個(gè) 或多個(gè)中繼段定義的關(guān)系。
4. 如權(quán)利要求2所述的生物演化過(guò)濾器,其中,用戶選擇用于過(guò)濾的生物信息。
5. 如權(quán)利要求2所述的生物演化過(guò)濾器,其中,過(guò)濾揭示與生物信息有關(guān)的變體。
6. 如權(quán)利要求2所述的生物演化過(guò)濾器,其中,過(guò)濾屏蔽與生物信息無(wú)關(guān)的變體。
7. 如權(quán)利要求2所述的生物演化過(guò)濾器,其中,過(guò)濾屏蔽與生物信息有關(guān)的變體。
8. 如權(quán)利要求2所述的生物演化過(guò)濾器,其中,過(guò)濾揭示與生物信息無(wú)關(guān)的變體。
9. 如權(quán)利要求2所述的生物演化過(guò)濾器,其中,由數(shù)據(jù)集推斷用于過(guò)濾的生物信息。
10. 如權(quán)利要求2所述的生物演化過(guò)濾器,其中,由用戶先前輸入的研究設(shè)計(jì)信息,推 斷用于過(guò)濾的生物信息。
11. 如權(quán)利要求2所述的生物演化過(guò)濾器,其中,生物演化過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的其 他過(guò)濾器組合來(lái)生成最終變體列表。
12. 如權(quán)利要求11所述的生物演化過(guò)濾器,其中,生物演化過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的 下述過(guò)濾器的一個(gè)或多個(gè)組合來(lái)達(dá)到少于200變體的最終變體列表:常見(jiàn)變體過(guò)濾器、預(yù) 測(cè)有害過(guò)濾器、癌癥驅(qū)動(dòng)變體過(guò)濾器、物理位置過(guò)濾器、遺傳分析過(guò)濾器、表達(dá)過(guò)濾器、用戶 定義變體過(guò)濾器、藥物遺傳學(xué)過(guò)濾器或定制注釋過(guò)濾器。
13. 如權(quán)利要求2所述的生物演化過(guò)濾器,其中,生物演化過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的下 述過(guò)濾器的一個(gè)或多個(gè)組合來(lái)達(dá)到少于50變體的最終變體列表:常見(jiàn)變體過(guò)濾器、預(yù)測(cè)有 害過(guò)濾器、癌癥驅(qū)動(dòng)變體過(guò)濾器、物理位置過(guò)濾器、遺傳分析過(guò)濾器、表達(dá)過(guò)濾器、用戶定義 變體過(guò)濾器、藥物遺傳學(xué)過(guò)濾器或定制注釋過(guò)濾器。
14. 如權(quán)利要求3所述的生物演化過(guò)濾器,其中,能由用戶調(diào)整生物演化過(guò)濾器的嚴(yán)格 性,以及其中,來(lái)自用戶的嚴(yán)格性調(diào)整變更下述的一個(gè)或多個(gè): (a) 在用于過(guò)濾的關(guān)聯(lián)中的中繼段的數(shù)量; (b) 在用于過(guò)濾的關(guān)聯(lián)中的中繼段的強(qiáng)度; (c) 在用于過(guò)濾的關(guān)聯(lián)中的中繼段的凈效應(yīng);和/或 (d) 在用于過(guò)濾的關(guān)聯(lián)中的中繼段的上游或下游屬性。
15. 如權(quán)利要求3所述的生物演化過(guò)濾器,其中,基于最終過(guò)濾數(shù)據(jù)集中的所需變體數(shù) 量,自動(dòng)地調(diào)整生物演化過(guò)濾器的嚴(yán)格性,其中,嚴(yán)格性調(diào)整變更下述的一個(gè)或多個(gè): (a) 在用于過(guò)濾的關(guān)聯(lián)中的中繼段的數(shù)量; (b) 在用于過(guò)濾的關(guān)聯(lián)中的中繼段的強(qiáng)度; (c) 在用于過(guò)濾的關(guān)聯(lián)中的中繼段的凈效應(yīng);和/或 (d)在用于過(guò)濾的關(guān)聯(lián)中的中繼段的上游或下游屬性。
16. 如權(quán)利要求2至15所述的生物演化過(guò)濾器,其中,僅使用上游中繼段。
17. 如權(quán)利要求2至15所述的生物演化過(guò)濾器,其中,僅使用下游中繼段。
18. 如權(quán)利要求2至15所述的生物演化過(guò)濾器,其中,使用中繼段的凈效應(yīng)。
19. 如權(quán)利要求2所述的生物演化過(guò)濾器,其中,用于過(guò)濾的生物信息是生物功能。
20. 如權(quán)利要求19所述的生物演化過(guò)濾器,其中,生物功能是基因、轉(zhuǎn)錄本、蛋白、分子 復(fù)合物、分子家族或酶活性、治療或治療分子靶標(biāo)、通路、過(guò)程、表型、疾病、功能性結(jié)構(gòu)域、 行為、解剖特性、生理性狀或狀態(tài)、生物標(biāo)志物或其組合。
21. 如權(quán)利要求2所述的生物演化過(guò)濾器,其中,通過(guò)選擇用于過(guò)濾的生物信息,調(diào)整 生物演化過(guò)濾器的嚴(yán)格性。
22. 如權(quán)利要求2所述的生物演化過(guò)濾器,其中,生物演化過(guò)濾器被配置成從先前在同 一數(shù)據(jù)集上執(zhí)行的另一過(guò)濾器接收掩碼。
23. 如權(quán)利要求2所述的生物演化過(guò)濾器,其中,生物演化過(guò)濾器與用于將過(guò)濾數(shù)據(jù)輸 出給用戶的硬件通信。
24. -種計(jì)算機(jī)程序產(chǎn)品,具有制定權(quán)利要求1至23的任何一個(gè)的生物演化過(guò)濾器的 機(jī)器可讀指令。
25. -種癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,所述癌癥驅(qū)動(dòng)變體過(guò)濾器: (a) 被配置成接收包含變體的數(shù)據(jù)集,其中,所述數(shù)據(jù)集包含來(lái)自一個(gè)或多個(gè)個(gè)體的一 個(gè)或多個(gè)樣本的變體數(shù)據(jù),以及 (b) 能通過(guò)與一種或多種增殖性病癥有關(guān)的變體,過(guò)濾數(shù)據(jù)集來(lái)變換數(shù)據(jù)集。
26. 如權(quán)利要求25所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,所述癌癥驅(qū)動(dòng)變體過(guò)濾器與用 于將過(guò)濾數(shù)據(jù)集輸出給用戶的硬件通信。
27. 如權(quán)利要求25所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,懷疑該數(shù)據(jù)集包含與一種或多 種增殖性病癥有關(guān)的變體。
28. 如權(quán)利要求27所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,數(shù)據(jù)集包括源自具有增殖性病 癥的患者的一個(gè)或多個(gè)樣本。
29. 如權(quán)利要求25所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,增殖性病癥是癌癥。
30. 如權(quán)利要求25所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,用戶指定用于過(guò)濾的感興趣的 一種或多種增殖性病癥。
31. 如權(quán)利要求25所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,過(guò)濾揭示與一種或多種增殖性 病癥有關(guān)的變體。
32. 如權(quán)利要求25所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,過(guò)濾屏蔽與一種或多種增殖性 病癥無(wú)關(guān)的變體。
33. 如權(quán)利要求25所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,過(guò)濾屏蔽與一種或多種增殖性 病癥有關(guān)的變體。
34. 如權(quán)利要求25所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,過(guò)濾揭示與一種或多種增殖性 病癥無(wú)關(guān)的變體。
35. 如權(quán)利要求25所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,由數(shù)據(jù)集推斷用于過(guò)濾的一種 或多種增殖性病癥。
36. 如權(quán)利要求25所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,由用戶先前輸入的研究設(shè)計(jì)信 息,推斷用于過(guò)濾的一種或多種增殖性病癥。
37. 如權(quán)利要求25所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,癌癥驅(qū)動(dòng)變體過(guò)濾器與過(guò)濾器 級(jí)聯(lián)中的其他過(guò)濾器組合來(lái)生成最終變體列表。
38. 如權(quán)利要求37所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,癌癥驅(qū)動(dòng)變體過(guò)濾器與過(guò)濾器 級(jí)聯(lián)中的下述過(guò)濾器的一個(gè)或多個(gè)結(jié)合來(lái)達(dá)到少于200變體的最終變體列表:常見(jiàn)變體過(guò) 濾器、預(yù)測(cè)有害過(guò)濾器、生物演化過(guò)濾器、物理位置過(guò)濾器、遺傳分析過(guò)濾器、表達(dá)過(guò)濾器、 用戶定義變體過(guò)濾器、藥物遺傳學(xué)過(guò)濾器或定制注釋過(guò)濾器。
39. 如權(quán)利要求37所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,癌癥驅(qū)動(dòng)變體過(guò)濾器與過(guò)濾器 級(jí)聯(lián)中的下述過(guò)濾器的一個(gè)或多個(gè)結(jié)合來(lái)達(dá)到少于50變體的最終變體列表:常見(jiàn)變體過(guò) 濾器、預(yù)測(cè)有害過(guò)濾器、生物演化過(guò)濾器、物理位置過(guò)濾器、遺傳分析過(guò)濾器、表達(dá)過(guò)濾器、 用戶定義變體過(guò)濾器、藥物遺傳學(xué)過(guò)濾器或定制注釋過(guò)濾器。
40. 如權(quán)利要求25所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,所過(guò)濾的變體是觀察或預(yù)測(cè)滿 足下述標(biāo)準(zhǔn)的一個(gè)或多個(gè)的變體: (a) 位于具有動(dòng)物模型直向同源物的人類基因中,所述直向同源物具有癌癥相關(guān)的基 因破壞表型, (b) 影響已知的或預(yù)測(cè)的癌癥子網(wǎng)絡(luò)調(diào)控位點(diǎn), (c) 在強(qiáng)制或不強(qiáng)制適當(dāng)?shù)姆较蛐缘那闆r下,影響癌癥相關(guān)的細(xì)胞過(guò)程, (d) 在變體和/或基因級(jí)別上,與知識(shí)庫(kù)中發(fā)布的癌癥文獻(xiàn)研究結(jié)果關(guān)聯(lián), (e) 在強(qiáng)制或不強(qiáng)制適當(dāng)?shù)姆较蛐缘那闆r下,影響癌癥相關(guān)通路,和/或 (f) 與癌癥治療靶標(biāo)和/或上游/原因性子網(wǎng)絡(luò)有關(guān)。
41. 如權(quán)利要求40所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,所述標(biāo)準(zhǔn)被限制于一種或多種 特定癌癥疾病模型。
42. 如權(quán)利要求25所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,癌癥驅(qū)動(dòng)變體過(guò)濾器與生物信 息數(shù)據(jù)庫(kù)通信,其中,生物信息數(shù)據(jù)庫(kù)是精選匯總的生物醫(yī)學(xué)內(nèi)容的知識(shí)庫(kù),其中,使用知 識(shí)本體來(lái)構(gòu)建所述知識(shí)庫(kù)。
43. 如權(quán)利要求42所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,癌癥驅(qū)動(dòng)變體過(guò)濾器的嚴(yán)格性 是用戶可調(diào)的,其中,來(lái)自用戶的嚴(yán)格性調(diào)整變更關(guān)系中的中繼段數(shù)和/或中繼段強(qiáng)度,和 /或是否觀察到或預(yù)測(cè)到變體具有下述特性的一個(gè)或多個(gè): (a) 位于具有動(dòng)物模型直向同源物的人類基因中,所述直向同源物具有癌癥相關(guān)的基 因破壞表型, (b) 影響已知的或預(yù)測(cè)的癌癥子網(wǎng)絡(luò)調(diào)控位點(diǎn), (c) 在強(qiáng)制或不強(qiáng)制適當(dāng)?shù)姆较蛐缘那闆r下,影響癌癥相關(guān)的細(xì)胞過(guò)程, (d) 在變體和/或基因級(jí)別上,與知識(shí)庫(kù)中發(fā)布的癌癥文獻(xiàn)研究結(jié)果關(guān)聯(lián), (e) 在強(qiáng)制或不強(qiáng)制適當(dāng)?shù)姆较蛐缘那闆r下,影響癌癥相關(guān)通路,和/或 (f) 與癌癥治療靶標(biāo)和/或上游/原因性子網(wǎng)絡(luò)有關(guān)。
44. 如權(quán)利要求42所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,基于最終過(guò)濾數(shù)據(jù)集中的所需 變體數(shù)量,自動(dòng)地調(diào)整癌癥驅(qū)動(dòng)變體過(guò)濾器的嚴(yán)格性,其中,嚴(yán)格性調(diào)整變更關(guān)系中的中繼 段的數(shù)量和/或中繼段的強(qiáng)度,和/或是否觀察到或預(yù)測(cè)到變體具有一個(gè)或多個(gè)下述特 性: (a) 位于具有動(dòng)物模型直向同源物的人類基因中,所述直向同源物具有癌癥相關(guān)的基 因破壞表型, (b) 影響已知的或預(yù)測(cè)的癌癥子網(wǎng)絡(luò)調(diào)控位點(diǎn), (c) 在強(qiáng)制或不強(qiáng)制適當(dāng)?shù)姆较蛐缘那闆r下,影響癌癥相關(guān)的細(xì)胞過(guò)程, (d) 在變體和/或基因級(jí)別上,與知識(shí)庫(kù)中發(fā)布的癌癥文獻(xiàn)研究結(jié)果關(guān)聯(lián), (e) 在強(qiáng)制或不強(qiáng)制適當(dāng)?shù)姆较蛐缘那闆r下,影響癌癥相關(guān)通路,和/或 (f) 與癌癥治療靶標(biāo)和/或上游/原因性子網(wǎng)絡(luò)有關(guān)。
45. 如權(quán)利要求42所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,與一種或多種增殖性病癥有關(guān) 的變體是離經(jīng)觀察或預(yù)測(cè)具有一種或多種下述特性的變體一個(gè)或多個(gè)中繼段的變體: (a) 位于具有動(dòng)物模型直向同源物的人類基因中,所述直向同源物具有癌癥相關(guān)的基 因破壞表型, (b) 影響已知的或預(yù)測(cè)的癌癥子網(wǎng)絡(luò)調(diào)控位點(diǎn), (c) 在強(qiáng)制或不強(qiáng)制適當(dāng)?shù)姆较蛐缘那闆r下,影響癌癥相關(guān)的細(xì)胞過(guò)程, (d) 在變體和/或基級(jí)別上,與知識(shí)庫(kù)中發(fā)布的癌癥文獻(xiàn)研究結(jié)果關(guān)聯(lián), (e) 在強(qiáng)制或不強(qiáng)制適當(dāng)?shù)姆较蛐缘那闆r下,影響癌癥相關(guān)通路,和/或 (f) 與癌癥治療靶標(biāo)和/或上游/原因性子網(wǎng)絡(luò)有關(guān)。
46. 如權(quán)利要求42至45所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,通過(guò)加權(quán)中繼段的強(qiáng)度,調(diào) 整癌癥驅(qū)動(dòng)變體過(guò)濾器的嚴(yán)格性。
47. 如權(quán)利要求42至45所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,通過(guò)變更中繼段數(shù),調(diào)整癌 癥驅(qū)動(dòng)變體過(guò)濾器的嚴(yán)格性。
48. 如權(quán)利要求42至45所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,中繼段是上游中繼段。
49. 如權(quán)利要求42至45所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,中繼段是下游中繼段。
50. 如權(quán)利要求42至45所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,確定中繼段的凈效應(yīng),以及 僅過(guò)濾與癌癥驅(qū)動(dòng)凈效應(yīng)有關(guān)的變體。
51. 如權(quán)利要求25所述的癌癥驅(qū)動(dòng)變體過(guò)濾器,其中,癌癥驅(qū)動(dòng)變體過(guò)濾器被配置成 從先前在同一數(shù)據(jù)集上執(zhí)行的另一過(guò)濾器接收掩碼。
52. -種計(jì)算機(jī)程序產(chǎn)品,具有制定權(quán)利要求25至51的癌癥驅(qū)動(dòng)變體過(guò)濾器的機(jī)器可 讀指令。
53. -種遺傳分析過(guò)濾器,其中,所述遺傳分析過(guò)濾器: (a) 被配置成接收包含變體的數(shù)據(jù)集,其中,所述數(shù)據(jù)集包含來(lái)自一個(gè)或多個(gè)個(gè)體的一 個(gè)或多個(gè)樣本的變體數(shù)據(jù), (b) 能根據(jù)遺傳邏輯,通過(guò)過(guò)濾數(shù)據(jù)集來(lái)變換數(shù)據(jù)集。
54. 如權(quán)利要求53所述的遺傳分析過(guò)濾器,其中,所述遺傳分析過(guò)濾器與用于將過(guò)濾 數(shù)據(jù)輸出給用戶的硬件通信。
55. 如權(quán)利要求53所述的遺傳分析過(guò)濾器,進(jìn)一步被配置成接收任選用于識(shí)別來(lái)自于 同一個(gè)體的樣本或其樣本在數(shù)據(jù)集中的個(gè)體之間的遺傳關(guān)系的信息。
56. 如權(quán)利要求53所述的遺傳分析過(guò)濾器,其中,過(guò)濾包括: (a)過(guò)濾在指定接合性下,在大于或等于案例樣本的特定部分但小于或等于對(duì)照樣本 的特定部分中存在的變體,和/或 (b)過(guò)濾在指定接合性下,在小于或等于案例樣本的特定部分但大于或等于對(duì)照樣本 的特定部分中存在的變體。
57. 如權(quán)利要求53所述的遺傳分析過(guò)濾器,其中,過(guò)濾包括: (a) 過(guò)濾在指定質(zhì)量水平下,在大于或等于案例樣本的特定部分但小于或等于對(duì)照樣 本的特定部分中存在的變體,和/或 (b) 過(guò)濾在指定質(zhì)量水平下,在小于或等于案例樣本的特定部分但大于或等于對(duì)照樣 本的特定部分中存在的變體。
58. 如權(quán)利要求55所述的遺傳分析過(guò)濾器,其中,數(shù)據(jù)集中的至少一個(gè)樣本是疾病案 例樣本,以及數(shù)據(jù)集中的另一樣本是來(lái)自同一個(gè)體的正常對(duì)照樣本,其中,過(guò)濾包括過(guò)濾在 疾病和正常樣本兩者中均觀察到的、或僅在疾病樣本或正常樣本中觀察到的變體。
59. 如權(quán)利要求53所述的遺傳分析過(guò)濾器,其中,基于來(lái)自用戶對(duì)隱性遺傳性疾病、顯 性遺傳性疾病、新生突變或癌癥體細(xì)胞變體的預(yù)設(shè),配置遺傳邏輯。
60. 如權(quán)利要求53所述的遺傳分析過(guò)濾器,其中,過(guò)濾變體,所述變體被推斷在(a)大 于或等于案例樣本的特定部分但小于或等于對(duì)照樣本的特定部分,或(b)小于或等于案例 樣本的特定部分但大于或等于照樣本的特定部分中,有助于基因功能的增益或喪失。
61. 如權(quán)利要求55所述的遺傳分析過(guò)濾器,其中,數(shù)據(jù)集中的一個(gè)或多個(gè)樣本是數(shù)據(jù) 集中的另一樣本的遺傳親本。
62. 如權(quán)利要求61所述的遺傳分析過(guò)濾器,其中,過(guò)濾包括從數(shù)據(jù)集過(guò)濾與孟德?tīng)栠z 傳不兼容的變體。
63. 如權(quán)利要求61所述的遺傳分析過(guò)濾器,其中,過(guò)濾包括過(guò)濾(a)當(dāng)至少一個(gè)親本是 純合型時(shí),不存在于子女中的變體,和/或(b)如果兩個(gè)親本是純合型時(shí),在子女中是雜合 型的變體。
64. 如權(quán)利要求61所述的遺傳分析過(guò)濾器,其中,過(guò)濾包括過(guò)濾在純合型子女的親本 的至少一個(gè)中不存在的變體。
65. 如權(quán)利要求61所述的遺傳分析過(guò)濾器,其中,過(guò)濾包括過(guò)濾在具有該變體的子女 的兩個(gè)親本中均不存在的變體。
66. 如權(quán)利要求61所述的遺傳分析過(guò)濾器,其中,所過(guò)濾的變體是位于基因組的半合 子區(qū)域中的單拷貝變體。
67. 如權(quán)利要求53至66所述的遺傳分析過(guò)濾器,其中,遺傳分析過(guò)濾器進(jìn)一步與生物 信息數(shù)據(jù)庫(kù)通信,其中,生物信息數(shù)據(jù)庫(kù)是精選匯總的生物醫(yī)學(xué)內(nèi)容的知識(shí)庫(kù),其中,使用 知識(shí)本體來(lái)構(gòu)建所述知識(shí)庫(kù),以及其中,來(lái)自數(shù)據(jù)集的變體通過(guò)中繼段,與生物信息關(guān)聯(lián)。
68. 如權(quán)利要求67所述的遺傳分析過(guò)濾器,其中,生物信息包括有關(guān)基因的單倍劑量 不足的信息。
69. 如權(quán)利要求68所述的遺傳分析過(guò)濾器,其中,過(guò)濾與單倍劑量不足基因有關(guān)的雜 合變體。
70. 如權(quán)利要求67所述的遺傳分析過(guò)濾器,其中,過(guò)濾變體,所述變體在(a)至少指定 數(shù)量的或最小部分的案例樣本和至多指定數(shù)量的或最大部分的對(duì)照樣本,或(b)至多指定 數(shù)量的或最大部分的案例樣本和至少指定數(shù)量的或最小部分的對(duì)照樣本中,以用戶指定的 接合性和/或質(zhì)量設(shè)定值出現(xiàn)。
71. 如權(quán)利要求68所述的遺傳分析過(guò)濾器,其中,過(guò)濾變體,所述變體在(a)至少指 定數(shù)量的或最小部分的案例樣本和至多指定數(shù)量的或最大部分的對(duì)照樣本,或(b)至多指 定數(shù)量的或最大部分的案例樣本和至少指定數(shù)量的或最小部分的對(duì)照樣本中,影響同一基 因。
72. 如權(quán)利要求68所述的遺傳分析過(guò)濾器,其中,過(guò)濾變體,所述變體在(a)至少指定 數(shù)量的或最小部分的案例樣本和至多指定數(shù)量的或最大部分的對(duì)照樣本,或(b)至多指定 數(shù)量的或最大部分的案例樣本和至少指定數(shù)量的或最小部分的對(duì)照樣本中,影響在1個(gè)或 多個(gè)中繼段內(nèi)的相同網(wǎng)絡(luò)。
73. 如權(quán)利要求67所述的遺傳分析過(guò)濾器,其中,通過(guò)加權(quán)中繼段的強(qiáng)度,調(diào)整遺傳分 析過(guò)濾器的嚴(yán)格性。
74. 如權(quán)利要求67所述的遺傳分析過(guò)濾器,其中,變更中繼段的數(shù)量,調(diào)整遺傳分析過(guò) 濾器的嚴(yán)格性。
75. 如權(quán)利要求67所述的遺傳分析過(guò)濾器,其中,中繼段是上游中繼段。
76. 如權(quán)利要求67所述的遺傳分析過(guò)濾器,其中,中繼段是下游中繼段。
77. 如權(quán)利要求53所述的遺傳分析過(guò)濾器,其中,先前已經(jīng)過(guò)濾過(guò)數(shù)據(jù)集,以及其中, 所述數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)的子集被之前的過(guò)濾器屏蔽。
78. 如權(quán)利要求53所述的遺傳分析過(guò)濾器,其中,由用戶調(diào)整嚴(yán)格性。
79. 如權(quán)利要求53所述的遺傳分析過(guò)濾器,其中,基于最終數(shù)據(jù)集中的所需變體數(shù)量, 自動(dòng)地調(diào)整過(guò)濾嚴(yán)格性。
80. 如權(quán)利要求53所述的遺傳分析過(guò)濾器,其中,遺傳分析過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的 其他過(guò)濾器結(jié)合來(lái)產(chǎn)生用戶感興趣的最終過(guò)濾數(shù)據(jù)集。
81. 如權(quán)利要求80所述的遺傳分析過(guò)濾器,其中,遺傳分析過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的 下述過(guò)濾器的一個(gè)或多個(gè)組合來(lái)達(dá)到少于50變體的最終變體列表:常見(jiàn)變體過(guò)濾器、預(yù)測(cè) 有害過(guò)濾器、生物演化過(guò)濾器、物理位置過(guò)濾器、癌癥驅(qū)動(dòng)變體過(guò)濾器、表達(dá)過(guò)濾器、用戶定 義變體過(guò)濾器、藥物遺傳學(xué)過(guò)濾器或定制注釋過(guò)濾器。
82. 如權(quán)利要求80所述的遺傳分析過(guò)濾器,其中,遺傳分析過(guò)濾器與過(guò)濾器級(jí)聯(lián)中的 下述過(guò)濾器的一個(gè)或多個(gè)組合來(lái)達(dá)到少于200變體的最終變體列表:常見(jiàn)變體過(guò)濾器、預(yù) 測(cè)有害過(guò)濾器、生物演化過(guò)濾器、物理位置過(guò)濾器、癌癥驅(qū)動(dòng)變體過(guò)濾器、表達(dá)過(guò)濾器、用戶 定義變體過(guò)濾器、藥物遺傳學(xué)過(guò)濾器或定制注釋過(guò)濾器。
83. 如權(quán)利要求78至79所述的遺傳分析過(guò)濾器,其中,嚴(yán)格性調(diào)整變更過(guò)濾器的接合 性需求。
84. 如權(quán)利要求78至79所述的遺傳分析過(guò)濾器,其中,嚴(yán)格性調(diào)整變更過(guò)濾器的變體 質(zhì)量需求。
85. 如權(quán)利要求78至79所述的遺傳分析過(guò)濾器,其中,嚴(yán)格性調(diào)整變更用于過(guò)濾的案 例樣本的所需數(shù)量或部分。
86. 如權(quán)利要求78至79所述的遺傳分析過(guò)濾器,其中,嚴(yán)格性調(diào)整變更遺傳分析過(guò)濾 器基于變體是否(a)通過(guò)由用戶指定的接合性和/或質(zhì)量設(shè)定值發(fā)生,或(b)影響同一基 因,或(c)影響在1個(gè)或多個(gè)中繼段內(nèi)的同一網(wǎng)絡(luò)來(lái)是否過(guò)濾變體。
87. 如權(quán)利要求78至79所述的遺傳分析過(guò)濾器,其中,通過(guò)加權(quán)中繼段的強(qiáng)度來(lái)調(diào)整 遺傳分析過(guò)濾器的嚴(yán)格性。
88. 如權(quán)利要求78至79所述的遺傳分析過(guò)濾器,其中,通過(guò)變更中繼段數(shù),調(diào)整遺傳分 析過(guò)濾器的嚴(yán)格性。
89. 如權(quán)利要求67所述的遺傳分析過(guò)濾器,其中,確定中繼段的凈效應(yīng)和僅過(guò)濾與用 戶選擇的凈效應(yīng)有關(guān)的變體。
90. 如權(quán)利要求53至89所述的遺傳分析過(guò)濾器,其中,遺傳分析過(guò)濾器被配置成從先 前在同一數(shù)據(jù)集上執(zhí)行的另一過(guò)濾器接受掩碼。
91. 一種計(jì)算機(jī)程序產(chǎn)品,具有制定權(quán)利要求53至90的遺傳分析過(guò)濾器的機(jī)器可讀指 令。
92. -種藥物遺傳學(xué)過(guò)濾器,其中,藥物遺傳學(xué)過(guò)濾器: (a) 被配置成接收包含變體的數(shù)據(jù)集,其中,數(shù)據(jù)集包含來(lái)自一個(gè)或多個(gè)個(gè)體的一個(gè)或 多個(gè)樣本的變體數(shù)據(jù), (b) 與生物信息數(shù)據(jù)庫(kù)通信,其中,生物信息數(shù)據(jù)庫(kù)是精選匯總的生物醫(yī)學(xué)內(nèi)容的知識(shí) 庫(kù),其中,知識(shí)庫(kù)由知識(shí)本體構(gòu)成,其中,生物信息是與一種或多種藥物有關(guān)的信息,以及 (c) 能按照與生物信息有關(guān)的變體,通過(guò)過(guò)濾數(shù)據(jù)集,變換數(shù)據(jù)集,其中,過(guò)濾包括在數(shù) 據(jù)集和一些或全部生物信息之間建立關(guān)聯(lián)。
93. 如權(quán)利要求92所述的藥物遺傳學(xué)過(guò)濾器,其中,藥物遺傳學(xué)過(guò)濾器與用于將過(guò)濾 的數(shù)據(jù)集輸出給用戶的硬件通信。
94. 如權(quán)利要求92所述的藥物遺傳學(xué)過(guò)濾器,其中,與一種或多種藥物有關(guān)的信息包 括藥物靶標(biāo)、藥物反應(yīng)、藥物代謝或藥物毒性。
95. 如權(quán)利要求92所述的藥物遺傳學(xué)過(guò)濾器,其中,變體和生物信息之間的關(guān)聯(lián)包括 由一個(gè)或多個(gè)中繼段定義的關(guān)系。
96. 如權(quán)利要求92所述的藥物遺傳學(xué)過(guò)濾器,其中,用戶選擇用于過(guò)濾的生物信息。
97. 如權(quán)利要求92所述的藥物遺傳學(xué)過(guò)濾器,其中,過(guò)濾揭示與生物信息有關(guān)的變體。
98. 如權(quán)利要求92所述的藥物遺傳學(xué)過(guò)濾器,其中,過(guò)濾屏蔽與生物信息無(wú)關(guān)的變體。
99. 如權(quán)利要求92所述的藥物遺傳學(xué)過(guò)濾器,其中,過(guò)濾屏蔽與生物信息有關(guān)的變體。
100. 如權(quán)利要求92所述的藥物遺傳學(xué)過(guò)濾器,其中,過(guò)濾揭示與生物信息無(wú)關(guān)的變 體。
101. 如權(quán)利要求92所述的藥物遺傳學(xué)過(guò)濾器,其中,由數(shù)據(jù)集推斷用于過(guò)濾的生物信 肩、。
102. 如權(quán)利要求92所述的藥物遺傳學(xué)過(guò)濾器,其中,由先前用戶輸入的研究設(shè)計(jì)信 息,推斷用于過(guò)濾的生物信息。
103. 如權(quán)利要求92所述的藥物遺傳學(xué)過(guò)濾器,其中,藥物遺傳學(xué)過(guò)濾器與過(guò)濾器級(jí)聯(lián) 中的其他過(guò)濾器組合來(lái)生成最終變體列表。
104. 如權(quán)利要求92所述的藥物遺傳學(xué)過(guò)濾器,其中,藥物遺傳學(xué)過(guò)濾器與過(guò)濾器級(jí) 聯(lián)中的下述過(guò)濾器的一個(gè)或多個(gè)組合來(lái)達(dá)到少于200變體的最終變體列表:常見(jiàn)變體過(guò) 濾器、預(yù)測(cè)有害過(guò)濾器、癌癥驅(qū)動(dòng)變體過(guò)濾器、物理位置過(guò)濾器、遺傳分析過(guò)濾器、表達(dá)過(guò)濾 器、用戶定義變體過(guò)濾器、生物演化過(guò)濾器、或定制注釋過(guò)濾器。
105. 如權(quán)利要求92所述的藥物遺傳學(xué)過(guò)濾器,其中,藥物遺傳學(xué)過(guò)濾器與過(guò)濾器級(jí)聯(lián) 中的下述過(guò)濾器的一個(gè)或多個(gè)組合來(lái)達(dá)到少于50變體的最終變體列表:常見(jiàn)變體過(guò)濾器、 預(yù)測(cè)有害過(guò)濾器、癌癥驅(qū)動(dòng)變體過(guò)濾器、物理位置過(guò)濾器、遺傳分析過(guò)濾器、表達(dá)過(guò)濾器、用 戶定義變體過(guò)濾器、生物演化過(guò)濾器、或定制注釋過(guò)濾器。
106. 如權(quán)利要求92所述的藥物遺傳學(xué)過(guò)濾器,其中,能由用戶調(diào)整藥物遺傳學(xué)過(guò)濾器 的嚴(yán)格性,以及其中,來(lái)自用戶的嚴(yán)格性調(diào)整變更下述的一個(gè)或多個(gè) : (a) 用于過(guò)濾的關(guān)聯(lián)中的中繼段數(shù); (b) 用于過(guò)濾的關(guān)聯(lián)中的中繼段的強(qiáng)度; (c) 預(yù)測(cè)的藥物反應(yīng)信息是否用于過(guò)濾; (d) 預(yù)測(cè)的藥物代謝或毒性信息是否用于過(guò)濾; (e) 所確立的藥物靶標(biāo)是否用于過(guò)濾; (f) 用于過(guò)濾的關(guān)聯(lián)中的中繼段的凈效應(yīng),和/或 (g) 用于過(guò)濾的關(guān)聯(lián)中的中繼段的上游或下游屬性。
107. 如權(quán)利要求92所述的藥物遺傳學(xué)過(guò)濾器,其中,基于最終過(guò)濾的數(shù)據(jù)集中的所 需變體數(shù),自動(dòng)地調(diào)整藥物遺傳學(xué)過(guò)濾器的嚴(yán)格性,其中,嚴(yán)格性調(diào)整變更下述的一個(gè)或多 個(gè): (a) 用于過(guò)濾的關(guān)聯(lián)中的中繼段數(shù); (b) 用于過(guò)濾的關(guān)聯(lián)中的中繼段的強(qiáng)度; (c) 預(yù)測(cè)的藥物反應(yīng)信息是否用于過(guò)濾; (d) 預(yù)測(cè)的藥物代謝或毒性信息是否用于過(guò)濾; (e) 所確立的藥物靶標(biāo)是否用于過(guò)濾; (f) 用于過(guò)濾的關(guān)聯(lián)中的中繼段的凈效應(yīng),和/或 (g) 用于過(guò)濾的關(guān)聯(lián)中的中繼段的上游或下游屬性。
108. 如權(quán)利要求92至107所述的藥物遺傳學(xué)過(guò)濾器,其中,僅使用上游中繼段。
109. 如權(quán)利要求92至107所述的藥物遺傳學(xué)過(guò)濾器,其中,僅使用下游中繼段。
110. 如權(quán)利要求92至109所述的藥物遺傳學(xué)過(guò)濾器,其中,使用中繼段的凈效應(yīng)。
111. 如權(quán)利要求92至110所述的藥物遺傳學(xué)過(guò)濾器,其中,由用戶調(diào)整藥物遺傳學(xué)過(guò) 濾器的嚴(yán)格性。
112. 如權(quán)利要求92所述的藥物遺傳學(xué)過(guò)濾器,其中,藥物遺傳學(xué)過(guò)濾器被配置成從先 前在同一數(shù)據(jù)集上執(zhí)行的另一過(guò)濾器接受掩碼。
113. -種計(jì)算機(jī)程序產(chǎn)品,具有制定權(quán)利要求92至112的藥物遺傳學(xué)過(guò)濾變體過(guò)濾器 的機(jī)器可讀指令。
114. 一種預(yù)測(cè)有害過(guò)濾器,其中,預(yù)測(cè)有害過(guò)濾器: a) 被配置成接收包含變體的數(shù)據(jù)集,其中,數(shù)據(jù)集包含來(lái)自一個(gè)或多個(gè)個(gè)體的一個(gè)或 多個(gè)樣本的變體數(shù)據(jù),以及 b) 能按照被預(yù)測(cè)為有害或無(wú)害的變體,過(guò)濾數(shù)據(jù)來(lái)變換數(shù)據(jù)集。
115. 如權(quán)利要求114所述的預(yù)測(cè)有害過(guò)濾器,其中,預(yù)測(cè)有害過(guò)濾器與用于將過(guò)濾的 數(shù)據(jù)集輸出給用戶的硬件通信。
116. 如權(quán)利要求114所述的預(yù)測(cè)有害過(guò)濾器,其中,過(guò)濾包括將至少一個(gè)算法用于預(yù) 測(cè)數(shù)據(jù)集中的有害或無(wú)害變體,然后過(guò)濾所預(yù)測(cè)的有害或無(wú)害變體。
117. 如權(quán)利要求116所述的預(yù)測(cè)有害過(guò)濾器,其中,至少一個(gè)算法是SIFT、BSIFT、 PolyPhen、PolyPhen2、PANTHER、SNPs3D、FastSNP、SNAP、LS-SNP、PMUT、PupaSuite、 SNPeffect、SNPeffectV2. 0、F-SNP、MAPP、PhD-SNP、MutDB、SNP Function Portal、 PolyDoms、SNPOPromoter、Auto-Mute、MutPred、SNPOEthnos、nsSNPanalyzer、SNPODomain、 StSNP、MtSNPscore,或基因組變異服務(wù)器。
118. 如權(quán)利要求114所述的預(yù)測(cè)有害過(guò)濾器,其中,過(guò)濾進(jìn)化上高度保守的變體。
119. 如權(quán)利要求116所述的預(yù)測(cè)有害過(guò)濾器,其中,基于基因融合預(yù)測(cè)算法,過(guò)濾預(yù)測(cè) 有害變體。
120. 如權(quán)利要求114所述的預(yù)測(cè)有害過(guò)濾器,其中,基于產(chǎn)生或破壞預(yù)測(cè)的或?qū)嶒?yàn)上 確認(rèn)的微RNA結(jié)合位點(diǎn)的變體,過(guò)濾預(yù)測(cè)有害變體。
121. 如權(quán)利要求116所述的預(yù)測(cè)有害過(guò)濾器,其中,基于預(yù)測(cè)的拷貝數(shù)增益算法,過(guò)濾 預(yù)測(cè)有害變體。
122. 如權(quán)利要求116所述的預(yù)測(cè)有害過(guò)濾器,其中,基于預(yù)測(cè)拷貝數(shù)丟失算法,過(guò)濾預(yù) 測(cè)有害變體。
123. 如權(quán)利要求116所述的預(yù)測(cè)有害過(guò)濾器,其中,基于預(yù)測(cè)剪接位點(diǎn)丟失或剪接位 點(diǎn)增益,過(guò)濾預(yù)測(cè)有害變體。
124. 如權(quán)利要求114所述的預(yù)測(cè)有害過(guò)濾器,其中,基于已知或預(yù)測(cè)微RNA或ncRNA的 破壞,過(guò)濾預(yù)測(cè)有害變體。
125. 如權(quán)利要求114所述的預(yù)測(cè)有害過(guò)濾器,其中,基于破壞或產(chǎn)生已知或預(yù)測(cè)轉(zhuǎn)錄 因子結(jié)合位點(diǎn),過(guò)濾預(yù)測(cè)有害變體。
126. 如權(quán)利要求114所述的預(yù)測(cè)有害過(guò)濾器,其中,基于破壞或產(chǎn)生已知預(yù)測(cè)增強(qiáng)子 位點(diǎn),過(guò)濾預(yù)測(cè)有害變體。
127. 如權(quán)利要求114所述的預(yù)測(cè)有害過(guò)濾器,其中,基于破壞非翻譯區(qū)(UTR),過(guò)濾預(yù) 測(cè)有害變體。
128. 如權(quán)利要求114至127所述的預(yù)測(cè)有害過(guò)濾器,其中,預(yù)測(cè)有害過(guò)濾器進(jìn)一步與生 物信息數(shù)據(jù)庫(kù)通信,其中,生物信息數(shù)據(jù)庫(kù)是精選匯總的生物醫(yī)學(xué)內(nèi)容的知識(shí)庫(kù),其中,使 用知識(shí)本體來(lái)構(gòu)建所述知識(shí)庫(kù),以及其中,(a)直接基于知識(shí)庫(kù)中的一個(gè)或多個(gè)突變研究結(jié) 果,或(b)通過(guò)基因研究結(jié)果和功能預(yù)測(cè)算法的組合,使來(lái)自數(shù)據(jù)集的變體與生物信息關(guān) 聯(lián)。
129. 如權(quán)利要求128所述的預(yù)測(cè)有害過(guò)濾器,其中,生物信息包括有害表型,其中,過(guò) 濾與有害表型有關(guān)的變體。
130. 如權(quán)利要求129所述的預(yù)測(cè)有害過(guò)濾器,其中,有害表型是疾病。
131. 如權(quán)利要求114所述的預(yù)測(cè)有害過(guò)濾器,其中,預(yù)測(cè)有害變體包括如下變體,所述 變體: a) 直接與知識(shí)庫(kù)中的變體研究結(jié)果有關(guān), b) 是預(yù)測(cè)有害的(或非無(wú)害的)單核苷酸變體, c) 預(yù)測(cè)會(huì)產(chǎn)生或破壞RNA剪接位點(diǎn), d) 預(yù)測(cè)會(huì)產(chǎn)生或破壞轉(zhuǎn)錄因子結(jié)合位點(diǎn), e) 預(yù)測(cè)會(huì)破壞非編碼RNA, f) 預(yù)測(cè)會(huì)產(chǎn)生或破壞微RNA祀標(biāo),或 g) 預(yù)測(cè)會(huì)破壞已知的增強(qiáng)子。
132. 如權(quán)利要求114所述的預(yù)測(cè)有害過(guò)濾器,與過(guò)濾器級(jí)聯(lián)中的其他過(guò)濾器組合來(lái)產(chǎn) 生用戶感興趣的最終過(guò)濾數(shù)據(jù)集。
133. 如權(quán)利要求114所述的預(yù)測(cè)有害過(guò)濾器,其與過(guò)濾器級(jí)聯(lián)中的下述過(guò)濾器的一個(gè) 或多個(gè)組合來(lái)達(dá)到少于50變體的最終變體列表:常見(jiàn)變體過(guò)濾器、生物演化過(guò)濾器、物理 位置過(guò)濾器、遺傳分析過(guò)濾器、癌癥驅(qū)動(dòng)變體過(guò)濾器、表達(dá)過(guò)濾器、用戶定義變體過(guò)濾器、藥 物遺傳學(xué)過(guò)濾器或定制注釋過(guò)濾器。
134. 如權(quán)利要求114所述的預(yù)測(cè)有害過(guò)濾器,其與過(guò)濾器級(jí)聯(lián)中的下述過(guò)濾器的一個(gè) 或多個(gè)組合來(lái)達(dá)到少于200變體的最終變體列表:常見(jiàn)變體過(guò)濾器、生物演化過(guò)濾器、物理 位置過(guò)濾器、遺傳分析過(guò)濾器、癌癥驅(qū)動(dòng)變體過(guò)濾器、表達(dá)過(guò)濾器、用戶定義變體過(guò)濾器、藥 物遺傳學(xué)過(guò)濾器或定制注釋過(guò)濾器。
135. 如權(quán)利要求114至134所述的預(yù)測(cè)有害過(guò)濾器,其中,由用戶調(diào)整預(yù)測(cè)有害過(guò)濾器 的嚴(yán)格性。
136. 如權(quán)利要求114至135所述的預(yù)測(cè)有害過(guò)濾器,其中,基于最終過(guò)濾的數(shù)據(jù)集中的 所需變體數(shù),自動(dòng)地調(diào)整嚴(yán)格性。
137. 如權(quán)利要求114至136所述的預(yù)測(cè)有害過(guò)濾器,其中,基于致病性注釋器,過(guò)濾預(yù) 測(cè)有害變體。
138. 如權(quán)利要求114至137所述的預(yù)測(cè)有害過(guò)濾器,其中,預(yù)測(cè)有害過(guò)濾器被配置成從 先前在同一數(shù)據(jù)集上執(zhí)行的另一過(guò)濾器接受掩碼。
139. -種計(jì)算機(jī)程序產(chǎn)品,具有制定權(quán)利要求114至138的預(yù)測(cè)有害過(guò)濾器的機(jī)器可 讀指令。
140. -種致病性注釋器,其中,該致病性注釋器使用預(yù)測(cè)有害過(guò)濾器和生物信息數(shù)據(jù) 庫(kù)分類變體,其中,生物信息數(shù)據(jù)庫(kù)是精選匯總的生物醫(yī)學(xué)內(nèi)容的知識(shí)庫(kù),以及其中,使用 知識(shí)本體來(lái)構(gòu)建所述知識(shí)庫(kù)。
141. 如權(quán)利要求140所述的致病性注釋器,其中,致病性注釋器與用于將分類輸出給 用戶的硬件通信。
142. 如權(quán)利要求140所述的致病性注釋器,其中,基于預(yù)測(cè)有害過(guò)濾器的結(jié)果與知識(shí) 庫(kù)中支持或反駁各變體與有害表型的關(guān)聯(lián)的證據(jù)的權(quán)重的組合,將變體輸出為下述類別: 致病的、推測(cè)致病或可能致病、未知或不確定、推測(cè)良性或可能良性,或良性。
143. 如權(quán)利要求142所述的方法,其中, a) "致病"是指沒(méi)有已知遺傳疾病的個(gè)體的基因組數(shù)據(jù)庫(kù)中,變體頻率〈0. 07%,以及 來(lái)自生物醫(yī)學(xué)文獻(xiàn)中的多個(gè)不同文章的2個(gè)以上研究結(jié)果在變體與有害表型之間建立原 因性或關(guān)聯(lián)鏈接; b) "推測(cè)致病"或"可能致病"是指沒(méi)有已知遺傳疾病的個(gè)體的基因組數(shù)據(jù)庫(kù)中的變體 的頻率〈0. 07%,以及1個(gè)研究結(jié)果在變體與有害表型之間建立原因性或關(guān)聯(lián)鏈接; c) "未知"或"不確定"是指沒(méi)有已知遺傳疾病的個(gè)體的基因組數(shù)據(jù)庫(kù)中,變體的頻率 在0.07%和0· 1 %之間; d) "推測(cè)良性"或"可能良性"是指在沒(méi)有已知遺傳疾病的個(gè)體的基因組數(shù)據(jù)庫(kù)中,變 體的頻率在〇. 1 %和1 %之間;以及 e) "良性"是指在沒(méi)有已知遺傳疾病的個(gè)體的基因組數(shù)據(jù)庫(kù)中,變體的頻率>=1%。
144. 一種預(yù)配置器,其中,該預(yù)配置器: a) 被配置成接收與包含變體的數(shù)據(jù)集有關(guān)的、由用戶提供的信息,其中,所述數(shù)據(jù)集包 含來(lái)自一個(gè)或多個(gè)個(gè)體的一個(gè)或多個(gè)樣本的變體數(shù)據(jù), b) 與一個(gè)或多個(gè)過(guò)濾器通信, c) 與包含變體的數(shù)據(jù)集通信,以及 d) 至少部分根據(jù)由用戶提供的信息,控制過(guò)濾器; 其中,該預(yù)配置器選擇與由用戶提供的信息有關(guān)的過(guò)濾器和過(guò)濾器嚴(yán)格性來(lái)產(chǎn)生最終 過(guò)濾的數(shù)據(jù)集。
145. 如權(quán)利要求144所述的預(yù)配置器,其中,預(yù)配置器控制下述過(guò)濾器中的一個(gè)或多 個(gè)的添加、移除和嚴(yán)格性設(shè)定值:常見(jiàn)變體過(guò)濾器、預(yù)測(cè)有害過(guò)濾器、遺傳分析過(guò)濾器、生物 演化過(guò)濾器、藥物遺傳學(xué)過(guò)濾器、物理位置過(guò)濾器,或癌癥驅(qū)動(dòng)變體過(guò)濾器。
146. 如權(quán)利要求144所述的預(yù)配置器,其中,預(yù)配置器優(yōu)化過(guò)濾器的添加或移除和過(guò) 濾器嚴(yán)格性設(shè)定值來(lái)實(shí)現(xiàn)不超出200變體的最終過(guò)濾數(shù)據(jù)集。
147. 如權(quán)利要求144所述的預(yù)配置器,其中,預(yù)配置器優(yōu)化過(guò)濾器的添加或移除和過(guò) 濾器嚴(yán)格性設(shè)定值來(lái)實(shí)現(xiàn)不超出50變體的最終過(guò)濾數(shù)據(jù)集。
148. 如權(quán)利要求144所述的預(yù)配置器,其中,由用戶提供的信息包括感興趣的疾病的 遺傳模式。
149. 如權(quán)利要求144所述的預(yù)配置器,其中,由用戶提供的信息包括能由預(yù)配置器識(shí) 別為用于選擇過(guò)濾的指令的用戶輸入,所述過(guò)濾: a) 識(shí)別原因性疾病變體, b) 識(shí)別癌癥驅(qū)動(dòng)變體, c) 識(shí)別能分層或區(qū)分一個(gè)樣品集與另一樣品集的變體,或 d) 分析基因組來(lái)識(shí)別對(duì)健康管理、治療、個(gè)性化藥物和/或個(gè)別化藥物感興趣的變體。
150. 如權(quán)利要求144所述的預(yù)配置器,其中,預(yù)配置器與精選匯總的生物醫(yī)學(xué)內(nèi)容的 知識(shí)庫(kù)通信,其中,使用知識(shí)本體來(lái)構(gòu)建所述知識(shí)庫(kù)。
151. 如權(quán)利要求144所述的預(yù)配置器,其中,來(lái)自用戶的信息包括生物信息,生物信 息包括一個(gè)或多個(gè)基因、轉(zhuǎn)錄本、蛋白、通路、過(guò)程、表型、疾病、功能性結(jié)構(gòu)域、行為、解剖特 性、生理性狀或狀態(tài)、生理標(biāo)志物或其組合。
152. -種計(jì)算機(jī)程序產(chǎn)品,具有制定權(quán)利要求144至151的機(jī)器可讀指令。
153. -種用于識(shí)別預(yù)期原因性變體的方法,包括: (a) 接收變體的列表, (b) 通過(guò)一個(gè)或多個(gè)常見(jiàn)變體過(guò)濾器過(guò)濾變體的列表, (c) 通過(guò)一個(gè)或多個(gè)預(yù)測(cè)有害過(guò)濾器過(guò)濾變體的列表, (d) 通過(guò)一個(gè)或多個(gè)遺傳分析過(guò)濾器過(guò)濾變體的列表, (e) 通過(guò)一個(gè)或多個(gè)生物演化過(guò)濾器過(guò)濾變體的列表,和 (f) 將所過(guò)濾的變體列表輸出為預(yù)期原因性變體的列表。
154. 如權(quán)利要求153所述的方法,其中,原因性輸出步驟發(fā)生在接收步驟后的不到1 天。
155. 如權(quán)利要求153所述的方法,其中,原因性輸出步驟發(fā)生在接收步驟后的不到1 周。
156. 如權(quán)利要求153所述的方法,其中,變體的列表包括超出1百萬(wàn)的變體以及所輸出 的過(guò)濾的變體列表包括小于50變體。
157. -種圖形用戶界面,用于顯示過(guò)濾器級(jí)聯(lián)的輸出,其中,過(guò)濾器級(jí)聯(lián)包括下述的一 個(gè)或多個(gè): a) 常見(jiàn)變體過(guò)濾器, b) 預(yù)測(cè)有害過(guò)濾器, c) 遺傳分析過(guò)濾器, d) 生物演化過(guò)濾器, e) 藥物遺傳學(xué)過(guò)濾器, f) 統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器,或 g) 頻繁擊中過(guò)濾器。
158. -種用于分發(fā)交互式報(bào)告的方法,包括步驟: (a) 接收?qǐng)?bào)價(jià)請(qǐng)求,其中,報(bào)價(jià)請(qǐng)求包括客戶的數(shù)量的公開(kāi),其中,數(shù)量是客戶希望用于 基因組分析服務(wù)的報(bào)價(jià)的樣本數(shù); (b) 傳送至少部分基于樣本數(shù)的報(bào)價(jià),其中,報(bào)價(jià)包括使用生物信息數(shù)據(jù)庫(kù),用于樣本 中的變體的生物解釋的交互式報(bào)告的費(fèi)用,其中,生物信息數(shù)據(jù)庫(kù)是精選匯總的生物醫(yī)學(xué) 內(nèi)容的知識(shí)庫(kù),以及其中,使用知識(shí)本體來(lái)構(gòu)建所述知識(shí)庫(kù); (c) 從客戶接收訂單,其中,訂單包括定購(gòu)使用生物信息數(shù)據(jù)庫(kù),用于變體的生物解釋 的交互式報(bào)告,以及 (d) 向客戶提供超級(jí)鏈接,其中,超級(jí)鏈接將客戶引導(dǎo)到使用生物信息數(shù)據(jù)庫(kù),用于變 體的生物解釋的交互式報(bào)告。
159. -種用于分發(fā)交互式報(bào)告的方法,包括步驟: (a) 接收?qǐng)?bào)價(jià)請(qǐng)求,其中,報(bào)價(jià)請(qǐng)求包括客戶的數(shù)量的公開(kāi),其中,數(shù)量是客戶希望用于 基因組分析服務(wù)的報(bào)價(jià)的樣本數(shù); (b) 傳送至少部分基于樣本數(shù)的報(bào)價(jià),其中,報(bào)價(jià)包括使用生物信息數(shù)據(jù)庫(kù),用于變體 的生物解釋的交互式報(bào)告的費(fèi)用; (c) 從客戶接收訂單,其中,訂單不包括定購(gòu)使用生物信息數(shù)據(jù)庫(kù),用于變體的生物解 釋的交互式報(bào)告,以及 (d) 向客戶提供超級(jí)鏈接,其中,超級(jí)鏈接將客戶引導(dǎo)到使用生物信息數(shù)據(jù)庫(kù),用于變 體的生物解釋的交互式報(bào)告,為客戶提供在線交易所述交互式報(bào)告的能力。
160. 如權(quán)利要求159所述的方法,其中,在提供第二報(bào)價(jià)前,已經(jīng)生成使用生物信息數(shù) 據(jù)庫(kù)的變體的生物解釋的交互式報(bào)告。
161. -種使用生物信息數(shù)據(jù)庫(kù),為客戶提供交互式報(bào)告,用于變體的生物解釋的方法, 包括: (a)從合作公司接收包含基因組信息的數(shù)據(jù)集,其中,合作公司從客戶接收樣本以及由 該樣本生成數(shù)據(jù)集,以及 (b)將數(shù)據(jù)集加載到用于變體的生物解釋的軟件系統(tǒng),用于用戶未來(lái)訪問(wèn)。
162. 如權(quán)利要求161所述的方法,進(jìn)一步包括: (a) 在生成交互式報(bào)告后,從客戶接收訂單的確認(rèn);以及 (b) 將交互式報(bào)告提供給客戶。
163. 如權(quán)利要求158至162所述的方法,其中,生物信息數(shù)據(jù)庫(kù)是精選匯總的生物醫(yī)學(xué) 內(nèi)容的知識(shí)庫(kù),以及其中,知識(shí)庫(kù)由知識(shí)本體構(gòu)成。
164. 如權(quán)利要求158至162所述的方法,其中,客戶是保健提供者。
165. 如權(quán)利要求158至162所述的方法,其中,客戶是個(gè)人。
166. 如權(quán)利要求158至162所述的方法,其中,客戶是保健消費(fèi)者。
167. 如權(quán)利要求158至162所述的方法,其中,客戶是組織。
168. 如權(quán)利要求158至167所述的方法,其中,由基因組分析服務(wù)的提供者分發(fā)數(shù)據(jù) 集,以及在同一天,將用于所述數(shù)據(jù)集的交互式報(bào)告分發(fā)給客戶。
169. 如權(quán)利要求158至167所述的方法,其中,將由基因組分析服務(wù)的提供者分發(fā)的數(shù) 據(jù)集和用于所述數(shù)據(jù)集的交互式報(bào)告在同一周內(nèi)分發(fā)給客戶。
170. 如權(quán)利要求158至167所述的方法,其中,在同一天,向客戶報(bào)價(jià)基因組分析服務(wù) 和由所述基因組分析服務(wù)產(chǎn)生的數(shù)據(jù)集的交互式報(bào)告。
171. 如權(quán)利要求158至170所述的方法,其中,使用過(guò)濾器級(jí)聯(lián),生成交互式報(bào)告,其 中,過(guò)濾器級(jí)聯(lián)包括下述的一個(gè)或多個(gè):藥物遺傳學(xué)、常見(jiàn)變體過(guò)濾器、預(yù)測(cè)有害過(guò)濾器、癌 癥驅(qū)動(dòng)變體過(guò)濾器、物理位置過(guò)濾器、遺傳分析過(guò)濾器、表達(dá)過(guò)濾器、用戶定義變體過(guò)濾器、 生物演化過(guò)濾器,或定制注釋過(guò)濾器。
172. -種用于向用戶顯示遺傳信息的方法,包括: (a) 向用戶顯示具有一個(gè)軸上為樣本和另一軸上為出現(xiàn)在一個(gè)或多個(gè)樣本中的變體的 二維網(wǎng)格,其中,網(wǎng)格的每一單元表示每一樣本中的變體的不同實(shí)例(或缺少實(shí)例), (b) 在每一單元中顯示一個(gè)或多個(gè)彩色圖標(biāo),其中,網(wǎng)格的每一單元中的一個(gè)或多個(gè)圖 標(biāo)的顏色變化取決于由那一單元所表示的變體是否被預(yù)測(cè)為導(dǎo)致功能增益、功能喪失,還 是導(dǎo)致由那一單元所示的樣本中的基因或基因網(wǎng)絡(luò)的正常功能。
173. 如權(quán)利要求172所述的方法,其中,在表示特定變體和特定樣本的單元內(nèi)的多個(gè) 可視不同形狀線性地與所述特定樣本中的所述特定變體的位置的接合性和/或拷貝數(shù)有 關(guān)。
174. 如權(quán)利要求172所述的方法,其中,如果由單元所表示的樣本具有與參比基因組 相同的基因型,那一單元中的圖標(biāo)在形狀和/或顏色上不同。
175. 如權(quán)利要求172至174所述的方法,其中,根據(jù)基因型質(zhì)量,改變顏色強(qiáng)度,其中, 顏色強(qiáng)度越高,表示越高質(zhì)量度量。
176. 如權(quán)利要求172至174所述的方法,其中,單元中的一個(gè)或多個(gè)圖標(biāo)改變形狀和/ 或顏色,如果預(yù)測(cè)由那一單元表示的變體在由那一單元表示的樣本中產(chǎn)生基因融合。
177. 如權(quán)利要求172至174所述的方法,其中,單元中的圖標(biāo)在形狀和/或顏色方面不 同,如果由那一單元表示的變體的位置不具有數(shù)據(jù),或在由那一單元表示的樣本中的那一 變體的位置,沒(méi)有進(jìn)行準(zhǔn)確基因型調(diào)用的能力。
178. -種計(jì)算機(jī)程序產(chǎn)品,具有制定權(quán)利要求158至177的機(jī)器可讀指令。
179. -種計(jì)算機(jī)實(shí)現(xiàn)的系譜構(gòu)造器,其中,該系譜構(gòu)造器被配置成: (a) 利用來(lái)自用戶的輸入來(lái)識(shí)別最可能源自得到指定樣本的個(gè)體的母親的樣本; (b) 利用來(lái)自用戶的輸入來(lái)識(shí)別最可能源自得到指定樣本的個(gè)體的父親的樣本。
180. 如權(quán)利要求179所述的計(jì)算機(jī)實(shí)現(xiàn)的系譜構(gòu)造器,其中,系譜構(gòu)造器被配置成構(gòu) 成系譜信息并且使信息可用于權(quán)利要求62的遺傳分析過(guò)濾器,用于進(jìn)一步過(guò)濾變體。
181. 如權(quán)利要求180所述的計(jì)算機(jī)實(shí)現(xiàn)的系譜構(gòu)造器,其中,系譜構(gòu)造器推斷指定研 究?jī)?nèi)的二人組和家庭關(guān)系。
182. 如權(quán)利要求180所述的計(jì)算機(jī)實(shí)現(xiàn)的系譜構(gòu)造器,其中,系譜構(gòu)造器識(shí)別潛在的 系譜不一致性。
183. 如權(quán)利要求182所述的計(jì)算機(jī)實(shí)現(xiàn)的系譜構(gòu)造器,其中,系譜構(gòu)造器識(shí)別源自用 戶輸入的關(guān)系和源自計(jì)算分析的關(guān)系之間的不一致性。
184. 如權(quán)利要求182所述的計(jì)算機(jī)實(shí)現(xiàn)的系譜構(gòu)造器,其中,系譜不一致性包括非親 生,樣本貼錯(cuò)標(biāo)簽,或樣本混淆錯(cuò)誤,或在被設(shè)計(jì)成由無(wú)關(guān)個(gè)體組成的關(guān)聯(lián)研究中,相關(guān)個(gè) 體的識(shí)別。
185. 如權(quán)利要求180所述的計(jì)算機(jī)實(shí)現(xiàn)的系譜構(gòu)造器,其中,系譜構(gòu)造器將相同的單 個(gè)標(biāo)識(shí)符指定給源自相同個(gè)體的多個(gè)樣本。
186. 如權(quán)利要求185所述的計(jì)算機(jī)實(shí)現(xiàn)的系譜構(gòu)造器,其中,系譜構(gòu)造器能由同一患 者推斷患者的正常基因組和匹配腫瘤基因組。
187. -種計(jì)算機(jī)實(shí)現(xiàn)的統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器,其中,統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器被配置成: (a) 將過(guò)濾器級(jí)聯(lián)中的前一過(guò)濾器的輸入用作輸入; (b) 使用在兩個(gè)以上樣本組之間,統(tǒng)計(jì)上顯著不同的基本等位、顯性、或隱性模型,過(guò)濾 變體。
188. 如權(quán)利要求187所述的計(jì)算機(jī)實(shí)現(xiàn)的統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器,其中,統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器被 配置成使用負(fù)荷測(cè)試,以統(tǒng)計(jì)學(xué)顯著性來(lái)過(guò)濾在兩個(gè)以上樣本組之間以不同的方式干擾基 因的變體。
189. 如權(quán)利要求187所述的計(jì)算機(jī)實(shí)現(xiàn)的統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器,其中,統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器被 配置成使用通路或基因集負(fù)荷測(cè)試,過(guò)濾在兩個(gè)以上樣本組之間以不同的方式干擾基因的 變體。
190. 如權(quán)利要求188所述的統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器,其中,使用從下述選擇的負(fù)荷測(cè)試:案例 負(fù)荷、對(duì)照負(fù)荷和雙向負(fù)荷測(cè)試,所述統(tǒng)計(jì)顯著性在受表型影響和未受影響的狀態(tài)之間進(jìn) 行區(qū)分。
191. 如權(quán)利要求188所述的統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器,其中,使用負(fù)荷測(cè)試,步驟(c)的統(tǒng)計(jì)顯 著性在受表型影響和未受影響的狀態(tài)之間進(jìn)行區(qū)分,所述負(fù)荷測(cè)試僅利用通過(guò)步驟(a)的 過(guò)濾器級(jí)聯(lián)中的在前過(guò)濾器的變體來(lái)計(jì)算統(tǒng)計(jì)上顯著的變體。
192. 如權(quán)利要求188所述的統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器,其中,統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器能通過(guò)利用權(quán)利 要求114的預(yù)測(cè)有害過(guò)濾器和權(quán)利要求53的遺傳分析過(guò)濾器,識(shí)別有害并且導(dǎo)致推斷的在 基因級(jí)別上的功能喪失或推斷的在基因級(jí)別上的功能增益的變體。
193. 如權(quán)利要求189所述的統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器,其中,通路/基因集負(fù)荷測(cè)試通過(guò)利用 來(lái)自文獻(xiàn)的研究結(jié)果的知識(shí)庫(kù),區(qū)分影響受表型影響和未受影響的狀態(tài),以及能夠識(shí)別基 因,所述基因基于從下述的一個(gè)或多個(gè)選擇的一個(gè)或多個(gè)共享要素:通路生物學(xué)、結(jié)構(gòu)域、 表達(dá)、生物過(guò)程、疾病關(guān)聯(lián)性、組或復(fù)合物注釋,一起形成共同的相關(guān)集合。
194. 如權(quán)利要求189所述的統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器,其中,通過(guò)識(shí)別在兩個(gè)以上樣本組之間 顯著更多或顯著更少干擾所述通路或基因集的變體,通路或基因集負(fù)荷測(cè)試區(qū)分受表型影 響和未受影響的狀態(tài)。
195. 如權(quán)利要求189所述的統(tǒng)計(jì)關(guān)聯(lián)過(guò)濾器,其中,在通路/基因集或其用戶指定子集 的庫(kù)上,執(zhí)行通路或基因集負(fù)荷測(cè)試。
196. -種計(jì)算機(jī)實(shí)現(xiàn)的發(fā)布功能部件,其中,發(fā)布功能部件被配置成: (a) 使用戶指定感興趣的分析; (b) 使用戶輸入所述分析的簡(jiǎn)要名稱和描述; (c) 為用戶提供能由用戶嵌入出版物中的URL互聯(lián)網(wǎng)鏈接; (d) 為用戶提供發(fā)行所公布的分析的能力,用于廣泛訪問(wèn);以及 (e) 在用戶所述發(fā)行后,為訪問(wèn)步驟(c)的URL或?yàn)g覽可用發(fā)布分析列表的其他用戶提 供對(duì)用戶發(fā)布的分析的訪問(wèn)。
197. -種計(jì)算機(jī)實(shí)現(xiàn)的可藥化通路功能部件,其中,假定一個(gè)或多個(gè)患者樣本中,有作 為疾病的原因性或驅(qū)動(dòng)變體的一個(gè)或多個(gè)變體,可藥化通路功能部件被配置成: (a) 識(shí)別已知針對(duì)、活化和/或抑制在與所述一個(gè)或多個(gè)變體相同通路或基因網(wǎng)絡(luò)中 共同出現(xiàn)的基因、基因產(chǎn)物或基因集的藥物, (b) 通過(guò)原因性網(wǎng)絡(luò)分析,識(shí)別患者樣本中的所述一個(gè)或多個(gè)變體對(duì)通路或基因網(wǎng)絡(luò) 的預(yù)測(cè)凈效應(yīng),以及 (c) 進(jìn)一步識(shí)別在步驟(a)中所識(shí)別的藥物,其對(duì)通路或基因網(wǎng)絡(luò)的凈效應(yīng)與變體對(duì) 所述通路或基因網(wǎng)絡(luò)的預(yù)測(cè)影響完全相反。
198. 如權(quán)利要求197所述的可藥化通路功能部件,其中,利用該方法來(lái)識(shí)別基于患者 的序列變體簡(jiǎn)檔,表示患者很可能對(duì)一個(gè)或多個(gè)感興趣的特定藥物起反應(yīng)的患者樣本。
199. 如權(quán)利要求140所述的致病性注釋器,其中,所述致病性注釋器與定義與那一疾 病有關(guān)的變體、基因和通路的疾病模型的知識(shí)庫(kù)通信,其中,致病性注釋器利用疾病模型來(lái) 提供用于特定變體和特定疾病的具體組合的致病性評(píng)估。
200. -種計(jì)算機(jī)實(shí)現(xiàn)的三核苷酸重復(fù)注釋器,其中,三核苷酸重復(fù)注釋器被配置成: (a) 與包含有關(guān)良性的重復(fù)數(shù)和與一個(gè)或多個(gè)人類表型或其嚴(yán)重性有關(guān)的重復(fù)數(shù)的信 息的已知三核苷酸重復(fù)區(qū)的知識(shí)庫(kù)交互; (b) 評(píng)估一個(gè)或多個(gè)患者的全基因組或外顯子組測(cè)序樣本中,在知識(shí)庫(kù)中定義的一個(gè) 或多個(gè)基因組區(qū)處的三核苷酸重復(fù)的數(shù)量; (c) 對(duì)每一三核苷酸重復(fù),基于知識(shí)庫(kù),評(píng)估在(b)計(jì)算的三核苷酸重復(fù)長(zhǎng)度是否足以 導(dǎo)致表型; (d) 將與在步驟(b)計(jì)算的三核苷酸重復(fù)長(zhǎng)度有關(guān)的表型信息傳送給用戶;以及 (e) 與預(yù)測(cè)有害過(guò)濾器通信來(lái)基于三核苷酸重復(fù)注釋器的結(jié)果,實(shí)現(xiàn)導(dǎo)致表型的變體 的過(guò)濾。
201. -種頻繁擊中過(guò)濾器,其中,頻繁擊中過(guò)濾器被配置成: (a) 訪問(wèn)在源自未受感興趣的疾病或表型影響的個(gè)體的樣本集合中,突變的高可變基 因和基因組區(qū)的知識(shí)庫(kù); (b) 過(guò)濾在高可變基因和/或基因組區(qū)內(nèi)出現(xiàn)的變體。
【文檔編號(hào)】C40B60/04GK104094266SQ201280064104
【公開(kāi)日】2014年10月8日 申請(qǐng)日期:2012年11月6日 優(yōu)先權(quán)日:2011年11月7日
【發(fā)明者】小道格拉斯·E·巴斯特, 丹尼爾·R·理查森 申請(qǐng)人:獨(dú)創(chuàng)系統(tǒng)公司