構(gòu)建特異性啟動(dòng)子的方法
【專利摘要】本申請(qǐng)涉及用于設(shè)計(jì)針對(duì)基因選擇性表達(dá)之啟動(dòng)子的系統(tǒng)。根據(jù)特定方法選擇由此鑒定的轉(zhuǎn)錄調(diào)控元件,并且用于產(chǎn)生轉(zhuǎn)錄調(diào)控元件文庫,其隨后用于構(gòu)建特異性啟動(dòng)子,尤其是組織特異性啟動(dòng)子。
【專利說明】構(gòu)建特異性啟動(dòng)子的方法
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及用于設(shè)計(jì)啟動(dòng)子的系統(tǒng),所述啟動(dòng)子用于基因選擇性表達(dá)。
【背景技術(shù)】
[0002]癌癥是一種復(fù)雜的生物現(xiàn)象,其被認(rèn)為起因于細(xì)胞DNA中基因和表觀遺傳改變的多步過程,最終導(dǎo)致細(xì)胞的轉(zhuǎn)化以及其不受控制的生長、分裂和遷移。鑒定介導(dǎo)細(xì)胞轉(zhuǎn)化的異常分子途徑是理解惡性腫瘤如何發(fā)展的主要挑戰(zhàn)。
[0003]功能基因組學(xué)的出現(xiàn)給了科學(xué)家在各種癌癥中檢驗(yàn)基因表達(dá)的全局變化、提供可潛在幫助建立更有效的診斷和預(yù)防技術(shù)的分子表型的前景。
[0004]已經(jīng)證明利用微陣列解析導(dǎo)致腫瘤發(fā)展的分子事件是更加困難的任務(wù),特別是因?yàn)槲㈥嚵袛?shù)據(jù)僅提供特定時(shí)間點(diǎn)的細(xì)胞轉(zhuǎn)錄組的快照。因?yàn)楹芏喟┌Y包括多基因改變,所以難以將基因表達(dá)譜中的特定改變歸因于轉(zhuǎn)化細(xì)胞基因組的特定改變。
[0005]但是,過去幾年的發(fā)展,特別是隨著比較基因組微陣列分析的出現(xiàn),已經(jīng)揭示微陣列數(shù)據(jù)可在研究癌癥中具有更寬廣的應(yīng)用。在此類分析中,基因表達(dá)數(shù)據(jù)可通過作圖定位于染色體上,揭示特定類型的癌癥中主要的染色體畸變?nèi)鐢U(kuò)增或缺失的潛在位點(diǎn)。
[0006]現(xiàn)在研究人員越來越多地傾向于分析“基因模塊”方面的微陣列數(shù)據(jù),而不是給出差異調(diào)節(jié)的基因列表。通過將基因分成功能相關(guān)的模塊,能夠鑒定基因表達(dá)中可能在生物學(xué)上(如果非統(tǒng)計(jì)學(xué)上顯著的)重要的微小變化,更容易解釋介導(dǎo)特定應(yīng)答的分子途徑,以及比較來自不同腫瘤類型的多種不同微陣列實(shí)驗(yàn)以揭示多種臨床疾病中的共同點(diǎn)和差異。
[0007]因此,我們進(jìn)入了 功能基因組學(xué)的新時(shí)代,可通過計(jì)算方法中的改進(jìn)更徹底地解讀由評(píng)價(jià)全局基因表達(dá)研究所產(chǎn)生的大數(shù)據(jù)集。癌癥研究中重要的是將這些改進(jìn)的生物信息學(xué)工具應(yīng)用于該復(fù)雜疾病,以闡明介導(dǎo)惡性表型的分子過程,從而可有效設(shè)計(jì)最終改進(jìn)的靶向治療。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的之一是提供用于構(gòu)建特定啟動(dòng)子的方法和組合物。這樣的啟動(dòng)子可以是細(xì)胞類型、組織類型或條件特異性的,所述條件例如特定的疾病或環(huán)境條件,如生物或化學(xué)物質(zhì)或微生物病原的存在。優(yōu)選地,這些是組織特異性表達(dá)的啟動(dòng)子。
[0009]在某些實(shí)施方案中,該目的通過獨(dú)立權(quán)利要求所要求保護(hù)的發(fā)明來實(shí)現(xiàn)。在從屬權(quán)利要求中描述了某些有利的實(shí)施方案,在這里描述了另一些實(shí)施方案。
[0010]即使未提出多項(xiàng)引用權(quán)利要求,也公開了權(quán)利要求中特征的所有合理組合。
[0011]在某些方面,本發(fā)明的目的通過一種方法實(shí)現(xiàn)。接下來將更詳細(xì)地描述方法的各個(gè)步驟。所述步驟不一定按照文中給出的順序進(jìn)行。另外,另一些未明確給出的步驟可以是方法的一部分。
[0012]提供了用于選擇啟動(dòng)子元件以及選擇和制備細(xì)胞、組織或條件特異性表達(dá)的啟動(dòng)子盒(如轉(zhuǎn)錄增強(qiáng)的組合啟動(dòng)子盒)的方法。這樣的方法通常包括鑒定或提供轉(zhuǎn)錄因子調(diào)控兀件(transcription factor regulatory element, TFRE)如多個(gè) TFRE 的步驟。多個(gè)TFRE中的每一個(gè)通常與多個(gè)基因中的一個(gè)或更多個(gè)相關(guān)。在特定細(xì)胞類型或組織類型中或者在特定的條件下,例如與另一種細(xì)胞類型、組織類型或條件(例如正常、對(duì)照或標(biāo)準(zhǔn)細(xì)胞類型或組織或所述特定條件不存在時(shí))相比,所述多個(gè)基因中的每一個(gè)通常差異表達(dá),如異常表達(dá)(例如,上調(diào)或下調(diào))。
[0013]細(xì)胞和組織類型例如是真核細(xì)胞,包括動(dòng)物、植物、真菌及其他真核細(xì)胞。例如,所述細(xì)胞或組織類型可來源于哺乳動(dòng)物、酵母、昆蟲、牛、豬、鼠、馬、犬、貓、鳥、魚、羊、昆蟲、猿和/或人。
[0014]在一些方面,所述細(xì)胞或組織類型是來源于大腦、小腦、腎上腺、卵巢、胰腺、甲狀旁腺、垂體、睪丸、甲狀腺、乳房、脾臟、扁桃體、胸腺、淋巴結(jié)、骨髓、肺、心肌、食管、胃、小腸、結(jié)腸、肝臟、唾液腺、腎臟、前列腺、血液的組織或細(xì)胞或者其他細(xì)胞或組織類型。
[0015]在一些方面,所述條件是疾病條件,例如癌癥、炎癥疾病、傳染病、遺傳缺陷或其他疾病。癌癥可以是大腦、小腦、腎上腺、卵巢、胰腺、甲狀旁腺、垂體、睪丸、甲狀腺、乳房、脾臟、扁桃體、胸腺、淋巴結(jié)、骨髓、肺、心肌、食管、胃、小腸、結(jié)腸、肝臟、唾液腺、腎臟、前列腺、血液或者其他細(xì)胞或組織類型的癌癥,并且可包括多種癌癥。例如,在一些情況下,多個(gè)基因中的每一個(gè)在多種不同癌癥中異常調(diào)節(jié)或差異表達(dá)。
[0016]在一些方面,所述條件是存在遺傳缺陷,例如缺乏基因或其一部分,存在特定基因突變,或缺乏特定遺傳途徑的功能,例如在基因工程細(xì)胞或生物中或者存在天然的突變或基因缺陷。
[0017]在另一些情況下,所述條件是環(huán)境條件。在一些情況下,環(huán)境條件是暴露于特定藥物、生物物質(zhì)、化學(xué)物或微生物病原。這樣的物質(zhì)可包括生物制品(biologies)、小分子、抗體和抗體片段、融合蛋白、重組蛋白、核酸、細(xì)胞因子、配體和/或來源于特定細(xì)胞培養(yǎng)物或生物或由其分泌的刺激物,例如來源于具有特定疾病之對(duì)象的組織或流體(例如,血液或其他體液)。.
[0018]可使用公知的方法如本文中描述的功能性基因組學(xué)應(yīng)用(包括微陣列或其他分析)來確定所述多個(gè)基因在特定細(xì)胞或組織類型或在特定條件的存在下差異表達(dá)。
[0019]在一個(gè)方面,如果TFRE在基因的20千堿基、10千堿基、5千堿基或4、3、2或I千堿基之內(nèi),則認(rèn)為其與所給定的基因相關(guān)聯(lián);通常,這樣的TFRE在該基因的上游區(qū)域內(nèi)。在一些方面,每一所選TFRE在超過50%的多個(gè)基因的上游區(qū)域。在一些實(shí)施方案中,僅在TFRE存在于有義鏈中或僅在其存在于反義鏈中時(shí),認(rèn)為其與給定基因相關(guān)聯(lián)。在一個(gè)實(shí)施方案中,僅在TFRE存在于有義鏈中時(shí),認(rèn)為其與給定基因相關(guān)聯(lián)。如果無特殊說明,如果TFRE存在于有義鏈或反義鏈,認(rèn)為其是相關(guān)聯(lián)的。
[0020]所述方法通常還包括從多個(gè)TFRE中選擇一個(gè)或更多個(gè)TFRE。在一個(gè)方面,每一個(gè)所選TFRE在超過50%的多個(gè)基因的附近,例如在20千堿基、10千堿基、5千堿基內(nèi),或
4、3、2或I千堿基內(nèi)。在一些方面,每一個(gè)在超過50%的多個(gè)基因的10千堿基或5千堿基內(nèi),優(yōu)選上游區(qū)域。在一些方面,每一所選TFRE在超過50%的多個(gè)基因的上游區(qū)域。
[0021]通常還基于TFRE的頻率和長度以及它們之間的關(guān)系選擇TFRE。
[0022]如本文定義的,TFRE的頻率涉及其與多個(gè)基因相關(guān)時(shí)出現(xiàn)的頻率。在一些情況下,頻率可以多個(gè)基因中任一個(gè)的給定附近內(nèi)頻率的形式給出,g卩,多個(gè)基因中的任一個(gè)的該附近內(nèi)給定TFRE出現(xiàn)的次數(shù)除以與多個(gè)基因中的任一個(gè)的該附近內(nèi)的TFRE的總數(shù)。例如,多個(gè)基因的20千堿基內(nèi)給定TFRE的頻率定義為任意基因的20千堿基內(nèi)TFRE的出現(xiàn)次數(shù)除以多個(gè)基因中的任一個(gè)的20千堿基內(nèi)全部TFRE的出現(xiàn)次數(shù)。
[0023]在一些實(shí)施方案中,頻率以TFRE與有義鏈或反義鏈中基因關(guān)聯(lián)的形式給出;在另一些實(shí)施方案中,其以TFRE與有義鏈中基因關(guān)聯(lián)頻率的形式給出。例如,在一些實(shí)施方案下,頻率為有義鏈內(nèi)多個(gè)基因的給定附近(例如,20千堿基)內(nèi)的給定TFRE的頻率;在另一些實(shí)施方案中,頻率為有義鏈或反義鏈內(nèi)多個(gè)基因的給定附近(例如,20千堿基)內(nèi)的給定TFRE的頻率。除非另有指明,頻率表示在有義鏈或反義鏈中的出現(xiàn)。
[0024]長度是指給定TFRE的核苷酸長度。
[0025]通常根據(jù)以下方程使用頻率和長度來選擇TFRE:
[0026]頻率(1/長度)。
[0027]該方程的值稱作SYN值。TFRE通?;谄銼YN值來選擇。在一些實(shí)施方案中,每一所選TFRE的SYN值(如以上方程式定義)為至少或大于0.1,0.2,通常為至少或大于0.3,0.4,0.5,0.6,0.7 或 0.8,例如為或約為 0.3,0.4,0.5,0.6,0.7 或 0.8,通常為至少或約為或大于0.5或0.6。在另一些實(shí)施方案中,SYN值用于對(duì)TFRE排序,選擇具有最大SYN值的TFRE。在一些方面,每一所選TFRE為多個(gè)TFRE中具有前1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25 或 50 個(gè) SYN 值的 TFRE,通常具有前 1、2、3、4、5、6、7、8、9或10的SYN值。
[0028]在一些實(shí)施方案中,所述方法包括制備或設(shè)計(jì)啟動(dòng)子盒,例如轉(zhuǎn)錄增強(qiáng)的組合啟動(dòng)子盒。在這樣的實(shí)施方案中,所述方法還可包括構(gòu)建隨機(jī)組合的所選TFRE或隨機(jī)組合的元件的文庫。在一個(gè)方面,通過在連接反應(yīng)條件下將至少編制所選TFRE的各個(gè)雙鏈DNA序列元件混合在一起來制備文 庫??赏ㄟ^在連接條件下將雙鏈DNA寡核苷酸隨機(jī)連接在一起制備這樣的文庫,每一雙鏈DNA寡核苷酸可包含編碼至少所選轉(zhuǎn)錄因子調(diào)控元件(優(yōu)選地所選轉(zhuǎn)錄因子調(diào)控元件)的DNA序列元件。
[0029]在一些實(shí)例中,所述方法還包括將文庫的組合TFRE或元件插入到載體或多個(gè)載體中,例如具有最小啟動(dòng)子并且通常具有報(bào)告基因的載體中,從而產(chǎn)生組合啟動(dòng)子盒。在一些實(shí)施方案中,使用多個(gè)載體,從而產(chǎn)生多個(gè)組合啟動(dòng)子盒。在一個(gè)方面,報(bào)告基因是LacZ或GFP。在一些實(shí)例中,所述方法還包括將載體插入到宿主細(xì)胞中。
[0030]在一些方面,文庫和/或組合啟動(dòng)子盒中存在的元件與所選TFRE之一具有至少或大于 70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99 或 100% 的同一,性,優(yōu)選地與所選TFRE之一具有100%的同一性。在一些方面,組合啟動(dòng)子盒與SEQ ID NO:130至 190 或其互補(bǔ)序列之一具有至少 70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100%的同一性。在一些方面,其與SEQ ID NO:5至66或其互補(bǔ)序列之一具有至少 70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99 或 100%的同一性。
[0031]在一些具體實(shí)施例中,組合啟動(dòng)子盒或啟動(dòng)子與SEQ ID NO:50、SEQ ID NO:113、SEQ ID NO:175 或 SEQ ID NO:237 具有至少 70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100%的同一性。在一些具體實(shí)施方案中,組合啟動(dòng)子盒或啟動(dòng)子與SEQID NO:24, SEQ ID NO:87、SEQ ID NO:149 或 SEQ ID NO:211 具有至少 70、75、80、85、86、
87、88、89、90、91、92、93、94、95、96、97、98、99 或 100% 的同一性。在一些具體實(shí)施方案中,組合啟動(dòng)子盒或啟動(dòng)子與 SEQ ID NO:26, SEQ ID NO: 89、SEQ ID NO:151 或 SEO ID NO:213 具有至少 70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99 或 100% 的同一性。在一些具體實(shí)施方案中,組合啟動(dòng)子盒或啟動(dòng)子與SEQ ID NO:59, SEQ ID NO:122、SEQ ID NO:184 或 SEQ ID NO:246 具有至少 70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100 %的同一性。在一些具體實(shí)施方案中,組合啟動(dòng)子盒或啟動(dòng)子與SEQID NO:65, SEQ ID NO:128, SEQ ID NO:190 或 SEQ ID NO:252 具有 70、75、80、85、86、87、
88、89、90、91、92、93、94、95、96、97、98、99 或 100%的同一性。
[0032]可用限制酶切割隨機(jī)組合的序列元件并且克隆在報(bào)告基因(其可以是但不限于GFP或LacZ)的上游,并且可產(chǎn)生質(zhì)粒DNA或病毒載體的文庫??墒褂玫幌抻谀孓D(zhuǎn)錄病毒載體或腺病毒載體來產(chǎn)生文庫。
[0033]在一些實(shí)例中,產(chǎn)生多個(gè)/種宿主細(xì)胞。在這種情況下,所述方法還可包括篩選由所述方法制備的組合啟動(dòng)子盒,例如,通過篩選由所述方法產(chǎn)生的具有增強(qiáng)表達(dá)的報(bào)告基因的宿主細(xì)胞。通常,選擇這樣的啟動(dòng)子盒。
[0034]在某些方面,所述方法還包括鑒定通過所述方法產(chǎn)生的宿主細(xì)胞,或通過上述篩選步驟選擇的宿主細(xì)胞中的組合啟動(dòng)子盒。在一些方面,鑒定包括確定其中的組合啟動(dòng)子盒或TFRE的序列或一部分序列。
[0035]在一些情況下,具有大量TFRE/啟動(dòng)子的合成啟動(dòng)子和盒是有利的,例如通過產(chǎn)生更有效的啟動(dòng)子。因此,在一個(gè)實(shí)施方案中,通過所述方法產(chǎn)生多個(gè)組合啟動(dòng)子盒,所述方法還包括選擇一個(gè)或更多個(gè)由此產(chǎn)生的組合啟動(dòng)子盒。在一個(gè)方面,每個(gè)所選組合啟動(dòng)子盒中TFRE/啟動(dòng)子的個(gè)數(shù)大于通過所述方法最初產(chǎn)生的多個(gè)組合啟動(dòng)子盒中平均TFRE/啟動(dòng)子的個(gè)數(shù)。在另一個(gè)實(shí)例中,TFRE/啟動(dòng)子的個(gè)數(shù)為:每個(gè)啟動(dòng)子大于1、2、3、4、5、6、7、8或更多個(gè),或每個(gè)啟動(dòng)子為1、2、3、4、5、6、7、8或更多個(gè),優(yōu)選地,每個(gè)啟動(dòng)子大于2、3、4、
5、6、7、8或更多個(gè), 或每個(gè)啟動(dòng)子為2、3、4、5、6、7、8或更多個(gè)。TFRE可存在于啟動(dòng)子盒的有義鏈或反義鏈中。
[0036]在一個(gè)實(shí)施方案中,可將包含克隆在最小啟動(dòng)子(其后接著報(bào)告基因)上游的隨機(jī)序列組合文庫的載體DNA轉(zhuǎn)染或傳染到靶細(xì)胞中并且用FACS (熒光活化細(xì)胞分選)來分選以選擇高水平表達(dá)報(bào)告基因的細(xì)胞。然后分選的細(xì)胞用于回收和擴(kuò)增包含期望的高效轉(zhuǎn)錄調(diào)控元件組合的載體DNA。
[0037]可將由分選細(xì)胞回收和擴(kuò)增的載體用于另一輪篩選,以篩選在不同類型的宿主細(xì)胞中具有甚至更高性能和/或活性的轉(zhuǎn)錄調(diào)控元件組合。
[0038]在重復(fù)的分選和篩選結(jié)束后,可將回收的DNA載體進(jìn)一步在靶細(xì)胞中單獨(dú)篩選以測(cè)試其真實(shí)的啟動(dòng)子活性。
[0039]作為對(duì)照,如果期望細(xì)胞類型特異性的啟動(dòng)子,還可在非靶細(xì)胞中測(cè)試包含轉(zhuǎn)錄調(diào)控元件組合的所選載體,以排除在非靶細(xì)胞中具有顯著啟動(dòng)子活性的載體。
[0040]還提供了通過這樣的方法產(chǎn)生的組合啟動(dòng)子盒,包含這樣的組合啟動(dòng)子盒的載體、文庫和細(xì)胞,以及使用這樣的組合啟動(dòng)子盒的方法。在一些情況下,啟動(dòng)子盒包括隨機(jī)組合的TFRE、最小啟動(dòng)子和報(bào)告基因。在一些實(shí)施方案中,組合的啟動(dòng)子盒中的每一 TFRE在超過50%的多個(gè)基因的20、10或5千堿基內(nèi),優(yōu)選在上游區(qū),所述多個(gè)基因被鑒定為在特定細(xì)胞類型或組織類型或在特定條件下差異表達(dá),并且SYN值大于0.3,0.2,0.1、0.4或0.5,在這里SYN值如上文所定義。載體可以是質(zhì)粒、病毒、瞬時(shí)表達(dá)或整合在宿主的基因組中。
[0041]還提供了用于驅(qū)動(dòng)和/或調(diào)節(jié)表達(dá)的分離的啟動(dòng)子。在一些實(shí)施方案中,這樣的啟動(dòng)子包含SEQ ID No:130至191之一或SEQ ID No: 130至191之一的互補(bǔ)序列給出的分離的核酸。因此,提供了包含SEQ ID NO:130-191之一或其反義序列(即互補(bǔ)序列)給出的核苷酸序列的啟動(dòng)子。在另一些實(shí)施方案中,其包含與SEQ ID NO:130-191中任一個(gè)的序列具有至少或大于 70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99 或100%序列同一性,例如至少90%序列同一性的分離的核酸。在另一些實(shí)施方案中,其包含在嚴(yán)格條件下能夠與SEQ ID NO =130-191之一給出的DNA序列特異性雜交的分離的核酸。在另一些實(shí)施方案中,這樣的啟動(dòng)子可包括這樣的分離的核酸,其被插入序列或者下述片段進(jìn)一步斷開,所述片段為能夠驅(qū)動(dòng)和/或調(diào)節(jié)表達(dá)的此類核酸序列的片段。
[0042]分離的啟動(dòng)子還可包括最小啟動(dòng)子,例如Muc-1最小啟動(dòng)子。在一些實(shí)施方案中,這樣的啟動(dòng)子包括SEQ ID No:5至66之一或SEQ ID No:5至66之一的互補(bǔ)序列給出的分離的核酸。因此,提供了包括SEQ ID NO:5-6中的任一個(gè)或其反義序列(即,互補(bǔ)序列)給出的核苷酸序列的啟動(dòng)子。在另一些實(shí)施方案中,其包含與SEQ ID NO:130至191中任一個(gè)的序列具有至少或大于 70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100%序列同一性,例如90%序列同一性的分離的核酸。在另一些實(shí)施方案中,其包含在嚴(yán)格條件下能夠與SEQ ID NO:5至66之一給出的DNA序列特異性雜交的分離核酸。在另一些實(shí)施方案中,這樣的啟動(dòng)子可包括這樣的分離核酸,其被插入序列或者下述片段進(jìn)一步斷開,所述片段為能夠驅(qū)動(dòng)和/或調(diào)節(jié)表達(dá)的此類核酸序列的片段。
[0043]還提供了包括這樣的分離啟動(dòng)子、與這樣的啟動(dòng)子有效連接的異源核酸序列的基因構(gòu)建物。此類構(gòu)建物可任選地包含3’轉(zhuǎn)錄終止子。
[0044]還提供了包括任意一個(gè)或更多個(gè)上述載體、分離啟動(dòng)子和/或基因基因構(gòu)建物的宿主細(xì)胞。
[0045]還提供了使用所提 供的啟動(dòng)子、構(gòu)建物、載體和細(xì)胞來驅(qū)動(dòng)/調(diào)節(jié)表達(dá)的方法。在一個(gè)方面,所述方法包括驅(qū)動(dòng)或調(diào)節(jié)細(xì)胞中核酸的表達(dá)。這樣的方法可如下實(shí)施:將這樣的核酸與上文描述或使用所描述方法制備的任意啟動(dòng)子有效連接,以及將所得基因構(gòu)建物引入細(xì)胞。
[0046]還提供了上述啟動(dòng)子用于驅(qū)動(dòng)和/或調(diào)節(jié)有效連接的核酸的表達(dá)的用途。
[0047]發(fā)明詳述
[0048]定義
[0049]本文使用的“轉(zhuǎn)錄調(diào)控元件”、“TRE”、“轉(zhuǎn)錄因子調(diào)控元件”和“TFRE”是指轉(zhuǎn)錄調(diào)控物所識(shí)別的核苷酸序列,并且與“順式作用序列”或“順序作用序列元件”或“順式作用區(qū)域”同義,有時(shí)候表示為“序列元件”。
[0050]本文中使用的“組合轉(zhuǎn)錄調(diào)控元件”是指包含多于一個(gè)轉(zhuǎn)錄調(diào)控元件的雙鏈DNA分子。所述組合轉(zhuǎn)錄調(diào)控元件可通過以隨機(jī)方式連接多個(gè)雙鏈轉(zhuǎn)錄調(diào)控元件來產(chǎn)生。任選地,所述組合序列元件可包括間隔區(qū),并且可通過在將雙鏈DNA分子用于隨機(jī)連接反應(yīng)之前對(duì)其進(jìn)行時(shí)間進(jìn)程的核酸外切酶消化來控制間隔核苷酸的長度。
[0051]在本文中使用的“寡核苷酸”是指功能上包括順式作用區(qū)的序列,并且可能多至25個(gè)或更少的外源核苷酸。因此,術(shù)語“寡核苷酸”涵蓋的核苷酸數(shù)不是固定的,因此不限于任何特定的核苷酸數(shù)。
[0052]本文中使用的“啟動(dòng)子盒”或“合成啟動(dòng)子盒”是指包含用于有效轉(zhuǎn)錄基因之組分的DNA區(qū)段,并且可包含一個(gè)或更多個(gè)轉(zhuǎn)錄調(diào)控元件、最小啟動(dòng)子區(qū)、來自5'-非翻譯區(qū)或內(nèi)含子的序列。
[0053]本文中使用的“最小啟動(dòng)子區(qū)”或“最小啟動(dòng)子”是指一種短DNA區(qū)段,其本身不具有活性,但是在與其他轉(zhuǎn)錄調(diào)控元件組合時(shí)可介導(dǎo)強(qiáng)轉(zhuǎn)錄。最小啟動(dòng)子序列可來源于多種不同來源,包括原核和真核基因。其實(shí)例為多巴胺β羥化酶基因最小啟動(dòng)子和巨細(xì)胞病毒(CMV)立即早期基因最小啟動(dòng)子。
[0054]本文中使用的 “組合啟動(dòng)子盒”或“合成組合啟動(dòng)子盒”是指包含組合轉(zhuǎn)錄調(diào)控元件的啟動(dòng)子盒。
[0055]本文中使用的“轉(zhuǎn)錄調(diào)控物(transcription regulator) ”是指包括與順式作用區(qū)結(jié)合并且正調(diào)節(jié)或負(fù)調(diào)節(jié)基因表達(dá)之蛋白質(zhì)的任何因子。轉(zhuǎn)錄因子或抑制物或共活化物或共抑制物都包括在內(nèi)。
[0056]近年來功能基因組學(xué)的進(jìn)步導(dǎo)致認(rèn)識(shí)了更多直接涉及特定基因的增強(qiáng)轉(zhuǎn)錄的順式調(diào)控元件。實(shí)際上,使用生物信息學(xué)解決在病變細(xì)胞中活躍的復(fù)雜轉(zhuǎn)錄途徑的能力實(shí)際上可有助于選擇下述合適的順式元件的過程,所述合適的順式元件可用于設(shè)計(jì)復(fù)雜病理學(xué)如癌癥中的合成啟動(dòng)子。
[0057]在癌癥中,基因表達(dá)譜的改變通常是控制生長、增殖和遷移的信號(hào)通路的異常活化所誘導(dǎo)的細(xì)胞轉(zhuǎn)錄機(jī)制發(fā)生改變的結(jié)果。這樣的改變導(dǎo)致在正常細(xì)胞中未發(fā)現(xiàn)的轉(zhuǎn)錄調(diào)節(jié)網(wǎng)絡(luò)的活化,為我們提供了設(shè)計(jì)僅在癌細(xì)胞中有活性的合成啟動(dòng)子的機(jī)會(huì)。
[0058]如果微陣列技術(shù)如已經(jīng)報(bào)道的確實(shí)導(dǎo)致設(shè)計(jì)對(duì)于個(gè)別癌癥或甚至是患者量身定做的治療方案,那么重要的是將設(shè)計(jì)用來鑒定信號(hào)和轉(zhuǎn)錄網(wǎng)絡(luò)的功能基因組學(xué)方法用于設(shè)計(jì)癌癥特異性的啟動(dòng)子,從而可形成有效的基因治療策略。
[0059]用于分析微陣列數(shù)據(jù)集的生物信息學(xué)算法的發(fā)展已經(jīng)被廣泛應(yīng)用于研究不同疾病和環(huán)境條件下的轉(zhuǎn)錄網(wǎng)絡(luò)運(yùn)作。目前為止,尚未嘗試鍋使用這種方法來設(shè)計(jì)僅在這些特定疾病或環(huán)境條件下有效的合成啟動(dòng)子。
[0060]本文描述了下述方法:通過該方法使用廣泛普及的生物信息學(xué)軟件工具分析由基因組學(xué)實(shí)驗(yàn)(例如,微陣列分析)得到的數(shù)據(jù),其作用是發(fā)現(xiàn)過度存在的順式啟動(dòng)子元件,以設(shè)計(jì)僅在癌細(xì)胞中有活性的合成啟動(dòng)子。這代表了在設(shè)計(jì)癌癥特異性啟動(dòng)子中的巨大飛躍,其隨后可用于研究癌癥或設(shè)計(jì)人惡性腫瘤的安全有效的基因治療方法。
[0061]椎理件啟動(dòng)子詵擇和設(shè)計(jì)
[0062]在一個(gè)方面,所提供的方法基于功能基因組學(xué)在合成啟動(dòng)子中的開發(fā)中的應(yīng)用,例如,用于控制特定環(huán)境條件下(例如,以疾病或組織特異性的方式)或響應(yīng)于外源物質(zhì)(化學(xué)的或生物的)之引入的基因表達(dá)。已經(jīng)構(gòu)建了在若干原核和真核系統(tǒng)中使用的合成啟動(dòng)子。
[0063]設(shè)計(jì)真核系統(tǒng)的合成啟動(dòng)子的可用方法包括任意選擇良好表征的跨越50至100個(gè)核苷酸的順式調(diào)控元件。然后,使這樣的元件包含在通過隨機(jī)連接產(chǎn)生的合成啟動(dòng)子文庫中,并且選擇所關(guān)注細(xì)胞類型(Li, X.,Eastman, E.Μ.,Schwartz, R.J.,&Draghia_Akli,R.Synthetic muscle promoters !activities exceeding naturalIy occurringregulatory sequences.Nat.BiotechnOl.17,241-245(1999) ;Dai, C, McAninch, R.E.,&Sutton,R.E.1dentification of synthetic endothelial cell-specific promoters byuse of a high-throughput screen.J.Virol.78,6209-6221(2004))?
[0064]在一個(gè)方面,所提供的方法和組合物應(yīng)用功能基因組學(xué)和高級(jí)生物信息學(xué)方法獲得人基因組的序列,以便以推理性方式設(shè)計(jì)合成啟動(dòng)子。通常,在所提供的方法中,選擇轉(zhuǎn)錄因子調(diào)控元件(TFRE)如順式調(diào)控元件,以非隨機(jī)方式包含在合成啟動(dòng)子文庫中。在一些方面,所述方案使用來自全局基因表達(dá)分析的信息鑒定與特定基因表達(dá)譜相關(guān)的TFRE(例如,順式調(diào)控元件),允許對(duì)調(diào)控元件給予權(quán)重和分級(jí),開發(fā)改進(jìn)的選擇方法。
[0065]因此,本文提供的方法優(yōu)于任意選擇在合成啟動(dòng)子中使用的順式元件的方法。在一些方面,與可利用的方法選擇的那些相比,所提供的方法能夠選擇較短的順式調(diào)控元件。在一些方面,所提供的方法鑒定下述順式元件:之前不知道涉及在被選順式元件的轉(zhuǎn)錄網(wǎng)絡(luò)中的順式元件,或者在使用隨機(jī)選擇方式時(shí)不會(huì)被選擇的順式元件。在一些方面,與可利用的方法相比,所提供的方法產(chǎn)生更短、更復(fù)雜、和/或包含更多順式調(diào)控元件的合成啟動(dòng)子。
[0066]真核生物中基因表達(dá)的調(diào)節(jié)極其復(fù)雜,并且通常通過多種轉(zhuǎn)錄因子的協(xié)同作用進(jìn)行。在基因表達(dá)控制中使用反式因子組合允許細(xì)胞用相對(duì)少的轉(zhuǎn)錄因子數(shù)量來調(diào)節(jié)不同生物進(jìn)程。
[0067]如本文所討論的,所提供的方法可通過若干可利用的工具使用微陣列數(shù)據(jù)來鑒定TFRE,例如順式調(diào)控元件。還可以用該信息來解析在不同環(huán)境條件下的細(xì)胞中有活性的轉(zhuǎn)錄網(wǎng)絡(luò)。在酵母中,通過特別檢查在組合順式元件存在下的上調(diào)基因聚類來建立轉(zhuǎn)錄調(diào)控的組合性質(zhì)的重要性。通過檢查暴露于不同環(huán)境條件的酵母的微陣列數(shù)據(jù),能夠構(gòu)建揭示不同調(diào)控元件之間的功能相關(guān)性的轉(zhuǎn)錄網(wǎng)絡(luò)。這種方式導(dǎo)致鑒定具有很多交互的關(guān)鍵基序,表明一些因子作為促進(jìn)物蛋白質(zhì)在其功能中協(xié)助其基因特異性伴侶。
.[0068]因此,核心數(shù)量的轉(zhuǎn)錄因子通過采取多種構(gòu)造來介導(dǎo)這樣的多組生物反應(yīng)。在一個(gè)方面,所提供的方法使用這種現(xiàn)象來劫持多因素疾病(例如癌癥)中出錯(cuò)的轉(zhuǎn)錄程序,以開發(fā)疾病特異性或條件特異性的調(diào)控元件。例如,在癌癥中,解釋癌癥微陣列數(shù)據(jù)的方法不斷進(jìn)化,現(xiàn)在可以在轉(zhuǎn)化細(xì)胞中描述更加全面的轉(zhuǎn)錄調(diào)節(jié)圖景。
[0069]癌癥數(shù)據(jù)庫的中期分析(meta-analysis)允許鑒定基因模塊,允許將復(fù)雜的癌癥特征簡(jiǎn)化為少量的活化的轉(zhuǎn)錄程序,甚至簡(jiǎn)化為鑒定在最主要癌癥類型中具有活性的共用程序。這種分析還可有助于鑒定其下調(diào)在腫瘤發(fā)展中具有重要作用的特定轉(zhuǎn)錄因子。例如,在一個(gè)研究中,在搜尋將轉(zhuǎn)錄因子與被發(fā)現(xiàn)在特定癌癥類型中上調(diào)的靶基因相關(guān)聯(lián)的調(diào)節(jié)程序的過程中,肯定了癌癥中異常E2F活性的重要性(Rhodes,D.R.等.Mining forregulatory programs in the cancer transcriptome.Nat.Genet.37,579-583(2005))。已經(jīng)表明E2F靶基因在超過一半的所檢驗(yàn)基因表達(dá)譜中不成比例地上調(diào),其在多種不同癌癥類型得到。因此認(rèn)為綜合性生物信息學(xué)分析具有產(chǎn)生關(guān)于癌癥演進(jìn)的新假說的潛力。
[0070]在一些方面,本發(fā)明基于以下發(fā)現(xiàn),對(duì)疾病特異性的轉(zhuǎn)錄程序的闡述允許構(gòu)建合成的條件啟動(dòng)子元件,其可用于基因治療以驅(qū)動(dòng)所關(guān)注病理部位受限的基因表達(dá)。提供了以下方法,即使用綜合性計(jì)算方法鑒定在特定疾病中、在特定真核細(xì)胞類型中和/或在特定環(huán)境條件下(例如,癌癥適應(yīng)癥)下具有活性的轉(zhuǎn)錄程序的方法。
[0071]這樣的方法可用于設(shè)計(jì)例如在治療方法中使用的在特定疾病、細(xì)胞類型、組織類型和/或一種或更多種環(huán)境條件下驅(qū)動(dòng)基因表達(dá)的合成啟動(dòng)子元件。
[0072]在一個(gè)實(shí)施例中,提供了用于推理性設(shè)計(jì)高效驅(qū)動(dòng)細(xì)胞毒性基因的合成啟動(dòng)子元件的方法,以及使用所述方法的抗癌治療方法。在一個(gè)方面,可使用通過實(shí)驗(yàn)得到或獲自公共資源如Oncomine的微陣列數(shù)據(jù)來鑒定在癌癥干細(xì)胞中被發(fā)現(xiàn)上調(diào)的基因聚類中過度出現(xiàn)的調(diào)節(jié)序列。
[0073]生物信息學(xué)工具
[0074]可使用不同的生物信息學(xué)工具(實(shí)例在表I給出)篩選TFRE,例如順式調(diào)控元件。通常,這些工具通過比較差異調(diào)節(jié)基因之間的基因表達(dá)譜和檢查上游序列(可通過基因組序列資源獲得)來發(fā)揮作用。對(duì)于進(jìn)化足跡(phylogenetic footprinting)工具,比較不同物種之間特定基因的非翻譯區(qū),返回最高保守性序列并且認(rèn)定為潛在的順式元件??墒褂萌靠衫梅椒ǖ慕M合以鑒定特定細(xì)胞或組織類型(例如,癌癥干細(xì)胞)的特征譜中主要的調(diào)控序列。然后使用所鑒定的最常見序列作為在設(shè)計(jì)合成啟動(dòng)子中使用的構(gòu)建塊。
[0075]通常用于鑒定在癌細(xì)胞中異常調(diào)節(jié)的基因的數(shù)據(jù)來源于微陣列數(shù)據(jù)。這些方法可提供特定基因的調(diào)節(jié)的詳細(xì)信息。還可能對(duì)篩選被鑒定為假陽性的基因是必需的,例如過表達(dá)可能由于轉(zhuǎn)錄因子活性的改變而不是染色體擴(kuò)增。
[0076]所關(guān)注細(xì)胞或組織
[0077]本發(fā)明在某些方面涉及在所關(guān)注細(xì)胞或組織類型中進(jìn)行的測(cè)定。特別地,所提供的方法和組合物涉及與以下背景下的基因表達(dá)相關(guān)的TFRE:—種或更多種疾病、狀態(tài)、環(huán)境條件、細(xì)胞類型(例如,真核細(xì)胞類型)、組織類型和域暴露于特定試劑如生物物質(zhì)(例如,配體)、化學(xué)物或微生 物病原。
[0078]細(xì)胞類型包括任意類型的細(xì)胞或多個(gè)細(xì)胞(例如組織)。在所提供的方法中使用的細(xì)胞或組織包括原核細(xì)胞和組織,通常為真核細(xì)胞和組織。合適的真核細(xì)胞可來源于生物如動(dòng)物(例如哺乳動(dòng)物,優(yōu)選人)或其他真核生物(例如,植物)。這樣的細(xì)胞或組織可直接從這樣的生物獲取或可由其產(chǎn)生。例如,細(xì)胞或組織可來源于來自這樣的生物的原代、繼代或永生化細(xì)胞系或培養(yǎng)物。
[0079]細(xì)胞或組織可以是天然存在的細(xì)胞或組織,或者可以已經(jīng)過人工操作的。例如,可通過暴露于改變的環(huán)境或疾病特異性的條件來操作細(xì)胞或組織。例如,可通過暴露于物質(zhì)如生物配體、化學(xué)物或微生物病原來操作細(xì)胞或組織。
[0080]生物配體可以是能夠影響細(xì)胞,特別是影響基因轉(zhuǎn)錄的任意生物分子。生物配體可以是能夠與細(xì)胞結(jié)合或者在細(xì)胞中作用的分子。生物配體可以是例如多肽、蛋白質(zhì)、核酸或碳水化合物分子。合適的生物配體包括激素、生長因子和神經(jīng)遞質(zhì)。
[0081]化學(xué)物可以是能夠?qū)?xì)胞起作用,優(yōu)選導(dǎo)致細(xì)胞內(nèi)的基因轉(zhuǎn)錄改變的任意的物質(zhì)?;瘜W(xué)物可以是例如化學(xué)治療藥物或治療性小分子藥物。
[0082]微生物病原可以是任何病毒、細(xì)菌、真菌或能夠造成哺乳動(dòng)物中疾病的其他感染性物質(zhì)。
[0083]細(xì)胞或組織可來源于異?;蚣膊碓?。例如,細(xì)胞或組織可取自或來源于患有疾病的生物。優(yōu)選地,細(xì)胞或組織來自受疾病影響的組織或器官。例如,在疾病為癌癥時(shí),細(xì)胞或組織可取自腫瘤。細(xì)胞可來自或來源于體外腫瘤細(xì)胞系。
[0084]細(xì)胞或組織類型之一是真核細(xì)胞,包括動(dòng)物、植物、真菌和其他真核細(xì)胞。例如,細(xì)胞或組織類型可來自哺乳動(dòng)物、酵母、昆蟲、牛、豬、鼠、馬、犬、貓、鳥、魚、羊、昆蟲、猿和/或人。
[0085]在一些方面,細(xì)胞或組織類型是來源于大腦、小腦、腎上腺、卵巢、胰腺、甲狀旁腺、垂體、睪丸、甲狀腺、乳房、脾臟、扁桃體、胸腺、淋巴結(jié)、骨髓、肺、心肌、食管、胃、小腸、結(jié)腸、肝臟、唾液腺、腎臟、前列腺、血液的組織或細(xì)胞或其他細(xì)胞或組織類型。
[0086]在一些方面,所述條件是疾病條件,例如癌癥、炎癥疾病、傳染病、遺傳缺陷或其他疾病。癌癥可以是大腦、小腦、腎上腺、卵巢、胰腺、甲狀旁腺、垂體、睪丸、甲狀腺、乳房、脾臟、扁桃體、胸腺、淋巴結(jié)、骨髓、肺、心肌、食管、胃、小腸、結(jié)腸、肝臟、唾液腺、腎臟、前列腺、血液或其他細(xì)胞或組織類型的癌癥,并且可包括多種癌癥。例如,在一些情況下,所述多個(gè)基因中的每一個(gè)在多種不同癌癥中異常調(diào)節(jié)或差異表達(dá)。
[0087]在一些方面,所述條件是存在遺傳缺陷,例如缺乏基因或其一部分,存在特定基因突變,或缺乏特定基因途徑的作用,例如在基因工程細(xì)胞或生物中或存在天然突變或基因缺陷。
[0088]在另一些情況下,所述條件是環(huán)境條件。在一些情況下,環(huán)境狀態(tài)是暴露于特定藥物、生物物質(zhì)、化學(xué)物或微生物病原。這樣的制劑可包括生物制品、小分子、抗體和抗體片段、融合蛋白、重組蛋白、核酸、細(xì)胞因子、配體和/或來源于特定細(xì)胞培養(yǎng)物或生物或由其分泌的的刺激物,例如來源于具有特定疾病之對(duì)象的組織或流體(例如,血液或其他體液)。
[0089]轉(zhuǎn)錄閔子調(diào)控元件
[0090]所提供的方法涉及 對(duì)在所關(guān)注細(xì)胞、組織中和/或疾病或條件(例如,環(huán)境條件或疾病條件,暴露于特定試劑,如生物物質(zhì)(如配體)、化學(xué)物或微生物病原)下有活性的轉(zhuǎn)錄因子調(diào)控元件(TFRE)的鑒定。還提供了 TFRE以及包含TFRE的啟動(dòng)子和文庫。
[0091]適合在所提供方法、組合物、啟動(dòng)子和文庫中使用或選擇的轉(zhuǎn)錄因子調(diào)控元件(TFRE)是被轉(zhuǎn)錄因子鑒定的核酸分子。例如,TFRE可包括轉(zhuǎn)錄因子可以結(jié)合的序列。TFRE可包括順式作用區(qū)域。轉(zhuǎn)錄因子是指可與這樣的順式作用區(qū)域結(jié)合并且正向或反向調(diào)節(jié)基因表達(dá)的任何因子,如蛋白質(zhì)。例如,轉(zhuǎn)錄因子可結(jié)合在基因編碼序列的上游以通過協(xié)助或阻斷RNA聚合物的結(jié)合來增強(qiáng)或抑制基因的轉(zhuǎn)錄。很多轉(zhuǎn)錄因子是本領(lǐng)域中公知的,包括STAT> E2F、Oct-4、Nanog、Brachury> Pax 基因、Sox2 和 MCEF。
[0092]TFRE包含核酸序列,優(yōu)選雙鏈DNA序列。TFRE可包含順式作用區(qū)域,還可包含另外的核酸。啟動(dòng)子和增強(qiáng)子元件的核心6至8個(gè)核苷酸可足夠其對(duì)應(yīng)的反式作用因子的結(jié)合。事實(shí)上,在一些情況下,這種短寡核苷酸對(duì)于單獨(dú)驅(qū)動(dòng)基因表達(dá)是足夠的。
[0093]因此,轉(zhuǎn)錄因子結(jié)合位點(diǎn)可由6至8個(gè)核酸構(gòu)成。包含該位點(diǎn)的TFRE長至少6至8個(gè)核酸。在一些實(shí)施方案中,本發(fā)明的TFRE的長優(yōu)選6個(gè)或更多、8個(gè)或更多、10個(gè)或更多、15個(gè)或更多、20個(gè)或更多、25個(gè)或更多、或30個(gè)或更多的核酸。在一些方面,所提供的實(shí)施方案提供了比可獲得的合成啟動(dòng)子更短的合成啟動(dòng)子。在一些實(shí)施方案中,TFRE的長為100個(gè)或更少、75個(gè)或更少、50個(gè)或更少、小于50個(gè)、30個(gè)或更少、25個(gè)或更少、20個(gè)或更少、或15個(gè)或更少的核酸,優(yōu)選所給上限和下限值的任意組合,優(yōu)選6至100或6至25個(gè)核酸。
[0094]TFRE 的鑒定
[0095]合適的TFRE是在所關(guān)注細(xì)胞或組織中或在所關(guān)注條件下有活性的那些。這樣的TFRE可被鑒定為與在所關(guān)注細(xì)胞或組織中表達(dá)的基因相關(guān)聯(lián)。
[0096]例如,TFRE可與在細(xì)胞、組織或條件下(與另一種細(xì)胞、組織或條件相比)差異表達(dá)的基因相關(guān)聯(lián)。例如,通過兩種不同細(xì)胞、組織中或兩種不同條件下基因表達(dá)和/或不同條件下相同細(xì)胞或組織中基因表達(dá)的比較可見到基因的差異表達(dá)??蓪⒃谝环N細(xì)胞或組織類型中的表達(dá)與在不同但是相關(guān)的組織類型中的表達(dá)進(jìn)行比較。例如,在所關(guān)注細(xì)胞或組織為疾病細(xì)胞或組織或已經(jīng)如本文描述人為操作時(shí),可將該細(xì)胞或組織中基因的表達(dá)與相同基因在相應(yīng)的正?;蛭刺幚砑?xì)胞或組織中的表達(dá)進(jìn)行比較。這可允許鑒定在兩種細(xì)胞或組織類型之間或在不同條件下差異調(diào)控的基因。
[0097]與這樣的基因相關(guān)聯(lián)的TFRE通常位于細(xì)胞的基因組中基因的編碼序列附近。例如,這樣的TFRE可位于緊接該編碼序列上游或下游的區(qū)域。這樣的TFRE可位于啟動(dòng)子或調(diào)節(jié)基因表達(dá)的其他調(diào)控序列附近。本領(lǐng)域技術(shù)人員可使用他在這一方面的知識(shí)和本文描述的方法確定TFRE的位置。
[0098]因此,可通過所關(guān)注細(xì)胞或組織和/或在特定所關(guān)注條件下的測(cè)定來鑒定合適的TFRE??赏ㄟ^常規(guī)方法鑒定在所關(guān)注細(xì)胞或組織中差異表達(dá)的基因。例如,可使用常規(guī)方法將基因在所關(guān)注細(xì)胞或組織中的表達(dá)譜與作為對(duì)照的在其他細(xì)胞或組織類型中的表達(dá)譜進(jìn)行比較。因此,可鑒定在所關(guān)注細(xì)胞或組織中上調(diào)或下調(diào)的基因。這樣的分析可使用例如微陣列分析或基因表達(dá)系列分析(serial analysis of gene expression, SAGE)。
[0099]可使用來自所關(guān)注細(xì)胞或組織的表達(dá)分子的樣品或使用來自所關(guān)注細(xì)胞或組織的全部表達(dá)分子進(jìn)行這樣的分析。例如,在一個(gè)實(shí)施方案中,可使用所關(guān)注細(xì)胞中包含的全部RNA進(jìn)行這樣的分析。因此,在一些實(shí)施方案中,可使用本發(fā)明的方法分析所關(guān)注細(xì)胞或組織的全部基因組的表達(dá)。
[0100]這樣的分析可用于評(píng)價(jià)大量基因或一小群基因的表達(dá)。因此,根據(jù)本發(fā)明的實(shí)施方案,可使用已知通過大量不同轉(zhuǎn)錄因子調(diào)節(jié)或每一基因僅通過一兩種轉(zhuǎn)錄因子調(diào)節(jié)的選擇基因。
[0101]使用基因表達(dá)數(shù)據(jù)鑒定基因模塊的能力已改變了解釋微陣列數(shù)據(jù)的方式,所述基因模塊介導(dǎo)對(duì)環(huán)境刺激(或疾病條件)的特定應(yīng)答以及使其調(diào)控與每一模塊中基因上游存在的順式調(diào)控元件相關(guān)聯(lián)。例如,通過使用模塊方法,能夠檢查特定基因模塊是否在多種不同癌癥中有活性,或者個(gè)別癌癥是否需要獨(dú)特基因模塊的作用。這允許篩選不同癌癥之間的轉(zhuǎn)錄共同點(diǎn),其可有助于設(shè)計(jì)廣泛適用的抗癌治療策略。使用來自1975個(gè)微陣列的基因表達(dá)數(shù)據(jù)(跨越22種不同癌癥)來鑒定在特定癌癥類型中活化或去活化的基因模塊(Segal, E., Friedman, N., Roller, D., &Regev, A.A module map showing conditionalactivity of expression modules in cancer.Nat.Genet.36,1090-1098 (2004))。骨成骨細(xì)胞模塊在主要轉(zhuǎn)移性部位已知為骨的若干癌癥中有活性。同上。因此,鑒定了多種不同癌癥之間的骨轉(zhuǎn)移的共同機(jī)制,其可以作為開發(fā)抗癌治療的靶標(biāo)。
`[0102]還能夠鑒定控制每一模塊中基因表達(dá)的高水平調(diào)節(jié)物(Segal,E.等.Modulenetworks:1dentifying regulatory modules and their condition-specificregulators from gene expression data.Nat.Genet.34,166-176 (2003))。檢查模塊中每一基因的上游調(diào)控序列可揭示已知為模塊調(diào)節(jié)物的靶標(biāo)的共同順式調(diào)控元件的存在。因此,通過鑒定控制不同癌癥中基因模塊活化的調(diào)節(jié)蛋白質(zhì),應(yīng)能夠外推出介導(dǎo)轉(zhuǎn)化細(xì)胞中轉(zhuǎn)錄的重要順式作用元件。因此,允許例如基于在多種癌癥特異性基因模塊中最具活性的順式調(diào)控元件來設(shè)計(jì)和構(gòu)建腫瘤特異性啟動(dòng)子。
[0103]因此,一旦確定在所關(guān)注細(xì)胞或組織中或特定條件下基因的差異表達(dá),可從接近差異表達(dá)基因的序列(例如,差異表達(dá)基因上游的序列)中篩選TFRE,例如順式作用元件。認(rèn)為控制差異表達(dá)基因的表達(dá)的順式調(diào)控元件在所關(guān)注細(xì)胞或組織中有活性。因此,對(duì)于那些將有活性的順式元件,控制其活性的轉(zhuǎn)錄因子必定存在于該細(xì)胞類型中。因此,這允許鑒定在所關(guān)注細(xì)胞或組織中有活性的TFRE。
[0104]可使用已知方法鑒定TFRE (例如,順式元件),例如使用已知生物信息學(xué)技術(shù)進(jìn)行篩選。
[0105]鑒定人基因組中控制功能相關(guān)的基因的表達(dá)的能力改變了功能基因組學(xué)的應(yīng)用。直到最近,微陣列分析數(shù)據(jù)的解讀還局限于對(duì)基因功能可能對(duì)單個(gè)途徑或響應(yīng)重要的基因的鑒定。而這與細(xì)胞表型中全局變化的相關(guān)性則在很大程度上被忽視,這僅僅是因?yàn)檠芯窟@的工具不存在。隨著生物信息學(xué)的進(jìn)步,我們現(xiàn)在能夠利用大規(guī)?;蚍治鲋械玫降娜繑?shù)據(jù),并且將其與人基因組的全序列的知識(shí)結(jié)合,利用轉(zhuǎn)錄因子、基因本體和分子功能數(shù)據(jù)庫,從而更全面利用由全局基因表達(dá)研究所產(chǎn)生的龐大數(shù)據(jù)庫。
[0106]近二十年來,科學(xué)家已經(jīng)編制了收錄有響應(yīng)基因調(diào)控的反式因子和順式元件的數(shù)據(jù)庫(ffingender, E.CompilationOf transcription regulating proteins.Nucleic Acids Resl6,1879-1902 (1988))。這已經(jīng)導(dǎo)致出現(xiàn)了有用的工具,例如TRANSCompel(Kel-Margoulis, 0.V., Kel, A.E., Reuter, 1., Deineko, 1.V., &ffingender,
E.TRANSCompel:a database on composite regulatory elements in eukaryoticgenes.Nucleic Acids Res30, 332-334 (2002))、ABS (Blanco, E., Farre, D., Alba, M.M.,Messeguer, X., &Guigo, R.ABS:a database of Annotated regulatory Binding Sitesfrom orthologous promoters.Nucleic Acids Res34,D63_D67(2006))、JASPAR(Sandelin,
A., Alkema, ff., Engstrom, P., Wasserman, Il , &Lenhard, B.JASPAR:an open—accessdatabase for eukaryotic transcription factor binding profiles.Nucleic AcidsRes32, D91-D94(2004))、HTPSELEX(Jagannathan, V., Roulet, E., Delorenzi, M., &Bucher,P.HTPSELEX—a database of high-throughput SELEX libraries for transcriptionfactor binding sites.Nucleic Acids Res34, D90-D94 (2006))和 TRANSFAC (Matys,V.等.TRANS-FAC:transcriptional regulation, from patterns to profiles.NucleicAcids Res31,374-378 (2003)),其基于買驗(yàn)數(shù)據(jù)對(duì)轉(zhuǎn)錄因子及其靶序列索引,TRED (Zhao,
F., Xuan, Z., Liu, L., &Zhang, M.Q.TRED:a Transcriptional Regulatory ElementDatabase and a platform for in silico gene regulation studies.Nucleic AcidsRes33,D103-D107 (2005)),其基于實(shí)驗(yàn)和自動(dòng)化數(shù)據(jù)兩者索引。
[0107]已知轉(zhuǎn)錄因子結(jié)合位點(diǎn)的數(shù)據(jù)庫可用于檢測(cè)給定啟動(dòng)子中蛋白質(zhì)識(shí)別元件的存在,但是僅在相關(guān)DNA結(jié)合蛋白的結(jié)合位點(diǎn)及其對(duì)于體內(nèi)錯(cuò)配的耐受已知時(shí)可行。由于該知識(shí)當(dāng)前局限于小的轉(zhuǎn)錄因子子集,其可有利于通過啟動(dòng)子DNA序列的比較分析發(fā)現(xiàn)調(diào)控基序。通過找到多個(gè)啟動(dòng)子之間的保守區(qū)域,可在不具有轉(zhuǎn)錄因子結(jié)合位點(diǎn)的現(xiàn)有知識(shí)的情況下鑒定基序。
[0108]已經(jīng)出現(xiàn)了若干模型,其通過統(tǒng)計(jì)學(xué)上的過度出現(xiàn)實(shí)現(xiàn)了這一目的。這些算法函數(shù)通過將來自整個(gè)基因組的多個(gè)未翻譯區(qū)進(jìn)行比對(duì)和鑒定與隨機(jī)預(yù)期相比在統(tǒng)計(jì)學(xué)上顯著過度出現(xiàn)的序列,例如 YMF(Sinha,S.&Tompa, M.YMF:A program for discovery ofnovel transcription factor binding sites by statistical overrepresentation.Nucleic Acids Res31,3586-3588 (2003) ;Sinha,S.&Tompa, M.Discovery of noveltranscription factor binding sites by statistical overrepresentation.NucleicAcids Res30,5549-5560 (2002))和 SCORE (Rebeiz,M.,Reeves, N.L.,&Posakony,J.W.SCORE:a computational approach to the ident1-fication of cis-regulatorymodules and target genes in whoIe-genome sequence data.Site clustering overrandom expectation.Proc.Natl.Acad.Sc1.U.S.A99,9888-9893 (2002))。目前這些工具主要應(yīng)用于低等真核生物的研究,其基因組復(fù)雜度較低并且調(diào)控元件容易鑒定,已經(jīng)證明將這些算法擴(kuò)展到人基因組中有一些困難。
[0109]為了解決該問題,許多研究小組已經(jīng)表明能夠通過搜索轉(zhuǎn)錄起始位點(diǎn)基序如TATA和CAAT盒附近的保守調(diào)控元件來發(fā)掘更高等真核基因組,例如,收錄在DBTSS資源(Suzuki, Y.,Yamashita, R.,Sugano, S.,&Nakai,K.DBTSS,DataBase of TranscriptionalStart Sites !progress report2004.Nucleic Acids Res32,D78-D81(2004) ;Suzuki,Y.,Yamashita,R.,Nakai,K.,&Sugano,S.DBTSS !DataBase of human Transcriptional StartSites and full-length cDNAs.Nucleic Acids Res30,328-331 (2002))中,或者可搜索在啟動(dòng)子序列中以較高比例存在的富CpG區(qū)的推定順式元件(Davu-luri,R.V.,Grosse, 1.,&Zhang,M.Q.Computational identification of promoters and first exons in thehuman genome.Nat.Genet.29,412-417(2001))。
[0110]或者,通過同時(shí)出現(xiàn)的微陣列技術(shù)和人基因組的全序列,現(xiàn)在能夠通過比較在特定條件下顯示類似表達(dá)譜的多個(gè)基因的上游非編碼區(qū)來搜索潛在的轉(zhuǎn)錄因子結(jié)合位點(diǎn)??赏ㄟ^基于聚類來 選擇用于比較分析的基因組,例如分層和k均值(Roth,F(xiàn).P.,Hughes,J.D.,Estep, P.W.,&Church,G.M.Finding DNA regulatory motifs withinunaligned noncoding sequences clustered by whoIe-genome mRNA quantitation.Nat.Biotechnol.16,939-945 (1998)),來自簡(jiǎn)單表達(dá)比(Bussemaker, H.J.,Li,H.,&Siggia,E.D.Regulatory element detection using correlation with expression.Nat.Genet.27,167-171 (2001))或基因產(chǎn)物的功能分析(Jensen,L J.&Knudsen,S.Automaticdiscovery of regulatory patterns in promoter regions based on whole cellexpression data and functional annotation.Bioiinformatics.16,326-333(2000))。這為科學(xué)家提供了鑒定下述啟動(dòng)子元件的機(jī)會(huì),所述啟動(dòng)子元件即響應(yīng)于特定環(huán)境條件或在介導(dǎo)特定組織差異中具有重要作用或在介導(dǎo)病理學(xué)表型中可特別有活性的啟動(dòng)子元件。
[0111]進(jìn)化足跡或比較基因組現(xiàn)在被用于通過比較來自多種生物的已知基因附近的進(jìn)化保守的非翻譯元件來鑒定新啟動(dòng)子元件。物種之間基因組序列的可用性顯著推進(jìn)了比較基因組學(xué)和對(duì)進(jìn)化生物學(xué)的理解。分子進(jìn)化的中性理論為鑒定不同物種基因組中的DNA序列提供了框架。[0112]其中心假說在于,基因組中的絕大部分突變相對(duì)于生物的適應(yīng)性是中性的。盡管通過選擇快速排除有害突變,中性突變保存下來并且跟隨整個(gè)種群的遺傳漂變的隨機(jī)過程。因此,非中性DNA序列(功能DNA序列)在進(jìn)化過程中必須是保守的,而中性突變累積。初步研究充分證明,可將人類基因組與其他生物的基因組適當(dāng)比較,以允許有效鑒定功能DNA序列中的同源序列。
[0113]隨后,已出現(xiàn)了多種生物信息學(xué)工具,其通過比較不同生物的基因組之間的非編碼調(diào)控序列來運(yùn)作,從而能夠鑒定候選基因的啟動(dòng)子中顯著富集的保守轉(zhuǎn)錄因子結(jié)合位點(diǎn),或來自由微陣列分析所鑒定的聚類。
[0114]這些軟件套裝的實(shí)例包括TRAFAC(Jegga,A.G.等.Detection and visualizationof compositionalIy similar cis-regulatory element clusters in orthologous andcoordinately controlled genes.Genome Resl2,1408-1417 (2002))、CORG (Dieterich,C.,Wang, H.,Rateitschak,K.,Luz,H.,&Vingron, M.CORG:a database for ComparativeRegulatory Genomics.Nucleic Acids Res31,55-57 (2003))、C0NSITE(Lenhard,
B.等.1dentification of conserved regulatory elements by comparative genomeanalysis.J.Biol.2,13 (2003))、CONFAC (Karanam, S.Moreno, C.S.CONFAC !automatedapplication of comparative genomic promoter analysis to DNA microarraydatasets.Nucleic Acids Res32,W475-W484 (2004))、VAMP (La Rosa,P.等.VAMP:visualization and analysis of array—CGH, transcriptome and other molecularprofiles.Bioinformatics.22,2066-2073 (2006))和 CisMols Analyser(Jegga,A.G.等.CisMols Analyzer !identification of compositionalIy similar cis-elementclusters in ortholog conserved regions of coord1-nately expressed genes.NucleicAcids Res33,W408-W411 (2005))。通常這些工具通過比對(duì)物種之間靶基因的上游序列來運(yùn)作,從而鑒定可潛在作為順式調(diào)控元件的保守區(qū)域,并且這些工具隨后可應(yīng)用于闡明說明多種模型中的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。
[0115]進(jìn)行了大量努 力來收錄轉(zhuǎn)錄因子及其對(duì)應(yīng)的順式元件。最近,這些數(shù)據(jù)庫已經(jīng)被編輯,其旨在利用它們闡明響應(yīng)不同剌激物活化的調(diào)控網(wǎng)絡(luò)。這些資源的一些實(shí)例包括 PreMod(Blanchette, M.等.Genome-wide computational prediction oftranscriptional regulatory modules reveals new insights into human geneexpression.Genome Resl6,656-668(2006) ;Ferretti, V.等.PReMod:a database ofgenome-wide mammalian cis-regulatory module predictions.Nucleic Acids Res35,D122-D126 (2007))、CisView (Sharov,A.A.,Dudekula,D.B.,&Ko,M.S.CisView:a browserand database of cis-regulatory modules predicted in the mouse genome.DNAResl3,123-134 (2006))、BEARR(Vega, V.B.,Bangarusamy, D.K.,Miller, L.D.,Liu,E.T.,&Lin,C.Y.BEARR:Batch Extraction and Analysis of cis-Regulatory Regions.Nucleic Acids Res32,W257-W260(2004))、VISTA(Dubchak,1.&Ryaboy,D.V.VISTA familyof computational tools for comparative analysis of DNA sequences and wholegenomes.Methods Mol.Biol.338,69-89 (2006))、PromAn (Lardenois, A.等.PromAn:an integrated knowledge-based web server dedicated to promoter analysis.Nucleic Acids Res34,W578-W583 (2006))、CRSD (Liu,C.C.等.CRSD:a comprehensiveweb server for composite regulatory sig-nature discovery.Nucleic AcidsRes34, W571-W577(2006))和 MPromDb(Sun, H.等.MPromDb:an integrated resourcefor annotation and visualization of mammalian gene promoters and ChlP—chipexperimental data.Nucleic Acids Res34,D98-103(2006))。
[0116]表I列出了一些當(dāng)前可利用的數(shù)據(jù)庫,其可在搜索潛在的調(diào)控元件時(shí)使用。該表提供了在鑒定潛在的順式作用序列時(shí)使用的資源類型的實(shí)例。
[0117]因此,可使用將表I中所列的任何數(shù)據(jù)庫或任何等同的公共資源來鑒定TFRE(例如,順式調(diào)控元件),所述TFRE與在所關(guān)注細(xì)胞或組織中表達(dá)的基因,優(yōu)選在所關(guān)注細(xì)胞或組織中差異表達(dá)的基因相關(guān)。優(yōu)選地,使用至少一種從Pubmed、DBTSS、TRAFAC,TRANSCompel、TRANSFAC、Phylofoot、CORG, CONS I TE, CONFAC, CisMols、TRED, ABS, JASPAR、HTPSELEX、PAINT、PreMOD、CisView、BEARR、VISTA、PromAn、CRSD、MPromDb、VAMP和 Oncomine中選擇的數(shù)據(jù)庫。
[0118]在所提供的方法中,轉(zhuǎn)錄調(diào)控元件被鑒定為在接近多個(gè)基因(例如,表達(dá)與所關(guān)注細(xì)胞類型、組織類型或條件相關(guān)的基因)的序列內(nèi)。通常,序列在每一所選基因的上游或下游20kb的區(qū)域內(nèi),優(yōu)選在每一這些區(qū)域的10kb、更優(yōu)選5kb、最優(yōu)選上游。
[0119]在所提供方法的一些實(shí)施方案中,為了有助于推理性選擇轉(zhuǎn)錄調(diào)控元件以及對(duì)其重要性排序,計(jì)算每一序列的出現(xiàn)頻率。
[0120]如本文使用的,頻率定義為與多個(gè)基因中的任一個(gè)相關(guān)的給定轉(zhuǎn)錄調(diào)控元件(TFRE)出現(xiàn)的次數(shù)(即,與多個(gè)基因中的任一個(gè)相關(guān)的TFRE的次數(shù))除以與所述多個(gè)基因中的任一個(gè)相關(guān)的轉(zhuǎn)錄因子調(diào)控元件的總數(shù)。在一些實(shí)施方案中,為了計(jì)算頻率,無論TFRE存在于有義鏈還是反義鏈中(即,不論是正向還是反向),都認(rèn)為其與給定的基因相關(guān)聯(lián)。在另一實(shí)施方案中,僅在TFRE存在于有義鏈或僅在其存在于反義鏈時(shí),才認(rèn)為其與給定基因相關(guān)聯(lián)。在一個(gè)實(shí)施方案.中,為了計(jì)算頻率,僅在TFRE存在于有義鏈時(shí),認(rèn)為其與給定基因相關(guān)聯(lián)。除非另外說明,否則如果存在于任意鏈中,則認(rèn)為TFRE是相關(guān)聯(lián)的。在一些實(shí)施方案中,針對(duì)期望的所述多個(gè)基因附近來定義頻率。在這種情況下,頻率是期望的附近(例如,多個(gè)基因中的任一個(gè)的20、10或5kb以內(nèi))內(nèi)給定TFRE的出現(xiàn)次數(shù)除以在所述多個(gè)基因的該附近內(nèi)全部TFRE的總數(shù)。例如,如果轉(zhuǎn)錄調(diào)控元件在期望區(qū)域(例如,所述多個(gè)基因中任一的上游或下游20、10或5kb內(nèi))出現(xiàn)150次,在所述多個(gè)基因的該附近內(nèi)鑒定的轉(zhuǎn)錄調(diào)控元件位點(diǎn)總數(shù)是總計(jì)5000個(gè),那么該轉(zhuǎn)錄調(diào)控元件的頻率為150 / 5000。同樣的,在一些實(shí)施方案中,出現(xiàn)于有義鏈或反義鏈(即,正向或反向),在另一些實(shí)施方案中,僅出現(xiàn)于有義鏈或僅出現(xiàn)于反義鏈。
[0121]考慮到較長序列的保存性是其在介導(dǎo)表達(dá)中重要性的良好指示,使用關(guān)系頻率(1/棚向較長的順式調(diào)控元件增加權(quán)重,頻率按照上文定義,長度為轉(zhuǎn)錄調(diào)控元件的核苷酸長度。在本文中計(jì)算值(其為頻率的η次方根,其中η是長度)也稱為SYN值。
[0122]通常,SYN值與閾值一起用作選擇標(biāo)準(zhǔn),允許推理性選擇TFRE,例如輸入順式調(diào)控元件。SYN閾值可以是0.1至0.9之間的任意值。優(yōu)選地,SYN值必須大于閾值,因此,在某些實(shí)施方案中,選擇這樣的TFRE,其SYN值大于或至少為0.1,0.2,0.3,0.4,0.5,0.6,0.7、0.8或0.9,或?yàn)榧s0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8或0.9。也可以選擇預(yù)定數(shù)量的TFRE (例如,順式作用序列),例如具有最大SYN值的I至10個(gè)基因。因此,在一些實(shí)施方案中,在被認(rèn)為接近多個(gè)基因的多個(gè)TFRE中,所選為具有前1、2、3、4、5、6、7、8、9或10個(gè)最
大SYN值那些,SYN值如上式定義。
[0123]在一個(gè)優(yōu)選實(shí)施方案中,閾值大于0.3,優(yōu)選大于0.4,更優(yōu)選大于0.5。在另一優(yōu)選實(shí)施方案中,閾值為0.5。
[0124]合成啟動(dòng)子的構(gòu)建
[0125]最近幾年,已經(jīng)有人嘗試基于以隨機(jī)形式連接短寡核苷酸啟動(dòng)子和增強(qiáng)子元件來構(gòu)建組織特異性轉(zhuǎn)錄的合成啟動(dòng)子。
[0126]在一種旨在鑒定肌肉特異性表達(dá)的合成啟動(dòng)子的方法中,將來自肌肉特異性和非特異性轉(zhuǎn)錄因子的結(jié)合位點(diǎn)的雙鏈體寡核苷酸隨機(jī)連接并且克隆在驅(qū)動(dòng)螢光素酶的最小肌肉啟動(dòng)子的上游(Li, X.,Eastman, E.Μ.,Schwartz, R.J.,&Draghia_Akli, R.Syntheticmuscle promote rs !activities exceeding naturalIy occurring regulatorysequences.Nat.Biotechnol.17,241-245 (1999))。通過以下方式分別測(cè)試約 1000 個(gè)質(zhì)??寺?瞬時(shí)轉(zhuǎn)染到肌肉細(xì)胞中,并且通過光度計(jì)以96孔形式確定螢光素酶活性。通過該方法,鑒定了多種強(qiáng)度相當(dāng)于最常用的病毒啟動(dòng)子如CMV的高活性且肌肉特異性的啟動(dòng)子。
[0127]在一種檢驗(yàn)I百萬克隆的嘗試中,Sutton和同事基于慢病毒載體基文庫的建立釆用不同的篩選方法(Dai, C,McAninch, R.E.,&Sutton,R.Ε.Identification of syntheticendothelial cell-specific promoters by use of a high-throughput screen.J.Virol.78,6209-6221 (2004))。在該研究中,將來自內(nèi)皮細(xì)胞特異性和非特異性轉(zhuǎn)錄因子結(jié)合位點(diǎn)的雙鏈體寡核苷酸以隨機(jī)方式克隆在驅(qū)動(dòng)HIV自失活表達(dá)載體中eGFP的表達(dá)的最小啟動(dòng)子上游。然后將I百萬個(gè)克隆的集合轉(zhuǎn)染到內(nèi)皮細(xì)胞中,通過FACS分選法選擇最高表達(dá)的那些。然后通過PCR從穩(wěn)定轉(zhuǎn)染子中回收合成啟動(dòng)子,所述PCR是針對(duì)整合了 HIV載體的基因組DNA。
[0128]該研究的結(jié)果還證明了從隨機(jī)篩選中分離多種高活性內(nèi)皮細(xì)胞特異性合成啟動(dòng)子元件的可能性。
[0129]當(dāng)采用這種方法設(shè)計(jì)合成型組織特異性啟動(dòng)子時(shí),重要的是使用精心設(shè)計(jì)的雙鏈體寡核苷酸。例如,每一元件必須以組裝時(shí)調(diào)控元件出現(xiàn)在DNA螺旋的同一側(cè)的方式隔開,必須使用相關(guān)的最小啟動(dòng)子元件以使得篩選產(chǎn)生能夠僅在所關(guān)注組織中有效表達(dá)的啟動(dòng)子,并且必須有一些分選機(jī)制,例如增加Spl位點(diǎn),以保護(hù)其免受甲基化所致的啟動(dòng)子沉默。
[0130]這種方式的隨機(jī)性質(zhì)實(shí)際增加了找到有活性組織特異性啟動(dòng)子的機(jī)會(huì),這是由于在通過連接整個(gè)啟動(dòng)子區(qū)而不是個(gè)別啟動(dòng)子元件來推理性設(shè)計(jì)合成啟動(dòng)子的一些研究中,實(shí)際上導(dǎo)致鑒定到較低效率的組織特異性啟動(dòng)子。因此,通過該方法小心選擇相關(guān)啟動(dòng)子/增強(qiáng)子元件(其將產(chǎn)生有效的組織特異性啟動(dòng)子)的能力對(duì)于這種方法的成功是至關(guān)重要的。
[0131]因此,在本發(fā)明的一些實(shí)施方案中,可將兩個(gè)或更多個(gè)上述所選TFRE組合在一起作為合成啟動(dòng)子的一部分。啟動(dòng)子元件包括含有允許基因轉(zhuǎn)錄之組件的DNA序列。
[0132]啟動(dòng)子元件可包括一個(gè)或更多個(gè)轉(zhuǎn)錄調(diào)控元件、最小啟動(dòng)子區(qū)和來自基因5'非翻譯區(qū)或內(nèi)含子的序列。在一個(gè)實(shí)施方案中,啟動(dòng)子元件還可包括允許一個(gè)或更多個(gè)普遍表達(dá)的轉(zhuǎn)錄因子結(jié)合的一個(gè)或更多個(gè)順式元件。啟動(dòng)子元件可包括一個(gè)或更多個(gè)允許瞬時(shí)基因表達(dá)的調(diào)控元件。啟動(dòng)子元件可包括一個(gè)或更多個(gè)允許可誘導(dǎo)基因表達(dá)的調(diào)控元件。
[0133]如本文使用的,最小啟動(dòng)子是指單獨(dú)時(shí)無活性,但是在與其他轉(zhuǎn)錄調(diào)控元件結(jié)合時(shí)可介導(dǎo)基因轉(zhuǎn)錄的DNA序列。最小啟動(dòng)子序列可來源于多種來源,例如原核和真核基因。最小啟動(dòng)子的實(shí)例包括多巴胺β-羥化酶啟動(dòng)子和巨細(xì)胞病毒(CMV)立即早期基因最小啟動(dòng)子。
[0134]根據(jù)本發(fā)明的一個(gè)方面,兩個(gè)或更多個(gè)TFRE在單個(gè)啟動(dòng)子元件中與最小啟動(dòng)子相組合。這可通過在連接反應(yīng)條件下將多個(gè)本文描述的TFRE混合來實(shí)現(xiàn)。TFRE可彼此直接連接。TFRE可被間隔核苷酸隔開。例如,TFRE可被I個(gè)或更多個(gè)、2個(gè)或更多個(gè)、5個(gè)或更多個(gè)、10個(gè)或更多個(gè)或20個(gè)或更多個(gè)核苷酸隔開。這些間隔核苷酸可以是例如I至20個(gè)核苷酸。
[0135]在本發(fā)明的一個(gè)實(shí)施方案中,編碼TFRE的寡核苷酸還包括單鏈核苷酸的短突出端,其能夠與另一寡核苷酸的突出端雜交。這樣的突出端也可以為I至20個(gè)核苷酸長。
[0136]通過這種方式組合的TFRE可通過本文描述的方法來鑒定,或可能已經(jīng)被鑒定為在所關(guān)注細(xì)胞或組織中有活性。
[0137]啟動(dòng)子元件優(yōu)選包含2個(gè)或更多TFRE。每一啟動(dòng)子元件中的TFRE的數(shù)量可不同,或每一啟動(dòng)子元件可包含相同數(shù)量的TFRE。啟動(dòng)子元件可包含2個(gè)或更多個(gè)、3個(gè)或更多個(gè)、4個(gè)或更多個(gè)、5個(gè)或更多個(gè)、或6個(gè)或更多個(gè)TFRE。優(yōu)選地,為文庫(例如,來自瓊脂糖凝膠)選擇0.1至IkB的連接寡核苷酸。啟動(dòng)子元件中的TFRE的序列可存于啟動(dòng)子元件的有義或反義鏈(即,正向或反向方向)。相同的TFRE可出現(xiàn)多次。
[0138]啟動(dòng)子元件可布置成使得TFRE位于最小啟動(dòng)子的上游?;蛘撸琓FRE可位于最小啟動(dòng)子的下游。
[0139]表達(dá)載體
[0140]使用本文描述的多個(gè)啟動(dòng)子元件產(chǎn)生表達(dá)載體的文庫。每一表達(dá)載體包括抗生素抗性基因。例如,基因的表達(dá)可賦予對(duì)新霉素、博來霉素、潮霉素或嘌呤霉素的抗性。本文描述的啟動(dòng)子元件包含在載體中,使得其與所述基因有效連接。即,啟動(dòng)子元件的位置使得其能夠在所關(guān)注細(xì)胞中表達(dá)所述基因的編碼序列。載體優(yōu)選地不包含除存在于所述啟動(dòng)子元件中的那些以外的啟動(dòng)子或調(diào)控序列。這確保了由啟動(dòng)子開始的任何基因轉(zhuǎn)錄都必須受到引入載體的啟動(dòng)子元件的調(diào)控。
[0141]載體可以是能夠在所關(guān)注細(xì)胞或組織中表達(dá)抗生素抗性基因的任何載體。例如,載體可以是質(zhì)?;虿《据d體。載體可以是整合在宿主基因組中的載體,或允許基因表達(dá)但并未整合的載體。
[0142]可提供多個(gè)本文描述的多種不同載體。其可形成文庫。例如,在上述差異表達(dá)的分析已經(jīng)導(dǎo)致鑒定所關(guān)注細(xì)胞或組織類型的多個(gè)TFRE時(shí),可產(chǎn)生包括這些TFRE的多個(gè)啟動(dòng)子元件??墒苟嗫截怲FRE的混合物組合以產(chǎn)生多種不同的啟動(dòng)子元件。這些啟動(dòng)子元件各自可包含在載體中以產(chǎn)生針對(duì)所關(guān)注細(xì)胞或組織類型的載體文庫。
[0143]測(cè)定方法
[0144]可從本文描述的載體文庫中分析能夠在所關(guān)注細(xì)胞或組織中表達(dá)抗生素抗性基因的載體。簡(jiǎn)言之,這樣的分析可包括以下步驟:用來自文庫的載體轉(zhuǎn)染所關(guān)注細(xì)胞或組織的細(xì)胞;將所述細(xì)胞培養(yǎng)在適合基因表達(dá)的條件下;以及篩選抗生素抗性細(xì)胞。[0145]可使用任意合適的方法實(shí)現(xiàn)轉(zhuǎn)染。多種轉(zhuǎn)染方法是本領(lǐng)域中已知的,并且技術(shù)人員能夠根據(jù)期望使用的載體類型和細(xì)胞或組織類型選擇合適的方法。
[0146]培養(yǎng)步驟可包括將轉(zhuǎn)染細(xì)胞保持在合適的條件下以允許基因表達(dá)的發(fā)生。當(dāng)啟動(dòng)子元件中包括可誘導(dǎo)的調(diào)控序列時(shí),將細(xì)胞或組織暴露與相關(guān)誘導(dǎo)劑下可能是必要的。
[0147]然后可向培養(yǎng)基中添加相關(guān)抗生素。在啟動(dòng)子元件確實(shí)包含允許基因表達(dá)的合適的TFRE組合的那些細(xì)胞中,抗生素抗性基因?qū)⒈磉_(dá),細(xì)胞將對(duì)施加的抗生素有抗性。例如,在所關(guān)注細(xì)胞或組織包括活化啟動(dòng)子元件中的順式作用因子所需要的特定轉(zhuǎn)錄因子組合時(shí),啟動(dòng)子元件可能能夠調(diào)節(jié)抗生素抗性基因的表達(dá)。
[0148]在啟動(dòng)子元件不包含允許基因表達(dá)的合適的TFRE組合的那些細(xì)胞中,細(xì)胞將不具有抗生素抗性并且將被存在的抗生素殺死。例如,當(dāng)所關(guān)注細(xì)胞或組織不包含正確的轉(zhuǎn)錄因子時(shí),或不包含允許順式元件調(diào)控基因的表達(dá)的足夠水平的那些轉(zhuǎn)錄因子時(shí),抗生素抗性基因?qū)⒉槐磉_(dá)。
[0149]這將允許選擇其中的啟動(dòng)子元件能夠調(diào)控所關(guān)注細(xì)胞或組織中的基因表達(dá)的那些細(xì)胞。可以在該步驟中向順式作用元件中引入突變。
[0150]在一個(gè)實(shí)施方案中,該方法可包括另外的步驟。為了確定這樣的啟動(dòng)子元件的活性是否是所關(guān)注細(xì)胞或組織特異性的,可進(jìn)行另外的分析步驟以確定在載體轉(zhuǎn)染到不同細(xì)胞中時(shí)抗生素抗性基因是否依然表達(dá)。例如,當(dāng)用特定生物配體、化學(xué)物或微生物病原處理所關(guān)注細(xì)胞或組織時(shí),還對(duì)未處理細(xì)胞中啟動(dòng)子元件的活性進(jìn)行評(píng)估,以確定啟動(dòng)子元件是在該細(xì)胞類型中普遍具有活性還是僅在進(jìn)行了這樣的處理的細(xì)胞中有活性。類似的,在細(xì)胞或組織類型為疾病組織如癌細(xì)胞類型時(shí),可評(píng)估“正?!钡南鄳?yīng)組織類型中啟動(dòng)子元件的活性以確定啟動(dòng)子元件是在該組織類型中普遍有活性,還是僅在疾病條件下有活性。
[0151]可用于設(shè)計(jì)和構(gòu)建合成啟動(dòng)子元件的兩種策略的實(shí)例如下:
[0152]細(xì)菌文庫方法`
[0153]將使用上文詳細(xì)說明的比較基因組學(xué)和綜合生物信息學(xué)方法發(fā)現(xiàn)的在癌細(xì)胞中被上調(diào)的轉(zhuǎn)錄程序所對(duì)應(yīng)的調(diào)控元件與缺少啟動(dòng)子的哺乳動(dòng)物表達(dá)載體中的抗生素選擇基因上游的最小啟動(dòng)子隨機(jī)連接在一起。設(shè)計(jì)雙鏈體寡核苷酸以使得當(dāng)連接在一起時(shí)調(diào)控元件存在于雙螺旋的同一面并且包含Spl元件,從而防止啟動(dòng)子通過甲基化而沉默。使用不同比例將代表啟動(dòng)子元件的寡核苷酸連接在一起,并且每一連接混合物通常包括5或6個(gè)不同的順式元件。然后將所得質(zhì)粒構(gòu)建物用于轉(zhuǎn)染96孔形式中的對(duì)應(yīng)癌細(xì)胞系,以通過抗生素選擇發(fā)現(xiàn)最佳啟動(dòng)子,分離有希望的候選啟動(dòng)子,測(cè)序,然后進(jìn)一步轉(zhuǎn)染到對(duì)照細(xì)胞系中以確定腫瘤細(xì)胞特異性。然后選擇包含在癌細(xì)胞系中表現(xiàn)出受限表達(dá)的合成啟動(dòng)子的克隆。
[0154]逆轉(zhuǎn)錄病毒文庫方法
[0155]如上文描述設(shè)計(jì)雙鏈體寡核苷酸并且連接到包含驅(qū)動(dòng)抗生素選擇基因的表達(dá)的最小啟動(dòng)子的自失活(self-1nactivating, SIN)小鼠莫洛尼逆轉(zhuǎn)錄病毒載體中。合并細(xì)菌克隆,構(gòu)建逆轉(zhuǎn)錄病毒載體的混合文庫,并且用于穩(wěn)定轉(zhuǎn)導(dǎo)選擇的癌細(xì)胞系。感染癌細(xì)胞從而使得僅50%的細(xì)胞表達(dá)抗生素選擇基因,并且使用非常高濃度的抗生素來從保留的群體中分選最強(qiáng)表達(dá)的細(xì)胞。然后通過稀釋克隆的方式分離轉(zhuǎn)導(dǎo)有最佳合成啟動(dòng)子元件的癌細(xì)胞系的單克隆。分離基因組DNA,通過PCR回收合成啟動(dòng)子,并且克隆在包含eGFP的缺少啟動(dòng)子的哺乳動(dòng)物表達(dá)載體中以評(píng)估對(duì)照細(xì)胞系中的表達(dá),從而確認(rèn)腫瘤特異性。
[0156]被鑒定啟動(dòng)子元件的用途
[0157]本發(fā)明還擴(kuò)展至本發(fā)明的啟動(dòng)子元件和載體,例如通過本發(fā)明的方法鑒定的啟動(dòng)子元件和載體,以及它們的用途。
[0158]通過本發(fā)明的方法鑒定的在所關(guān)注細(xì)胞或組織類型中有活性的啟動(dòng)子元件或載體可用于將基因靶向至所述細(xì)胞或組織類型。例如,在本發(fā)明的方法表明啟動(dòng)子元件在特定細(xì)胞類型中有特異性活性,但是在對(duì)照細(xì)胞類型中沒有活性,那么該啟動(dòng)子元件可用于在所關(guān)注細(xì)胞類型或組織類型或在所關(guān)注條件下特異性直接表達(dá)。
[0159]因此,本發(fā)明的啟動(dòng)子元件可與期望在特定細(xì)胞類型中表達(dá)的啟動(dòng)子相組合。例如,可產(chǎn)生在其中將本發(fā)明的啟動(dòng)子元件與基因的編碼序列有效連接的載體。然后可用該載體轉(zhuǎn)染所關(guān)注細(xì)胞。載體可以是本文中描述的任何載體類型,例如質(zhì)粒載體或病毒載體。或者,這樣的載體可通過用所關(guān)注基因替換載體中被本發(fā)明的方法鑒定的抗生素抗性基因來產(chǎn)生。
[0160]因此,提供了在所關(guān)注細(xì)胞或組織中或者在特定條件下表達(dá)基因的方法,其包括以下步驟:使用例如所提供的用于鑒定啟動(dòng)子元件的方法鑒定在細(xì)胞或組織中或在特定條件下能夠調(diào)節(jié)基因表達(dá)的啟動(dòng)子元件;產(chǎn)生包括與基因有效連接的所述啟動(dòng)子元件的表達(dá)載體;以及用所述載體轉(zhuǎn)染細(xì)胞或組織并且允許表達(dá)發(fā)生。
[0161]這些方法可用于在體外操作培養(yǎng)中的細(xì)胞。例如,可使用本發(fā)明的啟動(dòng)子元件操作體外細(xì)胞群中的基因表達(dá)。
[0162]這些方法可用于在體外操作人或動(dòng)物體或其他真核生物如植物中的細(xì)胞。例如,可提供本發(fā)明的啟動(dòng)子元件或載體(例如,如本文所描述的,已經(jīng)被認(rèn)定能夠調(diào)節(jié)所關(guān)注細(xì)胞或組織中的基因表達(dá)的啟動(dòng)子元件或載體)在準(zhǔn)備在人或動(dòng)物體或有機(jī)體中進(jìn)行的治療或診斷方法中使用 。這樣的啟動(dòng)子元件或載體可用于制造治療處理所關(guān)注細(xì)胞或組織的藥物。例如,在所關(guān)注細(xì)胞或組織來自疾病(例如,癌癥)組織時(shí),那么所述啟動(dòng)子元件或載體可用于治療該疾病(例如,癌癥)。例如,所述啟動(dòng)子元件或載體可用于在特定疾病組織中直接表達(dá)具有治療作用的多肽。因此,在一些實(shí)施方案中,本發(fā)明可用于提供治療疾病(例如,癌癥)的方法,方法包括向患有所述疾病的患者遞送本發(fā)明的啟動(dòng)子元件或載體,例如已經(jīng)本發(fā)明的方法鑒定的啟動(dòng)子元件或載體,其中啟動(dòng)子元件或載體在疾病細(xì)胞或組織中直接表達(dá)治療劑。
[0163]本發(fā)明的另一目的是提供通過實(shí)施在前述方法中描述的轉(zhuǎn)錄調(diào)控元件的選擇步驟來選擇多個(gè)啟動(dòng)子元件的方法,所述多個(gè)啟動(dòng)子元件的組合能夠特異性調(diào)節(jié)在特定條件下或在特定細(xì)胞或組織中(例如癌細(xì)胞中)的基因表達(dá)。
[0164]在這樣的方法的一個(gè)方面,在第一步中,提供或鑒定與多個(gè)基因中的任一個(gè)相關(guān)聯(lián)的多個(gè)轉(zhuǎn)錄因子調(diào)控元件(TFRE),所述多個(gè)基因的表達(dá)被鑒定為在特定細(xì)胞或組織類型中或在特定條件下(例如,在癌細(xì)胞中,例如來自若干不同來源的癌細(xì)胞)被異常調(diào)節(jié)。
[0165]從這些多個(gè)轉(zhuǎn)錄因子調(diào)控元件中,根據(jù)若干預(yù)定標(biāo)準(zhǔn)選擇特定TFRE。一個(gè)標(biāo)準(zhǔn)通常是選擇與超過50 %的所述多個(gè)基因極其接近(例如,在超過50 %的基因的20、10或5kb之內(nèi),并且通常在這樣的基因的上游)的轉(zhuǎn)錄因子調(diào)控元件。因此,術(shù)語接近/附近(proximity)定義為轉(zhuǎn)錄因子調(diào)控元件位于相關(guān)基因上游或下游20kb的區(qū)域內(nèi),優(yōu)選10kb,更優(yōu)選5kb,最優(yōu)選在上游區(qū)域。無論其序列存在于有義鏈還是反義鏈(S卩,在正向或反向),可認(rèn)為TFRE與給定基因相關(guān)聯(lián)。在一個(gè)實(shí)施方案中,認(rèn)為僅有義鏈(即,正方向)中的TFRE與給定基因相關(guān)聯(lián)。
[0166]另一標(biāo)準(zhǔn)通常涉及TFRE的出現(xiàn)頻率。頻率按照上文描述定義。選擇通常還涉及每一轉(zhuǎn)錄因子調(diào)控元件的核苷酸長度。通常按照以下關(guān)系使用頻率和長度來鑒定候選調(diào)控元件(選擇的TFRE):
[0167]頻率(1/長度)。
[0168]如上文討論的,計(jì)算的值(其為頻率的η次方根,其中η是長度)也稱作SYN值,其通常用作選擇標(biāo)準(zhǔn)和/或?qū)FRE分排序。SYN閾值可以是0.1至0.9之間的任意值。優(yōu)選地,所選TFRE的SYN值大于閾值。因此,在某些實(shí)施方案中,所選TFRE的SYN值大于或至少為 0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8 或 0.9,或?yàn)榧s 0.1,0.2,0.3,0.4,0.5,0.6,0.7、0.8或0.9。還可選擇預(yù)定數(shù)量TFRE (例如,順式作用序列),例如I至10個(gè)具有最大SYN值的基因。因此,在一些實(shí)施方案中,在被認(rèn)為與多個(gè)基因接近的多個(gè)TFRE中,所選的是具有前1、2、3、4、5、6、7、8、9或10,或11、12、13、14、15、16、17、18、19或20 的最大 SYN 值,通常前10的SYN值。
[0169]本發(fā)明的另一個(gè)目的是包括按所規(guī)定方法得到的組合啟動(dòng)子盒的載體,其中載體是質(zhì)粒、病毒,其瞬時(shí)表達(dá)或插入到宿主細(xì)胞基因組中。
[0170]這樣的組合啟動(dòng)子盒包括2個(gè)或更多個(gè)、3個(gè)或更多個(gè)、4個(gè)或更多個(gè)、5個(gè)或更多個(gè)、或6個(gè)或更多個(gè)由所述方法最初選擇的TFRE,其中啟動(dòng)子盒中的每一 TFRE與最初選擇的TFRE的序列具有大于70%,優(yōu)選大于80%的同源性。TFRE可存在于啟動(dòng)子盒的有義鏈或反義鏈中。在一個(gè)優(yōu)選實(shí)施方案中,啟動(dòng)子盒還包括最小啟動(dòng)子。在一個(gè)優(yōu)選實(shí)施方案中,序列中的TFRE選自表3所示.TFRE和/或其互補(bǔ)序列。
[0171]本發(fā)明的另一個(gè)目的是包括所述載體的宿主細(xì)胞。宿主細(xì)胞的優(yōu)選實(shí)施方案是原核或真核細(xì)胞,優(yōu)選哺乳動(dòng)物細(xì)胞。
[0172]本發(fā)明的另一個(gè)目的是能夠驅(qū)動(dòng)和/或調(diào)節(jié)表達(dá)的分離的啟動(dòng)子,其包含:
[0173](a) SEQ ID N0.130至191之一或者SEQ ID N0.130至191之一的互補(bǔ)序列給出的分離的核酸;或者
[0174](b)與SEQ ID N0.130至191之一或SEQ ID N0.130至191之一的互補(bǔ)序列給出的DNA序列具有至少90%序列同一性的分離的核酸;或者
[0175](c)在嚴(yán)格條件下與SEQ ID N0.130至191之一或SEQ ID N0.130至191之一的互補(bǔ)序列給出的DNA序列特異性雜交的分離的核酸;或者
[0176](d)由(a)至(C)中任一項(xiàng)定義的分離核酸,其被插入序列斷開;或者
[0177](e)由(a)至(C)定義的核酸中的任一個(gè)的片段,該片段能夠驅(qū)動(dòng)和/或調(diào)節(jié)表達(dá)。
[0178]所述分離的啟動(dòng)子還可包括最小啟動(dòng)子,例如任意已知的最小啟動(dòng)子,例如本文描述的最小啟動(dòng)子中的一種。在一些實(shí)施方案中,另外包含最小啟動(dòng)子的分離的啟動(dòng)子包含:
[0179](a) SEQ ID N0.5至66之一或SEQ ID N0.5至66之一的互補(bǔ)序列給出的分離的核酸;或者[0180](b)與SEQ ID N0.5至66之一或SEQ ID N0.5至66之一的互補(bǔ)序列給出的DNA序列具有至少90%序列同一性的分離的核酸;或者
[0181](c)在嚴(yán)格條件下與SEQ ID N0.5至66之一或SEQ ID N0.5至66之一的互補(bǔ)序列給出的DNA序列特異性雜交的分離的核酸;或者
[0182](d)由(a)至(C)中任一項(xiàng)定義的分離的核酸,其被插入序列斷開;或者
[0183](e)由(a)至(d)定義的核酸中的任一個(gè)的片段,該片段能夠驅(qū)動(dòng)和/或調(diào)節(jié)表達(dá)。
[0184]本文中使用的術(shù)語“分離的”是指離開其原始來源。優(yōu)選地,“分離的”啟動(dòng)子不含啟動(dòng)子所來源的生物基因組DNA中啟動(dòng)子的天然側(cè)翼序列(例如,蛋白質(zhì)編碼序列或3'端其他序列)。更優(yōu)選地,“分離的”啟動(dòng)子也不含5'端天然側(cè)翼序列。更優(yōu)選地可包含小于約 5kb、4kb、3kb、2kb,l.5kb、l.2kb、lkb、0.8kb、0.5kb 或 0.1kb 的啟動(dòng)子所來源的生物基因
組DNA中與啟動(dòng)子一起天然存在的核酸序列。
[0185]本發(fā)明不限于SEQ ID N0.130至191或SEQ ID N0.5至66之一給出的核酸。本領(lǐng)域技術(shù)人員將了解保持相同功能的可能存在的核酸的變體或片段。這些變體或片段可人為產(chǎn)生(例如,通過基因工程)或甚至可天然存在,因此,本發(fā)明延伸至SEQ ID N0.130至191或其互補(bǔ)序列或SEQ ID N0.5至66或其互補(bǔ)序列之一的變體核酸和片段,其變體或片段可用于本發(fā)明的方法。這樣的變體和片段包括:
[0186](a) SEQ ID N0.130 至 191 或 SEQ ID N0.5 至 66 之一或 SEQ ID N0.130 至 191 或SEQ ID N0.5至66之一的互補(bǔ)序列給出的分離的核酸;或者
[0187](b)與 SEQ ID N0.130 至 191 或 SEQ ID N0.5 至 66 之一或 SEQ ID N0.130 至 191或SEQ ID N0.5至66之一給 出的任意DNA序列具有至少90%序列同一性的分離的核酸;或者
[0188](c)在嚴(yán)格條件下與 SEQ ID N0.130 至 191 或 SEQ ID N0.5 至 66 之一或 SEQ IDN0.130至191或SEQ ID N0.5至66之一給出的任意DNA序列特異性雜交的分離的核酸;或者
[0189](d)由(a)至(C)中任一項(xiàng)定義的分離核酸,其被插入序列斷開;或者
[0190](e)由(a)至(d)定義的核酸中的任一個(gè)的片段,該片段能夠驅(qū)動(dòng)和/或調(diào)節(jié)表達(dá)。
[0191]SEQ ID N0.130至191或SEQ ID N0.5至66之一的合適的變體涵蓋以下同系物,其與SEQ ID N0.130至191或SEQ ID N0.5至66之一表示的核酸具有至少90%、91 %、92%、93%、94%、95%、96%、97%、98%或99% (其優(yōu)選級(jí)遞增)的序列同一性。對(duì)于SEQID N0.130至191或SEQ ID N0.5至66的互補(bǔ)序列,也是如此。
[0192]可使用比對(duì)程序來計(jì)算同一性百分比。優(yōu)選地,可使用成對(duì)全局比對(duì)程序,其實(shí)行Needleman-Wunsch 算法(J.Mol.Biol.48:443-453,1970)。該算法最大化了配對(duì)數(shù)量并且最小化了缺口數(shù)量。這樣的程序?yàn)槔?GAP、Needle (EMBOSS package)、stretcher (EMBOSSpackage)或Align X(Vector NTI suite5.5),并且可使用標(biāo)準(zhǔn)參數(shù)(例如,缺口開放罰分
15,缺口延長罰分6.66) ο或者,可使用實(shí)行Smith-Waterman算法的局部比對(duì)程序。這樣的程序?yàn)槔?Water (EMBOSS package)或 matcher (EMBOSS package)。本文使用的“序列同一性”優(yōu)選通過SEQ ID N0.130至191或SEQ ID N0.5至66中任一個(gè)表示的啟動(dòng)子的全長計(jì)算。
[0193]檢索和鑒定同源核酸將在本領(lǐng)域技術(shù)人員能力的范圍之內(nèi)。這樣的方法包括優(yōu)選以計(jì)算機(jī)可讀的形式利用本發(fā)明提供的序列(例如,SEQ ID N0.5)篩選序列數(shù)據(jù)庫。可使用的序列數(shù)據(jù)庫包括但不限于Genbank(http: / www.ncb1.nim.nih.gov / web /Genbank)、歐洲分子生物學(xué)實(shí)驗(yàn)室核酸數(shù)據(jù)庫(European Molecular Biology LaboratoryNucleic acid Database) (EMBL) (http:/w.eb1.ac.uk / eb1-docs / embl-db.html)或其版本,或MIPS數(shù)據(jù)庫(http: / / mips.gsf.de / )。比對(duì)和比較序列的不同搜索算法和軟件是本領(lǐng)域中公知的。這樣的軟件包括例如GAP、BESTFIT、BLAST、FASTA和TFASTA。優(yōu)選使用BLAST軟件,其計(jì)算序列同一性百分比和進(jìn)行序列之間相似性的統(tǒng)計(jì)學(xué)分析。稱作BLAST程序的程序套件具有5種不同的實(shí)現(xiàn)形式:用于核酸序列查詢的三種設(shè)計(jì)(BLASTN、BLASTX和TBLASTX)和用于蛋白質(zhì)序列查詢的兩種設(shè)計(jì)(BLASTP和TBLASTN)。用于進(jìn)行BLAST分析的軟件是可通過國家生物計(jì)算信息中心(National Centre for BiotechnologyInformation)公開得到的。在SEQ ID N0.5的情況下,使用BLAST未發(fā)現(xiàn)同源性。
[0194]與SEQ ID N0.130至191或SEQ ID N0.5至66之一具有至少90 %序列同一性的同源物的實(shí)例是SEQ ID N0.130至191或SEQ ID N0.5至66之一的等位基因變體。等位基因變體是相同物種的兩個(gè)不同個(gè)體中存在的相同基因的變體,并且通常等位基因變體的差異在于很小的序列變化。等位基因變體可包括單核苷酸多態(tài)性(SingleNucleotide Polymorphism, SNP)和小插入 / 缺失多態(tài)性(Small Insertion / DeletionPolymorphism, INDEL)。INDEL的大小通常小于100bp。SNP和INDEL形成了大部分生物中天然多態(tài)性株系中存在的最大的序列變體組。對(duì)于SEQ ID N0.130至191或SEQ ID N0.5至66的互補(bǔ)序列,也是如此。
[0195]可通過PCR或雜交技術(shù)從其來源生物體容易地分離適合在根據(jù)本發(fā)明的方法中使用的同源物。可容易地確定其能夠驅(qū)動(dòng)和/或調(diào)節(jié)表達(dá)的能力,例如,通過在以下實(shí)施例部分描述的用同源物簡(jiǎn)單替換實(shí)際實(shí)例中使用的序列的方法。
[0196]本發(fā)明涵蓋的SEQ ID N0.130至191之一或SEQ ID N0.5至66之一或其互補(bǔ)序列的其他合適變體是在嚴(yán)格條件下與SEQ ID N0.130至191之一或SEQ ID N0.5至66之一或其互補(bǔ)序列中的任意一種核酸特異性雜交的核酸。術(shù)語“雜交”是指在雜交過程中退火成基本同源互補(bǔ)的核苷酸序列。依賴于這樣的雜交過程的分子生物學(xué)工具包括聚合酶鏈?zhǔn)椒磻?yīng)(PCR和以其為基礎(chǔ)的所有方法)、差減雜交、隨機(jī)引物延伸、核酸酶SI作圖、引物延伸、逆轉(zhuǎn)錄、cDNA合成、RNA、DNA序列決定的差異顯示、Northern印跡(RNA印跡)、Southern印跡(DNA印跡)。雜交過程還可與固定在基質(zhì)如磁珠、瓊脂糖珠或其他任意樹脂上的一種互補(bǔ)核酸進(jìn)行。依賴于這樣的過程的分子生物學(xué)工具包括聚(A+)mRNA的分離。雜交過程還可與固定在固體支持物如硝酸纖維或尼龍膜上或通過例如光刻法固定在例如硅質(zhì)玻璃支持物上(后者稱作核酸陣列或微陣列或核酸芯片)的一種互補(bǔ)核酸進(jìn)行。依賴于這樣的過程的分子生物學(xué)工具包括RNA和DNA凝膠印跡分析、菌落雜交、噬斑雜交、原位雜交和微陣列雜交。為了使雜交能夠進(jìn)行,通常對(duì)核酸分子熱或化學(xué)變性以將雙鏈分解成兩條單鏈和/或從單鏈核酸中除去發(fā)夾或其他二級(jí)結(jié)構(gòu)。雜交的嚴(yán)格度受條件如溫度、鹽濃度和雜交緩沖組合物的影響。常規(guī)雜交條件描述在例如Sambrook(2001)Molecular Cloning:alaboratory manual,3rd Edition Cold Spring Harbor Laboratory Press,CSH,New York中,但是技術(shù)人員將理解可以以核酸序列的已知或預(yù)期同源性和/或長度為函數(shù)設(shè)計(jì)多種不同的雜交條件。雜交的高度嚴(yán)格條件包括高溫和/或低鈉/鹽濃度(鹽包括例如NaCl和檸檬酸鈉形式的鈉)和/或雜交緩沖液中加入甲酰胺和/或降低雜交緩沖液中化合物如SDS (十二烷基硫酸鈉去垢劑)的濃度和/或從雜交緩沖液中排除化合物如硫酸葡聚糖或聚乙二醇(促使分子聚集)。嚴(yán)格條件下的特異性雜交是指序列必定非常類似。嚴(yán)格條件下的特異性雜交優(yōu)選在60°C的溫度進(jìn)行,之后用0.1至1XSSC、0.1XSDS和1XSSC、0.1XSDS洗漆。
[0197]在某些實(shí)施方案中,本發(fā)明還涉及至少15個(gè)核苷酸長的核酸分子,其與任意的本發(fā)明的核酸特異性雜交,尤其是SEQ ID N0.130至191或其互補(bǔ)序列SEQ ID N0.192至253,或SEQ ID N0.5至66或其互補(bǔ)序列SEQ ID N0.68至129之一。在一些實(shí)施方案中,本發(fā)明還涉及至少15個(gè)核苷酸長的核酸分子,其通過聚合酶鏈?zhǔn)椒磻?yīng)特異性擴(kuò)增本發(fā)明的核酸。
[0198]本發(fā)明所涵蓋的SEQ ID N0.130至191或SEQ ID N0.5至66中的任何一個(gè)的另外的變體是上文描述的SEQ ID N0.130至191或SEQ ID N0.5至66或其變體之一對(duì)應(yīng)的核酸,其被插入序列隔斷。例如,SEQ ID N0.130至191或SEQ ID N0.5至66之一所述核酸中的任一可被插入序列隔斷?!安迦胄蛄小北硎靖魯嗔硪恍蛄械娜魏魏怂峄蚝塑账?。插入序列的實(shí)例包括內(nèi)含子、核酸核酸標(biāo)簽、T-DNA和可移動(dòng)核酸序列如轉(zhuǎn)座子或者可通過重組移動(dòng)的核酸。具體轉(zhuǎn)座子的實(shí)例包括Ac (活化物)、Ds (解離)、Spm(抑制物-增變基因)或En。向啟動(dòng)子中引入內(nèi)含子現(xiàn)在已經(jīng)廣泛應(yīng)用。還可使用提供有內(nèi)含子的根據(jù)SEQ IDN0.130至191或SEQ ID N0.5至66之一的核酸序列實(shí)施根據(jù)本發(fā)明的方法。在插入序列是內(nèi)含子的情況下,可出現(xiàn)包含本發(fā)明核酸的選擇性剪接變體。本文中使用的術(shù)語“選擇性剪接變體”涵蓋在其中內(nèi)含子被切除、替換或添加的核酸序列變體。這樣的剪接變體可以是天然存在的或者是人造的。制備這樣的具有內(nèi)含子的啟動(dòng)子或制備對(duì)應(yīng)的剪接變體的方法是本領(lǐng)域中公知的。
[0199]可通過例如下文實(shí)施例部分描述的方法用變體簡(jiǎn)單替換實(shí)際實(shí)例中使用的序列來容易地確定適合在根據(jù)本發(fā)明的方法中使用的被插入序列隔斷的變體。
`[0200]上文中描述的變體核酸可天然存在(例如,等位基因變體或剪接變體)。另外的和/或替代的,可通過本領(lǐng)域中公知的技術(shù)如突變、替換、插入、缺失或衍生化,人為產(chǎn)生上文描述到的SEQ ID N0.130至191或SEQ ID N0.5至66之一的變體。本發(fā)明還涵蓋這樣的變體,以及其在本發(fā)明的方法中的用途。
[0201]可使用重組DNA操作技術(shù)或核苷酸合成容易地制備核酸的“突變變體”。這樣的技術(shù)的實(shí)例包括通過M13誘變的定點(diǎn)誘變、T7-Gen體外誘變(USB,Cleveland, 0H)、QuickChange定點(diǎn)誘變(Stratagene, San Diego, CA)、PCR介導(dǎo)的定點(diǎn)誘變或其他定點(diǎn)誘變方案?;蛘撸景l(fā)明的核酸可以是隨機(jī)突變的。
[0202]“替換變體”是指核酸序列中至少一個(gè)殘基被移除而在其位置插入了不同殘基的那些變體。核酸替換通常是單個(gè)殘基,但是取決于核酸序列施加的功能制約,也可是成簇替換。插入通常為約I至約10個(gè)核酸殘基,缺失可以為約I至約20個(gè)殘基。
[0203]核酸的“插入變體”是向該羧酸的預(yù)定位點(diǎn)引入一個(gè)或更多個(gè)核酸殘基的變體。插入可包括5'端和/或3'端融合和一個(gè)或多個(gè)核苷酸的內(nèi)部序列插入。通常,核酸序列中的插入物可比Y或:V端融合小約I至10個(gè)殘基。Y或:V端融合的實(shí)例包括以下結(jié)構(gòu)的編碼序列:在酵母雙雜交系統(tǒng)或酵母單雜交系統(tǒng)中使用的轉(zhuǎn)錄活化物的結(jié)合結(jié)構(gòu)域或活化結(jié)構(gòu)域、噬菌體外殼蛋白、(組氨酸)6-標(biāo)簽、谷胱甘肽S轉(zhuǎn)移酶標(biāo)簽、蛋白A、麥芽糖結(jié)合蛋白、二氫葉酸還原酶、TaglOO表位、c-myc表位、FLAG?表位、lacZ、CMP( I丐調(diào)蛋白結(jié)合肽)、HA表位、蛋白C表位和VSV表位。
[0204]術(shù)語核酸的“衍生物”可包括與天然核酸相比天然和非天然核酸殘基的替換和/或缺失和/或添加。衍生物可以包括例如甲基化核苷酸或人造核苷酸。
[0205]本發(fā)明還包括以下啟動(dòng)子,其包括上文所述SEQ ID N0.130至191或SEQ ID N0.5至66之一給出的任意核酸的片段。本文使用的“片段”是指核酸序列的一部分??稍诒景l(fā)明的方法中使用的合適的片段是功能片段,其保留啟動(dòng)子的至少一個(gè)功能部分,因此依然能夠驅(qū)動(dòng)和/或調(diào)節(jié)表達(dá)。啟動(dòng)子的功能片段的實(shí)例包括最小啟動(dòng)子、上游調(diào)控元件或其組合。
[0206]合適的片段可以為至少約20個(gè)堿基對(duì)或約50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950 或 1000 個(gè)堿基對(duì),多達(dá)本發(fā)明的約全長
序列。這些堿基通常緊接轉(zhuǎn)錄起始部位的上游,但是也可以來自啟動(dòng)子序列的任何部位。
[0207]可通過本領(lǐng)域技術(shù)人員公知的標(biāo)準(zhǔn)技術(shù),或通過以下實(shí)施例部分描述的方法,測(cè)試可用于本發(fā)明方法的合適片段驅(qū)動(dòng)和/或調(diào)節(jié)表達(dá)的能力。
[0208]本文使用的術(shù)語“啟動(dòng)子”以廣義考慮,是指能夠影響(驅(qū)動(dòng)和/或調(diào)節(jié))與其相連的序列的表達(dá)的調(diào)節(jié)性核酸序列?!皢?dòng)子”涵蓋來源于典型基因組基因的轉(zhuǎn)錄調(diào)節(jié)序列。通常,啟動(dòng)子包括TATA框,其能夠指導(dǎo)轉(zhuǎn)錄起始復(fù)合物到達(dá)合適的轉(zhuǎn)錄起始位點(diǎn)。但是,一些啟動(dòng)子不具有TATA框(無TATA框啟動(dòng)子),但是依然具有驅(qū)動(dòng)和/或調(diào)節(jié)表達(dá)的全部功能。啟動(dòng)子可還包括CCAAT框序列和另外的調(diào)控元件(即,上游活化序列或順式作用元件如增強(qiáng)子和沉默子)。
[0209]本文中使用的“驅(qū)動(dòng)表達(dá)”是指啟動(dòng)核酸轉(zhuǎn)錄。
[0210]本文中使用的“調(diào)節(jié)表達(dá)”是指影響核酸轉(zhuǎn)錄的水平、時(shí)間或位置。因此,本發(fā)明的啟動(dòng)子可用于增加、減少或改變核酸轉(zhuǎn)錄的時(shí)間和/或位置。例如,其可用于將轉(zhuǎn)錄限制于某些細(xì)胞類型、組織或器官,或在某段時(shí)間內(nèi),或響應(yīng)于某些環(huán)境條件下。
[0211]根據(jù)本發(fā)明的一個(gè)特定實(shí)施方案,本發(fā)明提供了上文所述分離的啟動(dòng)子,其為雜合啟動(dòng)子。本文使用的術(shù)語“雜合啟動(dòng)子”是指例如通過合成(如通過基因工程)產(chǎn)生的嵌合啟動(dòng)子。根據(jù)本發(fā)明的優(yōu)選的雜合啟動(dòng)子包括本發(fā)明啟動(dòng)子之一的一部分(優(yōu)選功能性部分)和至少另一部分(優(yōu)選啟動(dòng)子的功能性部分)。后者部分可以是任意啟動(dòng)子的一部分,包括根據(jù)本發(fā)明的任意一個(gè)啟動(dòng)子和其他啟動(dòng)子。雜合啟動(dòng)子的一個(gè)實(shí)例包括與另外的啟動(dòng)子的最小啟動(dòng)子結(jié)合的根據(jù)本發(fā)明的啟動(dòng)子的調(diào)控元件。雜合啟動(dòng)子的另一個(gè)實(shí)例是下述啟動(dòng)子:即包括另外的調(diào)控元件以進(jìn)一步增強(qiáng)器活性的和/或改變其空間和/或時(shí)間表達(dá)模式的啟動(dòng)子。
[0212]在些方面,本發(fā)明還提供了 SEQ ID N0.130至191或SEQ ID N0.5至66之一的功能片或其變體用于改變啟動(dòng)子表達(dá)模式的用途。在這樣的方法中,SEQ ID N0.130至191或SEQ ID N0.5至66之一的核酸的至少一部分與另外的啟動(dòng)子的至少一個(gè)片段相組合。
[0213]另外,本發(fā)明提供了基因構(gòu)建物,其包含:
[0214](a)上文定義的分離啟動(dòng)子;[0215](b)與(a)的分離啟動(dòng)子有效連接的同源核酸序列,和任選地
[0216](c) 3'轉(zhuǎn)錄終止子。
[0217]本文使用過的術(shù)語“基因構(gòu)建物”是指通過基因工程制備的核酸。
[0218]本文使用的術(shù)語與啟動(dòng)子“有效連接”是指轉(zhuǎn)錄由所述啟動(dòng)子驅(qū)動(dòng)和/或調(diào)節(jié)。本領(lǐng)域技術(shù)人員將理解與啟動(dòng)子有效連接是指啟動(dòng)子位于有效連接的核酸的上游(即,在5'-端)。有效連接的核酸的距離可不同,只要本發(fā)明的啟動(dòng)子能夠驅(qū)動(dòng)和/或調(diào)節(jié)有效連接的啟動(dòng)子的轉(zhuǎn)錄。例如,在啟動(dòng)子和有效連接的核酸之間,可具有克隆位點(diǎn)、適配體和/或轉(zhuǎn)錄或翻譯增強(qiáng)子。
[0219]有效連接的核酸可以是任意的編碼或非編碼核酸。有效連接的核酸可以在有義或反義方向。通常,在基因改造宿主細(xì)胞的情況下,有效連接的核酸待引入宿主細(xì)胞并且旨在改變宿主細(xì)胞表型?;蛘?,有效連接的核酸是來自宿主細(xì)胞的內(nèi)源核酸。
[0220]本文使用的術(shù)語“異源”是指“與本發(fā)明的啟動(dòng)子異源”。與本發(fā)明的啟動(dòng)子異源的核酸是在其生物基因組環(huán)境下并不天然存在于本發(fā)明啟動(dòng)子側(cè)翼的核酸序列中。盡管核酸可以是與本發(fā)明的啟動(dòng)子異源的,但是它對(duì)于宿主細(xì)胞來說可以是同源或天然的或異源或外來的。異源有效連接的核酸可以是任意核酸(例如,編碼任意蛋白質(zhì)),只要其包括或其側(cè)翼是至少一個(gè)通常不是本發(fā)明啟動(dòng)子側(cè)翼的核苷酸。
[0221](c)中使用的術(shù)語“轉(zhuǎn)錄終止子”是指在轉(zhuǎn)錄單位末端的DNA序列,其信號(hào)表示轉(zhuǎn)錄的終止。終止子是3'-非翻譯DNA序列,其通常包括多腺苷酸化信號(hào),其有助于向初級(jí)轉(zhuǎn)錄本的3'端添加多聚腺苷酸化序列。在病毒、酵母、霉菌、細(xì)菌、昆蟲、鳥、哺乳動(dòng)物和植物中有活性和/或從中分離的終止子是已知的,并且已經(jīng)在文獻(xiàn)中描述。適合在本發(fā)明的基因構(gòu)建物中使用的終止子的實(shí)例包括任意真核終止子或病毒終止子,例如,Bovine GrowthHormone poly A或SV4.0poly A。這些多聚腺苷酸化信號(hào)是本領(lǐng)域中已知的。
[0222]另外,本發(fā)明涵蓋這樣的宿主細(xì)胞,其包括上文描述的根據(jù)本發(fā)明的分離的啟動(dòng)子或基因構(gòu)建物。在本發(fā)明的一些具體實(shí)施方案中,宿主細(xì)胞選自細(xì)菌、藻類、真菌、酵母、植物、昆蟲或哺乳動(dòng)物宿主細(xì)胞。
[0223]在一個(gè)優(yōu)選實(shí)施方案中,宿主細(xì)胞是處于疾病狀態(tài)的細(xì)胞,優(yōu)選癌細(xì)胞。
[0224]本發(fā)明還提供了驅(qū)動(dòng)和/或調(diào)節(jié)細(xì)胞中核酸的表達(dá)的方法,其包括:
[0225](a)將核酸與上文描述的根據(jù)本發(fā)明的分離的核酸如SEQ ID N0.130至191或SEQID N0.5至66之一或其變體或片段有效連接,和
[0226](b)將所得基因構(gòu)建物引入細(xì)胞中,優(yōu)選疾病狀態(tài)的細(xì)胞,更優(yōu)選癌細(xì)胞。
[0227]優(yōu)選地,(a)的有效連接的核酸與根據(jù)本發(fā)明的核酸異源。
[0228]該方法還包括將轉(zhuǎn)化細(xì)胞培養(yǎng)在促進(jìn)生長、促進(jìn)再生和/或促進(jìn)成熟的條件下。
[0229]另外,可驅(qū)動(dòng)和/或調(diào)節(jié)特定細(xì)胞、組織或生物(優(yōu)選哺乳動(dòng)物)中有效連接的核酸的表達(dá)。因此,在一些實(shí)施方案中,本發(fā)明提供了上述方法,其中表達(dá)是組成性表達(dá)或組織特異性的表達(dá)。對(duì)于這些實(shí)施方案,參照描述了根據(jù)本發(fā)明的啟動(dòng)子特有表達(dá)方式的實(shí)施例部分,其詳細(xì)描述了不同類型的組織特異性表達(dá)。
[0230]本發(fā)明還涵蓋上文定義的分離的核酸用于驅(qū)動(dòng)和/或調(diào)節(jié)有效連接的核酸的表達(dá)的用途?!緦@綀D】
【附圖說明】
[0231]可通過結(jié)合附圖閱讀說明書和所附權(quán)利要求書來明確本發(fā)明其他目的和優(yōu)點(diǎn)。
[0232]為了更完整地理解本發(fā)明,參照以下結(jié)合附圖的描述,其中
[0233]圖1:本發(fā)明方法的一個(gè)實(shí)施方案的圖示。
[0234]圖2:載體pSmoothy的載體圖。該載體的序列為SEQ ID N0.4。
[0235]圖3:HT29 細(xì)胞的熒光分選數(shù)據(jù)((a) HT29 ; (b) HT29-SYN 分選前;(c) HT29-SYN 分選后)。
[0236]圖4:用引物SYNlS和SYNlAS擴(kuò)增的PCR產(chǎn)物的瓊脂糖凝膠。不同泳道表示LI:轉(zhuǎn)導(dǎo)進(jìn)CRC細(xì)胞之前的pSmoothy逆轉(zhuǎn)錄文庫I ;L2:轉(zhuǎn)導(dǎo)進(jìn)CRC細(xì)胞之前的pSmoothy逆轉(zhuǎn)錄文庫2 ;HT29:對(duì)照;S1:HT29轉(zhuǎn)導(dǎo)細(xì)胞的第I分選;S2:HT29轉(zhuǎn)導(dǎo)細(xì)胞的第2分選。
[0237]圖5A:在結(jié)腸癌細(xì)胞中得到的LacZ基因表達(dá)的水平(HT29、DLD-1、HCT_116和RKO細(xì)胞的平均值;每一啟動(dòng)子的上柱;淺灰色)相比于HELA對(duì)照細(xì)胞(每一啟動(dòng)子的下柱;深灰色),其來自140種潛在合成啟動(dòng)子中的每一種(相對(duì)于用pCMV-β對(duì)照質(zhì)粒得到的表達(dá)水平進(jìn)行歸一化)。
[0238]圖5B:轉(zhuǎn)染有不同啟動(dòng)子(CMV-β ;粘蛋白-1 (Mucin-1) ;CRCSE SEQ ID N0.5)的ΗΤ29和NEUR02A細(xì)胞的LacZ表達(dá)。
[0239]圖6Α =FACS分析表明在對(duì)照HELA細(xì)胞和CRC細(xì)胞系;HCT116、HT29、DLDl和RKO中由具有平均活性的啟動(dòng)子表達(dá)GFP的細(xì)胞的比例。GFP細(xì)胞存在于R2門(gate)。
[0240]圖6B:通過本發(fā)明 方法的一個(gè)實(shí)施方案產(chǎn)生的不同啟動(dòng)子的活性測(cè)量。
[0241]圖1示出了制備和選擇轉(zhuǎn)錄增強(qiáng)的組合啟動(dòng)子盒之方法的一個(gè)實(shí)例的流程圖。
[0242]在該示例方法中,在第一步(10)中,提供了多個(gè)轉(zhuǎn)錄因子調(diào)控元件,其與表達(dá)被鑒定為在分離自多個(gè)不同來源的癌細(xì)胞中異常調(diào)節(jié)的多個(gè)基因中的任一個(gè)相關(guān)聯(lián)。
[0243]在該示例方法的第二步(12)中,根據(jù)若干預(yù)定標(biāo)準(zhǔn)選擇所述轉(zhuǎn)錄因子調(diào)控元件。在該實(shí)例中,作為第一條標(biāo)準(zhǔn),所述轉(zhuǎn)錄因子調(diào)控元件必須接近超過百分之五十的在癌細(xì)胞中發(fā)現(xiàn)的異常調(diào)節(jié)的基因。還根據(jù)以下關(guān)系:頻率(1/頻率由上文定義,將作為該實(shí)例第二條標(biāo)準(zhǔn)的所述轉(zhuǎn)錄因子調(diào)控元件的出現(xiàn)頻率和作為第三條標(biāo)準(zhǔn)的其核苷酸長度用于鑒定候選調(diào)控元件。
[0244]在一個(gè)優(yōu)選實(shí)施方案,結(jié)腸癌情況下的候選調(diào)控元件是表3列舉的序列。
[0245]在該示例方法的下一步(14)中,構(gòu)建在步驟(12)中選擇的隨機(jī)組合的轉(zhuǎn)錄因子調(diào)控元件的文庫。
[0246]在該示例方法的下一步(16)中,將組合的轉(zhuǎn)錄因子調(diào)控元件插入到每一載體中后跟報(bào)告基因的最小啟動(dòng)子之前。優(yōu)選地,一個(gè)組合轉(zhuǎn)錄因子調(diào)控元件插入到每個(gè)載體。
[0247]在該示例方法的下一步(18)中,將載體插入到宿主細(xì)胞中。
[0248]在下一步(20)中,從細(xì)胞中篩選報(bào)告基因的表達(dá)增強(qiáng)的細(xì)胞,并且確認(rèn)細(xì)胞包含文庫中的組合啟動(dòng)子盒。
實(shí)施例
[0249]1.在結(jié)直腸癌中上調(diào)的基因的選擇
[0250]表2示出了來自由Rhodes等人進(jìn)行的研究(Rhodes等(2004) PNAS2004 ;101 ;9309-14)的通過對(duì)結(jié)腸癌來源的微陣列數(shù)據(jù)的中期分析(meta-analysis)所鑒定的基因的選擇。表2列舉的17種基因鑒定的結(jié)果表現(xiàn)為在結(jié)腸癌活檢中上調(diào)。
[0251]然后篩選這些基因以確保過表達(dá)是轉(zhuǎn)錄因子活性改變的結(jié)果,而不是染色體擴(kuò)增的結(jié)果,從而選擇在轉(zhuǎn)錄因子環(huán)境改變的背景下有活性的順式調(diào)控元件。這導(dǎo)致排除三種基因:T0P2A、SMARCA4 和 TRAF4 (用 * 表示)。
[0252]使用數(shù)據(jù)庫搜索另外的文獻(xiàn)以發(fā)現(xiàn)其在結(jié)直腸癌中的過表達(dá)在之前已經(jīng)通過獨(dú)立方法顯示了的基因。根據(jù)表達(dá)水平和用于檢測(cè)的分析方法,基因得分為“+++”:實(shí)質(zhì)性證據(jù)支持其過表達(dá),“++”:重要證據(jù)支持其過表達(dá)以及“ + ”:證據(jù)支持其過表達(dá)。
[0253]由于計(jì)算能力的進(jìn)步,本發(fā)明的目的是分析全部差異調(diào)控基因的全部調(diào)控序列。因此,該選擇步驟僅是任選的。
[0254]排除未發(fā)現(xiàn)關(guān)于其在結(jié)直腸癌中的過表達(dá)的進(jìn)一步證據(jù)的基因。最后,為了選擇形成在結(jié)腸癌中有特異性 活性的合成啟動(dòng)子的順式調(diào)控元件,檢驗(yàn)以下七種基因的調(diào)控區(qū):PLK、G3BP、E2-EPF、MMP9、MCM3、PRDX4 和 CDC2。
[0255]2.從上調(diào)的基因中鑒定調(diào)控元件
[0256]在選定了在結(jié)直腸癌中上調(diào)的基因之后,使用HumanMarch2006Assembly(http: / / genome.ucsc.edu / cg1-bin / hgTracks?org=human)上的 UCSC Genome Browser 從 UCSC Golden-Path(www.genome, ucsc.edu)得到具有5kb上游/下游的每一基因(總計(jì)7種基因)的核酸序列。使用BIOBASE BiologicalDatabases (www.gene-regulation.com),通過用于搜索核酸序列的 TFBLAST 程序(www.gene-regulation.com / cg1-bin / pub / programs / tfblast / tfblast.cgi)的BLASTX搜索工具(版本2.0.13)對(duì)每一回收序列對(duì)于TRANSFAC Factor Table進(jìn)行BLAST,從而對(duì)核酸序列進(jìn)行搜索以鑒定調(diào)控元件?;诰哂酗@著高(0.7-1.0)的對(duì)應(yīng)共有序列(身份閾值(identity threshold))來選擇調(diào)控元件,同時(shí)不設(shè)置對(duì)得分或長度閾值的限制。將所關(guān)注基因的BLAST結(jié)果相互參照以得到具有顯著e值(<le-03)并且屬于所選擇物種(人(Homo Sapiens))的共有調(diào)控元件列表。通過進(jìn)一步回顧,結(jié)腸癌基因列表表現(xiàn)出調(diào)控元件的良好證據(jù),因?yàn)?(a)全部7種基因存在顯著e值,(b)全部7種基因存在多個(gè)共同調(diào)控元件,(C)結(jié)腸癌基因列表中存在的主要基因也存在于其他癌基因列表中(數(shù)據(jù)未示出),以及(d)從表達(dá)水平和用于檢測(cè)的分析中確定了支持基因過表達(dá)的實(shí)質(zhì)性/重要證據(jù)。
[0257]進(jìn)一步用來自B10BASE Biological Databases 的 PATCH publicl.0 (轉(zhuǎn)錄因子結(jié)合位點(diǎn)的模式搜索)(http: / / www.gene-regulation.com / cgibin / pub /programs / patch / bin / patch, cgi)進(jìn)一步研究來自結(jié)腸癌基因列表的7種所關(guān)注基因序列。對(duì)全部位點(diǎn)用7個(gè)堿基的最小位點(diǎn)長度、最大數(shù)量不匹配0,錯(cuò)配罰分100,低分界限100來進(jìn)行檢索。通過將它們?nèi)吭谝黄鸱纸M來進(jìn)一步分析所有七個(gè)基因序列的結(jié)果,排除除人(Homo sapiens)以外的所有轉(zhuǎn)錄因子結(jié)合位點(diǎn)。
[0258]然后繼續(xù)檢查每一轉(zhuǎn)錄因子結(jié)合位點(diǎn)出現(xiàn)在最初認(rèn)定在結(jié)腸癌細(xì)胞中上調(diào)的7個(gè)基因極近位置的頻率。在一些情況下,一個(gè)序列在被評(píng)價(jià)的單個(gè)基因附近出現(xiàn)多次。因此,為了確定轉(zhuǎn)錄因子結(jié)合位點(diǎn)的出現(xiàn)頻率,計(jì)算每次檢測(cè)到結(jié)合位點(diǎn)的次數(shù)的總和,然后使用全部基因中出現(xiàn)的全部結(jié)合位點(diǎn)的總和作為公分母。
[0259]3.引入到篩選文庫中的調(diào)控元件的選擇[0260]鑒定總計(jì)328個(gè)順式調(diào)控元件在被認(rèn)為在結(jié)直腸癌中上調(diào)的7種基因序列中存在5854次。鑒定在基因之間以最大比例存在且顯示最高保守水平的那些順式調(diào)控序列。
[0261]為了完成這一點(diǎn),根據(jù)以下兩條標(biāo)準(zhǔn)來選擇用于文庫構(gòu)建的序列:
[0262]A:它們存在于通過基因表達(dá)譜篩選所鑒定的7種基因中的4種或更多種中,即存在于超過百分之五十的候選基因的調(diào)節(jié)區(qū)中。
[0263]B:隨后使用以下選擇標(biāo)準(zhǔn)(SYN值)分析在基因調(diào)節(jié)區(qū)中出現(xiàn)頻率最高的順式調(diào)控元件:(順式序列的頻率)?)>0.5。
[0264]SYN值選擇標(biāo)準(zhǔn)具有以下優(yōu)點(diǎn),考慮了可能以較低頻率出現(xiàn)的較長序列實(shí)際可能代表較高保守程度,因此對(duì)于驅(qū)動(dòng)結(jié)腸癌細(xì)胞中基因表達(dá)可能特別重要。
[0265]然后合成具有最大SYN值的十個(gè)順式調(diào)節(jié)序列(在表3中列出),并且用于產(chǎn)生逆轉(zhuǎn)錄病毒載體文庫以在結(jié)直腸癌細(xì)胞系中選擇合成啟動(dòng)子。
[0266]4.逆轉(zhuǎn)錄病毒篩選文庫的構(gòu)建和在結(jié)腸癌細(xì)胞中的篩選
[0267]為了選擇在結(jié)直腸癌細(xì)胞中具有最佳活性的啟動(dòng)子,使用與Edelman等(2000)[PNAS97 (7) ,3038-431的描述類似的方案。簡(jiǎn)言之,將對(duì)應(yīng)于十個(gè)所選順式元件的有義和反義寡核苷酸設(shè)計(jì)成在退火后包含TCGA5'突出端。然后用Τ4連接酶將退火寡核苷酸隨機(jī)連接在一起,選擇0.3-1.0kb范圍的連接核苷酸用于從1.0%瓊脂糖凝膠中提取。也可以使用Gateway克隆技術(shù)。隨后將這些隨機(jī)連接的寡核苷酸連接到逆轉(zhuǎn)錄病毒文庫pSmoothy載體上(圖2,SEQ-1D N0.4)上,其已經(jīng)用Xho I限制酶處理并且通過使用電轉(zhuǎn)化儀在超感受態(tài)ToplO細(xì)菌中轉(zhuǎn)化連接反應(yīng)的I / 50來測(cè)量文庫復(fù)雜度。然后將來自pSmoothy文庫的復(fù)雜度大于104個(gè)菌落的質(zhì)粒DNA擴(kuò)增并且用于產(chǎn)生逆轉(zhuǎn)錄病毒載體。
[0268]通過其在祀細(xì)胞中表達(dá)GFP和`新霉素兩者的能力,構(gòu)建pSmoothy以選擇潛在的合成啟動(dòng)子序列(圖2)。其作為自失活(SIN)逆轉(zhuǎn)錄病毒載體構(gòu)建,從而在整合進(jìn)轉(zhuǎn)導(dǎo)細(xì)胞后其3' -UTR不再作為啟動(dòng)子起作用。載體包括粘蛋白最小啟動(dòng)子,其位于前病毒基因組中并且在緊接多接頭的下游,隨機(jī)連接的寡核苷酸在所述多接頭處插入。GFP和新霉素編碼序列位于緊鄰最小啟動(dòng)子的下游,并且這兩個(gè)基因的表達(dá)用于選擇具有最佳活性的潛在合成啟動(dòng)子序列。pSmoothy-Ι的序列在SEQ-1D N0.4中示出。
[0269]通過將具有逆轉(zhuǎn)錄病毒VSV-G包膜構(gòu)建物的pSmoothy文庫轉(zhuǎn)染到穩(wěn)定表達(dá)Gag和Pol的293細(xì)胞中并且允許經(jīng)過48小時(shí)產(chǎn)生病毒載體來構(gòu)建逆轉(zhuǎn)錄病毒載體。然后將該逆轉(zhuǎn)錄病毒載體用于以多種滴度轉(zhuǎn)導(dǎo)HT29、DLD-1、HCT-116和RKO結(jié)直腸癌細(xì)胞,將轉(zhuǎn)導(dǎo)細(xì)胞用Img / ml G418選擇數(shù)周。圖3A示出了每一細(xì)胞系中表達(dá)的GFP的效力。然后通過用FACS Aria細(xì)胞分選儀(BD)選擇表達(dá)最大量GFP的10%細(xì)胞,對(duì)表達(dá)最大量GFP的結(jié)直腸癌細(xì)胞進(jìn)行分選。然后將該分選群體再次用Img / ml G418進(jìn)行選擇,然后再次分選,再次選擇表達(dá)最大量GFP的10%細(xì)胞(圖3B: (a)HT29 ; (b) HT29-SYN分選前;(c)HT29_SYN分選后)。然后從分選結(jié)直腸癌細(xì)胞中分離基因組DNA,用與pSmoothy特異性雜交的以下引物回收啟動(dòng)子序列:
[0270]SEQ-1D N0.2:
[0271]SYNlS5' -TAT CTG CAG TAG GCG CCG GAA TTC-3'
[0272]SEQ-1D N0.3:
[0273]SYNlAS5' -GCA ATC CAT GGT GGT GGT GAA ATG-3'[0274]圖4示出了使用這些引物由逆轉(zhuǎn)錄病毒轉(zhuǎn)導(dǎo)的HT29細(xì)胞基因組DNA進(jìn)行的典型PCR,其多個(gè)物類的擴(kuò)增在用FACS Aria進(jìn)行的第一次分選(SI)之后進(jìn)行。在第二次分選
(S2)之后,擴(kuò)增單一的290bp產(chǎn)物。
[0275]用由pSmoothy轉(zhuǎn)導(dǎo)的DLD-1、HCT-116和RKO細(xì)胞系分離的基因組DNA重復(fù)該過程,分離總計(jì)250種具有驅(qū)動(dòng)結(jié)直腸癌細(xì)胞中的基因特異性表達(dá)潛力的序列。
[0276]然后在被研究的全部結(jié)直腸癌細(xì)胞系HT29、DLDl、RKO和HCTl 16細(xì)胞中評(píng)估140種結(jié)腸癌特異性的合成增強(qiáng)子元件(CRCSE)驅(qū)動(dòng)LacZ報(bào)告基因的表達(dá)的能力。認(rèn)為24種合成啟動(dòng)子元件能夠廣泛地在全部4種不同結(jié)直腸癌細(xì)胞系中驅(qū)動(dòng)不同程度的LacZ表達(dá),其中10種被認(rèn)為驅(qū)動(dòng)高效表達(dá)并且被選中進(jìn)行進(jìn)一步的分析。圖5A示出了在來自140種潛在合成啟動(dòng)子中的每一種的對(duì)比HELA對(duì)照細(xì)胞(相對(duì)于pCMV- β對(duì)照質(zhì)粒得到的表達(dá)水平進(jìn)行歸一化)的結(jié)直腸癌細(xì)胞中得到的LacZ基因表達(dá)的水平(ΗΤ29、DLD-1、HCT-116和RKO細(xì)胞的平均值)。從這些細(xì)胞系中,選擇5種表現(xiàn)出通過2種獨(dú)立測(cè)試(B卩,β-半乳糖苷酶)和染色方式活化的細(xì)胞系。其對(duì)應(yīng)于圖5Α的數(shù)值001、102、103、105、106、108。對(duì)應(yīng)的SEQ-1D在表5中示出。不具有粘蛋白-1的最小啟動(dòng)子的啟動(dòng)子序列由SEQ-1D N0.130至I35 (有義鏈)和SEQ-1D N0.192至I97 (反義鏈)給出。
[0277]全部結(jié)果表明在本研究中構(gòu)建的合成啟動(dòng)子僅在來源于結(jié)直腸癌患者的細(xì)胞系中驅(qū)動(dòng)有效基因表達(dá)。特別地,在HT29、RK0、HCT116、Dld-l和Caco_2細(xì)胞中檢測(cè)到高水平的β -半乳糖苷酶表達(dá),在Hela、Neuro2A、MCF-7、Panc-1、CV-1和3T3細(xì)胞中檢測(cè)到最低水平的基因表達(dá)。結(jié)果進(jìn)一步與用載體pCMV-β (CMV啟動(dòng)子)和pDRIVE-Mucl (粘蛋白-1啟動(dòng)子,Invitrogen)轉(zhuǎn)染的細(xì)胞進(jìn)行了比較。
[0278]表4總結(jié)了一種合成啟動(dòng)子CRCSE-1 (SEQ-1D N0.5,反義鏈SEQ-1D N0.11)的結(jié)果((+++)聞表達(dá)、(++)中度 表達(dá)、(+)低表達(dá)、(+/-)非常低表達(dá)、(-)未表達(dá))。這些結(jié)果清楚地表明該實(shí)施例概括的選擇過程能夠產(chǎn)生在結(jié)腸癌細(xì)胞中具有特異性活性的合成啟動(dòng)子。
[0279]圖5B示出了用Lipofectamine2000轉(zhuǎn)染并且在轉(zhuǎn)染48小時(shí)后進(jìn)行LacZ表達(dá)的染色的 HT29 和 Neuro2A 細(xì)胞中由 CRCSE-1(SED-1D N0.5,反義鏈 SEQ-1D N0.68)介導(dǎo)的 LacZ的表達(dá)水平。顯著地,包括NEUR02A、NIH3T3、CVU HELA和C0S-7細(xì)胞的對(duì)照細(xì)胞系在用CRCSE-1轉(zhuǎn)染時(shí)不具有任何Lac Z表達(dá)(表4)。
[0280]在這些序列中,使用86 %同源性作為標(biāo)準(zhǔn)可鑒定以下TFES。所使用的全部序列表現(xiàn)出總計(jì)約72%同源性。表5示出了所鑒定的元件。突變最可能在新霉素選擇過程中引入。由于最小啟動(dòng)子是必需的結(jié)合位點(diǎn),在每一序列的該區(qū)域具有較少突變。
[0281]然后評(píng)估每一啟動(dòng)子中存在的順式元件的數(shù)量是否為啟動(dòng)子強(qiáng)度和特異性的重要指標(biāo)。進(jìn)行具有較高嚴(yán)格度的啟動(dòng)子序列的選擇過程,即選擇包含與輸入寡核苷酸具有100%同源性的順式元件的啟動(dòng)子。因此,將從CRC細(xì)胞基因組DNA(上述)中分離的啟動(dòng)子文庫亞克隆到pBluescript II KSM中;在進(jìn)行表達(dá)分析之前分析每一克隆的序列。在這82個(gè)序列中,55個(gè)被鑒定為包含與輸入寡核苷酸(SED-1D N0.11至SEQ-1D N0.66 ;反義鏈SEQ-1D N0.68至SEQ-1D N0.129,表6和7 ;這些序列全部包含粘蛋白I最小啟動(dòng)子。表6還給出了不具有該啟動(dòng)子的序列)具有100%同源性的順式調(diào)控元件。對(duì)于對(duì)照,將來自在CRC細(xì)胞系選擇之前全部10種順式調(diào)控元件隨機(jī)連接產(chǎn)物的序列進(jìn)行亞克隆。結(jié)果表明,發(fā)現(xiàn)在未選擇序列中每一序列平均僅2.2個(gè)調(diào)控元件,相比之下在用CRC細(xì)胞系選擇之后每一啟動(dòng)子為4.0個(gè)元件(P < 0.0Ol ;Mann-ffhitney非參數(shù)檢驗(yàn))。實(shí)際上,在對(duì)照組僅3/22序列包含4個(gè)或更多順式調(diào)控元件,相比之下,在選擇組超過31/55啟動(dòng)子包含4個(gè)或更多順式元件。另外,SYN大于0.6的順式元件占55種被鑒定啟動(dòng)子中全部元件的70%,因此證實(shí)了 SYN選擇式的重要性。為了使特定順式調(diào)控元件與特定表達(dá)的水平聯(lián)系起來,將28/31啟動(dòng)子插入到pSmoothy逆轉(zhuǎn)錄病毒載體中,監(jiān)測(cè)與HELA對(duì)照細(xì)胞系相比其驅(qū)動(dòng)CRC細(xì)胞中GFP表達(dá)的能力。
[0282]通過FACS分析確定GFP表達(dá)的效率,針對(duì)全部啟動(dòng)子,確定FLl通道熒光大于200單位的閾值的細(xì)胞的比例。取決于細(xì)胞系,平均1.0-10.0%的表達(dá)GFP的細(xì)胞被證明熒光大于該水平。與HELA對(duì)照細(xì)胞系相比(其中僅小比例的細(xì)胞為GFP陽性),CRC細(xì)胞系(HCT116、HT29、DLD1和RK0)中所分析的全部啟動(dòng)子產(chǎn)生顯著較高水平的表達(dá)。這在圖6A中示出,其包括來自啟動(dòng)子230(其為在全部CRC細(xì)胞系中表達(dá)平均水平GFP的合成啟動(dòng)子,見圖6B)的FACS結(jié)果。為了鑒定哪些啟動(dòng)子最有效,確定全部細(xì)胞系中每一啟動(dòng)子的表達(dá)比率,該表達(dá)比例定義為每一單獨(dú)啟動(dòng)子表達(dá)的GFP大于閾值的細(xì)胞的比例除以對(duì)全部啟動(dòng)子來說大于閾值的平均比例。該分析的結(jié)果在圖6B中示出,其表明與其他啟動(dòng)子相t匕,在CRC細(xì)胞系中,啟動(dòng)子239、213、215、248和254表現(xiàn)出最高活性。
[0283]還檢驗(yàn)了是哪些順式元件構(gòu)成這些更有效的啟動(dòng)子,發(fā)現(xiàn)平均5個(gè)具有最大SYN值的順式元件代表每一啟動(dòng)子中全部調(diào)控元件的64%。因此,進(jìn)一步表明了 SYN值對(duì)于選擇最有效的最佳元件和選擇性表達(dá)的重要性。
[0284]綜上,這些結(jié)果表明本文提供的SYN選擇式和方法代表了選擇順式調(diào)控元件(即,TFRE)以納入合成啟動(dòng)子文庫的可用工具。使用所描述的方法構(gòu)建多種啟動(dòng)子,其可在CRC細(xì)胞系中特別有效表達(dá)GFP或Lac Z,同時(shí)在對(duì)照細(xì)胞中不表現(xiàn)或表現(xiàn)有限的活性。表明本方法可用于構(gòu)建任何被設(shè)計(jì)為在特定環(huán)境或疾病條件下有活性的真核生物啟動(dòng)子。
[0285]盡管已經(jīng)結(jié)合若干具體實(shí)施方案對(duì)本發(fā)明進(jìn)行了描述和舉例說明,但是本領(lǐng)域技術(shù)人員將理解可進(jìn)行修改和修飾而不脫離本文描述的本發(fā)明的范圍。本發(fā)明可以體現(xiàn)為其他具體形式,而不脫離 其精神或基本特征。認(rèn)為在各處描述的實(shí)施方案應(yīng)是描述性的而不是限制性的。因此,本發(fā)明的范圍由所附權(quán)利要求指示,而不是由上文描述指示。在權(quán)利要求的等效物的意義和范圍內(nèi)的所有變化包含在其范圍內(nèi)。
[0286]參考文獻(xiàn):
[0287]Rhodes, D.R.et al.Mining for regulatory programs in the cancertranscriptome.Nat.Genet.37,579-583 (2005);
[0288]Segal, E.,F(xiàn)riedman,N.,Roller, D.,&Regev,A.A module map showingconditional activity of expression modules in cancer.Nat.Genet.36,1090-1098(2004);
[0289]Segal, E.et al.Module networks !identifying regulatory mod-ules andtheir condition-specific regulators from gene expres-sion data.Nat.Genet.34,166-176(2003);
[0290]Wingender, E.Compilation of transcription regulating pro-teins.NucleicAcids Resl6,1879-1902(1988);[0291]Kel-Margoulis, 0.V.,Kel, Α.Ε.,Reuter, 1.,Deineko, 1.V.,&Wingender,E.TRANSCompel:a database on composite regula-tory elements in eukaryoticgenes.Nucleic Acids Res30,332-334(2002);
[0292]Blanco,E.,F(xiàn)arre, D.,Alba, M.M.,Messeguer, X.,&Guigo,R.ABS:a databaseof Annotated regulatory Binding Sites from orthologous promoters.Nucleic AcidsRes34,D63-D67(2006);
[0293]Sandelin,A.,Alkema, W.,Engstrom, P.,Wasserman, W.W.,&Lenhard, B.JASPAR:an open—access database for eukaryotic transcription factor binding profiles.Nucleic Acids Res32,D91-D94(2004);
[0294]Jagannathan,V.,Roulet,E.,Delorenzi, M.,&Bucher, P.HTPSELEX—a databaseof high-throughput SELEX libraries for transcription factor binding sites.Nucleic Acids Res34,D90-D94(2006);
[0295]Matys, V.et al.TRANSFAC:transcriptional regulation,from patterns toprofiles.Nucleic Acids Res31,374-378(2003);
[0296]Zhao, F.,Xuan, Z.,Liu, L,&Zhang,M.Q.TRED:a Transcrip-tional RegulatoryElement Database and a platform for in silico gene regulation studies.NucleicAcids Res33, D103-D107(2005);
[0297]Sinha, S.&Tompa, M.YMF:A program for discovery of novel transcriptionfactor binding sites by statistical overrepre-sentation.Nucleic Acids Res31,3586-3588(2003);
[0298]Sinha,S.&Tompa,M.Discovery of novel transcription factor binding sitesby statistical overr epresentation.Nucleic Acids Res30,5549-5560(2002);
[0299]Rebeiz,M., Reeves,N.L.,&Posakony, J.W.SCORE:a computa-tional approach tothe identification of cis-regulatory mod-ules and target genes in whole-genomesequence data.Siteclustering over random expectation.Proc.Natl.Acad.Sc1.U.S.A99,9888-9893 (2002);
[0300]Suzuki, Y.,Yamashita,R.,Sugano,S.,&Nakai,K.DBTSS, Da-taBase ofTranscriptional Start Sites:progress report2004.Nucleic Acids Res32,D78-D81(2004);
[0301]Suzuki, Y.,Yamashita,R.,Nakai, K.,&Sugano,S.DBTSS:Da_taBase of humanTranscriptional Start Sites and full-length cDNAs.Nucleic Acids Res30,328-331(2002);
[0302]Davuluri, R.V.,Grosse,1.,&Zhang,M.Q.Computational identification ofpromoters and first exons in the human ge-nome.Nat.Genet.29,412-417(2001);
[0303]Roth, F.P.,Hughes,J.D.,Estep, P.W.,&Church, G.M.Finding DNA regulatorymotifs within unaligned noncoding se-quences clustered by whole-genome mRNAquantitation.Nat.Biotechnol.16,939-945(1998);
[0304]Bussemaker,H.J.,Li,H.,&Siggia,E.D.Regulatory element detection usingcorrelation with expression.Nat.Genet.27,167-171 (2001);[0305]Jensen, L.J.&Knudsen, S.Automatic discovery of regulatory patterns inpromoter regions based on whole cell expression data and functional annotation.Bioinformatics.16,326-333(2000);
[0306]Jegga, A.G.et al.Detection and visualization of compos1-tionalIysimilar cis-regulatory element clusters in ortholo—gous and coordinatelycontrolled genes.Genome Resl2,1408-1417(2002);
[0307]Dieterich, C.,Wang, H.,Rateitschak,K.,Luz,H.,&Vingron,M.CORG:a databasefor Comparative Regulatory Genomics.Nu-cleic Acids Res31,55-57(2003);
[0308]Lenhard,B.et al.1dentification of conserved regulatory ele-ments bycomparative genome analysis.J.Biol.2,13(2003);
[0309]Karanam,S.Moreno, C.S.CONFAC !automated application of comparativegenomic promoter analysis to DNA microarray data-sets.Nucleic Acids Res32,W475-W484(2004);
[0310]La Rosa, P.et al.VAMP !visualization and analysis of array-CGH,transcriptome and other molecular profiles.Bioinformat-1cs.22,2066-2073(2006);
[0311]Jegga, A.G.et al.CisMols Analyzer !identification of compo-sitionallysimilar cis-element clusters in ortholog conserved regions of coordinatelyexpressed genes.Nucleic Acids Res33, W408-W411(2005);
[0312]Blanchette, M.et al.Genome-wide computational prediction oftranscriptional regulatory modules reveals new insights into human geneexpression.Genome Resl6,656-668(2006);
[0313]Ferretti, V.et al.PReMod:a database of genome-wide mammal — iancis-regulatory module predictions.Nucleic Acids Res35,D122-D126 (2007);
[0314]Sharov, A.A.,Dudekula,D.B.,&Ko,M.S.CisView:a browser and database ofcis-regulatory modules predicted in the mouse genome.DNA Resl3,123-134(2006);
[0315]Vega, V.B.,Bangarusamy, D.K.,Miller, L.D.,Liu, E.T.,&Lin,C.Y.BEARR:Batch Extraction and Analysis of cis-Regulatory Regions.Nucleic Acids Res32,W257-W260(2004);
[0316]Dubchak,1.&Ryaboy, D.V.VISTA family of computational tools forcomparative analysis of DNA sequences and whole ge-nomes.Methods Mol.Biol.338,69-89(2006);
[0317]Lardenois,A.et al.PromAn:an integrated knowledge-based web serverdedicated to promoter analysis.Nucleic Acids Res34, W578-W583(2006);
[0318]Liu, C.C.et al.CRSD:a comprehensive web server for compos-1teregulatory signature discovery.Nucleic Acids Res34, W571-W577 (2006);
[0319]Sun, H.et al.MPromDb:an integra`ted resource for annotation andvisualization of mammalian gene promoters and ChlP—chip experimental data.Nucleic Acids Res34,D98-103(2006);[0320]Li,X.,Eastman,E.Μ.,Schwartz, R.J.,&Draghia_Akli,R.Synthetic musclepromoters !activities exceeding naturally oc—curring regulatory sequences.Nat.Biotechnol.17,241-245(1999);
[0321]Dai , C.,McAninch,R.E.,&Sutton,R.E.1dentification of syntheticendothelial cell-specific promoters by use of a high-throughput screen.J.Virol.78,6209-6221 (2004);
[0322]Needleman-Wunsch,J.Mol.Biol.48,443-453,(1970);
[0323]Sambrook(2001)Molecular Cloning:a laboratory manual,3rd Edition ColdSpring Harbor Laboratory Press,CSH, New York
[0324]Rhodes et al(2004 )PNAS2004 ;101 ;9309_14 ;
[0325]Edelman et al (2000) [PNAS 97 (7),3038-43 ;
[0326]表I
[0327]
【權(quán)利要求】
1.用于選擇啟動(dòng)子元件的方法,其包括: (a)提供多個(gè)轉(zhuǎn)錄因子調(diào)控元件(TFRE),其中所述多個(gè)TFRE中的每一個(gè)與多個(gè)基因中的一個(gè)或更多個(gè)相關(guān)聯(lián),所述多個(gè)基因中的每一個(gè)在特定細(xì)胞類型或組織類型中或者在特定條件下差異表達(dá);和 (b)從步驟(a)中提供的所述多個(gè)TFRE中選擇TFRE,其中每一個(gè)所選TFRE(I)在超過50%的步驟(a)中定義的所述多個(gè)基因的20千堿基以內(nèi),和(2) SYN值大于0.3,其中TFRE的SYN值定義為頻率(1^s),其中頻率是其在所述多個(gè)基因中任一個(gè)的20千堿基以內(nèi)的頻率,長度是所述TFRE的核苷酸長度。
2.用于制備轉(zhuǎn)錄增強(qiáng)的組合啟動(dòng)子盒的方法,所述方法包括: (a)鑒定多個(gè)轉(zhuǎn)錄因子調(diào)控元件(TFRE),其中所述多個(gè)TFRE中的每一個(gè)與多個(gè)基因中的一個(gè)或更多個(gè)相關(guān)聯(lián),所述多個(gè)基因中的每一個(gè)在特定細(xì)胞類型或組織類型中或者在特定條件下差異表達(dá); (b)從步驟(a)中提供的所述多個(gè)TFRE中選擇TFRE,其中每一個(gè)所選TFRE(I)在超過50%的步驟(a)中定義的所述多個(gè)基因的20千堿基以內(nèi),和(2) SYN值大于0.3,其中TFRE的SYN值定義為頻率(1^s),其中頻率是其在所述多個(gè)基因中任一個(gè)的20千堿基以內(nèi)的頻率,長度是所述TFRE的核苷酸長度; (c)通過隨機(jī)組合步驟(b)中所選擇的TFRE來構(gòu)建隨機(jī)組合元件的文庫;以及 (d)將所述文庫中的組合元件插入到具有最小啟動(dòng)子和報(bào)告基因的載體中,從而產(chǎn)生組合啟動(dòng)子盒。
3.根據(jù)權(quán)利要求2所述的方法,其還包括步驟(e):將所述載體插入到宿主細(xì)胞中。
4.根據(jù)權(quán)利要求3所述的方法,其中步驟(e)產(chǎn)生多個(gè)宿主細(xì)胞,所述方法還包括(f):從步驟(e)中產(chǎn)生的宿主細(xì)胞中篩選報(bào)告基因的表達(dá)增強(qiáng)的那些。
5.根據(jù)權(quán)利要求3或4所述的方法,其還包括鑒定步驟(e)中所產(chǎn)生的宿主細(xì)胞或步驟(f)中所選擇的宿主細(xì)胞中的所述組合啟動(dòng)子盒。
6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的方法,其中步驟(b)中選擇的每一個(gè)TFRE的SYN值大于0.5。
7.根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的方法,其中步驟(b)中選擇的每一個(gè)TFRE具有在步驟(a)中提供的所述多個(gè)TFRE中第一至第十大的SYN值。
8.根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的方法,其中步驟(b)中選擇的每一個(gè)TFRE在超過50%的步驟(a)中所述多個(gè)基因的10千堿基或5千堿基內(nèi),優(yōu)選在上游區(qū)域內(nèi),頻率為在超過50%的所述多個(gè)基因的10千堿基或5千堿基內(nèi)的頻率,優(yōu)選在上游區(qū)域內(nèi)的頻率。
9.根據(jù)權(quán)利要求2至8中任一項(xiàng)所述的方法,其中通過在連接反應(yīng)條件下將至少編碼所選TFRE的各個(gè)雙鏈DNA序列元件混合在一起來制備步驟(c)中的隨機(jī)組合的所選TFRE的文庫。
10.根據(jù)權(quán)利要求2至9中任一項(xiàng)所述的方法,其中步驟(d)中的所述報(bào)告基因是LacZ或 GFP。
11.根據(jù)權(quán)利要求1至10中任一項(xiàng)所述的方法,其中所述多個(gè)基因中的每一個(gè)在特定條件下差異表達(dá),所述特定條件是疾病條件。
12.根據(jù)權(quán)利要求11所述的方法,其中所述疾病條件是癌癥。
13.根據(jù)權(quán)利要求1至10中任一項(xiàng)所述的方法,其中所述多個(gè)基因中的每一個(gè)在特定條件下差異表達(dá),所述特定條件是暴露于特定生物物質(zhì)、化學(xué)物或微生物病原。
14.一種載體,其包含組合啟動(dòng)子盒,所述組合啟動(dòng)子盒包含隨機(jī)組合元件、最小啟動(dòng)子和報(bào)告基因, 其中每一所述元件與超過50%的多個(gè)基因20千堿基以內(nèi)的并且SYN值大于0.3的TFRE具有大于80 %的序列同一性,所述多個(gè)基因被鑒定為在特定細(xì)胞類型或組織類型中或者在特定條件下差異表達(dá),其中所述SYN值定義為頻率(1/Is),其中頻率是所述TFRE在所述多個(gè)基因中任一個(gè)的20千堿基以內(nèi)的出現(xiàn)頻率,長度是所述TFRE的核苷酸長度,并且 其中所述載體是質(zhì)粒、病毒,其瞬時(shí)表達(dá)或整合在宿主細(xì)胞的基因組中。
15.用于驅(qū)動(dòng)和/或調(diào)節(jié)表達(dá)的分離的啟動(dòng)子,其包括: (a)SEQ ID N0.130至191之一或SEQ ID N0.130至191之一的互補(bǔ)序列給出的分離的核酸;或 (b)與SEQ ID N0.130至191中任一的序列或SEQ ID N0.130至191之一的互補(bǔ)序列具有至少90%序列同一性的分離的核酸;或 (c)在嚴(yán)格條件下能夠與SEQID N0.130至191之一或SEQ ID N0.130至191之一的互補(bǔ)序列給出的DNA序列特異性雜交的分離的核酸;或 (d)由(a)至(c)中任一項(xiàng)定義的分離的核酸,其被插入序列隔斷。
16.根據(jù)權(quán)利要求15所述的分離的啟動(dòng)子,其還包含最小啟動(dòng)子。
17.根據(jù)權(quán)利要求16所述的分離的啟動(dòng)子,其中所述啟動(dòng)子具有SEQID N0.5至66或者SEQ ID N0.5至66的互補(bǔ)序列之一給出的序列。
18.基因構(gòu)建物,其包含: (a)由權(quán)利要求15至17之一定義的分離的啟動(dòng)子;和 (b)與所述分離的啟動(dòng)子有效連接的異源核酸序列;和任選地 (c)3'轉(zhuǎn)錄終止子。
19.一種宿主細(xì)胞,其包含權(quán)利要求14所述的載體、權(quán)利要求15至17之一所述的分離的啟動(dòng)子或者權(quán)利要求18所述的基因構(gòu)建物。
20.用于驅(qū)動(dòng)和/或調(diào)節(jié)細(xì)胞中核酸表達(dá)的方法,其包括: (a)將所述核酸與權(quán)利要求15至17之一所述的分離的啟動(dòng)子有效連接,和 (b)將所得基因構(gòu)建物引入到細(xì)胞中。
21.根據(jù)權(quán)利要求15至17之一所述的啟動(dòng)子用于驅(qū)動(dòng)和/或調(diào)節(jié)有效連接的核酸的表達(dá)的用途。
22.根據(jù)權(quán)利要求2至13中任一項(xiàng)所述的方法,其中在步驟(d)中產(chǎn)生多個(gè)組合啟動(dòng)子盒,并且所述方法還包括選擇一個(gè)或更多個(gè)所產(chǎn)生的組合啟動(dòng)子盒,其中每一所選組合啟動(dòng)子盒中TFRE數(shù)/啟動(dòng)子大于步驟(d)中產(chǎn)生的多個(gè)組合啟動(dòng)子盒中平均TFRE數(shù)/啟動(dòng)子。
23.根據(jù)權(quán)利要求2至13中任一項(xiàng)所述的方法,其中在步驟(d)中產(chǎn)生多個(gè)組合啟動(dòng)子盒,并且所述方法還包括選擇一個(gè)或更多個(gè)所產(chǎn)生的組合啟動(dòng)子盒,其中每一所選組合啟動(dòng)子盒中TFRE數(shù)/啟動(dòng)子大于2。
24.根據(jù)權(quán)利要求1至13中任一項(xiàng)所述的方法,其中所述TFRE在所述多個(gè)基因中任一個(gè)20千堿基內(nèi)的出現(xiàn)頻率是所述TFRE在所述多個(gè)基因中任一個(gè)的有義鏈中20千堿基內(nèi)的出現(xiàn)頻率。
25.根據(jù)權(quán)利要求14所述的載體,其中所述TFRE在所述多個(gè)基因中任一個(gè)20千堿基內(nèi)的出現(xiàn)頻率是所述TFRE在所`述多個(gè)基因中任一個(gè)的有義鏈中20千堿基內(nèi)的出現(xiàn)頻率。
【文檔編號(hào)】C12N15/10GK103429743SQ201280012910
【公開日】2013年12月4日 申請(qǐng)日期:2012年1月25日 優(yōu)先權(quán)日:2011年1月25日
【發(fā)明者】邁克爾·L·羅伯茨 申請(qǐng)人:塞普洛麥克斯有限公司