欧美hdxxxx-欧美GV肉片视频免费观看-欧美gv明星-欧美GAY猛男GAYA片18禁-99热精品在线视频观看-99热精品在线av播放

  • 產(chǎn)品|
  • 采購(gòu)|
  • 企業(yè)|
  • 資訊|
  • 展會(huì)|

客服QQ:544721284

您所在的位置:首頁(yè) > 資訊 > 分析預(yù)測(cè) > 一種復(fù)雜數(shù)據(jù)預(yù)測(cè)模型的構(gòu)建方法與流程

一種復(fù)雜數(shù)據(jù)預(yù)測(cè)模型的構(gòu)建方法與流程

日期: 2021-03-29 瀏覽人數(shù): 180 來(lái)源: 編輯:

分享到:
核心提示:  新一代測(cè)序技術(shù)的出現(xiàn),使研究人員能夠處理收集的大數(shù)據(jù)(例如,使臨床研究人員能夠處理收集自患者的上百個(gè)生物樣本),并進(jìn)行

  新一代測(cè)序技術(shù)的出現(xiàn),使研究人員能夠處理收集的大數(shù)據(jù)(例如,使臨床研究人員能夠處理收集自患者的上百個(gè)生物樣本),并進(jìn)行如全基因組表達(dá)水平、甲基化水平或體細(xì)胞突變的分析,這里稱為高維組學(xué)數(shù)據(jù)(HDOD,high dimension omics data)。雖然可獲得的臨床樣品量通常有限,但由于每個(gè)樣本被觀測(cè)的變量的數(shù)目可以達(dá)到數(shù)千或數(shù)百萬(wàn),因此臨床研究的瓶頸,已經(jīng)從樣品采集轉(zhuǎn)移到了數(shù)據(jù)管理和數(shù)據(jù)分析上。利用HDOD連同其它臨床變量建立特定臨床結(jié)果的預(yù)測(cè)模型,已經(jīng)是生物醫(yī)學(xué)信息學(xué)的研究人員的眾多分析目標(biāo)之一。

  建立預(yù)測(cè)模型已經(jīng)成為一些學(xué)科的定量研究員共享的研究點(diǎn)。研究員一直在積極利用來(lái)自數(shù)據(jù)庫(kù)的大數(shù)據(jù)集進(jìn)行預(yù)測(cè)模型的開發(fā),采用的方法包括機(jī)器學(xué)習(xí)算法、支持向量機(jī)和遺傳算法。此外,基于對(duì)數(shù)據(jù)庫(kù)技術(shù)和可視化工具的熟練掌握,研究員可以有效地構(gòu)建HDOD,通過(guò)縮放p計(jì)算分析HDOD,并使得HDOD衍生的結(jié)果可視化,從而使生物醫(yī)學(xué)研究人員可以對(duì)HDOD進(jìn)行處理,并可以直觀地觀測(cè)結(jié)果。

  構(gòu)建預(yù)測(cè)模型已經(jīng)是現(xiàn)有技術(shù),通常是根據(jù)已知預(yù)測(cè)多變量的結(jié)果,構(gòu)建基于回歸的預(yù)測(cè)模型,且大多采用廣義線性模型(GLM)。Hastie和Tibshirani放寬了參數(shù)假設(shè),描述了廣義相加模型(GAM),用非參數(shù)回歸方法結(jié)合幾十年的研究。近年來(lái),統(tǒng)計(jì)學(xué)家一直在研究使用懲罰似然技術(shù)(包括LASSO、GBM和彈性網(wǎng)絡(luò)技術(shù))來(lái)使HDOD自動(dòng)的選擇協(xié)變量。這些方法是轉(zhuǎn)化研究中用于處理維度災(zāi)難的主要工具。

  雖然計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)之間存在交叉,但之間的基本區(qū)別在于,計(jì)算機(jī)科學(xué)通常從系統(tǒng)的角度探索帶有多變量的圖譜,而統(tǒng)計(jì)學(xué)傾向于遵循節(jié)省原則確定幾個(gè)協(xié)變量預(yù)測(cè)模型。統(tǒng)計(jì)學(xué)面臨的一個(gè)主要挑戰(zhàn)是如何控制根據(jù)HDOD選擇預(yù)測(cè)器的假陽(yáng)性錯(cuò)誤率的過(guò)度膨脹,其將導(dǎo)致“過(guò)度擬合”預(yù)測(cè)模型。與此相反,計(jì)算機(jī)科學(xué)或生物信息學(xué)中,則主要對(duì)HDOD圖譜感興趣,常常想要量化直觀的圖譜,重復(fù)生成圖譜獨(dú)立的數(shù)據(jù)集。

  本發(fā)明保留這兩種分析方法的特點(diǎn),提出一種混合算法,包括兩個(gè)步驟:在第一步驟中,要確定一組代表對(duì)象HDOD圖譜的“范例”,所述“范例”一般通過(guò)無(wú)監(jiān)督學(xué)習(xí)的聚類分析法獲得。為了代表集群圖譜,選擇單一集群的質(zhì)心作為范例。每個(gè)范例通過(guò)p個(gè)元素的HDOD向量分類。范例的數(shù)目(q)通常小于等于樣本量(n)。參照各范例,可以計(jì)算每個(gè)對(duì)象的相似性度量,生成具有維度(n×q)的相似性度量的矩陣,通常情況下,pn≥q。本步驟可以有效地將高維稀疏矩陣HDOD(n×p)轉(zhuǎn)換成“稠密數(shù)據(jù)矩陣”(n×q)。在第二步驟中,使用懲罰似然方法來(lái)選擇出那些符合預(yù)測(cè)結(jié)果的范例。由于維數(shù)從p大幅減小到q,懲罰似然方法可以很好地選擇出包含信息的范例,大大減少了懲罰計(jì)算的步驟。本過(guò)程首先基于“無(wú)監(jiān)督學(xué)習(xí)”的范例,然后通過(guò)“有監(jiān)督學(xué)習(xí)”選擇與結(jié)果關(guān)聯(lián)的包含信息的范例。由于結(jié)果回歸范例特異性的相似性,這種方法被稱為“面向?qū)ο蟮幕貧w”,或簡(jiǎn)稱為OOR。

  隨著新一代測(cè)序技術(shù),一些生物技術(shù)學(xué)家/生物技術(shù)公司已經(jīng)將其創(chuàng)新研究轉(zhuǎn)向于生產(chǎn)人類基因組的完全分相二倍體,即,一對(duì)帶有多個(gè)單核苷酸多態(tài)性(SNPs)的分相單倍型。在功能基因內(nèi),多個(gè)分相SNP等位基因,連同所有單型核苷酸,代表可用于破譯官能轉(zhuǎn)錄物或蛋白序列的完全分相序列。實(shí)際上,目前這種雙等位基因多態(tài)性可以構(gòu)建成多等位基因多態(tài)性,能對(duì)遺傳分析提供更多的信息。最好的范例基因包括主要用于組織相容性復(fù)合體(MHC)的人類白細(xì)胞抗原(HLA)基因,位于染色體6上的6p22.1和6p21.3之間。例如,下面將要詳述的HLA*DRB1基因,由一對(duì)等位基因組成,各等位基因?qū)?yīng)一分相序列。根據(jù)最近的計(jì)數(shù)統(tǒng)計(jì)(,HLA*DRB1擁有超過(guò)1868個(gè)等位基因,編碼1364個(gè)蛋白質(zhì)。雖然對(duì)它們的功能已經(jīng)進(jìn)行了幾十年的研究,但其特殊的多態(tài)性對(duì)如I型糖尿病(T1D)等疾病的遺傳關(guān)聯(lián)性的研究,則是個(gè)新的課題。此外,因?yàn)榕c許多較不常見的等位基因關(guān)聯(lián)的樣本數(shù)量有限,以及多個(gè)等位基因測(cè)試的多重性的原因,阻礙了多態(tài)性從基礎(chǔ)研究到臨床應(yīng)用的轉(zhuǎn)化。

  為了克服上述問(wèn)題,需要一個(gè)新的分析框架。在大多數(shù)科學(xué)事業(yè),如遺傳學(xué)中,通常采用簡(jiǎn)化論方法進(jìn)行分析,即專注于與單一染色體、基因、等位基因或核苷酸的疾病的關(guān)聯(lián)性。但這種簡(jiǎn)化論方法在同時(shí)處理太多元素時(shí)受到挑戰(zhàn),不適于用于同時(shí)處理太多的元素。近年來(lái)組學(xué)研究中,越來(lái)越多的科學(xué)團(tuán)體開始關(guān)注多基因及其與表型聯(lián)合關(guān)聯(lián)的“系統(tǒng)生物學(xué)”,即“整體”的方法。從“整體”方法的角度看,當(dāng)兩個(gè)對(duì)象共享相同的疾病表型時(shí),可能是因?yàn)閮烧哂邢嗨频幕蚍植?所述基因分布是基于多基因的基因型進(jìn)行分類的),這促進(jìn)了上述面向?qū)ο蟮幕貧w(OOR)的應(yīng)用和發(fā)展。

  OOR的核心思想如下簡(jiǎn)述:基于一組選定的基因/SNP,構(gòu)造一組以多基因/SNP的基因型分布為特征的范例。通過(guò)比較個(gè)體的基因型和范例,有效地將基因型的域轉(zhuǎn)化為相似性值的域。通過(guò)這些相似性度量,OOR評(píng)估疾病表型是否與每個(gè)范例的相似性度量相關(guān)聯(lián)。如果發(fā)現(xiàn)范例的相似性與表型顯著關(guān)聯(lián),意味著該范例的基因型代表一種風(fēng)險(xiǎn)/保護(hù)基因型的類別。

  OOR實(shí)際上與一些統(tǒng)計(jì)文獻(xiàn)以及計(jì)算機(jī)科學(xué)中的機(jī)器學(xué)習(xí)文獻(xiàn)中的方法存在關(guān)聯(lián)。從根本上講,如果所有范例的基因型分布是由內(nèi)部衍生,并包括所有觀測(cè)到的基因型,可以認(rèn)為上述OOR是基于Kimeldorf和Wahba(1971)所描述的表現(xiàn)定理中的核表示進(jìn)行的改進(jìn)。基于同樣的類比,OOR與核邏輯回歸和支持向量機(jī)也存在密切聯(lián)系。聯(lián)系到計(jì)算機(jī)科學(xué)的文獻(xiàn),由于密切相關(guān)的“鄰居”傾向于擁有相同的表型,OOR與近鄰法擁有相同的動(dòng)機(jī)。在處理復(fù)雜、稀疏、高維的數(shù)據(jù)時(shí),通過(guò)“相似性度量”搜索數(shù)據(jù)庫(kù),對(duì)數(shù)據(jù)挖掘是至關(guān)重要的。近年來(lái),統(tǒng)計(jì)和數(shù)據(jù)挖掘的融合促進(jìn)了核機(jī)器學(xué)習(xí)技術(shù)在文本挖掘、蛋白質(zhì)序列分析以及全基因組關(guān)聯(lián)分析方面的應(yīng)用。

  盡管OOR與核機(jī)器方法緊密聯(lián)系,但仍有區(qū)別。首先,比核機(jī)器學(xué)習(xí)方法先進(jìn)的是,OOR的范例可以從外部獲得或從內(nèi)部數(shù)據(jù)衍生。其次,通過(guò)把所有計(jì)算得到的相似性度量作為協(xié)變量,OOR通過(guò)懲罰似然法使用“變量選擇算法”,如LASSO、脊回歸或彈性網(wǎng)絡(luò),來(lái)側(cè)重于不同于零的有意義的項(xiàng)。第三,以“整體觀”對(duì)待復(fù)雜的變量,OOR提供了一種天然量化工具來(lái)發(fā)現(xiàn)和驗(yàn)證復(fù)雜的變量之間的相互作用,所述復(fù)雜的變量之間的相互作用已成為在生物醫(yī)學(xué)研究和系統(tǒng)生物學(xué)的一個(gè)長(zhǎng)期的研究課題。最后,從OOR分析得到的預(yù)測(cè)模型很適合于將基于相似性的搜索應(yīng)用到大型數(shù)據(jù)庫(kù)。

  在下文中,本發(fā)明第一部分示出了OOR的統(tǒng)計(jì)學(xué)動(dòng)機(jī),勾畫出了OOR框架,確定了選擇范例的方法,并構(gòu)建出預(yù)測(cè)模型。此外,本發(fā)明還介紹了從協(xié)變量轉(zhuǎn)換到相似性度量,然后建立預(yù)測(cè)模型的部分流程。除了詳細(xì)介紹了對(duì)范例以及預(yù)測(cè)器的選擇,還介紹了如何評(píng)估選擇懲罰參數(shù)的穩(wěn)定性以及如何通過(guò)自助法評(píng)估所含信息范例的一致性。為了說(shuō)明OOR,應(yīng)用部分介紹了I型糖尿病的研究,并說(shuō)明了OOR在探索疾病與HLA基因的關(guān)聯(lián)以及構(gòu)建預(yù)測(cè)模型的應(yīng)用。結(jié)果部分介紹了應(yīng)用于HLA-DRB1基因以及八個(gè)HLA基因的所有結(jié)果。

  首先,通過(guò)公式將所有對(duì)象X的HDOD回歸到質(zhì)心的協(xié)變量;其中Xi表示第i個(gè)對(duì)象,是回歸系數(shù),表示對(duì)應(yīng)Xi的初始回歸系數(shù)表示對(duì)應(yīng)Xi、第k的回歸系數(shù),X[k]表示第k個(gè)對(duì)象,εi是對(duì)應(yīng)Xi的殘差向量;k表示t個(gè)質(zhì)心中的某個(gè)質(zhì)心;

  然后,針對(duì)每個(gè)Xi估算來(lái)自上述線性回歸的殘差平方的總和(SRSi),并且計(jì)算由這些信息代表的殘差變化的分?jǐn)?shù);當(dāng)?shù)趇個(gè)對(duì)象Xi滿足公式i=argmax(SRSi/SRS0),subject to(SRSi/SRS0)≥f時(shí),其加入到所述范例中;其中SRS0是不包含范例的SRS,f是一預(yù)先選擇的閾值。

  本發(fā)明方法的范例可以從外部獲得或從內(nèi)部數(shù)據(jù)衍生。其次,通過(guò)把所有計(jì)算的相似性度量作為協(xié)變量,本發(fā)明方法可通過(guò)懲罰似然法使用“變量選擇算法”,如LASSO、脊回歸或彈性網(wǎng)絡(luò),來(lái)側(cè)重于不同于零的有意義的項(xiàng)。第三,以“整體觀”對(duì)待復(fù)雜的變量,本發(fā)明方法提供了一種天然量化工具來(lái)發(fā)現(xiàn)和驗(yàn)證復(fù)雜的變量之間的相互作用,所述復(fù)雜的變量之間的相互作用已成為在生物醫(yī)學(xué)研究和系統(tǒng)生物學(xué)的一個(gè)長(zhǎng)期的挑戰(zhàn)。最后,根據(jù)本發(fā)明方法得到的預(yù)測(cè)模型很適合于通過(guò)基于相似性的搜索應(yīng)用到大型數(shù)據(jù)庫(kù)。

  圖1示出了面向目標(biāo)的回歸的流程圖,其中a)協(xié)變量矩陣的高維組學(xué)數(shù)據(jù)(HDOD),b)通過(guò)無(wú)監(jiān)督學(xué)習(xí)方法組織HDOD,c)通過(guò)雙向聚類分析聚類的HDOD,以進(jìn)行范例的確定,d)計(jì)算每個(gè)范例的相似性度量,將它們當(dāng)作協(xié)變量,e)相似性度量的稠密協(xié)變量矩陣,可用于構(gòu)建預(yù)測(cè)模型,f)在廣泛線性模型下,使用懲罰似然來(lái)選擇包含信息的范例,g)在訓(xùn)練集和驗(yàn)證集上進(jìn)行ROC分析,以檢查預(yù)測(cè)模型的有效性;

  圖15示出了訓(xùn)練集(頂部圖)和中驗(yàn)證集(底部圖)的II類HLA基因(HLA-DRB1,-DRB345,-DQA1,-DQB1,-DPA1和-DPB1的T1D預(yù)測(cè)模型的評(píng)價(jià),箱圖顯示了訓(xùn)練集和驗(yàn)證集的風(fēng)險(xiǎn)評(píng)分分布,ROC曲線示出了通過(guò)不同的懲罰參數(shù)下圖譜偏差函數(shù)的反復(fù)交叉驗(yàn)證估算(上部區(qū)域的圖)得到的估算懲罰參數(shù)的經(jīng)驗(yàn)分布;

  圖17示出了1000個(gè)自助樣本的平均系數(shù)估算的成對(duì)XY坐標(biāo)圖,其中X軸為一個(gè)懲罰值,Y軸為另一懲罰值(Y軸),懲罰參數(shù)對(duì)數(shù)值示于對(duì)角線示出了當(dāng)懲罰參數(shù)固定為15個(gè)對(duì)數(shù)獨(dú)特系數(shù)之一時(shí),通過(guò)LASSO選擇的范例的所有預(yù)測(cè)模型的ROC分析與選擇的范本由LASSO,計(jì)算在訓(xùn)練集(彩色曲線)以及在驗(yàn)證集(黑色虛線示出了懲罰參數(shù)固定為時(shí)1000個(gè)自助樣本的估算的LASSO估算系數(shù)的大小,顏色強(qiáng)度對(duì)應(yīng)系數(shù)的大小,綠色表示正值,而紅色表示負(fù)值。

  下面結(jié)合具體實(shí)施例進(jìn)一步描述本發(fā)明,以更清楚的闡述本發(fā)明的優(yōu)點(diǎn)和特點(diǎn)。下述實(shí)施例僅為具體的范例,并不對(duì)本發(fā)明的保護(hù)范圍構(gòu)成任何限制。本領(lǐng)域技術(shù)人員應(yīng)該理解的是,在不偏離本發(fā)明的精神和范圍下可以對(duì)本發(fā)明技術(shù)方案的細(xì)節(jié)和形式進(jìn)行修改或替換,均落入本發(fā)明的保護(hù)范圍內(nèi)。

  ,…,xip),基于HDOD的典型特征,其中協(xié)變量的數(shù)目通常比樣品量大很多。在每個(gè)第i個(gè)對(duì)象上還觀測(cè)到對(duì)應(yīng)的目標(biāo)Yi的結(jié)果變量,它可以是二元的、分類的、連續(xù)的或截尾的(即,部分被觀測(cè)到的)。所有觀測(cè)到的數(shù)據(jù)的似然可寫成其中上述求和函數(shù)中是對(duì)n個(gè)對(duì)象求和(即i=1到n),f(YiX

  )是條件均值,并且h(Xi,θ)是由未知參數(shù)θ索引的協(xié)變量函數(shù)。1.1.2、表現(xiàn)定理:Kimeldorf和Wahba(1971)已經(jīng)表明,當(dāng)協(xié)變量函數(shù)是未知的并且未被限定,且已知觀測(cè)的樣品為(X1,X2,…,X

  的相似性:當(dāng)觀測(cè)到X與Xk相同時(shí),所對(duì)應(yīng)的項(xiàng)是θkK(X,Xk)=θk;當(dāng)X與Xk完全不一樣,θkK(X,Xk)=0;當(dāng)X與Xk是相同或幾乎相同,對(duì)應(yīng)項(xiàng)可以合并為θkK(X,Xk)+θkK(X,Xk)≈(θk+θk)K(X,Xk)=αkK(X,Xk)。最后,可期望的是,如果第k個(gè)個(gè)體的協(xié)變量特性不與對(duì)應(yīng)的結(jié)果相關(guān)聯(lián),系數(shù)θk很可能等于零,這里的系數(shù)θk是用于量化結(jié)果與第k個(gè)個(gè)體的相似性度量K(X,Xk)的關(guān)聯(lián)。Zhu和Hastie使用上述觀測(cè)中的一些情況,通過(guò)對(duì)一些K(X,Xk)項(xiàng)的分組來(lái)描述一向量機(jī)的輸入方法。現(xiàn)今的理論基礎(chǔ)和相關(guān)研究提出了OOR方法,其可表示為其中sk(X

  ,Zk)是第i個(gè)對(duì)象Xi與第k個(gè)范例Zk的相似性度量,q是范例的數(shù)量(將在后文描述),并且(α,βk)是待被估算的未知回歸系數(shù)。當(dāng)回歸系數(shù)βk不等于零時(shí),意味著當(dāng)所述Xi的HDOD的特性與Zk相似時(shí),Xi通過(guò)上述OOR與結(jié)果關(guān)聯(lián)。OOR將結(jié)果回歸到對(duì)象X與范例的相似性,而不是作為協(xié)變量回歸到HDOD。正如預(yù)測(cè)的那樣,本例中的回歸系數(shù)是針對(duì)于與范例的相似性的,此類情況類似于計(jì)算機(jī)科學(xué)家經(jīng)常使用的數(shù)據(jù)查詢。正如預(yù)測(cè)的那樣,OOR是對(duì)范例特異性關(guān)聯(lián)的“整體解釋”,而不是對(duì)協(xié)變量特異性關(guān)聯(lián)的“整體解釋”。1.1.3、臨床直覺:OOR動(dòng)機(jī)來(lái)源于臨床醫(yī)生的直覺。臨床醫(yī)生通常收集來(lái)自醫(yī)療記錄、體檢以及診斷實(shí)驗(yàn)室測(cè)試的多方面的信息,這種信息即為一種HDOD數(shù)據(jù),然后基于這一信息加上他們掌握的過(guò)去的案例經(jīng)驗(yàn)進(jìn)行臨床判斷。一個(gè)有經(jīng)驗(yàn)的臨床醫(yī)生會(huì)將新患者與先前治療的患者或教科書或文獻(xiàn)中的典型案例作比較,并且通過(guò)樣本量為1來(lái)減少比較的次數(shù),作出合理的臨床判斷。可見,在本質(zhì)上,臨床醫(yī)生的過(guò)程也是OOR過(guò)程。1.2、OOR框架

  圖1提供了OOR過(guò)程的示意圖。作為輸入數(shù)據(jù)的HDOD是一個(gè)關(guān)于多個(gè)單一、連續(xù)的元素的大型協(xié)變量矩陣(圖1a)。作為對(duì)于任何有意義的聚類分析的常規(guī)要求,過(guò)濾掉那些是噪聲信息或不可能包含信息的協(xié)變量是很重要的。當(dāng)沒有結(jié)果數(shù)據(jù)時(shí),OOR首先通過(guò)無(wú)監(jiān)督聚類分析來(lái)對(duì)HDOD確定范例Z

  ,...,Zq)的陣列。基于選定的相似性度量K(Xi,Zk)(見如下討論),可以計(jì)算每個(gè)第i個(gè)對(duì)象Xi與每個(gè)第k個(gè)范例Zk的相似性度量(圖1d)。通過(guò)把相似的度量作為協(xié)變量,可得到稠密協(xié)變量矩陣(圖1e)。在廣義線性模型下通過(guò)適當(dāng)?shù)剡x擇關(guān)聯(lián)函數(shù),可以再選擇包含信息的范例,來(lái)形成預(yù)測(cè)模型(圖1f)。在下文中,通過(guò)訓(xùn)練集的ROC分析,對(duì)OOR預(yù)測(cè)模型的敏感度和特異性進(jìn)行初步估算,然后對(duì)驗(yàn)證集進(jìn)行ROC分析。下面的章節(jié)集中描述了OOR框架的重要組成部分。1.3、無(wú)監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)方法不參照結(jié)果數(shù)據(jù),其目的在于探索跨基因和跨對(duì)象的HDOD協(xié)變量的相關(guān)結(jié)構(gòu)。單純從統(tǒng)計(jì)框架來(lái)說(shuō),無(wú)監(jiān)督學(xué)習(xí)方法可以不參照結(jié)果數(shù)據(jù),利用對(duì)數(shù)似然函數(shù)的第二部分,基于HDOD的相關(guān)結(jié)構(gòu)來(lái)構(gòu)建HDOD。以往,聚類分析通過(guò)相關(guān)性組織基因和/或樣品,得到的樣品集群可以實(shí)現(xiàn)識(shí)別目標(biāo)的質(zhì)心。因?yàn)榫垲惙治觯剩|(zhì)心與該集群內(nèi)的樣本有相對(duì)高的相關(guān)性(或相似性),并作為示例來(lái)表示多個(gè)樣本。當(dāng)處理HDOD時(shí),通常會(huì)出現(xiàn)很多遠(yuǎn)離集群的含有相對(duì)獨(dú)特的HDOD特性的對(duì)象,此類“獨(dú)特的對(duì)象”可定義為不易由質(zhì)心或它們的組合來(lái)表示其HDOD特性的對(duì)象。這種獨(dú)特的對(duì)象被作為范例時(shí),可用下面的回歸方法來(lái)確定這些對(duì)象。假設(shè)預(yù)先已確定了一組起始的t個(gè)質(zhì)心作為范例,表示為[1],[2],...,and[t],首先,通過(guò)下式將所有對(duì)象的HDOD回歸到質(zhì)心的協(xié)變量,而不是回歸到那些由HDOD代表的集群:

  /SRS0)≥f, [5]其中SRS0是不包含范例的SRS,f是一個(gè)預(yù)先選擇的閾值(例如,0.5)。需注意的是,由于該分析未參照結(jié)果選擇范例,故并不影響任何下游的監(jiān)督學(xué)習(xí)(參見下文)。并且,除了從內(nèi)部推導(dǎo)范例,還可以包括來(lái)自外部資源的范例。1.4、監(jiān)督學(xué)習(xí)

  在確定范例之后的下一個(gè)步驟是,估算這些范例的相似性是否與目標(biāo)結(jié)果以任何方式相關(guān)聯(lián)。這樣的關(guān)聯(lián)分析即稱為監(jiān)督學(xué)習(xí)(監(jiān)督學(xué)習(xí)的來(lái)由:計(jì)算機(jī)科學(xué)家創(chuàng)造該詞是出于對(duì)大眾的吸引力)。根據(jù)不同的結(jié)果函數(shù),如二元函數(shù)、分類函數(shù)、連續(xù)函數(shù)或斷尾函數(shù),監(jiān)督學(xué)習(xí)可以使用廣義線性模型(GLM)來(lái)估算與范例相似性結(jié)果的關(guān)聯(lián)。在選擇變量時(shí),我們建議使用懲罰似然方法控制過(guò)擬合問(wèn)題,特別是使用最不絕對(duì)收縮和某選擇算法(例如,LASSO)來(lái)選擇包含信息的范例。下面對(duì)單一結(jié)果(Y

  是用于確保上述函數(shù)整合到相同單位的歸一化常數(shù)。上述功能可以通過(guò)下面邊際均值來(lái)充分限定通過(guò)上述回歸方程,便限定了與相似性度量關(guān)聯(lián)的邊際均值。一旦嵌入GLM,可以援引似然理論的整體含義來(lái)支持參數(shù)的估算和推斷。當(dāng)應(yīng)用GLM來(lái)選擇包含信息的范例時(shí),可預(yù)測(cè)的是,許多范例可能不與結(jié)果相關(guān)聯(lián)。可以使用LASSO來(lái)選擇那些包含信息的范例,LASSO可以理解為是懲罰似然估算的一種版本,并在OOR模型中采用估算回歸系數(shù)使得以下懲罰似然函數(shù)最大化:

  其中,對(duì)所有隨機(jī)樣本通過(guò)常規(guī)對(duì)數(shù)似然函數(shù)進(jìn)行第一求和,對(duì)q個(gè)回歸系數(shù)的所有絕對(duì)值進(jìn)行第二求和,λ用于確定那些非零回歸系數(shù)的懲罰幅度的調(diào)諧參數(shù),且,估算調(diào)諧參數(shù)λ可得到基于交叉驗(yàn)證的最小預(yù)測(cè)誤差。其中,f表示密度函數(shù),Yi是對(duì)應(yīng)第i個(gè)范例的要回歸的結(jié)果,Si是對(duì)應(yīng)第i個(gè)范例的相似性度量值,á是截距,是回歸系數(shù),n是當(dāng)前范例對(duì)應(yīng)的樣本的個(gè)數(shù),q是所述范例的個(gè)數(shù),λ是調(diào)諧參數(shù)。

  對(duì)于OOR,選擇合適的度量以及對(duì)象和范例之間相似性的程度來(lái)測(cè)量相似性是至關(guān)重要的,因?yàn)樗鼪Q定了如何計(jì)算相似性、如何確定集群、如何確定范例。通常,所述度量的選擇取決于HDOD的特性和對(duì)于結(jié)果的解釋。本例中,下面介紹了幾種常見的相似性度量。按照慣例,該相似性度量是距離的倒數(shù),即1和0的相似性分別等于零距離和無(wú)窮大距離。

  , [8]其中,·代表平方差的和的平方根。由平均值和標(biāo)準(zhǔn)差對(duì)協(xié)變量歸一化處理時(shí),歐幾里得距離具有相關(guān)系數(shù)的單調(diào)關(guān)系,該單調(diào)關(guān)系通常用來(lái)測(cè)量相似性。最近,F(xiàn)rey和Dueck使用了負(fù)歐幾里得距離的平方,即-Xi-Xi

  其中表示求兩個(gè)向量的內(nèi)積。如果將各個(gè)協(xié)變量視為“采樣值”,本式相似性度量值與兩個(gè)向量之間的相關(guān)系數(shù)相同。除了上述常用距離或相似性的度量,還有其它的域特異性的度量。在遺傳學(xué)的背景下,遺傳學(xué)家曾用“血緣同源”,“狀態(tài)同源”或親緣關(guān)系系數(shù)作為遺傳相似性的度量。當(dāng)處理文字時(shí),也存在很多用于語(yǔ)義相似性的度量。可靈活選擇最適用于給定的OOR中應(yīng)用的相似性度量。

  CSR的常規(guī)設(shè)計(jì)中,可以對(duì)結(jié)果與一個(gè)或多個(gè)協(xié)變量的關(guān)聯(lián)進(jìn)行估算。CSR的理想特征是,在對(duì)回歸中的其它協(xié)變量進(jìn)行控制后,可以將協(xié)變量特異性的關(guān)聯(lián)分離出來(lái)。基于此及其他原因,過(guò)去幾十年中CSR一直是大部分統(tǒng)計(jì)應(yīng)用的“主力”。然而,在“大數(shù)據(jù)”時(shí)代,CSR的應(yīng)用遇到了一些挑戰(zhàn),首先,在處理HDOD時(shí),由于pn,不能使用CSR的一個(gè)典型的應(yīng)用來(lái)同時(shí)分析所有的協(xié)變量。第二,CSR假設(shè)的前提條件為,協(xié)變量對(duì)回歸模型具有影響。當(dāng)包括多個(gè)相關(guān)協(xié)變量時(shí),該假設(shè)可以使CSR的外推結(jié)果與很少或甚至沒有被觀測(cè)到的協(xié)變量進(jìn)行關(guān)聯(lián)。當(dāng)上述假設(shè)成立時(shí),則可發(fā)揮CSR的作用,否則,CSR的外推可能會(huì)被誤導(dǎo)。第三,CSR適用于分析數(shù)值的HDOD協(xié)變量,而其在非結(jié)構(gòu)化數(shù)據(jù),如基因組序列的應(yīng)用方面受到限制。

  而提出OOR的主要目的就是克服上述限制。OOR將協(xié)變量矩陣(n×p)轉(zhuǎn)換為相似性打分矩陣(n×q),其中q比樣品量n要小得多(圖1)。這種轉(zhuǎn)換使得OOR能夠處理HDOD。可見,OOR解決了不同于CSR的關(guān)聯(lián)問(wèn)題,其主要目的不是為了確定哪些協(xié)變量與結(jié)果明顯關(guān)聯(lián),而是確定出哪個(gè)患者群體很可能與結(jié)果相關(guān)聯(lián)。通過(guò)使用相似性度量,OOR適用于將結(jié)果與任何維度的HDOD進(jìn)行關(guān)聯(lián)。相對(duì)于多元“外推”的問(wèn)題,OOR旨在估算涵蓋范例的范圍內(nèi)的參數(shù),自然緩解了外推的問(wèn)題。

  與其他癌癥相比,男性和女性由肺癌引起的死亡率均最高,占所有癌癥死亡率的28%左右。由于被診斷時(shí)大都已經(jīng)為晚期,因此肺癌預(yù)后很差。肺癌早期的預(yù)后會(huì)好些,五年存活率約為60%。即使在I期患者中,一些患者的存活期也都相對(duì)較短。預(yù)測(cè)I期患者的預(yù)后存活率成為了研究熱點(diǎn),以便于腫瘤學(xué)家為較低存活率的患者可以設(shè)計(jì)更積極的治療計(jì)劃來(lái)改善預(yù)后。

  為了解決這個(gè)問(wèn)題,從Xena(下載了臨床表型數(shù)據(jù)和RNA-seq數(shù)據(jù)。截止2015年6月10日,該網(wǎng)站發(fā)布的數(shù)據(jù)總共包括1299個(gè)樣本。在對(duì)臨床表型數(shù)據(jù)和RNA-seq數(shù)據(jù)關(guān)聯(lián),并進(jìn)行基本的質(zhì)量控制后,對(duì)1124個(gè)肺癌病例(571個(gè)腺癌病例和553例鱗狀細(xì)胞癌病例)進(jìn)行了研究,在此說(shuō)明的是,上述的臨床表型數(shù)據(jù)和基因表達(dá)數(shù)據(jù)都是完整的。將全部數(shù)據(jù)隨機(jī)分配到訓(xùn)練集和驗(yàn)證集,以用于下游的分析。圖2示出的訓(xùn)練集和驗(yàn)證集的所有患者的診斷年齡分布,表明了兩組患者具有類似的年齡分布。對(duì)于性別、腫瘤類型和分期進(jìn)一步的研究發(fā)現(xiàn),訓(xùn)練集和驗(yàn)證集的頻率在很大程度上是類似的(見表1)。關(guān)于存活率,與四個(gè)協(xié)變量相關(guān)聯(lián)的估算Kaplan-Meier曲線在訓(xùn)練集和驗(yàn)證集間也是類似的(見圖3)。

  在當(dāng)前組合的數(shù)據(jù)集中,包括了腺癌和鱗狀細(xì)胞癌的患者,從數(shù)據(jù)來(lái)看,存活率并不與年齡(P值=0.143)、或者與性別(P值=0.605)、或與腫瘤類型(P值=0.444)顯著關(guān)聯(lián),存活率而與腫瘤分期(P值0.001)顯著關(guān)聯(lián)。首要目標(biāo)是構(gòu)建一個(gè)預(yù)測(cè)模型,用于預(yù)測(cè)I期患者的預(yù)后存活率。在訓(xùn)練集中,有296個(gè)I期患者。為了保持用于構(gòu)建預(yù)測(cè)模型的樣本量,并不會(huì)按腫瘤類型、性別或年齡將腫瘤樣本進(jìn)行分類,因?yàn)檫@些并不與存活率顯著關(guān)聯(lián)。

  2.4、基因篩選在進(jìn)行OOR分析之前,先從訓(xùn)練集的20531個(gè)基因列表中篩選出基因。為了保持這種經(jīng)驗(yàn)的特性,將“分期”作為一個(gè)關(guān)鍵變量進(jìn)行分析,這是因?yàn)榉制谂c存活率具有明顯的關(guān)聯(lián),從I期到III期的變化示出了從早期癌癥到晚期癌癥的進(jìn)展情況。正如預(yù)測(cè)的那樣,許多基因在癌癥進(jìn)展中被上調(diào)或下調(diào)。據(jù)推測(cè),甚至在早期的癌癥,癌癥也會(huì)出現(xiàn)進(jìn)展,但它們的形態(tài)特征尚不能被觀測(cè)到。通過(guò)將基因表達(dá)水平與期(I期vs其它更高的期)相關(guān)聯(lián),計(jì)算每個(gè)基因的Z分?jǐn)?shù)和相關(guān)聯(lián)的p值(圖4)。使用p值=0.05的閾值(選此閾值,是考慮到達(dá)到傳統(tǒng)顯著水平的所有單個(gè)基因),可選擇出831個(gè)基因。在去除一些高度關(guān)聯(lián)的基因后,最終可得到789個(gè)基因的列表,并作為OOR分析的輸入數(shù)據(jù)。

  在于確定范例,故,用樣品(行)的等級(jí)聚類來(lái)表示存在的多個(gè)組,其中對(duì)7大聚類進(jìn)行了突出顯示,由六條黃色線區(qū)分。由于視覺圖譜具有較強(qiáng)的定性化的印象,可直觀的顯示出多組對(duì)象具有的不同的基因表達(dá)特性。雖然將數(shù)據(jù)圖像化有其優(yōu)點(diǎn),但對(duì)于使用合成數(shù)據(jù)來(lái)生成可重復(fù)的結(jié)果,也存在著挑戰(zhàn)。首先,視覺圖譜的感知因人而異。第二,呈現(xiàn)的視覺圖譜取決于所選擇的可視化參數(shù),如所選顏色、所選顏色深淺等。第三,在視覺上幾乎無(wú)法區(qū)別出系統(tǒng)圖譜和隨機(jī)圖譜。實(shí)際上,已經(jīng)隨機(jī)選擇了1000個(gè)基因進(jìn)行聚類分析(未示出),并進(jìn)行了“模擬實(shí)驗(yàn)”。在這些實(shí)驗(yàn)中,可以偶爾看到一些由雙向聚類所產(chǎn)生的圖譜。總的來(lái)說(shuō),該圖譜與通常得到的圖譜(圖5)區(qū)別不太大。2.6、路徑分析除了采用圖譜所提供的視覺印象,還可以想到的是,選擇的基因包括生物學(xué)上有用的元素,該基因的選擇是基于I期的關(guān)鍵指示器所選擇的。當(dāng)然,由于p值0.05是隨機(jī)選擇的,某些基因估計(jì)是純粹被隨機(jī)選中的。如果要分析被選中的這789個(gè)基因的生物學(xué)意義,可以采用一種關(guān)于路徑分析的網(wǎng)絡(luò)工具TargetMine,(進(jìn)行路徑分析,所分析出的10個(gè)路徑包括對(duì)應(yīng)于基因富集p值小于5%的基因(補(bǔ)充表S1)。表2的第一塊區(qū)域列出了這些路徑,包括細(xì)胞周期、有絲分裂的細(xì)胞周期、M期和減數(shù)分裂重組,所有這些都與癌細(xì)胞從I期到更高期的加速細(xì)胞生長(zhǎng)相一致。更需注意是,除了輸卵管上皮細(xì)胞,所有相關(guān)的組織似乎與氣道的上皮細(xì)胞相關(guān)聯(lián)(表2)。如下補(bǔ)充表示出了各種組織的基因列表(表S1)。表S1各種路徑和組織的基因列表

  如上確定范例的步驟完成后,可得到代表觀測(cè)到的集群或單體的273個(gè)范例。考慮到大多數(shù)范例都不太可能與預(yù)后存活率關(guān)聯(lián),因此進(jìn)行邊際關(guān)聯(lián)處理,僅保留那些有邊際關(guān)聯(lián)的范例。通過(guò)關(guān)聯(lián)p值為0.05選出22個(gè)范例(該22個(gè)范例將被LASSO進(jìn)一步進(jìn)行選擇)。表4列出了邊際關(guān)聯(lián)分析的估算系數(shù)、風(fēng)險(xiǎn)比、標(biāo)準(zhǔn)誤差和p值。

  由所選的22個(gè)范例,計(jì)算每個(gè)對(duì)象與每個(gè)范例的相似矩陣,生成“稠密協(xié)變量矩陣”,可參見圖1e所示。圖6示出了具有296行×22列的相似性矩陣。灰色、黃色和紅色分別對(duì)應(yīng)于對(duì)象與范例的弱、中等和強(qiáng)烈的相似性。通過(guò)聚類分析將296個(gè)對(duì)象和22個(gè)范例構(gòu)建為不同的子集。將22個(gè)范例分成三組,其中“列”中的彩條代表每個(gè)范例的邊際關(guān)聯(lián):紅色為保護(hù)關(guān)聯(lián),綠色為風(fēng)險(xiǎn)關(guān)聯(lián)。為了進(jìn)一步深入了解預(yù)后存活率,此處創(chuàng)建了一個(gè)為期一年的存活率指標(biāo),該指標(biāo)需要取存活的值(0和綠色)、死亡值(1和紅色)和斷尾值(丟失和黑色),并將彩條放入“行”中。為了方便觀測(cè),圖中突出顯示了兩個(gè)高風(fēng)險(xiǎn)區(qū),所述高風(fēng)險(xiǎn)區(qū)包括與擁有風(fēng)險(xiǎn)表達(dá)特性的范例高度相似的多個(gè)對(duì)象。與此同時(shí),圖中還突出顯示了具有更好的一年存活率的對(duì)象。

  根據(jù)所選范例,先通過(guò)LASSO從“稠密協(xié)變量矩陣”選擇包含信息的范例。結(jié)果示于表3的最后一列,其中的11個(gè)范例被選為用于預(yù)后結(jié)果的包含信息的范例(圖7所示)。表中已列出估算的回歸系數(shù),而未選擇的范例其系數(shù)則設(shè)置為零。可觀測(cè)到的是,在第8列中的估算的回歸系數(shù)往往比其對(duì)應(yīng)的第三列的來(lái)自邊際回歸分析的系數(shù)小,這可能反映了LASSO將邊際關(guān)聯(lián)分配給了與多個(gè)范例的關(guān)聯(lián),而懲罰一些例如第一范例那樣的不穩(wěn)定的范例(表示為例1)。

  其中,是第k個(gè)包含信息的范例的估算系數(shù)。估算的目的在于,通過(guò)固定的范例和系數(shù)計(jì)算當(dāng)前數(shù)據(jù)中的每個(gè)對(duì)象的風(fēng)險(xiǎn)評(píng)分。這種風(fēng)險(xiǎn)評(píng)分的含義是:與“基準(zhǔn)個(gè)體”比較時(shí)對(duì)象的相對(duì)風(fēng)險(xiǎn),所述“基準(zhǔn)個(gè)體”與任何選定范例沒有相似性。為了估算所計(jì)算的風(fēng)險(xiǎn)評(píng)分與存活結(jié)果之間的關(guān)聯(lián),對(duì)風(fēng)險(xiǎn)評(píng)分進(jìn)行存活結(jié)果的Cox回歸運(yùn)算。表4的第一行顯示了估算的系數(shù)、風(fēng)險(xiǎn)比、標(biāo)準(zhǔn)差、Z分?jǐn)?shù)和p值。正如預(yù)測(cè)的那樣,p值通過(guò)訓(xùn)練處理而增大。更重要的是在進(jìn)行驗(yàn)證集的估算統(tǒng)計(jì)中,當(dāng)p值=0.015時(shí)與風(fēng)險(xiǎn)評(píng)分的關(guān)聯(lián)比較明顯,這恰好支持了驗(yàn)證,而外部驗(yàn)證對(duì)明確驗(yàn)證預(yù)測(cè)模型是很重要的。.

  當(dāng)應(yīng)用OOR時(shí),LASSO要求必須估算懲罰參數(shù)(λ),這個(gè)參數(shù)的選擇對(duì)變量的選擇產(chǎn)生深遠(yuǎn)的影響。在真實(shí)值未知的情況下,常見的方法是使用交叉驗(yàn)證法來(lái)估算這個(gè)懲罰。不幸的是,交叉驗(yàn)證產(chǎn)生隨機(jī)估算懲罰參數(shù)所帶來(lái)的問(wèn)題是“估算懲罰參數(shù)有多穩(wěn)定?”。出于這個(gè)目的,重復(fù)進(jìn)行了1000次蒙特卡羅模擬實(shí)驗(yàn),在每次實(shí)驗(yàn)時(shí),使用Rglmnet包的cv.glmnet函數(shù)(通過(guò)10倍交叉驗(yàn)證來(lái)估算懲罰參數(shù)。圖8示出了用對(duì)數(shù)比例來(lái)表示的估算懲罰參數(shù)值的經(jīng)驗(yàn)分布情況。可見,共有20個(gè)不同的懲罰值,范圍從0.016到0.091。懲罰值越小,表示越多范例被選中。在當(dāng)前的應(yīng)用中,0.091的懲罰值對(duì)應(yīng)沒有選定范例的空模型,可參見圖7的懲罰值(λ=0

  考慮到懲罰參數(shù)值的范圍,預(yù)計(jì)所選定范例是可變的。為了估算選定范例的穩(wěn)定性,重復(fù)進(jìn)行了1000次的自助分析。對(duì)每一個(gè)自助樣本,對(duì)其觀測(cè)到的基因表達(dá)值和對(duì)應(yīng)的存活結(jié)果隨機(jī)采樣,然后放回該樣本,以確保與訓(xùn)練集的分析數(shù)據(jù)集具有相同的樣本量。基于20個(gè)固定的懲罰值,通過(guò)LASSO從同一個(gè)分析數(shù)據(jù)集中選擇范例。表5列出了計(jì)算的Kappa值,Kappa值用來(lái)表示估算的選定范例與不同懲罰參數(shù)值的一致性,其中Kappa值的范圍從0(無(wú)一致性)到1(完全一致)。對(duì)應(yīng)于上述1000次的自助分析,表5中上三角形的參數(shù)為Kappa平均值,表5中下三角形的參數(shù)為估算的平均Kappa值的標(biāo)準(zhǔn)差。可見,相鄰懲罰值的一致性接近1,該一致性隨著相應(yīng)的懲罰值的發(fā)散而減小。為了保證定量水平的一致性,根據(jù)上述1000次的重復(fù)分析結(jié)果,計(jì)算與所有22個(gè)范例相關(guān)聯(lián)的系數(shù)的平均估算值。然后,以成對(duì)的XY圖(圖9)進(jìn)行顯示。同樣可見,一致性在定性和定量估算之間基本一致。其中,右上角的XY圖,除了有兩個(gè)極端的懲罰值,大多數(shù)范例的平均系數(shù)保持一致。表5:通過(guò)LASSO選擇的范例之間的Kappa平均值,其中右上方的三角區(qū)內(nèi)為不同的懲罰值,下面的三角區(qū)為1000個(gè)自助樣本的標(biāo)準(zhǔn)偏差。

  如上所述,也可以使用CSR方法,并結(jié)合LASSO構(gòu)建預(yù)測(cè)模型。為了進(jìn)行比較,選擇同一組的所篩選出的789個(gè)基因,對(duì)存活結(jié)果使用Cox回歸模型、并應(yīng)用LASSO選擇預(yù)測(cè)器,可計(jì)算得到6個(gè)預(yù)測(cè)器。然后,對(duì)訓(xùn)練集和驗(yàn)證集的每一個(gè)對(duì)象進(jìn)行預(yù)測(cè)值的計(jì)算,該預(yù)測(cè)值類似OOR的風(fēng)險(xiǎn)評(píng)分。將這些預(yù)測(cè)值與從OOR獲得的預(yù)測(cè)值繪制成如圖10所示。其中,來(lái)自CSR和OOR的兩組預(yù)測(cè)值在訓(xùn)練集和驗(yàn)證集中均彼此相關(guān)聯(lián)(r

  對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō),無(wú)論他們的學(xué)術(shù)根基在生物醫(yī)學(xué)信息學(xué)、計(jì)算機(jī)科學(xué)或生物統(tǒng)計(jì)學(xué),在轉(zhuǎn)化生物醫(yī)學(xué)研究中越來(lái)越多地使用組學(xué)技術(shù)是一個(gè)前所未有的挑戰(zhàn)。來(lái)自轉(zhuǎn)化研究的HDOD都有一個(gè)共同的特征,即樣本量相對(duì)較小,但協(xié)變量維度卻非常高。為了應(yīng)對(duì)這一挑戰(zhàn),引入了面向?qū)ο蟮幕貧w(OOR)方法,其類似無(wú)監(jiān)督學(xué)習(xí)方法和監(jiān)督學(xué)習(xí)方法的結(jié)合。OOR關(guān)鍵點(diǎn)在于對(duì)范例的確定,該范例可理解為:由他們的HODO特性代表的多個(gè)集群對(duì)象,或者具有相對(duì)獨(dú)特的HODO特性的對(duì)象。參考這些范例,OOR估算每一個(gè)對(duì)象與范例的相似性,并側(cè)重于確定出包含信息的范例(即與感興趣的結(jié)果相關(guān)聯(lián)的范例)的特異性的相似性。除了探索范例與結(jié)果的邊際關(guān)聯(lián),OOR也可用于選擇包含信息的范例,并形成預(yù)測(cè)模型。相比傳統(tǒng)的協(xié)變量特異性預(yù)測(cè)模型,范例特異性預(yù)測(cè)模型看起來(lái)具有更大范圍的預(yù)測(cè)值(圖10)。為了說(shuō)明OOR,將其以及從TCGA獲得的基因表達(dá)數(shù)據(jù)一起應(yīng)用于肺癌研究,建立一預(yù)測(cè)模型,該模型用于分類已被診斷為I期肺癌但具有明顯不同存活時(shí)間的患者(無(wú)論是腺癌或鱗狀細(xì)胞癌)。首先確定來(lái)自訓(xùn)練集的11個(gè)范例,并生成作為相似性測(cè)量的加權(quán)的和的風(fēng)險(xiǎn)評(píng)分,該風(fēng)險(xiǎn)評(píng)分可顯著地預(yù)測(cè)驗(yàn)證集的存活率(p值=0.0145)。根據(jù)假設(shè)的預(yù)測(cè)模型,對(duì)驗(yàn)證集的所有對(duì)象的預(yù)測(cè)風(fēng)險(xiǎn)評(píng)分進(jìn)行計(jì)算,其分布可參見圖11左側(cè)區(qū)域所示。在右側(cè)區(qū)域中示出的與風(fēng)險(xiǎn)評(píng)分1、2、3、4相關(guān)聯(lián)的估算的存活曲線表明,隨著風(fēng)險(xiǎn)評(píng)分的增大,存活率逐步惡化。OOR雖有很多優(yōu)點(diǎn),也有一潛在的弱點(diǎn):用于衡量相似性的度量的選擇是有點(diǎn)武斷的。在關(guān)于聚類分析或無(wú)監(jiān)督學(xué)習(xí)的文獻(xiàn)中,使用了多種相似性度量,不同的相似性度量根據(jù)不同的應(yīng)用環(huán)境各有優(yōu)缺點(diǎn)。從這個(gè)角度看,OOR提供的相似性度量的選擇具有一定的靈活度,適合于上述的應(yīng)用。

  OOR在概念上與其他分析方法相關(guān)聯(lián),k近鄰方法(KNN)即為相關(guān)聯(lián)的一種方法,KNN被廣泛用于計(jì)算機(jī)科學(xué)文獻(xiàn)的數(shù)據(jù)挖掘,其核心思想是,由某些特性定義的相對(duì)“親密鄰居”的對(duì)象往往有類似的結(jié)果。所述k近鄰方法可以不用于做任何建模假設(shè),而用于構(gòu)建預(yù)測(cè)模型,因此也被稱為非參數(shù)預(yù)測(cè)模型。但是,k近鄰方法并沒有考慮到的一個(gè)事實(shí)是:許多鄰居具有同等的結(jié)果關(guān)聯(lián)(無(wú)論是無(wú)效假設(shè)或備擇假設(shè))。在這方面,OOR可以被認(rèn)為是k近鄰方法的延伸或回歸函數(shù)最近鄰的估算。

  另一種密切相關(guān)的方法是成員等級(jí)分析法,簡(jiǎn)稱為GoM。從概念上講,GoM通過(guò)引入一組潛在成員變量,假設(shè)該潛在成員變量的分布是合理的,GoM對(duì)結(jié)果的聯(lián)合分布以及協(xié)變量建模,在整合了所有GoM潛在成員變量后可計(jì)算似然。GoM參數(shù)可以理解為是與個(gè)體相關(guān)聯(lián)的屬性,而不是單一協(xié)變量的特定邊際。盡管GoM和OOR提取關(guān)于個(gè)體或?qū)ο蟮膶傩孕畔ⅲ瑩碛邢嗤母拍钅繕?biāo),但是OOR側(cè)重于觀測(cè)到的結(jié)果和協(xié)變量的經(jīng)驗(yàn)觀測(cè),而無(wú)需調(diào)用任何潛在隨機(jī)變量。

  OOR使用的相似性度量的概念也與統(tǒng)計(jì)遺傳學(xué)中開發(fā)并使用的多種方法相關(guān)。雖然本文并不意圖追蹤這些聯(lián)系,但需注意,經(jīng)典和現(xiàn)代遺傳學(xué)旨在發(fā)現(xiàn)結(jié)果相關(guān)聯(lián)的易感基因,往往會(huì)導(dǎo)致相關(guān)個(gè)體中的相似性,所述相關(guān)個(gè)體中的相似性比無(wú)關(guān)個(gè)體具有更多遺傳變異體。在遺傳學(xué)的早期,隔離和聯(lián)系方法用于描述和發(fā)現(xiàn)家族聚集性基因。在現(xiàn)代遺傳學(xué),一些研究小組提出,通過(guò)評(píng)估遺傳標(biāo)記的相似性并使用相似性回歸來(lái)發(fā)現(xiàn)疾病基因。雖然有著相似的科學(xué)目標(biāo),但OOR使用相似性評(píng)分來(lái)發(fā)現(xiàn)哪些范例有更高的疾病風(fēng)險(xiǎn),而不是發(fā)現(xiàn)哪些SNP(單核苷酸多態(tài)性)與疾病相關(guān)聯(lián)。

  OOR與最近流行的被稱為序列核關(guān)聯(lián)測(cè)試(SKAT)方法,也存在著內(nèi)在的聯(lián)系,這是因?yàn)镺OR和SKAT都采用表現(xiàn)定理作為理論基礎(chǔ)。在很大程度上,SKAT使用表現(xiàn)定理來(lái)表示所有SNP的組合和它們的作用,作出關(guān)于所有回歸系數(shù)的合理多變量假設(shè),并根據(jù)無(wú)效假設(shè)測(cè)試他們的偏離。最近,Pan(2011)表明,SKAT測(cè)試本質(zhì)上等同于上述OOR提到的相似性回歸。而OOR比SKAT更進(jìn)一步,其將結(jié)果回歸到相似性評(píng)分,而不是假設(shè)它們?yōu)殡S機(jī)變量。

  上述已經(jīng)介紹了用于分析HDOD的新的分析框架。介紹了上述技術(shù)推導(dǎo),以及與現(xiàn)有方法的各種關(guān)聯(lián),OOR給我們介紹了探索HDOD的“整體關(guān)系”與臨床結(jié)果的分析框架。協(xié)變量特異性研究已經(jīng)應(yīng)用于“簡(jiǎn)化論觀點(diǎn)”幾十年,上述方法是對(duì)協(xié)變量特異性研究的補(bǔ)充。在大數(shù)據(jù)和系統(tǒng)生物學(xué)的時(shí)代背景下,該整體的框架不僅會(huì)促進(jìn)HDOD的系統(tǒng)研究,也會(huì)生成組學(xué)數(shù)據(jù)的“可重復(fù)結(jié)果”。

  對(duì)從高維多態(tài)性基因研究產(chǎn)生的協(xié)變量數(shù)據(jù)進(jìn)行分析。具體而言,包括將T1D和八個(gè)II類HLA基因(HLA*DRB1,*DRB3,*DRB4,*DRB5,*DQA1,*DQB1,*DPA1,*DPB1)(手稿:Zhao et al 2015,待提交)的病例進(jìn)行對(duì)照研究。由于它們結(jié)構(gòu)的多態(tài)性,在任何單條染色體中只會(huì)出現(xiàn)HLA*DRB3,*DRB4和*DRB5等位基因其中的一個(gè),因此,以下用HLA*DRB345表示所有這三個(gè)基因的基因型。其中,每個(gè)基因包含兩個(gè)等位基因,各等位基因代表一個(gè)完全分相核苷酸序列。當(dāng)?shù)趈個(gè)基因具有mj個(gè)可能的序列變異時(shí),如果一對(duì)等位基因處于哈迪—溫伯格平衡(HWE,即統(tǒng)計(jì)上獨(dú)立),該對(duì)等位基因的基因型可以具有m

  +1)/2個(gè)可能的基因型多態(tài)性之一。在多個(gè)基因位點(diǎn)的基因型陣列被稱為基因型分布。如果這些基因處于連鎖平衡(LE,即統(tǒng)計(jì)上獨(dú)立)時(shí),基因型分布的總數(shù)在理論上是其交叉乘積它可以輕易地超過(guò)大多數(shù)基于人群研究的典型樣本量。然而在實(shí)踐中,由于以下生物特性,所觀測(cè)的基因型分布的數(shù)目比理論總數(shù)小得多:1)HLA基因多態(tài)性由自然界在種群內(nèi)高度選擇,2)基因位點(diǎn)內(nèi)配對(duì)的HLA基因的等位基因傾向于偏離HWE,3)因?yàn)槲锢斫徍突?基因相互作用,多個(gè)HLA基因的基因型分布傾向于偏離LE,4)盡管包括“重組熱點(diǎn)”,MHC區(qū)域比基因組的剩余部分具有相對(duì)較低的重組率。這種遺傳現(xiàn)狀也導(dǎo)致了許多基因型分布比較神秘,這對(duì)HLA關(guān)聯(lián)分析提出了挑戰(zhàn)。典型關(guān)聯(lián)分析可理解為對(duì)一疾病與一種基因檢查其關(guān)聯(lián),或當(dāng)對(duì)另一基因的基因型分層后調(diào)查其基因關(guān)聯(lián),或?qū)蓚€(gè)或更多個(gè)基因進(jìn)行單倍型分析。雖然這些“簡(jiǎn)化論方法”已經(jīng)可以為基本疾病關(guān)聯(lián)提供信息,但是當(dāng)試圖研究基因-基因相互作用,分離基因特異性關(guān)聯(lián),或創(chuàng)建針對(duì)多個(gè)HLA基因的預(yù)測(cè)模型時(shí),這些方法往往都是受到限制的。

  將所觀測(cè)對(duì)象的基因型分布作為一個(gè)整體是上述方法的一種補(bǔ)充,并通過(guò)系統(tǒng)方法或整體方法研究它們與結(jié)果的關(guān)聯(lián),即,將所觀測(cè)的基因型分布作為范例,計(jì)算其他基因型分布與該范例的相似性,并評(píng)估與范例的相似性是否與疾病表型相關(guān)聯(lián)。已知種群研究的樣本量為n,從研究?jī)?nèi)部可能獲得的范例總數(shù)最大為n,這樣既減少了數(shù)據(jù)維度,又沒有任何信息的缺失。如上所述,這些由八個(gè)II類HLA基因形成獨(dú)特的基因型分布的實(shí)際數(shù)目實(shí)際上小于樣本量n。如果將所有觀測(cè)到的基因型分布作為范例,則可以直接評(píng)估所有這些范例的對(duì)象的相似性度量與T1D的關(guān)聯(lián)。這些范例觀測(cè)的規(guī)范化也促進(jìn)了OOR的提出。從形式上看,對(duì)基因型分布表示為的多個(gè)基因進(jìn)行分析,其中所述多個(gè)基因是在第i個(gè)對(duì)象(i=1,2,...,n)上觀測(cè)到的。在所有對(duì)象中,識(shí)別獨(dú)特的基因型分布,并作為第k個(gè)范例(K=1,2,...,q)表示為基于觀測(cè)到的基因型,可以通過(guò)相似性函數(shù)測(cè)量對(duì)象與每個(gè)范例的相似性,所述相似性函數(shù)表示為該相似性函數(shù)在一些文獻(xiàn)中也被稱為核函數(shù)。已知OOR的分析對(duì)象與疾病表型遺傳關(guān)聯(lián),表示為(對(duì)照yi=0,病例y

  其中,logit是對(duì)疾病的概率的典型logit變換,α是截距,回歸系數(shù)βk用于量化疾病與第k個(gè)相似性度量的關(guān)聯(lián),所述相似性度量為與范例的相似性度量。通過(guò)以上回歸的構(gòu)建,OOR可評(píng)估疾病與相似性度量的關(guān)聯(lián),所述相似性度量為每個(gè)對(duì)象與所有范例的相似性度量。當(dāng)估算的系數(shù)非零(β

  =0)時(shí),表示類似于第k個(gè)范例的對(duì)象疾病的風(fēng)險(xiǎn)無(wú)關(guān)緊要。通過(guò)研究范例相似性,只要它們的相似性可以被測(cè)量和定量,則可以通過(guò)上述回歸方法克服關(guān)于基因型的復(fù)雜性的挑戰(zhàn)。1.2、面向?qū)ο蟮幕貧w框架概述OOR的動(dòng)機(jī)是直接的,而它的表現(xiàn)也非常簡(jiǎn)單。目前,要使用OOR必須解決不同的三個(gè)方法學(xué)問(wèn)題:1)相似性度量的選擇,2)范例的選擇,3)包含信息的范例的選擇(即非零βk系數(shù)),各種不同的選擇會(huì)導(dǎo)致生成不同版本的OOR框架。

  1.2.1、相似性度量:?jiǎn)渭儚睦碚撋峡紤],相似性度量的選擇需要確保核函數(shù)是對(duì)稱和半正定的。在實(shí)踐中,大多數(shù)的相似性度量都比較合適,且與應(yīng)用的場(chǎng)景相關(guān)。在此,使用適合于遺傳分析的相似性度量。假設(shè)是HLA基因位點(diǎn)的范例的基因型分布,則其中在第j個(gè)基因位點(diǎn)的基因型用一對(duì)等位基因來(lái)表示。可使用下面的函數(shù),度量范例的相似性,

  其中I(.)是一個(gè)指示函數(shù),并且每個(gè)作為遺傳分析中通用的“狀態(tài)同源”度量。上述相似性度量的值位于0到1之間,該區(qū)間的值對(duì)應(yīng)從無(wú)相似性(0值)到同一性(1值)。然而,目前的度量并未體現(xiàn)單個(gè)基因或甚至單個(gè)等位基因的潛在不同的功能的顯著性。一種描述上述相似性度量的方法是在計(jì)算中引入基因特異性或等位基因特異性的權(quán)重。另一類相似性度量是使用“血緣同源”度量來(lái)度量對(duì)象之間的等位基因的相關(guān)性。

  范例的選取方法有很多,主要取決于所要分析的目標(biāo)。第一種方法,鑒于這些HLA基因可能具有不同的基因型分布,可通過(guò)對(duì)所有對(duì)象的聚類分析,以及采用特定的相似性度量來(lái)確定主要圖譜。其中,可將每個(gè)集群內(nèi)具有代表性的基因型分布選為范例。第二種方法,將每個(gè)獨(dú)特的基因型分布選為范例。第三種方法,從文獻(xiàn)中確定一組基因型分布,這樣也可以確保結(jié)果可被合理解釋。第四種方法,通過(guò)對(duì)某些聯(lián)合關(guān)聯(lián)或基因-基因的相互作用的研究,設(shè)計(jì)一定的基因型分布來(lái)作為范例。關(guān)于范例的選取方法,后文將有描述。

  除了降維,預(yù)測(cè)器的數(shù)量可以與OOR的樣本量n一樣大。正如預(yù)測(cè)的那樣,由于這些范例不與疾病表型相關(guān)聯(lián),許多回歸系數(shù)等于零。因此,在OOR中的一項(xiàng)重要任務(wù)即為選擇包含信息的范例。目前,在所有用于變量選擇的技術(shù)中,懲罰似然法是應(yīng)用最為廣泛的。在此,相對(duì)比傳統(tǒng)的選擇變量的逐步回歸方法,本文考慮三種懲罰似然法:LASSO、脊回歸和彈性網(wǎng)絡(luò)。

  如前所述,OOR方程確定的范例可從外部或內(nèi)部選擇。從外部選擇范例通常是從文獻(xiàn)選擇,或者基于用于特定解釋的特殊HLA基因型結(jié)構(gòu)進(jìn)行選擇。而本文的重點(diǎn)是從內(nèi)部選擇范例,是通過(guò)或不通過(guò)HLA基因型數(shù)據(jù)的聚類分析而選擇。

  1.3.1、聚類分析:作為編碼人體先天免疫的必需基因,HLA基因在整個(gè)人類的進(jìn)化過(guò)程是高度選擇的。如前所述,HLA的基因型數(shù)據(jù)傾向于集群,這可以通過(guò)成對(duì)出現(xiàn)的相似性度量,在n×n相似性矩陣的聚類分析來(lái)進(jìn)行檢測(cè)。需說(shuō)明的是,聚類分析是一種無(wú)監(jiān)督學(xué)習(xí),因?yàn)樗簧婕凹膊”硇汀?/p>

  1.3.2、“獨(dú)特”的對(duì)象:不進(jìn)行任何聚類分析,而對(duì)成對(duì)的相似性度量進(jìn)行觀測(cè),發(fā)現(xiàn)那些彼此相同的對(duì)。在消除這些相同的對(duì)之后,可以利用剩余的基因型分布來(lái)代表所有的“獨(dú)特的對(duì)象”,并把它們作為范例。為了放寬“相同基因型分布”的判定標(biāo)準(zhǔn),可以選擇一個(gè)預(yù)先確定的閾值(δ):如果成對(duì)相似性量度大于閾值,當(dāng)兩個(gè)基因型分布不相同時(shí),則可以認(rèn)為是“高度相似”,因此,該對(duì)可以只用其中的一個(gè)來(lái)表示。在實(shí)踐中,這個(gè)閾值作為OOR的調(diào)諧參數(shù)。

  ≠0)。即使是范例經(jīng)過(guò)精心挑選后,范例的數(shù)量仍可能相對(duì)較大,因此變量的選擇是具有一定挑戰(zhàn)性的。主要的挑戰(zhàn)是如何來(lái)減少過(guò)擬合。在此,考慮了傳統(tǒng)的逐步回歸技術(shù),采用三種懲罰似然法:LASSO、脊回歸和彈性網(wǎng)絡(luò)。1.4.1、逐步選擇:最有名的傳統(tǒng)變量選擇的策略大概是由預(yù)測(cè)器進(jìn)行的逐步選擇,無(wú)論是僅向前,僅向后或雙向,均是基于信息準(zhǔn)則(IC)的度量的,基于IC的度量可如Akaike’s IC(AIC)或者Bayesian IC(BIC)。基于大量文獻(xiàn)對(duì)似然估算的描述,須注意的是,概率模型可以構(gòu)建如下帶有AIC懲罰的對(duì)數(shù)似然函數(shù):其中,K′

  1.4.2、懲罰似然:當(dāng)范例的數(shù)量接近樣本量,首選的變量選擇的方法是使用懲罰似然法,所述懲罰似然法包括三種被廣泛使用的方法:LASSO、脊回歸和彈性網(wǎng)絡(luò)。使用上述公式[13]中相同的符號(hào)和變量來(lái)表示,該懲罰對(duì)數(shù)似然函數(shù)可被寫為其中λ是用以確定懲罰水平的調(diào)諧參數(shù),β

  的范數(shù)和l2的范數(shù),θ分別取值為0或1或0.5,分別對(duì)應(yīng)LASSO、脊回歸和彈性網(wǎng)絡(luò)。優(yōu)選的,估算的調(diào)諧參數(shù)λ具有基于交叉驗(yàn)證的最小預(yù)測(cè)誤差。1.5、懲罰參數(shù)和變量部分眾所周知,在懲罰似然方法的文獻(xiàn)中,調(diào)諧參數(shù)將估算回歸系數(shù)的偏差與他們的估算的方差進(jìn)行交換。通常,懲罰參數(shù)的估算是通過(guò)交叉驗(yàn)證進(jìn)行的,然而,交叉驗(yàn)證過(guò)程是一個(gè)隨機(jī)過(guò)程,并且因此估算的懲罰參數(shù)也是隨機(jī)的,因此會(huì)不可避免地影響變量的選擇。在這里,建議采用多次重復(fù)交叉驗(yàn)證過(guò)程,并基于隨后會(huì)利用固定的懲罰參數(shù)進(jìn)一步對(duì)變量選擇的穩(wěn)定性(參見下文)進(jìn)行評(píng)估,估算它的經(jīng)驗(yàn)分布。計(jì)算上,可用10倍交叉驗(yàn)證估算懲罰參數(shù)(在cv.glmnet默認(rèn)推薦,GLMNET的R實(shí)現(xiàn)),并重復(fù)計(jì)算,比如100次。所有經(jīng)驗(yàn)估算的參數(shù)隨后被用于構(gòu)建經(jīng)驗(yàn)分布,以評(píng)估這些估算是否來(lái)自單一模式分布。1.6、評(píng)估固定懲罰參數(shù)的變量選擇的穩(wěn)定性(λ)

  實(shí)際中,所有處理復(fù)雜或高維數(shù)據(jù)的變量選擇方法面臨的主要挑戰(zhàn),是選擇的變量的穩(wěn)定性。OOR的變量選擇也不例外。在評(píng)估上述的懲罰參數(shù)估算的經(jīng)驗(yàn)分布時(shí),要關(guān)注選定的包含信息的范例是否穩(wěn)定。為了解決這個(gè)問(wèn)題,可使用自助法。簡(jiǎn)要地說(shuō),從研究群體隨機(jī)抽取樣本觀測(cè)并放回,這樣可以保持樣本量不變。對(duì)于每個(gè)自助樣本,進(jìn)行具有兩個(gè)或多個(gè)固定懲罰參數(shù)和/或使用不同的方法的懲罰似然分析。然后,計(jì)算Kappa統(tǒng)計(jì),度量變量是否由兩種或更多的方法一致地選擇。

  正如上面提到的,青少年I型糖尿病(T1D)和HLA基因的病例對(duì)照研究促進(jìn)了OOR研究的發(fā)展,其中的細(xì)節(jié)已被公開(Zhao et al.2015提交)。簡(jiǎn)單地說(shuō),這項(xiàng)研究確定了970個(gè)I型糖尿病患者作為病例,他們的年齡范圍從1歲到18歲,且來(lái)自不同位置的診所。并從相應(yīng)的地區(qū)確定了448個(gè)未患I型糖尿病者作為對(duì)照。遵循人類受試者的審查和批準(zhǔn)的要求,從所有研究對(duì)象中采集血液樣本,并提取他們的DNA。雖然測(cè)試多個(gè)分子靶點(diǎn),本研究使用下一代測(cè)序技術(shù)以評(píng)估HLA基因的高分辨率基因型(HLA DRB1*,*DRB345,*DQA1,DQB1*,DPA1和DPB1)。這項(xiàng)研究的分析目標(biāo)是研究I型糖尿病與HLA基因的關(guān)聯(lián),并構(gòu)建I型糖尿病特性與這些HLA基因型的預(yù)測(cè)模型。為了建立驗(yàn)證集,隨機(jī)選擇了479個(gè)病例和226個(gè)對(duì)照作為訓(xùn)練集,其余部分作為驗(yàn)證集(222個(gè)對(duì)照和483個(gè)病例)。對(duì)照以及病例的所有基因的等位基因頻率在訓(xùn)練集和驗(yàn)證集中很大程度是類似的(為了說(shuō)明,補(bǔ)充表S2包括HLA-DRB1對(duì)照以及來(lái)自訓(xùn)練集和驗(yàn)證集的病例的等位基因頻率)。

  為了對(duì)OOR處理復(fù)雜的HLA數(shù)據(jù)的過(guò)程進(jìn)行說(shuō)明,首先對(duì)T1D僅與HLA-DRB1基因的關(guān)聯(lián)進(jìn)行分析。表6的對(duì)角線的上方和下方分別列出了對(duì)照和病例中的HLA-DRB1的基因型分布。對(duì)于那些對(duì)角線以下的純合基因型,對(duì)照和病例中的基因型頻率分別用分子和分母(#/#)表示。該基因型頻率表示出的直觀印象是,只有44個(gè)等位基因的基因型分布是稀疏的,且只有159個(gè)獨(dú)特的基因型,數(shù)量上比理論上根據(jù)HWE計(jì)算的可能的基因型數(shù)目990(=44×45/2)要小得多。其次,需注意的是,某些基因型在病例和對(duì)照之間呈現(xiàn)出明顯不同的頻率,該頻率意味著它們與T1D的關(guān)聯(lián)情況。例如,純合體04:01:01/04:01:01在病例和對(duì)照中分別具有0.6/9.3的頻率,這意味著15.5的頻率比。在另一個(gè)極端,雜合子15:01:01/07:01:01在病例和對(duì)照中分別具有0/3.4的頻率,這意味著這個(gè)雜合子看起來(lái)可預(yù)防I型糖尿病。對(duì)于那些常見的基因型,基于當(dāng)前的樣本量對(duì)T1D關(guān)聯(lián)的直接評(píng)價(jià)是實(shí)際可行的,且在文獻(xiàn)中已經(jīng)被研究。然而,對(duì)于許多不太常見的基因型,因?yàn)橄∈琛颖玖啃。约按罅康谋容^,則很難進(jìn)行嚴(yán)謹(jǐn)?shù)脑u(píng)估。考慮到期望整體檢測(cè)T1D與基因的關(guān)聯(lián),也在尋找可替代的其他分析方法。

  考慮通過(guò)公式[12]訓(xùn)練T1D與HLA-DRB1的關(guān)聯(lián)的OOR模型,而無(wú)需采用任何假設(shè)。由于某些等位基因的等位基因頻率不同以及與HWE的偏差,理論上可能并不存在許多基因型,即,它們的頻率為0(表6),故,OOR則可被簡(jiǎn)化為

  對(duì)應(yīng)第k個(gè)獨(dú)特基因型的頻率,可被視為新的回歸系數(shù),對(duì)數(shù)據(jù)集中所有159個(gè)獨(dú)特HLA-DRB1基因型求和,其中,這些獨(dú)特的基因型被視為OOR的范例。這些159個(gè)回歸系數(shù)中,除了少數(shù)包含信息的范例外,預(yù)計(jì)大部分等于零。

  在本例中,在各對(duì)對(duì)象之間,相似性矩陣的元素采用值1表示為相同,采用值0.5表示為共享一個(gè)等位基因,采用值0表示不共享等位基因。圖12示出了其中的705個(gè)對(duì)象的相似性矩陣的熱圖,其中示出了共享兩個(gè)等位基因的對(duì)象(紅),共享一個(gè)等位基因的對(duì)象(黑色)和不共享等位基因的對(duì)象(綠色)。從HLA-DRB1的角度來(lái)看,可以識(shí)別出一組相同的對(duì)象(紅色正方形落在對(duì)角線上),以及另一組只共享一個(gè)等位基因的對(duì)象(綠色長(zhǎng)方形)。

  為了進(jìn)一步深入了解范例特異性的邊際關(guān)聯(lián),借由上述OOR公式,還可以對(duì)T1D與每一個(gè)范例的相似性度量進(jìn)行單變量關(guān)聯(lián)。單變量分析的結(jié)果包括了補(bǔ)充表中列出的所估算的對(duì)數(shù)幾率比、標(biāo)準(zhǔn)偏差、Z分?jǐn)?shù)和p值(表S2),以及范例和相關(guān)聯(lián)的基因型。為了更直觀地分析,表7中呈現(xiàn)矩陣形式中的四舍五入為整數(shù)的Z分?jǐn)?shù),且為簡(jiǎn)單起見,對(duì)應(yīng)于0.05或更好的顯著性水平(沒有校正多重比較),該Z分?jǐn)?shù)的絕對(duì)值設(shè)置為大于等于2。這些單變量分析的結(jié)果顯示了:HLA-DRB1*03:01:01和*04:01:01與T1D正相關(guān),其著色為紅色條紋。另一方面,6個(gè)等位基因HLA-DRB1*07:01:01,*11:01:01,*11:04:01,12:01:01,13:01:01和15:01:01:01可預(yù)防T1D,著色為綠色條紋。要注意的是風(fēng)險(xiǎn)和保護(hù)等位基因的雜合基因型傾向于與T1D正相關(guān)。表S3:范例特異性邊際回歸分析得到的估算的回歸系數(shù)、標(biāo)準(zhǔn)偏差、Z分?jǐn)?shù)和p值。

  表7通過(guò)OOR從邊際關(guān)聯(lián)分析提取估算的Z分?jǐn)?shù)(四舍五入到整數(shù),等于或大于2)。兩個(gè)主要的等位基因(HLA-DRB1*03:01:01和*04:01:01)用于評(píng)估較大的風(fēng)險(xiǎn)關(guān)聯(lián)(紅色條)。6個(gè)等位基因(HLA-DRB1*07:01:01,*11:01:01,*11:01:01,*11:04:01,*12:01:01,*13:01:01和*15:01:01)用于評(píng)估與I型糖尿病的較大的保護(hù)關(guān)聯(lián)。

  在排除與I型糖尿病沒有關(guān)聯(lián)的范例之后,OOR的下一步是選擇那些包含信息的范例。出于經(jīng)驗(yàn)比較的目的,使用上述的四種不同的估算方法進(jìn)行選擇:LASSO、脊回歸、彈性網(wǎng)絡(luò)和逐步方法。在補(bǔ)充表(表S4) 列出了所有的估算回歸系數(shù)。LASSO方法從159個(gè)范例中選擇18個(gè)預(yù)測(cè)器和估算系數(shù)的方向性,即對(duì)數(shù)幾率比。其中,正系數(shù)往往與那些來(lái)自病例的范例相關(guān)聯(lián),而負(fù)系數(shù)往往與來(lái)自對(duì)照的范例相關(guān)聯(lián)。

  相比之下,脊回歸方法生成所有范例的估算系數(shù),且對(duì)任何范例都不取消選擇。為了說(shuō)明,在表S4的所有范例由相應(yīng)的系數(shù)進(jìn)行了排序。不同于LASSO估算方法,脊回歸的估算系數(shù)取零附近較小的值。其中,估算系數(shù)的方向性往往是與病例/對(duì)照源的所有范例相一致的。此外,對(duì)于那些由LASSO選擇的范例,脊估算在方向性上與那些通過(guò)LASSO獲得結(jié)果也是一致的。表S4的第三列示出了由彈性網(wǎng)絡(luò)估算的系數(shù),其中選擇了39范例。選擇的這39個(gè)范例大多數(shù)與LASSO選擇的范例重疊。從數(shù)量上看,彈性網(wǎng)絡(luò)和LASSO之間的估算系數(shù)是高度相關(guān)的(未顯示)。而逐步回歸方法選擇了14個(gè)范例,其中10個(gè)與LASSO選擇的范例重合。盡管這看似有很高的一致性,但與LASSO獲得的范例所對(duì)應(yīng)的系數(shù)相比,許多估算系數(shù)的值往往相當(dāng)大。

  為了對(duì)通過(guò)這四個(gè)方法選定的范例的預(yù)測(cè)模型的性能加以了解,對(duì)接受者操作曲線(ROC)進(jìn)行了分析,并評(píng)估所有四個(gè)預(yù)測(cè)模型的敏感度、特異性和曲線示出了在訓(xùn)練集以及在驗(yàn)證集的ROC 曲線和相關(guān)聯(lián)的AUC值,具體包括LASSO(圖13a)、脊回歸(圖13b)、彈性網(wǎng)絡(luò)(圖13c)和逐步(圖13d)。在訓(xùn)練集中,估算的ROC曲線,上述四個(gè)方法在很大程度上都相類似。如預(yù)測(cè)的那樣,在驗(yàn)證集,估算的AUC值小幅減少至0.866。其中,前述三種方法的AUC值的方差都小于0.001。前述三個(gè)方法的ROC分析結(jié)果的類似,表明可能有許多具有不同的范例以及類似的預(yù)測(cè)性能的預(yù)測(cè)模型。

  為了建立一個(gè)I型糖尿病的預(yù)測(cè)模型,將OOR應(yīng)用到所有8個(gè)II類HLA基因(HLA-DRB1,DRB345,DQA1,DQB1,DPA1和DPB1),使用相同的訓(xùn)練集研究范例,并建立預(yù)測(cè)模型,并驗(yàn)證驗(yàn)證集中的預(yù)測(cè)模型。相對(duì)于上述相似性度量,此處使用了等式中定義的未加權(quán)相似性度量,表示為其中,n=705,并且每個(gè)元素取值范圍為0和1之間的值。為了便于可視化,使用分級(jí)聚類算法來(lái)構(gòu)建這個(gè)相似性矩陣,可參見示出的其熱圖(圖14)。中央對(duì)角線集群(通過(guò)注釋箭頭突出標(biāo)示的紅色方塊,)表示存在許多彼此相同或彼此高度相似的對(duì)象。此外,通過(guò)注釋箭頭還指出了多個(gè)高度相似的對(duì)象的更小的集群。集群圖譜表明,在右下角的對(duì)象往往攜帶較常見的基因型分布,這是因?yàn)楦嗟膫€(gè)體攜帶常見基因型分布,其成對(duì)的相似性度量往往較高。另一方面,那些在左上角的對(duì)象傾向于具有更小的個(gè)體的集群,所述個(gè)體帶有相對(duì)相似性度量,這可能是因?yàn)樗鼈兊幕蛐头植季哂邢鄬?duì)低的頻率,相對(duì)較小的群組的個(gè)體攜帶相似基因型分布。其中,右上角的對(duì)象有相對(duì)較低的相似性度量,這可能是因?yàn)榫哂谐R姷幕蛐头植嫉膫€(gè)體往往與那些具有不太常見的基因型分布的個(gè)體相互隔離。

  基于該相似性矩陣,將被觀測(cè)的基因型分布的一個(gè)子集選為范例。鑒于樣本量相對(duì)有限和基因型分布的神秘,將訓(xùn)練集中所有獨(dú)特的基因型分布選為范例。換句話說(shuō),選擇的所有范例均是獨(dú)特的,并涵蓋訓(xùn)練集中觀測(cè)到的所有基因型分布。操作上,用于進(jìn)行成對(duì)相似性度量的閾值設(shè)置為1,訓(xùn)練集中共有499個(gè)范例,且作為描述性關(guān)聯(lián)分析的一部分,應(yīng)用OOR進(jìn)行I型糖尿病與所有范例的單變量關(guān)聯(lián)分析;并沿HLA基因型列出(表S5)了估算系數(shù)、標(biāo)準(zhǔn)誤差、Z分?jǐn)?shù)和它們的p值。其中,范例由Z分?jǐn)?shù)排序,并且Z分?jǐn)?shù)值與病例和對(duì)照狀態(tài)相一致。

  目前的任務(wù)是要用LASSO建立預(yù)測(cè)模型。在前面的討論中,逐步方法適用于過(guò)度擬合預(yù)測(cè)模型,而并不適用建立預(yù)測(cè)模型。即使預(yù)測(cè)性的AUC是所需要的,脊回歸往往為所有范例提供“謹(jǐn)慎估算系數(shù)”,且對(duì)任何范例都不取消選擇。而彈性網(wǎng)絡(luò)相對(duì)于脊回歸和LASSO是一種折衷的方法,其具有與LASSO相當(dāng)?shù)男阅堋榱藢?duì)變量選擇進(jìn)行分析,選擇LASSO建立一個(gè)I型糖尿病的預(yù)測(cè)模型。表3列出了基于LASSO的回歸系數(shù)估算,其中該回歸系數(shù)估算由回歸系數(shù)排序。通過(guò)LASSO選擇的共有26個(gè)包含信息的范例。通過(guò)合并病例(D)/對(duì)照(N)和研究識(shí)別號(hào)碼得到范例識(shí)別號(hào)碼。顯然,對(duì)那些從病例衍生的范例的估算系數(shù)傾向于為正,而對(duì)那些來(lái)自于對(duì)照的范例的估算系數(shù)傾向于為負(fù)。例如,與范例如D1612高度相似的對(duì)象,具有相對(duì)高的T1D的風(fēng)險(xiǎn);與范例如N000982相似的對(duì)象,將有相對(duì)較低的T1D風(fēng)險(xiǎn)。

  其中,對(duì)那些所有26個(gè)選定的范例求和,在表3中示出估計(jì)風(fēng)險(xiǎn)評(píng)分為了評(píng)估風(fēng)險(xiǎn)評(píng)分的經(jīng)驗(yàn)分布,示出了訓(xùn)練集中對(duì)照和病例的風(fēng)險(xiǎn)評(píng)分的箱圖(圖15)。顯然,訓(xùn)練集中,病例的風(fēng)險(xiǎn)評(píng)分通常比對(duì)照的更大,這種差異在統(tǒng)計(jì)學(xué)看來(lái)比較顯著(p值0.001,未示出)。對(duì)照的風(fēng)險(xiǎn)評(píng)分呈對(duì)稱分布,而這些病例中的風(fēng)險(xiǎn)評(píng)分有些傾斜。根據(jù)風(fēng)險(xiǎn)評(píng)分范圍從-5.52到4.1,計(jì)算出的靈敏度(ROC曲線-特異性(x軸)構(gòu)成了訓(xùn)練集的ROC曲線,該ROC曲線。

  為了驗(yàn)證上述預(yù)測(cè)模型,采用了固定的范例和上述模型中的相關(guān)聯(lián)的加權(quán),計(jì)算驗(yàn)證集所有樣本的風(fēng)險(xiǎn)評(píng)分。參見箱圖的左下圖,示出了對(duì)照和病例中的風(fēng)險(xiǎn)評(píng)分的分布(圖15)。顯然,在驗(yàn)證集的風(fēng)險(xiǎn)評(píng)分的經(jīng)驗(yàn)分布與在訓(xùn)練集中的風(fēng)險(xiǎn)評(píng)分的經(jīng)驗(yàn)分布在很大程度上是類似的。此外,驗(yàn)證集的ROC分析顯示了相類似的靈敏度特異性曲線、選擇范例的穩(wěn)定性

  已知的是,該懲罰參數(shù)(λ)的選擇對(duì)變量的選擇有直接和深刻的影響。常規(guī)的交叉驗(yàn)證通常用于確定出可實(shí)現(xiàn)最小偏差的懲罰值(或其他性能度量,如分類誤差,或AUC)。圖16的頂圖顯示了偏差與不同的懲罰參數(shù)值(對(duì)數(shù)刻度)的XY坐標(biāo)圖。它示出了最低的估算懲罰參數(shù)的對(duì)數(shù)值,所述對(duì)數(shù)值取值在-6.0到-5.5之間。此函數(shù)的平坦性意味著對(duì)應(yīng)于最小偏差的估算懲罰參數(shù)在很大程度上受交叉驗(yàn)證過(guò)程的影響。為了評(píng)估它的影響力,重復(fù)1000次估算懲罰參數(shù),并估算相應(yīng)的值。圖16的下圖顯示估算懲罰參數(shù)的經(jīng)驗(yàn)分布。可見,在訓(xùn)練集中估算的懲罰值是離散的15個(gè)不同的值,這可能是因?yàn)橄嗨菩跃仃嚨碾x散性造成的。

  由于懲罰參數(shù)的值會(huì)影響變量的選擇,需關(guān)注的是,所選擇的變量在不同的懲罰參數(shù)值下是否是穩(wěn)定的,其次,即使具有固定的懲罰參數(shù),“選擇”本身是否穩(wěn)定。為了解決這個(gè)問(wèn)題,對(duì)15個(gè)不同的懲罰參數(shù)值進(jìn)行了自助分析。對(duì)于1000個(gè)自助分析樣本的每個(gè)樣本,分別設(shè)置固定的值,進(jìn)行LASSO,并通過(guò)懲罰似然選擇包含信息的范例。對(duì)于定性比較,選擇使用Kappa統(tǒng)計(jì)數(shù)據(jù)來(lái)衡量所選擇的范例的重復(fù)性。Kappa值越大表示對(duì)應(yīng)于選定的范例的重復(fù)越多,所述范例通過(guò)兩個(gè)不同的懲罰參數(shù)值的LASSO估算選定。在所有自助樣本中估算平均的Kappa值和它們的標(biāo)準(zhǔn)偏差(表4,上部三角內(nèi)為Kappa值,下部三角內(nèi)為標(biāo)準(zhǔn)偏差)。結(jié)果表明,這15個(gè)懲罰值的一致性為相鄰懲罰值的80%左右。正如預(yù)測(cè)的一樣,一致性隨著懲罰參數(shù)值的差異增加而降低。為了進(jìn)一步了解不同的懲罰值下估算系數(shù)的定量一致性,計(jì)算所有自助樣本的平均系數(shù),并將不同的懲罰值下的平均系數(shù)繪制成對(duì)XY圖(在對(duì)角框標(biāo)示)(圖17)。很明顯,如果兩個(gè)懲罰值比較接近,則估算系數(shù)的平均值彼此高度相關(guān)。否則,估算系數(shù)隨著懲罰值的不同可能有很大的不同。

  如前所述,有多個(gè)類似性能的預(yù)測(cè)模型。現(xiàn)在的問(wèn)題是,即使選擇的范例以及相關(guān)聯(lián)的系數(shù)不同,預(yù)測(cè)模型在懲罰參數(shù)值不同時(shí)是否也有類似的性能。為此,使用LASSO,在固定的懲罰參數(shù)值下,選擇包含信息的范例構(gòu)建相應(yīng)的預(yù)測(cè)模型。對(duì)每個(gè)預(yù)測(cè)模型,進(jìn)行訓(xùn)練集以及驗(yàn)證集的ROC分析。圖18示出估算AUC值的15個(gè)ROC分析結(jié)果。顯然,ROC曲線基本上是類似的。在訓(xùn)練集中AUC值從0.91變化到0.93,而在驗(yàn)證集中這些值約為0.89。

  鑒于類似的性能和不同的懲罰參數(shù)值下選擇的范例的高度一致性,選擇了中等懲罰參數(shù)值來(lái)評(píng)估1000個(gè)自助樣本中單個(gè)系數(shù)估算的穩(wěn)定性。圖19示出在執(zhí)行雙向聚類分析后,1000個(gè)自助樣本中的499個(gè)范例的估算系數(shù)。各個(gè)估算系統(tǒng)值在被限定于-2和2之間,以便于可視化。很明顯,在1000個(gè)自助樣本中,固定的懲罰值下的估算系數(shù)也保持非常的一致。

  在本文中,描述了一種面向?qū)ο蟮幕貧w(OOR)的新方法,來(lái)建立關(guān)于生物大數(shù)據(jù)的共同特征,即高度多態(tài)性基因的預(yù)測(cè)模型。為了解決多態(tài)性基因的復(fù)雜性,首先,通過(guò)OOR確定一組范例,其中,該范例的基因型分布在所觀測(cè)到的基因型中具有代表性。然后,通過(guò)OOR選擇每個(gè)對(duì)象和范例之間的取決于場(chǎng)景的基因的相似性度量,作為一個(gè)新的“度量”來(lái)度量所有對(duì)象和范例的相似性,并創(chuàng)建協(xié)變量矩陣。然后,通過(guò)采用現(xiàn)代懲罰似然方法,通過(guò)OOR選擇一組包含信息的范例來(lái)構(gòu)建預(yù)測(cè)模型。然后,作為“經(jīng)典”的回歸方法,使用OOR分析“范例”與疾病的單變量關(guān)聯(lián)以及多變量的關(guān)聯(lián)。不同于常規(guī)側(cè)重于單個(gè)基因的回歸,OOR的回歸系數(shù)在量化疾病與范例相似性的關(guān)聯(lián)時(shí),需要結(jié)合上述新的度量來(lái)進(jìn)行分析,即結(jié)合上述與范例的相似性來(lái)確定風(fēng)險(xiǎn)等級(jí)(見下文關(guān)于整體評(píng)估的詳細(xì)討論)。從這個(gè)角度來(lái)看,OOR是對(duì)常規(guī)的回歸方法的一種補(bǔ)充。

  在給定的說(shuō)明性的例子中,使用了在瑞典進(jìn)行的一項(xiàng)病例-對(duì)照的I型糖尿病研究,探討了疾病與HLA基因的關(guān)聯(lián)。簡(jiǎn)單地說(shuō),為了說(shuō)明OOR 及其解釋,初步研究的重點(diǎn)側(cè)重于I型糖尿病與單個(gè)基因HLA-DRB1的關(guān)聯(lián)上。作為以基因?yàn)橹行牡幕貧w的補(bǔ)充方法,OOR的單變量分析揭示了T1D與單個(gè)攜帶HLA-DRB1*03:01:01,*04:01:01,*07:01:01,*11:01:01,*11:04:01,*12:01:01,*13:01:01和*15:01:01基因的關(guān)聯(lián)圖譜。在該例中,使用了HLA-DRB1建立了I型糖尿病預(yù)測(cè)模型,其中通過(guò)四個(gè)不同的變量的方法來(lái)選擇包含信息的范例。在針對(duì)上述例子的應(yīng)用中,LASSO選擇了23個(gè)包含信息的范例,與風(fēng)險(xiǎn)升高相關(guān)聯(lián)的范例趨向于來(lái)自于病例,而那些與風(fēng)險(xiǎn)降低相關(guān)聯(lián)的范例往往是來(lái)自對(duì)照。另外,還發(fā)現(xiàn),通過(guò)逐步方法選擇的范例與那些由LASSO選擇的范例趨于重疊,但是相關(guān)聯(lián)的系數(shù)估算的絕對(duì)值往往更大。令人驚奇的是,在評(píng)估預(yù)測(cè)模型的性能時(shí)還發(fā)現(xiàn),AUC會(huì)下降到0.5,表明預(yù)測(cè)模型完全失效。這大概與預(yù)測(cè)模型對(duì)訓(xùn)練數(shù)據(jù)過(guò)擬合相關(guān)。同時(shí),脊回歸方法會(huì)保留所有范例,并產(chǎn)生與所有范例相關(guān)聯(lián)的謹(jǐn)慎回歸系數(shù)。而彈性網(wǎng)絡(luò)方法比LASSO會(huì)選擇更多包含信息的范例,但比脊回歸方法少,相當(dāng)于是這兩種方法之間的妥協(xié)。另外可見,預(yù)測(cè)模型的性能與由三種方法選擇的范例性能在很大程度上是類似的。為了在簡(jiǎn)約、詮釋和性能之間保持平衡,在本本發(fā)明所述應(yīng)用中選擇使用LASSO方法。

  基于HLA-DRB1的初步研究的結(jié)果,對(duì)所有HLA基因(DRB1,DRB345,DQA1,DQB1,DPA1和DPB1)建立了一個(gè)預(yù)測(cè)模型,隨后評(píng)估其性能,以及評(píng)估在不同懲罰參數(shù)值下所選擇的預(yù)測(cè)器的穩(wěn)定性。在訓(xùn)練集中,OOR選擇了26個(gè)包含信息的范例作為預(yù)測(cè)器,該預(yù)測(cè)模型擁有極好的敏感度和特異性特性,對(duì)應(yīng)的AUC為0.93。固定范例和回歸系數(shù)后,將預(yù)測(cè)模型應(yīng)用在獨(dú)立選擇的驗(yàn)證集上,通過(guò)ROC分析顯示與那些訓(xùn)練集中類似的靈敏度和特異性,此時(shí)AUC為0.89。如果由外部的數(shù)據(jù)集進(jìn)一步驗(yàn)證后,這個(gè)預(yù)測(cè)模型可隨時(shí)用于在一般人群中篩查T1D。

  雖然OOR有上述優(yōu)勢(shì),但其也有局限性。通過(guò)構(gòu)建這個(gè)模型,OOR將基因?yàn)橹行牡幕貧w問(wèn)題轉(zhuǎn)化為“對(duì)象與范例的基因型分布的相似性”的問(wèn)題。因此,結(jié)果的解釋取決于相似性度量。例如,如果建立與范例的正關(guān)聯(lián),結(jié)果意味著,任何人只要其基因型分布與范例相似,則處于疾病的高風(fēng)險(xiǎn)。因此,這樣的正關(guān)聯(lián)不能精確定位與疾病階段相關(guān)聯(lián)的特定的基因多態(tài)性或其組合。畢竟,OOR不會(huì)解釋哪些基因是重要的。當(dāng)然,傳統(tǒng)的回歸方法更加合適用于精確定位病因基因。

  另一個(gè)問(wèn)題是與相似性度量的選擇相關(guān)。在疾病與HLA基因的關(guān)聯(lián)分析的場(chǎng)景下,將等位基因身份計(jì)數(shù)的未加權(quán)平均值作為相似性度量。雖然這樣是直觀的,但可以考慮使用其他度量替代,如使用基于HLA基因型血緣同源性推斷得到的、對(duì)象間血緣同源性的加權(quán)平均值。正如預(yù)測(cè)的那樣,相似性度量的選擇影響了對(duì)結(jié)果的解釋,實(shí)現(xiàn)了場(chǎng)景特異性的靈活性。

  OOR的特性之一是,當(dāng)相似性度量構(gòu)建后,OOR需要確定“范例”作為用于構(gòu)建模型的預(yù)測(cè)器。OOR默認(rèn)假定范例的數(shù)目比樣品量小(qn)。通常情況下,選擇范例代表一組具有取決于相似性度量的基因型分布的一個(gè)或多個(gè)對(duì)象。對(duì)于8個(gè)HLA基因,訓(xùn)練數(shù)據(jù)集的705個(gè)對(duì)象中有一些是相同的,但許多在各自集群內(nèi)彼此相似(參見圖14為例)。在上述例子的應(yīng)用中,用于相似性度量的閾值選擇1.0時(shí),會(huì)從705個(gè)對(duì)象中選出499個(gè)范例。在不缺失信息的情況下,q個(gè)范例包含這些復(fù)雜的基因型的所有統(tǒng)計(jì)信息。假設(shè)樣本量增加的速度比范例的數(shù)目增加的速度更快,仍然可以依靠常規(guī)的漸進(jìn)解法進(jìn)行統(tǒng)計(jì)評(píng)估。需要注意的是,范例特異性的預(yù)測(cè)器彼此間高度相關(guān),例如,范例的相關(guān)矩陣。在實(shí)踐中,用于相似性度量的閾值可以選擇低于1.0,用于確定較小的一組范例,以進(jìn)一步進(jìn)行分析,這尤為符合較大樣本量的需求。

  OOR的另一個(gè)重要特性是,OOR結(jié)果對(duì)于等位基因特異性或基因型特異性的傳統(tǒng)回歸分析的結(jié)果是互補(bǔ)的。HLA基因的基因型特異性回歸分析,通常僅限于那些常見的基因型,諸如HLA-DRB1*03:01:01/03:01:01或*04:01:01/04:01:01,其中為了統(tǒng)計(jì)分析,還要求觀測(cè)數(shù)量足夠大。為了克服此限制,等位基因特異性回歸分析假設(shè)了模型的額外效果,并量化疾病與個(gè)別等位基因的關(guān)聯(lián)。但是,額外效果的假設(shè)可能不適合某些等位基因。當(dāng)然,等位基因特異性回歸分析(當(dāng)包括多個(gè)基因時(shí),等同于單倍型特異性回歸分析)對(duì)于不常見等位基因也同樣存在著挑戰(zhàn)性。與此相反,OOR則繞過(guò)上述限制,將分析目標(biāo)側(cè)重于評(píng)估疾病與對(duì)象和范例的基因型相似性的關(guān)聯(lián)。

  對(duì)于結(jié)果的解釋,OOR和協(xié)變量特異性回歸方法有一定的不同。協(xié)變量特異性回歸側(cè)重于個(gè)別協(xié)變量的特定影響,以及如果統(tǒng)計(jì)學(xué)上顯著,對(duì)于個(gè)別回歸系數(shù)的解釋為相應(yīng)的協(xié)變量有顯著的關(guān)聯(lián),即“簡(jiǎn)約”論。與此相反,OOR評(píng)估疾病與對(duì)象和范例組的相似性的關(guān)聯(lián),如果發(fā)現(xiàn)一個(gè)或多個(gè)回歸系數(shù)從零顯著偏離,其結(jié)果意味著,與該范例的相似性指示了較高或較低的疾病的風(fēng)險(xiǎn),即個(gè)人風(fēng)險(xiǎn)的“整體”論。事實(shí)上,正是OOR的這種“整體性”,規(guī)避了傳統(tǒng)回歸分析的復(fù)雜性的問(wèn)題。

  OOR使用的相似性度量的概念也與統(tǒng)計(jì)遺傳學(xué)中開發(fā)并使用的多種方法相關(guān)。雖然本文并不意圖追蹤這些聯(lián)系,但需注意,古典和現(xiàn)代遺傳學(xué)旨在通過(guò)利用家族內(nèi)對(duì)象的相關(guān)性發(fā)現(xiàn)結(jié)果相關(guān)聯(lián)的易感基因,因?yàn)楣蚕淼募膊』蛟诒话l(fā)現(xiàn)之前,可能會(huì)導(dǎo)致相關(guān)個(gè)體中相似性的增加。在遺傳學(xué)的早期,隔離和聯(lián)系方法用于描述和發(fā)現(xiàn)家族聚集性基因。在現(xiàn)代遺傳學(xué),一些研究小組提出,通過(guò)評(píng)估遺傳標(biāo)記的相似性并使用相似性回歸來(lái)發(fā)現(xiàn)疾病基因。雖然有著相似的科學(xué)目標(biāo),但OOR使用相似性評(píng)分來(lái)發(fā)現(xiàn)哪些范例有更高的疾病風(fēng)險(xiǎn),而不是發(fā)現(xiàn)哪些SNP(單核苷酸多態(tài)性)與疾病相關(guān)聯(lián)。

  OOR還與一些現(xiàn)有的分析方法存在聯(lián)系。在統(tǒng)計(jì)遺傳學(xué)文獻(xiàn)的背景下,OOR與序列核關(guān)聯(lián)測(cè)試(SKAT)共享相同的理論基礎(chǔ),即表現(xiàn)定理。最近開發(fā)的用于檢測(cè)GWAS基因-基因之間作用的方法中,SKAT在遺傳分析方面受到巨大好評(píng),因?yàn)樗褂迷摱ɡ韥?lái)非參數(shù)化地表示SNP的所有基因間作用的綜合影響,并檢測(cè)基因-基因之間的作用的存在,這是一個(gè)GWAS遺傳分析的挑戰(zhàn)性的問(wèn)題。最近,Pan(2011)表明,SKAT測(cè)試與相似性回歸方法本質(zhì)是等同的。除了共享相同理論基礎(chǔ),OOR還具有完全不同的分析目標(biāo),即評(píng)估疾病與“范例特異性相似性”的關(guān)聯(lián),并因此直接對(duì)范例的相似性度量建模,而不是為范例特異性系數(shù)假設(shè)一個(gè)隨機(jī)分量。

  在更廣闊的背景下,OOR與核邏輯回歸和支持向量機(jī)密切相關(guān)。所有三種方法共享相同的表現(xiàn)定理,利用該定理的一般表達(dá)形式,統(tǒng)稱為核機(jī)器。然而,OOR通過(guò)相似性度量將核函數(shù)的選擇形式化,利用集群戰(zhàn)略確定范例,并通過(guò)懲罰似然方法選擇那些包含信息的范例。可見,基于前人研究所取得的成就之上,OOR提供了一種新的方法來(lái)分析疾病與復(fù)雜協(xié)變量的關(guān)聯(lián)。

  對(duì)于計(jì)算機(jī)科學(xué)文獻(xiàn)的數(shù)據(jù)挖掘來(lái)說(shuō),OOR與k近鄰方法(KNN)也有著密切的聯(lián)系。k近鄰方法的核心思想是由某些特性定義的相對(duì)“親密鄰居”的對(duì)象趨向于有類似的結(jié)果。從本質(zhì)上說(shuō),可以用k近鄰方法進(jìn)行預(yù)測(cè),而不用做任何建模假設(shè),因此該方法也被稱為非參數(shù)預(yù)測(cè)方法。然而,k近鄰方法的效率沒有其它建模方法高,其原因之一是它并沒有考慮到這樣一個(gè)事實(shí),即許多鄰居具有同等疾病關(guān)聯(lián)(即結(jié)果關(guān)聯(lián))(無(wú)論是無(wú)效假設(shè)或備擇假設(shè)),而通過(guò)鄰居的組合是可以提高預(yù)測(cè)精度的。相比之下,OOR利用周邊信息(即,相似性度量)與多個(gè)包含信息的范例關(guān)聯(lián)。在概念層面,OOR可以被看作是k近鄰回歸函數(shù)估算的延伸。

  另一種密切相關(guān)的方法是成員等級(jí)分析法,簡(jiǎn)稱為GoM。從概念上講,GoM通過(guò)引入一組潛在成員變量,假設(shè)該潛在成員變量的分布是合理的,GoM對(duì)結(jié)果的聯(lián)合分布以及協(xié)變量建模,在整合了所有GoM潛在成員變量后,可推導(dǎo)邊際似然用于估算和參考,而不是單一協(xié)變量的特定邊際解釋。在此方面,OOR類似GoM,利用相似性度量獲得分析目標(biāo),但其在建模假設(shè)和相關(guān)實(shí)施上是不同的。OOR的主要優(yōu)點(diǎn)在于,無(wú)需假設(shè)潛在成員的分布,而完全基于經(jīng)驗(yàn)證據(jù)進(jìn)行推斷。

  OOR在下述兩方面有很大的發(fā)展。首先,在邏輯回歸模型下構(gòu)建OOR,用于二元疾病表型的應(yīng)用。通過(guò)將邏輯回歸擴(kuò)展到廣義線性模型,OOR可以應(yīng)用于與其它類型的表型的研究,如連續(xù)、分類或截尾的表型,并適當(dāng)選擇關(guān)聯(lián)函數(shù),對(duì)表型和協(xié)變量的關(guān)系進(jìn)行建模。第二,在其他類型的復(fù)雜協(xié)變量,例如文本串(例如,來(lái)自網(wǎng)絡(luò)搜索)、電子信號(hào)或二維圖像方面的應(yīng)用。此外,協(xié)變量可以是高維數(shù)據(jù),其維度的數(shù)目可遠(yuǎn)遠(yuǎn)大于樣本量。對(duì)于這些不同的應(yīng)用,關(guān)鍵是要選擇背景相關(guān)的相似性度量,來(lái)定義對(duì)象之間的關(guān)于其協(xié)變量特性的“相似性度量”。研究OOR的長(zhǎng)期目標(biāo)是使其適用于大數(shù)據(jù)所產(chǎn)生的各種表型與各類協(xié)變量。

  顯然,本發(fā)明的上述實(shí)施例僅僅是為清楚地說(shuō)明本發(fā)明所作的舉例,而并非是對(duì)本發(fā)明的實(shí)施方式的限定。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),在上述說(shuō)明的基礎(chǔ)上還可以做出其它不同形式的變化或變動(dòng)。這里無(wú)法對(duì)所有的實(shí)施方式予以窮舉。凡是屬于本發(fā)明的技術(shù)方案所引伸出的顯而易見的變化或變動(dòng)仍處于本發(fā)明的保護(hù)范圍之列。

免責(zé)聲明:
本網(wǎng)站部分內(nèi)容來(lái)源于合作媒體、企業(yè)機(jī)構(gòu)、網(wǎng)友提供和互聯(lián)網(wǎng)的公開資料等,僅供參考。本網(wǎng)站對(duì)站內(nèi)所有資訊的內(nèi)容、觀點(diǎn)保持中立,不對(duì)內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。如果有侵權(quán)等問(wèn)題,請(qǐng)及時(shí)聯(lián)系我們,我們將在收到通知后第一時(shí)間妥善處理該部分內(nèi)容。

微信

關(guān)注地?cái)値?kù)官方微信賬號(hào):“ditanku”,每日獲得互聯(lián)網(wǎng)最前沿資訊,熱點(diǎn)產(chǎn)品深度分析!
0條 [查看全部]  相關(guān)評(píng)論
主站蜘蛛池模板: 看电影就来5566先锋av | 在线免费公开视频 | 日本高清免费观看 | 青柠在线视频 | 小骚妇BBBXXX | 国产亚洲精品第一区香蕉 | 蜜桃传媒在线观看入口 | 51国产午夜精品免费视频 | 欧美ZC0O人与善交的最新章节 | 欧美高清另类video | 国产短视频精品区 | 妇少水多18P蜜泬17P亚洲乱 | 国产亚洲精品久久久久久无码网站 | 一本二卡三卡四卡乱码麻豆 | 精品视频免费在线 | 特级毛片s级全部免费 | 亚洲乱色视频在线观看 | 欧美性xxxx18| 亚洲AV蜜桃永久无码精品无码网 | 国产亚洲视频在线 | 最新快播网站 | 菠萝菠萝蜜视频在线看1 | 美女脱三角裤 | 色多多深夜福利免费观看 | 国产午夜精品久久久久九九 | 亚洲色视在线观看视频 | 国产成人啪精视频精东传媒网站 | 牛牛在线精品视频 | 日本高清免费观看 | 24小时日本高清免费看 | 国产360激情盗摄全集 | 俄罗斯videosbest8 | 打开双腿狠狠蹂躏蜜桃臀 | 国产小视频免费看 | 91久久精品一区二区三区 | 国产一区二区三区乱码在线观看 | 美女被C污黄网站免费观看 美女白虎穴 | 久久久久综合一本久道 | 亚洲 欧美 日韩 国产 视频 | 99久久伊人一区二区yy5099 | 四虎影视国产精品亚洲精品 |