zhengqiang - 勤奮學習祖源分析

23andme是如何做祖源分析系統的？

2015-01-15 ? IP屬地深圳

按熱門排序按默認排序

2 個回復

轉一下知因上的帖子：
http://www.knowgene.com/question/6958[code]??本來是準備發微信公眾號biodata的，但因為今天凌晨發了一篇閑扯的，今天配額沒了。所以先發知因吧，明天再發BioData公眾號?[/code]我并不是專業的群體進化研究者，本文所有內容基于23andme的公開資料以及個人的理解，歡迎各位讀者吐槽交流。
?

0、摘要
23andme和Ancestry.com以祖源分析為主要服務項目，累計收集了近160萬份DNA樣品，并對每份樣品完成了不少于60萬個SNP位點的分型。本文根據23andme公開發表的內容，介紹了23andme祖源成分分析系統的構建和運行，并嘗試探討如何在中國人群中構建類似的系統。
?
1、概述
23andme提供了豐富的祖源分析內容，其中最容易理解并被廣泛分享的是Ancestry Composition。這項功能利用用戶在23andme測得的近60萬個SNP位點，推測用戶的祖源成分，并以百分比的形式給出結果。知因社區中分享的“純”中國人就是Chinese組份為100%的檢測結果。

根據23andme的博客文章，及其在ASHG 2012上發表的poster，其祖源分析系統分為四個組件：

Phasing：判斷allel的來源，推斷出兩條單體型；分類：將單體型換分為大小為100個標記位點的窗口，逐個
用SVM分類，判斷祖源；
平滑：對于SVM在每個單體型上的分類結果利用HMM做平滑，得到每個窗口的各種祖源結果的概率；
校準：利用模擬數據的分析結果校準分類結果
聚合和報告：選取保守程度的閾值，給出最終的祖源成分報告。?

SVM、HMM以及用于Phasing的算法都是統計學習方法，需要訓練數據。構建這個流程所需的數據包括：

參考數據集：祖源成分較為單一的參考數據集，用于構建SVM的訓練集，以及生成用于校準的模擬數據集；
Phased data：已經做好phasing的數據集，主要是千人基因組項目數據，用于Phasing；
群體結構：如何劃分人群的結構，這通常是一個樹狀結構。

?下面分別說說這些東西。
?
2、數據準備

?參考數據集

23andme在構建參考數據集時利用了千人基因組等公開數據，但最主要的數據還是源自其用戶。
在23andme的網站中有一個關于祖源的調查，邀請用戶填寫祖源信息，包括自己的出生地、父母的出生地、爺爺奶奶姥姥姥爺的出生地等信息。如果在爺爺奶奶這一輩的四位都出生于同一個沒有大量移民和殖民地歷史的國家，則認為這個用戶的祖源成分是比較單一的，將其納入參考數據集。血緣關系緊密的用戶只保留一個。同時刪除每個群體的異常值——這有可能是填錯了。最終構建了一個有10418個樣本，超過20000條染色的參考數據集。

Phased Data

沒有特別說明，應該就是千人基因組和Hapmap項目的數據。

群體結構

用戶在填寫出生地信息是根據現在一般意義上的國家填寫的，同時根據地理區域的劃分構建起全球的群體結構。但很多現代國家之間的差異很小，很難區分。因此，23andme通過對參考數據集做主成分分析，將一些差異很小的國家和地區合并，例如"British and Irish"。最終得到一個樹狀的全球群體結構。從機器學習的角度來看，就是一組分類標簽。
?
3、Phasing
23andme選用了被廣泛使用的Phasing軟件beagle。Beagle一般被用于科研，因此在程序運行時要求所有需要分析的數據都準備好，但這顯然不符合23andme的情況——用戶是不斷涌入的。于是他們修改了Beagle，使其可以不斷添加數據，而無需重新運行程序。
?
4、分類、平滑和校準
這是最關鍵的一部，分類。Phase后的被測者和參考數據集的每條染色體都被劃分為由100個標記物組成的無重疊的窗口。利用參考數據集，為每一個窗口訓練出一個SVM多分類器，并將其應用到被測者的數據上。從而得到被測者每個窗口的祖源成分分類結果。
?
這里窗口的大小是個很重要的參數。這個窗口必須足夠小，才能確保窗口內的區域都源自都一個祖先的概率足夠高；這個窗口又不能太小，太小會使得分類器無法工作。于是，23andme選了100個。在23andme的平臺上，每條染色體上得標記物數量介于5000到40000之間，因此每條染色體有50到400個窗口。
?
但因為單體型推斷出錯的概率是很高的，因此在最每個窗口都做完分類后，23andme用HMM模型對分類結果做平滑。沒有找到這個HMM模型構建的具體信息。我猜測是用參考數據集生成模擬數據得到模型，然后再應用到SVM分類器產生的分類結果序列上，得到每個窗口屬于各個祖源成分的可信度。
?
為了驗證這些結果是否正確，23andme模擬了一些個人，對其進行測試。發現這個系統對Scandinavian和Balkans人群的分類準確性比較差，因此做了一個簡單校正。校正方法沒有詳述，可能就是調整了一下判斷閾值之類的。
?
5、聚合和報告
現在得到了每個窗口上每個祖源成分的概率，接下來是輸出最終結果。

23andme選取了70%的可信度作為閾值輸出結果。當一個窗口中的某個祖源成分的可信度高于70%就直接作為結果輸出。如果所有的祖源成分都沒有達到70%，就需要做聚合。例如，在某個窗口中，中國人是40%，日本人是20%，韓國人是20%，中亞人是18%，其他2%。在輸出的時候就把中國人、日本人和韓國人聚合成東亞人，這樣就變成了東亞人80%，中亞人18%，其他2%，輸出東亞人。

在得到每個窗口的輸出結果后，就可以計算百分比得到大家在23andme網站看到的那個結果。
這里的閾值70%是可以調整的，這個閾值越高，結果正確性越高，但粒度越粗；調低閾值，粒度變細，但準確性會下降。
?
6、在中國
雖然還有些細節不明確，但23andme這個系統的整體邏輯很清楚：分單體型、分類、聚合。
?
要實現這樣的一個針對中國人群的系統在開發方面似乎沒有什么難以逾越的困難，麻煩在于23andme自己在初期攢出來的那10418個帶祖源信息的樣本。及時是按中華八芯片算，這也是一千多萬的投入。有沒有可能降低初始的要求？
?
有，同時把祖源成分的顆粒度加大即可。先不要分到較小的區域，按照類似東北漢族，華北漢族，南方漢族，甚至更粗的分類方法來構建這個初始系統，再逐步細化。當然，這個種群結構的樹狀結構需要專業人士的意見。
?
除了出身地，民族成分和姓氏溯源也可以通過這個系統來完成。

要回復問題請先登錄或注冊

zhengqiang

勤奮學習

祖源分析

3986 個討論

進入小組

亚洲精品午夜精品,日本二手网站,国产AⅤ爽AV久久久久成人社区,日本一二三区不收费av

23andme是如何做祖源分析系統的？

與內容相關的鏈接

2 個回復