Sorano 綜合討論組

發現論壇里許多朋友對wegene祖源標桿取樣地有誤解

wegene給出了祖源取樣地的坐標，但是這不代表樣本就是在這里取的，很可能是一個混合后的平均值甚至是為了迎合客戶而編造的坐標（即：wegene自己也不一定清楚具體的取樣地）

事實上，祖源分析的標桿樣本并不是wegene自己去取樣的，而是來源于各種公共數據庫，這一點陳總在3年前就已經說明了，見帖子http://www.sofreetech.com/question/228

@chengang
現在WeGene用到的數據一部分來自公共數據集，例如千人基因組、HGDP等等，另一部分是WeGene自己的數據。

千人基因組、HGDP等數據是用在了祖源成分分析的模型構建中。@wang 通過一些人類學的規則，篩選出了500多個有可能能代表各個族群的樣本，然后@ 通過使用一些分析方法再篩掉了一些異常的樣本，最終得到我們的祖源成分的訓練數據集。

另外，WeGene自己的數據主要是用在諸如有多少人給你有一樣的基因型，以及類似運動基因中各項內容的分數分布的計算上，做一些中國人的群體統計的分析。

各種具體的算法我們會整理之后逐步開源的，相關技術的白皮書也會發布出來，數據的使用會有官方的倫理委員會來審查，請大家指點和監督：）

2019-04-16 ? IP屬地日本

按熱門排序按默認排序

16 個回復

havefun

相似問題突然發現

這兩幅圖廣府地區都是自成一體，客家和粵西卻相近。

黑麥威士忌 - 宇宙和時間是這個世界上最浪漫的東西.

確實啊

greenthum

祖源相似度是個問題，我比潮汕地區及周圍的泉州廈門比例還高。而我在四川。

開順順

- ヾ(??▽?)ノ? 大家順順利利開開心心

好專業哦⊙?⊙！

havefun

這一直是個謎，微基因也不給個注釋。同樣謎的還有祖源相似性。比如，a客戶和b省祖源相似為50，但b省下任一城市相似都低于50。微基因也未肯給出解釋。

Sorano

http://www.sofreetech.com/question/464

學博士后
祖源分析釋疑
WeGene飛速發展，在高端大氣上檔次的道路上越走越遠，與此同時，客戶對祖源分析的認識水平愈發深入，需求也日益膨脹：能否再細化細化細化？？？

這里開貼針對客戶反復提及的問題整理作答:

1. WeGene的祖源分析參考數據取自哪里？
千人基因組、HGDP和Human Origin項目，根據需要對上述數據進行分類、clean、整合。

2. WeGene的祖源分析能否再細化？
Y染色體和線粒體，我們已涵蓋了充足的位點，只要有足夠樣本能夠明確更下游的支系拓撲關系，我們就會馬上更新到您的譜系樹上；對常染色體，在半年內會新增加一批東亞參考人群數據，包括古代和高度區域化的現代樣本，將會給客戶提供更細化更準確的祖源構成結果。對歐洲人群，也將馬上采用相關古人數據進行祖源分析，解決祖源源流分歧，所用數據來自：
Lazaridis, I., et al. Ancient human genomes suggest three ancestral populations for present-day Europeans. Nature 513, 409-413, (2014).
Jones, E. R., et al. Upper Palaeolithic genomes reveal deep roots of modern Eurasians. Nat Commun. 6, 8912, (2015).
祖源的細化細化再細化在技術上是一件很難的事情，但我們在不斷努力！

Sorano

之前@wang也回答過相關問題，見http://www.sofreetech.com/question/614

【關于“祖源分析”的叫法及權重問題】
祖源分析是否改名需要和我司市場銷售等人員溝通；
祖源成分比例僅是用常染色體計算的，并沒有把Y和mt列入。
【關于祖源分析的原始數據庫的問題】
南北漢族參考數據的選擇是經過篩選的，并不是按地域，而是根據其遺傳分層，北方漢族使用的并不是北京漢族，而是哈佛David Reich實驗室Human Origin芯片里的“北方漢“，覆蓋面比較廣，我們找出其中相對純的樣本作為參考；南方漢族使用的是HGDP的漢族，剔除了其中的明顯混合個體；江浙地區屬于中部，南部混合，不是說現在的江浙滬就一定要有多大比例的南方漢族成分；通古斯用Ulchi，很有代表性；沒有布里亞特數據；有Yakut。
【關于增加一些上級分類等問題】
苗族不屬于Sino-Tibetan，而是Hmong-Mien；族群的分類有多種，可以按照語言、地域、現有民族劃分等，如何分類需要市場銷售人員考慮大部分用戶的理解和接受程度，大部分人可能都沒有聽過阿爾泰語系，會讓普通用戶更迷茫；
官方的民族分類很重要，民族問題很棘手，但首要一條是政治正確，最好不要用遺傳結果來否定官方民族劃分。
【關于日韓的問題】
日韓本來就是混血的，其實現今的民族群體都是混血的，日韓有和我們相似的成分，也有自己的獨特之處，在沒有古DNA的情況下，想看日韓的獨特成分是否在所測樣本出現，那也就只能用現代的日韓樣本做參考，市場人員也有這方面推廣需求；
日韓在遺傳上也是東北亞的，跟南方族群有顯著差別，而和北方族群更近；

Sorano

這里再重復說一遍：wegene給出了祖源取樣地的坐標，但是這不代表樣本（源于公共數據庫）就是在這里取的，很可能是一個混合后的平均值甚至是為了迎合客戶而編造的坐標（即：wegene自己也不一定清楚具體的取樣地）

失落的CSMD3基因

樓主應該不是WeGene的，主帖只是引用。
然后我覺得最大的誤解是，平均取樣點，不是說就在這里取樣。
如果在A點和B點取樣，中點就是AB之間，但是不會是A，也不會是B。

具體族群按樣本取樣地點統計，經緯度為代表性采樣區域中心。

Sorano

類似的，wegene給出的苗族坐標也有問題，那個坐標對應的地方幾百年沒有苗族的記錄了

Sorano

在不清楚實際坐標的情況下，強行寫上坐標，個人認為這種行為是畫蛇添足

yiranMOL - ybllyr

還是要親自取樣啊，并且多取樣，原來用的不是自己的數據…有點暈

元月十號

- 【杜】O-MF2636/外公【崔】T-Y13290/外婆【張】O-F723

?厲害

Sorano

同理，北漢并不是在河南信陽一地取樣，南漢也并不是在福建一地取樣，而更有可能是多個省的混合（在hgdp，1000genomes，hapmap等數據庫里，漢族這樣龐大的族群的樣本顯然是多地取樣的）

Sorano

這樣應該就可以解決http://www.sofreetech.com/question/15131里的疑問了

要回復問題請先登錄或注冊

亚洲精品午夜精品,日本二手网站,国产AⅤ爽AV久久久久成人社区,日本一二三区不收费av

發現論壇里許多朋友對wegene祖源標桿取樣地有誤解

與內容相關的鏈接

16 個回復