
發現論壇里許多朋友對wegene祖源標桿取樣地有誤解
wegene給出了祖源取樣地的坐標,但是這不代表樣本就是在這里取的,很可能是一個混合后的平均值甚至是為了迎合客戶而編造的坐標(即:wegene自己也不一定清楚具體的取樣地)
事實上,祖源分析的標桿樣本并不是wegene自己去取樣的,而是來源于各種公共數據庫,這一點陳總在3年前就已經說明了,見帖子http://www.sofreetech.com/question/228
@chengang
現在WeGene用到的數據一部分來自公共數據集,例如千人基因組、HGDP等等,另一部分是WeGene自己的數據。
千人基因組、HGDP等數據是用在了祖源成分分析的模型構建中。@wang 通過一些人類學的規則,篩選出了500多個有可能能代表各個族群的樣本,然后@ 通過使用一些分析方法再篩掉了一些異常的樣本,最終得到我們的祖源成分的訓練數據集。
另外,WeGene自己的數據主要是用在諸如有多少人給你有一樣的基因型,以及類似運動基因中各項內容的分數分布的計算上,做一些中國人的群體統計的分析。
各種具體的算法我們會整理之后逐步開源的,相關技術的白皮書也會發布出來,數據的使用會有官方的倫理委員會來審查,請大家指點和監督:)
事實上,祖源分析的標桿樣本并不是wegene自己去取樣的,而是來源于各種公共數據庫,這一點陳總在3年前就已經說明了,見帖子http://www.sofreetech.com/question/228
@chengang
現在WeGene用到的數據一部分來自公共數據集,例如千人基因組、HGDP等等,另一部分是WeGene自己的數據。
千人基因組、HGDP等數據是用在了祖源成分分析的模型構建中。@wang 通過一些人類學的規則,篩選出了500多個有可能能代表各個族群的樣本,然后@ 通過使用一些分析方法再篩掉了一些異常的樣本,最終得到我們的祖源成分的訓練數據集。
另外,WeGene自己的數據主要是用在諸如有多少人給你有一樣的基因型,以及類似運動基因中各項內容的分數分布的計算上,做一些中國人的群體統計的分析。
各種具體的算法我們會整理之后逐步開源的,相關技術的白皮書也會發布出來,數據的使用會有官方的倫理委員會來審查,請大家指點和監督:)
16 個回復
這兩幅圖廣府地區都是自成一體,客家和粵西卻相近。
贊同來自:
贊同來自:
贊同來自:
贊同來自:
贊同來自:
學博士后
祖源分析釋疑
WeGene飛速發展,在高端大氣上檔次的道路上越走越遠,與此同時,客戶對祖源分析的認識水平愈發深入,需求也日益膨脹:能否再細化細化細化???
這里開貼針對客戶反復提及的問題整理作答:
1. WeGene的祖源分析參考數據取自哪里?
千人基因組、HGDP和Human Origin項目,根據需要對上述數據進行分類、clean、整合。
2. WeGene的祖源分析能否再細化?
Y染色體和線粒體,我們已涵蓋了充足的位點,只要有足夠樣本能夠明確更下游的支系拓撲關系,我們就會馬上更新到您的譜系樹上;對常染色體,在半年內會新增加一批東亞參考人群數據,包括古代和高度區域化的現代樣本,將會給客戶提供更細化更準確的祖源構成結果。對歐洲人群,也將馬上采用相關古人數據進行祖源分析,解決祖源源流分歧,所用數據來自:
Lazaridis, I., et al. Ancient human genomes suggest three ancestral populations for present-day Europeans. Nature 513, 409-413, (2014).
Jones, E. R., et al. Upper Palaeolithic genomes reveal deep roots of modern Eurasians. Nat Commun. 6, 8912, (2015).
祖源的細化細化再細化在技術上是一件很難的事情,但我們在不斷努力!
贊同來自:
【關于“祖源分析”的叫法及權重問題】
祖源分析是否改名需要和我司市場銷售等人員溝通;
祖源成分比例僅是用常染色體計算的,并沒有把Y和mt列入。
【關于祖源分析的原始數據庫的問題】
南北漢族參考數據的選擇是經過篩選的,并不是按地域,而是根據其遺傳分層,北方漢族使用的并不是北京漢族,而是哈佛David Reich實驗室Human Origin芯片里的“北方漢“,覆蓋面比較廣,我們找出其中相對純的樣本作為參考;南方漢族使用的是HGDP的漢族,剔除了其中的明顯混合個體;江浙地區屬于中部,南部混合,不是說現在的江浙滬就一定要有多大比例的南方漢族成分;通古斯用Ulchi,很有代表性;沒有布里亞特數據;有Yakut。
【關于增加一些上級分類等問題】
苗族不屬于Sino-Tibetan,而是Hmong-Mien;族群的分類有多種,可以按照語言、地域、現有民族劃分等,如何分類需要市場銷售人員考慮大部分用戶的理解和接受程度,大部分人可能都沒有聽過阿爾泰語系,會讓普通用戶更迷茫;
官方的民族分類很重要,民族問題很棘手,但首要一條是政治正確,最好不要用遺傳結果來否定官方民族劃分。
【關于日韓的問題】
日韓本來就是混血的,其實現今的民族群體都是混血的,日韓有和我們相似的成分,也有自己的獨特之處,在沒有古DNA的情況下,想看日韓的獨特成分是否在所測樣本出現,那也就只能用現代的日韓樣本做參考,市場人員也有這方面推廣需求;
日韓在遺傳上也是東北亞的,跟南方族群有顯著差別,而和北方族群更近;
贊同來自:
贊同來自:
然后我覺得最大的誤解是,平均取樣點,不是說就在這里取樣。
如果在A點和B點取樣,中點就是AB之間,但是不會是A,也不會是B。
贊同來自: horinee
贊同來自:
贊同來自:
贊同來自: 元月十號
贊同來自:
贊同來自:
贊同來自:
要回復問題請先登錄或注冊