
利用Ancol PCA法將祖源計(jì)算器結(jié)果與實(shí)際情況相結(jié)合可視化分析
前言:看到題目的小伙伴是不是內(nèi)心有一萬(wàn)個(gè)?是不是想問(wèn)那個(gè)Ancol PCA是什么鬼。不知道正常,因?yàn)檫@詞是我造的233333
為什么叫這個(gè)名字:眾所周知血統(tǒng)的英文是Ancestry,位置的英文是location,這倆單詞取前三個(gè)字母,loc再倒過(guò)來(lái)去掉c,組合在一起不就是Ancol嗎~PCA就是主成分分析的意思不變哦~
下面教程正式開(kāi)始:
編程語(yǔ)言:python3.8
模塊:pandas,numpy,sklearn,matplotlib,geopy
整體思路:先將計(jì)算器的多維數(shù)據(jù)降為二維數(shù)據(jù)并使其作為x,y軸,再將位置數(shù)據(jù)轉(zhuǎn)化為一維數(shù)據(jù)并使其作為z軸,最后組合為三維數(shù)據(jù)并可視化
代碼:
獲取位置經(jīng)緯度
?
可視化:
?
結(jié)果展示:
?
(此示例是利用了韓國(guó)人和吉林省朝鮮族的e11數(shù)據(jù)以及位置信息做出來(lái)的Ancol PCA圖)
此方法的優(yōu)勢(shì):可以將計(jì)算器結(jié)果極為相似的兩個(gè)或多個(gè)族群在散點(diǎn)圖上分散開(kāi),并且實(shí)現(xiàn)了將基因水平與個(gè)體水平較為科學(xué)的相結(jié)合分析
此方法缺點(diǎn):點(diǎn)與點(diǎn)的的歐式距離不能準(zhǔn)確的反映族群間的遺傳距離,此外,對(duì)于暈3D的人來(lái)說(shuō)數(shù)據(jù)的讀取也較為難受。
此方法的意義:以前大家看祖源的分析方法就只是直接看計(jì)算器結(jié)果再問(wèn)問(wèn)哪里人什么族,推斷。最多也就再結(jié)合著傳統(tǒng)的PCA看看。但利用此方法可以將位置信息數(shù)字化,更加科學(xué)的進(jìn)行溯源。
下面是Ancol PCA的流程圖:
?
以及繪制流程圖用的代碼:
?
感謝:
數(shù)據(jù)提供:母系-mtDNA祖源群 ? ?QQ:923891525
提供編程語(yǔ)言:Python ? ? 官網(wǎng):https://www.python.org
提供模塊:
pandas ? ? ? 官網(wǎng):https://pandas.pydata.org
numpy ? ? ? ?官網(wǎng):https://www.numpy.org/
matplotlib ? 官網(wǎng):https://matplotlib.org
sklearn ? ? ? 官網(wǎng):https://scikit-learn.org/stable/
geopy ? ? ? ? 項(xiàng)目網(wǎng)站:https://github.com/geopy/geopy
graphviz ? ? 官網(wǎng):http://www.graphviz.org
??楊昊霖
轉(zhuǎn)載時(shí)請(qǐng)注明出處
為什么叫這個(gè)名字:眾所周知血統(tǒng)的英文是Ancestry,位置的英文是location,這倆單詞取前三個(gè)字母,loc再倒過(guò)來(lái)去掉c,組合在一起不就是Ancol嗎~PCA就是主成分分析的意思不變哦~
下面教程正式開(kāi)始:
編程語(yǔ)言:python3.8
模塊:pandas,numpy,sklearn,matplotlib,geopy
整體思路:先將計(jì)算器的多維數(shù)據(jù)降為二維數(shù)據(jù)并使其作為x,y軸,再將位置數(shù)據(jù)轉(zhuǎn)化為一維數(shù)據(jù)并使其作為z軸,最后組合為三維數(shù)據(jù)并可視化
代碼:
獲取位置經(jīng)緯度
?
可視化:
?
結(jié)果展示:
?
(此示例是利用了韓國(guó)人和吉林省朝鮮族的e11數(shù)據(jù)以及位置信息做出來(lái)的Ancol PCA圖)
此方法的優(yōu)勢(shì):可以將計(jì)算器結(jié)果極為相似的兩個(gè)或多個(gè)族群在散點(diǎn)圖上分散開(kāi),并且實(shí)現(xiàn)了將基因水平與個(gè)體水平較為科學(xué)的相結(jié)合分析
此方法缺點(diǎn):點(diǎn)與點(diǎn)的的歐式距離不能準(zhǔn)確的反映族群間的遺傳距離,此外,對(duì)于暈3D的人來(lái)說(shuō)數(shù)據(jù)的讀取也較為難受。
此方法的意義:以前大家看祖源的分析方法就只是直接看計(jì)算器結(jié)果再問(wèn)問(wèn)哪里人什么族,推斷。最多也就再結(jié)合著傳統(tǒng)的PCA看看。但利用此方法可以將位置信息數(shù)字化,更加科學(xué)的進(jìn)行溯源。
下面是Ancol PCA的流程圖:
?
以及繪制流程圖用的代碼:
?
感謝:
數(shù)據(jù)提供:母系-mtDNA祖源群 ? ?QQ:923891525
提供編程語(yǔ)言:Python ? ? 官網(wǎng):https://www.python.org
提供模塊:
pandas ? ? ? 官網(wǎng):https://pandas.pydata.org
numpy ? ? ? ?官網(wǎng):https://www.numpy.org/
matplotlib ? 官網(wǎng):https://matplotlib.org
sklearn ? ? ? 官網(wǎng):https://scikit-learn.org/stable/
geopy ? ? ? ? 項(xiàng)目網(wǎng)站:https://github.com/geopy/geopy
graphviz ? ? 官網(wǎng):http://www.graphviz.org
??楊昊霖
轉(zhuǎn)載時(shí)請(qǐng)注明出處
0 個(gè)回復(fù)
要回復(fù)問(wèn)題請(qǐng)先登錄或注冊(cè)