
基因雜談……
●人的基因組大小大概是 3G 左右(30億位點(diǎn))。
青春版,60G堿基數(shù),粗略對(duì)應(yīng) 20×?左右的測(cè)序深度;
全基因組,90G堿基數(shù),粗略對(duì)應(yīng) 30×?左右的測(cè)序深度。
這里有一個(gè)測(cè)序深度(sequencing depth,一般用 × 乘數(shù)表示)的概念,指的是基因組上的一個(gè)堿基平均被測(cè)到的次數(shù)。
5×?就是一個(gè)位點(diǎn)平均被測(cè)到 5 次,注意這里是平均數(shù),所以實(shí)際情況是,有的地方測(cè)到的可能是 3次(小于平均數(shù)),有的地方可能測(cè)到 8次(大于平均數(shù))。
理論上,測(cè)序深度越高越好。但是基因組的覆蓋度、變異檢測(cè)的準(zhǔn)確性等,會(huì)隨著測(cè)序深度升高慢慢趨向于穩(wěn)定。所以不管是科研還是臨床場(chǎng)景,出于成本的考慮一般不會(huì)無(wú)限制的測(cè)。
?
一般認(rèn)為 20× 左右,個(gè)體的基因組覆蓋度、變異檢測(cè)的準(zhǔn)確性等就已經(jīng)足夠好了,足以支持大部分變異的檢測(cè)。
如果自己會(huì)使用原始數(shù)據(jù)自己折騰分析的話的話,30× 會(huì)更好,對(duì)于一些復(fù)雜變異,比如拷貝數(shù)變異、結(jié)構(gòu)變異的分析支持會(huì)更好。
●青春版:深度20,提供 vpf , cram 和 y bam ,你要 fastq 的話要用 samtools 等工具自己從 cram 轉(zhuǎn)
●美國(guó)那個(gè)Nebula Genomics(星云全基因組)有個(gè)Ultra版,收費(fèi)999美元,測(cè)出來(lái)的個(gè)人基因的數(shù)據(jù)最大高達(dá)270個(gè)G,收費(fèi)299美元的正常版的全基因組測(cè)出來(lái)的個(gè)人基因的數(shù)據(jù)大小為100G左右,啥時(shí)候微基因也能整一個(gè)6000-7000的全基因組測(cè)序,數(shù)據(jù)包超過(guò)200個(gè)G,數(shù)據(jù)大小要是超級(jí)大,感覺就能對(duì)標(biāo)華大基因了,期待微基因產(chǎn)品線的更新
你提到的100x級(jí)別WGS對(duì)國(guó)內(nèi)市場(chǎng)來(lái)說(shuō)有點(diǎn)卷,而且星云在用hs38參考,而國(guó)內(nèi)還在用比較老的human g1k v37參考,要涉及坐標(biāo)轉(zhuǎn)換的問(wèn)題,50x的應(yīng)該可以考慮下
●迄今為止最完整的人類基因組T2T-CHM13,其中包括30.55億個(gè)堿基對(duì)(bp:base pair),由22條常染色體和X染色體無(wú)縫組裝而成。此時(shí),基因組的缺口僅剩5個(gè),這項(xiàng)研究也被認(rèn)為是首個(gè)完整的人類基因組測(cè)序。(基因來(lái)自一個(gè)葡萄胎)
人體內(nèi)的大多數(shù)細(xì)胞都包含兩個(gè)基因組——一個(gè)來(lái)自父親,一個(gè)來(lái)自母親。
●正常人群的染色體共有23對(duì),46條染色體。其中第一對(duì)染色體最大,其次是第二對(duì)染色體,然后是3號(hào),一直排到22號(hào)染色體。1-22對(duì)染色體是常染色體,第23對(duì)染色體,也就是最后一對(duì)染色體為性染色體,正常男性是XY,正常女性是XX。
長(zhǎng)相跟常染色體相關(guān)
性染色體X具有1098個(gè)基因,Y只有78個(gè)基因,是X基因的零頭。(人體有2.5萬(wàn)個(gè)基因)因此,性染色體YY缺乏數(shù)百個(gè)已經(jīng)知道的生存必要的基因,以及X染色體中大量的作用不明的部分。宏觀表現(xiàn)為:YY染色體會(huì)在胚胎早期致死。
●偽基因就是因突變不再起作用的基因,人類整個(gè)基因組中發(fā)現(xiàn)了大約有11,224個(gè)偽基因,這些都是人類退化的證據(jù)和痕跡。在偽基因中,我們發(fā)現(xiàn)了各種基因遺跡,比如厚毛的皮毛,可以消化很多植物的長(zhǎng)腸,消失的尾巴,像成年猿一樣粗壯的下顎。還有一個(gè)偽基因是曾經(jīng)可以制造維生素 C 的,幾乎所有的哺乳動(dòng)物,都可以自己體內(nèi)制造維生素 C 有助于抗壞血酸,但包括我們?nèi)祟惖撵`長(zhǎng)類動(dòng)物都做不到了。
●首先,黃金家族和劉邦家族的Y染色體單倍群都沒(méi)有被最終確認(rèn),即使伊朗合贊汗后裔的單倍群是O2a,或者確認(rèn)是M155的分支,也不能說(shuō)明什么。首先,即使二者單倍群一樣,也不能說(shuō)誰(shuí)和誰(shuí)就是一家,誰(shuí)就是誰(shuí)的后裔,都是幾千幾萬(wàn)前的事情,已經(jīng)沒(méi)有任何關(guān)系了。人有23對(duì)染色體,Y染色體只是其中一只性染色體,由父親傳給兒子。但是,母親也有只傳給女兒叫線粒體,以色列就認(rèn)母系。民族是文化認(rèn)同,絕對(duì)不是基因認(rèn)同。比如草原上的乃蠻部,一部分融入蒙古就是蒙古族了,一部分融入哈薩克就是哈薩克族了。即使黃金家族和劉邦家族的單倍群相似,也不具意義,因?yàn)槿祟惗际菑姆侵拮叱鰜?lái)的,都來(lái)自于24萬(wàn)年前非洲的同一位父系。O系也不過(guò)是3-5萬(wàn)年前經(jīng)過(guò)東南亞從云南進(jìn)入東亞地區(qū)的,歷史都不長(zhǎng),人類本身都是一家人,人不能總是活在歷史當(dāng)中,一切向前看!
青春版,60G堿基數(shù),粗略對(duì)應(yīng) 20×?左右的測(cè)序深度;
全基因組,90G堿基數(shù),粗略對(duì)應(yīng) 30×?左右的測(cè)序深度。
這里有一個(gè)測(cè)序深度(sequencing depth,一般用 × 乘數(shù)表示)的概念,指的是基因組上的一個(gè)堿基平均被測(cè)到的次數(shù)。
5×?就是一個(gè)位點(diǎn)平均被測(cè)到 5 次,注意這里是平均數(shù),所以實(shí)際情況是,有的地方測(cè)到的可能是 3次(小于平均數(shù)),有的地方可能測(cè)到 8次(大于平均數(shù))。
理論上,測(cè)序深度越高越好。但是基因組的覆蓋度、變異檢測(cè)的準(zhǔn)確性等,會(huì)隨著測(cè)序深度升高慢慢趨向于穩(wěn)定。所以不管是科研還是臨床場(chǎng)景,出于成本的考慮一般不會(huì)無(wú)限制的測(cè)。
?
一般認(rèn)為 20× 左右,個(gè)體的基因組覆蓋度、變異檢測(cè)的準(zhǔn)確性等就已經(jīng)足夠好了,足以支持大部分變異的檢測(cè)。
如果自己會(huì)使用原始數(shù)據(jù)自己折騰分析的話的話,30× 會(huì)更好,對(duì)于一些復(fù)雜變異,比如拷貝數(shù)變異、結(jié)構(gòu)變異的分析支持會(huì)更好。
●青春版:深度20,提供 vpf , cram 和 y bam ,你要 fastq 的話要用 samtools 等工具自己從 cram 轉(zhuǎn)
●美國(guó)那個(gè)Nebula Genomics(星云全基因組)有個(gè)Ultra版,收費(fèi)999美元,測(cè)出來(lái)的個(gè)人基因的數(shù)據(jù)最大高達(dá)270個(gè)G,收費(fèi)299美元的正常版的全基因組測(cè)出來(lái)的個(gè)人基因的數(shù)據(jù)大小為100G左右,啥時(shí)候微基因也能整一個(gè)6000-7000的全基因組測(cè)序,數(shù)據(jù)包超過(guò)200個(gè)G,數(shù)據(jù)大小要是超級(jí)大,感覺就能對(duì)標(biāo)華大基因了,期待微基因產(chǎn)品線的更新
你提到的100x級(jí)別WGS對(duì)國(guó)內(nèi)市場(chǎng)來(lái)說(shuō)有點(diǎn)卷,而且星云在用hs38參考,而國(guó)內(nèi)還在用比較老的human g1k v37參考,要涉及坐標(biāo)轉(zhuǎn)換的問(wèn)題,50x的應(yīng)該可以考慮下
●迄今為止最完整的人類基因組T2T-CHM13,其中包括30.55億個(gè)堿基對(duì)(bp:base pair),由22條常染色體和X染色體無(wú)縫組裝而成。此時(shí),基因組的缺口僅剩5個(gè),這項(xiàng)研究也被認(rèn)為是首個(gè)完整的人類基因組測(cè)序。(基因來(lái)自一個(gè)葡萄胎)
人體內(nèi)的大多數(shù)細(xì)胞都包含兩個(gè)基因組——一個(gè)來(lái)自父親,一個(gè)來(lái)自母親。
●正常人群的染色體共有23對(duì),46條染色體。其中第一對(duì)染色體最大,其次是第二對(duì)染色體,然后是3號(hào),一直排到22號(hào)染色體。1-22對(duì)染色體是常染色體,第23對(duì)染色體,也就是最后一對(duì)染色體為性染色體,正常男性是XY,正常女性是XX。
長(zhǎng)相跟常染色體相關(guān)
性染色體X具有1098個(gè)基因,Y只有78個(gè)基因,是X基因的零頭。(人體有2.5萬(wàn)個(gè)基因)因此,性染色體YY缺乏數(shù)百個(gè)已經(jīng)知道的生存必要的基因,以及X染色體中大量的作用不明的部分。宏觀表現(xiàn)為:YY染色體會(huì)在胚胎早期致死。
●偽基因就是因突變不再起作用的基因,人類整個(gè)基因組中發(fā)現(xiàn)了大約有11,224個(gè)偽基因,這些都是人類退化的證據(jù)和痕跡。在偽基因中,我們發(fā)現(xiàn)了各種基因遺跡,比如厚毛的皮毛,可以消化很多植物的長(zhǎng)腸,消失的尾巴,像成年猿一樣粗壯的下顎。還有一個(gè)偽基因是曾經(jīng)可以制造維生素 C 的,幾乎所有的哺乳動(dòng)物,都可以自己體內(nèi)制造維生素 C 有助于抗壞血酸,但包括我們?nèi)祟惖撵`長(zhǎng)類動(dòng)物都做不到了。
●首先,黃金家族和劉邦家族的Y染色體單倍群都沒(méi)有被最終確認(rèn),即使伊朗合贊汗后裔的單倍群是O2a,或者確認(rèn)是M155的分支,也不能說(shuō)明什么。首先,即使二者單倍群一樣,也不能說(shuō)誰(shuí)和誰(shuí)就是一家,誰(shuí)就是誰(shuí)的后裔,都是幾千幾萬(wàn)前的事情,已經(jīng)沒(méi)有任何關(guān)系了。人有23對(duì)染色體,Y染色體只是其中一只性染色體,由父親傳給兒子。但是,母親也有只傳給女兒叫線粒體,以色列就認(rèn)母系。民族是文化認(rèn)同,絕對(duì)不是基因認(rèn)同。比如草原上的乃蠻部,一部分融入蒙古就是蒙古族了,一部分融入哈薩克就是哈薩克族了。即使黃金家族和劉邦家族的單倍群相似,也不具意義,因?yàn)槿祟惗际菑姆侵拮叱鰜?lái)的,都來(lái)自于24萬(wàn)年前非洲的同一位父系。O系也不過(guò)是3-5萬(wàn)年前經(jīng)過(guò)東南亞從云南進(jìn)入東亞地區(qū)的,歷史都不長(zhǎng),人類本身都是一家人,人不能總是活在歷史當(dāng)中,一切向前看!
2 個(gè)回復(fù)
贊同來(lái)自:
贊同來(lái)自:
要回復(fù)問(wèn)題請(qǐng)先登錄或注冊(cè)