亚洲精品午夜精品,日本二手网站,国产AⅤ爽AV久久久久成人社区,日本一二三区不收费av

使用 WeGene 需要啟用 Cookies, 請啟用后刷新頁面獲得更好的體驗
yhlhhhhh yhlhhhhh - 每日與生物工程斗智斗勇到謝頂 綜合討論組

從微基因的姓氏祖源中的祖源相似性一欄中爬取自己與所有地區的祖源相似度

為什么我會有這個沖動:因為微基因只會給出相似度最高地區,祖籍地以及現居地的祖源相似度。然而身為一個跨省混血表示很委屈。
話不多說,教程開始。
用到的軟件:VScode,Chrome
編程語言:Python3.8
編程模塊:chardet,pandas
思路:用Chrome的開發者模式在官網前端上找到相似度,之后將數據記在txt上,選取一小段加密字符串,推測編碼方式,再根據找到的編碼方式解碼,將數據整理輸出成csv
步驟:
1. 找到下圖頁面,看到‘地圖’二字,將script標簽展開,會發現這里定義了一些變量,其中發現了變量名中有similar result等字樣,同時后面定義的字符串中包括一個類似于python字典的東西,雖然鍵我們讀不懂,顯然是被加密的,但是值我們可以看出來都小于1,所以這應該表示這是一個率,所以認定這部分應該和相似度關系很大。所以我們將這個script標簽下的所有東西都copy下來,粘貼到一個txt上。

截屏2021-07-15_下午11.05_.31_.png

?
2. 我們開始破解那些謎一樣的鍵。我們利用chardet模塊過程來先識別,先拿一小塊試試。
代碼:

截屏2021-07-12_下午4.44_.01_.png

?
結果:

截屏2021-07-12_下午4.44_.21_.png

?
有大概93%的概率是utf-8加密,所以我們就利用utf-8方法將這段字符串解碼
代碼:

截屏2021-07-12_下午4.44_.32_.png

?
結果:

截屏2021-07-12_下午4.44_.48_.png

?
最后發現真的是個地名
3. 最后到了熟悉的讀取處理數據環節
代碼:

截屏2021-07-12_下午4.45_.10_.png

?
結果:

截屏2021-07-12_下午4.45_.34_.png

?
4. 將字典數據轉換為pandas的series,再輸出到csv中
2021-07-15 ? IP屬地北京
按熱門排序    按默認排序

2 個回復

-1882a849520e2072.jpg
yhlhhhhh - 每日與生物工程斗智斗勇到謝頂
前排提示!!!注意只能提取自己數據哦,禁止在未經別人允許情況下提取他人數據(求生欲滿滿)

要回復問題請先登錄注冊

  • <track id="ffr4e"></track>

      <dfn id="ffr4e"></dfn>

      主站蜘蛛池模板: 曲松县| 石河子市| 丘北县| 常宁市| 敦煌市| 荣成市| 治县。| 达州市| 高邮市| 肇源县| 和田县| 商南县| 宁国市| 哈密市| 泉州市| 新和县| 九龙城区| 外汇| 兰西县| 铜川市| 灵寿县| 吉安市| 疏勒县| 西藏| 元江| 罗平县| 西安市| 渝北区| 罗平县| 宁远县| 镶黄旗| 贵南县| 永兴县| 申扎县| 满洲里市| 博客| 高邮市| 临西县| 峨山| 博客| 芒康县|