
從微基因的姓氏祖源中的祖源相似性一欄中爬取自己與所有地區的祖源相似度
為什么我會有這個沖動:因為微基因只會給出相似度最高地區,祖籍地以及現居地的祖源相似度。然而身為一個跨省混血表示很委屈。
話不多說,教程開始。
用到的軟件:VScode,Chrome
編程語言:Python3.8
編程模塊:chardet,pandas
思路:用Chrome的開發者模式在官網前端上找到相似度,之后將數據記在txt上,選取一小段加密字符串,推測編碼方式,再根據找到的編碼方式解碼,將數據整理輸出成csv
步驟:
1. 找到下圖頁面,看到‘地圖’二字,將script標簽展開,會發現這里定義了一些變量,其中發現了變量名中有similar result等字樣,同時后面定義的字符串中包括一個類似于python字典的東西,雖然鍵我們讀不懂,顯然是被加密的,但是值我們可以看出來都小于1,所以這應該表示這是一個率,所以認定這部分應該和相似度關系很大。所以我們將這個script標簽下的所有東西都copy下來,粘貼到一個txt上。
?
2. 我們開始破解那些謎一樣的鍵。我們利用chardet模塊過程來先識別,先拿一小塊試試。
代碼:
?
結果:
?
有大概93%的概率是utf-8加密,所以我們就利用utf-8方法將這段字符串解碼
代碼:
?
結果:
?
最后發現真的是個地名
3. 最后到了熟悉的讀取處理數據環節
代碼:
?
結果:
?
4. 將字典數據轉換為pandas的series,再輸出到csv中
話不多說,教程開始。
用到的軟件:VScode,Chrome
編程語言:Python3.8
編程模塊:chardet,pandas
思路:用Chrome的開發者模式在官網前端上找到相似度,之后將數據記在txt上,選取一小段加密字符串,推測編碼方式,再根據找到的編碼方式解碼,將數據整理輸出成csv
步驟:
1. 找到下圖頁面,看到‘地圖’二字,將script標簽展開,會發現這里定義了一些變量,其中發現了變量名中有similar result等字樣,同時后面定義的字符串中包括一個類似于python字典的東西,雖然鍵我們讀不懂,顯然是被加密的,但是值我們可以看出來都小于1,所以這應該表示這是一個率,所以認定這部分應該和相似度關系很大。所以我們將這個script標簽下的所有東西都copy下來,粘貼到一個txt上。
?
2. 我們開始破解那些謎一樣的鍵。我們利用chardet模塊過程來先識別,先拿一小塊試試。
代碼:
?
結果:
?
有大概93%的概率是utf-8加密,所以我們就利用utf-8方法將這段字符串解碼
代碼:
?
結果:
?
最后發現真的是個地名
3. 最后到了熟悉的讀取處理數據環節
代碼:
?
結果:
?
4. 將字典數據轉換為pandas的series,再輸出到csv中
2 個回復
贊同來自:
贊同來自:
要回復問題請先登錄或注冊