
從微基因的姓氏祖源中的祖源相似性一欄中爬取自己與所有地區(qū)的祖源相似度
為什么我會(huì)有這個(gè)沖動(dòng):因?yàn)槲⒒蛑粫?huì)給出相似度最高地區(qū),祖籍地以及現(xiàn)居地的祖源相似度。然而身為一個(gè)跨省混血表示很委屈。
話(huà)不多說(shuō),教程開(kāi)始。
用到的軟件:VScode,Chrome
編程語(yǔ)言:Python3.8
編程模塊:chardet,pandas
思路:用Chrome的開(kāi)發(fā)者模式在官網(wǎng)前端上找到相似度,之后將數(shù)據(jù)記在txt上,選取一小段加密字符串,推測(cè)編碼方式,再根據(jù)找到的編碼方式解碼,將數(shù)據(jù)整理輸出成csv
步驟:
1. 找到下圖頁(yè)面,看到‘地圖’二字,將script標(biāo)簽展開(kāi),會(huì)發(fā)現(xiàn)這里定義了一些變量,其中發(fā)現(xiàn)了變量名中有similar result等字樣,同時(shí)后面定義的字符串中包括一個(gè)類(lèi)似于python字典的東西,雖然鍵我們讀不懂,顯然是被加密的,但是值我們可以看出來(lái)都小于1,所以這應(yīng)該表示這是一個(gè)率,所以認(rèn)定這部分應(yīng)該和相似度關(guān)系很大。所以我們將這個(gè)script標(biāo)簽下的所有東西都copy下來(lái),粘貼到一個(gè)txt上。
?
2. 我們開(kāi)始破解那些謎一樣的鍵。我們利用chardet模塊過(guò)程來(lái)先識(shí)別,先拿一小塊試試。
代碼:
?
結(jié)果:
?
有大概93%的概率是utf-8加密,所以我們就利用utf-8方法將這段字符串解碼
代碼:
?
結(jié)果:
?
最后發(fā)現(xiàn)真的是個(gè)地名
3. 最后到了熟悉的讀取處理數(shù)據(jù)環(huán)節(jié)
代碼:
?
結(jié)果:
?
4. 將字典數(shù)據(jù)轉(zhuǎn)換為pandas的series,再輸出到csv中
話(huà)不多說(shuō),教程開(kāi)始。
用到的軟件:VScode,Chrome
編程語(yǔ)言:Python3.8
編程模塊:chardet,pandas
思路:用Chrome的開(kāi)發(fā)者模式在官網(wǎng)前端上找到相似度,之后將數(shù)據(jù)記在txt上,選取一小段加密字符串,推測(cè)編碼方式,再根據(jù)找到的編碼方式解碼,將數(shù)據(jù)整理輸出成csv
步驟:
1. 找到下圖頁(yè)面,看到‘地圖’二字,將script標(biāo)簽展開(kāi),會(huì)發(fā)現(xiàn)這里定義了一些變量,其中發(fā)現(xiàn)了變量名中有similar result等字樣,同時(shí)后面定義的字符串中包括一個(gè)類(lèi)似于python字典的東西,雖然鍵我們讀不懂,顯然是被加密的,但是值我們可以看出來(lái)都小于1,所以這應(yīng)該表示這是一個(gè)率,所以認(rèn)定這部分應(yīng)該和相似度關(guān)系很大。所以我們將這個(gè)script標(biāo)簽下的所有東西都copy下來(lái),粘貼到一個(gè)txt上。
?
2. 我們開(kāi)始破解那些謎一樣的鍵。我們利用chardet模塊過(guò)程來(lái)先識(shí)別,先拿一小塊試試。
代碼:
?
結(jié)果:
?
有大概93%的概率是utf-8加密,所以我們就利用utf-8方法將這段字符串解碼
代碼:
?
結(jié)果:
?
最后發(fā)現(xiàn)真的是個(gè)地名
3. 最后到了熟悉的讀取處理數(shù)據(jù)環(huán)節(jié)
代碼:
?
結(jié)果:
?
4. 將字典數(shù)據(jù)轉(zhuǎn)換為pandas的series,再輸出到csv中
2 個(gè)回復(fù)
贊同來(lái)自:
贊同來(lái)自:
要回復(fù)問(wèn)題請(qǐng)先登錄或注冊(cè)