數(shù)據(jù)分析你放在人人貸的錢都去了哪里?-36大數(shù)據(jù)
作者:貓尾KUN
摘要: 本文使用 python 抓取分析數(shù)據(jù) — 人人貸,并從中獲取貸款用戶。
一、抓取準備 ?? ???
導入必要的庫
import requests # 提取頁面信息 import json from urllib.parse import urlencode from pandas import DataFrame
二、獲取 URL 地址
使用 chrome 瀏覽器 — 檢查功能,因為頁面是動態(tài)加載,我們以獲取頁面的兩個 url 講解:
url1= https://www.renrendai.com/pc/loan/list/loanList?startNum=0&limit=10&_=1504013654389 url2=https://www.renrendai.com/pc/loan/list/loanListstartNum=1&limit=10&_=1504013654389
可以觀察到頁面是隨著 startNum=N 中 N 變化的,所以可以 N 為參數(shù)進行不同頁面信息的抓取
接下來設置一個請求的頭文件信息,目的是包裝一下我們的爬蟲,以防反爬蟲的攔截而抓不到數(shù)據(jù)。
Headers={ ‘Host’:’ www.renrendai.com’, ‘Referer’:’ https://www.renrendai.com/pc/loan.html’, ‘User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36’ }
三、頁面信息提取
采用 requests+json 庫進行提取 :
Res=requests.get(url,Headers) html=json.loads(Res) result=[] ??? if data and 'data' in data.keys(): ??????? loan = data.get('data') ??????? for item in (loan['loans']): ??????????? items={ ??????????????? 'loanId':item.get('loanId'), ??????????????? 'title':item.get('title'), ??????????????? 'amount':item.get('amount') ??????????? } ??????????? result.append(result) ??????? return result
四、數(shù)據(jù)保存
采用 pandas 庫,因為我們的體量并不是很大,因此直接保存為 xlsx 格式就可以了。
data=[] for i in range(10): ??? detail.extend(get_comments(i)) f = DataFrame(data) f.to_excel('renrendai.xlsx')
最后我們就可以得到 excel 格式的數(shù)據(jù)了。
五、貸款項目分布
用excel做餅圖,可以看到貸款項目主要用于資金周轉,占比超過一半,其次是用于裝修,占比18.97%
End.
轉載請注明來自36大數(shù)據(jù)(36dsj.com): 36大數(shù)據(jù) ? 數(shù)據(jù)分析你放在人人貸的錢都去了哪里?