新聞中心
這里有您想知道的互聯網營銷解決方案
創(chuàng)新互聯Python教程:python中如何處理異常值
打開pycharm開發(fā)工具,在運行窗口輸入命令:

彭水苗族土家族網站建設公司成都創(chuàng)新互聯公司,彭水苗族土家族網站設計制作,有大型網站制作公司豐富經驗。已為彭水苗族土家族近1000家提供企業(yè)網站建設服務。企業(yè)網站搭建\外貿營銷網站建設要多少錢,請找那個售后服務好的彭水苗族土家族做網站的公司定做!
import pandas as pd #導入pandas庫
輸入數據集。
data=pd.DataFrame({'name':['A','B','C','D','E','F','G'],'cost':[2,127,4,6,3,13,14],'sales':[13,18,32,54,23,33,44]})
print(data)通過z-score方法判斷異常值,即對原始值X進行正態(tài)標準化:(X-mean(X))/std(X),根據計算的結果判斷樣本值與中心的偏離程度。
df1=data.copy()#為了不影響原始數據集,復制數據集data print(df1)
按列計算均值和標準差。
df1['cost']=(df1['cost']-df1['cost'].mean())/df1['cost'].std()#標準化cost_z列
對sales列進行標準化。
df1['sales']=(df1['sales']-df1['sales'].mean())/df1['sales'].std()#標準化cost_z列 df1['sales']
查看標準化后的數據集。
print(df1)
標準化后的絕對值越大,數據越有可能異常,是否異常根據設定的閾值判斷。
假設cost列閾值為2,通過下面的方法找到異常值。
df1['cost'].abs()>2#判斷數據是否異常 data[df1['cost'].abs()>2]#取出原數據集中的異常點
python學習網,大量的免費python視頻教程,歡迎在線學習!
網站標題:創(chuàng)新互聯Python教程:python中如何處理異常值
網頁路徑:http://m.fisionsoft.com.cn/article/dpepjpi.html


咨詢
建站咨詢
