夜夜添无码一区二区三区_久久无码人妻热线精品_在线观看亚洲AV日韩A∨_at在线日本国产成人免费_一本一道人人妻人人妻αV

環(huán)球速訊:【機器學習】集成學習代碼練習(隨機森林、GBDT、XGBoost、LightGBM等)

首頁 > 焦點 > 正文
2022-12-26 22:56:54

來源:

本文是中國大學慕課《機器學習》的“集成學習”章節(jié)的課后代碼。

課程地址:

https://www.icourse163.org/course/WZU-1464096179


(相關(guān)資料圖)

課程完整代碼:

https://github.com/fengdu78/WZU-machine-learning-course

代碼修改并注釋:黃海廣,haiguang2000@wzu.edu.cn

importwarningswarnings.filterwarnings("ignore")importpandasaspdfromsklearn.model_selectionimporttrain_test_split

生成數(shù)據(jù)

生成12000行的數(shù)據(jù),訓練集和測試集按照3:1劃分

fromsklearn.datasetsimportmake_hastie_10_2data,target=make_hastie_10_2()

X_train,X_test,y_train,y_test=train_test_split(data,target,random_state=123)X_train.shape,X_test.shape

((9000, 10), (3000, 10))

模型對比

對比六大模型,都使用默認參數(shù)

fromsklearn.linear_modelimportLogisticRegressionfromsklearn.ensembleimportRandomForestClassifierfromsklearn.ensembleimportAdaBoostClassifierfromsklearn.ensembleimportGradientBoostingClassifierfromxgboostimportXGBClassifierfromlightgbmimportLGBMClassifierfromsklearn.model_selectionimportcross_val_scoreimporttimeclf1=LogisticRegression()clf2=RandomForestClassifier()clf3=AdaBoostClassifier()clf4=GradientBoostingClassifier()clf5=XGBClassifier()clf6=LGBMClassifier()forclf,labelinzip([clf1,clf2,clf3,clf4,clf5,clf6],["LogisticRegression","RandomForest","AdaBoost","GBDT","XGBoost","LightGBM"]):start=time.time()scores=cross_val_score(clf,X_train,y_train,scoring="accuracy",cv=5)end=time.time()running_time=end-startprint("Accuracy:%0.8f (+/-%0.2f),耗時%0.2f秒。模型名稱[%s]"%(scores.mean(),scores.std(),running_time,label))

Accuracy: 0.47488889 (+/- 0.00),耗時0.04秒。模型名稱[Logistic Regression]Accuracy: 0.88966667 (+/- 0.01),耗時16.34秒。模型名稱[Random Forest]Accuracy: 0.88311111 (+/- 0.00),耗時3.39秒。模型名稱[AdaBoost]Accuracy: 0.91388889 (+/- 0.01),耗時13.14秒。模型名稱[GBDT]Accuracy: 0.92977778 (+/- 0.00),耗時3.60秒。模型名稱[XGBoost]Accuracy: 0.93188889 (+/- 0.01),耗時0.58秒。模型名稱[LightGBM]

對比了六大模型,可以看出,邏輯回歸速度最快,但準確率最低。而LightGBM,速度快,而且準確率最高,所以,現(xiàn)在處理結(jié)構(gòu)化數(shù)據(jù)的時候,大部分都是用LightGBM算法。

XGBoost的使用 1.原生XGBoost的使用

importxgboostasxgb#記錄程序運行時間importtimestart_time=time.time()#xgb矩陣賦值xgb_train=xgb.DMatrix(X_train,y_train)xgb_test=xgb.DMatrix(X_test,label=y_test)##參數(shù)params={"booster":"gbtree",#"silent":1,#設置成1則沒有運行信息輸出,最好是設置為0.#"nthread":7,#cpu線程數(shù)默認最大"eta":0.007,#如同學習率"min_child_weight":3,#這個參數(shù)默認是1,是每個葉子里面h的和至少是多少,對正負樣本不均衡時的0-1分類而言#,假設 h 在0.01 附近,min_child_weight 為 1 意味著葉子節(jié)點中最少需要包含 100個樣本。#這個參數(shù)非常影響結(jié)果,控制葉子節(jié)點中二階導的和的最小值,該參數(shù)值越小,越容易 overfitting。"max_depth":6,#構(gòu)建樹的深度,越大越容易過擬合"gamma":0.1,#樹的葉子節(jié)點上作進一步分區(qū)所需的最小損失減少,越大越保守,一般0.1、0.2這樣子。"subsample":0.7,#隨機采樣訓練樣本"colsample_bytree":0.7,#生成樹時進行的列采樣"lambda":2,#控制模型復雜度的權(quán)重值的L2正則化項參數(shù),參數(shù)越大,模型越不容易過擬合。#"alpha":0,#L1正則項參數(shù)#"scale_pos_weight":1, #如果取值大于0的話,在類別樣本不平衡的情況下有助于快速收斂。#"objective":"multi:softmax",#多分類的問題#"num_class":10,#類別數(shù),多分類與multisoftmax并用"seed":1000,#隨機種子#"eval_metric":"auc"}plst=list(params.items())num_rounds=500#迭代次數(shù)watchlist=[(xgb_train,"train"),(xgb_test,"val")]

#訓練模型并保存#early_stopping_rounds當設置的迭代次數(shù)較大時,early_stopping_rounds可在一定的迭代次數(shù)內(nèi)準確率沒有提升就停止訓練model=xgb.train(plst,xgb_train,num_rounds,watchlist,early_stopping_rounds=100,)#model.save_model("./model/xgb.model")#用于存儲訓練出的模型print("bestbest_ntree_limit",model.best_ntree_limit)y_pred=model.predict(xgb_test,ntree_limit=model.best_ntree_limit)print("error=%f"%(sum(1foriinrange(len(y_pred))ifint(y_pred[i]>0.5)!=y_test[i])/float(len(y_pred))))#輸出運行時長cost_time=time.time()-start_timeprint("xgboostsuccess!","\n","costtime:",cost_time,"(s)......")

[0]train-rmse:1.11000val-rmse:1.10422[1]train-rmse:1.10734val-rmse:1.10182[2]train-rmse:1.10465val-rmse:1.09932[3]train-rmse:1.10207val-rmse:1.09694

……

[497]train-rmse:0.62135val-rmse:0.68680[498]train-rmse:0.62096val-rmse:0.68650[499]train-rmse:0.62056val-rmse:0.68624best best_ntree_limit 500error=0.826667xgboost success!  cost time: 3.5742645263671875 (s)......

2.使用scikit-learn接口

會改變的函數(shù)名是:

eta -> learning_rate

lambda -> reg_lambda

alpha -> reg_alpha

fromsklearn.model_selectionimporttrain_test_splitfromsklearnimportmetricsfromxgboostimportXGBClassifierclf=XGBClassifier(# silent=0, #設置成1則沒有運行信息輸出,最好是設置為0.是否在運行升級時打印消息。#nthread=4,#cpu線程數(shù)默認最大learning_rate=0.3,#如同學習率min_child_weight=1,#這個參數(shù)默認是1,是每個葉子里面h的和至少是多少,對正負樣本不均衡時的0-1分類而言#,假設 h 在0.01 附近,min_child_weight 為 1 意味著葉子節(jié)點中最少需要包含 100個樣本。#這個參數(shù)非常影響結(jié)果,控制葉子節(jié)點中二階導的和的最小值,該參數(shù)值越小,越容易 overfitting。max_depth=6,#構(gòu)建樹的深度,越大越容易過擬合gamma=0,#樹的葉子節(jié)點上作進一步分區(qū)所需的最小損失減少,越大越保守,一般0.1、0.2這樣子。subsample=1,#隨機采樣訓練樣本訓練實例的子采樣比max_delta_step=0,#最大增量步長,我們允許每個樹的權(quán)重估計。colsample_bytree=1,#生成樹時進行的列采樣reg_lambda=1,#控制模型復雜度的權(quán)重值的L2正則化項參數(shù),參數(shù)越大,模型越不容易過擬合。#reg_alpha=0,#L1正則項參數(shù)#scale_pos_weight=1, #如果取值大于0的話,在類別樣本不平衡的情況下有助于快速收斂。平衡正負權(quán)重#objective="multi:softmax",#多分類的問題指定學習任務和相應的學習目標#num_class=10,#類別數(shù),多分類與multisoftmax并用n_estimators=100,#樹的個數(shù)seed=1000#隨機種子#eval_metric="auc")clf.fit(X_train,y_train)y_true,y_pred=y_test,clf.predict(X_test)print("Accuracy:%.4g"%metrics.accuracy_score(y_true,y_pred))

Accuracy : 0.936

LIghtGBM的使用 1.原生接口

importlightgbmaslgbfromsklearn.metricsimportmean_squared_error#加載你的數(shù)據(jù)#print("Loaddata...")#df_train=pd.read_csv("../regression/regression.train",header=None,sep="\t")#df_test=pd.read_csv("../regression/regression.test",header=None,sep="\t")##y_train=df_train[0].values#y_test=df_test[0].values#X_train=df_train.drop(0,axis=1).values#X_test=df_test.drop(0,axis=1).values#創(chuàng)建成lgb特征的數(shù)據(jù)集格式lgb_train=lgb.Dataset(X_train,y_train)#將數(shù)據(jù)保存到LightGBM二進制文件將使加載更快lgb_eval=lgb.Dataset(X_test,y_test,reference=lgb_train)#創(chuàng)建驗證數(shù)據(jù)#將參數(shù)寫成字典下形式params={"task":"train","boosting_type":"gbdt",#設置提升類型"objective":"regression",#目標函數(shù)"metric":{"l2","auc"},#評估函數(shù)"num_leaves":31,#葉子節(jié)點數(shù)"learning_rate":0.05,#學習速率"feature_fraction":0.9,#建樹的特征選擇比例"bagging_fraction":0.8,#建樹的樣本采樣比例"bagging_freq":5,#k意味著每k次迭代執(zhí)行bagging"verbose":1#<0顯示致命的,=0顯示錯誤(警告),>0顯示信息}print("Starttraining...")#訓練cvandtraingbm=lgb.train(params,lgb_train,num_boost_round=500,valid_sets=lgb_eval,early_stopping_rounds=5)#訓練數(shù)據(jù)需要參數(shù)列表和數(shù)據(jù)集print("Savemodel...")gbm.save_model("model.txt")#訓練后保存模型到文件print("Startpredicting...")#預測數(shù)據(jù)集y_pred=gbm.predict(X_test,num_iteration=gbm.best_iteration)#如果在訓練期間啟用了早期停止,可以通過best_iteration方式從最佳迭代中獲得預測#評估模型print("error=%f"%(sum(1foriinrange(len(y_pred))ifint(y_pred[i]>0.5)!=y_test[i])/float(len(y_pred))))

Start training...[LightGBM] [Warning] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000448 seconds.You can set `force_col_wise=true` to remove the overhead.[LightGBM] [Info] Total Bins 2550[LightGBM] [Info] Number of data points in the train set: 9000, number of used features: 10[LightGBM] [Info] Start training from score 0.012000[1]valid_0"s auc: 0.814399valid_0"s l2: 0.965563Training until validation scores don"t improve for 5 rounds[2]valid_0"s auc: 0.84729valid_0"s l2: 0.934647[3]valid_0"s auc: 0.872805valid_0"s l2: 0.905265[4]valid_0"s auc: 0.884117valid_0"s l2: 0.877875[5]valid_0"s auc: 0.895115valid_0"s l2: 0.852189

……

[191]valid_0"s auc: 0.982783valid_0"s l2: 0.319851[192]valid_0"s auc: 0.982751valid_0"s l2: 0.319971[193]valid_0"s auc: 0.982685valid_0"s l2: 0.320043Early stopping, best iteration is:[188]valid_0"s auc: 0.982794valid_0"s l2: 0.319746Save model...Start predicting...error=0.664000

2.scikit-learn接口

fromsklearnimportmetricsfromlightgbmimportLGBMClassifierclf=LGBMClassifier(boosting_type="gbdt",#提升樹的類型gbdt,dart,goss,rfnum_leaves=31,#樹的最大葉子數(shù),對比xgboost一般為2^(max_depth)max_depth=-1,#最大樹的深度learning_rate=0.1,#學習率n_estimators=100,#擬合的樹的棵樹,相當于訓練輪數(shù)subsample_for_bin=200000,objective=None,class_weight=None,min_split_gain=0.0,#最小分割增益min_child_weight=0.001,#分支結(jié)點的最小權(quán)重min_child_samples=20,subsample=1.0,#訓練樣本采樣率行subsample_freq=0,#子樣本頻率colsample_bytree=1.0,#訓練特征采樣率列reg_alpha=0.0,#L1正則化系數(shù)reg_lambda=0.0,#L2正則化系數(shù)random_state=None,n_jobs=-1,silent=True,)clf.fit(X_train,y_train,eval_metric="auc")#設置驗證集合verbose=False不打印過程clf.fit(X_train,y_train)y_true,y_pred=y_test,clf.predict(X_test)print("Accuracy:%.4g"%metrics.accuracy_score(y_true,y_pred))

Accuracy : 0.927

參考

1.https://xgboost.readthedocs.io/

2.https://lightgbm.readthedocs.io/

3.https://blog.csdn.net/q383700092/article/details/53763328?locationNum=9&fps=1

往期精彩回顧適合初學者入門人工智能的路線及資料下載(圖文+視頻)機器學習入門系列下載機器學習及深度學習筆記等資料打印《統(tǒng)計學習方法》的代碼復現(xiàn)專輯機器學習交流qq群955171419,加入微信群請掃碼

標簽:

THE END

相關(guān)熱點

6月20日,資本邦了解到,一改上周的強勢走勢,今日,新東方在線(01797 HK)及新東方(09901 HK)H股股價均下跌。截至港股收盤,新東方在線跌32
2022-06-20 17:29:10
新華社電 上海市文化和旅游局近日發(fā)布《上海市密室劇本殺內(nèi)容備案管理規(guī)定(征求意見稿)》,并截至12月8日面向社會公眾廣泛征求意見。這
2021-11-19 13:46:03
《中國證券報》17日刊發(fā)文章《備戰(zhàn)2022 基金經(jīng)理調(diào)倉換股布新局》。文章稱,距離2021年結(jié)束僅剩一個多月,基金業(yè)績分化明顯。部分排名靠前
2021-11-19 13:46:03
交通運輸部辦公廳 中國人民銀行辦公廳 中國銀行保險監(jiān)督管理委員會辦公廳關(guān)于進一步做好貨車ETC發(fā)行服務有關(guān)工作的通知各省、自治區(qū)、直
2021-11-19 13:45:58
新華社北京11月17日電 題:從10月份市場供需積極變化看中國經(jīng)濟韌性新華社記者魏玉坤、丁樂讀懂中國經(jīng)濟,一個直觀的視角就是市場供需兩端
2021-11-19 13:45:58
全國教育財務工作會議披露的消息稱,2020年,中國國家財政性教育經(jīng)費投入達4 29萬億元,占GDP總量的4 206%,我國國家財政性教育經(jīng)費支出占G
2021-11-19 13:45:48
如果你也熱愛“種草”,前方高能預警!讓你心心念念、“瀏覽”忘返的網(wǎng)絡平臺,可能早已成為一塊塊“韭菜地”。近日,據(jù)《半月談》報道,有...
2021-11-19 13:45:48
日前,工業(yè)和信息化部印發(fā)《“十四五”信息通信行業(yè)發(fā)展規(guī)劃》(以下簡稱《規(guī)劃》),描繪了未來5年信息通信行業(yè)的發(fā)展趨勢?!兑?guī)劃》指出...
2021-11-19 13:45:40
本報訊(中青報·中青網(wǎng)記者 周圍圍)2021年快遞業(yè)務旺季正式拉開帷幕。國家郵政局監(jiān)測數(shù)據(jù)顯示,僅11月1日當日,全國共攬收快遞包裹5 69
2021-11-19 13:45:40
人民網(wǎng)曼谷11月17日電 (記者趙益普)17日上午,中國援柬埔寨第七批200萬劑科興新冠疫苗抵達金邊國際機場。當天,柬埔寨政府在機場舉行了
2021-11-19 13:45:35
金壇壓縮空氣儲能國家試驗示范項目主體工程一角受訪者供圖依托清華大學非補燃壓縮空氣儲能技術(shù),金壇壓縮空氣儲能項目申請專利百余項,建立
2021-11-19 13:45:35
視覺中國供圖42億立方米據(jù)有關(guān)部門預計,今年山西煤炭產(chǎn)量有望突破12億噸,12月份山西外送電能力將超過900萬千瓦,今冬明春煤層氣產(chǎn)量將達4
2021-11-19 13:44:34
14省份相繼發(fā)布2021年企業(yè)工資指導線——引導企業(yè)合理提高職工工資今年以來,天津、新疆、內(nèi)蒙古、陜西、西藏、山東、江西、山西、福建、四
2021-11-19 13:44:34
中新網(wǎng)客戶端北京11月18日電 (記者 謝藝觀)“一條路海角天涯,兩顆心相依相伴,風吹不走誓言,雨打不濕浪漫,意濟蒼生苦與痛,情牽天下喜
2021-11-19 13:44:31
近日,交通運輸部等三部門發(fā)布《關(guān)于進一步做好貨車ETC發(fā)行服務有關(guān)工作的通知》。通知提到,對不具備授信條件的用戶,商業(yè)銀行可在依法合
2021-11-19 13:44:31
歐萊雅面膜陷優(yōu)惠“年度最大”風波 涉及該事件集體投訴超6000人次美妝大牌雙十一促銷翻車?近日,因預售價格比雙十一現(xiàn)貨貴出66%,歐萊雅
2021-11-19 13:44:13
43 6%受訪者會在工作兩三年后考慮跳槽54 3%受訪者認為跳槽對個人職業(yè)發(fā)展有利有弊如今對不少年輕人來說,想對一份工作“從一而終”不太容易
2021-11-19 13:44:13
超八成受訪青年表示如有機會愿意開展副業(yè) 規(guī)劃能力最重要64 4%受訪青年指出做副業(yè)跟風心態(tài)最要不得如今,“身兼數(shù)職”已成為年輕人當中的
2021-11-19 13:44:01
發(fā)展氫能正當其時【科學隨筆】氫能是一種二次能源,它通過一定的方法利用其他能源制取,具有清潔無污染、可儲存、與多種能源便捷轉(zhuǎn)換等優(yōu)點
2021-11-19 13:44:01
“千杯不醉”的解酒“神藥”能信嗎?專家:網(wǎng)紅“解酒藥” 其實不算藥俗話說,“酒逢知己千杯少”,酒一直是國人飯桌上至關(guān)重要的存在。盡...
2021-11-19 13:43:57
最新文章

相關(guān)推薦