貝葉斯全局優(yōu)化使用LightGBM調(diào)參-創(chuàng)新互聯(lián)

GridSearchCV調(diào)參-----------------太慢，效果也不好

成都創(chuàng)新互聯(lián)公司是一家朝氣蓬勃的網(wǎng)站建設(shè)公司。公司專(zhuān)注于為企業(yè)提供信息化建設(shè)解決方案。從事網(wǎng)站開(kāi)發(fā)，網(wǎng)站制作，網(wǎng)站設(shè)計(jì)，網(wǎng)站模板，微信公眾號(hào)開(kāi)發(fā)，軟件開(kāi)發(fā)，成都小程序開(kāi)發(fā)，10余年建站對(duì)成都廣告制作等多個(gè)方面，擁有多年的網(wǎng)站設(shè)計(jì)經(jīng)驗(yàn)。

這里結(jié)合Kaggle比賽的一個(gè)數(shù)據(jù)集，記錄一下使用貝葉斯全局優(yōu)化和高斯過(guò)程來(lái)尋找最佳參數(shù)的方法步驟。

1.安裝貝葉斯全局優(yōu)化庫(kù)

從pip安裝最新版本

pip install bayesian-optimization

2.加載數(shù)據(jù)集

import pandas as pd

import numpy as np

from sklearn.model_selection import StratifiedKFold

from scipy.stats import rankdata

from sklearn import metrics

import lightgbm as lgb

import warnings

import gc

pd.set_option('display.max_columns', 200)

train_df = pd.read_csv('../input/train.csv')

test_df = pd.read_csv('../input/test.csv')

目標(biāo)變量的分布

target = 'target'

predictors = train_df.columns.values.tolist()[2:]

train_df.target.value_counts()

問(wèn)題是不平衡。這里使用50%分層行作為保持行，以便驗(yàn)證集獲得最佳參數(shù)。稍后將在最終模型擬合中使用5折交叉驗(yàn)證。

bayesian_tr_index, bayesian_val_index = list(StratifiedKFold(n_splits=2,

shuffle=True, random_state=1).split(train_df, train_df.target.values))[0]

這些bayesian_tr_index和bayesian_val_index索引將用于貝葉斯優(yōu)化，作為訓(xùn)練和驗(yàn)證數(shù)據(jù)集的索引。

3.黑盒函數(shù)優(yōu)化(LightGBM)

在加載數(shù)據(jù)時(shí)，為L(zhǎng)ightGBM創(chuàng)建黑盒函數(shù)以查找參數(shù)。

def LGB_bayesian(

num_leaves, # int

min_data_in_leaf, # int

learning_rate,

min_sum_hessian_in_leaf, # int

feature_fraction,

lambda_l1,

lambda_l2,

min_gain_to_split,

max_depth):

# LightGBM expects next three parameters need to be integer. So we make them integer

num_leaves = int(num_leaves)

min_data_in_leaf = int(min_data_in_leaf)

max_depth = int(max_depth)

assert type(num_leaves) == int

assert type(min_data_in_leaf) == int

assert type(max_depth) == int

param = {

'num_leaves': num_leaves,

'max_bin': 63,

'min_data_in_leaf': min_data_in_leaf,

'learning_rate': learning_rate,

'min_sum_hessian_in_leaf': min_sum_hessian_in_leaf,

'bagging_fraction': 1.0,

'bagging_freq': 5,

'feature_fraction': feature_fraction,

'lambda_l1': lambda_l1,

'lambda_l2': lambda_l2,

'min_gain_to_split': min_gain_to_split,

'max_depth': max_depth,

'save_binary': True,

'seed': 1337,

'feature_fraction_seed': 1337,

'bagging_seed': 1337,

'drop_seed': 1337,

'data_random_seed': 1337,

'objective': 'binary',

'boosting_type': 'gbdt',

'verbose': 1,

'metric': 'auc',

'is_unbalance': True,

'boost_from_average': False,

}

xg_train = lgb.Dataset(train_df.iloc[bayesian_tr_index][predictors].values,

label=train_df.iloc[bayesian_tr_index][target].values,

feature_name=predictors,

free_raw_data = False

)

xg_valid = lgb.Dataset(train_df.iloc[bayesian_val_index][predictors].values,

label=train_df.iloc[bayesian_val_index][target].values,

feature_name=predictors,

free_raw_data = False

)

num_round = 5000

clf = lgb.train(param, xg_train, num_round, valid_sets = [xg_valid], verbose_eval=250, early_stopping_rounds = 50)

predictions = clf.predict(train_df.iloc[bayesian_val_index][predictors].values, num_iteration=clf.best_iteration)

score = metrics.roc_auc_score(train_df.iloc[bayesian_val_index][target].values, predictions)

return score

上面的LGB_bayesian函數(shù)將作為貝葉斯優(yōu)化的黑盒函數(shù)。我已經(jīng)在LGB_bayesian函數(shù)中為L(zhǎng)ightGBM定義了trainng和validation數(shù)據(jù)集。

LGB_bayesian函數(shù)從貝葉斯優(yōu)化框架獲取num_leaves，min_data_in_leaf，learning_rate，min_sum_hessian_in_leaf，feature_fraction，lambda_l1，lambda_l2，min_gain_to_split，max_depth的值。請(qǐng)記住，對(duì)于LightGBM，num_leaves，min_data_in_leaf和max_depth應(yīng)該是整數(shù)。但貝葉斯優(yōu)化會(huì)發(fā)送連續(xù)的函數(shù)。所以我強(qiáng)制它們是整數(shù)。我只會(huì)找到它們的最佳參數(shù)值。讀者可以增加或減少要優(yōu)化的參數(shù)數(shù)量。

現(xiàn)在需要為這些參數(shù)提供邊界，以便貝葉斯優(yōu)化僅在邊界內(nèi)搜索。

bounds_LGB = {

'num_leaves': (5, 20),

'min_data_in_leaf': (5, 20),

'learning_rate': (0.01, 0.3),

'min_sum_hessian_in_leaf': (0.00001, 0.01),

'feature_fraction': (0.05, 0.5),

'lambda_l1': (0, 5.0),

'lambda_l2': (0, 5.0),

'min_gain_to_split': (0, 1.0),

'max_depth':(3,15),

}

讓我們將它們?nèi)糠旁贐ayesianOptimization對(duì)象中

from bayes_opt import BayesianOptimization

LGB_BO = BayesianOptimization(LGB_bayesian, bounds_LGB, random_state=13)

現(xiàn)在，讓我們來(lái)優(yōu)化key space (parameters)：

print(LGB_BO.space.keys)

我創(chuàng)建了BayesianOptimization對(duì)象(LGB_BO)，在調(diào)用maxime之前它不會(huì)工作。在調(diào)用之前，解釋一下貝葉斯優(yōu)化對(duì)象(LGB_BO)的兩個(gè)參數(shù)，我們可以傳遞給它們進(jìn)行大化：

init_points：我們想要執(zhí)行的隨機(jī)探索的初始隨機(jī)運(yùn)行次數(shù)。在我們的例子中，LGB_bayesian將被運(yùn)行n_iter次。

n_iter：運(yùn)行init_points數(shù)后，我們要執(zhí)行多少次貝葉斯優(yōu)化運(yùn)行。

現(xiàn)在，是時(shí)候從貝葉斯優(yōu)化框架調(diào)用函數(shù)來(lái)大化。我允許LGB_BO對(duì)象運(yùn)行5個(gè)init_points和5個(gè)n_iter。

init_points = 5

n_iter = 5

print('-' * 130)

with warnings.catch_warnings():

warnings.filterwarnings('ignore')

LGB_BO.maximize(init_points=init_points, n_iter=n_iter, acq='ucb', xi=0.0, alpha=1e-6)

優(yōu)化完成后，讓我們看看我們得到的大值是多少。

LGB_BO.max['target']

參數(shù)的驗(yàn)證AUC是0.89，讓我們看看參數(shù):

LGB_BO.max['params']

現(xiàn)在我們可以將這些參數(shù)用于我們的最終模型!

BayesianOptimization庫(kù)中還有一個(gè)很酷的選項(xiàng)。你可以探測(cè)LGB_bayesian函數(shù)，如果你對(duì)最佳參數(shù)有所了解，或者您從其他kernel獲取參數(shù)。我將在此復(fù)制并粘貼其他內(nèi)核中的參數(shù)。你可以按照以下方式進(jìn)行探測(cè)：

LGB_BO.probe(

params={'feature_fraction': 0.1403,

'lambda_l1': 4.218,

'lambda_l2': 1.734,

'learning_rate': 0.07,

'max_depth': 14,

'min_data_in_leaf': 17,

'min_gain_to_split': 0.1501,

'min_sum_hessian_in_leaf': 0.000446,

'num_leaves': 6},

lazy=True, #

)無(wú)錫看婦科好的醫(yī)院 http://www.csfk0731.com/

好的，默認(rèn)情況下這些將被懶惰地探索(lazy = True)，這意味著只有在你下次調(diào)用maxime時(shí)才會(huì)評(píng)估這些點(diǎn)。讓我們對(duì)LGB_BO對(duì)象進(jìn)行大化調(diào)用。

LGB_BO.maximize(init_points=0, n_iter=0) # remember no init_points or n_iter

最后，通過(guò)屬性LGB_BO.res可以獲得探測(cè)的所有參數(shù)列表及其相應(yīng)的目標(biāo)值。

for i, res in enumerate(LGB_BO.res):

print("Iteration {}: \n\t{}".format(i, res))

我們?cè)谡{(diào)查中獲得了更好的驗(yàn)證分?jǐn)?shù)!和以前一樣，我只運(yùn)行LGB_BO 10次。在實(shí)踐中，我將它增加到100。

LGB_BO.max['target']

LGB_BO.max['params']

讓我們一起構(gòu)建一個(gè)模型使用這些參數(shù)。

4.訓(xùn)練LightGBM模型

param_lgb = {

'num_leaves': int(LGB_BO.max['params']['num_leaves']), # remember to int here

'max_bin': 63,

'min_data_in_leaf': int(LGB_BO.max['params']['min_data_in_leaf']), # remember to int here

'learning_rate': LGB_BO.max['params']['learning_rate'],

'min_sum_hessian_in_leaf': LGB_BO.max['params']['min_sum_hessian_in_leaf'],

'bagging_fraction': 1.0,

'bagging_freq': 5,

'feature_fraction': LGB_BO.max['params']['feature_fraction'],

'lambda_l1': LGB_BO.max['params']['lambda_l1'],

'lambda_l2': LGB_BO.max['params']['lambda_l2'],

'min_gain_to_split': LGB_BO.max['params']['min_gain_to_split'],

'max_depth': int(LGB_BO.max['params']['max_depth']), # remember to int here

'save_binary': True,

'seed': 1337,

'feature_fraction_seed': 1337,

'bagging_seed': 1337,

'drop_seed': 1337,

'data_random_seed': 1337,

'objective': 'binary',

'boosting_type': 'gbdt',

'verbose': 1,

'metric': 'auc',

'is_unbalance': True,

'boost_from_average': False,

}

如您所見(jiàn)，我將LGB_BO的最佳參數(shù)保存到param_lgb字典中，它們將用于訓(xùn)練5折的模型。

Kfolds數(shù)量：

nfold = 5

gc.collect()

skf = StratifiedKFold(n_splits=nfold, shuffle=True, random_state=2019)

oof = np.zeros(len(train_df))

predictions = np.zeros((len(test_df),nfold))

i = 1

for train_index, valid_index in skf.split(train_df, train_df.target.values):

print("\nfold {}".format(i))

xg_train = lgb.Dataset(train_df.iloc[train_index][predictors].values,

label=train_df.iloc[train_index][target].values,

feature_name=predictors,

free_raw_data = False

)

xg_valid = lgb.Dataset(train_df.iloc[valid_index][predictors].values,

label=train_df.iloc[valid_index][target].values,

feature_name=predictors,

free_raw_data = False

)

clf = lgb.train(param_lgb, xg_train, 5000, valid_sets = [xg_valid], verbose_eval=250, early_stopping_rounds = 50)

oof[valid_index] = clf.predict(train_df.iloc[valid_index][predictors].values, num_iteration=clf.best_iteration)

predictions[:,i-1] += clf.predict(test_df[predictors], num_iteration=clf.best_iteration)

i = i + 1

print("\n\nCV AUC: {:<0.2f}".format(metrics.roc_auc_score(train_df.target.values, oof)))

所以我們?cè)?折交叉驗(yàn)證中獲得了0.90 AUC。

讓我們對(duì)5折預(yù)測(cè)進(jìn)行排名平均。

5.排名平均值

print("Rank averaging on", nfold, "fold predictions")

rank_predictions = np.zeros((predictions.shape[0],1))

for i in range(nfold):

rank_predictions[:, 0] = np.add(rank_predictions[:, 0], rankdata(predictions[:, i].reshape(-1,1))/rank_predictions.shape[0])

rank_predictions /= nfold

6.提交

sub_df = pd.DataFrame({"ID_code": test_df.ID_code.values})

sub_df["target"] = rank_predictions

sub_df.to_csv("Customer_Transaction_rank_predictions.csv", index=False)

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn，海內(nèi)外云服務(wù)器15元起步，三天無(wú)理由+7*72小時(shí)售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì)，專(zhuān)為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

當(dāng)前標(biāo)題：貝葉斯全局優(yōu)化使用LightGBM調(diào)參-創(chuàng)新互聯(lián)
標(biāo)題網(wǎng)址：http://m.newbst.com/article6/dgipog.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供品牌網(wǎng)站建設(shè)、移動(dòng)網(wǎng)站建設(shè)、外貿(mào)網(wǎng)站建設(shè)、服務(wù)器托管、網(wǎng)頁(yè)設(shè)計(jì)公司、營(yíng)銷(xiāo)型網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

貝葉斯全局優(yōu)化使用LightGBM調(diào)參-創(chuàng)新互聯(lián)