python sklearn.learning

it2022-05-05  238

学习曲线显示了对于不同数量的训练样本的估计器的验证和训练评分。它可以帮助我们发现从增加更多的训 练数据中能获益多少,以及估计是否受方差误差或偏差误差的影响更大。如果验证分数和训练分数都收敛到一个相对于增加的训练集大小来说过低的值,那么我们将不能从更多的训练数据中获益。

学习曲线函数:

from sklearn.learning_curve import learning_curve

调用格式:

learning_curve(estimator, X, y, train_sizes=array([0.1, 0.325, 0.55, 0.775, 1. ]), cv=None, scoring=None, exploit_incremental_learning=False, n_jobs=1, pre_dispatch='all', verbose=0) # exploit 开发,开拓  incremental 增加的  dispatch 派遣,分派  verbose 冗长的

参数:

estimator:分类器X:训练向量y:目标相对于X分类或者回归train_sizes:训练样本相对的或绝对的数字,这些量的样本将会生成learning curve。cv:确定交叉验证的分离策略(None:使用默认的3-fold cross validation;integer:确定几折交叉验证)verbose:整型,可选择的。控制冗余:越高,有越多的信息。

返回值:

train_sizes_abs:生成learning curve的训练集的样本数。重复的输入会被删除。

train_scores:在训练集上的分数

test_scores:在测试集上的分数


最新回复(0)