1.11.21.2.11.2.21.2.31.2.41.2.5TableofContents绪言有监督学习广义线性模型线性与二次判别分析核岭回归支持向量机随机梯度下降1Thisbookistranslatedfromofficialuserguideofscikit-learn.绪言2有监督学习31.1.广义线性模型英文原文以下介绍的方法均是用于求解回归问题,其目标值预计是输入变量的一个线性组合。写成数学语言为:假设 是预测值,则有在本节中,称向量为 coef_,{%math%}w0{%endmath%}为`intercept`若要将通用的线性模型用于分类问题,可参见Logistic回归1.1.1普通最小二乘法LinearRegression使用系数拟合一个线性模型。拟合的目标是要将线性逼近预测值()和数据集中观察到的值( )两者之差的平方和尽量降到最小。写成数学公式,即是要解决以下形式的问题广义线性模型4LinearRegression的 fit方法接受数组X和y作为输入,将线性模型的系数存在成员变量 coef_中:>>>fromsklearnimportlinear_model>>>clf=linear_model.LinearRegression()>>>clf.fit([[0,0],[1,1],[2,2]],[0,1,2])LinearRegression(copy_X=True,fit_intercept=True,n_jobs=1,normalize=False)>>>clf.coef_array([0.5,0.5])需要注意的是,普通最小二乘法的系数预测取决于模型中各个项的独立性。假设各个项相关,矩阵的列总体呈现出线性相关,那么就会很接近奇异矩阵,其结果就是经过最小二乘得到的预测值会对原始数据中的随机误差高度敏感,从而每次预测都会产生比较大的方差。这种状况称为重共线性。例如,在数据未经实验设计就进行收集时就会发生重共线性。线性回归的例子1.1.1.1普通最小二乘法的复杂度此方法使用的奇异值分解来求解最小二乘。如果是矩阵,则算法的复杂度为,假设。广义线性模型51.1.2岭回归岭回归(Ridgeregression)引入了一种对系数大小进行惩罚的措施,来解决普通最小二乘可能遇到的某些问题。岭回归最小化带有惩罚项的残差平方和:这里,是一个复杂的参数,用以控制系数的缩减量。值越大,系数缩减得越多,因而会对共线性更加鲁棒。和其它线性模型类似, Ridge 将数组X和y作为 fit方法的参数,将线性模型的系数存在成员变量 coef_中:>>>fromsklearnimportlinear_model>>>clf=linear_model.Ridge(alpha=.5)>>>clf.fit([[0,0],[0,0],[1,1]],[0,.1,1])Ridge...