线性回归 (Linear Regression)
线性模型的数学表示:
通常使用最小二乘法来解决线性回归问题,从而得到合适的系数。
在sklearn中,通过线性回归得到的系数有 coef 和 intercept 。coef 表示向量w(w1,…,wp), intercept 表示截距w0。
1 | from sklearn.linear_model import LinearRegression |
线性回归模型可视化
1 | plt.scatter(X, Y) |
线性模型的数学表示:
通常使用最小二乘法来解决线性回归问题,从而得到合适的系数。
在sklearn中,通过线性回归得到的系数有 coef 和 intercept 。coef 表示向量w(w1,…,wp), intercept 表示截距w0。
1 | from sklearn.linear_model import LinearRegression |
1 | plt.scatter(X, Y) |
在使用机器学习算法前,经常需要进行特征缩放(feature scaling),将所有特征都缩放到相同的尺度 ([0,1]的范围)。
下面是进行特征缩放的一种方式:
1 | def featureScaling(arr): |
使用sklearn:1
2
3
4
5
6
7
8
9
10
11
12
13
14
15import numpy
from sklearn.preprocessing import MinMaxScaler
train_data = numpy.array([[-1, 2], [-0.5, 6], [0, 10], [1, 18]])
test_data = numpy.array([[2, 2]])
# create the scaler
scaler = MinMaxScaler()
# compute the minimum and maximum to be used for later scaling.
scaler.fit(train_data)
# scaling features
print(scaler.transform(train_data))
print(scaler.transform(test_data))
对许多机器学习算法,特征缩放将影响最终的效果,如SVM和K-Means等(影响计算距离时各特征的比重)。
此外,特征缩放通常可以加速(大部分)机器学习算法的训练过程。
文本分析是机器学习算法的一个重要应用领域,然而原始的文本数据很难直接作为大部分算法的输入,为此 scikit-learn 提供了许多方法从文本中提取特征向量。
美国加州威廉格拉瑟学院(William Glasser Institute)的一项研究表明:
有效学习知识四大关键:
只要方法正确,阅读的速度越快,越容易记住相关信息。最好的方法就是一边读,一边在重点信息旁做标记,只要有笔或干脆用食指就可以。用笔或手指辅助阅读能大大提高阅读时的专注度,并极大地提高你的阅读速度。
建议每专心阅读20分钟左右就停下来做些笔记,在刚刚读过的内容中找出关键点,然后在纸上写下这些关键信息。思维导图可以说是完美的信息储存工具。理想情况下应当凭记忆从刚刚读过的信息中抽取关键信息,而不用再回头翻一遍,不过也不必强求。