SKlearn各个模块解释
1、train_test_split:设置训练、测试数据集的数据量分配。
功能:从样本中随机的按比例选取train data和test data。调用形式为:
X_train, X_test, y_train, y_test = cross_validation.train_test_split(train_data, train_target, test_size=0.4, random_state=0)
test_size是样本占比。如果是整数的话就是样本的数量。random_state是随机数的种子。不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
from sklearn.cross_validation import train_test_split
在sklearn版本为0.18以上时,会报一下错误:
需要把以上引用改为:
from sklearn.model_selection import train_test_split
即可。

2、如何创建分类器对象、用训练数据进行拟合分类器模型、用训练好的模型进行预测。
>>> from sklearn.svm import SVC # 导入svm的svc类(支持向量分类)
>>> clf = SVC() # 创建分类器对象
>>> clf.fit(X, y) # 用训练数据拟合分类器模型
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',
max_iter=-1, probability=False, random_state=None, shrinking=True,
tol=0.001, verbose=False)
>>> clf.predict([[-0.8, -1]]) # 用训练好的分类器去预测[-0.8, -1]数据的标签
1


