(1)划分训练集和测试集(测试集占20%)
(2)对测试集的预测类别标签和真实标签进行对比
(3)输出分类的准确率
(4)调整参数比较不同算法(ID3, CART)的分类效果。
test_size等于几就是测试集占比 x_train, x_test, y_train, y_test = train_test_split( X, Y, test_size=0.2, random_state=0)
预测类别标签 y_predict = clf.predict(x_test) 对比 pd.concat([pd.DataFrame(x_test), pd.DataFrame(y_test), pd.DataFrame(y_predict)], axis=1)
clf.fit(x_train, y_train) score = clf.score(x_test, y_test)
采用ID3算法进行计算 clf = tree.DecisionTreeClassifier(criterion="entropy") 采用CART算法进行计算 clf = tree.DecisionTreeClassifier(criterion="gini")