决策树-向日葵屋

决策树

小咪咪 2022-04-23 01:16 312阅读 0赞

1 认识决策树
如何高效的进行决策？
特征的先后顺序（哪个特征先看，哪个特征后看）
2 决策树分类原理详解（看哪个特征能筛掉更多的数据，尽可能通过少的决策，达到目的）
已知四个特征值预测是否贷款给某个人
先看房子，再工作 -> 是否贷款只看了两个特征
年龄，信贷情况，工作看了三个特征
信息论基础
1）信息
香农：消除随机不定性的东西
小明年龄 “我今年18岁” - 信息
小华 ”小明明年19岁” - 不是信息
2）信息的衡量 - 信息量 - 信息熵
单位：bit
计算公式：g(D,A) = H(D) - 条件熵H(D|A)
4 决策树的划分依据之一———信息增益
3 决策树可视化
4 决策树总结
优点：可视化 - 可解释能力强
缺点：容易产生过拟合
5 案例：泰坦尼克号乘客生存预测
流程分析：
特征值目标值
1）获取数据
2）数据处理
缺失值处理
特征值 -> 字典类型
3）准备好特征值目标值
4）划分数据集
5）特征工程：字典特征抽取
6）决策树预估器流程
7）模型评估

#

代码：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, export_graphviz
def decision_iris():
    """
    用决策树对鸢尾花进行分类
    :return:
    """
    # 1）获取数据集
    iris = load_iris()
    # 2）划分数据集
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
    # 3）决策树预估器
    estimator = DecisionTreeClassifier(criterion="entropy")
    estimator.fit(x_train, y_train)
    # 4）模型评估
    # 方法1：直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值:\n", y_test == y_predict)
    # 方法2：计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为：\n", score)
    # 可视化决策树
    export_graphviz(estimator, out_file="iris_tree.dot", feature_names=iris.feature_names)
    return None
if __name__ == "__main__":
    decision_iris()