决策树DecisionTreeClassifier_完整项目_CodingPark编程公园

决策树 理论部分

概念

决策树:从根节点开始一步步走到叶子节点(决策)
决策树最经典的是做分类任务,但决策树也可以做回归任务

决策树构建

问:那问题来了,一个个节点是怎么构建出出来的?
答:节点都是训练得来的

衡量标准-熵

熵:熵是表示随机变量不确定性的度量
解释:说白了就是 纯度
也可以说成:物体内部的混乱程度,比如杂货市场里面什么都有那肯定混乱呀,专卖店里面只卖一个牌子的那就稳定多啦~

熵:不确定性越大,得到的熵值也就越大
在这里插入图片描述

当p=0或p=1时,H( p )=0, 随机变量完全没有不确定性
当p=0.5时,H( p )=1, 此时随机变量的不确定性最大

公式
在这里插入图片描述

举个例子🌰

A集合[1,1,1,1,1,1,1,1,2,2]
B集合[1,2,3,4,5,6,7,8,9,1]


解答:显然A集合的熵值要低,因为A里面只有两种类别,相对稳定一些而B中类别太多了,熵值就会大很多

💡补充一句
entropy(熵)与 Gini 均可以作为 决策树 criterion
在这里插入图片描述

举个例子

决策树构造实例

  • 数据:14天打球情况
  • 特征:4种环境变化
  • 目标:构造决策树
  • 划分方式:4种
  • 依据:信息增益

在这里插入图片描述
在这里插入图片描述

第一步: 在历史数据中(14天)有9天打球,5天不打球,所以此时的熵应为:
在这里插入图片描述

第二步: 4个特征逐一分析,先从outlook特征开始:

在这里插入图片描述

熵值
Outlook = sunny时,熵值为0.971
Outlook = overcast时,熵值为0
Outlook = rainy
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TEAM-AG

编程公园:输出是最好的学习方式

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值