决策树 理论部分
概念
决策树:从根节点开始一步步走到叶子节点(决策)
决策树最经典的是做分类任务,但决策树也可以做回归任务
决策树构建
问:那问题来了,一个个节点是怎么构建出出来的?
答:节点都是训练得来的!
衡量标准-熵
熵:熵是表示随机变量不确定性的度量
解释:说白了就是 纯度
也可以说成:物体内部的混乱程度,比如杂货市场里面什么都有那肯定混乱呀,专卖店里面只卖一个牌子的那就稳定多啦~
熵:不确定性越大,得到的熵值也就越大
当p=0或p=1时,H( p )=0, 随机变量完全没有不确定性
当p=0.5时,H( p )=1, 此时随机变量的不确定性最大
公式
举个例子🌰
A集合[1,1,1,1,1,1,1,1,2,2]
B集合[1,2,3,4,5,6,7,8,9,1]
解答:显然A集合的熵值要低,因为A里面只有两种类别,相对稳定一些而B中类别太多了,熵值就会大很多
💡补充一句
entropy(熵)与 Gini 均可以作为 决策树 的 criterion
举个例子
决策树构造实例
- 数据:14天打球情况
- 特征:4种环境变化
- 目标:构造决策树
- 划分方式:4种
- 依据:信息增益
第一步: 在历史数据中(14天)有9天打球,5天不打球,所以此时的熵应为:
第二步: 4个特征逐一分析,先从outlook特征开始:
-
熵值
- Outlook = sunny时,熵值为0.971
- Outlook = overcast时,熵值为0
- Outlook = rainy