概括
决策树(Decision tree)是一种非参数的有监督学习方法,它能够从一系列有特征的和标签的数据中总结出决策规则,并以树状图的结构来呈现这些规则,以解决分类和回归问题。
from sklearn.tree import DecisionTreeClassifier
重要参数
名称 | 注解 | 描述 |
---|---|---|
criterion | 衡量不纯度的指标 | 默认基尼系数(‘gini’)。或输入‘entropy’使用信息增益 |
splitter | 每个节点分枝策略 | 默认使用最佳分枝(best)。或输入‘random’使用最佳随机分枝 |
max_depth | 数的最大深度 | 整数或None。如果是None,树会持续生长到所有叶子结点的不纯度为0,或者生长到每个叶子节点所含样本量不超过参数min_samples_split中输入的数字 |
min_samples_split | 节点分枝所需的最小样本量 | 一个节点的样本量小于填写的数字,节点就不会分枝,故而成为了叶子节点 |
min_samples_leaf | 叶子节点存在所需的最小样本量 | 一个节点分枝后必须包 |