不仅仅是优化单一指标,它可以将不同的目标集成在适合度中
决策树表明网上值机服务是商务旅行中乘客满意度的重要因素,乘客在能简单高效地在网上办理登机手续时更可能感到满意。另外,舱内wifi的信号质量也十分重要。
决策树由于具有许多优点而被广泛用于分类任务:
-
它的推理过程与人类相似,易于理解和解释;
-
它能处理数值数据和分类数据;
-
它通过分层分解能更充分地利用变量。
大多数用于推导决策树的算法都使用自上而下的递归划分“贪心”策略。
源集(source set)代表了树的根节点。源集是根据特定规则划分为各个子集(子节点)的。在每次划分出的子集上重复该划分过程,直到某个节点下的子集中的目标变量的值全部相同,或者划分过程不再使预测结果的值增加。
用于在节点和划分中确定生成测试的最佳方法的量化指标是因算法而异的。最常见的指标是信息量(或熵)和基尼杂质量。它们度量的是杂质度,当节点的所有样本属于同一类别时,这类指标的值为0;当节点的样本的类别呈均一分布(即,该节点取到某一类别的概率为常数)时,这类指标的值取到最大值。更多相关信息参见本文。
但是,此类指标有两个主要缺点:
1.可能取到次优解;
2.可能生成过于复杂的决策树,以至于在训练数据中泛化效果不好,导致过拟合。
目前已有几种方法可用于克服这些问题:
因此,有必要探索生成树模型的其它方法。最近,进化算法(Evolutionary Algorithms, EA)获得了极大的关注。进化算法在所有可能的解法中进行强大的全局搜索,而不仅仅是本地搜索。结果,与贪心策略相比,进化算法更可能把属性交互处理得更好。
进化算法的具体工作方式见下。
2. 怎样用进化算法构造决策树?
进化算法是搜索启发式方法,其机理源自自然中的生物进化过程。
在这个范式中,群体中的每个“个体”代表给定问题的一种候选解法。每个个体的适合度代表这种解法的质量。这样,随机初始化的第一个群体会朝着搜索空间中更好的区域进化。在每一代中,选择过程使得适合度较高(原文为“适合度较低”,疑有误)的个体具有较高的繁殖概率。
此外,还会对群体进行特定的由遗传学启发的操作,例如重组,两个个体的信息在混合后才会传给他们的后代;以及突变,对个体进行微小的随机改变。对这一过程进行迭代,直到达到某一终止条件。然后选择最适个体为答案。
