2.6 终止条件
如果最优秀的个体的适合度在给定数量的世代中没有上升,就可以认为算法已经收敛了。
为了在收敛得很慢时节约计算时间,这个世代数目是预先设定的参数。
3. 跟其它分类器比,进化决策树的表现如何?
进化决策树看起来很好,但跟常规机器学习算法相比,它的表现又如何?
3.1 一个简单的实验
为了评价分类器的效率,我搭建了一个决策树,并在航空公司乘客满意度调查结果数据集上进行训练。
目标是找出能导致乘客满意度升高的因素。 这样就需要一个简单而抗干扰的模型来解释导致乘客感到满意(或不满意)的途径。
2.1 群体的初始化
在进化决策树中,一个个体代表的是一棵决策树。初始群体由随机生成的树组成。
随机树可以按以下步骤生成:
在根节点和两个子节点后,算法以预设概率p决定每个子节点是否继续划分或成为终点。
2.2 适合度
分类器的目标是在输入未标记的新数据时能获得最高预测准确度。此外,决策树分类器还需要控制树的最终尺寸。因为树的尺寸小会导致欠拟合,而树的结构太复杂会导致过拟合。
因此,在定义适合度时需要在这两项之间取得平衡:
适合度 = α1 f1 + α2 f2
其中:
-
f1是在训练集上的准确度;
-
f2是对个体的尺寸(树的深度)所设置的惩罚项;
-
α1 和 α2 是待指定的参数。
2.3. 选择过程
有多种方法可以选择用于创建下一代树的亲本。最常见的是以下几种:
-
基于适应度按比例选择,或轮盘赌式选择:按适合度对群体排序,然后依次为每个个体赋予选择概率。
-
淘汰制选择:先从群体中随机选出一些个体,再从选出的集合中取适合度最高的个体作为亲本。
-
精英制选择:直接把适合度最高的个体用到下一代。这种方法能保留每代最成功的个体。
2.4 重组
获得重组子代的过程需要使亲本两两配对。
首先,选择两个个体作为亲本。然后在两棵树中各随机选一个节点。用第二棵树中选择的子树代替第一棵树中选中的子树,获得子代。

(编辑:保山站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|