谁还不懂分布式系统性能调优
3.2 对EDF方法的一个更泛化的实验验证上述实验肯定不足以评估进化决策树跟其它机器学习算法相比时的性能和可靠性。 因为只用了一个数据集,因此没有考虑到所有可能性,例如标签的类别数量,特征数量和观测数量的影响等。 在[2]中,作者使用真实的UCI数据集对EDT方法与其他机器学习方法的性能进行了比较。 这篇文章的发现如下。 关于数据集
下表简要介绍了所用的数据集: 在这种参数设置下,EDT的表现和另外两种机器学习算法很接近。 然而,EDT的优势在于它能提供这样一棵决策树:
在训练过程中,将最大深度设为2,获得的EDT群体中表现最好的决策树可以表征为如下形式: 关于数据集 这个数据集很大,囊括了多于10万条航线。
数据标签是乘客的满意度,包括“满意”,“中立”和“不满意”。 方法我使用的计算步骤可简要归纳如下: 1. 数据预处理:将类别变量转换为指示变量。将数据集随机划分为训练集和测试集。 2. 建模和测试:训练每个模型在训练子集上考虑条件,在验证子集上进行衡量。 3. 比较各模型的表现。 我选择将进化决策树(EDT)方法与基于简单的树的,基于决策树(DT)的和基于随机森林(RF)的模型进行比较。限制树的深度小于(等于?)3。 我还将EDT的群体大小和RF的评价器数量设置为10,以便于在合理的计算时间内以一致的方式比较它们。 结果
结果如下: (编辑:保山站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |