加入收藏 | 设为首页 | 会员中心 | 我要投稿 保山站长网 (https://www.0875zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

谁还不懂分布式系统性能调优

发布时间:2021-02-01 14:30:45 所属栏目:评论 来源:互联网
导读:3.2 对EDF方法的一个更泛化的实验验证 上述实验肯定不足以评估进化决策树跟其它机器学习 算法 相比时的性能和可靠性。 因为只用了一个数据集,因此没有考虑到所有可能性,例如标签的类别数量,特征数量和观测数量的影响等。 在[ 2 ]中,作者使用真实的 UCI数

3.2 对EDF方法的一个更泛化的实验验证

上述实验肯定不足以评估进化决策树跟其它机器学习算法相比时的性能和可靠性。

因为只用了一个数据集,因此没有考虑到所有可能性,例如标签的类别数量,特征数量和观测数量的影响等。

在[2]中,作者使用真实的UCI数据集对EDT方法与其他机器学习方法的性能进行了比较。

这篇文章的发现如下。

关于数据集

下表简要介绍了所用的数据集:
 

在这种参数设置下,EDT的表现和另外两种机器学习算法很接近。

然而,EDT的优势在于它能提供这样一棵决策树:

  • 可以呈现多颗决策树聚集的位点(与RF模型相比),并且

  • 具有鲁棒性(与简单DT模型相比),因为它是一群树中表现最好的那颗。

在训练过程中,将最大深度设为2,获得的EDT群体中表现最好的决策树可以表征为如下形式:
 

关于数据集

这个数据集很大,囊括了多于10万条航线。

  • 含有关于乘客及其行程的事实信息:乘客的性别,年龄,客户类型(是否有惯性),旅行类型(个人或商务旅行),航班舱位(商务,环保,极环保 )和飞行距离。

  • 还包含乘客对以下服务的满意度:舱内wifi,出发/到达时间(是否合宜),网上预订(是否方便),登机口位置,餐饮,网上值机,座椅舒适度,舱内娱乐,登机服务,座椅腿部空间 ,行李服务,值机服务,舱内服务,整洁度。

数据标签是乘客的满意度,包括“满意”,“中立”和“不满意”。

方法

我使用的计算步骤可简要归纳如下:

1. 数据预处理:将类别变量转换为指示变量。将数据集随机划分为训练集和测试集。

2. 建模和测试:训练每个模型在训练子集上考虑条件,在验证子集上进行衡量。

3. 比较各模型的表现。

我选择将进化决策树(EDT)方法与基于简单的树的,基于决策树(DT)的和基于随机森林(RF)的模型进行比较。限制树的深度小于(等于?)3。 我还将EDT的群体大小和RF的评价器数量设置为10,以便于在合理的计算时间内以一致的方式比较它们。

结果

结果如下:

(编辑:保山站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读