最后看下分类成效,模型将客户群体分为8组,从持仓天数和持仓金额两个维度来看,分组较为会合,此中第0组占据了大局部比例,揣测和所用特征的分布较为会合相关。后期劣化还是得从特征提与轨范再作精密化办理,也可进一步检验测验DBSCAN等模型,提升聚类成效。不雅察看了一下几多个特征的分布,根柢处于会合、偏度大的形态。'初度买入日期', '最后买入日期'两个特征数据格局为光阳戳,通过两个日期同当前光阳的间隔天数,转化为数字标签。从特征相关性来看,支益特征处于高相关形态,只选与此中一个特征便可,别的相关度尚可,久作糊口生涯。