消费者购买可能性判断的模型设计分类模型就是根据以往的经验,根据每个属性内的水平与类之间的对应关系,构造出分类模型。本文旨在探讨分类模型的评价标准,并提出了两种分类方法。第一种分类方法比较简单,经济含义也比较明显,但第一种方法要求属性(指标)之间不能有强的相关性。在第二种方法中,提出并证明了两条比较实用的结论,并利用这两条结论与一些合理的假设,求解出了新的分类模型。在一对一销售、信用评价等商业活动中,经常需要判断哪些人的购买倾向更高一些,哪些人的信用更好一些的问题。这实际上是如何进行分类的问题。分类与聚类不同。聚类没有根据经验进行学习的过程。而分类模型根据以往的经验,根据每个属性内的水平与类之间的对应关系,构造出分类模型。分类模型的方法有:决策树、遗传算法、贝叶斯等。在本文中,只分成两类,这两类用购买者与非购买者来代表。购买者表示购买某产品,非购买者表示不购买某产品。一、模型好坏评价的标准预测结果的好坏也就是预测准确程度。本文以销售时的情况为例,假设结果分为两类:购买者与非购买者。假设在以往数据中购买者与非购买者的个数分别是a、b。我们利用某种模型在a个购买者中预测准确a1个人,不准确a2个人(或者说a2个人被预测成非购买者);在b个非购买者中预测准确b1个人,不准确b2个人(或者说b2个人被预测成了购买者)。很自然的想法是利用整体准确率来衡量:L1=(a1+b1)/(a+b)×100%指标一指标一的缺点是,有时购买者的个数要远低于非购买者的个数,比如,假设在某个人群中非购买者的比例占98%,如果采用这样的预测方法:对于任何一个人,都认为他是非购买者,按照指标一,预测准确率可以达到98%,属于很高的预测精度。但这与商家的目标不一致:商家希望根据以往的经验,根据每个人的属性特征,利用某种评价模型,从某个人群中挑出一部分人来,与没有应用该种模型相比,挑出来的这部分人比原始人群具有很高的购买倾向。而利用指标一评价,就属于一个人都没有挑出来。指标一的根本缺点是没有注意到预测准一个购买者与预测准一个非购买者的重要程度是不一样的(在购买者与非购买者数量基本相等时两者的重要程度是一致的)。而以下指标就可以有效的克服上述缺点:L2=(a1/a+b1/b)×50%指标二可以利用指标二来判别模型的预测能力,将L2称为分类模型拟合优度系数。容易证明,在一般情况下,模型拟合优度系数在0.5与1之间。当L2=0.5时,说明利用分类预测模型并没有提高预测精度;而当L2=1时,说明分类模型将购买者与非购买者完全区分开了。将指标二进行变换,可以得到:L2=(a1/a+b1/b)×50%=50%+(a1/a–b2/b)×50%一般来说,a1/a–b2/b显然大于0。因为根据我们的目标利用模型挑选出来的人中,购买者的比例与原始人群相比有所提高,也就是:a1/(a1+b2)>a/(a+b)(1)其中,模型的左边是利用模型挑选出的人群中购买者所占的比重,模型的右边是原始人群中购买者所占的比例。将式(1)两边同乘以(a1+b2)×(a+b),经过整理可以得到:a1/a>b2/b同理,可以得到:b1/b–a2/a>0,并且容易得到:a1/a–b2/b=b1/b–a2/a(2)本文将a1/a–b2/b或b1/b–a2/a称为模型的识别能力因子,识别能力因子越大,则模型的挑选能力越高,越能够符合商家的需要。容易得到,能力识别因子在0与1之间。当能力识别因子等于0时,利用模型挑选出的人群中购买者占的比例与原始人群相等,模型没有起到应有的挑选能力的作用。而当模型识别能力因子等于1时,挑选出的人群全部是购买者或非购买者,也就是说将购买者与非购买者完全分开,当然这是一种理想情形,实际上是不可能达到的。二、评价模型设有m个属性(比如性别、年龄、以往购买情况等),每个属性由一定的水平构成,通过某种规则将每个属性的各个水平赋予一定的值,设Xki表示第j个人的第k个属性对应的水平,将该水平赋予一定的数值Ukj(比如如果第k个属性是性别,如果第j个人是男,那么属性对应的水平就是男性,根据购买倾向等可以将男性赋予一定的数值)。对于第j个人,若U1j+U2j+……+Umj>P,则判断第j个人属于购买者,否则判断为非购买者,U1j+U2j+……+Umj称为第j个人...