牛奶搭配销售关联算法

       在数据挖掘过程中,由于数据存在分散性和偶然性,因而在底层的数据关联上很难准确挖掘出强关联规则,进而也很难为我们决策提供参考。通常的解决的方案通常是引入概念层次,在较高的层次上,我们就可以通过“支持度和置信度”的框架来挖掘多层关联规则。

从一家公司的销售记录中我们找到以下8条消费记录,并以3作为最小支持度,也就是说出现频率在3次以下的记录是被我们所忽略的。

所有满足最小支持度3的1项频集如下,其中的支持度是指该产品在整个数据集中出现的次数。比如牛奶出现了5次,而冰淇淋出现了3次。

递归执行,所有满足最小支持度3的2项频集如下,这其中出现最多的频集是{牛奶,面包}和{面包,果酱},各自出现了4次。

再次递归执行,所有满足最小支持度3的3项频集只剩下一条:

那么{牛奶,果酱,面包}就是我们要的满足最小支持度3的3项频集,也就是说牛奶、果酱和面包这三个商品是最经常被一起购买的。

概念层次的数据挖掘

在研究挖掘关联规则的过程中,许多学者发现在实际应用中,对于很多应用来说,由于数据分布的分散性,数据比较少,所以很难在数据最细节的层次上发现一些强关联规则。要想在原始的概念层次上发现强的(strong)和有意义的(interesting)关联规则是比较困难的,因为好多项集往往没有足够的支持数。

当我们引入概念层次后,就可以在较高的层次上进行挖掘。虽然较高层次上得出的规则可能是更普通的信息,但是对于一个用户来说是普通的信息,对于另一个用户却未必如此。所以数据挖掘应该提供这样一种在多个层次上进行挖掘的功能。

概念层次在要挖掘的数据库中经常是存在的,比如在一个超市中会存在这样的概念层次:蒙牛牌牛奶是牛奶,伊利牌牛奶是牛奶,王子牌饼干是饼干,康师傅牌饼干是饼干等。

如果我们只是在数据基本层发掘关系,{蒙牛牌牛奶,王子牌饼干},{蒙牛牌牛奶,康师傅牌饼干},{伊利牌牛奶,王子牌饼干},{伊利牌牛奶,康师傅牌饼干}都不符合最小支持度。不过如果我们上升一个层级,会发现{牛奶,饼干} 的关联规则是有一定支持度的。

我们称高层次的项是低层次项的父亲层次(parent),这种概念层次关系通常用一个DAG(directed acyclic graph,有向无环图)来表示。所谓有向无环图是指,任意一条边有方向,且不存在环路的图。这样我们就可以在较高的概念层次上发现关联规则。

支持度的设置策略

根据规则中涉及的层次和多层关联的规则,我们可以把关联规则分为同层关联规则和层间关联规则。多层关联规则的挖掘基本上可以沿用“支持度—置信度”的框架。不过,在支持度设置的问题上有一些要考虑的东西。

同层关联规则可以采用两种支持度策略:

统一的最小支持度。对于不同的层次,都使用同一个最小支持度。这样对于用户和算法实现来说都比较容易,但是弊端也是显而易见的。

递减的最小支持度。每个层次都有不同的最小支持度,较低层次的最小支持度相对较小。同时还可以利用上层挖掘得到的信息进行一些过滤的工作。层间关联规则考虑最小支持度的时候,应该根据较低层次的最小支持度来定。

以上我们讨论的基本上都是同一个字段的值之间的关系,比如用户购买的物品。换句话说就是在单维或者叫维内的关联规则,这些规则很多都是在交易数据库中挖掘的。

但是对于实际应用来说,多维的关联规则可能是更加有价值的。

同时,在挖掘维间关联规则和混合维关联规则的时候,还要考虑不同的字段种类,是分类型数据还是数值型数据等等。

原文发布时间为:2013-09-18


时间: 2024-06-11 20:52:54

牛奶搭配销售关联算法的相关文章

B2C网站商品销售排行榜设计的思考

  在当当上买书,买了自己想要的书后,想再挑选几本其他领域(例如银行会计学原理)的经典图书看看.对于自己熟悉领域内的图书挑选相对容易,基本上通过朋友间推荐.Blog.Twitter.SNS.专业论坛等的口碑方式较容易得知那些图书被大家所推荐.但对于自己并不熟悉领域的图书的优劣就无从判定了.通过豆瓣.关联推荐.关键词搜索等方式找了半天也没找到合适的图书,闲逛时候方向了当当的"当当榜",使用了一下,效果还不错,找到了几本不错的图书.     一般来说,我对图书的选购都是通过如下一些方法:

微博背后的大数据算法探寻:微博推荐算法简述

在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法.有这样一些问题:推荐系统适用哪些场景?用来解决什么问题.具有怎样的价值?效果如何衡量? 推荐系统诞生很早,但真正被大家所重视,缘起于以"facebook"为代表的社会化网络的兴起和以"淘宝"为代表的电商的繁荣,"选择"的时代已经来临,信息和物品的极大丰富,让用户如浩瀚宇宙中的小点,无所适从.推荐系统迎来爆发的机会,变得离用户更近: 快速更新的信息,使用户需要借助群体的智慧,了解当前热点.信息

探寻微博背后的大数据原理:微博推荐算法简述

在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法.有这样一些问题:推荐系统适用哪些场景?用来解决什么问题.具有怎样的价值?效果如何衡量? 推荐系统诞生很早,但真正被大家所重视,缘起于以"facebook"为代表的社会化网络的兴起和以"淘宝"为代表的电商的繁荣,"选择"的时代已经来临,信息和物品的极大丰富,让用户如浩瀚宇宙中的小点,无所适从.推荐系统迎来爆发的机会,变得离用户更近: 快速更新的信息,使用户需要借助群体的智慧,了解当前热点. 信

一文总览数据科学全景:定律、算法、问题类型...

2016年,英国数学家,乐购俱乐部构架师Clive Humbly提出"数据是新能源"这样一个说法.他说: "数据是新能源.它拥有极高的价值,却需要经过提炼才能使用.就像石油一样,必须被转化为气体.塑料或者化学品等,才能发挥出其实际的作用: 因此,数据只有被分解和分析之后才具备价值." iPhone革命,移动经济的增长,为大数据技术的发展创造了一个完美的契机.在2012年,HBR(Harvard Bussiness Review)发表过一篇文章,将数据科学家推到了风口

淘宝产品如何做好关联营销? 利用流量资源降低推广成本

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 如果在参加活动的同时,再配合策划一些关联营销进行导流.分流,提高转化率和客单价,就能够充分利用流量资源,有效降低推广成本. 文/特邀作者 淘宝岚姐姐 对于商家来说,每一个流量都是宝贵的,因为我们都知道,这些流量都是花钱买来的,所以,每一次直通车和钻展的投放,我们都会特别关注点击率.转化率和跳失率的变化,但对于官方活动这种一次性"批发

java使用hadoop实现关联商品统计_java

最近几天一直在看Hadoop相关的书籍,目前稍微有点感觉,自己就仿照着WordCount程序自己编写了一个统计关联商品. 需求描述: 根据超市的销售清单,计算商品之间的关联程度(即统计同时买A商品和B商品的次数). 数据格式: 超市销售清单简化为如下格式:一行表示一个清单,每个商品采用 "," 分割,如下图所示: 需求分析: 采用hadoop中的mapreduce对该需求进行计算. map函数主要拆分出关联的商品,输出结果为 key为商品A,value为商品B,对于第一条三条结果拆分结

电子商务网站销售排行榜设计思考

在当当上买书,买了自己想要的书后,想再挑选几本其他领域(例如银行会计学原理)的经典图书看看.对于自己熟悉领域内的图书挑选相对容易,基本上通过朋友间推荐.Blog.Twitter.SNS.专业论坛等的口碑方式较容易得知那些图书被大家所推荐.但对于自己并不熟悉领域的图书的优劣就无从判定了.通过豆瓣.http://www.aliyun.com/zixun/aggregation/8699.html">关联推荐.关键词搜索等方式找了半天也没找到合适的图书,闲逛时候方向了当当的"当当榜&q

广州香满楼牛奶致俩男童喝后发烧腹泻

■"喝完牛奶四岁男童发烧"追踪厂家已将同批次的包装常温奶送检,表示"会有满意的答复"新快报讯 记者 苏中阳 报道 本报5月5日A03版报道了四岁男童饮用香满楼牛奶后发烧急送医的消息,见报当日,市民谢女士报料称,其儿子于前一天饮了一盒香满楼牛奶之后,同样出现了发烧和腹泻情况,"也太巧了吧?"香满楼方面表示,目前两单投诉都处于调查阶段,"如果最后的调查结果证明确实是我们公司的责任,将会对客户和社会有一个满意的答复"."喝

《BI那点儿事》数据挖掘各类算法——准确性验证

原文:<BI那点儿事>数据挖掘各类算法--准确性验证 准确性验证示例1:--基于三国志11数据库 数据准备: 挖掘模型:依次为:Naive Bayes 算法.聚类分析算法.决策树算法.神经网络算法.逻辑回归算法.关联算法提升图: 依次排名为: 1. 神经网络算法(92.69% 0.99)2. 逻辑回归算法(92.39% 0.99)3. 决策树算法(91.19% 0.98)4. 关联算法(90.60% 0.98)5. 聚类分析算法(89.25% 0.96)6. Naive Bayes 算法(87