• 忻州 端午节假期旅游收入达59962万元--黄河新闻网 2019-07-22
  • 人民日报为人民,70年办报不容易,办报人付出了心血和汗水,记录了中国的发展过程,祝愿办得越来越好! 2019-07-20
  • 最美逆行!高速隧道突发火灾  交警三次逆行穿火线撤离400多名群众 2019-07-17
  • 《陕西省县域经济社会发展监测考评办法》解读 2019-07-17
  • 一切都是老板炒工人的鱿鱼 2019-07-14
  • 赏花不用跑远 宗角禄康开得正艳 2019-07-14
  • 车俊会见毛里求斯代总统 2019-07-14
  • 除了杨崇勇,“2亿元贪官俱乐部”至少还有这些人 2019-07-09
  • [民生热线]咸安西大街烤鸭店每天油烟扰民 区政府:已责令整改 2019-07-09
  • 海淀:得天独厚的自然条件 2019-07-09
  • 进京通行证限次数!70.9万辆本地化使用外埠号牌车或将受影响 2019-07-06
  • 6月14日凤凰直通车:茅台再开市场化招聘大门,32个部门要285人葡萄 种植 2019-07-05
  • 东京湾产业转型启示录 2019-07-05
  • 中国三星获第十二届人民企业社会责任奖年度扶贫奖 2019-06-30
  • 一个语文基础都没有的人就喜欢指手画脚, 2019-06-30
    • / 24
    • 下载费用:20 金币  

    广西11选5第17021231期: 有趣项集获取方法和装置.pdf

    摘要
    申请专利号:

    广西11选5大小走势图 www.fnjpv.tw CN201410078745.X

    申请日:

    2014.03.05

    公开号:

    CN104899408A

    公开日:

    2015.09.09

    当前法律状态:

    驳回

    有效性:

    无权

    法律详情: 发明专利申请公布后的驳回IPC(主分类):G06F 19/00申请公布日:20150909|||实质审查的生效IPC(主分类):G06F 19/00申请日:20140305|||公开
    IPC分类号: G06F19/00(2011.01)I 主分类号: G06F19/00
    申请人: 孙宝文; 祝世伟
    发明人: 祝世伟; 李雪峰; 王天梅; 张巍; 涂艳
    地址: 100081北京市海淀区学院南路39号中央财经大学中国互联网经济研究院
    优先权:
    专利代理机构: 北京三高永信知识产权代理有限责任公司11138 代理人: 江崇玉
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410078745.X

    授权公告号:

    ||||||

    法律状态公告日:

    2019.04.05|||2015.10.07|||2015.09.09

    法律状态类型:

    发明专利申请公布后的驳回|||实质审查的生效|||公开

    摘要

    本发明公开了一种有趣项集获取方法和装置,属于数据挖掘领域。该方法包括:扫描事务集,得到事务集中的每个项目,并计算每个项目的支持度,得到多个候选项集;对于每个候选项集,计算候选项集的支持度和余弦相似度;判断余弦相似度是否大于第一预设阈值,并判断支持度是否大于第二预设阈值;当余弦相似度大于第一预设阈值,且支持度大于第二预设阈值时,将候选项集作为有趣项集。本发明通过定义余弦相似度,在获取有趣项集时,计算候选项集的支持度和余弦相似度,并进行过滤,应用余弦相似度这一客观兴趣度,能够在挖掘有趣项集的同时,对候选项集进行评价和过滤,无需计算出所有候选项集的支持度和置信度,降低了计算量,提高了挖掘效率。

    权利要求书

    权利要求书
    1.  一种有趣项集获取方法,其特征在于,所述方法包括:
    扫描待分析的事务集,得到所述事务集中的每个项目,并计算每个项目的支持度,所述事务集包括多个事务,每个事务包括至少一个项目;
    基于每个项目的支持度,得到多个候选项集;
    对于每个候选项集,计算所述候选项集的支持度和余弦相似度;
    判断所述候选项集的余弦相似度是否大于第一预设阈值,并判断所述候选项集的支持度是否大于第二预设阈值;
    当所述候选项集的余弦相似度大于所述第一预设阈值,且所述候选项集的支持度大于所述第二预设阈值时,将所述候选项集作为有趣项集。

    2.  根据权利要求1所述的方法,其特征在于,计算所述候选项集的支持度和余弦相似度包括:
    获取所述事务集包含的事务数目,并获取所述候选项集中的每个项目在所述事务集中同时出现的次数;
    根据所述事务数目以及所述候选项集中每个项目在所述事务集中同时出现的次数,计算所述候选项集的支持度;
    根据所述候选项集的支持度以及所述候选项集中每个项目的支持度,应用以下公式计算所述候选项集的余弦相似度:
    cos(X)=supp(X)Πk=1Ksupp({ik})K;]]>
    其中,X为所述候选项集,X={i1,i2,...,iK},K为所述候选项集的宽度,K≥2,k=1,2,...K,cos(X)为所述候选项集的余弦相似度,supp(X)为所述候选项集的支持度,supp({ik})为所述候选项集中项目ik的支持度。

    3.  根据权利要求1所述的方法,其特征在于,基于每个项目的支持度,得到多个候选项集包括:
    将每个项目所构成的项集分别作为候选项集。

    4.  根据权利要求1所述的方法,其特征在于,所述方法还包括:
    当所述第一候选项集的余弦相似度大于所述第一预设阈值,且所述第一候选项集的支持度大于所述第二预设阈值时,将所述第一候选项集的直接超集作为所述第二候选项集,继续执行计算所述第二候选项集的支持度和余弦相似度的步骤;
    其中,在所述第一候选项集的直接超集与所述第一候选项集的差集中,每个项目的支持度均大于所述第一候选项集中每个项目的支持度。

    5.  根据权利要求4所述的方法,其特征在于,将所述第一候选项集的直接超集作为所述第二候选项集包括:
    从不属于所述第一候选项集的项目中选取第一项目,所述第一项目的支持度大于所述第一候选项集中每个项目的支持度;
    将所述第一候选项集与所述第一项目合并后的项集作为所述第二候选项集。

    6.  根据权利要求1所述的方法,其特征在于,判断所述候选项集的余弦相似度是否大于第一预设阈值,并判断所述候选项集的支持度是否大于第二预设阈值之后,所述方法还包括:
    当所述候选项集的余弦相似度不大于所述第一预设阈值时,过滤所述候选项集的直接超集和所述候选项集;
    当所述候选项集的支持度不大于所述第二预设阈值时,过滤所述候选项集的超集和所述候选项集;
    其中,在所述候选项集的直接超集与所述候选项集的差集中,每个项目的 支持度均大于所述候选项集中每个项目的支持度。

    7.  根据权利要求1-6任一项所述的方法,其特征在于,余弦相似度具有如下的条件反单调性:
    对于任意的项集X和Y,满足且则当supp({i})<supp({i'})时,cos(X)≥cos(Y);
    其中,i为项集X中的任一项,i'为项集Y与项集X的差集中的任一项,supp({i})为i的支持度,supp({i'})为i'的支持度,cos(X)为项集X的余弦相似度,cos(Y)为项集Y的余弦相似度。

    8.  一种有趣项集获取装置,其特征在于,所述装置包括:
    扫描???,用于扫描待分析的事务集,得到所述事务集中的每个项目,并计算每个项目的支持度,所述事务集包括多个事务,每个事务包括至少一个项目;
    候选项集获取???,用于基于每个项目的支持度,得到多个候选项集;
    计算???,用于对于每个候选项集,计算所述候选项集的支持度和余弦相似度;
    判断???,用于判断所述候选项集的余弦相似度是否大于第一预设阈值,并判断所述候选项集的支持度是否大于第二预设阈值;
    有趣项集获取???,用于当所述候选项集的余弦相似度大于所述第一预设阈值,且所述候选项集的支持度大于所述第二预设阈值时,将所述候选项集作为有趣项集。

    9.  根据权利要求8所述的装置,其特征在于,所述计算??榘ǎ?BR>数目获取单元,用于获取所述事务集包含的事务数目,并获取所述候选项集中的每个项目在所述事务集中同时出现的次数;
    支持度计算单元,用于根据所述事务数目以及所述候选项集中每个项目在所述事务集中同时出现的次数,计算所述候选项集的支持度;
    余弦相似度计算单元,用于根据所述候选项集的支持度以及所述候选项集中每个项目的支持度,应用以下公式计算所述候选项集的余弦相似度:
    cos(X)=supp(X)Πk=1Ksupp({ik})K;]]>
    其中,X为所述候选项集,X={i1,i2,...,iK},K为所述候选项集的宽度,K≥2,k=1,2,...K,cos(X)为所述候选项集的余弦相似度,supp(X)为所述候选项集的支持度,supp({ik})为所述候选项集中项目ik的支持度。

    10.  根据权利要求8所述的装置,其特征在于,所述候选项集获取??橛糜诮扛鱿钅克钩傻南罴直鹱魑蜓∠罴?。

    11.  根据权利要求8所述的装置,其特征在于,所述装置还包括:
    第二候选项集获取???,用于当第一候选项集的余弦相似度大于所述第一预设阈值,且所述第一候选项集的支持度大于所述第二预设阈值时,将所述第一候选项集的直接超集作为所述第二候选项集,继续执行计算所述第二候选项集的支持度和余弦相似度的步骤;
    其中,在所述第一候选项集的直接超集与所述第一候选项集的差集中,每个项目的支持度均大于所述第一候选项集中每个项目的支持度。

    12.  根据权利要求11所述的装置,其特征在于,所述第二候选项集获取??橛糜诖硬皇粲谒龅谝缓蜓∠罴南钅恐醒∪〉谝幌钅?,所述第一项目的支持度大于所述第一候选项集中每个项目的支持度;将所述第一候选项集与所述第一项目合并后的项集作为所述第二候选项集。

    13.  根据权利要求8所述的装置,其特征在于,所述装置还包括:
    第一过滤???,用于当所述候选项集的余弦相似度不大于所述第一预设阈值时,过滤所述候选项集的直接超集和所述候选项集;
    第二过滤???,用于当所述候选项集的支持度不大于所述第二预设阈值时,过滤所述候选项集的超集和所述候选项集;
    其中,在所述候选项集的直接超集与所述候选项集的差集中,每个项目的支持度均大于所述候选项集中每个项目的支持度。

    14.  根据权利要求8-13任一项所述的方法,其特征在于,余弦相似度具有如下的条件反单调性:
    对于任意的项集X和Y,满足且则当supp({i})<supp({i'})时,cos(X)≥cos(Y);
    其中,i为项集X中的任一项,i'为项集Y与项集X的差集中的任一项,supp({i})为i的支持度,supp({i'})为i'的支持度,cos(X)为项集X的余弦相似度,cos(Y)为项集Y的余弦相似度。

    关 键 词:
    有趣 获取 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:有趣项集获取方法和装置.pdf
    链接地址://www.fnjpv.tw/p-6376075.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.fnjpv.tw网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 忻州 端午节假期旅游收入达59962万元--黄河新闻网 2019-07-22
  • 人民日报为人民,70年办报不容易,办报人付出了心血和汗水,记录了中国的发展过程,祝愿办得越来越好! 2019-07-20
  • 最美逆行!高速隧道突发火灾  交警三次逆行穿火线撤离400多名群众 2019-07-17
  • 《陕西省县域经济社会发展监测考评办法》解读 2019-07-17
  • 一切都是老板炒工人的鱿鱼 2019-07-14
  • 赏花不用跑远 宗角禄康开得正艳 2019-07-14
  • 车俊会见毛里求斯代总统 2019-07-14
  • 除了杨崇勇,“2亿元贪官俱乐部”至少还有这些人 2019-07-09
  • [民生热线]咸安西大街烤鸭店每天油烟扰民 区政府:已责令整改 2019-07-09
  • 海淀:得天独厚的自然条件 2019-07-09
  • 进京通行证限次数!70.9万辆本地化使用外埠号牌车或将受影响 2019-07-06
  • 6月14日凤凰直通车:茅台再开市场化招聘大门,32个部门要285人葡萄 种植 2019-07-05
  • 东京湾产业转型启示录 2019-07-05
  • 中国三星获第十二届人民企业社会责任奖年度扶贫奖 2019-06-30
  • 一个语文基础都没有的人就喜欢指手画脚, 2019-06-30
  • 华东15选5专家预测 瓦伦西亚有几支西甲球队 大邱庄钢铁网铁哥们助手下载 印第安追梦客服 云南快乐10分开奖历史 单机麻将 弗罗西诺内美院 时时乐开奖号码走势图 疯狂之七返水 通比牛牛出牛牛规律