• 一切都是老板炒工人的鱿鱼 2019-07-14
  • 赏花不用跑远 宗角禄康开得正艳 2019-07-14
  • 车俊会见毛里求斯代总统 2019-07-14
  • 除了杨崇勇,“2亿元贪官俱乐部”至少还有这些人 2019-07-09
  • [民生热线]咸安西大街烤鸭店每天油烟扰民 区政府:已责令整改 2019-07-09
  • 海淀:得天独厚的自然条件 2019-07-09
  • 进京通行证限次数!70.9万辆本地化使用外埠号牌车或将受影响 2019-07-06
  • 6月14日凤凰直通车:茅台再开市场化招聘大门,32个部门要285人葡萄 种植 2019-07-05
  • 东京湾产业转型启示录 2019-07-05
  • 中国三星获第十二届人民企业社会责任奖年度扶贫奖 2019-06-30
  • 一个语文基础都没有的人就喜欢指手画脚, 2019-06-30
  • 匹夫有责之一百一十二—道义大义的博客—强国博客—人民网 2019-06-25
  • 原来端午节也可以过得很“文艺” 2019-06-10
  • 女性之声——全国妇联 2019-06-10
  • 乌鲁木齐县田园风光醉游人 2019-06-09
    • / 23
    • 下载费用:20 金币  

    广西11选5开最快开奖结果: 文本提取方法、敏感词判定方法、装置和服务器.pdf

    摘要
    申请专利号:

    广西11选5大小走势图 www.fnjpv.tw CN201410077249.2

    申请日:

    2014.03.04

    公开号:

    CN104899201A

    公开日:

    2015.09.09

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140304|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 腾讯科技(北京)有限公司
    发明人: 李炳
    地址: 100080北京市海淀区海淀大街38号银科大厦16层1601-1608室
    优先权:
    专利代理机构: 北京三高永信知识产权代理有限责任公司11138 代理人: 江崇玉
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410077249.2

    授权公告号:

    ||||||

    法律状态公告日:

    2019.05.14|||2016.11.02|||2015.09.09

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种文本提取方法、敏感词判定方法、装置和服务器,属于互联网技术领域。所述文本提取方法包括:对于文本集合中的每一条文本信息,提取文本信息中的关键词;对于提取到的每一个关键词,通过至少两个预定哈希函数中的每一个哈希函数分别计算关键词在预定阵列中所对应的位置;检测关键词在预定阵列中所对应的位置处存储的内容是否都是预定标识;若检测结果为都是预定标识,则判定关键词为敏感词;提取文本集合中不包含敏感词的文本信息;达到了当通过多个哈希函数计算得到的关键词在预定阵列中所对应的位置处存储的内容都是预定标识时,即可判定关键词是敏感词,提高了文本信息的提取效率的效果。

    权利要求书

    权利要求书
    1.  一种文本提取方法,其特征在于,所述方法包括:
    对于文本集合中的每一条文本信息,提取文本信息中的关键词;
    对于提取到的每一个关键词,通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置,所述预定阵列为目标位置处存储有预定标识的阵列,所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后,计算得到的哈希值在所述预定阵列中所对应的位置;
    检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所述预定标识;
    若检测结果为都是所述预定标识,则判定所述关键词为敏感词;
    提取所述文本集合中不包含敏感词的文本信息。

    2.  根据权利要求1所述的方法,其特征在于,若提取得到的所述文本信息有两条或者两条以上,所述提取所述文本集合中不包含敏感词的文本信息之后,所述方法还包括:
    根据预定评分项计算所述两条或者两条以上的文本信息中的每一条文本信息的得分,所述预定评分项包括文本信息的特征信息、文本信息的信息量和文本信息的活跃度中的至少一种;
    根据所述两条或者两条以上的文本信息的得分对所述两条或者两条以上的文本信息进行排名;
    选择所述两条或者两条以上的文本信息中排名在前n位的文本信息,所述n为正整数。

    3.  根据权利要求2所述的方法,其特征在于,所述根据预定评分项计算所述两条或者两条以上的文本信息中的每一条文本信息的得分,包括:
    若所述预定评分项包括文本信息的特征信息,则获取每一条文本信息的特征信息,所述特征信息包括文本信息的内容、文本信息中的链接地址、文本信息被转播的次数、文本信息被评论的次数以及文本信息被浏览的次数中的至少 一种,根据所述特征信息计算每一条文本信息的第一得分;
    若所述预定评分项包括文本信息的信息量,则计算每一条文本信息中的每一个关键词的权值,计算每一条文本信息中所有关键词的权值之和,根据第一关联关系计算每一条文本信息的第二得分,所述第一关联关系为文本信息中的所有关键词的权值之和与所述第二得分呈正相关关系;
    若所述预定评分项包括文本信息的活跃度,则获取每一条文本信息的活跃参数,所述活跃参数包括文本信息被转播的次数、文本信息被评论的次数以及文本信息被浏览的次数中的至少一种,根据所述活跃参数计算每一条文本信息的第三得分;
    根据所述第一得分、所述第二得分和所述第三得分中的至少一种以及各自对应的权重计算所述两条或者两条以上的文本信息中的每一条文本信息的得分。

    4.  根据权利要求3所述的方法,其特征在于,所述计算每一条文本信息中的每一个关键词的权值,包括:
    设关键词i的权值为Wi,j、词频为TFi,j以及逆文档频率为IDFi,j;
    所述关键词i的权值为:
    Wi,j=TFi,j*IDFi,j;
    其中,所述i和j均为正整数。

    5.  一种敏感词判定方法,其特征在于,所述方法包括:
    对于关键词库中的每一个关键词,通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置,所述预定阵列为目标位置处存储有预定标识的阵列,所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后,计算得到的哈希值在所述预定阵列中所对应的位置;
    检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所述预定标识;
    若检测结果为都是所述预定标识,则判定所述关键词为敏感词。

    6.  一种文本提取装置,其特征在于,所述装置包括:
    关键词提取???,用于对于文本集合中的每一条文本信息,提取文本信息中的关键词;
    位置计算???,用于对于所述关键词提取??樘崛〉降拿恳桓龉丶?,通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置,所述预定阵列为目标位置处存储有预定标识的阵列,所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后,计算得到的哈希值在所述预定阵列中所对应的位置;
    内容检测???,用于检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所述预定标识;
    敏感词判定???,用于在所述内容检测??榈募觳饨峁际撬鲈ざū晔妒?,判定所述关键词为敏感词;
    文本提取???,用于提取所述文本集合中不包含敏感词的文本信息。

    7.  根据权利要求6所述的装置,其特征在于,若提取得到的所述文本信息有两条或者两条以上,所述装置还包括:
    得分计算???,用于根据预定评分项计算所述两条或者两条以上的文本信息中的每一条文本信息的得分,所述预定评分项包括文本信息的特征信息、文本信息的信息量和文本信息的活跃度中的至少一种;
    文本排名???,用于根据所述得分计算??榧扑愕玫降乃隽教趸蛘吡教跻陨系奈谋拘畔⒌牡梅侄运隽教趸蛘吡教跻陨系奈谋拘畔⒔信琶?;
    文本选择???,用于选择所述两条或者两条以上的文本信息中排名在前n位的文本信息,所述n为正整数。

    8.  根据权利要求7所述的装置,其特征在于,所述得分计算???,包括:
    第一计算单元,用于在所述预定评分项包括文本信息的特征信息时,获取每一条文本信息的特征信息,所述特征信息包括文本信息的内容、文本信息中的链接地址、文本信息被转播的次数、文本信息被评论的次数以及文本信息被浏览的次数中的至少一种,根据所述特征信息计算每一条文本信息的第一得分;
    第二计算单元,用于在所述预定评分项包括文本信息的信息量时,计算每一条文本信息中的每一个关键词的权值,计算每一条文本信息中所有关键词的权值之和,根据第一关联关系计算每一条文本信息的第二得分,所述第一关联关系为文本信息中的所有关键词的权值之和与所述第二得分呈正相关关系;
    第三计算单元,用于在所述预定评分项包括文本信息的活跃度时,获取每一条文本信息的活跃参数,所述活跃参数包括文本信息被转播的次数、文本信息被评论的次数以及文本信息被浏览的次数中的至少一种,根据所述活跃参数计算每一条文本信息的第三得分;
    得分计算单元,用于根据所述第一得分、所述第二得分和所述第三得分中的至少一种以及各自对应的权重计算所述两条或者两条以上的文本信息中的每一条文本信息的得分。

    9.  根据权利要求8所述的装置,其特征在于,
    所述第二计算单元,还用于在关键词i的权值为Wi,j、词频为TFi,j以及逆文档频率为IDFi,j时,所述关键词i的权值为:
    Wi,j=TFi,j*IDFi,j;
    其中,所述i和j均为正整数。

    10.  一种敏感词判定装置,其特征在于,所述装置包括:
    位置计算???,用于对于关键词库中的每一个关键词,通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置,所述预定阵列为目标位置处存储有预定标识的阵列,所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后,计算得到的哈希值在所述预定阵列中所对应的位置;
    内容检测???,用于检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所述预定标识;
    敏感词判定???,用于在所述内容检测??榈募觳饨峁际撬鲈ざū晔妒?,判定所述关键词为敏感词。

    11.  一种服务器,其特征在于,其包括如权利要求6至9任一所述的文本 提取装置。

    12.  一种服务器,其特征在于,其包括如权利要求10所述的敏感词判定装置。

    关 键 词:
    文本 提取 方法 敏感 判定 装置 服务器
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:文本提取方法、敏感词判定方法、装置和服务器.pdf
    链接地址://www.fnjpv.tw/p-6369376.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.fnjpv.tw网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 一切都是老板炒工人的鱿鱼 2019-07-14
  • 赏花不用跑远 宗角禄康开得正艳 2019-07-14
  • 车俊会见毛里求斯代总统 2019-07-14
  • 除了杨崇勇,“2亿元贪官俱乐部”至少还有这些人 2019-07-09
  • [民生热线]咸安西大街烤鸭店每天油烟扰民 区政府:已责令整改 2019-07-09
  • 海淀:得天独厚的自然条件 2019-07-09
  • 进京通行证限次数!70.9万辆本地化使用外埠号牌车或将受影响 2019-07-06
  • 6月14日凤凰直通车:茅台再开市场化招聘大门,32个部门要285人葡萄 种植 2019-07-05
  • 东京湾产业转型启示录 2019-07-05
  • 中国三星获第十二届人民企业社会责任奖年度扶贫奖 2019-06-30
  • 一个语文基础都没有的人就喜欢指手画脚, 2019-06-30
  • 匹夫有责之一百一十二—道义大义的博客—强国博客—人民网 2019-06-25
  • 原来端午节也可以过得很“文艺” 2019-06-10
  • 女性之声——全国妇联 2019-06-10
  • 乌鲁木齐县田园风光醉游人 2019-06-09
  • 山西快乐十分前三走势全图 贵州快3走势图图表 电子游艺送58元彩金 狗年财神电子游戏 沃尔夫斯堡多特蒙德 楚天30选5开奖 伦敦猎人电子游戏 女单网球冠军 河南泳坛夺金玩法实例 奥格斯堡钢琴怎么样