• 一切都是老板炒工人的鱿鱼 2019-07-14
  • 赏花不用跑远 宗角禄康开得正艳 2019-07-14
  • 车俊会见毛里求斯代总统 2019-07-14
  • 除了杨崇勇,“2亿元贪官俱乐部”至少还有这些人 2019-07-09
  • [民生热线]咸安西大街烤鸭店每天油烟扰民 区政府:已责令整改 2019-07-09
  • 海淀:得天独厚的自然条件 2019-07-09
  • 进京通行证限次数!70.9万辆本地化使用外埠号牌车或将受影响 2019-07-06
  • 6月14日凤凰直通车:茅台再开市场化招聘大门,32个部门要285人葡萄 种植 2019-07-05
  • 东京湾产业转型启示录 2019-07-05
  • 中国三星获第十二届人民企业社会责任奖年度扶贫奖 2019-06-30
  • 一个语文基础都没有的人就喜欢指手画脚, 2019-06-30
  • 匹夫有责之一百一十二—道义大义的博客—强国博客—人民网 2019-06-25
  • 原来端午节也可以过得很“文艺” 2019-06-10
  • 女性之声——全国妇联 2019-06-10
  • 乌鲁木齐县田园风光醉游人 2019-06-09
    • / 28
    • 下载费用:20 金币  

    广西11选5走势图计划软件: 分词词典的生成方法和装置及分词处理方法和装置.pdf

    摘要
    申请专利号:

    广西11选5大小走势图 www.fnjpv.tw CN201510301079.6

    申请日:

    2015.06.04

    公开号:

    CN104899190A

    公开日:

    2015.09.09

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/27申请日:20150604|||公开
    IPC分类号: G06F17/27 主分类号: G06F17/27
    申请人: 百度在线网络技术(北京)有限公司
    发明人: 肖朔; 李秀林; 白洁
    地址: 100085北京市海淀区上地十街10号百度大厦三层
    优先权:
    专利代理机构: 北京清亦华知识产权代理事务所(普通合伙)11201 代理人: 宋合成
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201510301079.6

    授权公告号:

    ||||||

    法律状态公告日:

    2017.10.03|||2015.10.07|||2015.09.09

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明提出一种分词词典的生成方法和装置及分词处理方法和装置,该分词词典的生成方法包括获取原始句语料;对所述原始句语料进行切分,得到分词,并对所述分词进行过滤,得到过滤结果,所述过滤包括如下项中的至少一项:基于词频和逆频率的过滤,基于边界的过滤,基于拼接的过滤;根据所述过滤结果生成分词词典。该方法能够不依赖人工筛选和分词器,可以识别未登录的词条,从而提高分词词典的生成速度和效果。

    权利要求书

    权利要求书
    1.  一种分词词典的生成方法,其特征在于,包括:
    获取原始句语料;
    对所述原始句语料进行切分,得到分词,并对所述分词进行过滤,得到过滤结果,所述过滤包括如下项中的至少一项:基于词频和逆频率的过滤,基于边界的过滤,基于拼接的过滤;
    根据所述过滤结果生成分词词典。

    2.  根据权利要求1所述的方法,其特征在于,所述对所述分词进行过滤,得到过滤结果,包括:
    对所述分词进行基于词频和逆频率的过滤,得到第一次过滤结果;
    根据所述第一次过滤结果,进行基于边界的过滤,得到第二次过滤结果;
    根据所述第一次过滤结果和所述第二次过滤结果,进行拼接过滤,得到所述过滤结果。

    3.  根据权利要求2所述的方法,其特征在于,所述对所述分词进行基于词频和逆频率的过滤,得到第一次过滤结果,包括:
    统计每个分词的词频和逆频率;
    根据所述词频和逆频率计算每个分词的权重,并根据所述权重对分词进行排序;
    在排序后的分词中,选择预设个数的权重较大,且词频大于第一预设值以及逆频率大于第二预设值的分词,得到选择后的分词;
    在所述选择后的分词中获取第一长度的分词,以及包含第一长度的分词的第二长度的分词,并计算所述第二长度的分词的词频与所述第一长度的分词的词频之间的比值,其中,所述第二长度和所述第一长度是相邻的两个长度,且所述第二长度大于所述第一长度;
    如果所述比值大于或等于预设阈值,则将所述第一长度的分词确定为第一次过滤结果的删除词条,将所述第二长度的分词确定为第一次过滤结果的保留词条;或者,如果所述比值小于预设阈值,则将所述第一长度的分词确定为第一次过滤结果的保留词条;
    将所述第一次过滤结果的删除词条和所述第一次过滤结果的保留词条,组成第一次过滤结果。

    4.  根据权利要求2所述的方法,其特征在于,所述根据所述第一次过滤结果,进行基于边界的过滤,得到第二次过滤结果,包括:
    在所述原始句语料中,获取第一原始句语料,所述第一原始句语料是包含所述第一次 过滤结果的保留词条的原始句语料;
    采用分词器,对所述第一原始句语料进行切分,并对应每个第一次过滤结果的保留词条,获取与所述保留词条对应的切分结果;
    根据所述第一次过滤结果的保留词条和所述切分结果的边界情况,得到第二次过滤结果。

    5.  根据权利要求4所述的方法,其特征在于,所述根据所述第一次过滤结果的保留词条和所述切分结果的边界情况,得到第二次过滤结果,包括:
    如果所述保留词条和所述切分结果一致,或者,如果所述保留词条的边界和所述切分结果的边界一致,则将所述保留词条的第一值增加1;或者,
    如果所述保留词条的边界与所述切分结果的边界不一致,或者,如果所述保留词条包含于所述切分结果的边界内,则将所述保留词条的第二值增加1;
    计算所述保留词条对应的如下比值:第一值/(第一值+第二值);
    如果所述比值大于或等于阈值,则将所述保留词条确定为第二次过滤结果的保留词条;或者,如果所述比值小于阈值,则将所述保留词条确定为第二次过滤结果的删除词条;
    将所述第二次过滤结果的删除词条和所述第二次过滤结果的保留词条,组成第二次过滤结果。

    6.  根据权利要求2所述的方法,其特征在于,所述根据所述第一次过滤结果和所述第二次过滤结果,进行拼接过滤,得到所述过滤结果,包括:
    将存在于已有词典中的删除词条确定为删除备选词,所述删除词条包括:第一次过滤结果的删除词条和所述第二次过滤结果的删除词条;
    将所述删除备选词与保留词条进行首尾拼接,得到拼接后的词,所述保留词条包括:所述第一次过滤结果的保留词条和所述第二次过滤结果的保留词条;
    判断所述拼接后的词是否是一个稳定的词条,如果是,则从已有词典中删除所述删除备选词,得到已有词典的保留词条;
    将所述第二次过滤结果的保留词条,以及所述已有词典的保留词条,确定为所述过滤结果。

    7.  根据权利要求6所述的方法,其特征在于,所述判断所述拼接后的词是否是一个稳定的词条,包括:
    如果所述拼接后的词存在于所述保留词条中,则确定所述拼接后的词是一个稳定的词条;或者,
    如果所述拼接后的词的词频大于预设值,且所述拼接后的词不存在于所述删除词条中, 则确定所述拼接后的词是一个稳定的词条;或者,
    如果所述拼接后的词存在于已有的人工数据中,则确定所述拼接后的词是一个稳定的词条。

    8.  一种分词处理方法,其特征在于,包括:
    将待切分的原始文本,采用预先获取的分词词典,进行基于词典的匹配,将所述原始文本切分为分词;
    根据所述分词和预先获取的训练模型,进行基于训练语料的学习,得到分词结果;
    其中,所述分词词典采用如权利要求1-7任一项所述的方法生成。

    9.  根据权利要求8所述的方法,其特征在于,还包括:
    获取训练语料,并将所述训练语料转换为原始文本;
    根据所述分词词典对所述原始文本进行切分;
    采用预设的训练算法,对切分后的分词进行训练,得到所述训练模型。

    10.  一种分词词典的生成装置,其特征在于,包括:
    获取???,用于获取原始句语料;
    过滤???,用于对所述原始句语料进行切分,得到分词,并对所述分词进行过滤,得到过滤结果,所述过滤包括如下项中的至少一项:基于词频和逆频率的过滤,基于边界的过滤,基于拼接的过滤;
    生成???,用于根据所述过滤结果生成分词词典。

    11.  根据权利要求10所述的装置,其特征在于,所述过滤??榘ǎ?BR>分词单元,用于对所述原始句语料进行切分,得到分词;
    第一过滤单元,用于对所述分词进行基于词频和逆频率的过滤,得到第一次过滤结果;
    第二过滤单元,用于根据所述第一次过滤结果,进行基于边界的过滤,得到第二次过滤结果;
    第三过滤单元,用于根据所述第一次过滤结果和所述第二次过滤结果,进行拼接过滤,得到所述过滤结果。

    12.  根据权利要求11所述的装置,其特征在于,所述第一过滤单元具体用于:
    统计每个分词的词频和逆频率;
    根据所述词频和逆频率计算每个分词的权重,并根据所述权重对分词进行排序;
    在排序后的分词中,选择预设个数的权重较大,且词频大于第一预设值以及逆频率大于第二预设值的分词,得到选择后的分词;
    在所述选择后的分词中获取第一长度的分词,以及包含第一长度的分词的第二长度的 分词,并计算所述第二长度的分词的词频与所述第一长度的分词的词频之间的比值,其中,所述第二长度和所述第一长度是相邻的两个长度,且所述第二长度大于所述第一长度;
    如果所述比值大于或等于预设阈值,则将所述第一长度的分词确定为第一次过滤结果的删除词条,将所述第二长度的分词确定为第一次过滤结果的保留词条;或者,如果所述比值小于预设阈值,则将所述第一长度的分词确定为第一次过滤结果的保留词条;
    将所述第一次过滤结果的删除词条和所述第一次过滤结果的保留词条,组成第一次过滤结果。

    13.  根据权利要求11所述的装置,其特征在于,所述第二过滤单元具体用于:
    在所述原始句语料中,获取第一原始句语料,所述第一原始句语料是包含所述第一次过滤结果的保留词条的原始句语料;
    采用分词器,对所述第一原始句语料进行切分,并对应每个第一次过滤结果的保留词条,获取与所述保留词条对应的切分结果;
    根据所述第一次过滤结果的保留词条和所述切分结果的边界情况,得到第二次过滤结果。

    14.  根据权利要求13所述的装置,其特征在于,所述第二过滤单元用于根据所述第一次过滤结果的保留词条和所述切分结果的边界情况,得到第二次过滤结果,包括:
    如果所述保留词条和所述切分结果一致,或者,如果所述保留词条的边界和所述切分结果的边界一致,则将所述保留词条的第一值增加1;或者,
    如果所述保留词条的边界与所述切分结果的边界不一致,或者,如果所述保留词条包含于所述切分结果的边界内,则将所述保留词条的第二值增加1;
    计算所述保留词条对应的如下比值:第一值/(第一值+第二值);
    如果所述比值大于或等于阈值,则将所述保留词条确定为第二次过滤结果的保留词条;或者,如果所述比值小于阈值,则将所述保留词条确定为第二次过滤结果的删除词条;
    将所述第二次过滤结果的删除词条和所述第二次过滤结果的保留词条,组成第二次过滤结果。

    15.  根据权利要求11所述的装置,其特征在于,所述第三过滤单元具体用于:
    将存在于已有词典中的删除词条确定为删除备选词,所述删除词条包括:第一次过滤结果的删除词条和所述第二次过滤结果的删除词条;
    将所述删除备选词与保留词条进行首尾拼接,得到拼接后的词,所述保留词条包括:所述第一次过滤结果的保留词条和所述第二次过滤结果的保留词条;
    判断所述拼接后的词是否是一个稳定的词条,如果是,则从已有词典中删除所述删除 备选词,得到已有词典的保留词条;
    将所述第二次过滤结果的保留词条,以及所述已有词典的保留词条,确定为所述过滤结果。

    16.  根据权利要求15所述的装置,其特征在于,所述第三过滤单元用于判断所述拼接后的词是否是一个稳定的词条,包括:
    如果所述拼接后的词存在于所述保留词条中,则确定所述拼接后的词是一个稳定的词条;或者,
    如果所述拼接后的词的词频大于预设值,且所述拼接后的词不存在于所述删除词条中,则确定所述拼接后的词是一个稳定的词条;或者,
    如果所述拼接后的词存在于已有的人工数据中,则确定所述拼接后的词是一个稳定的词条。

    17.  一种分词处理装置,其特征在于,包括:
    第一切分???,用于将待切分的原始文本,采用预先获取的分词词典,进行基于词典的匹配,将所述原始文本切分为分词;
    第二切分???,用于根据所述分词和预先获取的训练模型,进行基于训练语料的学习,得到分词结果;
    其中,所述分词词典采用如权利要求1-7任一项所述的方法生成。

    18.  根据权利要求17所述的装置,其特征在于,还包括:
    训练???,用于获取训练语料,并将所述训练语料转换为原始文本;根据所述分词词典对所述原始文本进行切分;采用预设的训练算法,对切分后的分词进行训练,得到所述训练模型。

    关 键 词:
    分词 词典 生成 方法 装置 处理
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:分词词典的生成方法和装置及分词处理方法和装置.pdf
    链接地址://www.fnjpv.tw/p-6376074.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.fnjpv.tw网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 一切都是老板炒工人的鱿鱼 2019-07-14
  • 赏花不用跑远 宗角禄康开得正艳 2019-07-14
  • 车俊会见毛里求斯代总统 2019-07-14
  • 除了杨崇勇,“2亿元贪官俱乐部”至少还有这些人 2019-07-09
  • [民生热线]咸安西大街烤鸭店每天油烟扰民 区政府:已责令整改 2019-07-09
  • 海淀:得天独厚的自然条件 2019-07-09
  • 进京通行证限次数!70.9万辆本地化使用外埠号牌车或将受影响 2019-07-06
  • 6月14日凤凰直通车:茅台再开市场化招聘大门,32个部门要285人葡萄 种植 2019-07-05
  • 东京湾产业转型启示录 2019-07-05
  • 中国三星获第十二届人民企业社会责任奖年度扶贫奖 2019-06-30
  • 一个语文基础都没有的人就喜欢指手画脚, 2019-06-30
  • 匹夫有责之一百一十二—道义大义的博客—强国博客—人民网 2019-06-25
  • 原来端午节也可以过得很“文艺” 2019-06-10
  • 女性之声——全国妇联 2019-06-10
  • 乌鲁木齐县田园风光醉游人 2019-06-09
  • 吉林快3最大遗漏 猫头鹰乐园走势图 黑龙江快乐十分走势图50 勒沃库森队员名单 极速快3走势图 魔术箱在线客服 中原风采22选5走势图 赫塔菲对皇马历史交锋 十一选五走势图怎么看 玉皇大帝注册