• 一切都是老板炒工人的鱿鱼 2019-07-14
  • 赏花不用跑远 宗角禄康开得正艳 2019-07-14
  • 车俊会见毛里求斯代总统 2019-07-14
  • 除了杨崇勇,“2亿元贪官俱乐部”至少还有这些人 2019-07-09
  • [民生热线]咸安西大街烤鸭店每天油烟扰民 区政府:已责令整改 2019-07-09
  • 海淀:得天独厚的自然条件 2019-07-09
  • 进京通行证限次数!70.9万辆本地化使用外埠号牌车或将受影响 2019-07-06
  • 6月14日凤凰直通车:茅台再开市场化招聘大门,32个部门要285人葡萄 种植 2019-07-05
  • 东京湾产业转型启示录 2019-07-05
  • 中国三星获第十二届人民企业社会责任奖年度扶贫奖 2019-06-30
  • 一个语文基础都没有的人就喜欢指手画脚, 2019-06-30
  • 匹夫有责之一百一十二—道义大义的博客—强国博客—人民网 2019-06-25
  • 原来端午节也可以过得很“文艺” 2019-06-10
  • 女性之声——全国妇联 2019-06-10
  • 乌鲁木齐县田园风光醉游人 2019-06-09
    • / 10
    • 下载费用:20 金币  

    广西11选5规则: 一种使用词袋模型的蛋白质亚细胞区间预测方法.pdf

    摘要
    申请专利号:

    广西11选5大小走势图 www.fnjpv.tw CN201510341211.6

    申请日:

    2015.06.18

    公开号:

    CN104899477A

    公开日:

    2015.09.09

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 19/24申请日:20150618|||公开
    IPC分类号: G06F19/24(2011.01)I 主分类号: G06F19/24
    申请人: 江南大学; 南京农业大学
    发明人: 张梁; 薛卫; 赵南
    地址: 214122江苏省无锡市滨湖区蠡湖大道1800号
    优先权:
    专利代理机构: 无锡华源专利商标事务所(普通合伙)32228 代理人: 林弘毅; 聂汉钦
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201510341211.6

    授权公告号:

    ||||||

    法律状态公告日:

    2018.01.26|||2015.10.07|||2015.09.09

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种使用词袋模型的蛋白质亚细胞区间预测方法,利用滑动窗口方法分割蛋白质序列,获得大量序列单词的集合,运用氨基酸组成获得序列单词特征,对序列单词特征进行聚类分析构建字典,并通过统计计算获得蛋白质序列的词袋特征,最后将词袋特征送入支持向量机多类分类器进行蛋白质亚细胞区间预测??赏ü笛橹っ鞅痉⒚髂苡行岣呤侗鹁?,尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高,对准确预测未知蛋白的亚细胞位置具有重要作用。

    权利要求书

    权利要求书
    1.  一种使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,包括以下步骤:
    (1)、分割蛋白质序列,截取序列单词;获得所述序列单词的组分信息,将所述组分信息作为序列单词的特征值;
    (2)、对序列单词的特征值进行聚类分析,获得字典;
    (3)、根据所述字典,获得蛋白质序列的词袋特征;将词袋特征送入支持向量机多类分类器,进行蛋白质亚细胞区间预测。

    2.  根据权利要求1所述的使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,所述步骤(1)中,截取序列单词的方法为滑动窗口分割法,所述滑动窗口分割法的具体步骤如下:
    (1A)、选取滑动窗口:
    L0=Min{L1,L2,Λ,Ln}    (a)
    L02dL0(d∈Z)---(b)]]>
    式(a)中,L1,L2,Λ,Ln为蛋白质序列数据集里所有的蛋白质序列的长度,L0为数据集里最短蛋白质序列的长度;式(b)中,d为滑动窗口长度;
    (1B)、将滑动窗口从蛋白质序列的N端到C端滑动,每间隔固定数值,截取滑动窗口长度d内的蛋白质序列片段作为一个序列单词。

    3.  根据权利要求1所述的使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,在所述步骤(1)中,采用BOW_AAC算法获得序列单词的组分信息,所述BOW_AAC算法的具体步骤如下:
    设序列单词p为:
    p=R1R2R3R4R5Λ RL    (c)
    式(c)中,Ri(i=1,2,3,4,5,Λ,L)表示序列单词p的第i个氨基酸残基;
    定义序列单词p的氨基酸组分信息P为:
    P=[f1,f2,Λ,f20]T    (d)
    fu=1NΣi=1LRi,Ri=1,IfRi=A(u)0,IfRi≠A(u)---(e)]]>
    式(d)和式(e)中,fu(u=1,2,3,Λ,20)为20种氨基酸在序列单词p中出现的频率:式(e)中,L表示一个序列单词的长度,N表示一个序列单词包含的氨基酸残基的总数目,A(u)表示序号u所对应的氨基酸残基。

    4.  根据权利要求1所述的使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,在所述步骤(2)中使用K-means算法进行聚类分析,所述K-means算法具体包括:
    (2A)、选取类别个数k:
    k=20+x,0≤x≤500,x∈Z    (f)
    按照式(f)逐一选取k值,结合步骤(1)所述的滑动窗口d值,直到找到一组(d,k)值,使得词袋特征具有最高的识别精度;
    (2B)、从n个序列单词特征值组成的数据集合中任意选择k个序列单词特征值作为初始聚类中心;
    (2C)、定义类内方差和为:
    V=Σi=1kΣxj∈Si(xj-μi)2---(g)]]>
    式(g)中,Si(i=1,2,Λ,k)表示聚类中心位置是μi的第i个聚类类别,xj为属于聚类类别Si的特征值;所述类内方差和为k个类别个数的每一类中,各个序列单词的特征值与聚类中心的距离的平方的和;
    根据式(g)计算每个序列单词特征值与各聚类中心的距离,按照最近距离原则将n个特征值分配到以k个聚类中心为代表的聚类类别中;
    (2D)、根据步骤(2C)得到的结果对新产生的k个类别进行中心计算,得到新的聚类中心;
    (2E)、重复步骤(2C)和步骤(2D),直至聚类中心不再变化或者已达到最大迭代次数,此时得到的聚类中心的集合作为字典。

    5.  根据权利要求1所述的使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,所述步骤(3)具体包括:
    (3A)、经聚类分析后序列单词特征被映射到字典中的各个聚类中心,统计每一条蛋白质序列属于各个聚类中心的序列单词个数;
    (3B)、对每一条蛋白质序列计算各个聚类中心上序列单词个数占该条蛋白质序列序列单词总数的比例,从而获得蛋白质序列的词袋特征;
    (3C)、将词袋特征送入支持向量机多类分类器,进行蛋白质亚细胞区间 预测。

    6.  如权利要求5所述的使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,所述步骤(3C)具体包括:
    (3C1)、从蛋白质数据集中选取一条蛋白质序列构成测试集,剩余的蛋白质序列构成训练集;
    (3C2)、将训练样本(Ci,yi)送入支持向量机多类分类器;向量Ci表示第i组训练样本的词袋特征值,yi表示该条蛋白质序列所对应的亚细胞位置;
    (3C3)、将测试样本送入支持向量机多类分类器进行预测并统计预测结果;
    (3C4)、重复所述步骤(3C1)至步骤(3C3)进行测试,测试次数等于蛋白质数据集的大小。

    关 键 词:
    一种 使用 模型 蛋白质 细胞 区间 预测 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种使用词袋模型的蛋白质亚细胞区间预测方法.pdf
    链接地址://www.fnjpv.tw/p-6376083.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.fnjpv.tw网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 一切都是老板炒工人的鱿鱼 2019-07-14
  • 赏花不用跑远 宗角禄康开得正艳 2019-07-14
  • 车俊会见毛里求斯代总统 2019-07-14
  • 除了杨崇勇,“2亿元贪官俱乐部”至少还有这些人 2019-07-09
  • [民生热线]咸安西大街烤鸭店每天油烟扰民 区政府:已责令整改 2019-07-09
  • 海淀:得天独厚的自然条件 2019-07-09
  • 进京通行证限次数!70.9万辆本地化使用外埠号牌车或将受影响 2019-07-06
  • 6月14日凤凰直通车:茅台再开市场化招聘大门,32个部门要285人葡萄 种植 2019-07-05
  • 东京湾产业转型启示录 2019-07-05
  • 中国三星获第十二届人民企业社会责任奖年度扶贫奖 2019-06-30
  • 一个语文基础都没有的人就喜欢指手画脚, 2019-06-30
  • 匹夫有责之一百一十二—道义大义的博客—强国博客—人民网 2019-06-25
  • 原来端午节也可以过得很“文艺” 2019-06-10
  • 女性之声——全国妇联 2019-06-10
  • 乌鲁木齐县田园风光醉游人 2019-06-09
  • 韦斯卡在哪里 三分彩开奖走势图 Playboy黄金登陆 上海时时乐开奖今天 沃尔夫斯堡怎么样 柏林赫塔新球场 幸运农场开奖结果查询 埃及古梦注册 布莱顿足球俱乐部 沃尔夫斯堡的