• 忻州 端午节假期旅游收入达59962万元--黄河新闻网 2019-07-22
  • 人民日报为人民,70年办报不容易,办报人付出了心血和汗水,记录了中国的发展过程,祝愿办得越来越好! 2019-07-20
  • 最美逆行!高速隧道突发火灾  交警三次逆行穿火线撤离400多名群众 2019-07-17
  • 《陕西省县域经济社会发展监测考评办法》解读 2019-07-17
  • 一切都是老板炒工人的鱿鱼 2019-07-14
  • 赏花不用跑远 宗角禄康开得正艳 2019-07-14
  • 车俊会见毛里求斯代总统 2019-07-14
  • 除了杨崇勇,“2亿元贪官俱乐部”至少还有这些人 2019-07-09
  • [民生热线]咸安西大街烤鸭店每天油烟扰民 区政府:已责令整改 2019-07-09
  • 海淀:得天独厚的自然条件 2019-07-09
  • 进京通行证限次数!70.9万辆本地化使用外埠号牌车或将受影响 2019-07-06
  • 6月14日凤凰直通车:茅台再开市场化招聘大门,32个部门要285人葡萄 种植 2019-07-05
  • 东京湾产业转型启示录 2019-07-05
  • 中国三星获第十二届人民企业社会责任奖年度扶贫奖 2019-06-30
  • 一个语文基础都没有的人就喜欢指手画脚, 2019-06-30
    • / 13
    • 下载费用:20 金币  

    广西11选5走势图前三: 基于岭回归矫正MBSEQ甲基化水平的方法及系统.pdf

    摘要
    申请专利号:

    广西11选5大小走势图 www.fnjpv.tw CN201510313520.2

    申请日:

    2015.06.09

    公开号:

    CN104899474A

    公开日:

    2015.09.09

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 19/12申请日:20150609|||公开
    IPC分类号: G06F19/12(2011.01)I 主分类号: G06F19/12
    申请人: 大连三生科技发展有限公司
    发明人: 张保荣; 王晓东; 张久文
    地址: 116600辽宁省大连市开发区东北六街六号
    优先权:
    专利代理机构: 大连智高专利事务所(特殊普通合伙)21235 代理人: 胡景波
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201510313520.2

    授权公告号:

    ||||||

    法律状态公告日:

    2018.02.09|||2015.10.07|||2015.09.09

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    基于岭回归矫正MB-seq甲基化水平的方法,属于基因工程技术领域,利用机器学习岭回归理论,并依据RRBS检测出来的绝对MB-seq甲基化水平进行数据训练并建立预测模型,对基因组上的RRBS未覆盖的胞嘧啶位点进行岭回归预测,使得甲基化水平检测的准确度大于95%,从而消除MB-seq的偏差并得到全基因组甲基化图谱。本发明还公开了一种基于岭回归的甲基化水平计算系统。利用本发明可以从高通量测序MB-seq数据中,精确计算全基因组每一个CpG的甲基化水平。

    权利要求书

    权利要求书
    1.  基于岭回归矫正MB-seq甲基化水平的方法,其特征在于,包括以下步骤:
    (1)提取信息
    (2)建模
    (3)岭回归计算;
    其中,所述的步骤(1)需要提取的信息有:从参考基因组序列中提取基因组CpG密度、GC含量和CpG-OE值;从MB-seq高通量测序数据唯一比对结果中,提取已知基因组上每个胞嘧啶的相对甲基化信息;从RRBS高通量测序数据唯一比对结果中,提取覆盖到的每个胞嘧啶的绝对甲基化信息;
    所述的步骤(2)建模如下:
    Σi=1n(yi-Σj=0pwjxij)2+λΣj=0pwj2]]>
    其中:
    y:目标函数;为以RRBS高通量测序数据唯一比对结果中提取到的覆盖到的每个胞嘧啶的绝对甲基化信息;
    x:回归变量矩阵;包括行、列;每行代表每个CpG变量;每列分别为每个变量的CpG密度、GC含量、CpG-OE值以及相对甲基化信息;
    所述的相对甲基化信息包括:MB-seq甲基化水平的观测值MB level,甲基化CpG个数MB mCG,MB-seq测序深度MB depth,当前CpG侧翼+/-100bp区域的MB-seq检测到的平均甲基化水平MB back,这200bp范围的甲基化CpG位点总数MB mCG;
    所述的步骤(3)岭回归计算具体是
    Σi=1n(yi-Σj=0pwjxij)2+λΣj=0pwj2]]>
    对求导,结果为
    2XT(Y-XW)-2λW
    令其为0,求得的值:
    w^=(XTX+λI)-1XTY]]>
    输入新的回归变量矩阵X即可获得新Y值,即而获得全基因组的胞嘧啶位点的绝对甲基化水平。

    2.  如权利要求1所述的基于岭回归矫正MB-seq甲基化水平的方法,其特征在于:在所述的步骤(1)中提取信息后,还将提取到的信息进行阈值过滤,过滤低质量碱基和序列,并过滤adapter污染序列。

    3.  如权利要求1所述的基于岭回归矫正MB-seq甲基化水平的方法,其特征在于:所述的步骤(3)计算之前,采用交叉验证评估模型进行数据训练和测试:
    a).将预测特征变量和真实的甲基化水平分成训练和测试数据集;随机抽取50%的CpG位点作为训练数据,剩下的50%作为测试数据;
    b).先使用训练数据训练模型;再计算预测甲基化水平值和RRBS测量的甲基化水平值之间的相关性系数;这个过程重复N次,N次的平均相关性系数用来表示模型的预测精度;
    对于每个基因组元件,单独进行训练和岭回归测试;而对同时位于多个基因组元件的CpG位点,;取多个预测值的平均值;
    c).甲基化水平的预测是全基因组范围的,并且对于RRBS原本就覆盖的位点,采取RRBS的观测值作为最终的甲基化水平;所有未被RRBS覆盖的CpG位点,一律认为其未被甲基化,并且不用于岭回归,甲基化水平预测值小于0或者大于分别基于岭回归的原则规整到0和1。

    4.  如权利要求3所述的基于岭回归矫正MB-seq甲基化水平的方法,其特征在于:N≥1000。

    5.  如权利要求3所述的基于岭回归矫正MB-seq甲基化水平的方法,其特征在于:在模型数据训练时:
    a).当变量间存在共线性的时候,通过引入lambda表达式以解决最小二乘回归得到的系数不稳定,方差很大的问题;
    b).当模型包含常数项时,岭回归函数对y进行中心化,以y的均 值作为因子;对x进行中心化和归一化,以x中各个变量的均值和标准差作为因子;这样对x和y处理后,x和y的均值为0,这使得回归平面经过原点,即常数项为0;
    c).当模型不包含常数项时,因为要强制通过原点,该模型假设各个变量的均值为0,因此不对x和y进行中心化,但是对x进行归一化,而且归一化因子也是假设变量均值为0计算出来的该变量的标准差。

    6.  如权利要求3所述的基于岭回归矫正MB-seq甲基化水平的方法,其特征在于:在使用该模型进行测试的时候,需要首先对x和y进行中心化和归一化,此时因子是使用训练模型时候进行中心化和归一化的因子,然后再与系数相乘得到预测结果。

    7.  如权利要求1所述的基于岭回归矫正MB-seq甲基化水平的方法,其特征在于:在步骤(3)岭回归计算之后,进行如下对异常点处理:
    1)将MB-seq检测深度为0的位点定义为甲基化水平为0;
    2)结合MB-seq甲基化水平的观测值(MB level),甲基化CpG个数(MB mCG),MB-seq测序深度(MB depth),当前CpG侧翼+/-100bp区域的MB-seq检测到的平均甲基化水平(MB back),这200bp范围的甲基化CpG位点总数(MB mCG),以及每一个CpG位点上下游100bp的基因组CpG密度、GC含量,CpG-OE值等对甲基化水平检测的影响,利用岭回归导入到模型中,并且机器学习得到某一胞嘧啶位点甲基化水平;
    3)将回归得到的甲基化水平超过1的位点自动归为甲基化水平为1,而回归的甲基化水平值小于0的位点自动归为甲基化水平为0。

    8.  岭回归矫正MB-seq甲基化水平的系统,其特征在于:包括以下??椋?BR>提取??椋捍硬慰蓟蜃樾蛄兄刑崛』蜃镃pG密度、GC含量和CpG-OE值;从MB-seq高通量测序数据唯一比对结果中,提取已知基因组上每个胞嘧啶的相对甲基化信息;从RRBS高通量测序数据唯一比对结果中,提取覆盖到的每个胞嘧啶的绝对甲基化信息;所述的相 对甲基化信息包括:MB-seq甲基化水平的观测值MB level,甲基化CpG个数MB mCG,MB-seq测序深度MB depth,当前CpG侧翼+/-100bp区域的MB-seq检测到的平均甲基化水平MB back,这200bp范围的甲基化CpG位点总数MB mCG;
    建模??椋焊莼蜃樾畔⒑图谆畔?,采用岭回归模型对真实甲基化水平RRBS level和回归参数建立回归模型;
    回归??椋豪昧牖毓槔砺?,并依据提取出来的基因组信息和甲基化信息,对基因组上的胞嘧啶位点进行回归以得到甲基化水平的???。

    关 键 词:
    基于 回归 矫正 MBSEQ 甲基化 水平 方法 系统
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:基于岭回归矫正MBSEQ甲基化水平的方法及系统.pdf
    链接地址://www.fnjpv.tw/p-6369372.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.fnjpv.tw网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 忻州 端午节假期旅游收入达59962万元--黄河新闻网 2019-07-22
  • 人民日报为人民,70年办报不容易,办报人付出了心血和汗水,记录了中国的发展过程,祝愿办得越来越好! 2019-07-20
  • 最美逆行!高速隧道突发火灾  交警三次逆行穿火线撤离400多名群众 2019-07-17
  • 《陕西省县域经济社会发展监测考评办法》解读 2019-07-17
  • 一切都是老板炒工人的鱿鱼 2019-07-14
  • 赏花不用跑远 宗角禄康开得正艳 2019-07-14
  • 车俊会见毛里求斯代总统 2019-07-14
  • 除了杨崇勇,“2亿元贪官俱乐部”至少还有这些人 2019-07-09
  • [民生热线]咸安西大街烤鸭店每天油烟扰民 区政府:已责令整改 2019-07-09
  • 海淀:得天独厚的自然条件 2019-07-09
  • 进京通行证限次数!70.9万辆本地化使用外埠号牌车或将受影响 2019-07-06
  • 6月14日凤凰直通车:茅台再开市场化招聘大门,32个部门要285人葡萄 种植 2019-07-05
  • 东京湾产业转型启示录 2019-07-05
  • 中国三星获第十二届人民企业社会责任奖年度扶贫奖 2019-06-30
  • 一个语文基础都没有的人就喜欢指手画脚, 2019-06-30
  • 湛蓝深海电子游戏 捕鱼大富翁安卓版 杜塞尔多夫中国工贸中心 怎么下载qq炫舞游戏 重要人物游戏 广东快乐十分开奖记录 青海快三走势图1000期 千炮捕鱼达人 25选5走势图 江苏快3和值有哪些号