杨青龙:中等稀疏条件下基因交互作用的两步 Bayes 方法
【学术期刊】《中国科学:数学》,2021年第2期。
【作者简介】 杨青龙,4556银河国际教授,博士生导师,校“文澜青年学者”,首届平安教育基金“文澜科研新星”奖获得者。主要研究方向为生存分析,高维数据分析,统计学习方法和宏观经济统计分析等。在《中国科学:数学》(中英文版)、《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》、《JOURNAL OF STATISTICAL MECHANICS-THEORY AND EXPERIMENT》等国际、国内重要期刊上发表论文30余篇,并主持国家社科基金、国家自科基金、教育部人文社科基金和国家统计局统计科学研究项目等项目10余项。
【主要观点】 植物遗传与基因组学研究表明许多重要的农艺性状有影响的基因位点不是稀疏的,受到大量微效基因的影响,并且还存在基因交互项的影响. 论文基于重要油料作物油菜的花期数据,研究中等稀疏条件下的基因选择问题, 提出了一种两步Bayes模型选择方法.考虑基因间的交互作用,模型的维数急剧增长,加上数据结构特别,通常的变量选择方法效果不好.本文提出两步变量选择的方法: 首先利 用 Kolmogorov特征扫描方法筛除那些明显不重要的变量,达到降维的目的;其次,在选出的位点中考虑交互作用.为了克服 Bayes 方法计算速度慢的问题,在模型中引入指示变量,通过估计指示变量的后验分布选择模型. 模拟结果表明本文提出的方法在预测精度和计算稳定性上有良好的表现,与不加指示变量的 Bayes 方法相比,在预测精度上有很大的提高.
相比已有的方法, 所提出的方法的优势在于: 第一, 适用于中等稀疏下的离散型基因数据; 第二,模型考虑了交互项, 通过加入指示变量实现模型选择和估计; 第三, 引入指示变量使得计算变得更加简单快速, 同时进行变量选择. 模拟计算的结果表明所提出的方法稳定性好并且容易实现.