12月11号上午,由统计与数学学院主办的大数据研究院揭牌仪式暨学术研讨会系列学术报告五在文澜楼308教室成功举办。本次讲座邀请到了东北师范大学副校长郭建华教授、上海财经大学统计与管理学院院长周勇教授、首都师范大学崔恒建教授、复旦大学朱仲义教授作为主讲人。讲座由统计与数学学院刘洪教授主持。
郭建华教授是生物信息方面的专家,他报告的主题是“A Mixture Factor Model for Microarray Data”,其核心是做基因筛选。郭教授首先向在座师生简述了基因筛选的学术背景,然后运用以降维为目的的因子模型和基于总体异质性假设的混合分布,构建混合因子模型(MFM),并从高维角度分析混合因子模型聚类和基因筛选方法。最后,郭教授以大肠癌和Dengue Fever(一种传染病)患者的基因筛选为例,使同学们了解这一方法的应用前景。郭教授认为混合因子模型的本质是做分类,具有普适性,因此可以运用于很多领域,甚至可以在精准扶贫中发挥重要作用。郭教授的精彩报告使同学们对混合因子模型和基因筛选这一热点有了深刻理解。
周勇教授致力于金融方面的大数据研究,其报告主题是“Leverage Effect in High-Frequency Data with Market Microstructure”,主要分析股票价格的杠杆效应。周勇教授认为现流行的风险衡量工具VaR有两个缺点:一是不满足次可加性,因此不能体现风险分散的特征;二是对尾部损失不敏感,不能检验出极端值,因此他采用Kuan(2009)的Expectile-based VaR(EVaR)来作分析股票价格的杠杆效应。周教授通过市场交易信息对市场微观结构噪声做建模,假设股票价格服从伊藤积分,并建立参数函数和NLE统计量,最终得出结论:回归模型中包含的杠杆效应在一般的微观结构噪声模型下试图预测下一个周期的波动,这对于杠杆效应理论体系具有实践意义。最后,周教授以东风汽车、民生银行等公司的股票价格为例,向同学们展示如何分析杠杆效应是否存在。
崔恒建教授的报告主题是“Robust U-type Test for High Dimensional Regression Coefficients Using Refitted Cross-validation Variance Estimation”,即研究高维回归系数的稳健U型检验。崔教授坦言当前的大数据分析存在一些问题,比如因内生相关问题导致OLS估计有偏且不一致,由于高维稀疏问题(large-p, small-n)导致自由度不足、系数矩阵不可逆,因数据庞杂导致有用信息挖掘难度提高等等,因此需要改变模型形式和估计方法。在模型构建中,崔教授采用的是最简单的线性模型,他认为模型越简单、越直观,越能反应总体的真实信息;在模型估计时,崔教授展示了如何用相关系数估计高维数据的相关性问题;在模型检验环节,崔教授强调高维度下F检验不再适用,并构造Tn,p统计量解决这一问题。在报告的最后,崔教授表示这一方法对于低维数据同样适用,也解决了厚尾和薄尾分布中可能出现离群值的问题,具有非常广泛的应用。
朱仲义教授主讲“Group Structure Detection For High-Dimensional Panel Data Model”。朱教授首先介绍了近年来国内外学者对于面板数据的研究,以及群结构――高维中的一种特殊的低维结构空间,然后简述如何恢复面板数据模型中的潜在群结构,并采用ADMM-CD算法来研究这一问题。在模型构建环节,朱教授简要介绍了两种常用的降维算法――ADMM算法和CD算法,他坦言ADMM算法虽然总能找到局部最优解,但很难找到全局最优解,而他采用的ADMM-CD算法也不能避免这一问题;为了从高维数据中识别子组,朱教授构造了类似于SCAD和MCP的罚函数;此外,为了得到精确的估计,朱教授还构造Oracle估计量进行进一步的分析。尽管报告中涉及很多同学们从未见过的算法和概念,但在朱教授的循循善诱下,同学们都表示并没有觉得枯燥无味。在问答环节,朱教授对同学们提出的问题一一作答,让在场师生收获颇丰。