科技成果

阅读数: 2188

成果名称: 稀疏正则化方法研究

成果登记号: 9612018J0131

第一完成单位: 西北大学

联 系 人: 张海

成果类型: 基础理论

成果体现形式 : 论文

技术领域: 其他

应用行业: 科学研究和技术服务业

成果简介:

    项目来源于国家自然科学基金资助。重点研究高维数据处理理论及算法研究。项目的研究背景是随着计算机技术的飞速发展,人类收集数据、存储数据的能力得到了极大的提高,无论是科学研究还是社会生活的各个领域中都积累了海量、高维数据,对这些数据进行分析以发掘数据中蕴含的有用信息,成为几乎所有领域的共同需求。网络作为一种有效的可视化数据方法,同样也为从数据中提取信息提供了新 的途径。研究表明,真实网络不同于随机网络,真实网络是Scale Free的,即真实网络中有重 要节点存在,具有Hub。针对真实网络建模,开展统计推断及网络结构学习对于理解数据蕴含规律有着重要的意义。本项目研究属于统计学与信息科学交叉领域,开展高维、海量数据处理的理论及方法研究,为高维数据处理的特征提取、变量选择等问题提供理论及算法支撑。

    

    主要研究内容包括:

(1)开展非凸稀疏正则化理论、算法及不同方法的比较研究。包括:研究非凸稀疏正则化方法非渐近泛化界估计,从理论上分析非凸正则化方法的高效性;基于阈值迭代方法和AMP算法开展,非凸稀疏正则化方法快速算法研究;建立稀疏机器学习算法比较平台,利用相变的工具研究不同方法的差异,指导新方法的设计和研究.建立相变分析方法的理论基础,从而研究稀疏机器学习算法的本质特征。

(2)开展基于稀疏正则化方法的网络数据分析,研究网络建模及统计推断问题,建立具有Hub属性的随机块模型,并研究其高维统计性质;研究具有组结构信息的组变量选择,建立基于非凸组结构正则化的组变量选择方法;通过图模型研究具有网络数据,基于稀疏先验和无标度先验研究稀疏网络的高维统计性质。

(3)开展基于稀疏先验的变点检测问题研究,改进Qiu于2004年提出单侧局部线性核方法,修正模型得到更好的光滑性,解决“尖点”和“突变点”并存时的检测问题。从而可应用于图像处理、气候数据处理等背景需要问题。

(4)针对网络数据研究了随机块模型参数估计的局部渐近正态性分析,通过开展MLE解的局部渐近正态性研究,MLE解与变分方法解的界,给出了随机块模型变分法的统计性质。

(5)开展基于稀疏先验的图像数据分析研究。基于稀疏扰动图模型,利用矩阵扰动分析提取扰动不敏感的特征,提取稀疏主特征图,有效降低计算复杂度同时实现原数据的最佳近似逼近,提高图模型的稳健性,有利于实现高维数据的稳健匹配;提出了基于图稀疏分解的自适应变分约束方法,避免了正则化参数选取和噪声干扰等问题,根据数据(图像)梯度信息自适应选择合适平滑方法,有效去除噪声,较好保护图像边缘特征等细节,增强数据鉴别能力,有效实现大数据的聚类。

     

    项目的创新点包括:

(1)完善了非凸稀疏正则化的理论,理论研究结果发现非凸稀疏正则化方法具有良好的高维统计性质,为非凸稀疏正则化方法的广泛应用提供了支撑。

(2)提出了基于阈值迭代的非凸稀疏正则化方法的快速算法,研究结果发现非凸稀疏正则化方法更适合于高维数据分析。

(3)提出了新的变点检测算法,研究发现变点问题具有结构特征,适合于非凸稀疏正则化方法的应用领域。

(4)针对随机块模型的正态渐近分析,提出了分析随机块模型及变分法的分析框架。

(5)针对图像数据处理问题,研究发现图像问题的特征具有稀疏的特征,通过稀疏非凸正则化方法,可有效的提高图像处理效果。

      


    该项目所研究的高维数据正则化理论具有深刻的科学价值,同时获得同行引用及好评。本项目研究所涉及的问题是机器学习中的核心基础与关键技术问题,它不仅有深刻的理论背景,而且有非常直接的应用价值:可直接应用于变量选择、变点检测和压缩传感等问题,为其提供理论和算法支撑。目前项目共获得国家自然科学基金面上基金5项资助,青年基金3项资助,地区基金1项资助。 共发表论文16篇,引用 58次,包括有统计学顶级期刊Annals of Statistics, Biometrika,这两项成果为陕西省乃至西北地区仅有的统计学领域四大顶级期刊(Top 4)论文;包括有IEEE Transactions on Image Processing顶级工程应用期刊论文。

    申请人张海、夏志明、冷成财和郭骁共同申请并获批2018年陕西高校科学技术奖一等奖。