北理工在大數(shù)據(jù)最優(yōu)抽樣取得研究成果
發(fā)布日期:2020-06-15 供稿:數(shù)學與統(tǒng)計學院
編輯:陶思遠 審核:田玉斌 閱讀次數(shù):日前,,北京理工大學數(shù)學與統(tǒng)計學院虞俊助理教授及其合作者在統(tǒng)計學四大國際頂級期刊《Journal of the American Statistical Association》上發(fā)表了題為“Optimal Distributed Subsampling for Maximum Quasi-Likelihood Estimators with Massive Data”的研究論文。該論文針對如何從分布式存儲海量數(shù)據(jù)中提取有用的信息這一問題,,從基于最優(yōu)試驗設計理論的抽樣角度提出了一個快速解決方案,。
隨著大數(shù)據(jù)時代的到來,人們所能獲取的數(shù)據(jù)源源不斷地以指數(shù)級的速度增加,。分析這些作為信息載體的數(shù)據(jù),,從中提取有用的信息,一直是統(tǒng)計學和數(shù)據(jù)科學的核心研究課題之一,。對海量數(shù)據(jù)進行統(tǒng)計分析時,,通常面對兩個特別具有挑戰(zhàn)的問題,其一是數(shù)據(jù)量過大,,無法將整個數(shù)據(jù)集存入一個計算機中,,從而導致傳統(tǒng)統(tǒng)計分析算法無法直接應用到對應數(shù)據(jù)集;其二是盡管數(shù)據(jù)量適中,,然而由于現(xiàn)有計算機的計算速度和計算能力的限制,,進行統(tǒng)計分析往往耗時很長,無法在有限的時間內得到研究者想要的統(tǒng)計分析結果,。
為了克服這兩個挑戰(zhàn)性問題,,針對大數(shù)據(jù)集的統(tǒng)計分析方法大致可以分為如下兩類:第一類是并行計算方法,首先將整個大數(shù)據(jù)集分成若干個子數(shù)據(jù)集,,對每個子數(shù)據(jù)集單獨計算,,最后把這些子數(shù)據(jù)集的計算結果有機地結合在一起,得到整個數(shù)據(jù)集的推斷結果,。第二類分析方法是子抽樣方法,,從整個數(shù)據(jù)集中巧妙地抽取一組有效的子樣本,僅對子樣本進行統(tǒng)計推斷,,利用樣本代替整體的思想,,通過子樣本的推斷來推斷全樣本的估計結果,,從而節(jié)省計算時間。雖然大量的研究結果表明子抽樣方法能夠有效解決大數(shù)據(jù)的統(tǒng)計推斷問題,,然而如何高效地選擇攜帶信息量大,、能夠提高統(tǒng)計推斷準確度的數(shù)據(jù)作為進行統(tǒng)計推斷的子樣仍然是大數(shù)據(jù)分析中亟待解決的問題之一。
虞俊助理教授與合作者的上述論文,,基于最優(yōu)設計的思想,,對如何高效地選擇富含統(tǒng)計模型信息的數(shù)據(jù)這一問題給出了一個科學的方法。利用分布計算的優(yōu)勢,,首先對存儲在不同計算機上的數(shù)據(jù)集分別抽取子樣,,之后將每個子樣本得到的估計巧妙地融合在一起,從而形成全數(shù)據(jù)集的最優(yōu)近似估計,。文章從理論和模擬兩方面證明了這一方法的科學性和可行性,。
該項研究工作是虞俊助理教授與北京大學艾明要教授,康涅狄格大學統(tǒng)計系王海鷹助理教授等合作完成,,虞俊助理教授為第一作者,,本項工作得到北京理工大學青年教師學術啟動計劃的資助。
論文鏈接地址:
https://www.tandfonline.com/doi/abs/10.1080/01621459.2020.1773832?journalCode=uasa20
附研究團隊及個人簡介:
北京理工大學數(shù)學與統(tǒng)計學院試驗設計團隊積極開展國內外合作研究和學術交流,,團隊負責人田玉斌教授以及團隊成員孔祥順博士,,王典朋博士,虞俊博士等分別與國內外知名試驗設計學者,,如C.F.Jeff Wu院士,、艾明要教授、Roshan Vengazhiyil Joseph教授等建立了長期的合作關系,。團隊成員分別開展著試驗設計理論與應用的研究,,表現(xiàn)出強勁的發(fā)展勢頭。
虞俊,,助理教授,,北理工數(shù)學與統(tǒng)計學院試驗設計團隊主要成員。本科畢業(yè)于南開大學,、博士畢業(yè)于北京大學,,曾在美國佐治亞州立大學作訪問學者。主要從事試驗設計,,抽樣理論以及相關的統(tǒng)計應用研究工作,。在《Journal of the American Statistical Association》《Computational Statistics & Data Analysis》《Statistica Sinica》《Journal of Statistical Planning and Inference》等統(tǒng)計學權威期刊發(fā)表了多篇高水平學術論文。
分享到: