中國經(jīng)濟網(wǎng)貴陽8月30日訊(記者宋雅靜)“面對超維數(shù)據(jù)激增、跨領(lǐng)域應(yīng)用需求擴大及AI深度融合的趨勢,統(tǒng)計學是破解數(shù)據(jù)難題、保障AI決策科學性的核心支撐?!?025數(shù)博會上,清華大學教授陳松蹊接受中國經(jīng)濟網(wǎng)記者采訪時,結(jié)合自身在大氣環(huán)境、醫(yī)療健康等領(lǐng)域的研究實踐,闡述了統(tǒng)計學的創(chuàng)新應(yīng)用與協(xié)同路徑。

清華大學教授陳松蹊。中國經(jīng)濟網(wǎng)宋雅靜/攝
超維數(shù)據(jù)處理:突破關(guān)聯(lián)與多模態(tài)挑戰(zhàn)
談及超維大數(shù)據(jù)的處理難點,陳松蹊指出,自 2000 年人類基因組計劃推動超高維數(shù)據(jù)研究以來,統(tǒng)計學已解決獨立超維數(shù)據(jù)的信號識別、稀疏性分析等問題。但當前數(shù)據(jù)分布、異質(zhì)性愈發(fā)復雜,新挑戰(zhàn)集中在兩方面:一是數(shù)據(jù)存在時空相關(guān)性,比如大氣觀測數(shù)據(jù)并非完全獨立,傳統(tǒng)處理方法不再適用;二是多模態(tài)混合數(shù)據(jù)增多,數(shù)據(jù)來源涉及多個“母體”,難以用單一模型適配。
“以大氣科學為例,一公里分辨率的地球系統(tǒng)數(shù)據(jù)維度可達幾千萬,即便有每小時的觀測數(shù)據(jù),樣本量仍遠低于維度。” 陳松蹊提到,針對關(guān)聯(lián)數(shù)據(jù)、多模態(tài)數(shù)據(jù)的處理,仍是當前統(tǒng)計學的前沿探索方向。
跨領(lǐng)域應(yīng)用:統(tǒng)計學方法可跨場景遷移
在探討環(huán)境統(tǒng)計方法向醫(yī)療、金融領(lǐng)域遷移的可能性時,陳松蹊強調(diào) “數(shù)據(jù)共性” 是關(guān)鍵紐帶。
他分享研究發(fā)現(xiàn):北方地區(qū)沙塵暴溯源需通過密集空氣質(zhì)量監(jiān)測站數(shù)據(jù)追蹤傳播路徑,癲癇發(fā)作檢測需依托腦電圖數(shù)據(jù)判斷狀態(tài),二者均需高維數(shù)據(jù)的異常識別與動態(tài)追蹤,統(tǒng)計學中的信號提取、方差分析等方法可有效適配。
“傳統(tǒng)方差分析從農(nóng)業(yè)領(lǐng)域起步,如今已用于醫(yī)療效果評估、互聯(lián)網(wǎng)企業(yè)營銷策略優(yōu)化?!?陳松蹊表示,只要核心問題是 “數(shù)據(jù)特征提取、異常識別、相關(guān)性分析”,統(tǒng)計學方法調(diào)整參數(shù)后,就能為醫(yī)療診斷、金融風險預警提供支撐,即便不同領(lǐng)域數(shù)據(jù)有特性差異(如海洋數(shù)據(jù)比大氣數(shù)據(jù)更穩(wěn)定、觀測難度更高),也不影響方法遷移。
互補共生:統(tǒng)計學填補AI“不確定性”短板
針對“統(tǒng)計學與 AI 協(xié)同發(fā)展”的話題,陳松蹊提出“互補共生”的觀點。他認為,AI模型(如卷積神經(jīng)網(wǎng)絡(luò))雖有強大的表示能力,但存在不確定性難度量、可解釋性不足的問題;而統(tǒng)計學的核心優(yōu)勢在于“量化誤差、給出不確定性邊界”,能為AI決策提供科學支撐。
“并非所有問題都需要大模型。” 陳松蹊建議,模型訓練應(yīng)優(yōu)先嘗試簡單統(tǒng)計模型,若能以低算力、少數(shù)據(jù)解決問題,無需盲目追求復雜 AI 模型;若場景需要AI模型,也需用統(tǒng)計學方法度量其誤差范圍、置信區(qū)間,確保決策可信。目前,清華大學統(tǒng)計數(shù)據(jù)科學系已將“人工智能的統(tǒng)計學基礎(chǔ)”列為核心研究方向,重點探索 AI 模型的不確定性度量方法。
此外,陳松蹊透露,本次數(shù)博會重點關(guān)注兩大議題:一是數(shù)據(jù)分析人才培養(yǎng),去年成立的清華統(tǒng)計與數(shù)據(jù)科學系正推進相關(guān)本科專業(yè)與數(shù)據(jù)分析師專碩項目建設(shè),以填補人才缺口;二是隱私計算,他將在貴州財經(jīng)大學的論壇中,深入探討如何在差分隱私框架下平衡數(shù)據(jù)隱私保護與統(tǒng)計推斷準確性。