国产在线播放第六页,亚洲狼友福利在线观看,亚洲精品最新自产拍在线观看,亚洲日韩AV动漫无码无卡顿,福利网十八禁免费观看,大象视频国产在线观看

國(guó)工數(shù)據(jù)大腦之殘差檢驗(yàn)在回歸分析中的應(yīng)用
2022-02-16
行業(yè)新聞

分享:

業(yè)務(wù)背景

    在現(xiàn)代化企業(yè)管理中,利用數(shù)據(jù)分析進(jìn)行決策支持已成為重要手段,其中包括:過程控制、產(chǎn)能預(yù)測(cè)、市場(chǎng)決策等等。
    在各類業(yè)務(wù)場(chǎng)景中如何用數(shù)字直觀地描述指標(biāo)與指標(biāo)之間的相關(guān)性是一個(gè)重要命題,該類業(yè)務(wù)大多基于回歸分析法,回歸分析法通過對(duì)過去的數(shù)據(jù)進(jìn)行采樣來構(gòu)建回歸模型,從而為決策和行動(dòng)提供依據(jù)和建議。當(dāng)回歸模型擬合不正確,會(huì)誤導(dǎo)企業(yè)決策的方向,浪費(fèi)大量人力、物力、財(cái)力,給企業(yè)造成巨大的損失。因此,對(duì)回歸模型進(jìn)行診斷是不可或缺的步驟。即判斷回歸模型是否正確、理想?換句話說,模型是否很好的提取了樣本的規(guī)律信息。國(guó)工智能MAI平臺(tái)提供了基于殘差檢驗(yàn)進(jìn)行回歸模型評(píng)估的科學(xué)算法。
殘差檢驗(yàn)的內(nèi)容

    經(jīng)典且理想的回歸模型的前提條件是:1.隨機(jī)誤差項(xiàng)各項(xiàng)之間無序列相關(guān);2.隨機(jī)誤差項(xiàng)服從正態(tài)分布;3.隨機(jī)誤差項(xiàng)方差都相同或是固定的常數(shù)。(在實(shí)際應(yīng)用中,隨機(jī)誤差項(xiàng)用殘差來代替)
    滿足上述三個(gè)假設(shè)條件說明回歸模型是理想的。殘差是樣本值(藍(lán)點(diǎn))與回歸直線(紅線)上的值(又稱回歸擬合值)之間的差,紅線可由數(shù)據(jù)大腦擬合回歸算法得出,具體見下圖。殘差檢驗(yàn)即檢查經(jīng)過回歸擬合后得到的殘差是否滿足上述三個(gè)條件。如果違背了上述其中之一的假設(shè)條件,就不是經(jīng)典的線性回歸模型,這樣的模型用普通最小二乘法來估計(jì)往往失效,最后擬合出來的模型往往是有誤的,預(yù)測(cè)的效果也大打折扣。


圖1
    (一)條件1:隨機(jī)誤差項(xiàng)各項(xiàng)之間無序列相關(guān)含義
    序列相關(guān)即對(duì)于不同的樣本數(shù)據(jù),其殘差之間存在某種相關(guān)性,以正相關(guān)為例,可以簡(jiǎn)單理解為如果前一個(gè)殘差大于0,那么后一個(gè)殘差大于0的概率較大;而序列不相關(guān)是殘差之間互不影響,毫無規(guī)律,前一個(gè)殘差對(duì)下一個(gè)殘差的預(yù)測(cè)沒有幫助。如下所示:



圖2 序列正相關(guān)


圖3 序列不相關(guān)

    (二)條件2:隨機(jī)誤差項(xiàng)服從正態(tài)分布含義
    只要回歸方程擬合的足夠理想,即把所有影響因變量的因素都找對(duì)了,找齊了,那么剩下回歸擬合值和樣本點(diǎn)之間的各個(gè)誤差項(xiàng)就是服從正態(tài)分布的了。對(duì)于正態(tài)分布,我們只需要知道三件事,1.它長(zhǎng)什么樣的,就是下圖;2.它的兩個(gè)參數(shù),平均數(shù)和標(biāo)準(zhǔn)差;3.對(duì)于這個(gè)圖的解釋是什么,也就是樣本數(shù)據(jù)集中在平均數(shù)(下圖紅線的位置)周圍,且在總體上占到大多數(shù)(如圖中綠方框所示,落在綠方框中的樣本數(shù)據(jù)占很大的比例)。
圖4
    (三)條件3:隨機(jī)誤差項(xiàng)方差都相同或是固定的常數(shù)含義(簡(jiǎn)稱同方差)
    舉個(gè)例子,假設(shè)我們采集到某個(gè)菜園大棚內(nèi)一天內(nèi)溫度和二氧化碳濃度的數(shù)據(jù)。研究溫度(X)對(duì)二氧化碳濃度(Y)的影響。無論溫度越來越高/低,還是二氧化碳濃度越來越低/高,誤差項(xiàng)都不會(huì)隨之變化而變化,因?yàn)楦鱾€(gè)誤差項(xiàng)之間的方差固定。方差反映的是數(shù)據(jù)的波動(dòng)程度,方差不變,數(shù)據(jù)就保持原來的波動(dòng)程度。
適用范圍

所有線性回歸模型。

應(yīng)用場(chǎng)景

化工、釀造等裝置性行業(yè)的過程控制,往往是多變量共同作用。為了做好過程控制,實(shí)現(xiàn)“以因素管理結(jié)果",我們運(yùn)用回歸分析的統(tǒng)計(jì)技術(shù)尋找規(guī)律,并用于生產(chǎn)過程控制。例如,啤酒釀造過程中成品啤酒的泡特性(秒),是直接關(guān)系到啤酒口感的技術(shù)要求。技術(shù)和經(jīng)驗(yàn)表明中間產(chǎn)物的總氮含量X對(duì)于需要滿足的泡沫時(shí)間Y (秒)有影響。數(shù)據(jù)如下:

表1  


首先,用國(guó)工數(shù)據(jù)大腦平臺(tái)的一元線性回歸算法得到回歸方程:
 Y=-5406.801+46.51*X  
圖5
    由圖5可知,模型已經(jīng)通過了統(tǒng)計(jì)意義的檢驗(yàn)。(具體見國(guó)工數(shù)據(jù)大腦之多元線性回歸在化學(xué)研發(fā)成本的預(yù)測(cè)一文)

    其次,在此基礎(chǔ)上,進(jìn)一步使用數(shù)據(jù)大腦平臺(tái)的殘差檢驗(yàn)算法判斷回歸模型的理想度。實(shí)現(xiàn)殘差檢驗(yàn)第一個(gè)方面:序列相關(guān)性的檢驗(yàn)。(原假設(shè)是:不存在序列自相關(guān)。)打開國(guó)工數(shù)據(jù)大腦平臺(tái)。從數(shù)據(jù)大腦中的組件面板搜索殘差檢驗(yàn)組件,拖到到工作面板,配置數(shù)據(jù)及參數(shù)。在診斷方法下拉列表選擇:Correlogram-Q-statistics;滯后階數(shù)選擇:12。如圖6:


圖6

運(yùn)行結(jié)果:


圖 7

    根據(jù)圖7可知,無論滯后階數(shù)為幾,其p值都大于0.1的顯著性水平,接受原假設(shè),殘差序列不存在序列相關(guān)。

    接下來,進(jìn)行殘差檢驗(yàn)的第二個(gè)方面:殘差序列正態(tài)性檢驗(yàn)。(原假設(shè):序列服從正態(tài)分布)在診斷方法下拉列表選擇:Histigram-Normality-Test;如圖3:


圖 8

    運(yùn)行結(jié)果:


圖 9

    根據(jù)圖9可知,Jarque-Bera(JB)統(tǒng)計(jì)量的值為1.4136,它服從自由度為2的卡方分布,在0.1的顯著性水平下,其臨界值=4.605,故JB統(tǒng)計(jì)量<臨界值,接受原假設(shè),該殘差序列服從正態(tài)分布。最后,進(jìn)行殘差檢驗(yàn)的第三個(gè)方面:檢驗(yàn)方差是否相同。(原假設(shè):序列方差相等)在診斷方法下拉列表選擇:Heteroskedasticity-Tests(懷特檢驗(yàn));如圖10:


圖10

    運(yùn)行結(jié)果:


圖11

    根據(jù)圖11可知,懷特檢驗(yàn)統(tǒng)計(jì)量的值為1.052,它也服從自由度為2的卡方分布,在0.1的顯著性水平下,其臨界值=4.605,懷特檢驗(yàn)統(tǒng)計(jì)量值<臨界值,接受原假設(shè),該殘差序列存在方差相等的情況。

    綜上,在啤酒的泡特性與總氮含量的一元線性回歸模型中,該殘差序列不存在序列相關(guān),服從正態(tài)分布,且方差相同,上述的三個(gè)條件都滿足,說明回歸模型擬合不錯(cuò)且準(zhǔn)確,可使用該模型進(jìn)行預(yù)測(cè)。

    在下一批生產(chǎn)中,若X(總氮含量)=130,則Y(泡特性)的預(yù)測(cè)值=-5406.801+46.51*130=639.3(秒),以此類推,能夠預(yù)測(cè)到未來若干次生產(chǎn)中的成品啤酒的泡特性,可通過降低總氮含量等措施控制啤酒的泡特性,從而實(shí)現(xiàn)生產(chǎn)控制,實(shí)現(xiàn)效益最大化的目標(biāo)。(具體預(yù)測(cè)及回歸模型含義國(guó)工數(shù)據(jù)大腦多元線性回歸在化學(xué)研發(fā)成本的預(yù)測(cè)一文)

相關(guān)標(biāo)簽

推薦新聞