基于支持向量回歸機的復雜產(chǎn)品費用估算技術(shù)發(fā)展研究論文
摘 要: 傳統(tǒng)的費用估算算法需要大量的樣本數(shù)據(jù)來保證其估算的準確性,但在實際應用中,由于樣本數(shù)據(jù)的有限性,其準確性無法得到保證,針對這種情況提出使用基于統(tǒng)計學習理論的支持向量回歸機(SVR)進行費用估算,并通過具體實例詳細闡述基于SVR的費用估算具體步驟,包括數(shù)據(jù)預處理、基于SVR的訓練、估算和后處理過程,通過與神經(jīng)網(wǎng)絡方法相比,實驗結(jié)果驗證了SVR在小樣本情況下具有更好的估算精度。最后實現(xiàn)了基于SVR的復雜產(chǎn)品費用估算方法,并集成于復雜產(chǎn)品費用估算系統(tǒng)。
關鍵詞: 復雜產(chǎn)品; 支持向量回歸機; 小樣本; 費用估算
中圖分類號: TN711?34; TP319 文獻標識碼: A 文章編號: 1004?373X(2015)09?0038?05
Abstract: Since plenty of sample data is required to ensure the accuracy of traditional cost estimation algorithm, and it is hard to ensure the accuracy of estimation due to the limitation of sample data in practical application, the support vector regression (SVR) based on statistical learning theory is proposed to make cost estimation. The specific steps of cost estimation is described in detail based on SVR, including data preprocessing, training based on SVR, estimation and post?processing. The experiment result verifies that the estimation accuracy based on SVR in small sample data is better than the method of neural network. Finally, the method of complex product cost estimation based on SVR is implemented, and is integrated in the system of complex product cost estimation.
Keywords: complex product; support vector regression; small sample; cost estimation
0 引 言
隨著高新技術(shù)及現(xiàn)代生產(chǎn)的發(fā)展,復雜產(chǎn)品(如導彈、艦船、飛機等)的性能和復雜性越來越高,其在使用以及維修保障過程中的各種費用也不斷增加,若不提前對復雜產(chǎn)品的費用進行有效地預估和判斷,將會影響到對復雜產(chǎn)品做出合理性和經(jīng)濟性的生產(chǎn)決策,由此而導致的費用的增長不但會成為沉重的經(jīng)濟負擔,而且還會影響到對新型產(chǎn)品的預研和投資。因此,有必要采用科學的費用估算方法,及時準確地對產(chǎn)品未來的費用進行估算,做出合理的費用計劃,節(jié)約有限的成本費用。
傳統(tǒng)的費用估算方法主要有工程法、參數(shù)法、類比法和專家判斷法,這些方法都存在著一些不足之處。一些比較新的理論包括偏最小二乘回歸法、灰色理論、神經(jīng)網(wǎng)絡、遺傳算法也已應用于費用估算,取得了不錯的效果,如文獻。然而,這些統(tǒng)計理論只有在費用樣本數(shù)量趨于無窮大時才能有理論上的保證,但在實際應用中,受到各種條件的限制,很多用于費用估算問題的產(chǎn)品費用樣本容量很小,信息不足,不能反映整個產(chǎn)品費用樣本空間的分布,故而這些理論在實際應用中往往難以取得理想的效果。因此建立適合于小樣本情況下的復雜產(chǎn)品估算模型顯得尤為重要。在此背景下,Vapnik等人基于統(tǒng)計學習理論提出一種借助于最優(yōu)化方法解決機器學習問題的新工具,即支持向量機(Support Vector Machine,SVM),它根據(jù)有限的樣本信息,采用結(jié)構(gòu)風險最小化原理,對獨立的測試樣本能夠得到較小的誤差,包括支持向量分類機(Support Vector Classification,SVC)和支持向量回歸機(Support Vector Regression,SVR),被認為是目前針對小樣本的分類和回歸問題的最佳方法。本文推廣應用了支持向量機中的回歸部分,將支持向量機算法應用于復雜產(chǎn)品的費用估算,利用支持向量機對歷史費用數(shù)據(jù)進行訓練,逼近費用數(shù)據(jù)所隱含的函數(shù)關系,完成費用與影響參數(shù)之間的映射關系,進而完成對復雜產(chǎn)品未來費用的估算。
1 SVR原理
SVM最初是用來解決模式識別的問題,在模式識別中,為了發(fā)現(xiàn)具有好的推廣能力的決策規(guī)則,將所選擇的訓練數(shù)據(jù)的一些子集,稱做支持向量機。支持向量機的方法也可以應用到回歸問題中,標準的SVR算法,分為線性和非線性兩種,其基本思想是:通過非線性變換將輸入空間向量映射到高維特征空間中,運用結(jié)構(gòu)風險最小化原則在這個特征空間構(gòu)造回歸估計函數(shù),這種非線性變換是通過定義適當?shù)暮撕瘮?shù)來實現(xiàn)的。其中是指由輸入空間到特征空間的非線性映射。
步驟1:收集樣本數(shù)據(jù),將樣本數(shù)據(jù)分為訓練樣本數(shù)據(jù)集和待估算測試樣本數(shù)據(jù)集,選擇輸入?yún)?shù)、輸出變量:其中輸入?yún)?shù)主要是指影響到產(chǎn)品最終費用的參數(shù),包括對時間敏感參數(shù)(如年份、月份等)和對時間不敏感參數(shù)(如質(zhì)量、體積等),輸出變量主要是指所關注的產(chǎn)品費用(如產(chǎn)品整體的費用或者由輸入?yún)?shù)影響的產(chǎn)品某一部分的費用等);
步驟2:將訓練樣本數(shù)據(jù)集中隨時間變化的費用參數(shù)數(shù)值用居民消費價格指數(shù)(Consumer Price Index,CPI)統(tǒng)一轉(zhuǎn)換到基準時間段的費用數(shù)值;
步驟3:對統(tǒng)一轉(zhuǎn)換后的數(shù)據(jù)進行歸一化預處理,將參數(shù)數(shù)值及費用數(shù)值限制在之間,形成歸一化后的訓練樣本數(shù)據(jù)集;
步驟4:選擇核函數(shù),設置訓練參數(shù),利用SVR對費用樣本數(shù)據(jù)進行訓練:訓練過程經(jīng)常采用基于凸優(yōu)化的對偶理論,來求解式(5),得到解
步驟5:根據(jù)訓練結(jié)果構(gòu)造回歸估計函數(shù):通過訓練計算得出的以及選擇的核函數(shù),回歸估計函數(shù)可表示為
步驟6:用回歸估計函數(shù)對預處理后的待估算費用樣本進行估算,計算出估算費用值;
步驟7:將估算出的費用值通過預處理過程的逆處理過程得到估算費用的精確值。
2.2 費用數(shù)據(jù)預處理
為了提高數(shù)據(jù)計算效率和保證訓練和估算準確度,需要將費用樣本數(shù)據(jù)進行預處理。費用樣本數(shù)據(jù)的預處理包含兩部分:費用數(shù)據(jù)的統(tǒng)一轉(zhuǎn)換與歸一化處理。
2.2.1 費用數(shù)據(jù)的統(tǒng)一轉(zhuǎn)換
隨著時間的變化,由于通貨膨脹或收縮、物價上漲或下降等原因,相同的費用值在另一個時間段的實際經(jīng)濟價值會有所不同,因此需要把對時間變化敏感的費用數(shù)據(jù)統(tǒng)一轉(zhuǎn)換到統(tǒng)一的幣制和相同基準時間段(在此時間段里 ,物價相對比較平穩(wěn),費用的實際經(jīng)濟價值浮動變化很小),費用的時間價值采用年或月為基準,并考慮使用CPI指數(shù)進行轉(zhuǎn)換,在以往的研究中,對于復雜產(chǎn)品如導彈等的費用估算,相關的時間因素只是作為訓練參數(shù)進行計算,對受時間影響的費用并沒有做轉(zhuǎn)換,因此而訓練出的回歸估計函數(shù)并不能真正反映費用變化規(guī)律,如文獻中對所需要進行費用估算的產(chǎn)品沒有考慮到時間因素的影響,文獻中數(shù)據(jù)所呈現(xiàn)的不同產(chǎn)品的研制年份不同,其費用的真實經(jīng)濟價值是不同的,因此需要將不同時間段(年份或月份)的費用值轉(zhuǎn)換到基準時間段的數(shù)值,對費用真實變化規(guī)律進行函數(shù)擬合,費用數(shù)據(jù)統(tǒng)一轉(zhuǎn)換的'具體轉(zhuǎn)換規(guī)則如下:
2.4 訓練結(jié)果及誤差
SVR對費用數(shù)據(jù)的訓練停止后,其訓練費用值與實際值對應如表5所示,其中神經(jīng)網(wǎng)絡訓練費用值采自文獻,費用價格以1985財年為基準。
2.5 費用估算及后處理
對待估算樣本數(shù)據(jù)進行預處理后使用上述SVR進行費用估算,待估算樣本數(shù)據(jù)的預處理以訓練樣本各特征參數(shù)的最大值和最小值為參照進行類似歸一化處理,其值可不必在區(qū)間之內(nèi),估算費用結(jié)果如表6所示,其中神經(jīng)網(wǎng)絡費用估算值采自文獻進行對比,費用價值以1985財年為基準。估算出產(chǎn)品在基準財年的經(jīng)濟價格之后,可根據(jù)需要按CPI指數(shù)將其轉(zhuǎn)換到所需要的財年的價格,便于比較和決策。由實驗統(tǒng)計數(shù)據(jù)可見,相比于神經(jīng)網(wǎng)絡算法,SVR在小樣本條件下進行費用數(shù)據(jù)估算時,其訓練誤差可能不比神經(jīng)網(wǎng)絡小,但其估算的費用誤差要遠遠小于神經(jīng)網(wǎng)絡的估算費用值,這說明在小樣本條件情況下,SVR的推廣能力要強于神經(jīng)網(wǎng)絡。
3 系統(tǒng)說明及展示
基于本文描述的算法所依賴的項目背景,使用C#.NET基于B/S架構(gòu)實現(xiàn)一個復雜產(chǎn)品費用估算系統(tǒng),系統(tǒng)提供了對復雜產(chǎn)品全生命周期中費用不同維度上的分析和管理,以及對復雜產(chǎn)品未來型號的費用估算等功能,將本文實現(xiàn)算法與實際應用項目進行了良好的集成,該系統(tǒng)主要由5個模塊組成,分別是基礎維度管理模塊、參數(shù)管理模塊、費用分解結(jié)構(gòu)模塊、費用估算模塊以及費用計算分析模塊。圖2展示了復雜產(chǎn)品費用模塊估算參數(shù)數(shù)據(jù)輸入、訓練及估算界面。
4 結(jié) 語
本文充分利用支持向量機的優(yōu)點,通過建立支持向量機回歸模型對實際復雜產(chǎn)品的統(tǒng)計資料進行實驗驗證并與神經(jīng)網(wǎng)絡算法比較,實驗結(jié)果表明,在較少的費用樣本情況下,SVR能較好地反映產(chǎn)品費用與各主要影響參數(shù)的復雜非線性映射關系,具有較高的估算精度,并在此基礎上實現(xiàn)了一個通用的復雜產(chǎn)品費用估算系統(tǒng),通過對指定復雜產(chǎn)品進行結(jié)構(gòu)分析及參數(shù)設定,即可對其進行費用估算,便于對復雜產(chǎn)品進行費用分析和采辦決策。
用支持向量機對非線性組合估算函數(shù)進行擬合,可以在小費用樣本條件下達到較好的估算精度和較強的推廣能力,適用復雜產(chǎn)品費用的估算問題。由于目前還沒有一定的理論指導,支持向量機核函數(shù)的選取仍是一個比較困難的問題。同時,費用影響參數(shù)的選取對估算結(jié)果也有一定影響,如何在具體條件下對特定的系統(tǒng)確定合適的參數(shù)還有待進一步研究。
參考文獻
李海軍,劉霄,孫偉瑋,等.反艦導彈維修費用偏最小二乘估算方法.海軍航空工程學院學報,2012,27(1):27?31.
曹廣生,樂光,陶金亮,等.基于RBF神經(jīng)網(wǎng)絡的大型客機制造成本分析.電子設計工程,2013,21(1):41?46.
VAPNIK V N. The nature of statistical learning theory . New York: Springer?Verlag, 1995.
劉芳,趙建印,宋貴寶,等.基于CAIV的導彈低成本保障性指標論證技術(shù).海軍航空工程學院學報,2012,27(2):171?175.
徐子彬,汪民樂,翟龍剛.基于神經(jīng)網(wǎng)絡的武器系統(tǒng)壽命費用分析方法研究.科教前沿,2011(29):476?477.
冀海燕,張笑,王瑞臣.潛射導彈武器系統(tǒng)維修保障費用灰色預測.青島大學學報:工程技術(shù)版,2013,28(1):72?75.
楊志剛,王海濤,彭紹雄,等.艦空導彈武器裝備壽命周期費用分析.兵工自動化,2013,32(10):4?7.
【基于支持向量回歸機的復雜產(chǎn)品費用估算技術(shù)發(fā)展研究論文】相關文章:
論文:基于粒子群算法的雙子支持向量機研究06-16
讓復雜回歸簡單美文11-23
基于遺傳學的產(chǎn)品開發(fā)與基因研究論文04-15
基于單片機溫控智能風扇的設計研究論文04-15
基于RFID的農(nóng)產(chǎn)品設計與實現(xiàn)研究論文04-15