應用方向:
本研究采用高光譜成像技術(shù)和深度森林(DF)模型,對不同程度霜害稻種進行快速無損分類。通過優(yōu)化光譜數(shù)據(jù)預處理(如多元散射校正MSC)和特征提取算法(如鄰域成分分析NCA),構(gòu)建了多種分類模型,并對比了傳統(tǒng)機器學習方法(決策樹、KNN、SVM)與DF模型在小樣本數(shù)據(jù)上的表現(xiàn)。結(jié)果顯示,DF模型具有更高的分類精度和魯棒性。研究還通過可視化技術(shù)直觀展示了霜害稻種的分類結(jié)果,為農(nóng)業(yè)生產(chǎn)中的種子篩選和質(zhì)量控制提供了高效、智能化的解決方案。該方法不僅提高了霜害種子檢測精度,也為高光譜成像在精準農(nóng)業(yè)中的應用提供了重要參考。
背景:
稻種質(zhì)量直接影響農(nóng)業(yè)產(chǎn)量,但在生產(chǎn)和儲存過程中易受霜害、熱害、真菌感染等影響,導致活力下降,尤其在中國東北地區(qū),晚熟粳稻種子易受低溫霜害,降低發(fā)芽率和幼苗生長速率,可能引發(fā)農(nóng)業(yè)減產(chǎn)。因此,快速、非破壞性檢測霜害種子的技術(shù)對農(nóng)業(yè)生產(chǎn)至關(guān)重要。
傳統(tǒng)檢測方法如發(fā)芽試驗、四唑染色法雖準確,但操作復雜、成本高且具破壞性,難以大規(guī)模應用。近年來,光譜成像技術(shù)因其能同時獲取光譜和圖像信息,被廣泛應用于種子質(zhì)量檢測,尤其是高光譜成像技術(shù)結(jié)合化學計量學和機器學習算法,在種子活力和霜害檢測方面取得顯著成果。
然而,深度學習模型通常需要大量樣本和復雜參數(shù)設(shè)置。為此,本文提出將高光譜成像技術(shù)與適用于小樣本數(shù)據(jù)的深度森林模型(DF)結(jié)合,用于霜害稻種分類研究。該方法建模簡單,對小樣本數(shù)據(jù)具有良好魯棒性,為霜害稻種識別提供了一種高效解決方案。
實驗設(shè)計
1.1材料與方法
本實驗使用的水稻種子品種為“艷風”,2018年收獲于遼寧盤錦,初始含水量13%至14%(干種子)。隨機選取1800粒種子,并人工調(diào)整含水量至30%,以研究霜凍損傷。種子被隨機分為6組,每組300粒,其中一組為對照組,未冷凍處理,其余5組在不同溫度下冷凍不同時間(見表1)。冷凍后,種子在25°C干燥通風環(huán)境中放置一周,以恢復正常溫度并減少水分干擾。
在本實驗中,選用了江蘇雙利合譜科技有限公司的“GaiaSorter”高光譜成像系統(tǒng)。該系統(tǒng)的核心組件包括均勻光源、光譜相機、計算機以及相關(guān)的控制軟件。在光譜成像儀中使用的相機是“Image-λ”系列高光譜相機,其光譜范圍大約為900-1700 nm。系統(tǒng)的工作原理是將待測樣品放置在由軟件控制的電動移動平臺上,并采用推掃法來收集圖像。隨著電動平臺的移動,最終獲得了包含待測樣品光譜信息和圖像信息的高光譜立方體數(shù)據(jù)。由于原始光譜數(shù)據(jù)中存在的噪聲會干擾后續(xù)的數(shù)據(jù)分析,因此本實驗選取SG1、SNV和MSC方法對原始光譜數(shù)據(jù)進行預處理。
圖1. 提取光譜數(shù)據(jù)的主要流程圖。
在獲取高光譜圖像之后,從每組中隨機選取50粒水稻種子,并根據(jù)國際種子檢測協(xié)會(ISTA)的規(guī)則進行發(fā)芽測試。我們將種子浸泡在蒸餾水中12小時,然后在標準發(fā)芽箱中進行種子發(fā)芽測試,并在種子表面覆蓋濕潤的發(fā)芽紙以在室溫25°C下遮光。發(fā)芽力(GF)和發(fā)芽率(GR)是反映種子質(zhì)量的主要指標之一。通常情況下,具有高GR和GF的種子活力強,而GR高但GF低的種子也可能活力低下。
原始光譜數(shù)據(jù)高維且含冗余信息,難以直觀區(qū)分樣本差異。本研究采用t-SNE方法將高維數(shù)據(jù)映射至低維,實現(xiàn)樣本可視化,并擴大簇間距離以緩解擁擠問題。此外,高光譜數(shù)據(jù)的冗余和共線性影響模型性能,因此使用PCA、SPA和NCA提取特征波長。PCA將多個指標轉(zhuǎn)化為少數(shù)主成分以降低維度,SPA通過前向變量選擇去除冗余信息,NCA作為度量學習算法,優(yōu)化數(shù)據(jù)的空間表示,提高模型效果。
本研究利用決策樹(DT)、K最近鄰(KNN)、支持向量機(SVM)和深度森林(DF)四種模型對水稻種子進行分類評價,確保分類的準確性與泛化能力。DT通過構(gòu)建決策樹確定分類概率,并采用交叉驗證優(yōu)化最小葉節(jié)點(minleaf)值。KNN依據(jù)鄰近樣本類別進行分類,并通過自動優(yōu)化程序確定最佳k值。SVM采用RBF核函數(shù)處理線性和非線性數(shù)據(jù),并利用網(wǎng)格搜索優(yōu)化懲罰系數(shù)(c)和核函數(shù)半徑。DF通過級聯(lián)森林結(jié)構(gòu)進行表示學習,并在驗證集上評估性能,若無顯著提升則終止訓練,以控制模型復雜度。
5.2.結(jié)果與討論
(1)發(fā)芽試驗結(jié)果分析
表2顯示,不同冷凍條件下水稻種子的發(fā)芽勢(GF)、發(fā)芽率(GR)和平均芽長均下降。正常種子的GF與GR一致,而霜凍傷害種子的GF低于GR。GR高且GF強表明幼苗出土快且整齊,GF弱則出土不均且幼苗弱。在-10°C/4小時下,GR達90%,GF僅82%,且平均芽長較短,表明輕微霜凍傷害。這些種子播種后出苗不足,影響收成,因此快速無損識別霜凍傷害種子對農(nóng)業(yè)生產(chǎn)至關(guān)重要。
(2)原始光譜分析
原始光譜波長范圍為900-1700 nm,但受儀器影響,前后部分噪聲較大。因此,我們選取了949.0-1638.0 nm的210個波長進行分析。圖3顯示不同冷凍條件下水稻種子的平均光譜曲線和標準差。六組種子的光譜曲線趨勢相似,但在特定波長范圍內(nèi)存在顯著差異。例如,在1000.0-1300.0 nm,光譜反射率依次遞減:-25°C/20 h > -20°C/16 h > -15°C/12 h > -10°C/8 h > -10°C/4 h > 未處理,其中1300 nm處差異*明顯。1000-1100 nm主要對應N/H伸縮的第三泛音,1100-1300 nm對應C/H伸縮的第二泛音。隨著冷凍溫度和時間增加,種子細胞受損,淀粉結(jié)構(gòu)破壞,影響糊粉層和胚的結(jié)構(gòu),阻礙赤霉素進入,進而影響種子活力。因此,冷凍條件越嚴苛,細胞破壞越嚴重,使得1000-1300 nm的光譜反射率逐漸增加。
圖3. 不同冷凍條件下水稻種子的平均光譜曲線及其標準差
(3)高維光譜數(shù)據(jù)的可視化分析
本研究采用t-SNE對原始光譜數(shù)據(jù)及SG1、SNV、MSC三種預處理方法處理后的光譜數(shù)據(jù)進行可視化,并將其降維至二維進行分析比較。為減少t-SNE的隨機性,采用Matlab R2018b默認參數(shù)(歐幾里得距離、Perplexity = 30、LearnRate = 500、Theta = 0.5)。
圖4展示了不同預處理方法的光譜曲線及t-SNE可視化結(jié)果。從圖4e可見,原始光譜數(shù)據(jù)在不同冷凍條件下混合重疊,降維后特征難以區(qū)分。圖4f和4g顯示,SG1和SNV處理后仍存在大量重疊,與原始數(shù)據(jù)相比無明顯改善。而圖4h表明,經(jīng)MSC預處理的數(shù)據(jù)聚類效*顯著,6組水稻種子被清晰分類??傮w而言,MSC處理后的光譜數(shù)據(jù)優(yōu)于其他方法。
圖4. 不同預處理方法的光譜曲線:(a) 原始光譜曲線;(b) SG1處理后的光譜曲線;(c) SNV處理后的光譜曲線;(d) MSC處理后的光譜曲線。使用t-SNE可視化不同預處理方法處理的光譜數(shù)據(jù):(e) 原始光譜數(shù)據(jù);(f) SG1處理后的光譜數(shù)據(jù);(g) SNV處理后的光譜數(shù)據(jù);(h) MSC處理后的光譜數(shù)據(jù)。
(4)基于全波長的建模分析
在建模前,所有樣本隨機分為校準集和預測集,比例為3:1。為了選擇最佳的預處理方法和模型組合,將原始光譜數(shù)據(jù)以及經(jīng)過SG1、SNV和MSC預處理的光譜數(shù)據(jù)分別輸入到DT、KNN、SVM和DF模型中。圖5顯示了基于全波長的建模分析結(jié)果??梢钥闯?,經(jīng)過MSC處理的光譜數(shù)據(jù)具有最高的建模準確率,均高于90%。這與t-SNE可視化的結(jié)論一致。
圖5. 基于全波長建模分析的結(jié)果
(5)基于PCA、SPA和NCA的特征波長選擇
為降低高維光譜數(shù)據(jù)維度并保留關(guān)鍵信息,本研究采用PCA、SPA和NCA從MSC處理后的光譜數(shù)據(jù)(210個變量)中提取特征波長。前三個主成分的累積貢獻率達99.52%,因此選取其載荷系數(shù)提取特征波長。圖6顯示了提取結(jié)果,共選出10個關(guān)鍵波長(1003.7、1108.7、1115.4、1192.5、1199.2、1295.4、1302.0、1357.8、1462.0和1471.7 nm)。
圖6. 利用前三個主成分載荷曲線提取的特征波長。
圖7展示了SPA選擇的特征波長結(jié)果。最終,選擇了8個特征波長,根據(jù)它們相關(guān)性的順序排列依次是1139.0、1088.5、1000.3、1195.9、1282.2、1612.6、1367.6和1467.0 nm。這些波長的相關(guān)性也顯示了它們在區(qū)分不同霜凍程度水稻種子中的重要性。
圖7. 由SPA提取的特征波長。
NCA算法用于高維數(shù)據(jù)特征選擇,通過計算變量權(quán)重篩選重要特征。圖8顯示,在210個波長中,僅6個波長權(quán)重顯著高于0,表明多數(shù)波長對區(qū)分霜凍程度貢獻較小。最終選出的六個特征波長依次為1030.9、1529.6、1334.9、1152.4、1047.9和1413.3 nm,它們與水稻種子化學成分密切相關(guān)。
圖8. 使用NCA獲得的每個波長的權(quán)重值。
表3展示了三個特征提取算法提取的特征波長??梢钥闯觯琍CA和SPA提取的特征波長非常接近,NCA算法提取的特征波長數(shù)量最少。
(6)基于特征波長的建模分析
為了評估不同模型的有效性,我們將總樣本集(6類水稻種子,每類300粒,共1800粒)分成不同樣本集,包含每類水稻種子10至300粒不等。模型的準確率通過五折交叉驗證獲得。圖9a至d展示了基于DT、KNN、SVM和DF模型在不同樣本集數(shù)量下的結(jié)果。整體上,PCA的效果不如NCA和SPA。在比較后發(fā)現(xiàn),當樣本集較少時,NCA提取的特征波長建模效果優(yōu)于SPA,且隨著樣本集增加,二者的效果趨于接近。此外,NCA提取的特征波長數(shù)量少于SPA,有助于提升運算速度。因此,NCA被選為最佳特征提取算法。
圖9. 基于不同特征提取算法在不同樣本集數(shù)量下的建模結(jié)果。(a) DT模型;(b) KNN模型;(c) SVM模型;(d) DF模型。
圖10展示了基于NCA的DT、KNN、SVM和DF模型在不同樣本集數(shù)量下的建模結(jié)果。DF模型在樣本數(shù)量較少時仍保持了良好的分類效率,顯著高于本其他三個模型。同時,由于DF模型在不同樣本集數(shù)量下的分類準確率優(yōu)于其他三個分類模型,因此最終被選為最佳分類模型。
圖10. 基于NCA的不同樣本集數(shù)量下DT、KNN、SVM和DF模型的建模結(jié)果
(7)不同霜凍程度水稻種子的可視化
高光譜成像技術(shù)能夠同時獲取水稻種子的光譜和空間信息,從而通過可視化地圖展示不同霜凍程度的種子分類結(jié)果。研究采用逐對象方法進行可視化,并從1500粒種子(每類250粒)中選取樣本進行模型校準和測試,剩余300粒用于可視化?;贛SC-NCA-DF模型,校準時將種子隨機分為校準集和預測集,并通過5折交叉驗證驗證模型效果。通過敏感性和特異性評估模型性能。DF模型能夠高效區(qū)分健康和不同霜凍程度受損的種子,表明其具有較高的敏感性和特異性。視覺分類結(jié)果顯示,在300粒種子中,只有2粒被誤分類,分類準確率為99.33%。
圖11. 不同霜凍程度水稻種子分類結(jié)果的可視化。
結(jié)論
本研究結(jié)合DF模型和高光譜成像技術(shù),成功識別不同霜凍程度受損的水稻種子。使用三種光譜預處理方法、三種特征提取算法和三種傳統(tǒng)機器學習模型,以及一個深度學習模型進行對比建模。經(jīng)過分析,MSC-NCA-DF模型表現(xiàn)最佳,DF模型在小樣本集中依然具備良好分類能力,最終被選為最佳模型。基于該模型的分類結(jié)果可視化,展示了不同霜凍程度的水稻種子,為未來在線檢測系統(tǒng)提供參考。
推薦產(chǎn)品
“GaiaSorter”高光譜成像系統(tǒng)
作者簡介
通訊作者:吉海彥,中國農(nóng)業(yè)大學,博導
參考文獻
論文引用自一區(qū)文章:Liu Zhang, Heng Sun, Zhenhong Rao, Haiyan Ji. Hyperspectral imaging technology combined with deep forest model to identify frost-damaged rice seeds. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy 229 (2020) 117973.
相關(guān)產(chǎn)品
免責聲明
- 凡本網(wǎng)注明“來源:化工儀器網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡有限公司-化工儀器網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應在授權(quán)范圍內(nèi)使用,并注明“來源:化工儀器網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責任。
- 本網(wǎng)轉(zhuǎn)載并注明自其他來源(非化工儀器網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責,不承擔此類作品侵權(quán)行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品第一來源,并自負版權(quán)等法律責任。
- 如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。