使用多模态 AI 和大语言模型进行马铃薯病害检测和预防
研究背景
马铃薯易受到早疫病和晚疫病的侵害,这些病害会对产量和质量造成严重损害。现有的深度学习方法多局限于单一模态(如图像识别),在复杂环境中的病害检测仍存在挑战。结合多模态(图像、文本、统计特征)和大语言模型(LLM)的方法尚未被广泛研究。
研究方法
本研究提出一种结合视觉、文本和统计特征的多模态AI模型(见图1),以提高马铃薯病害检测的准确性。基于视觉模态,提出MSC-ResViT模型,该模型基于多尺度特征提取(MSC)与改进的视觉Transformer(ResViT),以提升图像病害识别能力。基于文本模态,采用MSC-TextCNN处理文本描述,以提高病害检测准确率。基于统计特征模态,引入CT-CNN模型,通过颜色和纹理特征辅助分类。然后,通过MSC-ResViT、MSC-TextCNN和CT-CNN组合构建综合多模态AI模型。同时,在番茄和茄子作物进行病害检测以验证其可扩展性。最终,结合GPT4开发智能在线诊断系统PotatoGPT,支持病害检测和防治建议。
图1 技术路线图
研究结果
基于图像模态的MSC-ResViT模型与其他深度学习模型进行了比较,如图2所示。MSC-ResViT在测试集上的准确率达到92.15%,优于其他网络模型。MSC-ResViT每秒可以预测近0.75张图像,处于这些模型中的平均水平。
图2 各种图像模型检测马铃薯病害的性能
基于文本模态的MSC-TextCNN模型检测马铃薯病害的性能,如图3所示。在这5个类别中,MSC-TextCNN检测一般早疫病表现最差,AP值为0.9771。早疫病和健康类别被正确识别,但在识别晚疫病方面存在显著偏差。
图3 MSC-TextCNN模型检测马铃薯病害的性能
基于颜色和纹理特征的CT-CNN模型的检测性能,如图4所示。CT-CNN对一般晚疫病的识别性能较低,AP值为0.59。在识别健康类别方面表现最好,AP 值为0.9262。这五个类别的特征聚集在一起,表明类别之间的差异很小,仅使用基于颜色和纹理的传统方法很难捕捉到细微的差异。
图4 CT-CNN模型检测马铃薯病害的性能
本文的多模态AI模型检测马铃薯病害的性能(见图5)。准确率达到98.43%,优于MSC-ResViT(92.15%)、MSC-TextCNN(96.86%)以及CT-CNN(74.87%)。
图5 多模态AI模型检测马铃薯病害的性能
本文的多模态AI模型检测番茄病害的性能(见图6)。准确率达到99.2%,优于MSC-ResViT(96.00%)、MSC-TextCNN(97.60%)以及CT-CNN(76.00%)。
图6 多模态AI模型检测番茄病害的性能
本文的多模态AI模型检测茄子病害的性能(见图7)。准确率达到97.3%,优于MSC-ResViT(88.49%)、MSC-TextCNN(94.59%)以及CT-CNN(56.76%)。
图7 多模态AI模型检测茄子病害的性能
研究结论
本研究引入了一种多模态AI模型,用于检测马铃薯的早疫病和晚疫病,在测试集上实现了98.43%的准确率。此外,多模态 AI 模型被推广并应用于其他茄科病害(番茄和茄子),实现了99.2%和97.3%的准确率,展示了有效的检测能力。多模态AI模型能够在复杂场景下高精度检测植物病害,对于推进作物精准病害管理至关重要。
参考文献
Hongfei Zhu, Weiming Shi, Xinyu Guo, Shiting Lyu, Ranbing Yang, Zhongzhi Han. Potato disease detection and prevention using multimodal AI and large language model[J].Computers and Electronics in Agriculture. 2025,229: 109824.