使用多模态 AI 和大语言模型进行马铃薯病害检测和预防

作者:绿水智慧农业 吕芯悦 2025/7/1 9:00:53
研究背景马铃薯易受到早疫病和晚疫病的侵害,这些病害会对产量和质量造成严重损害。现有的深度学习方法多局限于单一模态(如图像识别),在复杂环境中的病害检测仍存在挑战。结合多模态(图像、文本、统计特征)和大语言模型(LLM)的方法尚未被广泛研究。研究方法本研究提出一种结合视觉、文本和统计特征的多模态AI模型(见图1),以提高马铃薯病害检测的准确性。基于视觉模态,提出MSC-ResViT模型,该模型基于多

图片


图片

研究背景

马铃薯易受到早疫病和晚疫病的侵害,这些病害会对产量和质量造成严重损害。现有的深度学习方法多局限于单一模态(如图像识别),在复杂环境中的病害检测仍存在挑战。结合多模态(图像、文本、统计特征)和大语言模型(LLM)的方法尚未被广泛研究。


图片

研究方法

本研究提出一种结合视觉、文本和统计特征的多模态AI模型(见图1),以提高马铃薯病害检测的准确性。基于视觉模态,提出MSC-ResViT模型,该模型基于多尺度特征提取(MSC)与改进的视觉Transformer(ResViT),以提升图像病害识别能力。基于文本模态,采用MSC-TextCNN处理文本描述,以提高病害检测准确率。基于统计特征模态,引入CT-CNN模型,通过颜色和纹理特征辅助分类。然后,通过MSC-ResViT、MSC-TextCNN和CT-CNN组合构建综合多模态AI模型。同时,在番茄和茄子作物进行病害检测以验证其可扩展性。最终,结合GPT4开发智能在线诊断系统PotatoGPT,支持病害检测和防治建议。


图片

图1 技术路线图


图片

研究结果

基于图像模态的MSC-ResViT模型与其他深度学习模型进行了比较,如图2所示。MSC-ResViT在测试集上的准确率达到92.15%,优于其他网络模型。MSC-ResViT每秒可以预测近0.75张图像,处于这些模型中的平均水平。


图片

图片

图2 各种图像模型检测马铃薯病害的性能


基于文本模态的MSC-TextCNN模型检测马铃薯病害的性能,如图3所示。在这5个类别中,MSC-TextCNN检测一般早疫病表现最差,AP值为0.9771。早疫病和健康类别被正确识别,但在识别晚疫病方面存在显著偏差。


图片

图3 MSC-TextCNN模型检测马铃薯病害的性


基于颜色和纹理特征的CT-CNN模型的检测性能,如图4所示。CT-CNN对一般晚疫病的识别性能较低,AP值为0.59。在识别健康类别方面表现最好,AP 值为0.9262。这五个类别的特征聚集在一起,表明类别之间的差异很小,仅使用基于颜色和纹理的传统方法很难捕捉到细微的差异。


图片

图4 CT-CNN模型检测马铃薯病害的性能


本文的多模态AI模型检测马铃薯病害的性能见图5)。准确率达到98.43%,优于MSC-ResViT(92.15%)、MSC-TextCNN(96.86%)以及CT-CNN(74.87%)。

图片

图5 多模态AI模型检测马铃薯病害的性能


本文的多模态AI模型检测番茄病害的性能见图6准确率达到99.2%,优于MSC-ResViT(96.00%)、MSC-TextCNN(97.60%)以及CT-CNN(76.00%)。

图片

图6 多模态AI模型检测番茄病害的性能


本文的多模态AI模型检测茄子病害的性能(见图7准确率达到97.3%,优于MSC-ResViT(88.49%)、MSC-TextCNN(94.59%)以及CT-CNN(56.76%)。

图片

图7 多模态AI模型检测茄子病害的性能


图片

研究结论

本研究引入了一种多模态AI模型,用于检测马铃薯的早疫病和晚疫病,在测试集上实现了98.43%的准确率。此外,多模态 AI 模型被推广并应用于其他茄科病害(番茄和茄子),实现了99.2%和97.3%的准确率,展示了有效的检测能力。多模态AI模型能够在复杂场景下高精度检测植物病害,对于推进作物精准病害管理至关重要。


参考文献

Hongfei Zhu, Weiming Shi, Xinyu Guo, Shiting Lyu, Ranbing Yang, Zhongzhi Han. Potato disease detection and prevention using multimodal AI and large language model[J].Computers and Electronics in Agriculture. 2025,229: 109824.

相关推荐