使用多模态 AI 和大语言模型进行马铃薯病害检测和预防

作者：绿水智慧农业吕芯悦 2025/7/1 9:00:53

研究背景马铃薯易受到早疫病和晚疫病的侵害，这些病害会对产量和质量造成严重损害。现有的深度学习方法多局限于单一模态(如图像识别)，在复杂环境中的病害检测仍存在挑战。结合多模态(图像、文本、统计特征)和大语言模型(LLM)的方法尚未被广泛研究。研究方法本研究提出一种结合视觉、文本和统计特征的多模态AI模型(见图1)，以提高马铃薯病害检测的准确性。基于视觉模态，提出MSC-ResViT模型，该模型基于多

研究背景

马铃薯易受到早疫病和晚疫病的侵害，这些病害会对产量和质量造成严重损害。现有的深度学习方法多局限于单一模态(如图像识别)，在复杂环境中的病害检测仍存在挑战。结合多模态(图像、文本、统计特征)和大语言模型(LLM)的方法尚未被广泛研究。

研究方法

本研究提出一种结合视觉、文本和统计特征的多模态AI模型(见图1)，以提高马铃薯病害检测的准确性。基于视觉模态，提出MSC-ResViT模型，该模型基于多尺度特征提取(MSC)与改进的视觉Transformer(ResViT)，以提升图像病害识别能力。基于文本模态，采用MSC-TextCNN处理文本描述，以提高病害检测准确率。基于统计特征模态，引入CT-CNN模型，通过颜色和纹理特征辅助分类。然后，通过MSC-ResViT、MSC-TextCNN和CT-CNN组合构建综合多模态AI模型。同时，在番茄和茄子作物进行病害检测以验证其可扩展性。最终，结合GPT4开发智能在线诊断系统PotatoGPT，支持病害检测和防治建议。

图1 技术路线图

研究结果

基于图像模态的MSC-ResViT模型与其他深度学习模型进行了比较，如图2所示。MSC-ResViT在测试集上的准确率达到92.15%，优于其他网络模型。MSC-ResViT每秒可以预测近0.75张图像，处于这些模型中的平均水平。

图2 各种图像模型检测马铃薯病害的性能

基于文本模态的MSC-TextCNN模型检测马铃薯病害的性能，如图3所示。在这5个类别中，MSC-TextCNN检测一般早疫病表现最差，AP值为0.9771。早疫病和健康类别被正确识别，但在识别晚疫病方面存在显著偏差。

图3 MSC-TextCNN模型检测马铃薯病害的性能

基于颜色和纹理特征的CT-CNN模型的检测性能，如图4所示。CT-CNN对一般晚疫病的识别性能较低，AP值为0.59。在识别健康类别方面表现最好，AP 值为0.9262。这五个类别的特征聚集在一起，表明类别之间的差异很小，仅使用基于颜色和纹理的传统方法很难捕捉到细微的差异。

图4 CT-CNN模型检测马铃薯病害的性能

本文的多模态AI模型检测马铃薯病害的性能（见图5）。准确率达到98.43%，优于MSC-ResViT(92.15%)、MSC-TextCNN(96.86%)以及CT-CNN(74.87%)。

图5 多模态AI模型检测马铃薯病害的性能

本文的多模态AI模型检测番茄病害的性能（见图6）。准确率达到99.2%，优于MSC-ResViT(96.00%)、MSC-TextCNN(97.60%)以及CT-CNN(76.00%)。

图6 多模态AI模型检测番茄病害的性能

本文的多模态AI模型检测茄子病害的性能（见图7）。准确率达到97.3%，优于MSC-ResViT(88.49%)、MSC-TextCNN(94.59%)以及CT-CNN(56.76%)。

图7 多模态AI模型检测茄子病害的性能

研究结论

本研究引入了一种多模态AI模型，用于检测马铃薯的早疫病和晚疫病，在测试集上实现了98.43%的准确率。此外，多模态 AI 模型被推广并应用于其他茄科病害(番茄和茄子)，实现了99.2%和97.3%的准确率，展示了有效的检测能力。多模态AI模型能够在复杂场景下高精度检测植物病害，对于推进作物精准病害管理至关重要。

参考文献

Hongfei Zhu, Weiming Shi, Xinyu Guo, Shiting Lyu, Ranbing Yang, Zhongzhi Han. Potato disease detection and prevention using multimodal AI and large language model[J].Computers and Electronics in Agriculture. 2025,229: 109824.