为什么CV模型真实环境表现不佳？

计算机视觉模型在测试期间可能看起来完美无缺，但一旦遇到现实生活就会崩溃。这种对比往往非常显著。

MIT的一项审查发现，一些人脸分析系统对34.7%的深色皮肤女性出现错误，而对浅色皮肤男性的错误率保持在1%以下。在农业领域，在干净实验室照片上获得95-99%准确率的模型，在真实作物上下降到70-85%。在放射学领域，RSNA的一项审查显示，五分之四的模型在来自另一家医院的数据上表现更差，许多模型下降了十个百分点或更多。

这些差距讲述了一个清晰的故事：大多数计算机视觉失败并不神秘。它们的发生是因为现实世界很少像用于训练这些模型的数据集。光线变化。相机老化。人们看起来不同。田野杂乱无章。医院使用不同的机器。

本文分析了这些下降发生的原因、跨行业出现的模式，以及团队可以采取什么措施来构建在部署后保持准确性的模型。

1、为什么它在开放环境失败

许多计算机视觉模型在测试时运行良好，但一旦面对现实世界的条件就会遇到困难。它们发布后看到的数据很少像训练数据那样干净或可预测。小的变化：不同的光线、新相机、不寻常的背景或变化的环境，往往足以导致准确性明显下降。

以下是最常见的失败原因以及它们在实践中的样子。

1.1 域迁移——在一个世界训练，在另一个世界部署

计算机视觉模型通常假设现实世界的数据会类似于它们的训练图像。在实践中，这很少是真的。光线变化、背景不同、硬件更换，新环境引入模型从未见过的视觉模式。即使是微小的差异也可能导致准确性急剧下降。

现实世界的证据显示了模型对这些变化的敏感程度。在一项农业研究中，一个在受控实验室图像上获得92.67%的植物疾病模型，在田间照片上下降到54.41%。即使微小的变化也很重要：一个重新创建的CIFAR-10测试集旨在匹配原始数据集，导致许多高性能模型失去4-10个百分点的准确性。这凸显了当条件与训练略有不同时，模型可能有多脆弱。

在北美实验室图像上训练的作物模型，在叶子纹理、土壤色调和光线不同的非洲田间表现不佳。在干燥地区训练的卫星模型，在雾霾和植被改变像素分布的热带气候中挣扎。在晴朗城市环境中训练的驾驶感知模型，在积雪的乡村道路上判断失误。

1.2 数据集偏见——你没有的数据将让你付出代价

模型只能从给定的数据中学习。如果某些群体、光线条件、产品类型或设备设置缺失，模型就会形成盲点。这些差距后来表现为不均匀的准确性、不一致的预测或影响特定群体更多的错误。

一项对皮肤病AI的评估发现，一些模型在深色皮肤色调上失去了27-36%的性能，因为训练期间这些图像代表性不足。类似问题出现在其他地方：零售系统误读放置在不寻常货架布局上的产品，医学成像模型在来自它们未训练的医院的扫描或设备上表现更差。

美国国家标准与技术研究院人脸识别供应商测试研究发现，一些算法对女性的误报率比男性高2到5倍。在实践中，这导致某些群体的错误拒绝或人工检查增加，因为模型没有接受足够的代表性样本训练。

1.3 输入损坏——干净的训练，肮脏的现实

模型通常在高质量、光线充足的图像上训练。但现实世界的相机会引入模糊、噪点、眩光、压缩伪影、运动条纹或阴影，这些模型在训练期间从未见过。即使是小的瑕疵也会降低置信度或导致模型误读它所看到的内容。

研究显示这可能有多严重。最近一项对无人机检测模型的评估发现，在大雨、模糊和噪点下性能下降了50-77个百分点。这些条件在野外很常见，但在训练数据集中很少出现。

即使没有天气或传感器噪点，许多模型也难以应对日常变化，如旋转、部分可见性或较低质量的图像。角度或分辨率的小变化可能使对人类来说显而易见的物体突然变得难以让模型识别。在现实部署中，图像很少是完美的，这些弱点很快会变成漏检和不可靠的结果。

1.4 捷径学习——模型学到了错误的教训

在最近一项关于皮肤病变分类的研究中，标准模型在ISIC基准上获得了看似强劲的0.89 AUC。但分析显示，它学会了将仅在良性训练图像中出现的彩色校准贴片视为可靠的"良性"信号。

为了测试风险，研究人员人为地在恶性测试病变旁边插入这样的贴片。一旦捷径提示出现，69.5%的癌症突然被预测为良性，尽管病变本身没有改变。在从训练数据中移除这些贴片并重新训练模型后，这种失败模式下降到33.5%，但没有消失——揭示了原始性能很大程度上依赖于捷径而不是实际的医学特征。

1.5 漂移和边缘情况——世界不断变化

模型从过去的数据中学习，但一旦部署，现实世界不断变化。产品重新设计，引入新硬件，环境和人口变化。当这种情况发生时，模型开始看到与其训练不完全匹配的数据——准确性悄然下降。

Wild-Time基准显示了这可能有多显著。当在较早数据上训练的模型在较新数据上测试时，结果明显下降。在Yearbook数据集中，随着肖像风格随时间变化，准确性从97.99%下降到79.50%——下降了18.49个百分点。在FMoW-Time卫星数据集中，随着土地利用和条件的变化，准确性从58.07%下降到54.07%——下降了4.00个百分点。模型根本没有改变；只有数据变了。

风险在于这种下降没有立即的失败迹象。如果在新鲜数据上不定期检查性能，错误会增长，直到有人注意到——通常是通过投诉或错过的业务目标。事后修复意味着紧急重新训练、更多人工审查和更高的运营成本。

2、领先团队的不同做法

一旦模型离开实验室，成功取决于架构选择的程度较低，更多地取决于整个生命周期设计得如何。强大的团队假设条件会变化，错误会出现，盲点会出现，他们从第一天就为此做好计划。

与其希望模型表现良好，他们构建帮助它适应、改进并在实际工作环境中保持可靠的过程。以下是产生最大差异的方法。

2.1 构建反映部署现实的数据集

首先确保数据真正代表模型将被使用的地方，而不是仅依赖干净的实验室或工作室图像：

不同类型的相机和分辨率
各种光线条件：昏暗、眩光、阴影
区域差异：包装、土壤、植被、背景
季节性或时间变化
罕见但代价高昂的边缘情况

他们不是收集"更多相同的东西"，而是收集缺失的东西——否则会让模型后来感到惊讶的情况。

这种方法已经在实地证明其价值。在零售业，仅在产品目录图像上训练的货架监控系统在杂乱的商店中挣扎，但在杂乱和遮挡的真实货架照片上训练的模型在生产中保持准确性。在农业，研究表明，将实验室图像与田间照片结合比单独添加额外的实验室原始样本能更好地改进疾病检测。

2.2 使用有针对性的、现实的数据增强

即使大型数据集也无法涵盖模型发布后面临的每种情况。为此，在训练期间添加现实的变化：不仅仅是翻转或裁剪，而是相机在现场产生的那种噪点和瑕疵：

运动模糊和传感器噪点
阴影、眩光和不均匀光线
部分遮挡
低分辨率或压缩图像

这有助于模型在其实际运行的环境中识别物体。在工业质量控制中，当训练包括使用VAE-GAN管道生成的现实合成缺陷时，缺陷检测系统的性能从65.18%提高到85.21% mAP。这一单一改变使模型在真实工厂生产线上部署时更加安全。

应用有针对性的增强可以减少噪点条件下的误报，在不同相机设置之间保持稳定，并在发布后花费更少的时间进行调试。

2.3 超越干净测试集进行评估

模型可能在熟悉的验证集上表现良好，但一旦条件改变仍然会遇到困难：新相机、不同的光线或噪点输入。

影响可能很大。在ImageNet-C基准测试上，标准ResNet-50在图像包含现实损坏（如模糊、噪点或天气效应）时下降到39.2%的准确性，尽管在干净的测试图像上表现强劲。

这显示了为什么干净的准确性应该被视为基线能力，而不是部署指标。在损坏的、跨设备的或跨站点的测试集上单独评估稳健性的团队，可以获得对生产性能更现实的看法，并能就发布和改进做出更好的决策。

通过多样化模型的评估方式，团队减少了发布时的不确定性，并确保系统为其实际面临的条件做好准备。

2.4 使指标与业务风险保持一致，而不仅仅是准确性

准确性本身并不能显示模型是否在重要的地方表现良好。在生产中，最昂贵的错误通常与特定任务、产品类别或客户互动相关。关键检查步骤上的错误，例如，即使整体准确性保持较高，也会减慢整条生产线。

评估应反映这些优先事项：哪些预测驱动决策、错误如何影响运营、系统仍然产生多少人工工作。当指标与真实业务价值相关，而不是数据集平均值时，性能改进更容易定位和跟踪。

2.5 监控漂移、公平性和失败模式

模型不会仅仅因为成功发布就保持准确性。一旦投入生产，它们面临新产品、新环境和不断演变的用户行为。相机升级、包装变化、季节变化——数据逐渐远离模型训练的内容。

持续监控使这些变化可见。置信度下降、预测模式变化、或跨地点和用户群体的不均匀准确性，都是模型开始漂移的早期信号。尽早发现这些模式有助于团队在性能问题蔓延到日常运营之前进行调整。

有了监控，可靠性成为持续的努力。可以主动安排重新训练，支持量保持可控，随着条件变化，系统继续提供一致的价值。

2.6 在模型生命周期中构建反馈循环

没有模型能与每个真实场景完美对齐。新的边缘情况出现，环境变化，用户行为变化。在生产中改进的最快方法是捕捉这些现实世界的错误并反馈到训练中。

来自操作员、质量团队或最终用户的持续反馈突出了模型不足之处。当这些信息被结构化到定期重新训练中时，性能在最重要的地方得到改善。随着时间的推移，模型不是漂移，而是适应。

这将模型质量转化为一个持续的过程。每次更新反映真实的操作条件，支持问题减少，随着模型证明它可以从现场学习，信心增长。

3、案例研究

3.1 医疗保健：胸部X光模型与捷径学习和域迁移的危险

挑战

SciForce的任务是构建一个胸部X光诊断模型，该模型可以在具有不同扫描仪、工作流程和成像条件的医院中可靠工作。这意味着在不依赖捷径提示或内部元数据的情况下，考虑硬件、人口统计和图像质量的变化。

我们做了什么

为了应对这一挑战，团队：

在来自多个机构的多样化、去标识化数据集上训练，以确保跨站点泛化
通过有针对性的增强模拟现实世界的输入噪点（例如，来自便携式X射线的模糊、低对比度）
移除医院特定的元数据和视觉伪影，以防止捷径学习
设计了在保留的医院数据上测试性能的验证管道，以尽早发现过拟合

该模型必须在具有不同扫描仪和患者群体的医院之间保持准确性（域迁移），处理来自便携式设备的低质量输入（输入损坏），避免依赖嵌入的文本或图像边框等不相关的提示（捷径学习），并在未见过的数据上证明自己（评估盲点）。

为什么重要

没有这些步骤，模型可能显示出强劲的内部指标，但在部署中默默失败。通过从一开始就设计变异性和稳健性，SciForce提供了一个放射科医生可以在现实世界中信任的系统——避免误诊风险、支持升级和发布延迟。

3.2 农业：卫星和无人机成像与漂移和稀疏地面实况的风险

挑战

SciForce的任务是构建一个精准农业模型，使用卫星和无人机图像监测多个地区的作物健康状况。现实世界的条件引入了重大挑战——云层覆盖遮挡关键观察、土壤和作物类型的区域变化，以及来自田间的有限地面实况数据。

我们做了什么

为了确保模型能够在季节和地理位置上可靠运行，团队：

整合合成孔径雷达（SAR）数据，在重云期保持覆盖
设计了融合模型，将图像与土壤类型、作物计划、气候条件等元数据结合
使用稀疏但高影响的田间标签模拟时间感知学习，以改进时间泛化
在不同作物和环境条件的地区进行验证，以压力测试稳健性

该系统必须应对由云层覆盖和季节差异造成的不一致输入（数据稀疏性和漂移），适应不同的作物和土壤模式（域迁移），并解释具有现实世界噪点和失真的多光谱图像（输入方差）。

为什么重要

没有这些适应，系统将提供延迟或不完整的建议——导致农民错过关键生长期干预。相反，该模型提供及时、区域感知的见解，使投入更智能地使用和产量可靠性更高。

3.3 零售/酒店业：桌子监控与盲点和实时脆弱性的隐藏成本

挑战

一家大型连锁餐厅需要一个计算机视觉系统来实时监控桌子占用和服务时间。但虽然模型在测试中表现良好，部署暴露了关键的盲点，如角落桌子在视野外、变化的光线、客人或家具的部分遮挡，这些都破坏了准确检测并延迟了服务。

我们做了什么

为了构建一个能够处理现实世界餐厅物理混乱的系统，SciForce：

引入了区域感知跟踪逻辑，即使在不规则布局中也能保持桌子可见性
通过在噪点、遮挡和时间变化的场景上训练，建立对光线变化和移动的弹性
嵌入人在回路反馈：楼层工作人员可以标记漏检，然后将其循环到重新训练中
在具有不同平面图、装饰和环境条件的多个地点验证性能

部署必须克服嘈杂、部分可见的输入（输入损坏），固定布局训练的泛化问题（评估不匹配），以及早期实时使用的脆弱性（用于快速适应的封闭反馈循环）。

为什么重要

未检测到的顾客导致延迟服务和满意度分数下降——尤其是在边缘桌子。使用更新后的模型，该连锁店减少了等待时间变化，改善了人员配置，并增加了高流量区域的覆盖率。

4、结束语

成功的视觉系统与失败的系统之间的差异很少在于模型架构——而在于系统与现实世界对齐的程度。这需要积极的工程：更丰富的数据集、更严格的评估，以及从现场数据的持续学习。

投资这种纪律的团队释放稳定的自动化和可衡量的投资回报。不投资的团队最终会为可预防的失败进行救火。

如果你希望计算机视觉在重要的地方表现良好——在真实的相机上、在真实的环境中、在真实的风险下——让我们从一开始就正确构建它。

原文链接: Why Your Computer Vision Model Struggles in the Real World

汇智网翻译整理，转载请标明出处