摘要: 蚂蚁集团在计算机视觉顶会CVPR 2026 NTIRE图像检测挑战赛中,同时斩获"复杂真实场景鲁棒性样本测试"与"人脸增强异常检测"双赛道冠军。基于DINOv3视觉基础模型构建的检测框架,实现了AIGC检测从实验室向真实场景的实战级跃迁,ROC AUC达到0.9723,为支付风控、内容审核、金融身份认证等场景提供重要技术支撑。

一、赛事背景与技术挑战
1.1 CVPR 2026 NTIRE挑战赛概况
CVPR(Computer Vision and Pattern Recognition)是IEEE主办的国际计算机视觉与模式识别会议,与ICCV、ECCV并称为计算机视觉领域的世界三大顶级会议。本次NTIRE图像检测挑战赛共吸引全球500多支队伍参赛。
1.2 核心痛点:双重极限考验
当前深度伪造(Deepfake)与AIGC滥用风险加剧,现有检测模型面临两大技术鸿沟:
| 挑战类型 | 具体表现 | 影响后果 |
|---|---|---|
| 跨域泛化能力不足 | 不同生成架构(扩散模型、自回归模型等)和闭源商业平台的生成机制差异巨大,伪影特征随之变化 | 传统模型对单一训练数据过拟合,遇新生成体系即失效 |
| 真实世界降质干扰 | 图像在互联网传播中经历压缩、模糊、加噪、截取等多级退化,掩盖微弱生成痕迹 | 实验室基准测试表现优异,真实场景准确率断崖式下跌 |
本次挑战赛直击上述痛点,要求模型在"未知生成架构"与"复杂退化干扰"的双重极限考验下,保持高准确率与强鲁棒性。
二、技术突破:基于DINOv3的鲁棒检测框架
蚂蚁集团提出基于DINOv3视觉基础模型的检测框架,实现了AIGC检测能力从实验室向真实场景的跃迁。
2.1 双流并行集成架构
底层采用双流并行集成架构,如同为检测模型配备两双互补的眼睛:
第一流:捕捉图像局部细节与高频特征
第二流:提取整体特征与全局语义信息
决策融合:两个网络组独立执行特征提取与预测,最终通过加权平均完成后融合
这种设计既避免早期特征级联的信息淹没问题,又通过不同配置网络的互补效应,提取出更加全局、立体的图像表征。
2.2 分层级数据构建策略
团队构建包含数百万高质量样本的复杂训练语料库,层次化覆盖四类数据来源:
开源学术基准(WildFake、Z-Image等)
主流开源生成模型定向合成
商业闭源API高保真样本
比赛官方数据
2.3 难度感知的鲁棒数据增强
团队模拟图像从单一噪点到多重失真的全链路退化效果,深度还原社交平台传播、二次翻拍等真实场景的图像失真特征。
三、范式创新:Locate-Then-Examine两阶段检测
3.1 突破黑盒检测局限
传统"黑盒"检测模型决策过程不透明,难以追溯判断依据。蚂蚁团队提出"先定位可疑区域,再进行细节审查"(Locate-Then-Examine)的两阶段检测范式。
3.2 FakeXplained数据集
团队构建了提供局部区域文本解释的数据集FakeXplained。在面对可疑图像时,该方法能够:
准确判断图像是否由AI生成
在图像上定位出存在伪造瑕疵或违背物理常识的区域
同步生成详尽的解释文本
这一创新让模型决策"有据可查",突破了传统黑盒检测的局限,为金融风控等高风险场景提供了可解释的技术支撑。
四、双赛道夺冠详情
| 赛道名称 | 夺冠团队 | 核心技术 | 应用场景 |
|---|---|---|---|
| 复杂真实场景鲁棒性样本测试 | 蚂蚁AI安全实验室 | 双流并行架构、Locate-Then-Examine范式、FakeXplained数据集 | 支付风控、内容安全审核 |
| 人脸增强异常检测 | 蚂蚁国际 | 精准定位人脸图像异常区域 | 金融身份认证、EKYC、开户材料审核 |
在"人脸增强异常检测"赛道中,蚂蚁国际团队的技术能够精确识别并定位人脸图像中的异常区域,主要应用于跨境支付与金融服务领域的EKYC、凭证及材料防伪。
五、开源贡献与产业价值
5.1 开源资源仓库
为方便技术从业者共同应对Deepfake挑战,蚂蚁团队通过GitHub开源了领域内全面的AIGC图像视频检测资源仓库(Awesome-AIGC-Image-Video-Detection),整合最新热点事件、前沿论文、基准数据集及实用工具。
5.2 产业应用场景
基于DINOv3的检测框架已在以下场景实现技术落地:
支付风控:毫秒级识别AI生成凭证,防范金融欺诈
内容安全审核:识别社交平台传播的伪造图像
金融身份认证:EKYC流程中的人脸防伪检测
开户材料审核:跨境支付场景下的凭证真实性验证
六、技术演进趋势
随着生成式AI技术的持续演进,AIGC检测的产业价值愈发凸显。蚂蚁集团此次在CVPR 2026的双冠成绩,不仅展现了其在AI安全领域的技术积累,也为行业提供了从实验室走向真实场景的技术路径参考。
未来,如何进一步提升模型对多模态内容的泛化能力,以及在更复杂场景中实现低成本、高效的部署,将成为行业的核心议题。
参考资料来源: AIbase、新浪财经、搜狐科技、InfoQ等权威媒体报道