转自公众号:NELIVA视频国家工程实验室
http://mp.weixin.qq.com/s?__biz=MzU3MzczNDg5Nw==&mid=2247484270&idx=1&sn=2edfd56a8594e6164119c3b1d5df5244
一、CFAT 2024简介
(一)设立目的及特点与难点
自2021年以来,视频图像信息智能分析与共享应用技术国家工程实验室(简称:视频国家工程实验室,英文简称:NELIVA)始终坚持以“以专业测评,引领视频AI技术创新及应用”为使命,以“测评促进产业升级、以竞赛带动创新应用”为目标,与中国图象图形学学会成功举办了四届CSIG图像图形技术挑战赛,分别是“CSIG FAT-AI 2021开放场景口罩人脸识别挑战赛”“CSIG FAT-AI 2022开放场景人脸对抗伪装挑战赛”“CSIG FAT-AI
2023人脸活体检测挑战赛”“CSIG FAT-AI 2024人像复原挑战赛(简称:CFAT 2024)”。CSIG图像图形技术挑战赛是由中国图象图形学学会主办的系列赛事,旨在促进我国图像图形技术及相关产业的发展和应用,解决企业面临的技术难题,扩大企业宣传面,帮助企业吸引更多的优秀人才。历届CSIG FAT-AI开放场景挑战赛,均依托于视频国家工程实验室多年来构建的智能视频分析测评体系、专业的测评方法、评价指标以及实际应用场景数据集和自动化测评系统。
近年来,随着多模态大模型技术的飞速进步,人像复原作为计算机视觉领域的前沿技术也得以快速发展。作为国内首届人像复原领域面向安防应用的专业赛事,本届CFAT 2024的独特性在于以行业应用中的人像复原问题为依据,共同探索如何通过低清晰度的人像照片与对应的人物形象文字描述,精准地恢复出高清晰度、与真人高相似度的人像照片,为参与者提供解决实际问题的机会,这在公共安全领域有着重要的应用价值。本届挑战赛聚焦人像复原领域的最新研究与实践,通过集结全国各地的专业人才跨界合作,共同解决此领域的难题。本届挑战赛共分为初赛、复赛、决赛三个阶段,历时3个月。
本届CFAT 2024使用公开的训练数据集和预训练模型,不允许使用私有数据,让学术界和工业界在同一起跑线,比拼算法的设计与调优;多种输入,一种输出,可以让参赛者在算法设计中更具灵活性。其难点在于:
(1)高清照片与低清照片在图像分辨率、人物角度、光照等条件下的差异较大,给预测带来较大难度;
(2)测评中不但需要考虑相似度得分,同时还需考虑生成的图像质量,加大了竞赛的挑战性和复杂度;
(3)复赛的测试集与训练集不同源,更考察算法的泛化能力。
(二)挑战赛规则
【任务描述】本届挑战赛给定模糊人像、轮廓图像及对应的自然语言描述,要求参赛者使用人像复原技术恢复出符合本人真实面容的高清人像图像,如图1所示。
【测评数据】CFAT 2024的初赛测评数据来源于学术界公开数据集,其中人像的文本描述标注数据,由实验室工作人员进行了精细标注及详细文本描述。复赛测评数据来源于开放场景下私有标注的高质量数据集,该数据集非公开。数据图像为采自不同光照、不同角度、不同状态、不同表情下的人像图像。初赛与复赛的数据格式与训练数据均保持一致。
【参赛对象】专注于视频领域AI智能应用、视频图像处理、机器学习等研究的国内高校、企业及科研院所的专业人才及研究者均可参赛。
【测评指标】本届CFAT 2024挑战赛采用QIRR(Qualitative Recognition Improvement
rate of face Restoration,带质量的复原识别提升率)得分作为参赛者的最终得分,其计算过程如下图2所示。首先根据输入的低清晰度图形、轮廓提示和文本提示复原出高清晰度的图像,然后计算复原相似度与原始相似度的差值。将所有测试数据的相似度差值的均值记为复原识别提升率(Recognition Improvement rate of face Restoration,IRR),如公式1所示。
IRR表示在给定一个固定的图像识别模型的情况下,复原后的人像图像比原始图像提升的平均大小。其中图像识别模型的相似度范围是[0,1]。为了同时考虑复原后的身份变化和质量变化,每个测试数据的相似度差值乘以一个质量因子,进而计算得到QIRR,如公式2所示。
QIRR表示考虑复原质量的人像复原识别提升率,其中Qi表示从低清照片复原后的图片的质量得分,该质量分是一个综合考虑人像图像清晰度的指标,取值范围[0—100]。
(三)测评流程
在初赛测评数据集上,参赛者使用训练集训练,对测试集进行预测,输出每组数据的高清复原照片,并将所有高清复原照片打包压缩成tar格式后作为提交的结果文件。主办方计算出QIRR得分后再进行排名。
在复赛测评方面,参赛者必须先使用初赛的训练集(包括train和dev)训练,然后封装成可用于进行人像复原的算法包(打包压缩成tar格式后),提交到FAT平台。主办方使用非公开数据集对参赛者的算法包进行测评,计算出QIRR得分后再进行排名。
复赛结束后,入围的复赛参赛者需提交模型、训练代码和技术方案,主办方对提交者的最优方案结果进行完整复现,核查无误后发布最终榜单。
(四)榜单发布及颁奖
2024年12月11日,视频国家工程实验室在官网发布了CFAT 2024的最终榜单。(浏览地址为:https://fat.neliva.com.cn/home/top?id=353)
本届CSIG图像图形技术挑战赛包含5个竞赛项目,来自国内外高校、科研机构及企业近1000支队伍报名参赛。在2024年12月13日的总决赛中,这5个赛道的冠军队依次进行了现场答辩。经过激烈的角逐,由视频国家工程实验室承办的赛道:CSIG FAT-AI 2024人像复原挑战赛的冠军队伍夺得了总决赛冠军。在12月14日的第二十届中国图象图形学学会青年科学家会议开幕式上,举行了总决赛的颁奖仪式,学会理事长王耀南院士为冠军队伍颁发了获奖证书。
二、经验分享
(一)冠军队经验分享
中国电信股份有限公司人工智能研究院(上海)
本届冠军团队隶属于中国电信人工智能研究院(TeleAI),TeleAl由中国电信集团CTO、首席科学家李学龙教授发起并组建,面向国家战略需求和未来人工智能发展趋势,结合中国电信在算力、数据、应用场景及通信等多方面的优势,围绕大模型、具身智能、AIGC等方向开展基础研究、技术攻关和应用落地。
本届CFAT 2024人像复原挑战赛的特点是训练数据较少、初复赛数据分布差异较大,对算法的封装要求严格。前两点贴合当前业界实际应用场景,对模型和方法的泛化性、易用性提出极高要求。而第三点则需要在固定次数内快速找到技术方案的优化方向,充分考查参赛团队的行业经验。TeleAI团队结合自身在图像识别、视觉大模型等领域多年深耕经验,通过对训练数据和测评指标进行深入分析,最终融合多种技术方案,在初赛和复赛中均取得了第一名的优秀成绩。
1.技术路线探索
(1)现有主流人像复原方法普遍会产生较大的身份信息偏差,因此该团队提出了基于身份信息保持的多模态人像复原方案。为增强人像身份保持能力,提高人像特征相似性,该团队在Arc2face[1]模型基础上,创新性地加入人像轮廓引导的ControlNet[2]分支,将图像识别模型获取的识别特征与轮廓草图相结合(见图 3),共同引导图像生成。
具体来说,输入的低清图片经过图像识别模型提取特征,该特征将显式地作为token
embedding,并结合提示词进行文本编码,获得具备特定识别特征的语义编码,同时轮廓草图输入作为控制条件,经过ControlNet获得不同尺度特征,作用于扩散模型上采样部分。为保持原始模型能力,训练过程仅对ControlNet进行微调,最终得到保留足够身份信息的高清人像复原图像。经过多轮提交验证,相对其他前期方案指标,该方法获得了大幅提升,取得了初赛的最高成绩。
(2)复赛阶段的测评数据来源于开放场景下私有标注的高质量非公开数据集,此阶段的测评数据集与训练数据集不同源。开放场景数据具有模糊度高、人像偏移角度大、人像区域存在遮挡等问题。TeleAI团队针对性地提出了扩散模型联合对抗式生成网络的双阶段人像复原方案。
第一阶段,该团队利用低清图和配对的不同场景高清图,将低清图和压缩后的高清图通过降采样模块提取人像特征并进行对齐,强化了低清图中的人像身份信息,低清图特征经过多尺度特征提取模块,结合自适应学习的语义模块,从不同层级引导图像生成[3](见图4),得到了第一阶段复原结果。模型训练以人像特征对齐损失和预测噪声损失的加权和作为总体损失函数,使用AdamW优化器和余弦衰减学习率,微调优化模型中降采样、特征提取及语义模块参数。
第二阶段,该团队通过使用对抗式生成网络[4],对初步复原结果的细节进行了特征补全,在强化人像身份信息的同时,有效提高了复原图片的质量。该方案在复赛中依旧取得了第一名的好成绩。
在当前形势下,传统图像识别算法的潜力已被充分发掘并广泛应用,然而面对模糊、侧脸等复杂场景下的识别挑战,如何有效融合最新的生成式技术以提升识别精度,已成为学术界与工业界亟需深入探索与研究的课题。
竞赛过程中,该团队凭借多年深耕图像识别领域的经验,在少量提交后即确定了人类主观观测认为的相似特征与图像识别模型认为的相似特征存在一定差异性,从而构建了本地评测体系,并结合以往对视觉人像大模型的研究经验,快速确定方案路线,逐步测试验证,最终取得了本届赛事的冠军。
【冠军队赛后评价】视频国家工程实验室(NELIVA)凭借其在安防领域深耕多年的丰富经验,开创了这一新赛道,与我们团队的构想高度契合,同时也预示着图像识别技术未来的发展趋势。本届CFAT 2024挑战赛一如既往秉持着NELIVA立意高远、产学研融合的办赛宗旨,具有较高的应用价值与实践意义。
感谢视频国家工程实验室提供的竞赛机会与研究方向,同时我们也向其他上榜团队表达诚挚的谢意,他们的努力正是我们持续进步与提升的重要驱动力。未来,我们将在多模态人像复原领域持续深耕、不懈探索,为行业的繁荣发展注入新的活力与动能。
(二)亚军队经验分享
本届挑战赛亚军是CCNU-CV团队,来自华中师范大学计算机学院。
在本届挑战赛中,该团队主要针对以下两点进行了优化:一是挑选更具泛化性的人像重建模型;二是针对输入低清图像设计更合适的预处理方法。
1.技术路线探索
在模型选择方面,由于本届赛事规定可以使用限定时间前互联网可公开访问的模型,该团队侧重选择针对人像重建任务有进行专门优化的模型BFRffusion作为基线,并在该模型上利用竞赛数据进行微调,在微调过程中,采用了随机翻转、高斯模糊,利用文本描述生成额外高清图像等数据增广的方式对训练数据进行补充。该模型整体来说是基于Stable Diffusion模型的改进,同时针对人像重建任务,该团队采用了BFRffusion模型中的浅层退化去除模块(SDRM)、多尺度特征提取模块(MFEM)、可训练时间感知提示模块(TTPM),具体方案如图5所示。
该方案对于给定的低清图像,首先送入SDRM对图像进行编码,并将不同扩散步骤的未处理噪声混入并提取清晰的潜在特征;随后在MFEM中基于Transformer结构捕获特征中的全局和局部上下文信息,以提取与不同Stable Diffusion块相匹配的多尺度特征;此外通过TTPM,将时间嵌入与提示通过交叉注意力层结合,生成可在不同时间步为修复过程提供语义指导的提示;最终通过Stable Diffusion中预训练的去噪U-Net模型完成网络的构建,并利用预训练的解码器完成重建。
在实践过程中,该团队观察到对低清图像进行对齐时存在人像不检出、检出关键点大幅偏移的情况,由于人像对齐效果对后续重建效果有较大的影响,导致算法整体重建效果较差。同时,复赛阶段数据来自开放场景且对参赛者不可见,其中可能存在更多畸变、遮挡,在复赛初期,该团队的模型相较初赛有较大的性能下滑。之后,该团队针对输入低清图像的预处理方法进行优化调整,包括对输入图像进行尺寸归一化、在图像外围进行padding、翻转、旋转,期望在不破坏低清图像特征的同时,增强人像对齐的效果,从而提升了在不同环境下人像数据的重建效果(见图6)。
【亚军队赛后评价】:通过参加CFAT 2024人像复原挑战赛,我们团队在技术水平和团队协作能力方面都得到了极大的提升。在竞赛过程中,随着对视频国家工程实验室提供的赛题与数据的逐渐深入了解,我们深刻体会到,在实际应用场景中人像安防相关任务的挑战性。
竞赛期间,视频国家工程实验室的老师们对参赛者遇到的问题都能及时做出回复,为各参赛队伍提供必要的帮助,并且根据参赛者反馈及时做出合理的调整。能参与这样的高水平赛事,让我们团队的每位成员都从中受益良多,激励我们在未来的学习与工作中不断提升自我。
三、挑战赛结果分析
本届CFAT 2024挑战赛的最终名次由复赛的QIRR决定,其最优的结果为0.36282。从复赛的结果上来看,IRR的整体提升的性能小于0.007。根据IRR的含义,表明所有参赛者均未明显提升人像的相似度。一方面,由于复赛的测试流程完全模拟安防应用的实际场景——真实应用的数据是不可见;另一方面,说明此方向具有很大的研究前景和巨大的挑战性。相比于IRR,QIRR将质量因素考虑到指标范围之后,整体指标有所提升,说明质量因素起了比较大的作用,也进一步表明,目前复原技术多考虑复原后的图像质量而在提升人像身份特征上的作用较微弱,也说明了此项任务的难度与研究价值。
■文/张博维 张旭 崔涵 董陈远 视频图像信息智能分析与共享应用技术国家工程实验室
张琦 王楚轶 中国电信股份有限公司人工智能研究院(上海)
宁敦博 华中师范大学计算机学院
文章来源于《中国安防》杂志2025年第1-2期
《中国安防》
-国内行业权威杂志-
出版发行:《中国安防》编辑部
主管主办:中国安全防范产品行业协会
电话:010-88825523