人工智能大模型安全风险与治理_最新动态_中国安全防范产品行业协会

首页 > 最新动态 > 人工智能大模型安全风险与治理

最新动态

人工智能大模型安全风险与治理

2026-04-092

随着人工智能大模型技术的迅猛发展，深刻改变着人类的生产模式、生活方式与社会治理体系，给世界带来前所未有发展机遇的同时也带来前所未遇的风险挑战。据预测，2025年全球网络犯罪损失将超过10万亿美元，其中有超过30%是AI相关犯罪。2025年4月的中共中央政治局第二十次集体学习中，习近平总书记强调“完善人工智能监管体制机制，牢牢掌握人工智能发展和治理主动权。”因此，深入研判人工智能大模型的安全风险及治理路径具有重大现实意义。

一、人工智能大模型面临的风险挑战

随着人工智能大模型技术的快速发展，既有原人工智能系统对抗样本攻击、数据安全、漏洞后门等方面的传统风险，也带来指令注入、认知安全、军事安全等方面新的风险挑战。

1.数据安全风险

数据是人工智能模型的核心要素，在模型训练、服务等过程中存在数据采集、管理、应用等方面的安全风险。一是数据违规收集和使用的风险。训练数据在采集整理的过程中，存在未经同意允许采集、超范围使用等情况。二是训练数据污染的风险。训练数据可能包含虚假、偏见等违法有害内容，同时也面临被篡改、恶意投毒等风险，造成训练后的模型输出错误、歧视，甚至违法有害的信息。三是隐私数据泄露的风险。研究证明模型可以被攻击，还原出训练的原数据，导致个人及组织的隐私数据泄露。

2.系统应用风险

人工智能大模型也是一种信息系统，在实际业务应用过程中也面临网络攻击、系统后门漏洞、算法可靠性等方面的安全风险。一是神经网络的黑盒性带来模型可靠性风险与解释性挑战。人工智能大模型黑盒的工作机理，使得其生成的内容在事实性等方面存在可信和可解释性等方面的风险。二是系统组件的缺陷、漏洞、后门类的安全风险。人工智能模型依赖的开发框架、计算框架、系统组件、算力资源等，都存在系统漏洞、后门、可靠性等方面的安全风险。三是各类安全攻击的风险。人工智能模型面临对抗样本、模型窃取、指令注入等特有的攻击风险和各类传统系统安全的攻击风险。同时人工智能大模型技术的利用降低了网络攻击的难度，提升了安全攻击的效能。

3.认知安全风险

生成式人工智能技术允许人们合成生成各类原本不存在的多媒体信息，加剧虚假信息、各类违法有害信息的产生，加剧“信息茧房”效应，产生认知方面的安全风险。一是“信息茧房”效应加剧。人工智能技术将显著提升信息服务定制化能力，更加准确地收集用户信息，自动分析用户喜好、行为习惯、特定群体的意识思潮，进而精准制作并推送个性化信息，加剧用户关注信息的局限性。二是人工智能被各类犯罪分子利用。比如AI换脸、AI拟声、AI生成视频图像等技术，被应用到电信诈骗、虚假信息制作中，诱导民众情绪，实施违法犯罪。人工智能大模型技术也可被用于涉恐、涉爆、涉毒等各类犯罪活动中，传授犯罪技巧、制作犯罪工具等。三是生成式人工智能被用于认知战。人工智能被用于制作宣扬恐怖主义、极端主义、颜色革命等内容，通过社交数字人在网络空间抢占话语权和议程设置权，左右公众价值观和思维认知，危害国家安全。四是用于军事领域的风险。尽管国际社会对禁止人工智能武器化还没有达成共识，但已开始重视防范和规避人工智能武器衍生的风险问题。此外，随着人工智能在现代战争中的应用，可能引发新一轮军备竞赛，对传统军事力量格局造成影响，导致新的“国际安全困境”的出现。

4.衍生安全风险

除了人工智能系统本身的各类安全风险，人工智能大模型技术的应用还带来社会环境安全、伦理安全等方面的衍生安全风险。一是社会伦理道德的风险。由于人工智能模型训练数据来源多样、质量层次不齐，导致模型在学习时难以分辨，可能学习到不当、偏见或歧视性内容，带来模型系统性、结构性的社会歧视与偏见。二是社会环境安全方面的风险。人工智能技术在带来生产生活便利智能的同时，也加剧生产力、生产关系的变革调整，加速重构传统经济结构，资本、技术与数据对经济活动的影响力大幅提升，传统劳动力需求下降，冲击劳动就业结构。人工智能应用于能源、金融、交通、电信等关键基础设施领域，模型使用不当、外部攻击等会加剧关键信息基础设施安全风险，影响社会稳定，国家安全。

二、人工智能合成生成内容检测技术

随着扩散模型技术的快速发展应用，AI生成合成的视频图像越来越逼真，使得对合成生成视频图像的识别变得越来越困难，仅依靠人工难以有效应对。目前人工智能深度合成生成的视频图像常采用Variational autoencoders（VAEs）、Generative Adversarial Networks（GANs）和Diffusion Models（DMs）三类基础网络。所以，检测方法也主要围绕这些网络的特征研究展开。针对GAN网路生成合成的内容，研究者提出了基于图像物理特征，如异常颜色[3]、纹理[4]和生物信息的检测方法。对于增强型的GAN网络生成内容，研究者也提出了基于更细微的伪影，如频率[5]和动态伪影[6]等特征的检测方法。生成合成的网络在生成视频图像过程中会在图像统计中留下可追溯的伪影指纹，因此，有研究用类似于提取人指纹的方式从图像中提取和比较噪声特征方面的特征，用于检测图片。有学者探索了视频帧间光流在自然拍摄和伪造的视频之间的运动差异，提出学习光流的差异的检测方法[7]。有一部分论文研究发现，伪造生成的视频在时间域和空间域的图像语义上存在技术缺陷，很难实现人物脸部、皮肤等在不同光照条件下的语义特征的无缝融合。因此，有研究学者等提出了一系列检测方法，通过对视频各帧之间图像语义的不一致性、图像光线的非均匀性差异、各帧间的不连续性，以及图像各区域分辨率的不一致等合成痕迹特征检测的方法，提升识别的精准度[8][9][10]。针对深度伪造的音频内容，研究人员提出一种基于光卷积门的新型神经网络，用来描述音频帧级的浅层特征和时间序列依赖的特征，用以识别伪造的音频[11]。还有学者通过随机掩去相邻的频率频道，加入背景噪音和混合噪声提高检测系统的泛化性[12]。

现有的检测技术即使在用GAN或DM模型生成的不同数据集上寻找差异特征和指纹等信息，但是检测方法的泛化性面临挑战，因为不同模型和数据集生成的虚假内容具有不同的数据分布，已有的检测只能发现已有训练数据集上伪造特征的潜在数据分布，在新方法模型生成合成的测试数据集上检测准确率会降低。虽然许多研究工作提出了诸如扩大训练数据集、捕获可推广的语义表示或采用外部知识（多模态同步）来提高泛化能力等方法，但在实际业务中，很少有研究工作提出的方法能适用新的伪造合成方法。从攻防的角度看，检测方法和生成方法是持续对抗的过程，检测方法的泛化性面临巨大的挑战。

三、人工智能大模型安全治理

2025年7月，我国在2025世界人工智能大会暨人工智能全球治理高级别会议发表的《人工智能全球治理行动计划》中呼吁全球各方在遵循向善为民、尊重主权、发展导向、安全可控、公平普惠、开放合作的目标和原则基础上，切实采取有效行动，协力推进全球人工智能发展与治理。因此，人工智能大模型治理要在遵循包容审慎、确保安全，风险导向、敏捷治理，技管结合、协同应对，开放合作、共治共享和可信应用、防范失控的原则下开展工作。

1.构建三位一体的人工智能治理法治框架体系

一是健全分层立法体系。建立人工智能分类分级的安全治理机制，制定从数据、算法、模型到产品和服务等方面的安全评估标准体系。在国家层面推动《人工智能促进法》基础立法，明确界定人工智能技术的法律地位和责任范围。针对高风险领域制定专项条例和国家、行业技术标准规范，如《生成式人工智能服务管理暂行办法》《人工智能生成合成内容标识办法》和相应的国家标准等，明确技术红线和应用禁区，明确相关服务主体的责任义务，规范内容制作、传播各环节的行为，指导相关单位和个人安全可信的使用AI。

二是创新权责认定机制。借鉴美国《算法问责法案》经验，建立“技术开发者全生命周期责任+平台经营者连带责任+终端用户合理注意义务”的多元共治机制。同时，参照《数据安全法》的域外适用条款，对境外人工智能服务提供商实施合理管辖，确保在华运营符合我国法律规范。

三是构建法治实施保障。在网信办框架下设立人工智能法治评估中心，建立统一的技术评估和认证体系，加强对人工智能产品的安全审查和监管，确保所有产品均符合既定的安全标准和要求，防范利用生成式人工智能技术制作各类图文音视频的虚假有害内容等风险行为，实现人工智能技术的共建、共享和共治的发展理念，推动人工智能健康有序发展。

2.实施国家人工智能治理工程

一是建设自主可控的人工智能治理管理体系。将人工智能安全技术纳入国家科技重大专项布局，集中突破深度学习可解释性、多模态内容鉴别、关键供应链安全等关键技术。加速建设人工智能安全国家实验室，统筹国家相关领域的战略科技力量，打造具有国际影响力的安全技术研发高地。加强大模型安全评估的研发和标准化工作，建立生成式人工智能安全监测预警机制，完善监管机制，推动行业相关的标准、指导性意见等出台。

二是建立国家认证标准体系。由国家标准委牵头制定覆盖全产业链的安全标准集群，包括：基础共性、关键技术和行业应用三大维度的标准体系，实现标准体系与产业发展的同步演进。

三是构建人工智能治理基础设施底座。推进国家人工智能治理风险感知平台建设，实现跨部门、跨层级的监测预警、应急处置和指挥调度功能，形成“国家-区域-重点园区”三级联动的感知、预警、处置、反馈的治理闭环体系。

3.培育人工智能安全治理生态体系

一是创新产学研联动机制。由国家相关部门牵头，成立人工智能安全治理相关的“技术攻关联合体”，实施“揭榜挂帅”技术攻关模式，鼓励企业、科研机构加强人工智能治理关键核心技术的研发与应用，提升治理的技术能力。

二是构建行业自律体系。倡议相关行业主体联合，制定行业自律公约与伦理指南，构建人工智能安全可信体系，为数字内容的真实性与完整性筑牢根基，借鉴互联网协会有害信息举报机制，建立服务商互查互督制度，构建社会共治网络。

三是完善人才培养体系。在高校设立人工智能安全治理交叉学科，推动本科-硕士-博士贯通培养。依托国家卓越工程师学院建设，建立“专业技术认证+伦理资格考试”双轨制，培育既懂技术又通治理的复合型人才。

四是组织社会力量参与治理。引导社会公众和行业企业积极参与生成式人工智能的安全治理，开展媒体监督、公众监督等，培育人工智能多元共治和健康发展的新生态。

参考文献

[1]人工智能全球治理行动计划2025.7 https://www.gov.cn/yaowen/liebiao/202507/content_7033929.htm

[2]人工智能安全治理框架2.0 2025.9全国网络安全标准化技术委员会，国家计算机网络应急技术处理协调中心.

[3]Nirkin Y., Wolf L., Keller Y., and Hassner T., Deepfake Detection Based on Discrepancies Between Faces and Their Context, IEEE Transactions on Pattern Analysis and Machine Intelligence. (2022) 44, no. 10, 6111–6121.

[4]Rossler A., Cozzolino D., Verdoliva L., Riess C., Thies J., and Niessner M., Faceforensics++: Learning to Detect Manipulated Facial Images, Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019, 1–11.

[5]Frank J., Eisenhofer T., Sch?nherr L., Fischer A., Kolossa D., and Holz T., Leveraging Frequency Analysis for Deep Fake Image Recognition,International Conference on Machine Learning, 2020, PMLR, 3247–3258.

[6]Zhao C., Wang C., Hu G., Chen H., Liu C., and Tang J., ISTVT: Interpretable Spatial-Temporal Video Transformer for Deepfake Detection, IEEE Transactions on Information Forensics and Security. (2023) 18, 1335–1348.

[7]Amerini I, Galteri L, Caldelli R, Bimbo A D. Deepfake Video Detection through Optical Flow based CNN[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops. 2019: 0-0.

[8]Sabir E, Cheng J, Jaiswal A, et al. Recurrent Convolution Approach to DeepFake Detection-State Of-Art Results on FaceForensics++[J]. arXiv preprint arXiv:1905.00582, 2019.

[9]Amerini I, Galteri L, Caldelli R, Bimbo AD. Deepfake video detection through optical flow based CNN. In: Proc. of the IEEE Int’l Conf. on Computer Vision Workshops. 2019. 1205-1207.

[10]Li Y, Lyu S. Exposing DeepFake Videos By Detecting Face Warping Artifacts[C]. Proceedings of the IEEE Conference on Computer.

[11]Gomez-Alanis A, Peinado A M, Gonzalez J A, Gomez A M. A Light Convolutional GRU-RNN Deep Feature Extractor for ASV Spoofing Detection[J]. Proc.Interspeech 2019, 2019: 1068-1072.

[12]Chen T, Kumar A, Nagarsheth P, Sivaraman G, Khoury. Generalization of Audio Deepfake Detection[C]//Proc. Odyssey 2020 The Speaker and Language Recognition Workshop. 2020: 132-137.

[13]赵建强,人工智能深度合成生成内容治理探析中国安防 2025.4(pp.39-42).

文 / 赵建强　国投智能（厦门）信息股份有限公司

文章来源于《中国安防》杂志2026年4月刊

《中国安防》

-国内行业权威杂志-

出版发行：《中国安防》编辑部

主管主办：中国安全防范产品行业协会

电话：010-88825523

往期精彩推荐

中央网信办、公安部、工信部等三部门部署开展2026年个人信息保护系列专项行动

16.45 亿来袭！本周 166 个安防项目出炉，覆盖全国 31 省市！

海康威视、大华股份、思特威多点突破 AI与智能技术激活产业新动能…… 一周会员动态

AI赋能出入口管控筑牢重点目标安防根基——出入口控制专家组工作研讨会在深圳成功召开

点我访问原文链接