摘要:本文以技术视角分析了从AI 1.0到AI 2.0的演变,尤其探讨了多模态大模型在安防领域的突破和应用。依图的“天问”大模型展示了三大核心特性:会思考、可对话、能进化,为产业的高阶智能化率先实践、带来了深远影响,推动智能安防进入新的阶段。
Transformer引领新范式,开启AI时代新纪元
近年来,人工智能技术的迅猛发展标志着AI 2.0时代的到来,而其关键在于Transformer架构的引入。AI 1.0阶段主要以卷积神经网络为代表(2003-2016),而AI 2.0(2017年以后)则以Transformer架构为基础,开创了多模态大模型的崭新局面。从技术角度分析,这一跃迁体现在以下几个方面。
工作范式和分析要素的转变。AI 1.0主要依赖于对图像的像素级分析,以识别人、车、非机动车等特定对象。然而,AI 2.0可以识别图像内的万事万物,并理解图像背后的深层语义,把各类场景要素如人、地、事、物等有机结合,形成完整的情景感知。如此,AI不仅能够“看见”目标,还能理解其含义及背景。例如,在城市监控中,AI 2.0不仅识别出非机动车,还能分析其携带多个煤气罐是否具备危险行为。
交互方式的变革。在AI 1.0时代,用户操作通常受限于算法的有限结构化属性和预定义的下拉菜单。而在AI2.0时代,借助于语义搜索和语音交互,系统获得了更大的灵活性和适应性。用户能够通过自然语言与AI系统沟通,使人工智能从工具蜕变为用户的“智能助手”,简化操作流程,提升用户体验。
算法训练的重大突破。在AI 1.0阶段,对新场景的算法训练和优化需要十万级的训练数据,同时训练数据的场景多样性、光照/天气/背景复杂性对算法产生直接的影响,同时在实验室中进行算法训练和调试,以月为单位的响应速度难以满足现场的快速管理需求。AI 2.0的大模型架构现场训练特性能够实现场景数据和语义的快速对齐,具备实时训练和快速迭代的能力,使系统更加智能化,以便应对动态变化的业务需求。
平台角色的演变。在AI 1.0中,平台主要作为用户的专业工具,满足诸如人脸识别、人车非结构化检索等基础功能需求。进入AI 2.0时代,平台演变为用户的智能助手,能够根据需求提供更丰富、适合业务场景的自主智能能力,如新算法的现场训练及组合算法的自动编排等。
依图天问多模态大模型的技术优势与应用场景
依图科技的多模态大模型在安防领域的应用潜力巨大,其“会思考、可对话、能进化”三大特性显著地推动了行业突破传统AI技术瓶颈。
会思考:全要素理解,多算法任务自编排
首先,依图天问多模态大模型基于视频内容全场景、全要素的理解,实现对典型的场景目标、多算法组合规则进行精准的编排布控;用户只需一句话描述任务需求,大模型自动拆解为多条件算法的布控任务。例如:用户只需要输入”如果区域内有有柜门打开,请报警“,平台自动理解任务需求,并自动拆解、编排算法需求:“检测相关得区域、并且区域内有柜子,并且柜门是打开的状态“,以此算法下发布控任务,当有此情况发生即产生预警。
相较于传统方案,需要人工拆解需求、定制算法软件版本,响应慢,实现周期长。依图天问AI智能体通过自然语言交互,现场实现多算法自编排,加速需求转化为算法任务,打通业务需求转化成算法任务编排的关键1公里。
可对话:推动人机交互的变革
依图天问多模态大模型通过整合语义搜索与语音交互技术,显著提升了人机互动的自然流畅性。传统的小模型架构,通常将目标检索限制在预设的结构化属性字段范围内,而依图天问多模态大模型基于对视频内容细微理解,提供了开放式的语义检索。用户可以通过简单的自然语言描述获取所需的场景内容,例如输入“前车灯破损的汽车”或“骑电瓶车带多个煤气罐”等,系统迅速依据语义理解提供相关的目标结果。这种创新的视频内容检索方式,不仅提升了操作效率,也显著加快了业务的响应速度。
此外,依图天问多模态大模型采用动态标签化技术,使得每个监控场景都能被相关语音命令快速调用。指挥中心人员只需下达语音指令如“调取有积水的点位视频”,系统便能迅速响应,展示符合条件的视频片段,简化了调度流程,将以摄像头ID为核心的调度方式,升级为以事件和警情为核心的调度方式,显著提高了应急响应效率。
能进化:边用边训练,越用越聪明
依图天问多模态大模型的进化能力彰显了其在实际落地中,针对长尾算法的快速训练与迭代特性。传统的算法训练过程通常面临高数据量需求、训练周期长、响应现场需求慢的挑战,尤其在面对突发场景时,常规方法需要经历数据收集、标注、实验室训练等繁琐步骤,完成算法迭代往往需要几周甚至几个月。
依图天问多模态大模型具备零样本冷启动,小样本快速迭代训练的能力,可根据实际应用需求迅速进行算法训练和优化。其特点在于将训练所需的数据量从几十万降至零样本水平,算法迭代时间从几周缩短到分钟级,新算法可以在当天上线应用,实战水准的新算法上线时间更是从月级缩短到天级,展现了前所未有的智能化和灵活性。例如,在处置烈性犬伤人事件中,传统方法需搜集大量数据并逐步优化算法,而依图的多模态大模型仅需简单的现场标注,几天内便可达到90%以上的算法准确率。这种现场算法迭代的灵活性极大地缩短了算法更新时间,提高了响应速度。
依图天问多模态大模型自进化能力使其在应对动态环境和复杂场景时,能够有效适应变化。通过自监督学习,算法在使用过程中更智能,帮助用户快速应对多样化业务需求,不仅提升了效率,还大大增强了其在大模型落地应用中的实用性和可靠性。
迎接 AI 大模型时代
AI 2.0时代的到来,不再仅仅依赖于数据的堆积和单一任务的优化,而是强调算法在复杂场景中的自主理解与决策能力。多模态大模型的核心优势在于其广泛的泛化能力和实时进化的特性,使得AI技术能够主动适应多变的业务需求,从而推动产业智能化升级的全面落地。
新一轮 AI 浪潮下依图科技将聚焦技术创新和产品落地的深度融合,加强多模态大模型技术与领域知识深度结合的产品与方案,打造更懂行业、更懂客户、更懂场景、更易使用的产品, 助力“AI+”能更快地在各行业落地,实现基于巡查和经验的运营管理升级为基于数据和AI 2.0的智慧运营,拓展人工智能的新疆界,开启视频情境理解的新纪元!
在即将举办的第四届中国安防人工智能创新论坛上(10月23日,北京),依图科技将隆重发布这一革新性技术,标志着智能安防正式迈入AI 2.0时代的全新阶段。欢迎大家扫码报名,莅临现场,共同见证这一重要时刻。
扫码报名听会
2024年10月23日,“万象更新 共赢大模型新时代”依图业务战略分享会暨伙伴峰会上,依图将发布大模型新品、分享业务战略、伙伴业务政策以及战略伙伴优秀经验,助力合作伙伴向“场景大模型方案提供商和运营商”转型。