一、智能视频应用需求
随着3111平安城市建设要求的提出,视频监控系统建设的规模在不断扩大。视频资源数量众多,实时观看和事后追溯等应用,都对智能视频提出了新的需求。从有效性的角度说,我们建立了大量的视频监控系统,目的是什么?这些视频对公安业务到底有什么帮助?大家自然而然的就会想到智能视频的应用。智能视频监控的最终发展目标也是要自动或者辅助人们,从浩瀚的图像数据中,提取人们感兴趣的有用信息。例如,从监控场景中辨认出物体,行为或者特征。但做到这一步还有很大的技术难度。
智能视频的发展我们可以总结为3个主要发展阶段:
最早的是人力现场监控。可以说是人眼+人脑。
然后是传统的视频监控,就是电子眼+人脑。
再到智能视频监控,就是电子眼+电脑
电子眼+电脑(代替人脑)还是很难的一件事情,虽然现在技术的发展已经解决了很多问题。由于论坛侧重应用,不宜理论探讨且时间有限,我只从应用角度讲一些要点。
作为报警服务的有效复核手段,为了提高值班人员视频监控的有效性,提出了智能视频的要求。无论从实时观看还是图像资料的历史检索查找,都是为了提高事实认定取证的快捷性,以解放警力,提高效率。
我们知道,每一个电视监控系统都不可能对所有的摄像机监控到的场景同时观看,都是轮流切换去看,实时监看的目的是防范,当我们看到一些不允许的行为或事件发生的时候,要提前制止,避免发生。从安防的角度说,追求的目标是防患于未然,而不是亡羊补牢。从预警、报警、处警,和事前、事中、事后处理角度说,对智能视频也提出了要求,如果智能视频技术和现场的实际应用结合的好,我们就可以在事前出现迹象的时候就采取措施,以避免案、事件的发生。
智能视频监控的最终发展目标和需求,是要能辅助人们或者能自动从浩瀚的图像信息中提取出人们感兴趣的有用信息,例如从监控场景中辨认出物体、行为或特征,能跟踪特定的目标等等
二、 智能视频分析技术及系统
首先来看两个定义:
智能视频分析:就是通过数字图像处理和分析技术,让计算机有限理解视频画面中的内容。为什么要加上“有限”两个字?事实上我们采用的算法、软件,其实都是有限条件下的应用,因为图像智能视频分析技术研究是一个国际难题,广泛意义上的普遍应用有困难,一般是针对某种场景和策略的特殊应用效果较好。
智能视频分析技术应用:通过分析视频图像内容,发现符合某种预先设定的规则行为发生时(如定向运动、越界、游荡、遗留等) ,自动向监控系统发出报警信号,提示相关工作人员及时处理。
智能视频技术可以实现对移动目标的实时检测、识别、分类以及多目标跟踪等功能。
目前,通用的智能视频分析技术主要功能模块分为以下五类:目标检测;目标跟踪;目标识别;行为分析
基于内容的视频检索和视频增强
把视频增强放进来,是针对效果不是很好的监控图像,我们知道,犯罪分子大都在夜间隐蔽处作案,因此,我们的监控设备拍摄到的图像往往就会很模糊,不清晰,因此我们需要对视频图像进行处理,增强其图像效果和清晰度。因此,我们也把视频增强放进智能视频技术中作为一个分支来研究。如果图像质量太差了,不对它做一些处理,是很难对这些图像进行智能分析的。
(一)智能视频分析技术
1、目标检测(Object Detection)
–目标检测是指采用软件技术来分析视频图像序列中像素的特征变化(包括距离、颜色、亮度、色度、形状、大小、速度等特征),将图像的运动目标区域从背景图像中提取出来。
–常用的目标检测技术主要有三类:背景减除法,时间差分法,光流法。
2、目标跟踪
是针对检测到的目标进行跟踪,从他的轨迹上去发现某种迹象。基于运动轨迹的预测跟踪是常用的方法。
3、目标识别
我们前面的环节,检测和跟踪都是为了识别目标,目标的变化有颜色、形状、大小、速度等各种特征,根据我们的应用需要,针对哪种信息感兴趣,就把它找出来。目前的目标识别主要分人的识别和车的识别两种。一些应用软件都已投入应用,但要说做的很好,还是不容易的。目前的成果还只是对一些简单的人的行为识别。如将单人和多人分开,骑车人和步行人分开,一些简单的蹲、跑、跳的动作。相对而言,车的识别应用更广泛一点。比如车牌识别,做的还是比较好的,车牌识别在智能视频分析中算是简单一些的,因为字符的识别比图像内容的识别分析还是容易的多。
4、行为分析
行为分析会更加复杂一些,但也是在有限的条件下做的一些行为识别。这个和我们公安业务的结合应用,如一个人突然倒地。对于一些简单的人的姿态,智能视频还是可以做出来的。
最难的就是基于内容的视频检索和视频增强。
5、基于内容的视频检索和视频增强
电视监控需和案件侦破及公安警用业务结合起来,在大量的视频信息里,如何快速找到我们关注的,有用的信息,值得深思。比如:我们根据需要设定一个检索条件,则快速检索出我们需要的内容,这样对公安信息化应用和公安警务工作是很有帮助的。目前,主要的检索方法是颜色检索,形状检索和纹理检索这3种。
视频增强是使模糊图像清晰化。常用的增强方法有空间滤波,时间滤波和模型去噪等等。
(二)智能视频分析系统
目前见到的智能视频分析系统,主要有两种产品形态:
一种是智能视频分析设备前置系统,这个系统将智能视频分析单元,放在前端摄像机处,实时视频分析单元一般为嵌入式产品,分析的特征、参数、结果在需要时上传到监控中心。这是典型的分布式系统架构。当我们对固定场景的图像做智能视频分析的时候,常用这种形态,这个系统特点是实时前端分析,其分析结果和算法速度不受传输环节的影响。
第二种是中心智能分析系统。这种系统一般是把算法集中在监控中心的PC端上,可集成更多的算法同时运行。一般说来,一种算法对某一个特定的内容分析效果较好。而PC机可以对多种算法进行集成,综合分析的内容会更丰富,效果可能更好。这个系统可以通过后端矩阵切换完成对前端多个摄像机分时段做图像视频分析。目前市面上见到的产品只有这两种形态。不同产品和系统的区别可能就是根据分析内容采用不同的算法和不同的输出结果表示方式。
三、智能视频在公安业务及其它领域中的应用
公安的宗旨就是维稳保安全。这里说的安全是综合安全的概念。
一般来说,安防追求的是防患于未然,即尽量在违法犯罪得逞之前就能够发现并采取有效措施制止案件的发生。破案是迫不得已。但事实上,我们在大量的案件处理应用中,还是需要事后追索图像,来帮助破案。前面讲到的智能视频分析技术一定要和公安业务结合起来,特别要和刑侦破案经验结合起来才能充分利用电视监控图像为社会公共安全服务。究竟什么样的视频内容才和破案相关呢?多年来,一所在做各个警种的技术应用项目时,也在认真梳理和破案有关的视频内容特征,但归类起来确实比较困难。首先我们要弄清楚刑警在破案中的思索,针对具体案例,寻找对破案有帮助的相关视频内容,从而发现有限规则,再把这些规则输入计算机,让计算机按照这样的规则去提取图像特征,这样才能使智能视频分析和公安业务真正结合起来,才能有助破案,节省警力。
结合电视监控图像,人们已做了一些局部的智能分析应用。从公安业务关注的角度举一些例子。这些大多是针对某些特定场景进行应用,大规模的应用还有一些局限性。有些技术难点还在解决之中。如:异常行为分析。
很多心理不健康的人或畏罪自杀者在作案前都是很矛盾的,经常会犹豫不决,比如南京长江大桥、武汉长江大桥每年都会有多人跳江自杀,如果能够利用桥上安装的摄像机对在桥上徘徊行为做出分析,并自动报警,提醒监控人员关注图像,也许就能挽救一些人的生命。
对于重要部门,不允许闲人入内,如果有人尾随进去了,那么这个人肯定不怀好意,摄像机被输入了这种异常行为规则,就会对这一尾随行为进行报警制止。
群体性事件感知,利用智能视频人数统计功能,在一定的公共重要场所,通过感知人群密度的快速增加发出报警,也能起到预防群体性事件发生的作用。在公园、博物馆或一些商业机构利用智能视频人数统计功能,用作进场人数统计也很有效。
在各个城市一些特定的场所,都会有一些拎包抢劫案的高发地段,利用这一地区的监控摄像机图像,根据这一地区犯罪分的行为特点进行智能分析,并提取出犯罪行为特征,就能起到提前预警,从而防止犯罪的发生。在大型活动的监控中,我们也需要这样的应用。要实现这些应用,就必须先提炼出有助破案的犯罪分子的行为特征,结合算法规则,配置相应的参数。集成了这种算法和参数的摄像机才能有效进行智能视频分析。
智能视频快速检索是智能视频分析应用的一个重要功能。根据索引要素,搜索出相关的视频内容,这是节省人力查找的有效办法。在视频智能分析和检索过程中,对有些质量比较差的图像,需要先进行视频增强,让视频画面清晰可辨,才能使智能视频分析准确性增强。视频增强功能也是视频分析的重要内容。
智能视频分析应用的环境非常复杂,比如高速路上可疑物的检测,违章停车,异常物品滞留检测报警,突发事件的跟踪检测,人的运动检测,颜色检测,目标分类检测,人流密度检测等。这些应用对智能视频技术的要求是不同的,甚至有些差别很大。
如:移动检测关注画面上多大面积的目标运动。对于不同的应用场景差别很大,在大范围的空旷地带周界防范如:机场、边防、海防的关注目标和在城市市区的关注目标及环境适用变化太大。边海防应用,对画面上出现的物体如:异常飞行体,当它在画面上还是一个小点点的时候,就要报警,这个发现越早,就越有利于防控。但在车水马龙的市区监控要采用这种智能分析算法,那么所有的运动目标我们都会检测到,就没法应用了。如何满足这些不同的监控图像智能视频分析的应用需求,是电视监控图像内容智能视频分析技术研究和应用的难点。从事智能视频分析研究的人员一定要从应用的角度去思考:什么样的算法适合什么样的场景?这是智能视频分析非常关键的。我们所看到的智能视频分析演示,它的算法是不是也同样能够适用我们特定的观察场景?在应用场景的全天候变化情况下,各种参数选择如何确定分析效果最佳?这是智能视频分析应用的关键。
在边海防监控的应用需求中,很小的一个点位的移动,都需要检查出来。因为监控背景大部分是静止的,只有那一个小点在变化(如:飞机),分析算法的准确度也能达到。这种应用情况下的算法和我们在市区人流、车流密集的运动场景中去辨别一个小点的变化完全不同,可以说基本做不到在市区车水马龙背景下对一个很小面积的运动目标做出分析判断。这两种情况下的算法应用可能会是根本不同的两个分支研究方向。因此,对于用户来说,不能简单从厂家自带序列的演示去判断实际应用效果,而是要结合用户观察场景,看所演示的视频分析内容是不是你所需要的。
在银行、运钞车、财务室等不同的金融安全防范应用方面,智能视频分析的策略也是不同的。
在边境、机场、公路、铁轨等周界防范上的应用又有不同的策略,一般说来,在大范围周界防护时,根据地域情况,首先要建立一个监视区的概念。如,在铁轨附近,设定一个1米或3米的区域作为监视区,如果这个区域有人进入,通过图像智能分析立即发出入侵报警。这种区域报警分析在边界线,机场的外围已用了很多,好的智能视频分析系统在于能适应白天晚上风雨雪天等全天候环境。这些地方,如果结合智能视频分析应用,还是很有效果的。在画面相对静止的,又很重要的地方,智能视频分析技术已经得到较为广泛的应用。
四、智能视频分析技术的难点和测试研究
前面讲到的这么多应用,肯定是存在的。但是,智能视频分析产品是不是就像一个摄像机,装上去就能用呢?如何评价智能视频分析应用产品的功能性能呢?这些都是用户在购买智能视频产品时要涉及的问题,应该说定量评价智能视频产品还是有很多技术难点和瓶颈问题。智能视频分析系统要解决的问题是 “如何快速从大量的无用视频信息中找出相关的有用视频,甚至于会测试分析到视频流的每一帧。”让我们回想一下,伦敦警方在地铁爆炸案的侦破中,靠人工对大量视频图像进行筛查,在筛查的过程中,大量的视频都是无关的。真正的疑犯是通过几帧模糊的视频图像找出来的。
这几年,我们在各地调研,和刑侦人员交谈,大家也讲了很多实战的例子。都提到了这个情况:当一个案件发生了,破案人员会把前后24小时甚至48小时的图像全部收集起来,调动大量的警力去看图像,把所有有人出现的图像都挑出来,然后一一排查。这个工作量是非常非常大的。为此,我们专门做一个视频处理软件,就是为了解决如何在短时间内把相关有用的图像归到一起去。大家知道,现在各地方都在不断的建监控项目,摄像头数量越来越多,这中间有以前的视频系统,也有新建的视频系统。这么多的摄像头拍摄了这么多的视频图像,对于某一个案件来说,除了极少数的视频和破案相关,事实上大量的视频都是无关视频。而破案需要的是在最快的时间里,如何从这些海量视频中挑选出你所关注的与案件相关的视频!尤其是在串并案件处理过程中,筛选出相关视频信息条件更加复杂,这是最难的。我们要按照一定要素,如:地域、时间、事件等等,将图像按内容归类,这就需要软件允许用户根据自身的关注需要另分类。这样的智能视频分析管理软件可能才最能发挥作用。用户往往只有在需要的时候才去查看视频资料,而且希望立刻找到想要的内容。如果在这方面有较大的突破,对公安应用具有较强的实际意义。
一所研制了一套警务系统智能图像分析系统。并对早期和目前在建的监控系统使用的DVR市场份额占得比较大的厂商产品进行全面测试,以使该系统对所有的视频图像(特别是适应历史视频,破案常常碰到)都能播放,解释并加入图像内容分析,对实时的图像和存储的图像都能够按需处理。能够从这些图像资源里再利用智能视频的算法,挖掘视频线索,来固定和我们破案相关的图像证据,以便快速处理海量视频。从目前试用的效果看,在案件管理,视频库管理、视频预处理,视频检索、视频图像内容分析等方面,能够有限满足综合智能视频分析处理,减少警员工作量,提高处理效率,节省警力,实用效果好,并且能够根据新的警用业务需求拓展新的功能,深受公安一线欢迎。
智能视频分析应用的另一些技术难点是如何适应各种环境变化和噪声干扰,如:如何消除树叶摆动的阴影、自然光线的昼夜变化、海岸线上潮汐的变化等各种因素对智能视频分析结果产生的影响;对电视监控所获得的各种低画质图像怎么处理增强,以获得较为清晰的画面质量都是智能视频分析研究要解决的难题;人的行为分析是智能视频分析研究的又一难题,因为人的行为千变万化,无一定之规,那么实现一定的有限规则下的人的行为分析本身就已经很复杂,难度很大。让计算机跟人脑一样聪明,实际是做不到的。神经网络系统的研究虽然已经开展了几十年,但真正的应用还是一个难题,方法大家都在研究,但要真正投入到某一个领域实际应用还要有一个过程。人的行为理解是智能视频领域最具挑战性的研究课题。目前,像是否携带物体、蹲、站、跑等一些简单的行为变化的人体行为图像分析识别系统,在一些特定场景中已经投入使用。可以说这些难题是国际性的研究内容,尚需时日才能很好解决。
智能视频分析难,测试、定量评价智能视频分析产品的功能、性能更不容易。大家有没有想过这样一个问题:无论是智能视频分析的前端硬件也好,还是软件算法也好,作为用户,怎么评价它的性能好坏?当一个产品在我们面前演示,我们如何评价其性能和功能?因此,立刻面临的问题就是智能视频分析技术的检测和评估应该怎么办?这个问题很前瞻,国际上研究机构和组织很少,研究成果也不多。这两年,公安部第一研究所和中盾安全技术开发公司专门成立了一个团队在做智能视频分析应用技术的研究。我们认真调研了国内国际近几年在智能视频分析方面的研究现状,针对电视监控图像和公安业务应用场景,进行了不少研究与实验,测试了很多算法和产品,分类积累了一些视频图像库,研究探讨了一些智能视频测试深层次的问题。我在这里提出,想起到抛砖引玉的作用,希望引起相关专家的注意。智能视频的功能检测和定量检测都是需要深入研究的。虽然难度很大,但也必须去研究。只有功能、性能检测技术真正发展了,才能使智能视频分析产品真正应用到实际中去。
智能视频测试提出了这样一个问题:在实验室的技术,不管是视觉技术,图像处理技术、人工智能,背景建模等等属于智能视频范畴的技术,怎样变成一个可实际应用的智能视频分析的软硬件产品,且稳定可靠的投放到市场去应用。如何将智能视频分析软件和硬件产品跟电视监控的实际图像结合起来?而不是只和实验室中用到的几段特定图像结合,因为智能视频分析的图像源,必须是电视监控的图像序列。如果不用这样的序列,只适应特定的实验室序列,这样的技术和产品,不是公安警务和社会公共安全实际需要的。
目前国内国际市场上的智能视频分析产品,不外乎是硬件软件两个形态。作为用户,怎么认识它?如何确定智能视频分析产品的性能指标是一个很大的难题。从实际应用需求出发,就刚才上面列出的那么多应用,规定出一系列指标,让研制、测试单位遵循,用户能够理解,这样智能视频分析产品才能够真正的投入应用。要确定指标,就必然要研究智能视频的测试。
对智能视频测试来说至关重要的环节是什么呢?首先要建立一个有限多的测试图像序列库(理论上需要无穷序列库,那是做不到的。实际上,人们在进行测试研究时,总是测试尽可能多的序列,任何科学研究都是对大量的--即大家认为可得到能实现足够多的数量之数据进行的),当然测试序列要包含各类视频图像,如质量好的视频,质量差的视频,实际电视监控的视频等等。这些图像序列将作为被测智能视频分析软硬件设备的输入图像源。其次,要建立视频测试比较基准。对这个基准的理解,可以天平为例,砝码就是天平的比较基准;视频比较基准的建立,不仅技术难度高而且工作量巨大。可以通过人工一帧一帧去测试并进行标注,也可开发相应的软件把每帧图像定位到某一个智能视频分析单元(如:运动目标)的像素数目、速度、XY坐标等,把这些基准的要素值准确地建立起来并标注清楚,才能为智能视频测试所用。第三步,对被测智能视频分析软硬件产品进行测试,将测试结果和基准结果进行比较,得出一个比较结果。将比较结果输出。这样人们就能对智能视频分析产品做出公正公平科学的评价。用户就能获得一个可信的科学评价结果。经过这样的测试环节,我们才可以说,这个智能视频产品(含硬件、软件),达到了一个怎样的水准。这样,用户在使用的时候,才有选择的依据。当然,这测试中间还有许多技术问题有待继续深入研究。
智能视频测试的研究工作具有很大的前瞻性和挑战性,我们也是在迭代中摸索进行的。很多研究所,院校也在进行一些相关研究,并且有了一些阶段性的成果。目前,我们已经研究出建立基准的流程,也开发了一些相应的软件,建立了一些测试基准数据,但要完成整个智能视频测试研究,建立整套测试程序和测试方法,还有很多过细的艰苦的科研工作要做,尚需各大专院校、研究机构和一所一道,共同开发研究,欢迎各位业内专家献计献策,共同参与。
五、SVAC标准介绍
SVAC标准是《安全防范视频监控数字音视频编解码技术要求》的简称,该标准涉及的技术学科多,综合性强,编制过程严谨复杂,测试实验环境要求高,参编单位多,由于本次论坛时间有限,不能向大家一一介绍SVAC标准编制进展和技术细节,只介绍SVAC标准的里程碑事件和要点,详细情况请关注TC100网站和SVAC标准编制组发布的相关资料。
1、编制SVAC标准的意义和目的
胡锦涛同志在切实提高公安机关“四种能力”的讲话中指出:“提高维护国家安全的能力、提高驾驭社会治安局势的能力,要坚持打防结合、预防为主,全面推进社会治安防控体系建设”,视频监控系统在社会治安防控体系建设中占有重要地位。目前已有的音视频编解码标准,都是针对广播电视和大众娱乐方面应用的,在安全防范领域直接采用具有很大的不适应性,国内国际没有专门针对安防视频监控应用的音视频编解码标准,因此,专门制定符合安防视频监控应用需要的、具有我国自主知识产权的音视频编解码标准对社会治安防控体系的建设具有重要的意义。
公安部第一研究所结合多年在安防领域的技术积累(包括报警、出入口、电视监控、应急联动等),特别是视频技术在公安业务中的应用研究,在广泛调研的基础上总结、提出了“安全防范视频监控数字音视频编解码需求”,并向国家标准化管理委员会申请立项:制定《安全防范视频监控数字音视频编解码(SVAC)技术要求》,获得立项批准。
SVAC标准作为视频监控系统的基础技术标准,为城市社会治安综合防控体系的建设提供强有力的技术支撑,可以解决目前视频监控系统中音视频编解码标准不统一和在视频监控领域采用广电标准而无法满足安全防范中特殊需求的问题。制定一个可自主控制的安防音视频编解码标准,也可以摆脱国外相关标准目前存在的各种专利陷阱,更有利于国内视频监控市场的良性、健康发展。
2、SVAC标准名称及归口单位
《安全防范视频监控数字音视频编解码(SVAC)技术要求》,国家标准计划号是20075503-T-469,归口单位为全国安全防范报警系统标准化技术委员会(简称SAC/TC100),英文名称: Surveillance Video & Audio Coding (简写为“SVAC”)。
3、SVAC标准需求
SVAC标准适应安防需求、兼顾原有视频资源,也对低质量的视频信号进行编码;强调现场音视频的还原性,解码后的音视频要尽可能的忠实于原场景。
–全天候24小时工作,适应各种天气和环境。
–音视频分别封装、存储、播放(同步异步均可)。
–支持逐行扫描和隔行扫描。
–支持彩色、黑白、红外。
现场还原
–解码后的音视频信息能够还原并忠实于当时场景。
–为音视频信息后续深入应用服务。
–支持绝对时间嵌入。 (针对监控场景视音频不一定总是同步)
支持智能识别接口
–在保证实时视频编码的前提下,支持提取运动目标的基本信息,为智能视频处理(如移动侦测、目标跟踪等)提供接口。
码率可动态调整
–区分前景背景,对感兴趣区域进行动态码率调整。(运动目标、人脸、车牌、禁区、可疑目标等)。
–智能接口的加入,为公安破案、语音识别、人脸识别、视频检索等音视频信息的有效利用奠定了技术基础。
4、SVAC标准的核心思想
-
针对监控实际需求,解决监控音视频编码面临的实际问题
-
忠实于场景(scene-based)的音视频编码
-
在保证音视频质量的前提下,提供较高的编码效率
-
在同等性能的前提下,具体算法优先采用具有国内自主知识产权的方案
-
灵活可扩展的架构