高文：多媒体大数据的技术趋势与应用前景

【天极网信息化频道6月5日消息】以“大数据大宽带推动云计算应用与创新”为主题的第五届云计算大会今日在国家会议中心拉开帷幕。本届云计算以全新的国际视野，洞悉全球云计算发展趋势;并从应用出发，探讨云计算与大数据、云计算与移动互联网、云安全及云计算行业应用等焦点话题。

来自中国电子学会云计算专家委员会、中国工程院、中国科学院、中国移动、华为、中兴、百度、阿里云、微软、IBM以及SAP等知名It企业的领军人物和知名学者参与了此次大会，并带来了精彩的演讲报告。

会上，国家自然科学基金委员会副主任、中国工程院院士高文发表了题为“多媒体大数据的技术趋势与应用前景”的演讲。

国家自然科学基金委员会副主任、中国工程院院士高文

高院士在演讲中指出，大数据本身这件事，不管你是否同意它已经来的，而且在大数据图象和视频的数据量又特别大，在图象和视频里面怎么使存得下和找得快，这是两个非常大的技术挑战，我们应该在这两个技术挑战方面努力下一些功夫，使得大数据不要对它没有办法，能够有办法去处理它，把它作为智慧城市大数据的一个最好的应用场景来进行对待，也希望过几年这个会上有更好类似的成果展示给大家。

以下是高院士的演讲速记：

各位来宾，刚才听主持人说大家都刚吃完饭不久，所以我希望下面的报告能够帮助大家消化，至少不阻碍大家消化。

我报告这个题目叫做“多媒体大数据的技术趋势与应用前景”，这是一个命题作文，可能我要在这个命题作文下大概做一点儿私活，大概讲三个问题：第一，重复一下，也许上午有人讲过，也许大家在其他资料上看过的一些大的趋势，希望通过这个趋势的描绘让大家对于后面第二个问题能够有更直接的感觉。第二，讲一下多媒体大数据，而且讲多媒体大数据的具体应用案例，就是智慧城市。第三叫结束语或者是展望。

一、关于多媒体大数据时代。

多媒体大数据时代，我相信大家都身处其中，一个最典型的感觉，大家应该知道现在整个，不管我们把它叫做云，还是叫做大数据，总而言之数据量增加的速度非常之快，我们估计从现在到2020年整个在网上各种各样的大数据会到40Z，大家会比现在增加50倍。这个数据的大，首先一个表现就是数据非常丰富，你可以把它形容成“泛滥”，当然数据多了以后，事务多是两方面，既有可能给我们带来很多好处，同时给我们的处理也带来很多的麻烦。

具体包括：比如在零售行业、科学计算行业、生活方面都有各种各样的数据，当然在这里面的数据影响、量更大，但是有些数据影响不大、但是量也会很大，所以对现在的存储、处理平台带来了极大地挑战。

实际上我们的生活、我们的工作都要被大数据所改变：

1、数据产生方式现在已经被极大地改变，因为以前数据的生产都是由专业团体、专业人士，或者是专业公司完成的，现在数据更多产生是个体行为、是个人，每个人都可以使用他所采集的终端，不管是拍的照片、录的录象，或者是通过他的手机、电脑产生大量的数据，所以数据产生方式发生了非常大的变革。

2、数据传统途径也发生了很大的变革，以前我们获取信息的来源基本上要么是平面媒体，看报纸;要么像我们所说的传播媒体，比如说电视、广播等等这些东西，现在，特别是年轻人信息来源是通过互联网，互联网已经变成了媒体传播的主要途径，这个改变对我们整个社会也产生了非常大的改变。大家也知道马云，从他董事长下来的那段录像在非常短的时间内就被看了上百万次，所以我觉得这是非常了不起的一件事情，这件事情也告诉我们，今后做任何事情想着信息，或者是舆论传播的主要途径相当于是通过互联网媒体。

3、社交环境网络化变革，以前大家交朋友更多是你生活的圈子，比如说同学、邻居、亲戚，现在更多的通过是互联网这种虚拟的环境。

4、数据存储习惯变革发生的变化，以前都是希望自己保存一份拷贝，不管是照片、不管是你的文件，都是希望一定要存在自己的电脑上，或者要刻到自己的软盘上，把它放到书架里，现在这种观念已经改变掉，当然除非你是搞一些保密工作，或者是年纪大一点比较习惯是另当别论，大多数人就把它丢调网上，在云中进行存储。

5、社会安保系统变革，现在还没有真正实现，实现之后会对我们的生活有非常大的变化。我会面会花更多时间谈的一个问题，现在整个社会安保，整个城市里面已经有很多的传感器、摄像头等等，通过它们可以使得社会变得更加安定，或者说发生案件会快速破案，这个系统对现在的安保系统会带来非常大的冲击。比如说我们经常举例的，包括原来的周克华的破案，就是监控系统做了相当多的贡献，当然这个贡献最终是靠人解决的问题，当时为了找到周克华一张比较清晰、正面的照片，或者是发现他的一些个人特点，曾经有两千多个警察花上月的时间在反复的看那些录像，最后找出一些照片供破案，或者是抓逃用。当然也有不成功的案例，比如说今年春天3月份在长春有人偷了一辆轿车，车上有小孩，最后把小孩杀掉，这是作案人最后投案找到的线索。今年前一段时间波士顿马拉松爆炸案也是在比较短的时间就破案了，这个破案其实也是美国的警察集中了很多警察把整个能拿得到的录像资料反复看，差不多每一段视频都被看了400遍以上，最后在里面找到一些清晰的照片帮助追逃。

这些案例告诉我们大数据时代已经来了，当然在大数据里面我们需要知道什么东西的量最大，这个曲线大家能够看到，我们2012年图像和视频数据已经占到80%多，今年图像和视频数据在整个大数据的比例已经要接近90%，这样一个比例，在真正的大数据里面你的核心挑战到底是什么，当然数据大了以后怎么处理、怎么挖掘里面的一些有价值的规律，是我们首先要做的。最大的数据要怎么处理，实际上是最大的一个挑战。

所以说我们多媒体大数据，特别和图像、视频有关传输、存储、处理、应用是四个问题。为什么有效存储这个问题很难，实际上现在街上按的摄像头所拍下来的东西不会永远保存，有的会存三个月，有的会存一个月，有的还会存一个星期就会覆盖掉，这个数据就永远丢失的，为什么会这样呢？因为存不起，这个费用太高。怎么有效保存对于大数据是一个很大的难题。怎么样处理，大家都以为这个问题很简单，有各种各样的智能处理系统、图像分析系统，实际上那些都是再研究或者是做演示，像城市大规模系统还是比较少。

第二，关于智慧城市中的多媒体大数据的挑战。到底是什么挑战呢？因为智慧城市本身，这个概念是一个非常好的概念，所谓智慧城市也是一种生态系统，这个生态系统里面为了达到，比如说这个城市的平安、健康、适宜居住、交通方便等等，所以你需要去构建一个完整的信息系统，这个信息系统实际上是包括视频传感、物联网系统和网络、和整个决策系统构造成一个完整的系统，这个系统才叫智慧城市。在这个系统里面有很多子系统，包括有可视化的治安防控系统、应急联动子系统、数字化城市管理系统等等，比如像治安防空系统可以通过各个卡口、电子警察、一些监控、技术防范等等子系统实现治安防控。对于应急联动，对于自然灾害、公共事务等发现以后能够启动应急联动的功能。城市管理就包括现在我们经常说的汽车定位、地理信息、身份验证、物品识别、数字通信等等，把这些系统连接在一起是一个完整的信息系统。这个系统的监控很关键，当然不是视频、摄像头，里面包括各种各样的传感器，视频是比较主要的一些传感器，这些传感器分布在城市的各个角落，在各个角落的获取的各个信息是通过一个网络把这些信息能够进行传输，当然这些传输，网络是分各种各样的一组一组的，这里面和居住有关、和办公有关、和交通有关的等等。这些一些群体的数据通过这个网络就会构造成一个所谓的感知网，如果你以摄像头为主就是视觉感知网，这个视觉感知网会被送智能分析中心，最后对整个智慧城市进行决策。这个决策里面有两个非常大的难题：

1、存不下，刚才已经说过，数据最多存三个月，有的可能一个月、一个星期就被覆盖掉，数据永远被清除掉，这是很可惜的事。

2、找不快，如果发生一件事希望系统快速找出来反而找不快。

首先我们看存一下这个问题，因为现在数据源源不断的产生，源源不断的往系统里面灌，系统的存储除非你很有钱，不停的增加存储设备，但是现在没有说哪个人不断的增加存储设备，一个预算完了存储一段时间就算了，或者把里面的信息摘取出来放在另外的地方。这里面大家很容易想得到，如果有一个非常好的高效的存储技术，或者把原来的图像和视频编码压缩可以节省存储空间，原来能存三个月，如果能把它的压缩效率提高一倍就可以存六个月，或者把原来的系统开销减掉一半。这件事在技术领域已经做了三十多年，大概从90年代初有人提出来，刚开始不是为了视频监控做的，而是为广播电视、数字电视做的，比如第一代的编码标准，早些时候大家用的VCD、DVC的标准，做了一段时间大家觉得压缩不够又开始做第二代，觉得还不够就开始做第三代，现在系统大量使用的是H.264，我们叫做第二代的标准技术，现在正在做第三代的一些东西。

第三代、第二代、第一代的编码效果有多高呢，第一代的编码标准能够把原来的视频数据压缩到1/75，第二代比第一代效率增加了一倍，能够把原来的视频压缩到1/150，现在正在做的第三代大概能把数据压缩到1/300，大概是这样，取下来的视频压缩完之后存储在那里，如果有办法找到一个编码压缩技术就可以提高它的编码效率。为什么有150：1、300：1，甚至未来修600：1的压缩能力呢，因为我们拍视频的时候里面有很多的冗余，只要你有很好的算法把这个冗余去除掉，所以拧毛巾就是做视频压缩要做的，为什么可以这样呢？因为冗余里面有各种各样的，比如说同样的东西每一桢被拍了很多遍，如果每一桢都重新表达出来肯定很浪费，能不能把后来拷的都一样拷过来就可以了。还有一种叫编码冗余，实际从理论可以分析出来，现在的算法离真正的理论上限还差很远，只是找不到更好的算法逼近那个理论上限，所以现在有成千上万的工程师和科学家找高效编码的算法，希望一点点进行改进。所以我们还有很多的空间。基本大的框架就是这个这张图给的框架。笼统说，采用包括正交变换、运动预测、商编发等等使编码效率一点点的提高。

AVS视频标准的框架也是大的思路上，都是大同小异的，全世界几大不同的技术集团采用的思路都是比较相近的，为什么中国要做这件事？除了提高效率问题以外，还有另外一些原因，专利、知识产权等原因，为了让中国自己的企业，或者说中国的企业向海外发展的时间，不受欺负，所以中国要有一套这样的东西，这套东西还是从纯粹的技术、效果等等角度考虑问题。

在中国做了一段时间以后，在中国做不一定都是中国人，当然AVS都是国外企业，国际上比较知名的大的合作视频编码有关的企业都有派代表加入到AVS工作团组，最近做出了一个东西变成了IEEE的标准的，叫做IEEE 1857的标准，面向互联网视频编解码的群体，这个群体在2012年2月份正式成立起来，经过一个很完整的流程，第一个视频编码标准昨天已经刚刚印刷，今年3月份批准，经过三个月的准备时间昨天刚刚印刷完成。IEEE 1857整个处理流程，从去年2月份成立以后，4月份第一次会议大概到今年3月15日开了7次会议，最后把文本全部完成。

这个文本里，整个的编辑经历了非常漫长的过程，因此做一个标准技术很行以外，处理流程也要按部就班要往返很多次，现在这个IEEE 1857的标准里面有各种各样面向不同应用的部分，我们叫profile或者叫group，它和别的标准不一样的，或者是有特色的地方，就是IEEE 1857对监控视频有特别的支持。

什么样特别的支持？是第一次把背景建模技术加到整个处理流程，加到环路里面，这是非常不容易的一件事，这张图可以看出，当你没有进行背景建模你的处理效率没那么高，随着你的建模越来越好，你的编码效率会越高。所以下面这条蓝色线，它实际整个效率，就是你的码率越高效率越高，比如说现在给你2兆的带宽，同样的质量的东西你会占的带宽为什么低，所以效率越来越高，这是一个非常好的想法。这件事，背景建模怎么做出来的？这是非常直观的一张图，当给你一个视频，你要看这个食品区编还是非常复杂的，通过一个映射变化另外一个空间上，你会发现横的几乎都是一样的，只是有人、有车动的地方稍微有点点变化，我们根据这个变化建出来一个背景模，用它来提高编码效率，如果从技术的角度来看，我们有一些对象，我可以把这个对象建模，把原来没有和有的做插分，最后就找到一个非常干净的背景，上面全都是一些非背景的东西，根据这些东西我就知道哪些新进来的，哪些是新的，通过就使编码的效率变成非常高，这也包括各种各样不同的天气条件、时间、雾天、雨天都可以进行相应的建模，模型通过参数的变化覆盖住，就是有很容易把对象检测出来了，检测出来我们后面的分析就会非常有帮助。而且模型可以不停的进行更新。这个标准昨天已经出版了。当然这个版本，一个版本完了，后面还有各个部门在按部就班的做，这个标准比现有的同类标准编码效率提高一倍。这是关于存不下。

找不快，到现在为止分析和编码是分开做的，分开来做因为是完全林个不同的体系，如果你从技术上来讲无可厚非，但是分开来做有一个最大的问题，在编码的时候不能分析，在分析的时候就不能编码，一般是先编码从采集端送回到局端以后进行分析，分析再把它解开进行分析，这样就把自己的宝贵时间丢掉了。这还是最重要的问题，你为了追求编码效率可能会损失到你的识别率，我们举一个例子：当然IEEE 1857可以很好的解决这个问题，比如说红框是感兴趣的，检测出来立刻在描述文本里面这个描述出来，在后面就可以启动，包括对象的检测、对象的跟踪、行为的分析、行为的跟踪，一个完整的环就可以流出来，而且可以包括GPS的信息都含进去。对象检测出来，人脸怎么办，实际上现在有技术可以把这个找得到。

具体的做法，左边有一个录像，有人在那儿走来走去，这一段视频里面到底哪一张人脸最好，我不知道现在是不知道，现在是计算机来干这件事，我们可以一个模型，模型里面有6个主要的参数，通过这6个参数就包括，我看它的分辨率、亮度、姿态、清晰度、噪声水平、灰度级，把这6个参数综合起来就可以找到一个最清晰的人脸图象。当然同样的想法可以检测车、检测人等等。

为了做这件事，今年要组织一个全国的研究生智慧城市比赛，现在正在组织，由教育部学位研究中心、智慧城市产业联盟、中国科协等等，秘书处现在设在北航，现在已经有一些具体方案。

作为结束语，大数据本身这件事，不管你是否同意它已经来的，而且在大数据图象和视频的数据量又特别大，在图象和视频里面怎么使存得下和找得快，这是两个非常大的技术挑战，我们应该在这两个技术挑战方面努力下一些功夫，使得大数据不要对它没有办法，能够有办法去处理它，把它作为智慧城市大数据的一个最好的应用场景来进行对待，也希望过几年这个会上有更好类似的成果展示给大家。谢谢!

高文：多媒体大数据的技术趋势与应用前景

热门标签