科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道虚拟化/云计算高文:大数据的技术趋势与应用前景

高文:大数据的技术趋势与应用前景

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

以“大数据大带宽推动云计算应用与创新”为主题的第五届中国云计算大会今天在国家会议中心召开。为期三天的大会(6月5日-6月7日)中有来自业界众多的云计算从业人员。会上,国家自然科学基金委员会副主任、中国工程院院士高文发表了以“”为主题的演讲。

来源:ZDNetserver频道 2013年6月5日

关键字: 云计算 大数据

  • 评论
  • 分享微博
  • 分享邮件

ZDNet至顶网服务器频道 06月05日 大会报道:  以“大数据大带宽推动云计算应用与创新”为主题的第五届中国云计算大会今天在国家会议中心召开。为期三天的大会(6月5日-6月7日)中有来自业界众多的云计算从业人员。会上,国家自然科学基金委员会副主任、中国工程院院士高文发表了以“大数据的技术趋势与应用前景”为主题的演讲,以下为演讲内容。

我的题目叫多媒体大数据技术趋势与应用前景。这是一个命题作文。但是可能我在这个命题作文下面做点私活,所以讲三个问题。

一个问题是重复一下,也许上午有人讲过,也许大家在其他资料上看过一些大趋势,希望通过这个趋势的描绘让大家对后面第二个问题能够有更直接的感觉。第二个问题讲一下多媒体大数据,而且讲多媒体大数据具体应用案例智慧城市。最后是结束语,叫展望也好。

首先第一个问题,关于多媒体大数据时代。这个多媒体大数据时代,我相信我们大家都身处其中,一个最典型的感觉大家应该知道现在整个不管我们叫云还是叫做大数据,总而言之数据量增加速度非常快。总现在开始到2020年估计整个在网上各种各样大数据到40Z,大概比现在增加50倍。这个数据的大首先一个表现就是数据非常丰富,你可以形容成泛滥,当然这个数据多了以后事物是两方面的,既有可能给我们带来很多好处,同时给我们处理带来很多麻烦具体包括比如零售行业,在科学计算行业,在生活方面都有各种各样的数据,当然在这里可能有一些数据影响会更大,量会更大。有一些数据可能影响不大,但是量会很大。这些对整个我们现在存储、处理这个平台带来很大挑战。实际上我们的生活我们的工作要被大数据所改变,就是说首先我们可以说这个数据产生方式现在已经被极大的改变了,以前数据的生产是由专业团体,专业人士或者专业公司完成的。现在慢慢变成数据产生更多的是个体行为,是个人。每个人可以使用他的采集的终端,不管是拍的照片,录的录像或者通过手机或者通过电脑产生大量数据。出局产生方式发生非常大变革。

同时数据传播途径也发生变革,以前获取这种信息来源,基本上是要不平面媒体看报纸,要不是这种我们所说的传播的媒体,电视、广播等等这些东西。但是现在基本上特别是年轻人,大部分信息来源通过互联网,互联网变成媒体传播的主要途径,这个改变对社会产生特别大改变。

大家知道马云说从大董事长下来那段录像非常短时间被看上百万次,这是非常了不起的事情。这件事情告诉我们今后我们做任何事情要想着,信息或者整个舆论传播的主要途径相当于通过互联网媒体。社交也在参与变革,以前大家交朋友更多是你生活的圈子,比如同学、邻居、亲戚,现在更多的是通过互联网虚拟环境,所以大家社交环境产生了变化。还有很大变化,大家存储习惯发生了变化,以前希望自己保存一份拷贝,不管照片,不管文件都是希望一定存在自己的电脑里,或者要刻到自己的软盘上,放到书架上。现在这种观念改变了,除非你是搞一些保密工作,或者年纪大的习惯了另说,大部分人把自己的东西放网上,这个习惯这发生非常大变化。

还一个变化是我们现在可能正在改变我们生活的变化,社会安保系统在变化。这个变革当然现在没有真正实现,实现以后对我们的生活会有非常大的变化。这个也是我后面会花更多时间谈的问题。我们现在整个的社会安保实际上是整个社会城市里面已经有很多的这样的传感器,摄像头等等。通过他们可以使社会更安定,或者发生案件快速破案,这个系统对于现在整个安保系统带来非常大冲击。比如说我们经常会举例子的包括原来周克华案的破案是监控系统的贡献,这个贡献靠人解决问题,当时为了找到他的清晰的正面照片或者发现他的一些个人特点,曾经有两千多警察,花上月的时间反复看录像找照片,供破案或逃用。有不成功案例,比如今年春天3月份在长春有人偷了一个轿车,里面一个小孩,最后把小孩杀掉,这个是作案人自己投案才找到这个车,这是反面案例。

另外一个案例可能大家知道,今年前段时间波斯顿马拉松爆炸案,在比较短时间破案了,这个破案其实也是美国的警察集中很多警察,把整个能拿到的录像资料反复看,差不多每段视频看了400遍以上,最后找到比较清晰照片作为破案,帮助追逃。这些变化已经在告诉我们,大数据时代已经来了。当然这个大数据里面,我们需要知道什么东西的量最大,这个曲线大家能看到,我们2012年当中图像和视频数据占80%多,今年图像和视频数据在大数据的比例已经是接近90%,这样的比例在真正这些大数据里面,你的核心挑战到底是什么。数据大了怎么处理怎么挖掘里面的一些有价值的规律,这个当然是我们首先要做的。

多媒体大数据特别和图像视频有关的大数据,传输处理应用是比较大挑战,有两个是最难的问题。一个问题是有效存储,第二是智能处理,为什么有效存储这个问题很难?实际上我们现在按的摄像头拍下来的东西不会永远保存,有的可能存3个月,有个可能存1个月,有的可能存1个星期被覆盖掉这个数据永远丢失。为什么这样?存不起,不能永远保存,保存下去费用太高。怎么样有效保存很大难题。另外是怎么样处理,大家都以为这个问题很简单,现在各种各样的智能信息处理系统,图像分析系统,那是做研究或者演示,真正城市安保大规模的系统比较少。为什么会这样?这里有很大技术挑战问题。

第二个问题跟大家分享一下关于智慧城市,智慧城市里是多媒体数据有非常大挑战。到底是什么挑战?因为智慧城市本身这个概念是非常好的概念,所谓智慧城市也是一种生态系统,这个系统里面为了达到比如说这个城市平安、健康、适应居住,然后交通方便等等,所以你需要去构建一个完整的信息系统,这个信息系统实际是由包括视频传感,物联网系统和网络和整个决策系统构造成一个完整系统,这个系统叫智慧城市。这个系统里有很多子系统,包括有可视化的治安防控子系统,有应急联动子系统,有数字化的城市管理系统等等。比如治安系统可以通过各种卡口,电子警察一些监控一些技术防范等等这样的子系统实现治安防控。对于应急联动实际是对一些自然灾害公共事件,一些事故和一些社会安全事件,能够发现以后启动一些应急联动的这样一些功能。像城市管理比如汽车定位,另外一些地理信息,一些身份验证,物品识别,数字通信等等,把系统联在一起是完整的智慧城市系统。监控非常关键,这个监控不是简单的只是视频摄像头一个东西,实际里面包括各种各样的传感器。视频是比较主要的传感器,还有其它的传感器。这些传感器在城市各个街道角落,他获取的这些信息,包括图像视频这些信息,是通过一个网络把这些信息能够进行传输,当然这些传输这个网络是分各种各样的我们说是一个一组一组的,有和居住有关的,有和办公有关的,有和交通有关的。

这样一些群体数据通过这个网络,实际会构造一个所谓的感知网,如果你以摄像头为主会变成视觉感知网,这个网获得的信息会被送到智能信息分析中心这样的一个中心区,最后对整个智慧城市进行决策。这个决策里面实际上有两个非常大难题,一个难题就是存不下,刚才说了,数据最多存3个月,有的一个月一个星期然后覆盖掉,第二是找不快,就是发生一件事,找的非常慢。

我们首先看存不下,存不下的问题是因为现在数据源源不断产生,源源不断往系统里灌,系统存储,除非很有钱不停增加存储设备可以,但是现在没有哪个人不停增加存储设备,一个预算完了存一段时间算了,或者把有用东西拿出来放在别的系统里。这里大家容易想到如果有一个非常好的高效的存储的技术,或者把原来图像和视频有效编码压缩很有用,可以节省存储空间,成本原来比如存3个月,压缩效率提高存6个月,或者把原来系统开销减一半。这件事情要做在技术领域已经做了30多年,大概从90年代初有人提出来,开始不是为了视频监控做的,开始为了广播电视,数字电视做的。开始做比如说第一代编码标准,大家可能知道MPAK1和2,早先家里用的DVD用的这样的标准,这个标准实际是做的一段时间以后,大家觉得压缩能力不够,开始做第二代。觉得还不够再第三代。现在大量系统中大量使用的H.264,现在在做第三代的,效率多高?第一代的编码标准能够把原来视频数据压缩到1/75,或者是第二代比第一代效率增加一倍,把原来视频压缩到1/150,现在正在做的第三代大概能把数据压缩到1/300,大概这样的一个,视频压缩完以后存在那里。如果有办法找到很好的编码压缩技术,就可以提高编码的效率。

为什么能够有什么150比1,甚至将来有600比1的压缩能力?因为我们拍视频时候里面很多冗余,只要有好的算法把这个冗余去掉,冗余里面有各种各样的,同样东西被拍很多遍,如果每桢重新表达浪费,有没有办法表达这些一样的拷过来就可以这是时间冗余,还有空间冗余,平缓东西告诉你,旁边的和原来的一样,这是空间冗余。还一种编码冗余,从理论可以分析出来。我们现在算法离真正的理论上限差很远,现在有成千上万的工程师和科学家找这种高效编码算法,希望一点点改进。我们还有很多空间。

我们不是所有人做这个行业的,笼统说采用包括运动预测等等这样的一些技术使得编码效率一点点提高。这是所谓的变换,这是所谓的预测,这是商编码进行编码工作。这个工作全世界几个比较大群体做,其中一个群体在中国。中国这个群体组织做的叫AVS,是2002年开始做。AVS用类似框架,在大思路是大同小异。为什么中国做这件事?除了提高效率问题以外,当时也有另外一些原因,包括专利,知识产权等等原因,为了让中国自己的企业或者说中国的企业在向海外发展的时候不受欺负,中国要有这样的东西。这个东西更多从纯粹技术效率等等角度考虑问题。

中国做一段时间以后,中国做的专家组,在中国做不见得是中国人,AVS很多是国外的,几乎国际上比较知名的企业都派代表加入AVS工作团组。这个团组最近做出一个东西,IEEE,这是1857,这是面向互联网的数字音视频编解码工作群体,这个群体在2012年2月份正式成立起来,经过完整的流程。第一个视频编码的标准刚刚,就是在昨天刚刚已经被印刷了,今年3月份被批准,经过3个月的准备时间,昨天刚刚印刷完成。

这个1857实际整个处理流程是先申请,然后也是编制整个标准的文本,从去年的2月份成立以后,4月份第一次会议,大概开了到今年3月15号7次会议文本完成了。这个文本里实际是整个编辑技术了非常漫长过程,因为要做一个标准,其实除了技术要可行以外,处理流程上要按部就班,每次往返很多次,一个文本提交人家找毛病反给你,修改再提交,要很多次。这个标准里有各种各样面向应用的不同部分,我们叫做profile,在1857里也叫group。

这里最重要的一个和别的标准不一样的或者比较有特色的地方,1857对监控视频有特别的支持。实际是第一次把背景建模技术加到整个处理的流程里面,加到环路里面,这是非常不容易的。这个图上看出来,当没有建设背景建模时候,可能处理效率没有这么高,随着建模越来越好,编码效率越来越高。下面这条蓝色线是实际整个效率。我们所谓效力就是码率,红线是如果不进行背景建模的话,我给2兆带宽不建模型还是2兆,如果建模可以降到1兆,同样的东西会占的带宽越来越低,效率越来越高。这是非常好的想法。这件事背景建模怎么做出来的?这是非常直观图,给你一个视频,看这个视频要编非常复杂,人走来走去。我们通过一个映射变到另外的上面,横的一样,只是有人在动有车在动的地方有点变化,我们建出背景模,用它指导编码提高效率。

具体做法,如果从技术角度说,实际上当有一些对象的话,我可以把对象建模,把原来没有的和有的东西做差分,最后我找到非常干净的背景,上面全是一些非背景东西,叫前景。我知道哪些东西新进来的,哪些是原来的。通过这个很容易使编码效率高。有的摄像头要转转摇头,或者是可以远近拉深,有技术支持。这个包括各种不同天气条件、时间、雾天雨天等等,可以相应的模型通过参数变化覆盖,这样很容易把一些对象监测出来,检测出来对象对后面进行的分析非常有帮助。而且模型可以不停的进行更新,这个标准昨天已经出版了,这个标准一个版本完了,后面其有非常完整的,不但有视频,还包括音频等等。这个标准效率基本比现有同类标准编码效率提高一倍。这是关于存不下。

找不快主要原因到现在为止分析和编码是分开做的,分开来做因为这是完全两个不同体系,从技术上无可厚非,分开一个最大问题,编码时不能分析,分析时不能编码,一般先编码,从采集端送回来,到局端分析,解开分析,一个反复,实际把宝贵时间丢掉了。这不是最重要的,最重要的问题为了追求编码效率,可能会损失识别率,如果要想保持识别率,编码很难高效率,这个曲线给出关系。编码效率高,识别率低,这个先编码后识别可能把对象丢掉。

我们举例子,1857可以解决这个问题。在一个图像里比如红框感兴趣,我检测出来,立刻可以在描述文本里描述出来,这个区域可以启动包括对象检测跟踪,行为分析行为跟踪等等,完全的环流起来,可以把GPS信息含进去。这里很重要的,我们前面说把对象检测出来人脸怎么办?人脸靠人点点找出来的。我们可以靠技术找到。比如左边这个录像,有人走来走去,这段视频里这个人哪个脸更好我不知道,现在靠人找,我们希望计算机干这个事。我们建立模型,模型里6个主要参数,我们可以一点点建出来。包括看分辨率,看亮度等等,6个参数综合起来找出一个最清晰人脸图像。同样想法可以检测人、车等等。我们今年组织全国研究生智慧城市比赛,现在正在组织,由教育部学术研究中心,智慧城市产业联盟,中国科协等等,现在有一些具体方案,大概很快报名,有一些比赛。以后每年有比赛。

所以作为结束语,大数据本身这件事不管同意不同意已经来了。图像视频里怎么样存的下找得快是非常大技术挑战,我们应该在这方面努力下功夫,使大数据不要对它没有办法,有办法处理它,把他作为智慧城市里大数据最好应用场景对待。希望过几年会上有更好成果展示给大家,谢谢。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章