2018年7月10日-11日,2018中国大数据应用大会在成都召开,大会以"大数据赋能数字中国"为主题。由成都市人民政府指导,中国大数据专家委员会、中国电子信息产业集团有限公司中国电子学会、四川省经济和信息化委员会主办,世界工程组织联合会工程技术创新委员会(WFEO-CEIT)、成都市经济和信息化委员会、成都市博览局全力支持,中国电子器材有限公司、中国电子学会科技交流中心承办,业内知名媒体至顶网与科技行者协办。
会上,曙光大数据总工程师郭庆接受采访表示,目前企业在大数据应用方面面临四大挑战,需要把握四大方向。同时,曙光XDATA凭借“融智快易”四大特点帮助企业解决大数据落地难题,曙光的ABCDE大数据布局也就此拉开。
以下为采访实录:
主持人:大家好,这里是2018中国大数据应用大会的现场,今天我们请到的嘉宾是曙光大数据总工程师郭庆先生接受我们的视频采访,郭总欢迎你的到来。
郭庆:大家好。
主持人:郭总,我们知道现在大数据战略是企业数字化转型的重要方式,曙光目前对于客户大数据应用的观察是什么?
郭庆:其实大家知道随着大数据技术的蓬勃发展,我们已经从IT时代进入了DT时代,而且随着近几年大数据应用的逐步落地,现在大数据的整个发展阶段已经从以前我们讲数据和计算落地阶段,进入到应用落地阶段。
在应用落地的过程当中,企业在大数据应用方面会有四个方向。第一个方向是数据融合,我们看到很多用户,包括政府会打破原有的数据壁垒,对各种多元的数据进行汇集,然后在海量数据里面分析相应的数据价值,提升业务效率。
第二个方向,我们看到有大量的传统业务系统利用大数据技术进行性能优化的提升。我举个例子,比如说原先的气象预报,用传统技术我们可能可以做到3公里的预报精度,现在我们用一些新兴的大数据计算技术,可以将精度提高到一公里。
第三个方向,化烦为简。因为原先数据是分散在各个业务系统中,我们在处理业务流程中可能需要很多的步骤去操作。大家感受比较深的是,以前去政府办一些证件原来要跑很多部门。现在对政务数据进行融合之后,我们可能最多跑一次路。政府现在的提法是“让数据多跑路,让群众少跑路”,这就是一个化烦为简的非常典型的应用。
第四个方向,数据的融合和创新带来一些模式上的创新。我们可能也能深刻感受到,比如说现在在互联网上,我们进行电子购物,网上的系统会给用户打上一些标签,然后会给你快速推荐一些你感兴趣的东西。这一方面方便用户去购买一些自己喜欢的东西,另一方面也能提升企业销售的量,带来一种经济效益的提升。
我想这四个方向可能是我们目前看到很多企业用户在大数据应用逐级落地的一些具体方向。
主持人:您刚刚也谈到了很多大数据应用的具体案例,您觉得在这个过程当中主要的瓶颈在哪,曙光是如何帮助客户去破解呢?
郭庆:大数据这个话题不单纯是一个技术话题。我们业界很多专家也在提,在建设大数据过程中,需要有既懂大数据技术,又有懂业务系统,又能进行这种整体的设计和规划的人才。我们在和很多客户进行大数据项目落地的过程中也发现客户可能有四个方向比较大的瓶颈。
第一个就是数据壁垒。我们说大数据最核心、最根基的是数据,没有数据一切都是空谈。现在一方面传统的信息系统里面还有大量的信息孤岛,同时分散在不同信息系统里面,这些数据的格式、质量、标准都不统一,所以在这个过程中我们用户往往一方面需要把这些数据采集过来,另一方面需要按照统一的格式标准进行数据质量的转换。
曙光在这个过程中帮助用户做了很多工作,一方面我们具有非常成熟的从数据采集到清洗,数据标准的一些工具,通过这些工具能够快速提升用户在这个过程中的工作效率。另一方面,我们在近几年很多实际落地的项目当中,也和一线用户和领域专家积累了各行各业的一些数据标准。有了这些标准的积累,能快速帮助用户结合应用形成它自己的数据标准,基于这个标准来帮助用户完善和优化大数据质量,这是第一个瓶颈。
第二个瓶颈,大数据性能挑战。因为传统技术在面向海量数据,PB级甚至EB级这样数据处理的时候,它的性能会有一定的瓶颈。这几年这种情况得到了很大的改观,国内也好,国外也好,有大量的IT厂商在解决这些问题。曙光在底层从存储到高性能计算,到分析挖掘,具有完整的平台产品线,可以很好为用户提供这些计算分析的工具。
第三个,大数据应用落地难。单纯的技术人员不懂业务,业务人员不懂技术,这个时候很多用户很苦恼,甚至我有数据,我有需求但是不知道怎么实现。曙光目前有一支专业大数据方案设计的咨询团队,他们都是各个行业的具有一二十年的领域专家,既懂技术又懂业务。在实际项目落地过程中,这些咨询顾问会和用户一起去分析它现有系统的瓶颈、需求痛点,然后给出有针对性、时效性的解决方案,帮助用户落地应用,这也是咨询团队的支撑服务。
第四个,人才的缺失。从大数据产业链来说,无论用户方大数据业务人员,到我们一起开发大数据的人才,目前是一个比较紧缺的状况。曙光在这个方向也做了很好的布局,第一我们面向企业的CIO和技术人员,将原先我们内部的曙光大学进行开放。针对企业员工的技术培训,通过企业CIO培训班提升企业人员大数据方面的水平和认知。
另一方面我们也在与国内很多高校合作帮助学校开设一些大数据的一线开发课程,我们从前年开始和教育部联合办了这样一个曙光大数据的百校工程,就是帮助全国百所高校我们去开设这样一个大数据的课程,培养一线的大数据技术人才。
我想这四个瓶颈是我们目前看到的一些用户遇到的问题,曙光在这四个方面也都做了全面的布局和支撑。
主持人:听起来是一个非常全面的大数据应用布局。我想问一下曙光在大数据硬件有一个叫XDATA的产品,能不能跟我们分享一下这个智能引擎的闪光点?
郭庆:好的,大家知道曙光是一个以技术驱动的公司,在大数据的布局可以追溯到2004年、2005年,那时候还不叫大数据时候,叫海量数据处理,我们就已经在国家的一些重大工程里面去解决数据处理问题。所以经过这十几年发展,我们也和中科院的一些院所一起合作,在曙光我们有一个叫XDATE的大数据平台产品,它立足于解决大数据核心处理的技术问题。当然很多业界专家也知道,大数据在开源技术方面蓬勃发展,我们这个产品相对于市场上的友商产品、开源技术项目,有几个比较核心的技术优势,简单来说四个字,叫融智快易。
第一是融合,融合是什么概念呢?大家知道我们在实际的大数据项目建设当中,会有结构化数据,也有非结构化数据。面向很多科研机构,它具有高性能计算里面的数据分析需求,也有大数据分析需求,我们在产品层面上就解决了这些不同异构的需求的统一处理,既支持结构化的存储,也支持非结构化存储。我们既支持传统高性能计算对数据的存取接口,也支持大数据的存储接口,这样就避免为了解决不同问题要重复建设存储系统。
大数据也好,人工智能也好,高性能计算也好,很多时候我们是数据和计算紧密结合的,不同的计算模式都在里面。曙光在国家的原型机系统里面已经实现了高性能计算、大数据,包括容器和人工智能,这种不同异构模式统一调度,这样就实现了一套集群可以支持不同的计算模式。所以融合方面大家可以看到,曙光采用非常底层的技术解决用户不同模式和场景下处理需求,这也是比较具有核心竞争力的亮点。
第二块叫智能。这几年人工智能的概念越来越火,我们一方面融合了很多人工智能的算法、模型,另一方面我们在这几年的大数据应用建设过程中,也积累了很多跟行业应用紧密结合的贴近用户和接地气的一些模型算法,所以我们把这些模型算法下沉到产品里面,叫应用引擎的这个模块。通过这个引擎和应用紧密结合的一些模块,能快速去适配大数据应用落地的过程。同时,人工智能技术发展得很快,在数据和智能融合处理这一块,我们也有AI的平台去解决大规模数据的训练、推理,以及推理之后海量数据的分析,这一块我们其实做了很多智能方面的工作。
第三块叫快。大数据最大的痛点是数据量大的时候怎么提高速度。曙光在性能这一块也本着我们原先对计算的永无止境的需求,我们在性能方面提供了完整的整体优化和提升的技术手段。一方面从底层硬件这一块,因为我们是硬件起家,所以可以针对不同大数据的计算场景模式,比如说有的是IO密集型的,有的是存储密集型或者计算密集型的,我们配备不同的硬件板卡和设备。二是针对大数据处理我们在硬件和操作系统结合里面,硬件的驱动,操作依赖的库等非常底层的方面,我们也做了深度优化。再往上一层是很多大数据软件厂商和我们一起去做的很多工作,比如说基于大数据平台的分布式架构,现在比较流行的流式计算等等。我们做了大量的基于自研核心技术的优化。这里面我们实际上也承担了像科技部863计划里面的重大研发课题,通过这种国家课题的前沿技术研究,研究的成果下沉到产品里面,这使得我们在很多用户实际场景的POC测试当中,比它原有的系统能提升到1000倍,差一点的可能也有十倍二十倍,这是我们在性能方面非常强的优势。
另外,从硬件到软件,曙光还能够基于一些特定场景,实现软硬一体整合,比如说在国家网络安全相关的网络流量处理中,针对网络这种数百计的网络流量,我们定制专用的网络板卡,以及专有的基于这种流量数据的加载查询检索的整体系统,这个实际上在很多国家的一些安全大规模安全系统里面都得到了很好的应用,这也是我们性能方面的一个很好的体现。
第四个我们讲应用,因为大数据是一个非常复杂的系统,需要和应用结合,曙光实际上我们有多年的超算中心,大规模集群的经验,实际上我们在做大数据过程中也很好把以前这种大规模系统如何使用和运维,如何和上层厂商对接的一些经验,呈现在产品里面,呈现在我们使用的流程里面,使得很多用户能够很快利用我们的产品和技术快速去搭建它的应用系统。
这就是XDATA大数据产品在“融智快易”四个方向的特点,这也是核心技术的积累和竞争力。
主持人:其实就像你刚才说的大数据目前是一个非常热的话题,人工智能也是一个特别热的话题,有人说人工智能的发展是离不开大数据的,曙光是如何看待人工智能和大数据之间的关系?
郭庆:现在大数据和人工智能这两个概念都是比较火热的,尤其近两年人工智能的概念兴起,以及很多应用的落地,应该说我们能够看到很多这两个紧密结合,在我看来它两个可能是紧密结合相互支撑的关系。我们知道人工智能一个很典型的场景是利用深度学习的技术,在前期需要基于海量数据去做训练,训练形成模型之后去做推理,在训练过程中这本身就是一个大数据量的问题。如何对这些训练的数据进行有效存储,有效组织,有效标注,能够为这个训练过程合理有序提供这些数据。
二是我们在有了模型推理之后又会产生大量数据,一个比较典型的例子,就是现在人工智能在视频处理的应用,通过人工智能的技术从很多的视频流里面,提取人脸,提取车牌,提取各种物品,提取人的各种属性,做得很细这些属性可能推理之后就是结构化之后的数据量,可能比视频的原数据量还大,这些数据我如何很好存起来,如何结合我的业务模型从海量数据里面去分析挖掘另外的这种价值。比如现在在公安里面通过人脸识别,通过车的识别之后,再和公安的警务里面海量数据进行关联,分析人的轨迹,这种关联关系实际上又是大数据的应用,所以我们讲大数据和人工智能在落地过程中它俩是紧密结合的。
曙光在这两个方向是整合的,我们去年在青岛发布了曙光的数据中国智能计划,经过这半年到一年的发展我们也形成了一个完整的体系,我们简称叫ABCDE。
A是算法,不管是XDATA产品,还是我们的智能产品,都集成和内嵌了很多常用的算法。B就是Big Date,智能处理里面本身就有很多大数据的技术。C叫Compute计算,因为人工智能本身对计算要求很高。我们在计算上曙光有高性能集群,基于GPU的设备支撑这种计算。D,我们讲领域或者行业应用,不管是大数据,还是人工智能,我们最终还是要落地到行业应用里面去帮助用户实现价值。实际我们在这么多年的发展当中,我们和很多的合作厂商,像科大迅飞、海康威视、大华等一系列领域的厂商,都建立了很好的合作关系,跟它们一起去挖掘这些行业里面的应用。
最后E就是生态系统,曙光借助于布局在全国的城市运营计算中心,我们今年也得到了国家发改委专项支持,建立一个公共服务平台,为大量的中小企业提供人工智能的计算服务,构建完整的产业生态链,帮助人工智能和大数据产业更健康发展。围绕ABCDE,曙光也会联合很多合作伙伴一起把人工智能和大数据落地到实处。
主持人:好,今天我们非常感谢郭总精彩分享,让我们看到曙光在人工智能和大数据的战略,这是非常全面的布局,我们也很期待曙光在大数据方面的最新布局,让我们拭目以待。
郭庆:谢谢大家。
好文章,需要你的鼓励
AMD CIO的职能角色早已超越典型的CIO职务,他积极支持内部产品开发,一切交付其他部门的方案都要先经过他的体验和评判。
医学生在选择专业时,应当考虑到AI将如何改变医生的岗位形态(以及获得的薪酬待遇)。再结合专业培训所对应的大量时间投入和跨专业的高门槛,这一点就更显得至关重要。
我们拥有大量数据,有很多事情要做,然后出现了一种有趣的技术——生成式AI,给他们所有人带来的影响。这种影响是巨大的,我们在这个领域正在做着惊人的工作。