至顶网服务器频道 07月27日 新闻消息(文/李祥敬):在万物智能互联时代,数以亿计的智能互联设备及其产生的数据洪流带来了产业的数字化变革。
在汹涌而来的数字洪流中,英特尔不仅针对包括计算、存储、网络在内的硬件基础设施进行持续创新,也通过开源基于Apache Spark的BigDL深度学习框架等多项举措,持续聚焦数据的创新应用,并与生态系统合作伙伴及开源社区一道,加速数据分析与机器学习的普及和应用。
近日,英特尔公司软件与服务事业部副总裁兼系统技术和优化部门总经理Michael Greene及英特尔大数据首席架构师兼高级首席工程师戴金权接受了至顶网记者的采访,畅谈了英特尔开源BigDL背后的原动力。
英特尔公司软件与服务事业部副总裁兼系统技术和优化部门总经理Michael Greene
Michael表示,英特尔一直以客户需求为方向,并为他们带来能够切实的解决方案。对我们来说,客户的需求永远是第一位的。
“人工智能和机器学习不仅是目前行业的趋势,也是绝大多数客户需求的技术方向。BigDL的初衷就是希望能够让客户用更简单和高效的方式运用他们的大数据做更好的分析的解决方案。”Michael说。
英特尔大数据首席架构师兼高级首席工程师戴金权
戴金权补充说,英特尔在大数据分析、深度学习等开源软件方面做的工作,就是推动AI技术的民主化,让更多人以更方便的方式使用到AI技术。
的确,人工智能正在改变各行各业。戴金权表示,在英特尔我们专注做的一件事情,就是使人工智能计算进入民主化时代,让各行各业更方便地使用人工智能技术。
所谓AI民主化就是人工智能技术能够更方便、更广泛地让大家使用。虽然深度学习社区几乎每周都会有新的技术突破,但是真正在生产环境中应用人工智能技术还是有待提升。
“BigDL要做的就是让深度学习被各行各业的工程师、数据科学家,甚至分析师更方便地使用。这样才能让深度学习在各行各业中得到非常广泛的应用,推动技术变革。”戴金权说。
同时,英特尔在人工智能技术方面的布局也是非常全面的,从硬件到软件再到上层体验,包括从数据中心端再到设备端,英特尔有一个非常完整、一致的体验和技术。
在软件方面,英特尔提供了MKL(英特尔数学核心函数库),可以说这是英特尔平台上最快的数学运算的高性能计算库,而上层是各种深度学习、机器学习的框架。一方面,英特尔在大量现有的深度学习的框架下,例如TensorFlow、Caffe、Torch等方面都做了大量优化工作;另一方面,英特尔和最主流的大数据处理分析框架Spark相结合,开发并开源BigDL这样的深度学习库,再到上面就有更高级别的SDK,各种各样的解决方案等等。
英特尔为什么要推出BigDL?
在大数据分析软件方面,除了我们熟知的Hadoop,还有Spark。目前,Spark已经成为业内进行大数据处理分析的主流计算框架,里面包含非常多的提供各种各样丰富功能的组件,从SQL查询、流式处理、机器学习、图像计算等等。
BigDL是英特尔在Spark上构建的一个面向Apache Spark的开源、分布式的深度学习框架。“我们希望做的事情,就是能够将深度学习和大数据平台相结合,提供一个统一的大数据分析平台。我们的目标是使深度学习更方便使用,更易于一般的大数据用户和数据科学家使用。”戴金权说。
为什么要做这样的事情?戴金权解释说,这其实是由几个比较重要的业界趋势或者技术趋势导致的。
第一,数据规模的扩展推动了深度学习的发展。深度学习之所以今天这么有效,其中一个非常重要的原因是由于今天我们所能够访问到的数据不断增加,以及我们能够在数据上进行高效分析、处理。而深度学习就是不停地对大量的数据进行处理和分析。
第二,Hadoop成为“数据重力中心”。经过这么多年的发展,以Apache Hadoop平台为代表的开源生态系统已经成为大数据平台存储、处理和分析的事实标准。
随着Hadoop和Spark平台和集群建立起来之后,所有的数据慢慢都会集中到这个平台上。这样任何数据分析的框架或者技术,包括深度学习的框架技术都能够很好地在Apache Hadoop为代表的大数据平台上运行和集成。
第三,今天大量的大数据分析,不论是流式分析、图分析、SQL,其实都是基于分析流水线来构建。为了支持人工智能或者深度学习的应用,需要加入新的机器学习或者深度学习的能力。但是从某种意义上来说,机器学习、深度学习的算法必须能够在一个端到端的复杂流水线上,和其他的组件非常好地工作在一起,这也是构建工业级深度学习应用的要求。
“BigDL的推出就是迎合了这些需求,使深度学习更方便地被大数据和数据科学家这样的社区用户来使用。”戴金权说。
戴金权表示,虽然现在有非常多的深度学习框架,大家也可以看到来自于深度学习社区各种各样的突破。但是怎样能够使深度学习更方便、更普遍地被一般用户、大数据用户和普通的数学科学家所使用,这是BigDL想要解决的一个问题。
具体来说,BigDL是Spark上一个标准的深度学习库,用户可以像编写标准的大数据Spark程序一样开发深度学习应用。它可以直接在现有的Hadoop和Spark的集群上运行,不需要对集群做任何修改,用户可以直接重新使用现有的软硬件架构,而不需要设置特殊的软件或者硬件。
另外,BigDL能够无缝地和Spark(同时它本身是一个Spark程序)结合,所以可以直接在企业工作流里面处理数据。
从BigDL本身来说,它具备和主流的深度学习框架Caffe、Torch、TensorFlow等等相同的功能,它也特别为大数据平台或者大数据的集群、Hadoop集群、Spark集群进行了优化。
“和其他深度学习框架不一样的一个地方,BigDL是专门针对大规模、分布式的大数据运行环境所优化。一方面,在单点上利用英特尔的MKL库,多线程编程等等,BigDL可以得到非常高的性能。同时又充分利用了Spark架构,可以很方便在集群上进行横向扩展。”戴金权说。
此外,BigDL本身是运行在Spark上的一个深度学习框架,能够和主流的大数据架构和云平台进行完美匹配。比如BigDL可以在Cloudera的Data Science Workbench、AWS、微软Azure、阿里云等平台上运行。
戴金权还透露,新版本的BigDL即将推出。如果说现有BigDL聚焦在易用性、可扩展性等方面,新版本BigDL将提供更加丰富、更加易用的分布式深度学习的支持,包括对一些功能性的API支持,例如支持对TensorFlow模型的导入以及TensorFlow模型定义的支持。
还有就是新版本BigDL增强了和Spark ML的整合,可以和原生的Spark ML Pipelines进行整合。
目前BigDL已经被众多用户使用,这些用户分布在金融、工业制造、医疗健康等领域,例如中国银联使用BigDL构建了一个端到端的欺诈交易检测应用。
Michael说,如今各行各业的企业正在转型成为一个数据驱动的公司,这一个趋势不管是在中国还是在全球范围内都是相当一致的。BigDL的推出加速了这些公司转化为数据驱动公司。现在整个世界的连接度是非常高的,中国公司的BigDL应用和实践也是可以供全球市场借鉴。
其实从BigDL我们也看到了英特尔在开源方面的不遗余力。在大数据方面,从Hadoop到Spark、HBase等等,英特尔已经有非常大的投入,同时,英特尔在Linux、虚拟化等方面也做了非常大量的工作。“英特尔通过开源社区、开源软件将整个生态圈打造好,使整个产业快速发展,让产业里所有人受益。”戴金权最后总结说,“BigDL也是这样,通过聚焦开源项目,让更多的人使用BigDL,推动深度学习在人工智能领域的更广泛应用,使得整个产业得到更好的发展。”
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。