企业级云服务商青云QingCloud日前宣布SparkMR on QingCloud服务正式登陆AppCenter。SparkMR on QingCloud集成了Spark与Hadoop MapReduce双计算引擎,提供统一的HDFS数据存储引擎及YARN调度系统,为用户提供灵活、高效、可多模式切换的全新云端大数据处理平台。
青云QingCloud全新双引擎大数据服务SparkMR正式上线
大数据时代,数据资源是企业的无形资产,也是核心竞争力之一。如何低成本、高效率地进行数据统一管理和分析,获得商业决策支持成为摆在企业面前的一道难题。大数据平台正是为了企业的这种需求应运而生并持续发展创新。青云QingCloud于2015年8月推出了基于Spark的大数据集群服务,同年12月,推出Hadoop集群服务作为大数据基础平台的有力补充,以此来满足企业在大数据领域的不同需求。
但由于Spark与Hadoop作为两个独立的服务,用户同时使用这两种处理引擎时,需要部署两套HDFS,相同的数据需要加载并存放两份,无论是成本还是效率都不是最好的选择。从数据统一管理角度出发,青云QingCloud推出SparkMR on QingCloud,通过QingCloud AppCenter以云应用的方式交付用户使用,对原有大数据平台的Spark与Hadoop服务进行了全方位的整合与升级。
目前,SparkMR支持Apache Hadoop 2.7.3与Apache Spark 2.2.0。Spark和Hadoop两者结合后,成本显著降低。同时,相对原大数据平台提供更丰富、更灵活的可选配置,用户可以分角色定制节点配置(CPU 2~16核可选,内存2~64GB可选)。SparkMR on QingCloud作为支撑全新双引擎大数据平台的重要组件,具有多重亮点:
灵活的计算模式:SparkMR在底层提供统一的HDFS作为数据存储引擎,在上层提供Spark与MapReduce两种计算引擎,并提供YARN作为调度系统。用户可以轻松实现三种不同的计算模式,即Spark Standalone、Spark on YARN和MapReduce on YARN三者之间的切换。
强大的计算能力: SparkMR为了方便用户开发Spark应用,除了支持Java和Scala开发之外,还提供了Python与R两种语言的运行环境。其中为Python用户提供了Anaconda发行版的Python 2和Python 3,并支持在这两种Python版本间进行切换。同时,分别为这两个Python版本预置了多个Anaconda发行版的数据科学包,为数据科学和机器学习/深度学习等 AI 开发场景提供了强大的计算能力支撑。
便捷的集成能力:SparkMR支持指定依赖服务的功能,即通过AppCenter 2.0 框架内原生的应用感知机制,实现与其他大数据分析组件之间自动化的无缝集成。SparkMR与QingStor对象存储平台也进行了预置集成,用户可以通过简单的配置即可开启对QingStor对象存储的支持,以应对海量大规模数据的存储问题。
良好的调度策略: SparkMR提供Spark与YARN的自定义调度器的功能,用户可以根据自己实际的需求,自定义集群内资源调度策略,赋予用户在多租户使用场景下更为精细化的管理能力。
简易的服务定制:SparkMR通过控制台提供近60个配置参数,用户通过控制台的UI操作即可完成集群部署及服务的个性化定制。比如用户可以通过 UI 即可完成设置 Hadoop 代理用户的功能。SparkMR的Client(客户端)节点也实现了完全的自动化配置,用户无需再单独创建并手动配置BigData Client或者Spark Client。这意味着用户在控制台完成配置及服务定制后,在部署完成时,已经可以开始执行计算任务,真正实现了一键部署、即刻使用。
完善的服务监控:SparkMR提供了完善的服务级别分角色的监控能力,用户不仅可以看到常规资源层监控,还可以通过可视化的方式清晰了解整体服务的运行情况。同时基于服务监控,还提供了监控告警、健康检查和服务自动恢复等功能。
青云QingCloud CTO甘泉表示,SparkMR on QingCloud的推出标志着青云QingCloud大数据平台向AppCenter的迁移升级完成了重要一步。AppCenter将助力用户以应用的视角进行大数据日常管理工作,并通过自身的服务感应机制,让组件间的对接不断趋于自动化,实现动态调整。未来,QingCloud将陆续推出可视化、服务编排等更贴合企业需求的大数据服务。在深度学习领域,QingCloud也将持续深耕、不断创新,让智能化与云计算深度结合,为企业的商业决策提供有力支撑。
好文章,需要你的鼓励
Dell’Oro Group的一份新报告显示,在对AI-ready硬件需求的推动下,数据中心在2024年第二季度的资本支出增长了接近50%。
英特尔和谷歌云宣布在多个服务区域全面推出基于第4代英特尔至强处理器的新型机密计算实例。
自2022年底生成式AI革命爆发以来,服务器支出也存在类似的态势。一旦企业发现自己必须投资购置或者租用搭载GPU加速器的设备,往往会选择扩展现有服务器机群,被用于投资新设备的支出则自然随之下降。英特尔正在加大对其“Sapphire Rapids”至强SP的投入,AMD在其“Genoa”Epyc 9004处理器上也采取了同样的做法。
生成式人工智能在企业中的一个突出用例就是客户服务和支持。大多数读者可能都曾作为客户经历过与传统自动客服系统打交道的沮丧。但这种情况正在发生变化,这要归功于时下强大的大型语言模型和自然语言聊天机器人。虽然有报告显示,我们在处理复杂或敏感的咨询时仍然更愿意与人类交谈,但在提供简单的帮助时,机器人的能力已经越来越强了。