企业级云服务商青云QingCloud日前宣布SparkMR on QingCloud服务正式登陆AppCenter。SparkMR on QingCloud集成了Spark与Hadoop MapReduce双计算引擎,提供统一的HDFS数据存储引擎及YARN调度系统,为用户提供灵活、高效、可多模式切换的全新云端大数据处理平台。
青云QingCloud全新双引擎大数据服务SparkMR正式上线
大数据时代,数据资源是企业的无形资产,也是核心竞争力之一。如何低成本、高效率地进行数据统一管理和分析,获得商业决策支持成为摆在企业面前的一道难题。大数据平台正是为了企业的这种需求应运而生并持续发展创新。青云QingCloud于2015年8月推出了基于Spark的大数据集群服务,同年12月,推出Hadoop集群服务作为大数据基础平台的有力补充,以此来满足企业在大数据领域的不同需求。
但由于Spark与Hadoop作为两个独立的服务,用户同时使用这两种处理引擎时,需要部署两套HDFS,相同的数据需要加载并存放两份,无论是成本还是效率都不是最好的选择。从数据统一管理角度出发,青云QingCloud推出SparkMR on QingCloud,通过QingCloud AppCenter以云应用的方式交付用户使用,对原有大数据平台的Spark与Hadoop服务进行了全方位的整合与升级。
目前,SparkMR支持Apache Hadoop 2.7.3与Apache Spark 2.2.0。Spark和Hadoop两者结合后,成本显著降低。同时,相对原大数据平台提供更丰富、更灵活的可选配置,用户可以分角色定制节点配置(CPU 2~16核可选,内存2~64GB可选)。SparkMR on QingCloud作为支撑全新双引擎大数据平台的重要组件,具有多重亮点:
灵活的计算模式:SparkMR在底层提供统一的HDFS作为数据存储引擎,在上层提供Spark与MapReduce两种计算引擎,并提供YARN作为调度系统。用户可以轻松实现三种不同的计算模式,即Spark Standalone、Spark on YARN和MapReduce on YARN三者之间的切换。
强大的计算能力: SparkMR为了方便用户开发Spark应用,除了支持Java和Scala开发之外,还提供了Python与R两种语言的运行环境。其中为Python用户提供了Anaconda发行版的Python 2和Python 3,并支持在这两种Python版本间进行切换。同时,分别为这两个Python版本预置了多个Anaconda发行版的数据科学包,为数据科学和机器学习/深度学习等 AI 开发场景提供了强大的计算能力支撑。
便捷的集成能力:SparkMR支持指定依赖服务的功能,即通过AppCenter 2.0 框架内原生的应用感知机制,实现与其他大数据分析组件之间自动化的无缝集成。SparkMR与QingStor对象存储平台也进行了预置集成,用户可以通过简单的配置即可开启对QingStor对象存储的支持,以应对海量大规模数据的存储问题。
良好的调度策略: SparkMR提供Spark与YARN的自定义调度器的功能,用户可以根据自己实际的需求,自定义集群内资源调度策略,赋予用户在多租户使用场景下更为精细化的管理能力。
简易的服务定制:SparkMR通过控制台提供近60个配置参数,用户通过控制台的UI操作即可完成集群部署及服务的个性化定制。比如用户可以通过 UI 即可完成设置 Hadoop 代理用户的功能。SparkMR的Client(客户端)节点也实现了完全的自动化配置,用户无需再单独创建并手动配置BigData Client或者Spark Client。这意味着用户在控制台完成配置及服务定制后,在部署完成时,已经可以开始执行计算任务,真正实现了一键部署、即刻使用。
完善的服务监控:SparkMR提供了完善的服务级别分角色的监控能力,用户不仅可以看到常规资源层监控,还可以通过可视化的方式清晰了解整体服务的运行情况。同时基于服务监控,还提供了监控告警、健康检查和服务自动恢复等功能。
青云QingCloud CTO甘泉表示,SparkMR on QingCloud的推出标志着青云QingCloud大数据平台向AppCenter的迁移升级完成了重要一步。AppCenter将助力用户以应用的视角进行大数据日常管理工作,并通过自身的服务感应机制,让组件间的对接不断趋于自动化,实现动态调整。未来,QingCloud将陆续推出可视化、服务编排等更贴合企业需求的大数据服务。在深度学习领域,QingCloud也将持续深耕、不断创新,让智能化与云计算深度结合,为企业的商业决策提供有力支撑。
好文章,需要你的鼓励
OpenAI CEO描绘了AI温和变革人类生活的愿景,但现实可能更复杂。AI发展将带来真正收益,但也会造成社会错位。随着AI系统日益影响知识获取和信念形成,共同认知基础面临分裂风险。个性化算法加剧信息茧房,民主对话变得困难。我们需要学会在认知群岛化的新地形中智慧生存,建立基于共同责任而非意识形态纯洁性的社区。
杜克大学等机构研究团队通过三种互补方法分析了大语言模型推理过程,发现存在"思维锚点"现象——某些关键句子对整个推理过程具有决定性影响。研究表明,计划生成和错误检查等高层次句子比具体计算步骤更重要,推理模型还进化出专门的注意力机制来跟踪这些关键节点。该发现为AI可解释性和安全性研究提供了新工具和视角。
传统数据中心基础设施虽然对企业至关重要,但也是预算和房地产的重大负担。模块化数据中心正成为强有力的替代方案,解决企业面临的运营、财务和环境复杂性问题。这种模块化方法在印度日益流行,有助于解决环境问题、满足人工智能的电力需求、降低成本并支持新一代分布式应用。相比传统建设需要数年时间,工厂预制的模块化数据中心基础设施可在数周内部署完成。
法国索邦大学团队开发出智能医学文献管理系统Biomed-Enriched,通过AI自动从PubMed数据库中识别和提取高质量临床案例及教育内容。该系统采用两步注释策略,先用大型AI模型评估40万段落质量,再训练小型模型处理全库1.33亿段落。实验显示该方法仅用三分之一训练数据即可达到传统方法效果,为医学AI发展提供了高效可持续的解决方案。