至顶网服务器频道 05月31日 新闻消息:近日MapR宣布推出了一款名为Quick Start Solution(QSS)的新解决方案,专注于深度学习应用。MapR强调,QSS是一款分布式深度学习产品和服务,能够大规模训练复杂的深度学习算法。
想法是这样的:深度学习需要有大量数据,这是很复杂的。如果MapR的融合数据平台是你的主干架构,那么QSS可以让你得到将数据用于深度学习应用所需的东西。这是有道理的,这符合MapR的战略。
MapR是第一家在市场中推出所谓的“AI on Hadoop”产品的Hadoop厂商。但是AI on Hadoop从更大范围来说是有意义的吗?其他厂商在这方面都做了什么?
专注深度学习的MapR
还记得Hadoop第一次问世的时候吗?那时候Hadoop还是一个具有诸多优点的平台,但是需要用户具有额外的专业技能才可以使用Hadoop。现在这种情况改变了。Hadoop已经成为一个蓬勃发展的生态系统,它取得成功的很大一部分是因为我们所谓的SQL on Hadoop。
Hadoop一直能够以低廉的成本保存和处理大量数据,但此前并非如此,直到它支持通过SQL访问数据,这让Hadoop足以成为企业数据主干的有力竞争者。SQL仍然是访问数据的事实标准,所以支持SQL意味着Hadoop可以被大多数人所使用。
AI和SQL是不同的。它并不具备向后兼容性,以及商业功能。AI是一种具有前瞻性的领域。但即使今天,AI对于使用AI的人来说是一个差异点,但看起来AI似乎很快就会成为一种商品。那些没有使用AI的人将无法参与竞争。
AI和SQL也是类似的:如果你是一家Hadoop厂商,那么这不是你真正的工作。这是其他人要做的——你只需要确保Hadoop可以运行在你的平台上,也就是数据所在的地方。这就是MapR希望通过SQL实现的。
MapR利用开源容器技术(例如Docker),以及编排技术(例如Kubernetes)以分布式的方式部署深度学习工具(例如TensorFlow)。这些技术都与MapR无关,但是QSS带给它的价值是确保所有功能都可以无缝连接。
MapR QSS所具有的分布式深度学习拥有三层:底层是数据层,中间是编排层,顶层是应用层(图片来源:MapR)
MapR首席应用架构师Ted Dunning解释说:“采用AI/深度学习最好的方式就是部署一个可扩展的融合数据平台,这个平台支持最新的深度学习技术,且拥有一个几乎可以无限扩展的底层企业数据框架。”
他还指出,“几乎所有机器学习软件都是独立于Hadoop和Spark部署的。这要求有一个类似MapR这样的平台,能够支持Hadoop/Spark工作负载,以及传统文件系统API。”
既然这种方法奏效,那么你为什么不使用MapR-DB、MapR Streams以及MapR-FS,还有MapR Persistent Application Client Container (PACC)来部署你的模式?哦,我们也为你准备了服务来帮助你。这就是MapR希望通过QSS传递的信息。
MapR首席产品官Anil Gadre表示:“深度学习可以为企业组织提供深远的转型机会。我们的专业知识加上独特的设计构成了QSS的基础。QSS将可以让企业快速利用现代化基于GPU的架构,为他们扩展深度学习铺平道路。”
AI on Hadoop
那么,这与AI on Hadoop是一回事吗?与SQL不同,AI是没有标准的。甚至现在还没有一个被广泛接受和理解的定义。深度学习只是机器学习的一部分,深度学习又只是AI的一部分。甚至在深度学习中,虽然会有一些共享的理念,但是没有一个常用的API。所以SQQ是DL on Hadoop,并不是真正的AI on Hadoop。
AI不止是机器学习,机器学习不止是深度学习(图片来源:Nvidia)
使用像Hadoop这样的数据和计算平台作为AI的基础这是很自然的想法。但是能够在Hadoop上运行机器学习或者深度学习并不会让Hadoop厂商变成一家AI厂商。这是我们在过去几个月与许多Hadoop厂商高管沟通得出的结论。
对于Cloudera公司首席执行官Tom Reilly来说,“机器学习是非常真实非常活跃的,在实践中有很好的表现。我们的客户正在努力了解AI,了解这对未来意味着什么。我们正在帮助他们使用机器学习,我们的平台已经支持机器学习,并将继续提供支持。我们的平台是人们对AI是使用的数据的承载平台。”
Cloudera一直被批评在最近的IPO文件中试图把自己定位为一家AI公司。据我们所知,Cloudear并没有在AI方面的广泛内部经验。它有一个数据科学团队,有很多员工,还有最近收购的sense.io。
Sense.io一直被集成到Cloudear的堆栈中,收购后被重新包装成Cloudera Data Science Workbench (CDSW)。在最近与Cloudear数据科学总监Sean Own的交谈中,Owen将sense.io比作IBM的DataWorks。
“通过提供对数据的就绪访问,CDWS缩短了通过我们自动化的机器学习平台交付AI应用价值的时间,”DataRobot公司首席执行官Jeremy Achin指出。这一点很好,但是这并不是真正的AI,对吧?
对于Hortonworks公司首席技术官Scott Gnau表示,AI包含两个关键组成部分:大量数据外加数据包和算法处理数据。Hortonworks支持两者,AI胜利了,Hortonworks也就胜利了。不过,Gnau强调说,他认为Hortonworks的优势在于企业监管和安全性。
Gnau认为,我们还没有看到我们所期待的AI中的新兴技术。所以Hortonworks的方法是投资基础设施,成为值得信赖的数据厂商,同时密切关注新兴的杀手级技术和应用。
每家厂商的方法都必须考虑现在的大背景以及他们的变革方向。AI是一个新的战场,厂商各自的方法与他们的理念和目标相符合,我们将继续关注和分析AI方面的进展。
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
武汉大学研究团队提出DITING网络小说翻译评估框架,首次系统评估大型语言模型在网络小说翻译方面的表现。该研究构建了六维评估体系和AgentEval多智能体评估方法,发现中国训练的模型在文化理解方面具有优势,DeepSeek-V3表现最佳。研究揭示了AI翻译在文化适应和创意表达方面的挑战,为未来发展指明方向。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
参数实验室等机构联合发布的Dr.LLM技术,通过为大型语言模型配备智能路由器,让AI能根据问题复杂度动态选择计算路径。该系统仅用4000个训练样本和极少参数,就实现了准确率提升3.4%同时节省计算资源的突破,在多个任务上表现出色且具有强泛化能力,为AI效率优化开辟新方向。