戴尔用更快的查询速度和更多功能增强数据湖仓

戴尔提高了旗下数据湖仓的查询速度,添加并升级了连接器,改进了监控并提升了安全性。

作者:Chris Mellor

更新时间:2024年7月24日

戴尔提高了旗下数据湖仓的查询速度,添加并升级了连接器,改进了监控并提升了安全性。

戴尔用更快的查询速度和更多功能增强数据湖仓

今年三月,戴尔宣布让旗下AI产品组合中的数据湖仓使用Starburst Presto 查询引擎、Kubernetes组织的湖仓系统软件以及基于戴尔ECS、ObjectScale 或 PowerScale存储产品的横向扩展S3兼容对象存储。

Starburst在去年2月推出了Warp Speed 技术,以及Apache Lucene索引和缓存技术,声称它可以将基于文本的查询处理速度提高多达7倍。现在,它携手更多连接器和其他改进一起进入了戴尔的数据湖仓。

戴尔产品经理 Vrashank Jain 写道:“Warp Speed是Dell Data Lakehouse中的一项新功能,它可以自主学习查询模式并识别经常访问的数据,以创建最佳索引和缓存,同时将不常访问的数据保留在原地。”

它可以提高查询性能,“对于前20%的查询,性能可以提高3到5倍”。

无需数据工程即可自动为数据湖编制索引,并且可以使用查询加速构建和填充更高性能的面板。自主索引“为每个数据块创建适当的索引类型(位图、字典、树),从而加速联接、过滤器和搜索等操作。索引存储在计算节点的 SSD 上,可以快速访问。”

Jain写道:“智能缓存是一种专有的SSD列式块缓存,可根据数据使用频率优化性能。缓存消除了不必要的表扫描,并在查询之间提供了更多的数据重用,从而节省了计算成本。”

“借助 Warp Speed,最终用户无需对查询进行任何修改,同一集群就可以将数据湖查询的速度提高 3 到 5 倍。它还可以帮助将集群规模减少多达 40%。”客户可以在大型集群上运行更多查询,也可以在较小的集群上运行相同数量的查询。

Jain表示:“只有Dell S3 兼容存储上的数据湖支持”该Warp Speed功能。

戴尔还为数据湖仓添加了更多增强功能:

  • 支持通过 Kerberos 连接到现有的Hive Metastore,实现无缝的元数据操作并强化数据治理。
  • Neo4j 图形数据库连接器为公共预览版,并且有一个改进的 Snowflake 并行连接器,可实现更高效的查询。
  • 升级连接 Iceberg、Delta Lake、Hive、Db2、Netezza、RedShift、SAP HANA、Snowflake、SQL Server、Synapse 和 Teradata 的连接器。这些速度更快、功能更强大的连接器可执行join下推和数据类型处理等操作。
  • PowerScale 和 ObjectScale 存储系统已过全面验证。
  • 戴尔支持团队现在可以进行运行状况检查,以在安装或升级之前或之后使用自动运行状况检查评估客户集群的状态。运行状况检查对于确保零宕机时间至关重要。
  • Data Lakehouse 现在可以直接向戴尔支持团队发送关键系统故障警报,以便主动处理故障状态或待处理故障情况。
  • 可选的内部组件端到端加密,包括所有计算节点、缓存服务和元存储。但是,此功能会影响性能,因此在调整集群大小时应考虑此功能以满足性能SLA。
  • 除了现有的一年期和三年期订阅外,还提供五年期软件订阅选项,这将有助于让硬件和软件支持条款时长保持一致,可以简化采购。
  • 更广泛的全球可用性,可在欧洲、非洲和亚洲的更多国家/地区供货。

Warp Speed 包含在现有的 Dell Data Lakehouse 许可证中。计算节点的配置将进行修改,以包括已由戴尔测试和基准测试的SSD,支持Warp Speed索引和缓存。

潜在客户可以在戴尔演示中心访问戴尔的Data Lakehouse,很快还可以在客户解决方案中心访问戴尔的Data Lakehouse,以进行交互式探索和系统验证。客户和合作伙伴可以通过在演示中心创建一个免费帐户来试用。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2024

07/25

21:11

分享

点赞

邮件订阅