初创公司Etleap推出了面向Apache Iceberg表的云端抽取-转换-加载(ETL)数据管道服务。
Apache Iceberg是一种开源的表格式,专为数据湖中的大规模数据集设计,位于Parquet、ORC、Avro等存储系统以及AWS S3、Azure Blob、Google Cloud Store等云对象存储之上。它为数据湖带来了类似数据库的功能,包括ACID支持、分区、时间旅行和架构演进。Iceberg格式表用于大数据处理并支持SQL查询。Spark、Trino、Flink、Presto、Hive、Impala、StarRocks等查询引擎都可以同时操作这些表。
Etleap首席执行官兼创始人Christian Romming表示:"Iceberg为企业带来重大优势,但要在实践中实现这些优势需要一个托管的管道系统。我们相信我们的Iceberg管道平台能够满足这一需求,让数据平台团队能够采用Iceberg而无需构建和运营自定义管道堆栈。"
Etleap成立于2013年,由Romming创建。按照数据分析初创公司的标准,该公司融资较少,在2017年和2018年的初创和种子轮中仅筹集了约322万美元。
Romming表示,Iceberg本身不负责数据摄取或建模、管理表操作或协调跨系统的变更。用户必须构建自己的管道功能集来将数据源连接到Iceberg并完成这些工作,需要"组装摄取工具、dbt Core作业、编排器和自定义Iceberg维护的拼接组合"。
现在Etleap通过SaaS服务为用户提供这些功能。它将摄取、转换、编排和Iceberg操作统一到一个托管系统中,该系统完全在客户的虚拟私有云(VPC)内运行。
然而,支持的数据源有限。目前只支持以下Iceberg管道数据源:
启用CDC的数据库(CDC=变更数据捕获)
启用"通过事件触发转换"管道源选项的S3源
事件流
Salesforce CDC实体
可用的数据转换功能也有限。同时CDC、事件触发和事件流Iceberg管道也存在一些限制,不过这些问题应该会在未来得到解决。
Etleap目前为AWS Redshift、S3/Glue和Snowflake提供管道服务。其Iceberg管道平台已经上线,客户正在使用它来大规模运行Iceberg管道。
Q&A
Q1:Apache Iceberg是什么?有什么优势?
A:Apache Iceberg是一种开源的表格式,专为数据湖中的大规模数据集设计。它为数据湖带来了类似数据库的功能,包括ACID支持、分区、时间旅行和架构演进,多种查询引擎可以同时操作这些表。
Q2:Etleap的Iceberg管道平台解决了什么问题?
A:Iceberg本身不负责数据摄取或建模、管理表操作。用户以往需要自己构建管道功能,组装各种工具。Etleap将摄取、转换、编排和Iceberg操作统一到一个托管系统中,简化了部署和运维。
Q3:Etleap的Iceberg服务目前支持哪些数据源?
A:目前支持的数据源包括:启用CDC的数据库、启用特定选项的S3源、事件流,以及Salesforce CDC实体。数据源和转换功能相对有限,但会在未来扩展。
好文章,需要你的鼓励
B&H近期对多款M5 Pro MacBook Pro机型推出300美元优惠。14英寸M5 Pro版本(48GB内存+1TB固态硬盘)现售价2299美元,较原价2599美元节省300美元,且该配置在亚马逊无法购买,折扣机会更为难得。此外,16英寸M5 Pro版本(64GB内存+1TB固态硬盘)同样享有300美元折扣。B&H在多款高配MacBook机型上的定价已低于亚马逊,是近期可找到的最优价格。
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
Insta360推出GO 3S复古套装,将现代4K运动相机与胶片时代美学结合。套装核心仍是仅重39克的GO 3S,新增复古取景器、胶片风格滤镜、NFC定制外壳及可延长录制时长至76分钟的电池组。复古取景器模仿老式腰平相机设计,鼓励用户放慢节奏、专注构图。相机内置11种色彩预设及负片、正片等滤镜,同时保留FlowState防抖、4K拍摄及10米防水能力,面向热衷复古影像风格的年轻创作者。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。