初创公司Etleap推出了面向Apache Iceberg表的云端抽取-转换-加载(ETL)数据管道服务。
Apache Iceberg是一种开源的表格式,专为数据湖中的大规模数据集设计,位于Parquet、ORC、Avro等存储系统以及AWS S3、Azure Blob、Google Cloud Store等云对象存储之上。它为数据湖带来了类似数据库的功能,包括ACID支持、分区、时间旅行和架构演进。Iceberg格式表用于大数据处理并支持SQL查询。Spark、Trino、Flink、Presto、Hive、Impala、StarRocks等查询引擎都可以同时操作这些表。
Etleap首席执行官兼创始人Christian Romming表示:"Iceberg为企业带来重大优势,但要在实践中实现这些优势需要一个托管的管道系统。我们相信我们的Iceberg管道平台能够满足这一需求,让数据平台团队能够采用Iceberg而无需构建和运营自定义管道堆栈。"
Etleap成立于2013年,由Romming创建。按照数据分析初创公司的标准,该公司融资较少,在2017年和2018年的初创和种子轮中仅筹集了约322万美元。
Romming表示,Iceberg本身不负责数据摄取或建模、管理表操作或协调跨系统的变更。用户必须构建自己的管道功能集来将数据源连接到Iceberg并完成这些工作,需要"组装摄取工具、dbt Core作业、编排器和自定义Iceberg维护的拼接组合"。
现在Etleap通过SaaS服务为用户提供这些功能。它将摄取、转换、编排和Iceberg操作统一到一个托管系统中,该系统完全在客户的虚拟私有云(VPC)内运行。
然而,支持的数据源有限。目前只支持以下Iceberg管道数据源:
启用CDC的数据库(CDC=变更数据捕获)
启用"通过事件触发转换"管道源选项的S3源
事件流
Salesforce CDC实体
可用的数据转换功能也有限。同时CDC、事件触发和事件流Iceberg管道也存在一些限制,不过这些问题应该会在未来得到解决。
Etleap目前为AWS Redshift、S3/Glue和Snowflake提供管道服务。其Iceberg管道平台已经上线,客户正在使用它来大规模运行Iceberg管道。
Q&A
Q1:Apache Iceberg是什么?有什么优势?
A:Apache Iceberg是一种开源的表格式,专为数据湖中的大规模数据集设计。它为数据湖带来了类似数据库的功能,包括ACID支持、分区、时间旅行和架构演进,多种查询引擎可以同时操作这些表。
Q2:Etleap的Iceberg管道平台解决了什么问题?
A:Iceberg本身不负责数据摄取或建模、管理表操作。用户以往需要自己构建管道功能,组装各种工具。Etleap将摄取、转换、编排和Iceberg操作统一到一个托管系统中,简化了部署和运维。
Q3:Etleap的Iceberg服务目前支持哪些数据源?
A:目前支持的数据源包括:启用CDC的数据库、启用特定选项的S3源、事件流,以及Salesforce CDC实体。数据源和转换功能相对有限,但会在未来扩展。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
谷歌研究院开发的论文助手工具PAT,利用分阶段深度推理流水线自动审查学术论文,在真实错误检测任务上达到89.7%召回率,并已在STOC和ICML两大顶会完成超4700篇论文的真实部署。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。