近日,阿里云宣布与 NVIDIA 达成合作,共同打造基因行业上云“新基建”,实现基于阿里云基因分析平台的端到端 severless 基因分析和数据应用开放服务,以及 NVIDIA Clara Parabricks 的集成和部署,为大型研究型医院、生命科学与医学领域国家实验室和科研院所、第三方医学检测实验室、基因与生物技术科技公司等企业提供高性能的、云上一站式基因分析解决方案,加速基因组学分析的效率和准确性,同时实现基因计算时间和成本的指数级降低。
NVIDIA 基于其 GPU 硬件和软件加速库与阿里云开展合作,旨在以开放共建的态度与伙伴共同为各行业企业提供全栈式的 AI 加速计算技术底座。通过本次合作,阿里云基因分析平台也成为首个正式集成和部署 NVIDIA Clara Parabricks 的国内公有云厂商。
NVIDIA Clara Parabricks 为阿里云基因分析平台的行业标准基因组分析工具包以及基因调用器等工具带来了 GPU 加速。经测试:用户可以在 30 分钟内完成一个 30x 测序深度的全基因组分析,且与 GATK 的最佳实践结果 99.99% 一致,而在过去基于 CPU 环境中这项工作需要 20 多个小时才能完成。此外,使用 NVIDIA Clara Parabricks,计算成本可降低 40%-80%。
2022 年 11 月,国内某基因测序客户,通过阿里云无限制的计算存储能力和 NVIDA Clara Parabricks,在短短的一天内就完成了 6000 个全基因组的群体变异检测工作,仅耗时 3 天就完成了在新区域基因检测业务的应用部署,其显著提升的基因数据分析体验获得了客户的认可。
生物智算新突破,阿里云基因分析平台打造基因行业“新基建”
基因组学技术是是未来精准医学的核心之一,基因测序技术的不断发展和临床应用的持续拓宽,让基因检测成为当下医疗新基建风口下最为引人关注的行业之一,正在蓬勃向上发展。与此同时,基因数据分析 80% 仍然在使用传统的 HPC 集群,61% 需要完全自建解决方案,行业整体信息化水平较低。随着下一代测序(NGS)的速度越来越快、成本越来越低,数据洪流正在出现,人们对可访问、高通量、行业标准分析的需求日益增长,超大规模人群队列研究、快速部署临检实验室等已经成为核心的业务场景。
阿里云基因分析平台是国内首个公共云的行业 aPaaS 平台,产品遵循 GA4GH 行业标准,提供全托管的 serverless 基因计算引擎和数据应用开放服务,以容器化的方式大规模处理生物医学数据,集成 Parabricks 等行业软件和开源工具,形成完整的端到端解决方案。
NVIDIA Clara Parabricks 是由 NVIDIA 开发、基于 GPU 的基因测序分析加速软件,提供多种生物信息学工具和功能,例如序列比对、预处理和质量指标、变体和突变检测、UMI 以及用于种系、体细胞和 RNA 分析的端到端工作流程。可为测序中心、临床团队、基因组学研究人员以及新一代测序仪器开发者提供快速准确的分析,大幅度提升基因组学分析的速度和准确性。对比传统计算模式,在 GPU 使用 Clara Parabricks 进行基因分析能够保证一致性的结果,以及更高效的计算。
阿里云基因分析平台和 NVIDIA Clara Parabricks 的融合创新,通过构建云上超大规模的 GPU 弹性扩展、大规模的并行调度和异构计算、全面的基因分析工具、动态加载基因加速算法、以及覆盖全基因组、肿瘤、RNA 等的最佳实践优化配置,实现基因计算的显著降本增效,为企业用户带来业界领先的基因数据分析体验。
与NVIDIA一起,加速AI在医疗生命科学的落地
NVIDIA 正积极推动 AI 在包括医疗健康、生物科学等各行各业的应用。
NVIDIA 提供适用于医疗健康行业的智能计算平台 NVIDIA Clara™ ,该平台可用于医学影像、基因组学、患者监控和药物研发,并可部署在嵌入式系统、边缘等任何地方,助力医疗健康行业进行创新并加快实现精准医疗的目标。
作为 Clara 平台的一个明星应用,NVIDIA Clara Parabricks 曾创下过在 23 分钟内完成整个人类基因组 DNA 序列分析的速度记录。包括世界上最大的遗传学研究鉴定数据库英国生物样本库(UK Biobank)、麻省理工学院和哈佛大学旗下的博德研究所(The Broad Institute)等全球医学研究机构、制药公司和生物技术初创企业都在采用 NVIDIA Clara Parabricks 来推动其新一代的测序工作。2022 年 GTC ,NVIDIA Clara Parabricks 4.0 版本发布,对基因组研究人员和生物信息学家部署和扩展基因组测序分析管道的方式带来重大的改进。
强强联合 助力生物智算加速
过去几年来,阿里云与 NVIDIA 一直在技术、市场等多个领域保持深入的合作,为高性能计算和深度学习领域的企业提供全面的 GPU 计算支持和服务。本次阿里云基因分析平台和 NVIDIA 的融合创新,见证双方合作的进一步拓展和深入。NVIDIA 期待与阿里云一起,助力基因行业上云的 “新基建”。
阿里云基因分析平台 Clara Parabricks 工具和流程现已上线供安装。如何通过平台下载安装 Parabricks 4.0?
好文章,需要你的鼓励
大模型时代,玛丽·米克尔(Mary Meeker)的名字可能大家不一定熟悉,但是在互联网时代,这位被可被誉为“互联网女皇”的。她是美国风险投资家和前华尔街证券分析师,专注于互联网及新兴技术领域。玛丽·米克尔(Mary Meeker)发了一份340页的《人工智能趋势报告》,粗粗看了一下,并没有非常轰动的观点,但是数据比较全面
北京大学与小红书公司联合研究团队提出的Uni-Instruct框架,成功统一了10多种现有单步扩散蒸馏方法。该框架基于新颖的f-散度扩散扩展理论,通过可计算的等价损失函数训练单步扩散模型。实验表明,Uni-Instruct在CIFAR10和ImageNet 64×64数据集上创造了新的单步生成记录,FID分别达到1.46和1.02,甚至超越了其79步教师模型。研究还成功将该方法应用于文本到3D生成任务,展示了统一框架在提升生成质量和效率方面的巨大潜力。
毫无疑问,Agent,也就是智能体已经预定了今年的最火AI关键词。不知道明年会不会是AGI呢,既然OpenAI和Anthropic的预测都是在2027年左右。而在Agent领域,非常有发言权的一位就是吴恩达。LangChain前不久的开发者活动Interrupt上,LangChain创始人Harrison Chase邀请了吴恩达专门做了一场对话
这篇研究介绍了KVzip,一种创新的查询无关KV缓存压缩方法,通过上下文重建机制为大型语言模型提供高效存储解决方案。该技术能将KV缓存大小减少394倍,同时提高解码速度约2倍,在各种任务上性能几乎不受影响。不同于传统查询相关的压缩方法,KVzip创建可在多种查询场景下重用的通用压缩缓存,特别适合个性化AI助手和企业信息检索系统。研究在LLaMA3.1-8B、Qwen2.5-14B和Gemma3-12B等多种模型上进行了验证,处理长度高达17万词元的文本,并能与KV缓存量化等其他优化技术无缝集成。