浪潮携手吉林大学古DNA实验室,以计算之美溯源人类文明之美
“我们是谁?我们从哪里来?”认识历史,离不开考古学。
近年来,我国考古取得了丰硕的成果。如,中国科学院古脊椎动物与古人类研究所付巧妹团队关于古基因组揭示近万年来中国人群的演化与迁徙历史的研究成果,填补了东方尤其是中国地区史前人类遗传、演化、适应的重要信息缺环;三星堆6座文化“祭祀坑”考古新发现是中华文明多元一体发展模式的重要实物例证,充分体现了古蜀文明、长江文化对中华文明的重要贡献。
浪潮助力吉大古DNA实验室解锁藏在DNA里的秘密
考古为我们揭示了中华文明起源,重现中华文明的灿烂成就,展示中华文明对世界文明的重大贡献,增强了民族自信。时值中国考古学诞生100周年,我们溯源历史的脚步从未停止,探寻答案的途径却更加多样。随着科学技术的发展,考古学研究不断深入,科技在考古研究中占比大幅提升。浪潮携手吉林大学古DNA实验室,将智算应用到DNA考古中,解锁古生物的生命奥秘,重现古老文明演变的轨迹,溯源人类文明。
科技赋能考古 溯源更多未知的文明
将基因分析应用于考古学研究中,已经成为国际考古研究中的前沿领域和热点方向——分子考古学。古DNA是分子考古学的核心,我们知道,遗传信息保存在DNA中,DNA考古就是利用现代分子生物学的手段提取和分析保存在遗骸中的DNA,同时依靠考古学以及其他学科交叉研究,研究古代生物种群特征及相互关系,这一方法,弥补了传统考古无法触达的精准,使得考古成果更精准、更科学以及更客观。
1984年,科学家从早已灭绝的南非斑驴样本中,找到了微量的DNA并进行了测序,古DNA研究就此诞生;1997年对尼安德特人的研究,证实了古DNA存在的可靠性;2012年,科学家通过对西伯利亚一个洞穴内发现的牙齿和指骨化石提取的DNA进行分析,证明了丹尼索瓦人的存在,被《科学》杂志评为2012年度十大科学突破之一;2020年,中国科学家从甘肃夏河县白石崖溶洞(上图)的土壤沉积物中提取出丹尼索瓦人的线粒体DNA,表明了丹尼索瓦人自倒数第二次冰期至末次冰期都生活在青藏高原。
吉林大学于1998年建立国内首个考古DNA实验室,并利用考古学、人类学以及语言学等的跨学科交叉,为我国北方地区和新疆地区的古人类DNA、古动植物DNA研究和古文明的溯源,做出了巨大的贡献。2019年,吉大古DNA实验室成功实现了世界首例古小麦全基因组的破译,为理解东西方文化交流及农业传播,提供了跨时间维度的直接证据;2020年6月1日,吉林大学古DNA研究成果还原了新石器时代农业革命以来,中国北方地区的人群互动,为探讨中华文明的起源、形成和发展提供了重要证据。
强大算力助力 解锁藏在DNA里的秘密
古DNA的提取并不是一件容易的事情。古DNA由于年代久远、水解、氧化、微生物降解等原因很难完整保留下来,不仅可提取到的量很少,与现代DNA相比更短,科研人员需要对珍贵的古DNA进行更大规模的测序,以获得更多的有效数据,测序带来的海量DNA数据对计算力、计算效率都提出了很高的要求。
古DNA的研究中,研究人员先对骨骼样本进行采集,用专业工具获得骨骼粉末;采用特有的试剂盒对粉末进行DNA提取;随后对提取液中的古DNA进行文库的构建并测序。通过测序仪测得DNA片段的序列信息后,首先比对(Mapping)至所研究物种的参考基因组(References), 然后利用群体遗传学分析工具、系统发育软件等对序列信息进行分析,并与现代或者其他古代人群、动物等遗传信息进行比对,从而追溯个体或群体的来源、迁移以及融合过程等。
无论是比对(Mapping)、群体遗传学分析、还是系统发育分析,这些研究数据的处理都对背后的算力提出了要求。过去,科研人员通常使用台式机和普通的服务器进行一系列数据分析,单次能分析的序列数量非常有限;随着二代高通量测序技术平台的开发应用对小片段古DNA分子捕获能力的增强,科研人员实验所得的DNA序列大幅提升,带来了巨大的DNA数据处理需求,台式机和普通的服务器已经远远无法满足需求。
吉大考古学院与浪潮合作,创新性地开发了基于浪潮智算的基因测序加速应用方案,最大限度地提高了测序精准性、提升了古DNA使用效率,可以在9.64小时内完成全基因组分析,48分钟完成全外显子组分析,相比基于CPU的方案,基因数据处理速度提升39倍,加速了古DNA研究成果的诞生。
用科技的力量实现与历史的对话,浪潮正在持续不断地通过技术的力量推动人类文明发展和溯源、追问未知答案、追求人与地球的和谐共生,将智算力注入宇宙探索、文明研究、生态环境、物种保护、交通出行等各个领域,为不断变化的世界匹配持续迭代的科技来诠释和支持,让“计算之美”无处不在。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。