芬兰首都赫尔辛基运行着全球时间最长的数字孪生项目之一。过去三十年中,芬兰赫尔辛基逐步采用计算机辅助设计(CAD)、3D城市地图、以及后来的全尺寸数字孪生,并在此过程中尝试了很多想法,其中一些想法为芬兰赫尔辛基的公民、组织和当地企业带来了真正的好处。
Jarmo Suomisto于1998年加入赫尔辛基的规划部门,当时很多项目正在几步阶段,他从2014年开始负责Helsinki 3D+项目,以协调全市范围的数字孪生计划。
他说:“30年前,数字城市是一个伟大的理想主义梦想,现在,这个愿景已经接近于实现了。”
赫尔辛基市的数字孪生渲染
现在,赫尔辛基使用数字孪生来减少碳排放、改善城市服务、促进创新增长。
原型
赫尔辛基的数字孪生之旅始于20世纪80年代初期的城市建筑竞赛,建筑设计师的黑白线条图需要十二个小时才能渲染完成。从那时起,流程和技术一直不断演进发展。
“我们现在的3D渲染速度达到了每秒60帧,有完整的阴影和反射,”Suomisto说。
2000年,Suomisto与一个团队合作,在一个特殊的Bentley微站上以3D CAD的形式展示了整个赫尔辛基市。该团队还在城市规划演示的过程中,通过四个大型计算机引擎和三个投影仪上展现了赫尔辛基的实时计算机模拟,这种技术突显了赫尔辛基中心地区对新开发项目的需求,包括新建的图书馆、音乐厅、公园和商业开发项目。
赫尔辛基市的数字孪生进化时间表
“有很多建筑方面的竞赛,我们想展现这个地区的未来,”Suomisto说。
展示持续了一个月的时间,人们可以俯瞰整个区域。当时,老年人不玩电脑游戏,他们以为这是一部电影,后来他们发现可以使用鼠标操纵。后来,赫尔辛基市继续模拟技术来指导城市规划。
网格发挥效用
2015年,他们发布了Helsinki 3D+,开始利用新的工具获取和构建逼真的3D实景网格,将城市地理标记语言(CTGML)用于语义数据。
“这是两种互补性的技术,使用不同的生产工艺,我们通过这两种技术创造价值,”Suomisto说。
Reality Mesh汇集数据,通过各种游戏引擎渲染城市,包括Unreal Engine、Unity Engine和Minecraft。Bentley的软件已经把5万多张飞机侦察图像转换为精度为10厘米的实景网格模型。第一个完整的模型花了大约一个月的时间。
相比之下,CityGML适用于分析与建筑物、道路、基础设施和植被相关的数据,他们把来自各种地图、数据库、以及其他来源的矢量和语义数据组合成一个统一的城市模型。
早期成功
2016年,Suomisto的团队希望向参与资助该计划的决策者展示数据模型的力量。几个月后,他们创建了一个试点项目,其中包含12个与新城市模式相关的项目,其中一半成为永久性项目。
其中,最成功的项目包括关于新住宅开发的交流服务、地下连接地图、以及展示新栽树木的影响,这些都利用了Mesh丰富的视觉图形。而其他专注于数据分析的项目因为太复杂而无法用工具实施。
从那时起,模型的准确性和分辨率有了显着提高,并且在不同的游戏引擎之间有了更好的集成。围绕CTGML的设备生态系统也在不断完善,但这需要更多的专业知识。CTJSON接口也使CTGML数据更容易集成到其他应用中,有利于进一步发展。
打造长期价值
刚刚起步的城市,应该从以市中心为核心的小型项目开始,使用展示数字孪生视觉吸引力的实景网格。从长远来看,Suomisto预计CTGML模型因为可以更深入地了解隐藏在表面之下的数据,所以将在帮助城市实现可持续性和发展目标方面,发挥重要的作用。
其他城市也可以采用,围绕战略目标建立共识。例如,芬兰设定了到2035年实现碳中、到2050年回收所有废物的目标,数字孪生还有助于模拟不同的政策或个人决策将如何影响目标。
例如,赫尔辛基开发了一项服务,该服务使用CityGML数据分析太阳辐射,分析道路、墙壁、门窗更换对碳足迹的潜在影响。居住在赫尔辛基的房主,可以将新保温材料、窗户和热泵的成本与预期的节能和减少二氧化碳排放量进行比较。Suomisto说:“最好的入门方法就是使用实景网格模型,因为你会得到很好的结果,而且视觉上看起来很生动。随着城市领导者了解了这项技术的强大力量,你就可以获得更多资源做更多的事情。几年时间内,你就可以打造出一个很好的模型,运行这个模型,在这个模型上打造整个城市。”
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。