ZDNet至顶网服务器频道 04月17日(文/赵效民):IDF15(2015年英特尔信息技术峰会)已经过去一周多的时间了,本人一直没抽出空来写点什么,但有些话也一直想说,因为这次的IDF15的确给了我一些启发。
熟悉本人的人都知道,我平时的关注领域是数据中心,这次还有幸一对一采访了英特尔高级副总裁,兼数据中心与互联网事业部总经理柏安娜女士,但给我印象最深的却不是这方面的内容,而是英特尔在既有优势领域之外的努力。从这种努力中我似乎也看到了某种继续支持英特尔走向更广阔未来的潜在要素,而有感而发的起因就是英特尔最新推出的“实感”技术(RealSense)。
“实感”技术是英特尔面向未来物联化世界的一次尝试,它其实是传感器的一个分支,但这个传感器似乎与个人的生活更近一些,且可扩展的应用想像空间也更大。而在IDF开幕演出上的示范,引起了我最初的关注。在IDF15的技术课程中,我也主要参加了和它相关的技术讲座(包括物联网)而非数据中心相关的技术专场。因为在我看来,它可能预示着英特尔继PC与数据中心之后,下一个新的业务增长点。
通过实感3D感应技术,演示者用一台平板电脑对乐手的动作进行了即时捕捉,并投影于现场的屏幕上,可以让我们看到乐手的实时数据化的动作矩阵图形
大会上演示的实感3D设备,就是一台普通的平板电脑,只是摄像头替换为英特尔的实感3D模块。实感3D模块可分为两种,一种用于前置摄像头,另一种用于后置摄像头,开幕演出中进行动作捕捉的平板,用的就是这种摄像头,此外还可以用笔记本电脑和手机等移动设备(当然,前提是英特尔硬件平台)。从模块的组成来看,除了传统的摄像头外(如果关闭3D功能可以当作普通的摄像头来使用),主要就是加入红外传感组件以及实感图像处理芯片,而整体的体积远比微软体感设备Kinect小巧得多。
远距离后置实感3D摄像头,通过两个红外传感器来模拟人类视觉,以获得Z轴信息,以提供三维影像数据,有效距离3-4米,通过相关的应用开发,可以用来测量对象物体的3D尺寸,并进行3D扫描,理论上你完全可以把它看作是3D扫描仪,配合3D打印机,可玩的花样就自己想吧(IDF15上就有一个展台,用实感对访客进行人体扫描,再通过3D打印机,打印出你自己的3D模型,扫描精度还不错,可惜人太多,本人等不起)
近距离前置实感3D摄像头,有效距离0.2至0.8米,可以识别手势以及人类的面部变化,可以捕捉到人类常见的十余种表情,比如欢乐、恐惧、郁闷、无奈等
实感3D摄像头,在现实中的应用场景可以说是相当丰富的,比如3D扫描、尺寸识别、更精确的手势操作、动作捕捉、脸部识别以及更时尚的交互功能。例如在一些社交平台上,如果注重隐私,你可以让自己变成另外一个形象,但它的表情是和你同步的,让网上的另一方可以真切的感受到你的即时情感,甚至可以让你的脸通过扫描,嵌入到游戏中的角色形象上,从而更加的“融入”游戏。在IDF15的开场讲演中,英特尔全球副总裁兼中国区总裁杨旭就是以自己真实的“嵌入形象”先在虚拟的3D世界里奔跑,最终跑进现实中的主会场的“表演”开始的,赢得了台下的全场掌声。
在网络聊天中,本人可以伪装成一只狗,让你看不到我的真面目,但狗的表情是本人的,从而使“你在网络上聊天对象可能是条狗”成为现实(这么说好像有点不对……反正就这意思吧……)
实感技术的尺寸识别的应用场景,可以从京东的案例上得到体现。京东一天要处理300万个包裹,以前要3分钟将产品放进一个合适的包装盒里,而通过实感3D扫描,配合相关的应用,可以在5秒钟内识别相关产品所需要的盒子尺寸,大大提高装箱效率,而这种尺寸识别还可以帮助京东更高效的利用仓库与货车空间。我们可以扩展一下这种应用场景,比如你可以先把自己家的房间通过实感3D数字化,在商场时挑选家具时,再用实感进行家具的3D数字化,然后嵌入虚拟的家庭房间场景中,即时来观察摆放效果,从而帮助消费者更好的选择家具,目前已经有创新企业在基于实感3D开发这类的应用
好文章,需要你的鼓励
上海交通大学研究团队开发出革命性AI癌症诊断系统,通过深度学习技术分析50万张细胞图像,实现94.2%的诊断准确率,诊断时间从30分钟缩短至2分钟。该系统不仅能识别多种癌症类型,还具备解释性功能,已在多家医院试点应用。研究成果发表于《Nature Communications》,展示了AI在精准医疗领域的巨大潜力。
南华理工大学等机构提出3DFlowAction方法,让机器人通过预测物体3D运动轨迹来学习操作技能。该研究创建了包含11万个实例的ManiFlow-110k数据集,构建了能预测三维光流的世界模型,实现了跨机器人平台的技能迁移。在四个复杂操作任务上成功率达70%,无需特定硬件训练即可在不同机器人上部署,为通用机器人操作技术发展开辟新路径。
这是首个系统性探索跨视角协作智能的综合性研究,由南京大学、东京大学等顶尖机构联合完成。研究团队首次将"第一人称视角"与"第三人称视角"的协作应用进行了全面梳理,提出了三大技术方向和十三个关键任务,涵盖从智能厨房到手术机器人的八大应用场景。这项突破性工作为人工智能向人类认知迈进提供了重要的技术路径和理论基础。
这项由台湾大学与微软研究团队合作的研究探索了使用音频感知大语言模型(ALLMs)作为自动评判员来评估语音生成模型的说话风格。研究设计了"语音风格指令跟随"和"角色扮演"两个任务,测试了四种语音模型的表现,并比较了人类与AI评判的一致性。结果表明,特别是Gemini-2.5-pro模型,其评判结果与人类评判的一致性甚至超过了人类评判者之间的一致性,证明ALLMs可以作为可靠的自动评估工具。同时研究也发现,即使是最先进的语音模型在说话风格控制方面仍有显著改进空间。