随着人工智能的快速发展,层出不穷的AI应用对于算力有了更多要求,于是我们看到各种人工智能芯片不断涌现。
谈到人工智能芯片,我们一定会想到GPU、FPGA、ASIC等芯片,但是你知道数据流AI芯片吗?
随着摩尔定律的放缓,传统的指令集架构面临着内存墙问题,芯片有效算力的发挥受到制衡,人工智能算法的快速发展又对算力支撑提出了更高的需求,市场亟需高性能、低延时、高算力性价比的商用AI芯片。
鲲云科技基于其在定制数据流领域三十余年的技术积累,提出新的AI计算平台的架构实现方式——“定制数据流架构”CAISA,并于2020年6月发布全球首款可商用数据流AI芯片CAISA。
CAISA定制数据流架构为鲲云自主研发的源头性技术,是为深度学习神经网络定制的高性能AI计算架构。基于CAISA芯片的技术优势,鲲云科技提供高性能、低延时、高算力性价比的人工智能计算加速解决方案。
在近日举行的人工智能计算大会AICC 2021上,鲲云科技合伙人、首席运营官王少军博士接受记者采访时表示,不同于传统的冯·诺依曼的指令集架构,CAISA架构通过数据流流动次序来控制计算顺序,消除指令操作导致的额外时间开销,让CNN网络的算子级数据流图可以实现高效流水线运算。
同时CAISA可并行执行数据访问和数据计算,进一步减少计算单元的空闲时间,最大化地利用芯片的计算资源,从而为客户提供更高的实测算力,算力性价比领先市场。
CAISA芯片通过控制数据的流动次序来管理计算执行次序,能大大提升芯片的利用效率,最高可实现95.4%的芯片利用率,较同类产品提升11.6倍,打破了算力提升对芯片制程工艺的高度依赖。
CAISA芯片聚焦人工智能领域,注重发挥数据流架构的算力性价比优势。目前,CAISA架构可支持多种深度学习算法,包括目标检测、分割、分类等领域的主流算法,实现了在深度学习领域的通用性。
王少军说,鲲云科技始终贴近落地需求,CAISA芯片面向云和边缘侧的场景,比如智慧城市(园区)、工业质检等垂直领域,满足不同场景的人工智能计算需求。
目前搭载CAISA芯片的星空X3加速卡、星空X6A边缘小站、星空X9加速卡等在智能制造、智慧能源、数据中心等实现规模落地。
”鲲云科技与产业生态进行了积极合作,例如2019年与浪潮达成战略合作,2020年完成产品适配,推出搭载星空X9加速卡的智算中心AI服务器。“王少军说。
除了硬件级创新,鲲云科技提供RainBuilder开发工具链,能够实现自顶层深度学习开源框架算法至底层架构时钟的精确映射,兼容现有AI开发框架、生态及软件,在软件的易用性方面进一步降低了应用门槛。
谈及未来AI算力的发展,王少军表示,人工智能的发展要求算力均衡,更加注重性价比,同时软硬件的协同也是未来算力的发展重点。鲲云科技也将持续创新,为AI芯片研发和产业发展探索新的道路。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。