扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共6页)
●积和演算的4种操作类型
此次变更使得SIMD演算的矢量长度从SSE5的128位增长到AVX的256位,同时也能实现8个并行的32位单精度浮点运算。SIMD存储器也从128位增加到256位。
对于那些不符合AVX命令的部分,将作为AMD单独扩展指令的XOP和CVT16,形成像下面一样的指令集。
·水平整数加减128位
·整数乘加128位
·矢量元素转移/旋转128位
·整数比较128位
·置换128位
·条件转移128位
·片段提取128位
·半精度转换128位
积和演算定义了支持4操作数的积和演算FMA4。Intel的FMA最初是支持4操作数,不过现在变成了3操作数格式。Intel FMA格式的功能性导致AMD研发出最新的FMA4格式。
变成3个源操作数是有必要的。譬如,1个存储器加上2个存储器的值得出结果。如果保存这个结果的话,需要第4个的操作数,不过,不能改变3个操作数的格式。因此必须最先计算出源操作数的一个结果。
为了能写入第4个操作数的结果,不能破坏源操作数的数据。而且对于3操作数的格式,必定会破坏了操作数的1个数据,这就是破坏性格式。因此正如上面所说,我们需要3个操作数格式,把存储器的值迁移出来。
AMD对FMA4抱有很大的信心。而且,在Intel的CPU路线图中,FMA命令比AVX命令推迟支持。AMD将可能在FMA命令支持方面走在了前端,率先支持FMA4。
有趣的是,最初这个关系与现在是截然相反的。当初,AMD的SSE5是3操作数,Intel的FMA是4操作数。Intel改变了像Larrabee New Instruction这样架构的3操作数格式,同时AMD也将指令编码改成了4操作数。
Intel指令集架构的进化(点击放大)
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者