arm kvm虚拟化

2022-09-13 21:24:19 IT技术网互联网

浏览

本篇文章给大家谈谈《arm kvm虚拟化》对应的知识点，希望对各位有所帮助。

本文目录一览：

1、arm的trustzone是怎样保证硬件安全的
2、ARM Cortex-A15的性能
3、ARM A15架构
4、高通Krait架构的arm处理器支持硬件虚拟化技术吗?
5、stm32的arm内核和cortex架构到底是什么意思？有什么区别？求指教！

arm的trustzone是怎样保证硬件安全的

Trustzone可以追溯到十多年前，ARMv7公布的时候就有了，可惜一直没有什么实际应用。直到近几年开始，才真正的有厂商开始把这个方案大规模用于芯片里。目前看到的主要有四个应用领域：

第一是无人机芯片，大疆已经走在了最前面，第二名连影子都没看见。无人机上几大应用，图像传输，图像处理，识别，飞控，存储，每一块都有安全的诉求。利用Trustzone可以做到，在芯片里流动的数据，每一步都在安全系统的控制之下，哪怕飞机被人抢去，都需要极大的代价才能拿到闪存以及内存里面的数据。如果以后上安卓或者其他操作系统，哪怕软件系统被黑客攻破，数据和控制还是安全的。最后，如果国家或者行业出台政策，要求实施禁飞区，那么哪怕无人机的主人自己去修改闪存和软件，都可以被强制接管。这些功能必须在芯片设计阶段就考虑到，大疆在这方面的眼光确实比别人长远。

第二是DRM，数字版权管理，也就是内容保护。如果国内用户要在手机上看最新好莱坞大片，那么播放设备必须经过一个认证，这个认证可以用trustzone来实现。国内已经在积极的推动这个事情，估计再过一段时间就可以实现了。当然，这是一把双刃剑，肯定也有用户反而不愿买支持DRM的设备，而去看盗版。用了Trustzone本身并不限制盗版，只不过多了一个看好莱坞大片的渠道。

第三是支付。把Trustzone用于支付支付在技术上没有困难，对芯片性能要求也不高，难的是把各个利益方摆平。银行和运营商想把支付控制权握在自己手里，所以会去大力推广NFC，会去和苹果合作。而手机支付软件厂商，比如支付宝和微信，想通过和手机芯片和硬件厂商，把所有功能都自己的平台上实现。目前的支付大多数还是基于软件和远端密钥验证。如果有人把手机破解，那还是可以读取到支付图层的密码的。而trustzone做的，就是硬件上杜绝这类情况。

第四是物联网。物联网的安全有好几种做法，可以把安全检测放在服务器端或者末端芯片上。末端通常是一个MCU加上传感器和互联模块，面积较小。用硬件trustzone实现的话，加解密和密钥管理等功能会需要额外内模块，可能比MCU本身都大，成本太高。但如果是附加值高的芯片就没什么问题。

让我们从技术层面来定义Trustzone到底能做什么：

1、防止操作系统被攻破后关键数据泄密，关键数据存放在特定内存区域，而那块区域，只有安全操作系统才有可能读到。

2、防止通过JTAG等调试接口读到寄存器，缓存，内存或者闪存数据。

3、从芯片制造开始，最初的密钥可以用芯片熔丝实现，往后启动的每一步都需要最高特权级和密钥验证，建立信任链，杜绝软件被替换或者被恶意读取。

4、防止边带攻击，比如量取内存颗粒的信号猜测数据，制造故障让检验模块停止工作，替换外围器件，输入特定数据确定电磁信号特征，打开芯片直接量内部信号线等。

上一个典型的ARM SoC内部结构，在这个结构里，Trustzone做的事情是保护数据在芯片内部的安全，不允许非授权的访问，哪怕这个访问来自CPU。初看有些复杂，不过我们可以拆开慢慢分析。从硬件角度开始比软件更清楚些，说不定哪天过认证的时候需要答辩，从头到尾解释系统安全设计。

首先，按照Trustzone的划分，一个芯片内被划分为安全世界和非安全世界。上图中，中间黑色的部分是总线，总线上面是主设备，下面是从设备（主设备中的缓存是例外，这个以后说）。读写请求总是从主设备发往从设备的。

作为从设备，区分它是不是属于安全世界相对简单。如果一个从设备不存在成块的空间映射，比如I2C或者PWM，那么我只要在总线访问它的时候，额外的加入一个管脚(取名为PROT)，就可以告诉它本次访问是不是来自安全世界。如果从设备本身是完全属于被保护的安全世界，不接受非安全的访问，那么只要简单的拒绝，返回错误或者无意义数据即可。同样，如果从设备本身处于非安全世界，那么对于安全和非安全访问，都可以返回正确数据。还有，从设备所处于的世界，是可以动态配置的，且动态配置本身需要处在安全世界，这个以后讨论。

对于块设备，包括闪存，sram和内存等，它们的某些地址块需要处于安全世界，其他的处于非安全世界。为了实现这一点，就需要在它们前面插入一个检验模块（例如图中左方，DDR上面的TZC400），来判断某个地址是不是能被访问。当地址被送到这个检验模块，模块会结合PROT管脚去查表，看看本次访问是不是被允许，然后做相应措施。表本身和之前的动态配置一样，必须是在安全世界里面配置的。

至此，从设备就分析完了，是不是感觉特别简单？还有些细节，在把主设备也讲完后，我们会从系统角度来关注。

对于一般主设备，不考虑自带的缓存时，其实和从设备也差不多，也分为安全和非安全，可以在安全世界动态配置。配置完成后，这些主设备会按照自己所处的世界，驱动PROT管脚和地址来访问从设备，得到相应返回。不过这里的一般主设备不包括中断控制器，系统MMU，调试模块和处理器，接下来对这些例外模块进行具体分析。

首先是处理器。

在上图情况，接了CCI总线后，处理器接在缓存一致性端口ACE上（不明白的请参考以前的文章），它的缓存是可以被别人访问的，并且这个访问，是从主设备到主设备（当然，在处理器内部是从端口），不会经过总线送到内存，也不会经过检验模块TZC400。这时就有个漏洞，通过操纵一个非安全世界的模块，比如上图的橙色主设备，假装去读一个被安全世界保护的内存地址。这个地址本来存在于内存，被TZC400保护，可是由于总线的监听功能，读请求有可能被发往处理器缓存，从而绕过保护。

为了防止这种情况，处理器在所有的页表和缓存都做了特殊设计，加了一个标志位，标志本缓存行是否属于安全世界。如果别的非安全世界主设备来监听安全世界缓存行，由于安全位不同，处理器会认为这是两个不同地址，哪怕它们的地址一致，返回缓存未命中。这样，就不会把数据泄漏。

有人会问，这个标志位来源于页表，改了页表中的这一位不就可以访问了？其实不行。因为安全世界页表位于被保护的内存区域或者缓存，就算破解了操作系统也无法访问。

又有人会说，那改了非安全世界的页表中安全位，并伪造一个安全世界的地址，岂不是可以让CPU模拟出一个访问安全世界的传输，送到总线和TZC400？TZC400或者对端缓存一看地址和PROT管脚都是符合要求的，应该就会返回保密数据吧？想法是不错，可是当CPU位于非安全世界时，它会忽略页表中的安全位，所以不可能发出PROT为安全的传输。所以，我们可以对这点放心。

以上是别的主设备访问处理器，那如果处理器本身处于非安全世界，有没有可能访问其他主设备的安全缓存？当然有。所以不要把其他主设备接到ACE端口，以免被监听，一般主设备是不会做缓存上的安全与非安全区分的。接到ACE-Lite接口无所谓，反正设计上就无法被读取缓存数据。

除此之外，还存在一个例外，就是GPU。在最新的ARM G71图形处理器上，是支持双向硬件一致性的。也就是说，GPU也可以被监听缓存的。为了简化设计，图形处理器被设成永远处于非安全世界，CPU尽管读，不在乎，它使用另外一种机制来保护数据，以后介绍。

对处理器缓存熟悉的人可能会想到用跨缓存行的非安全变量来访问被保护的数据。没用的，处理器设计者早就想到这点，要不就是非对齐访问异常（包含exclusive access的时候），要不就不会给你数据，具体到每个处理器有所不同。

还有一个漏洞没堵上，那就是缓存维护，TLB和分支预测操作。ACE端口包含了DVM操作来维护它们，安全性如何保障？同样的，地址中也有安全和非安全位。不过话说回来，DVM操作无非就是无效化某些缓存，分支预测和TLB项，不存在安全数据被读取，TLB被篡改的情况。

到这里可能你会觉得有点晕，不少漏洞需要堵。我们可以回顾一下，需要记住的是各种缓存操作，通过安全标志位保护，避免漏洞。对比处理器设计者所要考虑的情况，这点漏洞不值一提。

杜绝了缓存漏洞后，还有别的隐患，比如仿真器。调试模块可以被用来访问各个从设备，也可以访问和影响处理器内部资源。从设备侧的防护很容易，把调试模块当成一般的主设备处理就行。处理器内部的寄存器，缓存等资源，需要处理器从设计开始，就要为所有资源定义安全级别。被保护的资源对于来自调试模块的未授权访问会被禁止。只有通过安全启动链，安全世界的软件才能打开寄存器SDER，从而允许外部仿真器影响被保护的安全世界资源和处理器运行状态，访问被保护的资源。

那处理器内部的资源是怎么划分的？以ARMv8举例，如下图：

这幅图相信很多人都看到过。ARMv8的处理器被分成四个特权等级，通常EL0跑用户态程序，EL1内核，EL2虚拟机。EL0-1分为安全与非安全，EL3只有安全世界，EL2不区分，两个世界的切换必须经过EL3。我们谈到的处理器内部资源，包括寄存器，缓存，异常，MMU，很多都会分组，组之间看不到或者低级不可访问高级，从而保证安全。没有分组的，比如通用寄存器，就需要软件来维护，防止非安全世界的看到安全世界的数据。

引起安全切换的会有几种可能：中断和SMC指令。中断分为如下几种情况：

非安全世界下，在EL1或者EL0，当一个非安全中断来临，那么系统没必要切换安全状态，作为一般中断处理，切到EL1即可。

非安全世界下，在EL1或者EL0，当一个安全中断来临，那么系统必须先切到EL3，不然就没法做安全世界切换。

安全世界下，在EL1或者EL0，当一个安全中断来临，没必要做安全世界切换，作为一般中断处理，切到EL1即可。

安全世界下，在EL1或者EL0，当一个非安全中断来临，那么系统必须先切到EL3，不然就没法做安全世界切换。

当跳到EL3的Secure Monitor程序处理上下文切换时，IRQ/FIQ中断屏蔽位不起作用，哪怕打开了也不会触发，直到Secure Monitor处理完，向下跳到相应的安全世界EL1时，才会让原来的中断屏蔽恢复，从而触发中断。此时处理中断的是安全世界的中断程序，处于被保护的内存区域，杜绝非安全世界的程序篡改。

那怎样触发安全与非安全中断呢？这在中断控制器里有定义，早年的定义中只有FIQ可以作为安全中断，后期的可配置，并且，相应的安全世界配置寄存器只有在处理器的安全世界中才可以访问。

SMC指令和中断触发类似，只不过软件就可以触发，切换到Secure Monitor。这里，非安全软件可以提出触发请求，在通用寄存器填入参数，却无法控制安全世界的处理程序做什么，也依然看不到被保护内存数据。所以防止数据泄密的任务就靠安全操作系统了。

至此，安全启动后的基本硬件防护已经完成，但如果你以为这就是Trustzone，那就错了，精彩的在后面。

我们可以把Trustzone放到实际应用里面看看是不是可行。以DRM举例，如下图：

在播放授权视频的时候，视频流来自网络或者闪存，它们不需要在安全世界，因为数据本身就是加密过的。然后被解密并放到被保护内存，等待解码。上图中，密码保护和解密是通过安全硬件模块Crypto来完成的，这个我们以后再分析，先处理解密完成后的视频流。此时有两种方案：

第一中，非常自然的，可以把所有的过程在安全世界完成，那么图形处理器，视频处理器和显示模块必须都工作在安全世界，能访问安全世界的数据，才能完成工作。可这样就带来一个问题，那就是驱动。我们知道，图形处理器的驱动是非常复杂的，并且手机上只存在Linux和windows下的图形驱动，和OpenGL ES/DirectX配合。

而安全世界的操作系统（TEE，Trusted Execution Environment）是完全不兼容的安全系统，甚至有的都不支持SMP，完全不存在可能性把图形驱动移植上去，也没有任何意义。这样的话，就只能把图形处理器从流程中挖掉，只留下相对简单也不需要生态的视频和显示模块的驱动，工作在安全世界，而GPU的输出送到显示模块，由显示模块进行混合。

这是一种可行的方案，也确实有公司这么做。但是从长远看，图形处理器总是会参与到这个过程的，别的不说，只说VR和AR流行以后，要是虚拟个显示屏出来，上面播放视频，然后放在一个虚拟出的房间，那他们之间肯定是要进行互动的，此时显示模块就需要把视频图层送回GPU进行运算。如果GPU不在安全世界，那就会造成泄密。

为了解决上述问题，有了第二种解决方案，称作TZMP1（Trustzone Media Protection 1），引入了保护世界的概念。

保护世界工作于非安全世界，这样才能兼容图形驱动。那安全怎么办？它需要添加四根管脚NSAID，类似于安全世界的PROT信号，只不过做了更细的划分，使得GPU/视频/显示模块要访问被保护内存时，预先定义好了权限。而这个权限的设置，也是通过前文的TZC400来实现的，在安全启动链中就完成。CPU的权限通常是0，也就是最低。而显示控制器权限是只读。

这样一来，我们之前的老问题，恶意缓存监听，又回来了。在新的A73和G71加CCI500/550总线系统里，可以支持双向硬件一致性。这意味着GPU也能被监听。这下大家都在非安全世界，缓存里的安全位不起作用，怎么解决？这需要总线的配合。

ARM的总线CCI500/550，有一个保护模式，打开后，不光支持上文的NSAID管脚，还可以在监听的时候，把监听传输替换成缓存行无效化命令，直接让目标把相应缓存行无效化。这样一来，数据还是需要从内存读取，保证安全。并且这个过程对软件透明，无需做任何改动。

可是此时，辛辛苦苦设计的硬件一致性就完全起不到加速作用了，性能受到影响。好在运行OpenGL ES的时候，GPU是不会发出共享传输的，CPU也不会没事去监听GPU的数据。而下一代的图形接口Vulkan，会开始使用GPU双向一致性，那时候会有影响。还有一点不利的是，如果同时运行OpenCL和DRM，OpenCL也用不上双向硬件一致性，必须重启系统切换到非保护模式才行。

还有，在实际使用中，现有的TZC400作为内存保护模块，有几个致命的缺陷。

第一，它的配置只能在启动时完成，无法动态改变，也就是说，一旦某块内存给了安全世界，就无法再被非安全世界的操作系统使用，哪怕它是空闲的。在4K视频播放时，需要分配几百兆内存，还不止一块。

如果一直被占着，这对于4GB内存手机来说是个沉重的负担。怎么解决？只能改成动态配置。此时，如果内存不够了，非安全操作系统提请求给安全系统，让它把暂时不用的物理内存设到非保护内存区，并定个时间收回。不过这样一来内存分配机制就复杂了，说不定还得改内核，很危险。

如果忽视这点，继续往下走，还会遇到第二个问题。TZC400和它的改进版最多只能支持最小颗粒度为2MB的内存块管理。为什么不弄细些呢？很简单，如果设成4KB，和系统页大小一致，那么4GB的物理内存就需要一百万条目来管理。如果做成片上内存，比二级缓存还大，不现实。

而做内存映射，就和MMU一样了，经过CPU的MMU后，数据访问还要再穿越一次MMU，延迟显然大。此外，这一层的MMU无法利用一二级缓存放页表，效率极低。如果继续保持2MB的颗粒，那么在分配内存的时候，很快就会因为块太大而用完。就算使用了上一节的方法，问题也没法很好解决。这就是TZMP2V1。

在这种情况下，第三种基于虚拟机的方案就出现了。不过这个方案基本上推翻了Trustzone最初的设计意图，我们来看下图：

在这里，作为内存保护的TZC400完全移除，而系统MMU加了进来。内存保护怎么做？靠物理地址重映射。先看处理器。在启动链中，从EL3向EL2跳的过程时，就定义好保护内存，并且EL2,也就是虚拟机的页表存放于保护内存，EL1的安全页也同样放在保护内存。

这样，当处理器进入到EL1，哪怕通过篡改EL1非安全页表的安全位，也最终会被映射到它所不能访问的安全内存，从而起到保护作用。同样的，给处于非安全世界的控制器也加上系统MMU，让设备虚拟化，同样可以控制安全。这就是TZMP2V2。有了系统MMU，页表可以做成4KB大小了，也不用担心CPU那里穿越两次MMU。这时候，也不用担心恶意监听缓存，因为所有穿过二级MMU的访问里，安全位都是经过检验的的。

但是，不看别的，光是为设备加入这些系统MMU，就会增加很多面积。还有，光加MMU不够，还要加入系统的三级甚至四级缓存，才能让MMU效率更高，不然延迟太大。当然，如果设备使用的页表并不很多，可以对MMU简化，比如增大最小颗粒度，减少映射范围，直接使用片内内存。这需要系统设计者来做均衡。对于GPU来说，要支持双向一致性，还得考虑让监听传输通过MMU，不然功能就出问题了。

如果使用了TZMP2V2，那么虚拟化就变成了一个切实需求。然后会发现，ARM的中断和设备的虚拟化还很不完善。接下来我从硬件角度解释下虚拟化。

说到虚拟化，先要解释系统MMU。

如上图所示，系统MMU其实很简单，就是个二层地址转换。第一层，虚地址到实地址，第二层，实地址到物理地址。请注意，没有第二层转换时，实地址等同于物理地址。这个模块既可以两层都打开，也可以只开一层，看情况而定。

上图比较清楚的显示了一层映射的过程。其中，设备发出的虚地址请求，会先经过TLB，它里面存了以前访问过的页表项，如果有，就直接返回，没有就往下走到第二步table walk。

第二步里，MMU会按照预设的多级基址寄存器，一级级访问到最终页表。如果MMU位于CPU内，那table walk过程中每次访问的基址和表项，都可以存放于缓存中，大大提高效率。如果在设备上，只有内建的TLB表项，后面没有缓存，那未命中TLB的都是访问DDR，效率自然下降。

所以CPU和GPU等经常访存的设备，都是自带第一层MMU和缓存。而对于没有内部MMU，切换页表又不是很频繁的设备，比如DMA控制器，可以在下面挂第一层MMU，此时驱动就简单了，直接把应用程序看到的虚地址给DMA的寄存器就行，MMU会自己按照基地址去查找相应页表并翻译，把实地址送到总线。不然，驱动还要自己查找实地址再写入寄存器。

我们前面说过，在TZMP1和TZMP2v1中，内存保护是靠TZC400来完成的。而到了TZMP2v2，取消了TZC400，这时靠虚拟化的二层地址映射。

二层映射的过程和一层映射基本一样，不再详述，但是性能问题会被放大。假设在一层中，经过四级基址查到最终页，而在二层中，这每一级的基址查找，又会引入新的四级基址访问。所以至少要经过4x4+4=20次访存，才能确定物理地址。如果没有缓存的帮助，效率会非常低。

其他可行的办法是减少基址级数，比如linux只用了三级页表，但即使如此，也需要3x3+3=12次查找。在包含缓存的ARM CPU上，虚拟机的效率可以做到80%以上。而二层MMU应用于设备实现设备虚拟化的时候，就需要小心设计了。

有了系统MMU，我们就有了全芯片虚拟化的基础。那在对系统性能和成本做完平衡，采取合适的系统MMU设计之后，是不是就可以实现虚拟化，并且靠虚拟化实现安全了？没那么容易，还有其它问题需要考虑。

虚拟化脱胎于仿真器，就是在一个平台上模拟出另一个平台。在指令集相同的时候，没有必要翻译每一条指令，可以让指令直接被硬件执行，这样指令的效率算是得到了解决。当然，对于某些特殊指令和寄存器访问，还是需要hypervisor处理的。接着第二个问题，访存。

我们前面解释过，对CPU来说，高效的虚拟化访存，就是让指令高效的经过两层翻译，而不是每次访存都需要触发虚拟机EL2的异常，切到Hypervisor，再得到最终物理地址。这一点在没有缺页异常的时候，ARM的虚拟化也已经做到了，而有缺页异常时还是需要Hypervisor处理。再接着是设备访存虚拟化，有了系统MMU，也可以高效做到。再就是处理器和设备中断虚拟化。

最后，设备的虚拟化需要管理，那设备本身需要支持虚拟设备号和虚拟中断号。更多内容请期待。

ARM Cortex-A15的性能

预计 Cortex-A15 MPCore 处理器的移动配置所能提供的性能是当前的高端智能手机性能的五倍还多，是基于 ARM 处理器的基础结构平台的总性能的 10 倍还多，同时还具有 ARM 标志性的低功耗特性。预计的特定于应用的实现方案示例在下面列出：智能手机和移动计算使用范围：1 GHz - 1.5 GHz 单核和双核配置

设备特性：灵活的性能：即时 Web 浏览、高带宽操作

提高媒体和浮点浮点性能

最佳功耗：扩大了低功率范围并延长了电池使用寿命

更丰富的体验：控制台品质的游戏、导航、增强现实应用数字家庭娱乐使用范围：1 GHz - 2 GHz 双核或四核配置

设备特性：高端性能：通用和媒体性能

密集流

媒体、图形和计算工作负载。

最佳功耗、散热：无风扇操作、energyStar

更大的物理内存：附加内存大于 4GB 家用服务器和 Web 2.0 服务器使用范围：1.5GHz-2.5 GHz 四核配置

设备特性：高性能：高端高能效单线程和 MP

高扩展性： SoC 一致性，确保高性能和高能效。

虚拟化支持：支持高效虚拟机和访问 4GB 以上的物理内存无线基础结构使用范围：1.5GHz-2.5 GHz 四核、八核或更高配置

设备特性：性能：高端整数、浮点数性能

可伸缩性： “大集成” 4 个核。TCO 更低。

大内存设备：支持最高 1TB、硬件虚拟化支持

可靠性：错误纠正、软故障恢复、监视设备完整性 Cortex-A15 MPCore 体系结构 ARMv7-A Cortex 多核单处理器群集中的 1-4X SMP

通过 AMBAreg; 4 技术实现多个一致的 SMP 处理器群集 ISA 支持 ARM

Thumb-2

TrustZonereg; 安全技术

NEON™ 高级 SIMD

DSP SIMD 扩展

VFPv4 浮点

Jazellereg; RCT

硬件虚拟化支持

大物理地址扩展 (LPAE) 内存管理 ARMv7 内存管理单元调试和跟踪 CoreSight™ DK-A15 Cortex-A15 MPCore 主要功能 Thumb-2 技术可为传统 ARM 代码提供最高性能，对于存储指令占用的内存，最多可节省 30% 的空间。 TrustZone 技术确保安全应用的可靠实现，适合从数字版权管理到电子支付等应用。获得技术和行业合作伙伴的广泛支持 NEON NEON 技术可加速多媒体和信号处理算法（如视频编码/解码、2D/3D 图形、游戏、音频和语音处理、图像处理技术、电话和声音合成） DSP SIMD 扩展增加高性能应用中 ARM 解决方案的 DSP 处理能力，同时通过便携式、电池电源设备提供所需的低功耗。DSP 扩展经过优化，适用于范围广泛的软件应用，包括伺服马达控制、VoIP 和视频音频编解码器。浮点对半精度、单精度和双精度浮点算法中的浮点操作提供硬件支持。Cortex-A15 处理器的浮点功能增强了下一代消费类产品（如 Internet 设备、机顶盒和家用网关）中使用的浮点算法的性能。 Jazelle RCT 最多可使即时生产 (JIT) 和提前编译的字节码语言的代码大小缩小 3 倍，以便提高传统虚拟机的速度硬件虚拟化 Cortex-A15 MPCore 处理器是首个融合了针对数据管理和仲裁的高效硬件支持的 ARM 处理器，通过此方式，多个软件环境及其应用程序将能够同时访问系统功能。这样，就实现了可靠、具有相互隔离的虚拟环境的设备。大物理地址扩展 (LPAE) 大物理地址扩展 (LPAE) 的引入允许处理器可访问最大 1TB 内存。优化的 1 级高速缓存性能和功率优化的 L1 高速缓存结合了最低访问延迟技术，可以在最大程度上提高性能和降低功耗。高速缓存中的 32KB 用于指令，32KB 用于数据。还为实现高速缓存一致性提供了增强处理器间通信的选项或支持富 SMP 功能操作系统的选项，以便简化多核软件开发集成、可配置大小的 2 级高速缓存控制器在高频率设计或需要降低与芯片外内存访问关联的功耗的设计中，最多可对 4 MB 高速缓存内存提供低延迟、高带宽访问可靠性和软故障恢复 Cortex-A15 处理器内的所有 RAM（包括 L1 和 L2 高速缓存）都受奇偶校验和 ECC 错误纠正功能的保护。此机制可纠正单位错误、检测双位错误和日志错误。ECC 支持不会影响常见情况（无错误） AMBAreg; 4 高速缓存一致性互连 (CCI) CCI 提供符合 AMBA 4 AXI™ 一致性扩展 (ACE) 的端口，以在多个 Cortex-A15 MPCore 处理器之间实现完全一致，可以更好地利用高速缓存并简化软件开发。此功能对于高带宽应用是必需的，包括需要一致的单核和多核处理器的群集的游戏、服务器和网络。CCI 与 ARM CoreLink™ 网络互连和内存控制器 IP 相结合，提高了系统性能和能效。 Cortex-A15 NEON 媒体处理引擎 (MPE) Cortex-A15 MPE 提供了一个引擎，该引擎可同时提供 Cortex-A15 浮点单元的性能和功能以及 NEON 高级 SIMD 指令集实现，以便进一步提高媒体和信号处理功能的速度。MPE 扩展了 Cortex-A15 处理器的浮点单元 (FPU) 以提供一个 quad-MAC 以及附加的 64 位和 128 位寄存器集，在每个周期 8 位、16 位和 32 位整型以及 32 位浮点数据量的基础上支持一组丰富的 SIMD 操作。 Cortex-A15 浮点单元 (FPU) FPU 提供了与 ARM VFPv4 体系结构兼容的高性能的单双精度浮点指令，该体系结构是与上一代 ARM 浮点协处理器兼容的软件。高级多核功能该处理器还利用得到广泛认可的 ARM MPCore 多核技术，支持性能可伸缩性并可控制功耗，超过现今类似的高性能设备的性能，同时能够在严格限制移动电源的情况下维持运行。多核处理功能为任何四个组成处理器提供了在不使用时关闭的功能，例如，当设备处于待机模式时关闭以节省功耗。当需要更高性能时，将利用所有处理器以满足需求，同时仍分享工作负载以保持尽可能低的功耗。侦测控制单元 SCU 负责管理互连、仲裁、通信、高速缓存之间的传输和系统内存传输、高速缓存一致性以及处理器的其他功能。Cortex-A15 MPCore 处理器还向其他系统加速器和非缓存 DMA 驱动的外设公开这些功能，以便提高性能并降低系统范围内的功耗。这一系统一致性还可降低在各个操作系统驱动程序中维持软件一致性所涉及的软件复杂性。加速器一致性端口 SCU 上的此 AMBA 4 AXI™ 兼容的辅助接口为主机提供了一个互连点，这些互接点更易于直接连接 Cortex-A15 处理器。该接口支持所有标准读写事务，而没有其他一致性要求。但是，针对一致的内存区域的任何读事务都会与 SCU 交互，以测试信息是否已存储在 L1 高速缓存中。SCU 将在写入数据转发到内存系统之前强制其保持一致性，并可能将该事务分配到 L2 高速缓存，从而消除了直接写入对片外内存产生的功耗和性能影响通用中断控制器实现标准化、基于架构的中断控制器后，GIC 可提供内容丰富、使用灵活的方式来中断处理器间通信以及路由系统中断和确定其优先次序。在软件控制下，最多支持 224 次独立中断，每次中断均可在 CPU 之间分布，经过硬件确定优先级，然后在操作系统和 TrustZone 软件管理层之间路由。借助虚拟机监控程序，此路由灵活性以及支持虚拟化操作系统中断这一特性赋予了增强解决方案功能所需的其中一个主要功能。 Cortex-A15 MPCore 处理器融合了各种各样的 ARM 技术并由这些技术提供支持，包括系统 IP、物理 IP 和开发工具。此技术由来自 ARM Connected Conmmunity ™ 的各种不同 SoC 和软件设计解决方案、工具和服务提供补充，为 ARM 合作伙伴提供了一个涵盖全功能开发、验证和生产的通道，增加了设备的吸引力同时显著缩短了上市时间。

ARM A15架构

ARM Cortex™-A15 MPCore™ 处理器提供前所未有的处理功能，与低功耗特性相结合，在 ARM 的各种新市场和现有市场上成就了卓越的产品，这些市场包括移动计算、高端数字家电、服务器和无线基础结构。

Cortex-A15 MPCore 处理器是Cortex-a 系列处理器的最新成员，确保在应用方面与所有其他获得高度赞誉的 Cortex-A 处理器完全兼容。这样，就可以立即访问已得到认可的开发平台和软件体系，包括 Android™、Adobe® Flash® Player、Java Platform Standard Edition (Java SE)、JavaFX、Linux、Microsoft Windows Embedded、Symbian 和 Ubuntu 以及 700 多个 ARM Connected Community ™ 成员，这些成员提供应用软件、硬件和软件开发工具、中间件以及 SoC 设计服务。

Cortex-A15 MPCore 处理器具有无序超标量管道，带有紧密耦合的低延迟 2 级高速缓存，该高速缓存的大小最高可达 4MB。浮点和NEON™ 媒体性能方面的其他改进使设备能够为消费者提供下一代用户体验，并为 Web 基础结构应用提供高性能计算。

预计 Cortex-A15 MPCore 处理器的移动配置所能提供的性能是当前的高级智能手机性能的五倍还多。在高级基础结构应用中，Cortex-A15 的运行速度最高可达 2.5GHz，这将支持在不断降低功耗、散热和成本预算方面实现高度可伸缩的解决方案。

应用：高级智能手机

移动计算

高端数字家庭娱乐

无线基础结构

低功耗服务器

随着以 Web2.0 为中心的设备日益复杂，需要设备支持多种软件特性并能够组合各不相同的功能。为此，Cortex-A15 MPCore 处理器引入了 ARM 的新技术，该技术支持高效处理复杂的软件环境，包括完全硬件虚拟化、大物理地址扩展 (LPAE)，最高可实现 1TB 内存，并具有针对容错和软故障恢复的错误纠正功能。

Cortex-A15 MPCore 处理器是首个融合了针对数据管理和仲裁的高效硬件支持的 ARM 处理器，支持多个软件环境及其应用程序同时访问系统功能。这样，就实现了可靠、具有相互隔离的虚拟环境的设备。

高通Krait架构的arm处理器支持硬件虚拟化技术吗?

我也找不到准确的资料，但我倾向krait有硬件虚拟化。

标准arm里，a7，a15，a12，a17，a53，a57都有Hardware virtualization，和lpae似乎是配搭的。

苹果的cyclone和cyclone2是有trust zone，而trust zone的原理也是硬件虚拟化。

krait本身的资料没有直接提及Hardware virtualization，但是有提及过一个virtualization，是否是Hardware virtualization就没有明确。个人倾向是Hardware virtualization。

总结一下，个人认为swift，scorpion是不支持Hardware virtualization，因为连trust zone都没有。

stm32的arm内核和cortex架构到底是什么意思？有什么区别？求指教！

ARM处理器：英国Acorn有限公司设计的低功耗成本的第一款RISC微处理器。全称为Advanced RISC Machine。ARM处理器本身是32位设计，但也配备16位指令集，一般来讲比等价32位代码节省达35%，却能保留32位系统的所有优势。

cortex架构：ARM公司在经典处理器ARM11以后的产品改用Cortex命名，并分成A、R和M三类，旨在为各种不同的市场提供服务。

arm内核和cortex架构的区别：

1、构架不一样：

arm内核：RM处理器本身是32位设计，但也配备16位指令集。

cortex架构：属于ARMv7架构，这是到2010年为止ARM公司最新的指令集架构。

2、应用领域不一样：

arm内核：在CISC指令集的各种指令中，大约有20%的指令会被反复使用，占整个程序代码的80%。而余下的指令却不经常使用，在程序设计中只占20%。

cortex架构：于应用领域不同，基于v7架构的Cortex处理器系列所采用的技术也不相同，基于v7A的称为Cortex-A系列，基于v7R的称为Cortex-R系列，基于v7M的称为Cortex-M系列。

扩展资料：

cortex架构的特点：

Cortex-A15 和 Cortex-A7 都支持 ARMv7A 架构的扩展，从而为大型物理地址访问和硬件虚拟化以及处理 AMBA4 ACE 一致性提供支持。同时，这些都支持big.LITTLE 处理。

ARM在Cortex-A系列处理器大体上可以排序为：Cortex-A57处理器、Cortex-A53处理器、Cortex-A15处理器、Cortex-A9处理器、Cortex-A8处理器、Cortex-A7处理器、Cortex-A5处理器、ARM11处理器、ARM9处理器、ARM7处理器，再往低的部分手机产品中基本已经不再使用，这里就不再介绍。

需要指出的是，单从命名数字来看Cortex-A7似乎比A8和A9低端，但是从ARM的官方数据看，A7的架构和工艺都是仿照A15来做的，单个性能超过A8并且能耗控制很好。另外A57和A53属于ARMv8架构。

参考资料来源：百度百科-cortex

参考资料来源：百度百科-ARM

关于《arm kvm虚拟化》的介绍到此就结束了。

arm