计算机组成原理复习总结（三）多层次的存储器

第三章多层次的存储器#

本章内容较多，主要包括各种存储器及存储方式存储器，其中重点为存储器基本概念、DRAM、SRAM、cache、命中率与平均访问时间、主存与 cache 映射方式和虚存等

3.1 存储器概述#

3.1.1 存储器的分类#

存储器是计算机系统中的记忆设备，用来存放程序和数据。
存储介质：目前主要采用半导体器件和磁性材料。
存储位元：一个双稳态半导体电路或一个 CMOS 晶体管或磁性材料的存储元，均可以存储一位二进制代码。这个二进制代码位是存储器中最小的存储单位，称为存储位元
存储单元：由若干个存储位元组成一个存储单元。由许多存储单元组成一个存储器。

根据存储材料的性能和使用方法的不同，存储器有不同分类方法
（1）根据存储介质分类，分为磁表面/半导体存储器
（2）根据存取方式分类，分为随机/顺序存取（磁带）
（3）根据读写功能分类，分为只读存储器 (ROM) 和随机读写存储器 (RAM)
（4）根据信息的易失性分类：分为易失性和非易失性的
（5）根据存储器系统中的作用分类：分为主 / 辅 / 缓 / 控

3.1.2 存储器的分级#

当前存储器的特点：

速度快的存储器价格贵，容量小；
价格低的存储器速度慢，容量大。
在计算机存储器体系结构设计时，我们希望存储器的容量大、速度快、价格低，那么在存储器系统设计时，应当在存储器容量，速度和价格方面的因素作折中考虑，建立了多级存储器体系结构，如下图所示
高速缓冲存储器简称cache，它是计算机系统中的一个高速小容量半导体存储器
主存储器简称主存，是计算机系统的主要存储器，用来存放计算机运行期间的大量程序和数据。
外存储器简称外存，它是大容量辅助存储器。

3.1.3 主存储器的技术指标#

字存储单元：存放一个机器字的存储单元，相应的单元地址叫字地址。
字节存储单元：存放一个字节的单元，相应的地址称为字节地址。
存储容量：指一个存储器中可以容纳的存储单元总数。存储容量越大，能存储的信息就越多。
存取时间（又称存储器访问时间）：指一次读操作命令发出到该操作完成，将数据读出到数据总线上所经历的时间。通常取写操作时间等于读操作时间，故称为存储器存取时间。
存储周期：指连续启动两次读操作所需间隔的最小时间。通常，存储周期略大于存取时间，其时间单位为 ns。
存储器带宽：单位时间里存储器所存取的信息量，通常以位 / 秒或字节 / 秒做度量单位。

3.2 SRAM 存储器（静态读写存储器）#

目前广泛使用的主存（内部存储器）是半导体存储器。根据信息存储的机理不同可以分为两类

静态读写存储器 (SRAM)：存取速度快、但存储容量不如 DRAM 大
动态读写存储器 (DRAM)：存取速度略慢、存储容量比 SRAM 大。

3.2.1 基本的静态存储元阵列#

存储位元: 一个锁存器（触发器）。只要直流供电电源一直加到这个记忆电路上，它就无限期地保持记忆的 1 状态或 0 状态。如果电源断电，那么存储的数据（1 或 0）就会丢失。
三组信号线（重点）：地址线、数据线（行线、列线）、控制线
地址线：若为 6 条，则指定了存储器的容量为 2^6^ = 64 个存储单元
数据线：若为 4 条，则制定了存储器的字长为 4 位，因此存储位元总数为 64×4 = 256。
控制线：R/~W 控制线，指定了对存储器进行读还是写

地址译码器输出有 64 条选择线，我们称之为行线，它的作用是打开每个存储位元的输入与非门。
在这里插入图片描述

3.2.2 基本的 SRAM 逻辑结构#

SRAM 芯片大多采用双译码方式，以便组织更大的存储容量。
采用了二级译码：将地址分成 x 向、y 向两部分如图所示。
存储体（256 行 ×128 列 ×8 位）存储阵列
地址译码器
- 采用双译码的方式（减少选择线的数目）。
- A0~ A7 为行地址译码线
- A8~A14 为列地址译码线
双向数据线为 8 条

3.2.3 读 / 写周期波形图#

在这里插入图片描述

例 1: 图为 SRAM 的写入时序图。其中 R/W 是读 / 写命令控制线，当 R/W 线为低电平时，存储器按给定地址把数据线上的数据写入存储器。请指出图中写入时序中的错误，并画出正确的写入时序图。

解：写入存储器的时序信号必须同步。通常，当 R/W 线加负脉冲时，地址线和数据线的电平必须是稳定的。当 R/W 线达到低电平时，数据立即被存储。因此，当 R/W 线处于低电平时，如果数据线改变了数值，那么存储器将存储新的数据⑤。同样，当 R/W 线处于低电平时地址线如果发生了变化，那么同样数据将存储到新的地址②或③。
正确的写入时序图见图 (b)。

3.3 DRAM 存储器（动态读写存储器）#

SRAM 存储器的存储元是一个触发器，它具有两个稳定的状态。
而 DRAM 存储器的存储元是由一个 MOS 晶体管和电容器组成的记忆电路。
MOS 管做为开关使用所存储的信息为 1 或 0 则是由电容器上的电荷量来体现。

当电容器充满电荷时，代表存储了 1；
当电容器放电没有电荷时，代表存储了 0

DRAM 与 SRAM 不同的是

增加了行地址锁存器和列地址锁存器。由于 DRAM 存储器容量很大，地址线宽度相应要增加，这势必增加芯片地址线的管脚数目。为避免这种情况，采取的办法是分时传送地址码。若地址总线宽度为 10 位，先传送地址码 A0～A9，由行选通信号 RAS 打入到行地址锁存器；然后传送地址码 A10～A19，由列选通信号 CAS 打入到列地址锁存器。芯片内部两部分合起来，地址线宽度达 20 位，存储容量为 1M×4 位。
增加了刷新计数器和相应的控制电路。DRAM 读出后必须刷新，而未读写的存储元也要定期刷新，而且要按行刷新，所以刷新计数器的长度等于行地址锁存器。刷新操作与读 / 写操作是交替进行的，所以通过 2 选 1 多路开关来提供刷新行地址或正常读 / 写的行地址。

3.3.3 读 / 写周期、刷新周期（重点）#

读 / 写周期#

读周期、写周期的定义是从行选通信号 RAS 下降沿开始，到下一个 RAS 信号的下降沿为止的时间，也就是连续两个读周期的时间间隔。通常为控制方便，读周期和写周期时间相等。
在这里插入图片描述

刷新周期#

DRAM 存储位元是基于电容器上的电荷量存储，这个电荷量随着时间和温度而减少，因此必须定期地刷新，以保持它们原来记忆的正确信息。
刷新操作有两种刷新方式：集中式刷新与分散式刷新

集中式刷新#

DRAM 的所有行在每一个刷新周期中都被刷新。例如刷新周期为 8ms 的内存来说，所有行的集中式刷新必须每隔 8ms 进行一次。为此将 8ms 时间分为两部分：前一段时间进行正常的读 / 写操作，后一段时间（8ms 至正常读 / 写周期时间）做为集中刷新操作时间。

分散式刷新#

每一行的刷新插入到正常的读 / 写周期之中。例如 p70 图 3.7 所示的 DRAM 有 1024 行，如果刷新周期为 8ms，则每一行必须每隔 8ms÷1024=7.8us 进行一次。分散式刷新不存在死时间！

3.4 只读存储器（ROM）和闪速存储器 (FLASH)#

1、掩模 ROM（MROM)#

存储内容固定的 ROM，由生产厂家提供产品。一旦 ROM 芯片做成，就不能改变其中的存储内容用于存储广泛使用的具有标准功能的程序或数据，或用户定做的具有特殊功能的程序或数据（这些程序或数据均使用二进制码）

优点：可靠性和集成度高，价格便宜
缺点：不能重写

2、可编程 ROM#

用户可修改其存储内容
根据编程操作的不同，可编程 ROM 可分为

一次可编程 (PROM)
特点：用户可自行改变产品中某些存储元，用户可编程一次。
优点：可以根据用户需要编程
缺点：只能一次性改写
光擦可编程 (EPROM)
存储内容可以根据需要写入，当需要更新时将原存储内容抹去，再写入新的内容。
电擦可编程 (EEPROM)

3、FLASH 存储器#

FLASH 存储器也翻译成闪速存储器，它是高密度非易失性的读 / 写存储器。
高密度意味着它具有巨大比特数目的存储容量。
非易失性意味着存放的数据在没有电源的情况下可以长期保存。
既有 RAM 的优点，又有 ROM 的优点，称得上是存储技术划时代的进展。

FLASH 存储器的基本操作有编程操作、读取操作、擦除操作

3.5 并行存储器（重点）#

由于 CPU 和主存储器之间在速度上是不匹配的，这种情况成为限制高速计算机设计的主要问题。
为了提高 CPU 和主存之间的数据传输率，除了主存采用更高速的技术来缩短读出时间外，还可以采用并行技术的存储器。
双端口存储器 ——空间并行技术
多模块交叉存储器 ——时间并行技术

3.5.1 双端口存储器#

1、双端口存储器的逻辑结构#

双端口存储器由于同一个存储器具有两组相互独立的读写控制电路而得名。
由于进行并行的独立操作，因而是一种高速工作的存储器，在科研和工程中非常有用。
举例说明，双端口存储器 IDT7133 的逻辑框图。如下页图。
在这里插入图片描述

2、无冲突读写控制#

当两个端口的地址不相同时，在两个端口上进行读写操作，一定不会发生冲突。
当任一端口被选中驱动时，就可对整个存储器进行存取，每一个端口都有自己的片选控制 (CE) 和输出驱动控制 (OE)。
读操作时，端口的 OE (低电平有效) 打开输出驱动器，由存储矩阵读出的数据就出现在 I/O 线上。

3、有冲突读写控制#

当两个端口同时存取存储器同一存储单元时，便发生读写冲突。
为解决此问题，特设置了 BUSY 标志。在这种情况下，片上的判断逻辑可以决定对哪个端口优先进行读写操作，而对另一个被延迟的端口置 BUSY 标志 (BUSY 变为低电平)，即暂时关闭此端口。

3.5.2 多模块交叉存储器#

1、存储器的模块化组织#

一个由若干个模块组成的主存储器是线性编址的。这些地址在各模块中如何安排，有两种方式：一种是顺序方式，一种是交叉方式 在这里插入图片描述
[例] M0－M3 共四个模块，则每个模块 8 个字
顺序方式：　　M0：0-7
　　　　　　　M1：8-15
　　　　　　　M2：16-23
　　　　　　　M3：24-31
5 位地址组织如下： X X X X X
　高位选模块，低位选块内地址

特点：某个模块进行存取时，其他模块不工作。
优点：某一模块出现故障时，其他模块可以照常工作，通过增添模块来扩充存储器容量比较方便。
缺点：各模块串行工作，存储器的带宽受到了限制。

[例] M0－M3 共四个模块，则每个模块 8 个字
交叉方式：　　　M0：0，4，…… 除以 4 余数为 0
　　　　　　　　M1：1，5，…… 除以 4 余数为 1
　　　　　　　　M2：2，6，…… 除以 4 余数为 2
　　　　　　　　M3：3，7，…… 除以 4 余数为 3
5 位地址组织如下： X X X X X
高位选块内地址，低位选模块

特点：连续地址分布在相邻的不同模块内，同一个模块内的地址都是不连续的。
优点：对连续字的成块传送可实现多模块流水式并行存取，大大提高存储器的带宽。使用场合为成批数据读取。

2、多模块交叉存储器的基本结构#

下图为四模块交叉存储器结构框图。主存被分成 4 个相互独立、容量相同的模块 M0，M1，M2，M3，每个模块都有自己的读写控制电路、地址寄存器和数据寄存器，各自以等同的方式与 CPU 传送信息。在理想情况下，如果程序段或数据块都是连续地在主存中存取，那么将大大提高主存的访问速度。
在这里插入图片描述

3.6 cache 存储器（重点）#

3.6.1 cache 基本原理#

1、cache 的功能#

为了解决CPU 和主存之间的速度不匹配问题而采用的一项重要技术
介于 CPU 和主存之间的小容量高速缓冲存储器
基于程序访问的局部性原理
能高速地向 CPU 提供指令和数据，从而加快了程序的执行速度。
为追求高速，包括管理在内的全部功能由硬件实现。

程序访问的局部性原理#

在一个较短的时间间隔内，程序对局部范围的存储器地址的频繁访问，而对局部范围以外的地址访问甚少的现象，称为程序的局部性。
一般 cache 采用高速的 SRAM 制作，其价格比主存贵，但因其容量远小于主存，因此能较好地解决速度和价格的矛盾。

2、cache 基本原理#

cache 的设计依据这次访问过的数据，下次有很大的可能也是访问附近的数据。(程序访问的局部性)
CPU 与 Cache 之间的数据交换是以字为单位
主存与 Cache 之间的数据交换是以块为单位
CPU 读取内存中一个字时，便发出此字的内存地址到 Cache 和主存。此时 Cache 控制逻辑依据地址判断此字当前是否在 Cache 中。若是，此字立即传送给 CPU; 若非，则用主存读周期把此字从主存读出送到 CPU，与此同时，把含有这个字的整个数据块从主存读出送到 cache 中。

下图中，cache 分为 4 行，每行 4 个字。分配给 cache 的地址存在一个相联存储器 CAM中，它是按内容寻址的存储器。当 CPU 执行访存指令时，就把所要访问的字的地址送到 CAM 和主存。送到 CAM 的地址按内容进行比较判断，若该字不在 cache 中，则从主存找到这个字，并将该字从主存传送到 CPU。与此同时，把包含该字的前后相继的 4 个字的一行数据送入 cache。
在这里插入图片描述

3、cache 结构#

Cache 的数据块称为行，用 L~i~ 表示，其中 i=0, 1, … , m-1
主存的数据块称为块，用 B~j~ 表示，其中 j=0, 1, … , n-1
行与块是等长的，每行 (块) 包含 k 个主存字
Cache 由数据存储器和标签存储器组成
- 数据存储器：存放主存一个数据块的数据
- 标签存储器：保存数据所在主存的地址信息

4、命中与未命中#

命中：

主存块调入缓存
主存块与缓存块建立了对应关系
用标记记录与某缓存块建立了对应关系的主存块号

未命中：

主存块未调入缓存
主存块与缓存块未建立对应关系

命中率：

从 CPU 来看，增加一个 cache 的目的，就是在性能上使主存的平均读出时间尽可能接近 cache 的读出时间。
为了达到这个目的，在所有的存储器访问中由 cache 满足 CPU 需要的部分应占很高的比例，即 cache 的命中率应接近于 1。
在一个程序执行期间，设 Nc 表示cache 完成存取的总次数，Nm 表示主存完成存取的总次数，h定义为命中率，则有 h = Nc /（ Nc + Nm)
若Tc表示命中时的 cache 访问时间，Tm表示未命中时的主存访问时间，1-h表示未命中率，则 cache / 主存系统的平均访问时间 Ta为： $T_a = h * T_c +(1-h) * T_m$
我们追求的目标是，以较小的硬件代价使 cache / 主存系统的平均访问时间 T~a~ 越接近 T~c~ 越好。
设r 表示主存慢于 cache 的倍率 $r = \frac{T_m}{T_c}$
e 表示访问效率，则有