計算機組成原理復習總結（三）多層次的存儲器

第三章多層次的存儲器#

本章內容較多，主要包括各種存儲器及存儲方式存儲器，其中重點為存儲器基本概念、DRAM、SRAM、cache、命中率與平均訪問時間、主存與 cache 映射方式和虛存等

3.1 存儲器概述#

3.1.1 存儲器的分類#

存儲器是計算機系統中的記憶設備，用來存放程序和數據。
存儲介質：目前主要采用半導體器件和磁性材料。
存儲位元：一個雙穩態半導體電路或一個 CMOS 晶體管或磁性材料的存儲元，均可以存儲一位二進制代碼。這個二進制代碼位是存儲器中最小的存儲單位，稱為存儲位元
存儲單元：由若干個存儲位元組成一個存儲單元。由許多存儲單元組成一個存儲器。

根據存儲材料的性能和使用方法的不同，存儲器有不同分類方法
（1）根據存儲介質分類，分為磁表面/半導體存儲器
（2）根據存取方式分類，分為隨機/順序存取（磁帶）
（3）根據讀寫功能分類，分為只讀存儲器 (ROM) 和隨機讀寫存儲器 (RAM)
（4）根據信息的易失性分類：分為易失性和非易失性的
（5）根據存儲器系統中的作用分類：分為主 / 輔 / 緩 / 控

3.1.2 存儲器的分級#

當前存儲器的特點：

速度快的存儲器價格貴，容量小；
價格低的存儲器速度慢，容量大。
在計算機存儲器體系結構設計時，我們希望存儲器的容量大、速度快、價格低，那麼在存儲器系統設計時，應當在存儲器容量，速度和價格方面的因素作折中考慮，建立了多級存儲器體系結構，如下圖所示
高速緩衝存儲器簡稱cache，它是計算機系統中的一個高速小容量半導體存儲器
主存儲器簡稱主存，是計算機系統的主要存儲器，用來存放計算機運行期間的大量程序和數據。
外存儲器簡稱外存，它是大容量輔助存儲器。

3.1.3 主存儲器的技術指標#

字存儲單元：存放一個機器字的存儲單元，相應的單元地址叫字地址。
字節存儲單元：存放一個字節的單元，相應的地址稱為字節地址。
存儲容量：指一個存儲器中可以容納的存儲單元總數。存儲容量越大，能存儲的信息就越多。
存取時間（又稱存儲器訪問時間）：指一次讀操作命令發出到該操作完成，將數據讀出到數據總線上所經歷的時間。通常取寫操作時間等於讀操作時間，故稱為存儲器存取時間。
存儲周期：指連續啟動兩次讀操作所需間隔的最小時間。通常，存儲周期略大於存取時間，其時間單位為 ns。
存儲器帶寬：單位時間里存儲器所存取的信息量，通常以位 / 秒或字節 / 秒做度量單位。

3.2 SRAM 存儲器（靜態讀寫存儲器）#

目前廣泛使用的主存（內部存儲器）是半導體存儲器。根據信息存儲的機理不同可以分為兩類

靜態讀寫存儲器 (SRAM)：存取速度快、但存儲容量不如 DRAM 大
動態讀寫存儲器 (DRAM)：存取速度略慢、存儲容量比 SRAM 大。

3.2.1 基本的靜態存儲元陣列#

存儲位元: 一個鎖存器（觸發器）。只要直流供電電源一直加到這個記憶電路上，它就無限期地保持記憶的 1 狀態或 0 狀態。如果電源斷電，那麼存儲的數據（1 或 0）就會丟失。
三組信號線（重點）：地址線、數據線（行線、列線）、控制線
地址線：若為 6 條，則指定了存儲器的容量為 2^6^ = 64 個存儲單元
數據線：若為 4 條，則制定了存儲器的字長為 4 位，因此存儲位元總數為 64×4 = 256。
控制線：R/~W 控制線，指定了對存儲器進行讀還是寫

地址譯碼器輸出有 64 條選擇線，我們稱之為行線，它的作用是打開每個存儲位元的輸入與非門。
在這裡插入圖片描述

3.2.2 基本的 SRAM 邏輯結構#

SRAM 芯片大多采用雙譯碼方式，以便組織更大的存儲容量。
采用了二級譯碼：將地址分成 x 向、y 向兩部分如圖所示。
存儲體（256 行 ×128 列 ×8 位）存儲陣列
地址譯碼器
- 采用雙譯碼的方式（減少選擇線的數目）。
- A0~ A7 為行地址譯碼線
- A8~A14 為列地址譯碼線
雙向數據線為 8 條

3.2.3 讀 / 寫周期波形圖#

在這裡插入圖片描述

例 1: 圖為 SRAM 的寫入時序圖。其中 R/W 是讀 / 寫命令控制線，當 R/W 線為低電平時，存儲器按給定地址把數據線上的數據寫入存儲器。請指出圖中寫入時序中的錯誤，並畫出正確的寫入時序圖。

解：寫入存儲器的時序信號必須同步。通常，當 R/W 線加負脈衝時，地址線和數據線的電平必須是穩定的。當 R/W 線達到低電平時，數據立即被存儲。因此，當 R/W 線處於低電平時，如果數據線改變了數值，那麼存儲器將存儲新的數據⑤。同樣，當 R/W 線處於低電平時地址線如果發生了變化，那麼同樣數據將存儲到新的地址②或③。
正確的寫入時序圖見圖 (b)。

3.3 DRAM 存儲器（動態讀寫存儲器）#

SRAM 存儲器的存儲元是一個觸發器，它具有兩個穩定的狀態。
而 DRAM 存儲器的存儲元是由一個 MOS 晶體管和電容器組成的記憶電路。
MOS 管做為開關使用所存儲的信息為 1 或 0 則是由電容器上的電荷量來體現。

當電容器充滿電荷時，代表存儲了 1；
當電容器放電沒有電荷時，代表存儲了 0

DRAM 與 SRAM 不同的是

增加了行地址鎖存器和列地址鎖存器。由於 DRAM 存儲器容量很大，地址線寬度相應要增加，這勢必增加芯片地址線的管腳數目。為避免這種情況，採取的辦法是分時傳送地址碼。若地址總線寬度為 10 位，先傳送地址碼 A0～A9，由行選通信號 RAS 打入到行地址鎖存器；然後傳送地址碼 A10～A19，由列選通信號 CAS 打入到列地址鎖存器。芯片內部兩部分合起來，地址線寬度達 20 位，存儲容量為 1M×4 位。
增加了刷新計數器和相應的控制電路。DRAM 讀出後必須刷新，而未讀寫的存儲元也要定期刷新，而且要按行刷新，所以刷新計數器的長度等於行地址鎖存器。刷新操作與讀 / 寫操作是交替進行的，所以通過 2 選 1 多路開關來提供刷新行地址或正常讀 / 寫的行地址。

3.3.3 讀 / 寫周期、刷新周期（重點）#

讀 / 寫周期#

讀周期、寫周期的定義是從行選通信號 RAS 下降沿開始，到下個 RAS 信號的下降沿為止的時間，也就是連續兩個讀周期的時間間隔。通常為控制方便，讀周期和寫周期時間相等。
在這裡插入圖片描述

刷新周期#

DRAM 存儲位元是基於電容器上的電荷量存儲，這個電荷量隨著時間和溫度而減少，因此必須定期地刷新，以保持它們原來記憶的正确信息。
刷新操作有兩種刷新方式：集中式刷新與分散式刷新

集中式刷新#

DRAM 的所有行在每一個刷新周期中都被刷新。例如刷新周期為 8ms 的內存來說，所有行的集中式刷新必須每隔 8ms 進行一次。為此將 8ms 時間分為兩部分：前一段時間進行正常的讀 / 寫操作，後一段時間（8ms 至正常讀 / 寫周期時間）做為集中刷新操作時間。

分散式刷新#

每一行的刷新插入到正常的讀 / 寫周期之中。例如 p70 圖 3.7 所示的 DRAM 有 1024 行，如果刷新周期為 8ms，則每一行必須每隔 8ms÷1024=7.8us 進行一次。分散式刷新不存在死時間！

3.4 只讀存儲器（ROM）和閃速存儲器 (FLASH)#

1、掩模 ROM（MROM)#

存儲內容固定的 ROM，由生產廠家提供產品。一旦 ROM 芯片做成，就不能改變其中的存儲內容用於存儲廣泛使用的具有標準功能的程序或數據，或用戶定做的具有特殊功能的程序或數據（這些程序或數據均使用二進制碼）

優點：可靠性和集成度高，價格便宜
缺點：不能重寫

2、可編程 ROM#

用戶可修改其存儲內容
根據編程操作的不同，可編程 ROM 可分為

一次可編程 (PROM)
特點：用戶可自行改變產品中某些存儲元，用戶可編程一次。
優點：可以根據用戶需要編程
缺點：只能一次性改寫
光擦可編程 (EPROM)
存儲內容可以根據需要寫入，當需要更新時將原存儲內容抹去，再寫入新的內容。
電擦可編程 (EEPROM)

3、FLASH 存儲器#

FLASH 存儲器也翻譯成閃速存儲器，它是高密度非易失性的讀 / 寫存儲器。
高密度意味著它具有巨大比特數目的存儲容量。
非易失性意味著存放的數據在沒有電源的情況下可以長期保存。
既有 RAM 的優點，又有 ROM 的優點，稱得上是存儲技術劃時代的進展。

FLASH 存儲器的基本操作有編程操作、讀取操作、擦除操作

3.5 並行存儲器（重點）#

由於 CPU 和主存儲器之間在速度上是不匹配的，這種情況成為限制高速計算機設計的主要問題。
為了提高 CPU 和主存之間的數據傳輸率，除了主存采用更高速的技術來縮短讀出時間外，還可以采用並行技術的存儲器。
雙端口存儲器 ——空間並行技術
多模塊交叉存儲器 ——時間並行技術

3.5.1 雙端口存儲器#

1、雙端口存儲器的邏輯結構#

雙端口存儲器由於同一個存儲器具有兩組相互獨立的讀寫控制電路而得名。
由於進行並行的獨立操作，因此是一種高速工作的存儲器，在科研和工程中非常有用。
舉例說明，雙端口存儲器 IDT7133 的邏輯框圖。如下頁圖。
在這裡插入圖片描述

2、無衝突讀寫控制#

當兩個端口的地址不相同時，在兩個端口上進行讀寫操作，一定不會發生衝突。
當任一端口被選中驅動時，就可對整個存儲器進行存取，每一個端口都有自己的片選控制 (CE) 和輸出驅動控制 (OE)。
讀操作時，端口的 OE (低電平有效) 打開輸出驅動器，由存儲矩陣讀出的數據就出現在 I/O 線上。

3、有衝突讀寫控制#

當兩個端口同時存取存儲器同一存儲單元時，便發生讀寫衝突。
為解決此問題，特設置了 BUSY 標志。在這種情況下，片上的判斷邏輯可以決定對哪個端口優先進行讀寫操作，而對另一個被延遲的端口置 BUSY 標志 (BUSY 變為低電平)，即暫時關閉此端口。

3.5.2 多模塊交叉存儲器#

1、存儲器的模塊化組織#

一個由若干個模塊組成的主存儲器是線性編址的。這些地址在各模塊中如何安排，有兩種方式：一種是順序方式，一種是交叉方式 在這裡插入圖片描述
[例] M0－M3 共四個模塊，則每個模塊 8 個字
順序方式：　　M0：0-7
　　　　　　　M1：8-15
　　　　　　　M2：16-23
　　　　　　　M3：24-31
5 位地址組織如下： X X X X X
　高位選模塊，低位選塊內地址

特點：某個模塊進行存取時，其他模塊不工作。
優點：某一模塊出現故障時，其他模塊可以照常工作，通過增添模塊來擴充存儲器容量比較方便。
缺點：各模塊串行工作，存儲器的帶寬受到了限制。

[例] M0－M3 共四個模塊，則每個模塊 8 個字
交叉方式：　　　M0：0，4，…… 除以 4 餘數為 0
　　　　　　　　M1：1，5，…… 除以 4 餘數為 1
　　　　　　　　M2：2，6，…… 除以 4 餘數為 2
　　　　　　　　M3：3，7，…… 除以 4 餘數為 3
5 位地址組織如下： X X X X X
高位選塊內地址，低位選模塊

特點：連續地址分布在相鄰的不同模塊內，同一個模塊內的地址都是不連續的。
優點：對連續字的成塊傳送可實現多模塊流水式並行存取，大大提高存儲器的帶寬。使用場合為成批數據讀取。

2、多模塊交叉存儲器的基本結構#

下圖為四模塊交叉存儲器結構框圖。主存被分成 4 個相互獨立、容量相同的模塊 M0，M1，M2，M3，每個模塊都有自己的讀寫控制電路、地址寄存器和數據寄存器，各自以等同的方式與 CPU 傳送信息。在理想情況下，如果程序段或數據塊都是連續地在主存中存取，那麼將大大提高主存的訪問速度。
在這裡插入圖片描述

3.6 cache 存儲器（重點）#

3.6.1 cache 基本原理#

1、cache 的功能#

為了解決CPU 和主存之間的速度不匹配問題而采用的一項重要技術
介於 CPU 和主存之間的小容量高速緩衝存儲器
基於程序訪問的局部性原理
能高速地向 CPU 提供指令和數據，從而加快了程序的執行速度。
為追求高速，包括管理在內的全部功能由硬件實現。

程序訪問的局部性原理#

在一個較短的時間間隔內，程序對局部範圍的存儲器地址的頻繁訪問，而對局部範圍以外的地址訪問甚少的現象，稱為程序的局部性。
一般 cache 采用高速的 SRAM 製作，其價格比主存貴，但因其容量遠小於主存，因此能較好地解決速度和價格的矛盾。

2、cache 基本原理#

cache 的設計依據這次訪問過的數據，下次有很大的可能也是訪問附近的數據。(程序訪問的局部性)
CPU 與 Cache 之間的數據交換是以字為單位
主存與 Cache 之間的數據交換是以塊為單位
CPU 讀取內存中一個字時，便發出此字的內存地址到 Cache 和主存。此時 Cache 控制邏輯依據地址判斷此字當前是否在 Cache 中。若是，此字立即傳送給 CPU; 若非，則用主存讀周期把此字從主存讀出送到 CPU，與此同時，把含有這個字的整個數據塊從主存讀出送到 cache 中。

下圖中，cache 分為 4 行，每行 4 個字。分配給 cache 的地址存在一個相聯存儲器 CAM中，它是按內容尋址的存儲器。當 CPU 執行訪存指令時，就把所要訪問的字的地址送到 CAM 和主存。送到 CAM 的地址按內容進行比較判斷，若該字不在 cache 中，則從主存找到這個字，並將該字從主存傳送到 CPU。與此同時，把包含該字的前後相繼的 4 個字的一行數據送入 cache。
在這裡插入圖片描述

3、cache 結構#

Cache 的數據塊稱為行，用 L~i~ 表示，其中 i=0, 1, … , m-1
主存的數據塊稱為塊，用 B~j~ 表示，其中 j=0, 1, … , n-1
行與塊是等長的，每行 (塊) 包含 k 個主存字
Cache 由數據存儲器和標籤存儲器組成
- 數據存儲器：存放主存一個數據塊的數據
- 標籤存儲器：保存數據所在主存的地址信息

4、命中與未命中#

命中：

主存塊調入緩存
主存塊與緩存塊建立了對應關係
用標記記錄與某緩存塊建立了對應關係的主存塊號

未命中：

主存塊未調入緩存
主存塊與緩存塊未建立對應關係

命中率：

從 CPU 來看，增加一個 cache 的目的，就是在性能上使主存的平均讀出時間盡可能接近 cache 的讀出時間。
為了達到這個目的，在所有的存儲器訪問中由 cache 滿足 CPU 需要的部分應占很高的比例，即 cache 的命中率應接近於 1。
在一個程序執行期間，設 Nc 表示cache 完成存取的總次數，Nm 表示主存完成存取的總次數，h定義為命中率，則有 h = Nc /（ Nc + Nm)
若Tc表示命中時的 cache 訪問時間，Tm表示未命中時的主存訪問時間，1-h表示未命中率，則 cache / 主存系統的平均訪問時間 Ta為： $T_a = h * T_c +(1-h) * T_m$
我們追求的目標是，以較小的硬件代價使 cache / 主存系統的平均訪問時間 T~a~ 越接近 T~c~ 越好。
設r 表示主存慢於 cache 的倍率 $r = \frac{T_m}{T_c}$
e 表示訪問效率，則有