好看的历史书籍推荐,辰东完美世界有声小说,好看的课外书

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

深入探究Linux文件系統(tǒng)與塊設(shè)備(linux文件系統(tǒng)塊設(shè)備)

Linux文件系統(tǒng)是Linux操作系統(tǒng)的核心組成部分之一，是用戶和應(yīng)用程序能夠訪問和操作數(shù)據(jù)的關(guān)鍵。與傳統(tǒng)文件系統(tǒng)不同，Linux文件系統(tǒng)利用塊設(shè)備來存儲和管理文件。本文將，包括文件系統(tǒng)的組成部分、塊設(shè)備的原理及其在文件系統(tǒng)中的應(yīng)用。

讓客戶滿意是我們工作的目標(biāo)，不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡單的方式提供給客戶，將通過不懈努力成為客戶在信息化領(lǐng)域值得信任、有價值的長期合作伙伴，公司提供的服務(wù)項(xiàng)目有：空間域名、虛擬主機(jī)、營銷軟件、網(wǎng)站建設(shè)、江源網(wǎng)站維護(hù)、網(wǎng)站推廣。

一、文件系統(tǒng)組成部分

Linux文件系統(tǒng)由多個組成部分構(gòu)成，每個部分都有其特定的作用。以下是各個組成部分的簡要介紹。

1. Superblock（超級塊）

超級塊是文件系統(tǒng)的元數(shù)據(jù)，記錄著文件系統(tǒng)的基本信息。包括文件系統(tǒng)的類型、容量、塊大小、inode數(shù)量、掛載時間以及訪問權(quán)限等。超級塊的位置固定在文件系統(tǒng)的之一個塊上，因此是文件系統(tǒng)查詢的入口。

2. Inode（索引節(jié)點(diǎn)）

Inode存儲文件和目錄的元數(shù)據(jù)信息，例如文件的大小、所有者、創(chuàng)建時間、修改時間、訪問權(quán)限等信息。Inode本身沒有存儲文件的數(shù)據(jù)，而是記錄文件所在的位置，即數(shù)據(jù)塊的地址。每一個文件和目錄都有一個唯一的inode號，通過該號碼可以找到所對應(yīng)的元數(shù)據(jù)。

3. 數(shù)據(jù)塊

數(shù)據(jù)塊是存儲實(shí)際文件數(shù)據(jù)的區(qū)域。數(shù)據(jù)塊的大小是可配置的，通常為4KB或8KB，并根據(jù)文件大小動態(tài)擴(kuò)展。文件數(shù)據(jù)不一定存儲在連續(xù)的數(shù)據(jù)塊中，當(dāng)文件大小超過一個塊時，其數(shù)據(jù)將被分散存儲到多個不同的數(shù)據(jù)塊中。

4. 目錄

目錄是一種特殊的文件，用于存儲文件名和對應(yīng)inode號的映射關(guān)系。每個目錄都有一個inode號，記錄著該目錄中所包含的所有文件和子目錄的信息。

5. 文件

文件是指存儲在文件系統(tǒng)中的應(yīng)用程序或用戶數(shù)據(jù)。文件的數(shù)據(jù)存儲在一個或多個數(shù)據(jù)塊中，其元數(shù)據(jù)信息存儲在所對應(yīng)的inode中。

二、塊設(shè)備原理

塊設(shè)備是一種大容量存儲設(shè)備，如硬盤、U盤、光盤等。塊設(shè)備按照塊大小劃分成多個邏輯塊，每個邏輯塊包含一定數(shù)量的數(shù)據(jù)和元數(shù)據(jù)信息。在Linux中，塊設(shè)備由驅(qū)動程序和文件系統(tǒng)來管理，文件系統(tǒng)利用驅(qū)動程序提供的接口與塊設(shè)備交互。

塊設(shè)備的讀寫操作是按照塊的大小進(jìn)行的。當(dāng)應(yīng)用程序需要訪問塊設(shè)備時，首先將指令傳遞給文件系統(tǒng)，文件系統(tǒng)再將指令傳遞給設(shè)備驅(qū)動程序。驅(qū)動程序通過硬件控制器從物理設(shè)備中讀取或?qū)懭霐?shù)據(jù)，然后將處理好的數(shù)據(jù)返回給文件系統(tǒng)，文件系統(tǒng)再將數(shù)據(jù)返回給應(yīng)用程序。

塊設(shè)備通常包含多個分區(qū)，每個分區(qū)都是一個獨(dú)立的邏輯卷。每個分區(qū)有一個超級塊，記錄著該分區(qū)的基本信息。文件系統(tǒng)以分區(qū)為單位進(jìn)行管理，每個分區(qū)都有一個自己獨(dú)立的inode表，用于記錄分區(qū)內(nèi)文件和目錄的信息。

塊設(shè)備容量的大小取決于其硬件規(guī)格和文件系統(tǒng)的類型和配置。在Linux中，常用的文件系統(tǒng)類型包括ext4、xfs、btrfs等。不同的文件系統(tǒng)類型支持不同的特性和性能，選擇適合自己需求的文件系統(tǒng)非常重要。

三、文件系統(tǒng)與塊設(shè)備的應(yīng)用

Linux文件系統(tǒng)與塊設(shè)備的應(yīng)用非常廣泛，常用于服務(wù)器、桌面及嵌入式等各種應(yīng)用場景。以下是文件系統(tǒng)和塊設(shè)備在各種場景中的應(yīng)用舉例。

1. 服務(wù)器

在服務(wù)器中，文件系統(tǒng)通常用于存儲服務(wù)器所提供的服務(wù)數(shù)據(jù)，例如Web服務(wù)器的網(wǎng)頁文件、文件服務(wù)器的文件共享等。服務(wù)器中的塊設(shè)備通常具有更高的容量和性能，以滿足多用戶的需求。在服務(wù)器中，適當(dāng)?shù)奈募到y(tǒng)和塊設(shè)備配置可以提高服務(wù)性能和安全性。

2. 桌面

在桌面應(yīng)用中，文件系統(tǒng)和塊設(shè)備用于存儲和管理用戶的數(shù)據(jù)。桌面中通常使用較小容量的塊設(shè)備，例如硬盤、SSD或U盤等。文件系統(tǒng)的選擇通?；谛阅?、可靠性和易用性等因素。常見的桌面文件系統(tǒng)包括ext4、ntfs、fat32等。

3. 嵌入式

在嵌入式系統(tǒng)中，文件系統(tǒng)和塊設(shè)備用于存儲系統(tǒng)的程序和數(shù)據(jù)。由于嵌入式設(shè)備通常具有有限的資源，文件系統(tǒng)和塊設(shè)備必須用于更大化存儲效率和系統(tǒng)性能。嵌入式系統(tǒng)中常用的文件系統(tǒng)包括jffs2、ubifs、yaffs等。

結(jié)語

Linux文件系統(tǒng)和塊設(shè)備是Linux操作系統(tǒng)的核心組成部分，其作用被廣泛應(yīng)用于各種場景。為了達(dá)到更佳的性能和可靠性，選擇合適的文件系統(tǒng)和塊設(shè)備是非常關(guān)鍵的。本文通過深入探究Linux文件系統(tǒng)和塊設(shè)備的組成部分和原理，希望能夠增加大家對這方面知識的了解和認(rèn)識。

相關(guān)問題拓展閱讀：

文件系統(tǒng)和磁盤工作原理
如何提高Linux下塊設(shè)備IO的整體性能
如何使用Linux塊設(shè)備分區(qū)創(chuàng)建A

文件系統(tǒng)和磁盤工作原理

Linux 文件系統(tǒng)為每個文件都分配兩個數(shù)據(jù)結(jié)構(gòu)，索引節(jié)點(diǎn)和目錄項(xiàng)。它們主要用來記錄文件的元信息和目錄結(jié)構(gòu)。

目錄項(xiàng)、索引節(jié)點(diǎn)、邏輯塊以及超級塊，構(gòu)成了 Linux 文件系統(tǒng)的四大基本要素。

不氏謹(jǐn)檔過，為了支持各種不同的文件系統(tǒng)，Linux 內(nèi)核在用戶進(jìn)程和文件系統(tǒng)的中間，又引入了一個抽象層，也就是虛擬文件系統(tǒng) VFS（Virtual File System）。

這些文件系統(tǒng)，要先掛載到 VFS 目錄樹中的某個子目錄（稱為掛載點(diǎn)），然后才能訪問其中的文件。

機(jī)械磁盤晌培的最小讀寫單位是扇區(qū)，一般大小為 512 字節(jié)。如果每次都讀寫 512 字節(jié)這么小的單位的話，效率很低。所以，文件系統(tǒng)會把連續(xù)的扇區(qū)或頁，組成邏輯塊，然后以邏輯塊作為最小單元來管理數(shù)據(jù)。常見的邏輯塊的大小是 4KB。

在 Linux 中，磁盤實(shí)際上是作為一個塊設(shè)備來管理的。虛擬文件系統(tǒng) VFS 類似，為了減小不同塊設(shè)備的差異帶來的影響，Linux 通過一個統(tǒng)一的通用塊層，來管理各種不同的塊設(shè)備。

通用塊層，其實(shí)是處在文件系統(tǒng)和磁盤驅(qū)動中間的一個塊設(shè)備抽象層：

可以把 Linux 存儲系統(tǒng)的 I/O 棧，由上到下分為三個層次，分別是文件系統(tǒng)層、通用塊層和設(shè)備層。這三個 I/O 層的關(guān)系如下圖所示：

根據(jù)這張 I/O 棧的全景圖，可以更清楚地理解，存儲系統(tǒng) I/O 的工作原理：

存儲系統(tǒng)的 I/O ，通常是整個系統(tǒng)中最慢的一環(huán)；所以， Linux 通過多種緩存機(jī)制來優(yōu)化 I/O 效率。比如說：

為了優(yōu)化文件訪問的性能，會使用頁緩存、索引節(jié)點(diǎn)緩存、目錄項(xiàng)緩存等多種緩存機(jī)制，以減少對下層塊設(shè)備的直接調(diào)用。

同樣，為了優(yōu)化殲亂塊設(shè)備的訪問效率，會使用緩沖區(qū)，來緩存塊設(shè)備的數(shù)據(jù)。

如何提高Linux下塊設(shè)備IO的整體性能

前言：本文主要講解Linux IO調(diào)度層的三種模式：cfp、deadline和noop，并給出各自的優(yōu)化和適用場景建議掘歷。

IO調(diào)度發(fā)生在Linux內(nèi)核的IO調(diào)度層。租檔這個層次是針對Linux的整體IO層次體系來說的。從read()或者write()系統(tǒng)調(diào)用的角度來說，Linux整體IO體系可以分為七層，它們分別是：

VFS層：虛擬文件系統(tǒng)層。由于內(nèi)核要跟多種文件系統(tǒng)打交道，而每一種文件系統(tǒng)所實(shí)現(xiàn)的數(shù)據(jù)結(jié)構(gòu)和相關(guān)方法都可能不盡相同，所以，內(nèi)核抽象了這一層，專門用來適配各種文件系統(tǒng)，并對外提供統(tǒng)一操作接口。

文件系統(tǒng)層：不同的文件系統(tǒng)實(shí)現(xiàn)自己的操作過程，提供自己特有的特征，具體不多說了，大家愿意的話自己去看代碼即可。

頁緩存層：負(fù)責(zé)真對page的緩存。

通用塊層：由于絕大多數(shù)情況的io操作是跟塊設(shè)備打交道，所以Linux在此提供了一個類似vfs層的塊設(shè)備操作抽象層。下層對接各種不同屬性的塊設(shè)備，對上提供統(tǒng)一的Block IO請求標(biāo)準(zhǔn)。

IO調(diào)度層：因?yàn)榻^大多數(shù)的塊設(shè)備都是類似磁盤這樣的設(shè)備，所以有必要根據(jù)這類設(shè)備的特點(diǎn)以及應(yīng)用的不同特點(diǎn)來設(shè)置一些不同的調(diào)度算法和隊(duì)列。以便在不同的應(yīng)用環(huán)境下有針對性的提高磁盤的讀寫效率，這里就是大名鼎鼎的Linux電梯所起作用的地方。針對機(jī)械硬盤的各種調(diào)度方法就是在這實(shí)現(xiàn)的。

塊設(shè)備驅(qū)動層：驅(qū)動層對外提供相對比較高級的設(shè)備操作接口，往往是C語言的，而下層對接設(shè)備本身的操作方法和規(guī)范。

塊設(shè)備層：這層就是具體的物理設(shè)備了，定義了各種真對設(shè)備操作方法和規(guī)范。

有一個已經(jīng)整理好的，非常經(jīng)典，一圖勝千言：

我們今天要研究的內(nèi)容主要在IO調(diào)度這一層。

它要解決的核心問題是，如何提高塊設(shè)備IO的整體性能？這一層也主要是針對機(jī)械硬盤結(jié)構(gòu)而設(shè)計的。

眾所周知，機(jī)械硬盤的存儲介質(zhì)是磁盤，磁頭在盤片上移動進(jìn)行磁道尋址，行為類似播放一張唱片。

這種結(jié)構(gòu)的特點(diǎn)是，順序訪問時吞吐量較高，但是如果一旦對盤片有隨機(jī)訪問，那么大量的時間都會浪費(fèi)在磁頭的移動上，這時候就會導(dǎo)致每次IO的響應(yīng)時間變長，極大的降低IO的響應(yīng)速度。

磁頭在盤片上尋道的操作，類似電梯調(diào)度，實(shí)際上在最開始的時期，Linux把這個算法命名為Linux電梯算法，即：

如果在尋道的過程中，能把順序路過的相關(guān)磁道的數(shù)據(jù)請求都“順便”處理掉，那么就可以在比較小影響響應(yīng)速度的前提下，提高整體IO的吞吐量。

這就是我們?yōu)槭裁匆O(shè)計IO調(diào)度算法的原因。

目前在內(nèi)核中默認(rèn)開啟了三種算法/模式：noop，cfq和deadline。嚴(yán)格算應(yīng)該是兩種：

因?yàn)橹环N叫做noop，就是空操作調(diào)度算法，也就是沒有任何調(diào)度操作，并不對io請求進(jìn)行排序，僅僅做適當(dāng)?shù)膇o合并的一個fifo隊(duì)列。

目前內(nèi)核中默認(rèn)的調(diào)度算法應(yīng)該是cfq，叫做完全公平隊(duì)列調(diào)度。這個調(diào)度算法人如其名，它試圖給所有進(jìn)程提供一個完全公平的IO操作環(huán)境。

注：請大家一定記住這個詞語，cfq，完全公平隊(duì)列調(diào)度，不然下文就沒法看了。

cfq為每個進(jìn)程創(chuàng)建一個同步IO調(diào)度隊(duì)列，并默認(rèn)以時間片和請求數(shù)限定的方式分配IO資源，以此保證每個進(jìn)程的IO資源占用是公平的，cfq還實(shí)現(xiàn)了針對進(jìn)程級別的優(yōu)先級調(diào)度，這個我們后面會詳細(xì)解釋。

查看和修改IO調(diào)度算法的方法是：

cfq是通用服務(wù)器比較好的IO調(diào)度算法選擇，對桌面用戶也是比較好的選擇。

但是對于很多IO壓力較大的場景就并不是判型搜很適應(yīng)，尤其是IO壓力集中在某些進(jìn)程上的場景。

因?yàn)檫@種場景我們需要更多的滿足某個或者某幾個進(jìn)程的IO響應(yīng)速度，而不是讓所有的進(jìn)程公平的使用IO，比如數(shù)據(jù)庫應(yīng)用。

deadline調(diào)度（最終期限調(diào)度）就是更適合上述場景的解決方案。deadline實(shí)現(xiàn)了四個隊(duì)列：

其中兩個分別處理正常read和write，按扇區(qū)號排序，進(jìn)行正常io的合并處理以提高吞吐量。因?yàn)镮O請求可能會集中在某些磁盤位置，這樣會導(dǎo)致新來的請求一直被合并，可能會有其他磁盤位置的io請求被餓死。

另外兩個處理超時read和write的隊(duì)列，按請求創(chuàng)建時間排序，如果有超時的請求出現(xiàn)，就放進(jìn)這兩個隊(duì)列，調(diào)度算法保證超時（達(dá)到最終期限時間）的隊(duì)列中的請求會優(yōu)先被處理，防止請求被餓死。

不久前，內(nèi)核還是默認(rèn)標(biāo)配四種算法，還有一種叫做as的算法（Anticipatory scheduler），預(yù)測調(diào)度算法。一個高大上的名字，搞得我一度認(rèn)為Linux內(nèi)核都會算命了。

結(jié)果發(fā)現(xiàn)，無非是在基于deadline算法做io調(diào)度的之前等一小會時間，如果這段時間內(nèi)有可以合并的io請求到來，就可以合并處理，提高deadline調(diào)度的在順序讀寫情況下的數(shù)據(jù)吞吐量。

其實(shí)這根本不是啥預(yù)測，我覺得不如叫撞大運(yùn)調(diào)度算法，當(dāng)然這種策略在某些特定場景差效果不錯。

但是在大多數(shù)場景下，這個調(diào)度不僅沒有提高吞吐量，還降低了響應(yīng)速度，所以內(nèi)核干脆把它從默認(rèn)配置里刪除了。畢竟Linux的宗旨是實(shí)用，而我們也就不再這個調(diào)度算法上多費(fèi)口舌了。

1、cfq：完全公平隊(duì)列調(diào)度

cfq是內(nèi)核默認(rèn)選擇的IO調(diào)度隊(duì)列，它在桌面應(yīng)用場景以及大多數(shù)常見應(yīng)用場景下都是很好的選擇。

如何實(shí)現(xiàn)一個所謂的完全公平隊(duì)列（Completely Fair Queueing）？

首先我們要理解所謂的公平是對誰的公平？從操作系統(tǒng)的角度來說，產(chǎn)生操作行為的主體都是進(jìn)程，所以這里的公平是針對每個進(jìn)程而言的，我們要試圖讓進(jìn)程可以公平的占用IO資源。

那么如何讓進(jìn)程公平的占用IO資源？我們需要先理解什么是IO資源。當(dāng)我們衡量一個IO資源的時候，一般喜歡用的是兩個單位，一個是數(shù)據(jù)讀寫的帶寬，另一個是數(shù)據(jù)讀寫的IOPS。

帶寬就是以時間為單位的讀寫數(shù)據(jù)量，比如，100Mbyte/s。而IOPS是以時間為單位的讀寫次數(shù)。在不同的讀寫情境下，這兩個單位的表現(xiàn)可能不一樣，但是可以確定的是，兩個單位的任何一個達(dá)到了性能上限，都會成為IO的瓶頸。

從機(jī)械硬盤的結(jié)構(gòu)考慮，如果讀寫是順序讀寫，那么IO的表現(xiàn)是可以通過比較少的IOPS達(dá)到較大的帶寬，因?yàn)榭梢院喜⒑芏郔O，也可以通過預(yù)讀等方式加速數(shù)據(jù)讀取效率。

當(dāng)IO的表現(xiàn)是偏向于隨機(jī)讀寫的時候，那么IOPS就會變得更大，IO的請求的合并可能性下降，當(dāng)每次io請求數(shù)據(jù)越少的時候，帶寬表現(xiàn)就會越低。

從這里我們可以理解，針對進(jìn)程的IO資源的主要表現(xiàn)形式有兩個：進(jìn)程在單位時間內(nèi)提交的IO請求個數(shù)和進(jìn)程占用IO的帶寬。

其實(shí)無論哪個，都是跟進(jìn)程分配的IO處理時間長度緊密相關(guān)的。

有時業(yè)務(wù)可以在較少IOPS的情況下占用較大帶寬，另外一些則可能在較大IOPS的情況下占用較少帶寬，所以對進(jìn)程占用IO的時間進(jìn)行調(diào)度才是相對最公平的。

即，我不管你是IOPS高還是帶寬占用高，到了時間咱就換下一個進(jìn)程處理，你愛咋樣咋樣。

所以，cfq就是試圖給所有進(jìn)程分配等同的塊設(shè)備使用的時間片，進(jìn)程在時間片內(nèi)，可以將產(chǎn)生的IO請求提交給塊設(shè)備進(jìn)行處理，時間片結(jié)束，進(jìn)程的請求將排進(jìn)它自己的隊(duì)列，等待下次調(diào)度的時候進(jìn)行處理。這就是cfq的基本原理。

當(dāng)然，現(xiàn)實(shí)生活中不可能有真正的“公平”，常見的應(yīng)用場景下，我們很肯能需要人為的對進(jìn)程的IO占用進(jìn)行人為指定優(yōu)先級，這就像對進(jìn)程的CPU占用設(shè)置優(yōu)先級的概念一樣。

所以，除了針對時間片進(jìn)行公平隊(duì)列調(diào)度外，cfq還提供了優(yōu)先級支持。每個進(jìn)程都可以設(shè)置一個IO優(yōu)先級，cfq會根據(jù)這個優(yōu)先級的設(shè)置情況作為調(diào)度時的重要參考因素。

優(yōu)先級首先分成三大類：RT、BE、IDLE，它們分別是實(shí)時（Real Time）、更佳效果（Best Try）和閑置（Idle）三個類別，對每個類別的IO，cfq都使用不同的策略進(jìn)行處理。另外，RT和BE類別中，分別又再劃分了8個子優(yōu)先級實(shí)現(xiàn)更細(xì)節(jié)的QOS需求，而IDLE只有一個子優(yōu)先級。

另外，我們都知道內(nèi)核默認(rèn)對存儲的讀寫都是經(jīng)過緩存（buffer/cache）的，在這種情況下，cfq是無法區(qū)分當(dāng)前處理的請求是來自哪一個進(jìn)程的。

只有在進(jìn)程使用同步方式（sync read或者sync wirte）或者直接IO（Direct IO）方式進(jìn)行讀寫的時候，cfq才能區(qū)分出IO請求來自哪個進(jìn)程。

所以，除了針對每個進(jìn)程實(shí)現(xiàn)的IO隊(duì)列以外，還實(shí)現(xiàn)了一個公共的隊(duì)列用來處理異步請求。

當(dāng)前內(nèi)核已經(jīng)實(shí)現(xiàn)了針對IO資源的cgroup資源隔離，所以在以上體系的基礎(chǔ)上，cfq也實(shí)現(xiàn)了針對cgroup的調(diào)度支持。

總的來說，cfq用了一系列的數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)了以上所有復(fù)雜功能的支持，大家可以通過源代碼看到其相關(guān)實(shí)現(xiàn)，文件在源代碼目錄下的block/cfq-iosched.c。

1.1 cfq設(shè)計原理

在此，我們對整體數(shù)據(jù)結(jié)構(gòu)做一個簡要描述：首先，cfq通過一個叫做cfq_data的數(shù)據(jù)結(jié)構(gòu)維護(hù)了整個調(diào)度器流程。在一個支持了cgroup功能的cfq中，全部進(jìn)程被分成了若干個contral group進(jìn)行管理。

每個cgroup在cfq中都有一個cfq_group的結(jié)構(gòu)進(jìn)行描述，所有的cgroup都被作為一個調(diào)度對象放進(jìn)一個紅黑樹中，并以vdisktime為key進(jìn)行排序。

vdisktime這個時間紀(jì)錄的是當(dāng)前cgroup所占用的io時間，每次對cgroup進(jìn)行調(diào)度時，總是通過紅黑樹選擇當(dāng)前vdisktime時間最少的cgroup進(jìn)行處理，以保證所有cgroups之間的IO資源占用“公平”。

當(dāng)然我們知道，cgroup是可以對blkio進(jìn)行資源比例分配的，其作用原理就是，分配比例大的cgroup占用vdisktime時間增長較慢，分配比例小的vdisktime時間增長較快，快慢與分配比例成正比。

這樣就做到了不同的cgroup分配的IO比例不一樣，并且在cfq的角度看來依然是“公平“的。

選擇好了需要處理的cgroup（cfq_group）之后，調(diào)度器需要決策選擇下一步的service_tree。

service_tree這個數(shù)據(jù)結(jié)構(gòu)對應(yīng)的都是一系列的紅黑樹，主要目的是用來實(shí)現(xiàn)請求優(yōu)先級分類的，就是RT、BE、IDLE的分類。每一個cfq_group都維護(hù)了7個service_trees，其定義如下：

其中service_tree_idle就是用來給IDLE類型的請求進(jìn)行排隊(duì)用的紅黑樹。

而上面二維數(shù)組，首先之一個維度針對RT和BE分別各實(shí)現(xiàn)了一個數(shù)組，每一個數(shù)組中都維護(hù)了三個紅黑樹，分別對應(yīng)三種不同子類型的請求，分別是：SYNC、SYNC_NOIDLE以及ASYNC。

我們可以認(rèn)為SYNC相當(dāng)于SYNC_IDLE并與SYNC_NOIDLE對應(yīng)。idling是cfq在設(shè)計上為了盡量合并連續(xù)的IO請求以達(dá)到提高吞吐量的目的而加入的機(jī)制，我們可以理解為是一種“空轉(zhuǎn)”等待機(jī)制。

空轉(zhuǎn)是指，當(dāng)一個隊(duì)列處理一個請求結(jié)束后，會在發(fā)生調(diào)度之前空等一小會時間，如果下一個請求到來，則可以減少磁頭尋址，繼續(xù)處理順序的IO請求。

為了實(shí)現(xiàn)這個功能，cfq在service_tree這層數(shù)據(jù)結(jié)構(gòu)這實(shí)現(xiàn)了SYNC隊(duì)列，如果請求是同步順序請求，就入隊(duì)這個service tree，如果請求是同步隨機(jī)請求，則入隊(duì)SYNC_NOIDLE隊(duì)列，以判斷下一個請求是否是順序請求。

所有的異步寫操作請求將入隊(duì)ASYNC的service tree，并且針對這個隊(duì)列沒有空轉(zhuǎn)等待機(jī)制。

此外，cfq還對SSD這樣的硬盤有特殊調(diào)整，當(dāng)cfq發(fā)現(xiàn)存儲設(shè)備是一個ssd硬盤這樣的隊(duì)列深度更大的設(shè)備時，所有針對單獨(dú)隊(duì)列的空轉(zhuǎn)都將不生效，所有的IO請求都將入隊(duì)SYNC_NOIDLE這個service tree。

每一個service tree都對應(yīng)了若干個cfq_queue隊(duì)列，每個cfq_queue隊(duì)列對應(yīng)一個進(jìn)程，這個我們后續(xù)再詳細(xì)說明。

cfq_group還維護(hù)了一個在cgroup內(nèi)部所有進(jìn)程公用的異步IO請求隊(duì)列，其結(jié)構(gòu)如下：

異步請求也分成了RT、BE、IDLE這三類進(jìn)行處理，每一類對應(yīng)一個cfq_queue進(jìn)行排隊(duì)。

BE和RT也實(shí)現(xiàn)了優(yōu)先級的支持，每一個類型有IOPRIO_BE_NR這么多個優(yōu)先級，這個值定義為8，數(shù)組下標(biāo)為0-7。

我們目前分析的內(nèi)核代碼版本為Linux 4.4，可以看出，從cfq的角度來說，已經(jīng)可以實(shí)現(xiàn)異步IO的cgroup支持了，我們需要定義一下這里所謂異步IO的含義，它僅僅表示從內(nèi)存的buffer/cache中的數(shù)據(jù)同步到硬盤的IO請求，而不是aio(man 7 aio)或者linux的native異步io以及l(fā)ibaio機(jī)制，實(shí)際上這些所謂的“異步”IO機(jī)制，在內(nèi)核中都是同步實(shí)現(xiàn)的（本質(zhì)上馮諾伊曼計算機(jī)沒有真正的“異步”機(jī)制）。

我們在上面已經(jīng)說明過，由于進(jìn)程正常情況下都是將數(shù)據(jù)先寫入buffer/cache，所以這種異步IO都是統(tǒng)一由cfq_group中的async請求隊(duì)列處理的。

那么為什么在上面的service_tree中還要實(shí)現(xiàn)和一個ASYNC的類型呢？

這當(dāng)然是為了支持區(qū)分進(jìn)程的異步IO并使之可以“完全公平”做準(zhǔn)備嘍。

實(shí)際上在最新的cgroup v2的blkio體系中，內(nèi)核已經(jīng)支持了針對buffer IO的cgroup限速支持，而以上這些可能容易混淆的一堆類型，都是在新的體系下需要用到的類型標(biāo)記。

新體系的復(fù)雜度更高了，功能也更加強(qiáng)大，但是大家先不要著急，正式的cgroup v2體系，在Linux 4.5發(fā)布的時候會正式跟大家見面。

我們繼續(xù)選擇service_tree的過程，三種優(yōu)先級類型的service_tree的選擇就是根據(jù)類型的優(yōu)先級來做選擇的，RT優(yōu)先級更高，BE其次，IDLE更低。就是說，RT里有，就會一直處理RT，RT沒了再處理BE。

每個service_tree對應(yīng)一個元素為cfq_queue排隊(duì)的紅黑樹，而每個cfq_queue就是內(nèi)核為進(jìn)程（線程）創(chuàng)建的請求隊(duì)列。

每一個cfq_queue都會維護(hù)一個rb_key的變量，這個變量實(shí)際上就是這個隊(duì)列的IO服務(wù)時間（service time）。

這里還是通過紅黑樹找到service time時間最短的那個cfq_queue進(jìn)行服務(wù)，以保證“完全公平”。

選擇好了cfq_queue之后，就要開始處理這個隊(duì)列里的IO請求了。這里的調(diào)度方式基本跟deadline類似。

cfq_queue會對進(jìn)入隊(duì)列的每一個請求進(jìn)行兩次入隊(duì)，一個放進(jìn)fifo中，另一個放進(jìn)按訪問扇區(qū)順序作為key的紅黑樹中。

默認(rèn)從紅黑樹中取請求進(jìn)行處理，當(dāng)請求的延時時間達(dá)到deadline時，就從紅黑樹中取等待時間最長的進(jìn)行處理，以保證請求不被餓死。

這就是整個cfq的調(diào)度流程，當(dāng)然其中還有很多細(xì)枝末節(jié)沒有交代，比如合并處理以及順序處理等等。

1.2 cfq的參數(shù)調(diào)整

理解整個調(diào)度流程有助于我們決策如何調(diào)整cfq的相關(guān)參數(shù)。所有cfq的可調(diào)參數(shù)都可以在/sys/class/block/sda/queue/iosched/目錄下找到，當(dāng)然，在你的系統(tǒng)上，請將sda替換為相應(yīng)的磁盤名稱。我們來看一下都有什么：

這些參數(shù)部分是跟機(jī)械硬盤磁頭尋道方式有關(guān)的，如果其說明你看不懂，請先補(bǔ)充相關(guān)知識：

back_seek_max:磁頭可以向后尋址的更大范圍，默認(rèn)值為16M。

back_seek_penalty:向后尋址的懲罰系數(shù)。這個值是跟向前尋址進(jìn)行比較的。

以上兩個是為了防止磁頭尋道發(fā)生抖動而導(dǎo)致尋址過慢而設(shè)置的。基本思路是這樣，一個io請求到來的時候，cfq會根據(jù)其尋址位置預(yù)估一下其磁頭尋道成本。

設(shè)置一個更大值back_seek_max，對于請求所訪問的扇區(qū)號在磁頭后方的請求，只要尋址范圍沒有超過這個值，cfq會像向前尋址的請求一樣處理它。

再設(shè)置一個評估成本的系數(shù)back_seek_penalty，相對于磁頭向前尋址，向后尋址的距離為1/2(1/back_seek_penalty)時，cfq認(rèn)為這兩個請求尋址的代價是相同。

這兩個參數(shù)實(shí)際上是cfq判斷請求合并處理的條件限制，凡事復(fù)合這個條件的請求，都會盡量在本次請求處理的時候一起合并處理。

fifo_expire_async:設(shè)置異步請求的超時時間。

同步請求和異步請求是區(qū)分不同隊(duì)列處理的，cfq在調(diào)度的時候一般情況都會優(yōu)先處理同步請求，之后再處理異步請求，除非異步請求符合上述合并處理的條件限制范圍內(nèi)。

當(dāng)本進(jìn)程的隊(duì)列被調(diào)度時，cfq會優(yōu)先檢查是否有異步請求超時，就是超過fifo_expire_async參數(shù)的限制。如果有，則優(yōu)先發(fā)送一個超時的請求，其余請求仍然按照優(yōu)先級以及扇區(qū)編號大小來處理。

fifo_expire_sync:這個參數(shù)跟上面的類似，區(qū)別是用來設(shè)置同步請求的超時時間。

slice_idle:參數(shù)設(shè)置了一個等待時間。這讓cfq在切換cfq_queue或service tree的時候等待一段時間，目的是提高機(jī)械硬盤的吞吐量。

一般情況下，來自同一個cfq_queue或者service tree的IO請求的尋址局部性更好，所以這樣可以減少磁盤的尋址次數(shù)。這個值在機(jī)械硬盤上默認(rèn)為非零。

當(dāng)然在固態(tài)硬盤或者硬RAID設(shè)備上設(shè)置這個值為非零會降低存儲的效率，因?yàn)楣虘B(tài)硬盤沒有磁頭尋址這個概念，所以在這樣的設(shè)備上應(yīng)該設(shè)置為0，關(guān)閉此功能。

group_idle:這個參數(shù)也跟上一個參數(shù)類似，區(qū)別是當(dāng)cfq要切換cfq_group的時候會等待一段時間。

在cgroup的場景下，如果我們沿用slice_idle的方式，那么空轉(zhuǎn)等待可能會在cgroup組內(nèi)每個進(jìn)程的cfq_queue切換時發(fā)生。

這樣會如果這個進(jìn)程一直有請求要處理的話，那么直到這個cgroup的配額被耗盡，同組中的其它進(jìn)程也可能無法被調(diào)度到。這樣會導(dǎo)致同組中的其它進(jìn)程餓死而產(chǎn)生IO性能瓶頸。

在這種情況下，我們可以將slice_idle ＝ 0而group_idle ＝ 8。這樣空轉(zhuǎn)等待就是以cgroup為單位進(jìn)行的，而不是以cfq_queue的進(jìn)程為單位進(jìn)行，以防止上述問題產(chǎn)生。

low_latency:這個是用來開啟或關(guān)閉cfq的低延時（low latency）模式的開關(guān)。

當(dāng)這個開關(guān)打開時，cfq將會根據(jù)target_latency的參數(shù)設(shè)置來對每一個進(jìn)程的分片時間（slice time）進(jìn)行重新計算。

這將有利于對吞吐量的公平（默認(rèn)是對時間片分配的公平）。

關(guān)閉這個參數(shù)（設(shè)置為0）將忽略target_latency的值。這將使系統(tǒng)中的進(jìn)程完全按照時間片方式進(jìn)行IO資源分配。這個開關(guān)默認(rèn)是打開的。

我們已經(jīng)知道cfq設(shè)計上有“空轉(zhuǎn)”（idling）這個概念，目的是為了可以讓連續(xù)的讀寫操作盡可能多的合并處理，減少磁頭的尋址操作以便增大吞吐量。

如果有進(jìn)程總是很快的進(jìn)行順序讀寫，那么它將因?yàn)閏fq的空轉(zhuǎn)等待命中率很高而導(dǎo)致其它需要處理IO的進(jìn)程響應(yīng)速度下降，如果另一個需要調(diào)度的進(jìn)程不會發(fā)出大量順序IO行為的話，系統(tǒng)中不同進(jìn)程IO吞吐量的表現(xiàn)就會很不均衡。

就比如，系統(tǒng)內(nèi)存的cache中有很多臟頁要寫回時，桌面又要打開一個瀏覽器進(jìn)行操作，這時臟頁寫回的后臺行為就很可能會大量命中空轉(zhuǎn)時間，而導(dǎo)致瀏覽器的小量IO一直等待，讓用戶感覺瀏覽器運(yùn)行響應(yīng)速度變慢。

這個low_latency主要是對這種情況進(jìn)行優(yōu)化的選項(xiàng)，當(dāng)其打開時，系統(tǒng)會根據(jù)target_latency的配置對因?yàn)槊锌辙D(zhuǎn)而大量占用IO吞吐量的進(jìn)程進(jìn)行限制，以達(dá)到不同進(jìn)程IO占用的吞吐量的相對均衡。這個開關(guān)比較合適在類似桌面應(yīng)用的場景下打開。

target_latency:當(dāng)low_latency的值為開啟狀態(tài)時，cfq將根據(jù)這個值重新計算每個進(jìn)程分配的IO時間片長度。

quantum:這個參數(shù)用來設(shè)置每次從cfq_queue中處理多少個IO請求。在一個隊(duì)列處理事件周期中，超過這個數(shù)字的IO請求將不會被處理。這個參數(shù)只對同步的請求有效。

slice_sync:當(dāng)一個cfq_queue隊(duì)列被調(diào)度處理時，它可以被分配的處理總時間是通過這個值來作為一個計算參數(shù)指定的。公式為：time_slice = slice_sync + (slice_sync/5 * (4 – prio))。這個參數(shù)對同步請求有效。

slice_async:這個值跟上一個類似，區(qū)別是對異步請求有效。

slice_async_rq:這個參數(shù)用來限制在一個slice的時間范圍內(nèi)，一個隊(duì)列最多可以處理的異步請求個數(shù)。請求被處理的更大個數(shù)還跟相關(guān)進(jìn)程被設(shè)置的io優(yōu)先級有關(guān)。

1.3 cfq的IOPS模式

我們已經(jīng)知道，默認(rèn)情況下cfq是以時間片方式支持的帶優(yōu)先級的調(diào)度來保證IO資源占用的公平。

高優(yōu)先級的進(jìn)程將得到更多的時間片長度，而低優(yōu)先級的進(jìn)程時間片相對較小。

當(dāng)我們的存儲是一個高速并且支持NCQ（原生指令隊(duì)列）的設(shè)備的時候，我們更好可以讓其可以從多個cfq隊(duì)列中處理多路的請求，以便提升NCQ的利用率。

此時使用時間片的分配方式分配資源就顯得不合時宜了，因?yàn)榛跁r間片的分配，同一時刻最多能處理的請求隊(duì)列只有一個。

這時，我們需要切換cfq的模式為IOPS模式。切換方式很簡單，就是將slice_idle=0即可。內(nèi)核會自動檢測你的存儲設(shè)備是否支持NCQ，如果支持的話cfq會自動切換為IOPS模式。

另外，在默認(rèn)的基于優(yōu)先級的時間片方式下，我們可以使用ionice命令來調(diào)整進(jìn)程的IO優(yōu)先級。進(jìn)程默認(rèn)分配的IO優(yōu)先級是根據(jù)進(jìn)程的nice值計算而來的，計算方法可以在man ionice中看到，這里不再廢話。

2、deadline：最終期限調(diào)度

deadline調(diào)度算法相對cfq要簡單很多。其設(shè)計目標(biāo)是：

在保證請求按照設(shè)備扇區(qū)的順序進(jìn)行訪問的同時，兼顧其它請求不被餓死，要在一個最終期限前被調(diào)度到。

我們知道磁頭對磁盤的尋道是可以進(jìn)行順序訪問和隨機(jī)訪問的，因?yàn)閷さ姥訒r時間的關(guān)系，順序訪問時IO的吞吐量更大，隨機(jī)訪問的吞吐量小。

如果我們想為一個機(jī)械硬盤進(jìn)行吞吐量優(yōu)化的話，那么就可以讓調(diào)度器按照盡量復(fù)合順序訪問的IO請求進(jìn)行排序，之后請求以這樣的順序發(fā)送給硬盤，就可以使IO的吞吐量更大。

但是這樣做也有另一個問題，就是如果此時出現(xiàn)了一個請求，它要訪問的磁道離目前磁頭所在磁道很遠(yuǎn)，應(yīng)用的請求又大量集中在目前磁道附近。

導(dǎo)致大量請求一直會被合并和插隊(duì)處理，而那個要訪問比較遠(yuǎn)磁道的請求將因?yàn)橐恢辈荒鼙徽{(diào)度而餓死。

如何使用Linux塊設(shè)備分區(qū)創(chuàng)建A

1.創(chuàng)建一個40M的洞和慧文件

dd if=/dev/棚改zero of=tfs.img bs=4k count=10240

2. 將偽設(shè)置loop0和文件tfs.img進(jìn)行關(guān)聯(lián)

losetup /dev/loop0 tfs.img

3. 將/dev/loop0格式化為ext4文件系統(tǒng)

mke2fs -t ext4 /dev/loop0

4. 將/dev/loop0掛載到/納答home/tfs/disk1上

mount -t ext4 /dev/loop0 /home/tfs/disk1/

5. 使用TFS的工具格式化disk1，本質(zhì)就是創(chuàng)建應(yīng)用層的數(shù)據(jù)文件

./stfs format 1

關(guān)于linux文件系統(tǒng) 塊設(shè)備的介紹到此就結(jié)束了，不知道你從中找到你需要的信息了嗎？如果你還想了解更多這方面的信息，記得收藏關(guān)注本站。

香港服務(wù)器選創(chuàng)新互聯(lián)，2H2G首月10元開通。
創(chuàng)新互聯(lián)（www.cdcxhl.com）互聯(lián)網(wǎng)服務(wù)提供商,擁有超過10年的服務(wù)器租用、服務(wù)器托管、云服務(wù)器、虛擬主機(jī)、網(wǎng)站系統(tǒng)開發(fā)經(jīng)驗(yàn)。專業(yè)提供云主機(jī)、虛擬主機(jī)、域名注冊、VPS主機(jī)、云服務(wù)器、香港云服務(wù)器、免備案服務(wù)器等。

分享文章：深入探究Linux文件系統(tǒng)與塊設(shè)備(linux文件系統(tǒng)塊設(shè)備)
URL地址：http://m.fisionsoft.com.cn/article/coojese.html

新聞中心

文件系統(tǒng)和磁盤工作原理

如何提高Linux下塊設(shè)備IO的整體性能

如何使用Linux塊設(shè)備分區(qū)創(chuàng)建A

其他資訊