Linux系統基礎知識:IO調度

IO調度發生在Linux內核的IO調度層。這個層次是針對Linux的整體IO層次體系來說的。從read()或者write()系統調用的角度來說,Linux整體IO體系可以分爲七層,它們分別是:

Linux系統基礎知識:IO調度

VFS層:虛擬文件系統層。由於內核要跟多種文件系統打交道,而每一種文件系統所實現的數據結構和相關方法都可能不盡相同,所以,內核抽象了這一層,專門用來適配各種文件系統,並對外提供統一操作接口。

文件系統層:不同的文件系統實現自己的操作過程,提供自己特有的特徵,具體不多說了,大家願意的話自己去看代碼即可。

  頁緩存層:負責真對page的緩存。

通用塊層:由於絕大多數情況的io操作是跟塊設備打交道,所以Linux在此提供了一個類似vfs層的塊設備操作抽象層。下層對接各種不同屬性的塊設備,對上提供統一的Block IO請求標準。

IO調度層:因爲絕大多數的塊設備都是類似磁盤這樣的設備,所以有必要根據這類設備的特點以及應用的不同特點來設置一些不同的調度算法和隊列。以便在不同的應用環境下有針對性的提高磁盤的讀寫效率,這裏就是大名鼎鼎的Linux電梯所起作用的地方。針對機械硬盤的各種調度方法就是在這實現的。

塊設備驅動層:驅動層對外提供相對比較高級的設備操作接口,往往是C語言的,而下層對接設備本身的操作方法和規範。

塊設備層:這層就是具體的物理設備了,定義了各種真對設備操作方法和規範。

  有一個已經整理好的Linux IO結構圖,非常經典,一圖勝千言:

我們今天要研究的內容主要在IO調度這一層。它要解決的核心問題是,如何提高塊設備IO的整體性能?這一層也主要是針對機械硬盤結構而設計的。衆所周知,機械硬盤的存儲介質是磁盤,磁頭在盤片上移動進行磁道尋址,行爲類似播放一張唱片。這種結構的特點是,順序訪問時吞吐量較高,但是如果一旦對盤片有隨機訪問,那麼大量的時間都會浪費在磁頭的移動上,這時候就會導致每次IO的響應時間變長,極大的降低IO的響應速度。磁頭在盤片上尋道的操作,類似電梯調度,如果在尋道的過程中,能把順序路過的相關磁道的數據請求都“順便”處理掉,那麼就可以在比較小影響響應速度的前提下,提高整體IO的吞吐量。這就是我們問什麼要設計IO調度算法的原因。在最開始的時期,Linux把這個算法命名爲Linux電梯算法。

目前在內核中默認開啓了三種算法,其實嚴格算應該是兩種,因爲第一種叫做noop,就是空操作調度算法,也就是沒有任何調度操作,並不對io請求進行排序,僅僅做適當的io合併的一個fifo隊列。

目前內核中默認的調度算法應該是cfq,叫做完全公平隊列調度。這個調度算法人如其名,它試圖給所有進程提供一個完全公平的IO操作環境。它爲每個進程創建一個同步IO調度隊列,並默認以時間片和請求數限定的方式分配IO資源,以此保證每個進程的IO資源佔用是公平的,cfq還實現了針對進程級別的優先級調度,這個我們後面會詳細解釋。

  查看和修改IO調度算法的方法是:

cfq是通用服務器比較好的IO調度算法選擇,對桌面用戶也是比較好的選擇。但是對於很多IO壓力較大的場景就並不是很適應,尤其是IO壓力集中在某些進程上的場景。因爲這種場景我們需要更多的滿足某個或者某幾個進程的IO響應速度,而不是讓所有的進程公平的使用IO,比如數據庫應用。

deadline調度(最終期限調度)就是更適合上述場景的解決方案。deadline實現了四個隊列,其中兩個分別處理正常read和write,按扇區號排序,進行正常io的合併處理以提高吞吐量.因爲IO請求可能會集中在某些磁盤位置,這樣會導致新來的請求一直被合併,可能會有其他磁盤位置的io請求被餓死。因此實現了另外兩個處理超時read和write的隊列,按請求創建時間排序,如果有超時的請求出現,就放進這兩個隊列,調度算法保證超時(達到最終期限時間)的隊列中的請求會優先被處理,防止請求被餓死。

不久前,內核還是默認標配四種算法,還有一種叫做as的算法(Anticipatory scheduler),預測調度算法。一個高大上的名字,搞得我一度認爲Linux內核都會算命了。結果發現,無非是在基於deadline算法做io調度的之前等一小會時間,如果這段時間內有可以合併的io請求到來,就可以合併處理,提高deadline調度的在順序讀寫情況下的數據吞吐量。其實這根本不是啥預測,我覺得不如叫撞大運調度算法,當然這種策略在某些特定場景差效果不錯。但是在大多數場景下,這個調度不僅沒有提高吞吐量,還降低了響應速度,所以內核乾脆把它從默認配置裏刪除了。畢竟Linux的宗旨是實用,而我們也就不再這個調度算法上多費口舌了。

  CFQ完全公平隊列

CFQ是內核默認選擇的IO調度隊列,它在桌面應用場景以及大多數常見應用場景下都是很好的選擇。如何實現一個所謂的完全公平隊列(Completely Fair Queueing)?首先我們要理解所謂的公平是對誰的公平?從操作系統的角度來說,產生操作行爲的主體都是進程,所以這裏的公平是針對每個進程而言的,我們要試圖讓進程可以公平的佔用IO資源。那麼如何讓進程公平的佔用IO資源?我們需要先理解什麼是IO資源。當我們衡量一個IO資源的時候,一般喜歡用的是兩個單位,一個是數據讀寫的帶寬,另一個是數據讀寫的IOPS。帶寬就是以時間爲單位的讀寫數據量,比如,100Mbyte/s。而IOPS是以時間爲單位的讀寫次數。在不同的讀寫情境下,這兩個單位的表現可能不一樣,但是可以確定的是,兩個單位的任何一個達到了性能上限,都會成爲IO的瓶頸。從機械硬盤的結構考慮,如果讀寫是順序讀寫,那麼IO的表現是可以通過比較少的IOPS達到較大的帶寬,因爲可以合併很多IO,也可以通過預讀等方式加速數據讀取效率。當IO的表現是偏向於隨機讀寫的時候,那麼IOPS就會變得更大,IO的請求的合併可能性下降,當每次io請求數據越少的時候,帶寬表現就會越低。從這裏我們可以理解,針對進程的IO資源的主要表現形式有兩個,進程在單位時間內提交的IO請求個數和進程佔用IO的帶寬。其實無論哪個,都是跟進程分配的IO處理時間長度緊密相關的。

有時業務可以在較少IOPS的情況下佔用較大帶寬,另外一些則可能在較大IOPS的情況下佔用較少帶寬,所以對進程佔用IO的時間進行調度纔是相對最公平的。即,我不管你是IOPS高還是帶寬佔用高,到了時間咱就換下一個進程處理,你愛咋樣咋樣。所以,cfq就是試圖給所有進程分配等同的塊設備使用的時間片,進程在時間片內,可以將產生的IO請求提交給塊設備進行處理,時間片結束,進程的請求將排進它自己的隊列,等待下次調度的時候進行處理。這就是cfq的基本原理。

當然,現實生活中不可能有真正的“公平”,常見的應用場景下,我們很可能需要人爲的對進程的IO佔用進行人爲指定優先級,這就像對進程的CPU佔用設置優先級的概念一樣。所以,除了針對時間片進行公平隊列調度外,cfq還提供了優先級支持。每個進程都可以設置一個IO優先級,cfq會根據這個優先級的設置情況作爲調度時的重要參考因素。優先級首先分成三大類:RT、BE、IDLE,它們分別是實時(Real Time)、最佳效果(Best Try)和閒置(Idle)三個類別,對每個類別的IO,cfq都使用不同的策略進行處理。另外,RT和BE類別中,分別又再劃分了8個子優先級實現更細節的QOS需求,而IDLE只有一個子優先級。

另外,我們都知道內核默認對存儲的讀寫都是經過緩存(buffer/cache)的,在這種情況下,cfq是無法區分當前處理的請求是來自哪一個進程的。只有在進程使用同步方式(sync read或者sync wirte)或者直接IO(Direct IO)方式進行讀寫的時候,cfq才能區分出IO請求來自哪個進程。所以,除了針對每個進程實現的IO隊列以外,還實現了一個公共的隊列用來處理異步請求。

當前內核已經實現了針對IO資源的cgroup資源隔離,所以在以上體系的基礎上,cfq也實現了針對cgroup的調度支持。關於cgroup的blkio功能的`描述,請看我之前的文章Cgroup – Linux的IO資源隔離。總的來說,cfq用了一系列的數據結構實現了以上所有複雜功能的支持,大家可以通過源代碼看到其相關實現,文件在源代碼目錄下的block/cfq-iosched.c。

  CFQ設計原理

在此,我們對整體數據結構做一個簡要描述:首先,cfq通過一個叫做cfq_data的數據結構維護了整個調度器流程。在一個支持了cgroup功能的cfq中,全部進程被分成了若干個contral group進行管理。每個cgroup在cfq中都有一個cfq_group的結構進行描述,所有的cgroup都被作爲一個調度對象放進一個紅黑樹中,並以vdisktime爲key進行排序。vdisktime這個時間紀錄的是當前cgroup所佔用的io時間,每次對cgroup進行調度時,總是通過紅黑樹選擇當前vdisktime時間最少的cgroup進行處理,以保證所有cgroups之間的IO資源佔用“公平”。當然我們知道,cgroup是可以對blkio進行資源比例分配的,其作用原理就是,分配比例大的cgroup佔用vdisktime時間增長較慢,分配比例小的vdisktime時間增長較快,快慢與分配比例成正比。這樣就做到了不同的cgroup分配的IO比例不一樣,並且在cfq的角度看來依然是“公平“的。

選擇好了需要處理的cgroup(cfq_group)之後,調度器需要決策選擇下一步的service_tree。service_tree這個數據結構對應的都是一系列的紅黑樹,主要目的是用來實現請求優先級分類的,就是RT、BE、IDLE的分類。每一個cfq_group都維護了7個service_trees,其定義如下:

struct cfq_rb_root service_trees[2][3];

struct cfq_rb_root service_tree_idle;

其中service_tree_idle就是用來給IDLE類型的請求進行排隊用的紅黑樹。而上面二維數組,首先第一個維度針對RT和BE分別各實現了一個數組,每一個數組中都維護了三個紅黑樹,分別對應三種不同子類型的請求,分別是:SYNC、SYNC_NOIDLE以及ASYNC。我們可以認爲SYNC相當於SYNC_IDLE並與SYNC_NOIDLE對應。idling是cfq在設計上爲了儘量合併連續的IO請求以達到提高吞吐量的目的而加入的機制,我們可以理解爲是一種“空轉”等待機制。空轉是指,當一個隊列處理一個請求結束後,會在發生調度之前空等一小會時間,如果下一個請求到來,則可以減少磁頭尋址,繼續處理順序的IO請求。爲了實現這個功能,cfq在service_tree這層數據結構這實現了SYNC隊列,如果請求是同步順序請求,就入隊這個service tree,如果請求是同步隨機請求,則入隊SYNC_NOIDLE隊列,以判斷下一個請求是否是順序請求。所有的異步寫操作請求將入隊ASYNC的service tree,並且針對這個隊列沒有空轉等待機制。此外,cfq還對SSD這樣的硬盤有特殊調整,當cfq發現存儲設備是一個ssd硬盤這樣的隊列深度更大的設備時,所有針對單獨隊列的空轉都將不生效,所有的IO請求都將入隊SYNC_NOIDLE這個service tree。

每一個service tree都對應了若干個cfq_queue隊列,每個cfq_queue隊列對應一個進程,這個我們後續再詳細說明。

cfq_group還維護了一個在cgroup內部所有進程公用的異步IO請求隊列,其結構如下:

struct cfq_queue *async_cfqq[2][IOPRIO_BE_NR];

struct cfq_queue *async_idle_cfqq;

異步請求也分成了RT、BE、IDLE這三類進行處理,每一類對應一個cfq_queue進行排隊。BE和RT也實現了優先級的支持,每一個類型有IOPRIO_BE_NR這麼多個優先級,這個值定義爲8,數組下標爲0-7。我們目前分析的內核代碼版本爲Linux 4.4,可以看出,從cfq的角度來說,已經可以實現異步IO的cgroup支持了,我們需要定義一下這裏所謂異步IO的含義,它僅僅表示從內存的buffer/cache中的數據同步到硬盤的IO請求,而不是aio(man 7 aio)或者linux的native異步io以及libaio機制,實際上這些所謂的“異步”IO機制,在內核中都是同步實現的(本質上馮諾伊曼計算機沒有真正的“異步”機制)。

我們在上面已經說明過,由於進程正常情況下都是將數據先寫入buffer/cache,所以這種異步IO都是統一由cfq_group中的async請求隊列處理的。那麼爲什麼在上面的service_tree中還要實現和一個ASYNC的類型呢?這當然是爲了支持區分進程的異步IO並使之可以“完全公平”做準備嘍。實際上在最新的cgroup v2的blkio體系中,內核已經支持了針對buffer IO的cgroup限速支持,而以上這些可能容易混淆的一堆類型,都是在新的體系下需要用到的類型標記。新體系的複雜度更高了,功能也更加強大,但是大家先不要着急,正式的cgroup v2體系,在Linux 4.5發佈的時候會正式跟大家見面。

我們繼續選擇service_tree的過程,三種優先級類型的service_tree的選擇就是根據類型的優先級來做選擇的,RT優先級最高,BE其次,IDLE最低。就是說,RT裏有,就會一直處理RT,RT沒了再處理BE。每個service_tree對應一個元素爲cfq_queue排隊的紅黑樹,而每個cfq_queue就是內核爲進程(線程)創建的請求隊列。每一個cfq_queue都會維護一個rb_key的變量,這個變量實際上就是這個隊列的IO服務時間(service time)。這裏還是通過紅黑樹找到service time時間最短的那個cfq_queue進行服務,以保證“完全公平”。

選擇好了cfq_queue之後,就要開始處理這個隊列裏的IO請求了。這裏的調度方式基本跟deadline類似。cfq_queue會對進入隊列的每一個請求進行兩次入隊,一個放進fifo中,另一個放進按訪問扇區順序作爲key的紅黑樹中。默認從紅黑樹中取請求進行處理,當請求的延時時間達到deadline時,就從紅黑樹中取等待時間最長的進行處理,以保證請求不被餓死。

這就是整個cfq的調度流程,當然其中還有很多細枝末節沒有交代,比如合併處理以及順序處理等等。

  CFQ的參數調整

理解整個調度流程有助於我們決策如何調整cfq的相關參數。所有cfq的可調參數都可以在/sys/class/block/sda/queue/iosched/目錄下找到,當然,在你的系統上,請將sda替換爲相應的磁盤名稱。我們來看一下都有什麼:

[root@zorrozou-pc0 zorro]# echo cfq > /sys/block/sda/queue/scheduler

[root@zorrozou-pc0 zorro]# ls /sys/class/block/sda/queue/iosched/

back_seek_max back_seek_penalty fifo_expire_async fifo_expire_sync group_idle low_latency quantum slice_async slice_async_rq slice_idle slice_sync target_latency

這些參數部分是跟機械硬盤磁頭尋道方式有關的,如果其說明你看不懂,請先補充相關知識:

back_seek_max:磁頭可以向後尋址的最大範圍,默認值爲16M。

back_seek_penalty:向後尋址的懲罰係數。這個值是跟向前尋址進行比較的。

以上兩個是爲了防止磁頭尋道發生抖動而導致尋址過慢而設置的。基本思路是這樣,一個io請求到來的時候,cfq會根據其尋址位置預估一下其磁頭尋道成本。首先設置一個最大值back_seek_max,對於請求所訪問的扇區號在磁頭後方的請求,只要尋址範圍沒有超過這個值,cfq會像向前尋址的請求一樣處理它。然後再設置一個評估成本的係數back_seek_penalty,相對於磁頭向前尋址,向後尋址的距離爲1/2(1/back_seek_penalty)時,cfq認爲這兩個請求尋址的代價是相同。這兩個參數實際上是cfq判斷請求合併處理的條件限制,凡事複合這個條件的請求,都會盡量在本次請求處理的時候一起合併處理。

fifo_expire_async:設置異步請求的超時時間。同步請求和異步請求是區分不同隊列處理的,cfq在調度的時候一般情況都會優先處理同步請求,之後再處理異步請求,除非異步請求符合上述合併處理的條件限制範圍內。當本進程的隊列被調度時,cfq會優先檢查是否有異步請求超時,就是超過fifo_expire_async參數的限制。如果有,則優先發送一個超時的請求,其餘請求仍然按照優先級以及扇區編號大小來處理。

fifo_expire_sync:這個參數跟上面的類似,區別是用來設置同步請求的超時時間。

slice_idle:參數設置了一個等待時間。這讓cfq在切換cfq_queue或service tree的時候等待一段時間,目的是提高機械硬盤的吞吐量。一般情況下,來自同一個cfq_queue或者service tree的IO請求的尋址局部性更好,所以這樣可以減少磁盤的尋址次數。這個值在機械硬盤上默認爲非零。當然在固態硬盤或者硬RAID設備上設置這個值爲非零會降低存儲的效率,因爲固態硬盤沒有磁頭尋址這個概念,所以在這樣的設備上應該設置爲0,關閉此功能。

group_idle:這個參數也跟上一個參數類似,區別是當cfq要切換cfq_group的時候會等待一段時間。在cgroup的場景下,如果我們沿用slice_idle的方式,那麼空轉等待可能會在cgroup組內每個進程的cfq_queue切換時發生。這樣會如果這個進程一直有請求要處理的話,那麼直到這個cgroup的配額被耗盡,同組中的其它進程也可能無法被調度到。這樣會導致同組中的其它進程餓死而產生IO性能瓶頸。在這種情況下,我們可以將slice_idle = 0而group_idle = 8。這樣空轉等待就是以cgroup爲單位進行的,而不是以cfq_queue的進程爲單位進行,以防止上述問題產生。

low_latency:這個是用來開啓或關閉cfq的低延時(low latency)模式的開關。當這個開關打開時,cfq將會根據target_latency的參數設置來對每一個進程的分片時間(slice time)進行重新計算。這將有利於對吞吐量的公平(默認是對時間片分配的公平)。關閉這個參數(設置爲0)將忽略target_latency的值。這將使系統中的進程完全按照時間片方式進行IO資源分配。這個開關默認是打開的。

我們已經知道cfq設計上有“空轉”(idling)這個概念,目的是爲了可以讓連續的讀寫操作儘可能多的合併處理,減少磁頭的尋址操作以便增大吞吐量。如果有進程總是很快的進行順序讀寫,那麼它將因爲cfq的空轉等待命中率很高而導致其它需要處理IO的進程響應速度下降,如果另一個需要調度的進程不會發出大量順序IO行爲的話,系統中不同進程IO吞吐量的表現就會很不均衡。就比如,系統內存的cache中有很多髒頁要寫回時,桌面又要打開一個瀏覽器進行操作,這時髒頁寫回的後臺行爲就很可能會大量命中空轉時間,而導致瀏覽器的小量IO一直等待,讓用戶感覺瀏覽器運行響應速度變慢。這個low_latency主要是對這種情況進行優化的選項,當其打開時,系統會根據target_latency的配置對因爲命中空轉而大量佔用IO吞吐量的進程進行限制,以達到不同進程IO佔用的吞吐量的相對均衡。這個開關比較合適在類似桌面應用的場景下打開。

target_latency:當low_latency的值爲開啓狀態時,cfq將根據這個值重新計算每個進程分配的IO時間片長度。

quantum:這個參數用來設置每次從cfq_queue中處理多少個IO請求。在一個隊列處理事件週期中,超過這個數字的IO請求將不會被處理。這個參數只對同步的請求有效。

slice_sync:當一個cfq_queue隊列被調度處理時,它可以被分配的處理總時間是通過這個值來作爲一個計算參數指定的。公式爲:time_slice = slice_sync + (slice_sync/5 * (4 – prio))。這個參數對同步請求有效。

slice_async:這個值跟上一個類似,區別是對異步請求有效。

slice_async_rq:這個參數用來限制在一個slice的時間範圍內,一個隊列最多可以處理的異步請求個數。請求被處理的最大個數還跟相關進程被設置的io優先級有關。