新聞中心
專訪UCloud彭晶鑫: UCloud高性能存儲(chǔ)背后的技術(shù)解析
原創(chuàng)
作者:趙立京 2018-06-19 16:58:36
云計(jì)算
存儲(chǔ)
CIOAge UCloud作為國(guó)內(nèi)領(lǐng)先的云計(jì)算服務(wù)平臺(tái),在云存儲(chǔ)方面有著比較豐富的產(chǎn)品線。UCloud塊存儲(chǔ)研發(fā)副總監(jiān)彭晶鑫近日接受了51CTO記者的采訪,對(duì)云存儲(chǔ)產(chǎn)品及技術(shù)進(jìn)行了解析。

【51CTO.com原創(chuàng)稿件】隨著移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,智能終端、可穿戴設(shè)備、智能家居正在快速普及,數(shù)據(jù)吞吐量呈現(xiàn)出指數(shù)級(jí)的增長(zhǎng)趨勢(shì)。大數(shù)據(jù)爆發(fā)的時(shí)代下,各行各業(yè)的互聯(lián)網(wǎng)化與現(xiàn)實(shí)世界數(shù)據(jù)化的趨勢(shì),使市場(chǎng)對(duì)企業(yè)級(jí)云存儲(chǔ)的需求更加迫切。
云存儲(chǔ),可以理解為云計(jì)算環(huán)境下的存儲(chǔ)服務(wù),將云計(jì)算數(shù)據(jù)中心的各種存儲(chǔ)資源虛擬化,抽象化、池化,以存儲(chǔ)服務(wù)的形式提供給應(yīng)用。用戶可以按自己的需求(容量,性能,時(shí)間)等使用云存儲(chǔ)資源。一些可以通過(guò)用戶購(gòu)買(mǎi)的計(jì)算節(jié)點(diǎn)去使用,例如塊存儲(chǔ),分布式文件存儲(chǔ),還有些可以通過(guò)網(wǎng)絡(luò)訪問(wèn)標(biāo)準(zhǔn)的接口存取去使用,例如對(duì)象存儲(chǔ)。
UCloud作為國(guó)內(nèi)領(lǐng)先的云計(jì)算服務(wù)平臺(tái),在云存儲(chǔ)方面有著比較豐富的產(chǎn)品線。UCloud塊存儲(chǔ)研發(fā)副總監(jiān)彭晶鑫近日接受了51CTO記者的采訪,對(duì)云存儲(chǔ)產(chǎn)品及技術(shù)進(jìn)行了解析。
UCloud豐富的存儲(chǔ)產(chǎn)品線
彭晶鑫目前擔(dān)任UCloud塊存儲(chǔ)研發(fā)副總監(jiān),主要從事分布式云盤(pán),塊設(shè)備數(shù)據(jù)保護(hù)產(chǎn)品,分布式文件存儲(chǔ)的研發(fā)。彭晶鑫在采訪中對(duì)UCloud已有的存儲(chǔ)產(chǎn)品進(jìn)行了以下總結(jié)。
1. 提供塊設(shè)備存儲(chǔ)能力的云硬盤(pán)UDisk,包括SATA的普通云盤(pán)和SSD云盤(pán),云盤(pán)能為云主機(jī)提供高速、高可靠的塊存儲(chǔ)能力;
2. 提供分布式文件系統(tǒng)能力的文件存儲(chǔ)UFS,UFS提供了高可靠、無(wú)限擴(kuò)展的文件存儲(chǔ)服務(wù),目前是容量型,后續(xù)還將推出性能型;
3. 對(duì)象存儲(chǔ)UFile提供了海量、高可靠、低成本的非結(jié)構(gòu)化文件存儲(chǔ)服務(wù),可以讓用戶在任何互聯(lián)網(wǎng)可達(dá)的位置利用API去訪問(wèn)和存儲(chǔ);
4. 提供持續(xù)數(shù)據(jù)保護(hù)CDP系統(tǒng)的數(shù)據(jù)方舟UDataArk,它是公有云中第一家支持塊設(shè)備回滾至任一秒,并能有效防止用戶由于誤操作、黑客攻擊等帶來(lái)的數(shù)據(jù)誤刪除或者丟失。
當(dāng)然除了這四種存儲(chǔ)產(chǎn)品以外,UCloud還有適用于海量數(shù)據(jù)的長(zhǎng)期歸檔、備份的數(shù)據(jù)歸檔存儲(chǔ)UArchive,提供數(shù)據(jù)庫(kù)服務(wù)的RDS以及分布式關(guān)系數(shù)據(jù)庫(kù)等?!?/p>
這些存儲(chǔ)產(chǎn)品例如云硬盤(pán)和軟件定義存儲(chǔ)有什么關(guān)系
總的來(lái)說(shuō)軟件定義存儲(chǔ)(SDS)就是將數(shù)據(jù)中心的各種存儲(chǔ)資源抽象化、池化,以服務(wù)的形式提供給應(yīng)用,滿足應(yīng)用按需自動(dòng)化的使用存儲(chǔ)。云硬盤(pán)其實(shí)就是SDS的一種,它將存儲(chǔ)資源池子化,提供應(yīng)用層需要的邏輯塊設(shè)備存儲(chǔ)能力,并讓計(jì)算和存儲(chǔ)在物理上分離。
UCloud在存儲(chǔ)產(chǎn)品研發(fā)之路上遇到了哪些問(wèn)題并如何解決的?
在存儲(chǔ)產(chǎn)品的研發(fā)之路上,UCloud確實(shí)也遇到過(guò)一些問(wèn)題,在這里就列舉三個(gè)點(diǎn):
1. 數(shù)據(jù)可靠性
為了更早發(fā)現(xiàn)數(shù)據(jù)損壞,有些時(shí)候,用戶IO的讀寫(xiě)并沒(méi)有散落到磁盤(pán)的任何位置上,磁盤(pán)的壞道壞塊等也不能及時(shí)發(fā)現(xiàn)。甚至可能三個(gè)副本中有兩個(gè)副本所在的磁盤(pán)都有損壞確沒(méi)有被及時(shí)發(fā)現(xiàn)。這樣就給數(shù)據(jù)的可靠性帶來(lái)了較大的挑戰(zhàn)。后續(xù)我們加入了磁盤(pán)不同偏移的讀寫(xiě)探測(cè)以及定期讀數(shù)據(jù)和校驗(yàn)碼的比對(duì),從而更好地保障了數(shù)據(jù)的可靠性。
2. 數(shù)據(jù)分片
數(shù)據(jù)分片和元數(shù)據(jù)的關(guān)系是分片小元數(shù)據(jù)就多,分片大卻不能均勻的打散并發(fā)揮分布式集群的能力,因此分片要適當(dāng)?shù)男 D敲磫?wèn)題又來(lái)了,當(dāng)用戶申請(qǐng)一塊磁盤(pán)時(shí),需要將很多元數(shù)據(jù)分配好進(jìn)行持久化,這對(duì)于大容量磁盤(pán)的申請(qǐng)?bào)w驗(yàn)就很差,速度慢。如果不是申請(qǐng)時(shí)分配,那么就是寫(xiě)時(shí)分配,這對(duì)于用戶第一次IO時(shí)的體驗(yàn)也會(huì)很差,性能有影響。后來(lái)經(jīng)過(guò)綜合考慮,我們選取了通過(guò)計(jì)算去獲取路由的方式,避免了中心存儲(chǔ)元數(shù)據(jù)帶來(lái)的麻煩。
3. 連續(xù)數(shù)據(jù)保護(hù)
第一代CDP系統(tǒng)數(shù)據(jù)方舟1.0可以很好的支持塊設(shè)備回滾到過(guò)去任一秒。但是對(duì)于大盤(pán)或者IO比較兇的磁盤(pán)來(lái)說(shuō),回滾速度會(huì)很慢,甚至需要幾個(gè)小時(shí)。用戶使用時(shí)都希望能快速回滾。后來(lái)我們就設(shè)計(jì)了數(shù)據(jù)方舟2.0,從用戶角度出發(fā),回滾時(shí)選擇回滾至一個(gè)全新的磁盤(pán),不去破壞原有的磁盤(pán)數(shù)據(jù)。并通過(guò)流式計(jì)算、分層混合存儲(chǔ)設(shè)計(jì)、分布式存儲(chǔ)技術(shù)順利地將回滾速度提升了8倍,1TB大容量盤(pán)也可以在30分鐘內(nèi)完成回滾。
近年來(lái)塊存儲(chǔ)在底層硬件方面有哪些發(fā)展
總的來(lái)說(shuō),就是底層硬件越來(lái)越強(qiáng)。主要提現(xiàn)在兩個(gè)方面:一是磁盤(pán)速度越來(lái)越快,另一個(gè)就是網(wǎng)絡(luò)接口也有了快速的發(fā)展。SSD這類固態(tài)硬盤(pán)的發(fā)展,目前主要以NAND為主,單盤(pán)可以提供幾十萬(wàn)甚至百萬(wàn)的IOPS,高達(dá)幾個(gè)GB的讀寫(xiě)帶寬,這是機(jī)械盤(pán)時(shí)代無(wú)法想象的。與此同時(shí),固態(tài)硬盤(pán)的容量已普遍可以做到4TB到 6TB,也充分解決了存儲(chǔ)對(duì)于容量的需求。除了NAND以外,還有3D Xpoint的發(fā)展,相對(duì)于NAND,3D Xpoint例如Intel的 optane, 延遲上有了10倍左右的提升,并且更耐用。
另外,網(wǎng)卡也經(jīng)歷了從千兆、萬(wàn)兆、25G卡到 50G卡的高速發(fā)展。此外,還有網(wǎng)卡對(duì)RDMA特性的支持,可以讓網(wǎng)絡(luò)收發(fā)零拷貝,無(wú)需操作系統(tǒng)/協(xié)議棧等的介入,就可以實(shí)現(xiàn)機(jī)器間的超低延遲、超高吞吐。
隨著底層硬件的發(fā)展,塊存儲(chǔ)該如何突破軟件技術(shù)層的瓶頸?
1. 隨著底層硬件的發(fā)展,例如NVME/PCIE SSD相對(duì)于SATA SSD的跨越式發(fā)展,網(wǎng)落接口的處理能力也從10G到25G再到100G。與此同時(shí),CPU的主頻確幾乎沒(méi)有大的發(fā)展,主流的平均在2-3GHZ以下。另外,按照傳統(tǒng)模式SSD的IO、網(wǎng)卡的收發(fā)包經(jīng)過(guò)用戶態(tài)內(nèi)核態(tài)的多層拷貝,都還需要靠kernel的中斷來(lái)喚醒。以前,這些外設(shè)的能力遠(yuǎn)低于CPU,所以沒(méi)有任何瓶頸。而現(xiàn)在外設(shè)硬件的跨越式發(fā)展,中斷模來(lái)喚醒系統(tǒng)處理也開(kāi)始受到了技術(shù)挑戰(zhàn)。
云計(jì)算環(huán)境下的分布式塊存儲(chǔ)從軟件棧上可以分為兩層:一個(gè)是宿主機(jī)集群,一個(gè)是后端集群,兩者之間通過(guò)網(wǎng)絡(luò)互聯(lián)。塊存儲(chǔ)要突破的技術(shù)也主要在整個(gè)軟件棧上的IO路徑、整個(gè)IO路徑的性能及可靠性。宿主機(jī)側(cè),為了實(shí)現(xiàn)數(shù)據(jù)交互的高性能,數(shù)據(jù)面需要從qemu卸載到宿主機(jī)上,從而有了用戶態(tài)VHOST方案。例如SPDK VHOST技術(shù),不僅將數(shù)據(jù)面從qemu卸載到用戶態(tài),而且可以通過(guò)pmd模式加速性能。
2. 第二個(gè)就是宿主機(jī)到后端集群的路徑。傳統(tǒng)的TCP/IP協(xié)議棧+網(wǎng)絡(luò)服務(wù)框架epoll模式很難做到超高性能的要求。而RDMA技術(shù),通信不需要經(jīng)過(guò)復(fù)雜的TCP協(xié)議棧,通過(guò)旁路和零拷貝極大的提供低延遲的特性。同時(shí)不需要兩端的CPU參與。所以RDMA技術(shù),不管是ROCE還是IB,都可以在網(wǎng)絡(luò)通信上極大的提高性能。
3. 第三個(gè)在后端側(cè),RDMA的應(yīng)用可以極大的提高網(wǎng)絡(luò)通信的性能,減少CPU的負(fù)載。另外,還需要關(guān)注磁盤(pán)IO的性能。發(fā)揮NVME的高IOPS,同時(shí)降低IO的延遲,就成為了最關(guān)鍵的方面。利用SPDK 通過(guò)NVME驅(qū)動(dòng)訪問(wèn)磁盤(pán),縮短IO棧以及PMD模式,可以極大的降低IO延遲。
UCloud在存儲(chǔ)技術(shù)上是如何做到更好地服務(wù)于用戶的?
為了給用戶提供更好的存儲(chǔ)服務(wù),還是需要從用戶的需求去看待。
1. 用戶追求高性能低延遲,例如剛才說(shuō)的塊存儲(chǔ),就可以從IO路徑上整體兼顧,不斷追求更低的時(shí)延和更高的IOPS??傊褪亲龅絀O路徑上的極致;
2. 用戶追求大容量,那么怎么設(shè)計(jì)出可以讓用戶無(wú)限擴(kuò)容的系統(tǒng)就是關(guān)鍵;
3. 用戶追求低價(jià)格,那么降低TCO,不損失數(shù)據(jù)可靠性的基礎(chǔ)上降低冗余度,提高磁盤(pán)利用率就是關(guān)鍵;
4. 用戶追求回檔的速度和粒度上,那就需要在持續(xù)數(shù)據(jù)保護(hù)上追求RTO和RPO。
在這方面,UCloud一直秉承“用戶需求就是下一個(gè)產(chǎn)品”的理念。
在塊存儲(chǔ)方面,UCloud后續(xù)會(huì)做什么樣優(yōu)化和新產(chǎn)品等?
UCloud確實(shí)在緊跟存儲(chǔ)行業(yè)的發(fā)展不斷推出或者優(yōu)化存儲(chǔ)產(chǎn)品,比如5月發(fā)布的高性能塊存儲(chǔ)新品 SSD 云硬盤(pán),軟件架構(gòu)設(shè)計(jì)更簡(jiǎn)潔。另外,為了滿足客戶對(duì)高性能的需求,后端存儲(chǔ)也全部使用了NVME SSD,并提供了QOS保證。接下來(lái)UCloud也會(huì)推出基于NVME SSD的分布式文件存儲(chǔ),提供更高性能的文件存儲(chǔ)需求。
同時(shí),UCloud會(huì)引入RDMA SPDK等數(shù)據(jù)面的kernel bypass技術(shù),充分優(yōu)化IO棧,并壓榨硬件性能,打造高性能低延遲的存儲(chǔ)引擎,服務(wù)于各種對(duì)高性能有需求的存儲(chǔ)服務(wù)。后續(xù)也會(huì)采用混合存儲(chǔ)技術(shù),例如optane和nvme磁盤(pán)的混合存儲(chǔ),提供更低的寫(xiě)延遲,讓客戶獲得更好的體驗(yàn)。
嘉賓介紹
彭晶鑫,UCloud塊存儲(chǔ)研發(fā)副總監(jiān),上海交通大學(xué)研究生畢業(yè),2011加入百度,2011年-2014年負(fù)責(zé)移動(dòng)云應(yīng)用服務(wù)后端多項(xiàng)研發(fā)工作。目前就職于UCloud,任塊存儲(chǔ)研發(fā)部副總監(jiān),負(fù)責(zé)塊存儲(chǔ)研發(fā)部,文件存儲(chǔ)研發(fā)部的研發(fā)以及運(yùn)營(yíng)工作,主要包括云硬盤(pán),數(shù)據(jù)方舟,分布式文件系統(tǒng)。對(duì)服務(wù)后端技術(shù),存儲(chǔ)技術(shù),工程實(shí)踐有相當(dāng)豐富的研發(fā)經(jīng)驗(yàn)。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】
分享名稱:專訪UCloud彭晶鑫:UCloud高性能存儲(chǔ)背后的技術(shù)解析
當(dāng)前URL:http://m.fisionsoft.com.cn/article/ccogcos.html


咨詢
建站咨詢
