新聞中心
隨著互聯(lián)網(wǎng)時代的到來,數(shù)據(jù)量的爆炸式增長使得傳統(tǒng)的關系型數(shù)據(jù)庫已經(jīng)無法滿足業(yè)務需求,因此一種新的數(shù)據(jù)庫技術——分布式數(shù)據(jù)庫被廣泛應用于各個領域。本文將簡要介紹分布式數(shù)據(jù)庫的誕生歷程與發(fā)展狀況。

目前創(chuàng)新互聯(lián)建站已為上1000家的企業(yè)提供了網(wǎng)站建設、域名、雅安服務器托管、網(wǎng)站托管、服務器托管、企業(yè)網(wǎng)站設計、唐山網(wǎng)站維護等服務,公司將堅持客戶導向、應用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長,共同發(fā)展。
一、分布式數(shù)據(jù)庫的誕生
分布式數(shù)據(jù)庫的起源可以追溯到20世紀50年代,當時業(yè)界已經(jīng)開始討論如何利用計算機處理大量數(shù)據(jù),進而推出了主流的集中式數(shù)據(jù)庫管理系統(tǒng)。之后,隨著企業(yè)規(guī)模擴大、數(shù)據(jù)量逐漸增大,一些大型企業(yè)開始嘗試實現(xiàn)分布式存儲,以解決傳統(tǒng)中央集中式存儲系統(tǒng)的瓶頸問題。
1965年,MIT的Ferreira和Rodriguez提出了之一個分布式數(shù)據(jù)庫系統(tǒng)概念,他們提出將數(shù)據(jù)存儲在多個物理位置上,并通過通信手段連接起來,以實現(xiàn)分布式存儲。此后,Oracle, Informix, Sybase, IBM等企業(yè)陸續(xù)在分布式數(shù)據(jù)庫領域開展了研究,并推出了相應的產(chǎn)品。其中,Oracle的Oracle Parallel Server可以被視為之一個商業(yè)化的分布式數(shù)據(jù)庫系統(tǒng)。
二、分布式數(shù)據(jù)庫的發(fā)展經(jīng)歷
在分布式數(shù)據(jù)庫的發(fā)展歷程中,一個主要問題是如何保證數(shù)據(jù)的一致性。為此,人們提出許多解決方案。1978年,IBM研究員C.J.Date提出了“兩階段提交協(xié)議”(Two Phase Commit,2PC),并在1981年形成了標準,以保證分布式環(huán)境中數(shù)據(jù)的一致性。不過,由于2PC過于復雜,因此并沒有被廣泛應用。
另外,為了提升分布式數(shù)據(jù)庫的性能和可用性,人們開始嘗試新的技術,比如分片技術、緩存技術、負載均衡技術等等。分片技術(sharding)是指將一個大型數(shù)據(jù)庫分成多個較小的部分,每個部分存儲在不同的計算節(jié)點上。緩存技術則是指將訪問頻率高的數(shù)據(jù)存儲在內(nèi)存中,以提升查詢速度。負載均衡技術則是指將流量均衡地分配到多個節(jié)點上,以實現(xiàn)高可用性和高性能。
此外,自2023年以來,由于云計算和大數(shù)據(jù)技術的發(fā)展,分布式數(shù)據(jù)庫的應用范圍已經(jīng)不僅限于企業(yè)內(nèi)部使用,而是廣泛應用于互聯(lián)網(wǎng)和云計算領域,如Facebook、Twitter、Amazon等互聯(lián)網(wǎng)巨頭均在使用分布式數(shù)據(jù)庫系統(tǒng)。
三、分布式數(shù)據(jù)庫的未來發(fā)展趨勢
近年來,隨著、機器學習、區(qū)塊鏈等新技術的不斷涌現(xiàn),分布式數(shù)據(jù)庫技術也在逐步演化,走向更加智能化和自動化的方向。比如,分布式數(shù)據(jù)庫系統(tǒng)可以采用機器學習算法進行負載均衡,通過分析歷史數(shù)據(jù)來決定將流量分配到哪些節(jié)點上。此外,還可以通過區(qū)塊鏈技術來保證數(shù)據(jù)的安全性,使得分布式數(shù)據(jù)庫可以廣泛應用于金融和保險等領域。
總體來說,分布式數(shù)據(jù)庫在解決大規(guī)模數(shù)據(jù)存儲和管理問題方面具有重要意義。分布式數(shù)據(jù)庫在不斷發(fā)展完善的過程中,借助新硬件、新軟件、大數(shù)據(jù)和等新技術的支持,將會擁有更好的性能、更高的可用性以及更智能的管理方式。
相關問題拓展閱讀:
- 數(shù)據(jù)處理經(jīng)歷了哪幾個階段?
- 數(shù)據(jù)庫設計分為哪幾個步驟
數(shù)據(jù)處理經(jīng)歷了哪幾個階段?
數(shù)據(jù)庫的產(chǎn)生
計算機管理數(shù)據(jù)隨著計算機的雀豎發(fā)展而不斷發(fā)展,利用計算機對數(shù)據(jù)進行處理經(jīng)歷了4個階段:即人工管理改歲褲階段、文件系統(tǒng)階核簡段、數(shù)據(jù)庫系統(tǒng)階段和分布式數(shù)據(jù)庫系統(tǒng)階段。
1.數(shù)據(jù)采集\x0d\x0a了解數(shù)據(jù)采集的意義在于真正了解數(shù)據(jù)的原始面貌,包括數(shù)據(jù)產(chǎn)生的時間、條件、格式、內(nèi)容、長度、限制條件等。這會幫助數(shù)據(jù)分析師更有針對性的控制數(shù)據(jù)生產(chǎn)和采集過程,避免由于違反數(shù)據(jù)采集規(guī)則導致的枝碧數(shù)據(jù)問題;同時,對數(shù)據(jù)采集邏輯的認識增加了數(shù)據(jù)分猛禪舉析師對數(shù)據(jù)的理解程度,尤其是數(shù)據(jù)中的異常變化。\x0d\x0a在數(shù)據(jù)采集階段,數(shù)據(jù)分析師需要更多的了解數(shù)據(jù)生產(chǎn)和采集過程中的異常情況,如此才能更好的追本溯源。另外,這也能很大程度上避免“垃圾數(shù)據(jù)進導致垃圾數(shù)據(jù)出”的問題。\x0d\x0a2.數(shù)據(jù)的加工整理\x0d\x0a在明確數(shù)據(jù)分析目標基礎上收集到的數(shù)據(jù),往往還需要進襲猜行必要的加工整理后才能真正用于分析建模。數(shù)據(jù)的加工整理通常包括數(shù)據(jù)缺失值處理、數(shù)據(jù)的分組、基本描述統(tǒng)計量的計算、基本統(tǒng)計圖形的繪制、數(shù)據(jù)取值的轉(zhuǎn)換、數(shù)據(jù)的正態(tài)化處理等,它能夠幫助人們掌握數(shù)據(jù)的分布特征,是進一步深入分析和建模的基礎。\x0d\x0a3.數(shù)據(jù)分析\x0d\x0a數(shù)據(jù)分析相對于數(shù)據(jù)挖掘更多的是偏向業(yè)務應用和解讀,當數(shù)據(jù)挖掘算法得出結(jié)論后,如何解釋算法在結(jié)果、可信度、顯著程度等方面對于業(yè)務的實際意義,如何將挖掘結(jié)果反饋到業(yè)務操作過程中便于業(yè)務理解和實施是關鍵。\x0d\x0a4.數(shù)據(jù)展現(xiàn)\x0d\x0a數(shù)據(jù)展現(xiàn)即數(shù)據(jù)可視化的部分,數(shù)據(jù)分析師如何把數(shù)據(jù)觀點展示給業(yè)務的過程。數(shù)據(jù)展現(xiàn)除遵循各公司統(tǒng)一規(guī)范原則外,具體形式還要根據(jù)實際需求和場景而定?;舅刭|(zhì)要求如下:\x0d\x0a工具:PPT、Excel、Word甚至郵件都是不錯的展現(xiàn)工具,任意一個工具用好都很強大。\x0d\x0a形式:圖文并茂的基本原則更易于理解,生動、有趣、互動、講故事都是加分項。\x0d\x0a原則:領導層喜歡讀圖、看趨勢、要結(jié)論,執(zhí)行層歡看數(shù)、讀文字、看過程。\x0d\x0a場景:大型會議PPT最合適,匯報說明Word最實用,數(shù)據(jù)較多時Excel更方便。\x0d\x0a最重要一點,數(shù)據(jù)展現(xiàn)永遠輔助于數(shù)據(jù)內(nèi)容,有價值的數(shù)據(jù)報告才是關鍵。
數(shù)據(jù)治理流程是從數(shù)據(jù)規(guī)劃、數(shù)據(jù)采集、數(shù)據(jù)儲存管理到數(shù)據(jù)應用整個流程的無序到有序的過程,也是標準化流程的構(gòu)建過程。
根據(jù)每一個過程的特點,我們可以將數(shù)據(jù)治理流程總結(jié)為四個字,即“理”、“采”、“存”、“用”。
1.理:梳理業(yè)務流程,規(guī)悶跡劃數(shù)據(jù)資源
對于企業(yè)來說,每天的實時數(shù)據(jù)都會超過TB級別,需要采集用戶的哪些數(shù)據(jù),這么多的數(shù)據(jù)放在哪里,如何放,以什么樣的方式放?
這些問題都是需要事先進行規(guī)劃的,需要有一套從無序變?yōu)橛行虻牧鞒?,這個過程需要跨部門的協(xié)作,包括了前端、后端、數(shù)據(jù)工程師、數(shù)據(jù)分析師、項目經(jīng)理等角色的參與。仔爛
2.采:ETL采集、去重、脫敏、轉(zhuǎn)換、關聯(lián)、去除異常值
前后端將采集到的數(shù)據(jù)給到數(shù)據(jù)部門,數(shù)據(jù)部門通過ETL工念罩漏具將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程,目的是將散落和零亂的數(shù)據(jù)集中存儲起來。
3.存:大數(shù)據(jù)高性能存儲及管理
這么多的業(yè)務數(shù)據(jù)存在哪里?這需要有一高性能的大數(shù)據(jù)存儲系統(tǒng),在這套系統(tǒng)里面將數(shù)據(jù)進行分門別類放到其對應的庫里面,為后續(xù)的管理及使用提供更大的便利。
4.用:即時查詢、報表監(jiān)控、智能分析、模型預測
數(shù)據(jù)的最終目的就是輔助業(yè)務進行決策,前面的幾個流程都是為最終的查詢、分析、監(jiān)控做鋪墊。
這個階段就是數(shù)據(jù)分析師的主場,分析師們運用這些標準化的數(shù)據(jù)可以進行即時的查詢、指標體系和報表體系的建立、業(yè)務問題的分析,甚至是模型的預測。
1.數(shù)據(jù)采集
了解數(shù)據(jù)采集的意義在于真正了解數(shù)據(jù)的原始面貌,包括數(shù)據(jù)產(chǎn)生的時間、條件、格式、內(nèi)容、長度、限制條件等。這會幫助
數(shù)據(jù)分析師
更有針對性的控制數(shù)據(jù)生產(chǎn)和采集過程,避免由于違反數(shù)據(jù)采集規(guī)則導致的數(shù)據(jù)問題;同時,對數(shù)據(jù)采集邏輯的認識增加了數(shù)據(jù)分析師對數(shù)據(jù)的理解程度,尤其是數(shù)據(jù)中的異常變化。
在數(shù)據(jù)采集階段,數(shù)據(jù)分析師需要更多的了解數(shù)據(jù)生產(chǎn)和采集過程中的異常情況,如此才能更好的追本溯源。另外,這也能很大程度上避免“垃圾數(shù)據(jù)進導致垃圾數(shù)據(jù)出”的問題。
2.數(shù)據(jù)的加工整理
在明確數(shù)據(jù)分析目標基礎上收集到的數(shù)據(jù),往往還需要進行必要的加工整理后才能真正用于分析建模。數(shù)據(jù)的加工整理通常包括數(shù)據(jù)缺失值處理、數(shù)據(jù)的分組、基本描述統(tǒng)計量的計算、基本統(tǒng)計圖形的繪制、數(shù)據(jù)取值的轉(zhuǎn)換、數(shù)據(jù)的正態(tài)化處理等,它能夠幫助人們掌握數(shù)據(jù)的分布特征,是進一步深入分析和建模的基礎。
3.數(shù)據(jù)分析
數(shù)據(jù)分析相對于
數(shù)據(jù)挖掘
更多的是偏向業(yè)務應用和解讀碰閉,當數(shù)據(jù)挖掘算法得出結(jié)論后,如何解釋算法在結(jié)果、可信度、顯著程度等方面對于業(yè)務的實際意義,如何將挖掘結(jié)果反饋到業(yè)務操作過程中便于業(yè)務理解和實施是關鍵。
4.數(shù)據(jù)展現(xiàn)
數(shù)據(jù)展現(xiàn)即數(shù)據(jù)可視化的部分,數(shù)據(jù)分析師如何把數(shù)據(jù)觀點展笑卜裂示給業(yè)務的過程。數(shù)據(jù)展現(xiàn)除遵循各公司統(tǒng)一規(guī)范原則外,具體形式還要根據(jù)實際需求和場景弊察而定?;舅刭|(zhì)要求如下:
工具:PPT、Excel、Word甚至郵件都是不錯的展現(xiàn)工具,任意一個工具用好都很強大。
形式:圖文并茂的基本原則更易于理解,生動、有趣、互動、講故事都是加分項。
原則:領導層喜歡讀圖、看趨勢、要結(jié)論,執(zhí)行層歡看數(shù)、讀文字、看過程。
場景:大型會議PPT最合適,匯報說明Word最實用,數(shù)據(jù)較多時Excel更方便。
最重要一點,數(shù)據(jù)展現(xiàn)永遠輔助于數(shù)據(jù)內(nèi)容,有價值的數(shù)據(jù)報告才是關鍵。
1.人工管理階段。特點:(1)數(shù)據(jù)不保存;(2)應用程序管理數(shù)據(jù);(3)數(shù)據(jù)不共享;(4)數(shù)據(jù)不具有獨立性
2.文件系統(tǒng)階段。特點:(1)數(shù)據(jù)可以長期保存;(2)由文件系統(tǒng)管理數(shù)據(jù);(3)數(shù)據(jù)共享性差,冗余度大;(4)數(shù)據(jù)獨立性差
3.數(shù)據(jù)庫系統(tǒng)階段。特點:(1)數(shù)據(jù)結(jié)構(gòu)化;(團廳2)數(shù)據(jù)的清或亂共享性高,冗余度低,易擴充;(3)數(shù)據(jù)獨立答檔性高;(4)數(shù)據(jù)由DBMS統(tǒng)一管理和控制
數(shù)據(jù)庫設計分為哪幾個步驟
(1)存儲記錄結(jié)構(gòu)設計綜合分析數(shù)據(jù)存儲要求和應用需求,設計存儲記錄格式
(2)存儲空間分配存儲空間分配有兩個原則:①存取頻度高的數(shù)據(jù)盡量安排在快速、隨機設備上,存取頻度低的數(shù)據(jù)則安排在速度較慢的設備上
②相互依賴性強的數(shù)據(jù)盡量存儲在同一臺設備上,且盡量安排在鄰近的存儲空間上
從提高系統(tǒng)性能方面考慮,應將設計好的存儲記錄作為一個整體合理地分配物理存儲區(qū)域
盡可能充分利用物理順序特點,把不同類型的存儲記錄指派到不同的物理群中
(3)訪問方法的設計一個訪問方法包括存儲結(jié)構(gòu)和檢索機構(gòu)兩部分
存儲結(jié)構(gòu)限定了訪問存儲記錄時可以使用的訪問路徑;檢索機構(gòu)定義了每個應用實際使用的訪問路徑
(4)物理設計的性能評價①查詢響應時間從查詢開始到有結(jié)果顯示之間所經(jīng)歷的時間稱為查詢響應時間
查詢響應時間可進一步細分為服務時間、等待時間和延遲時間
在物理設計過程中,要對系統(tǒng)的性能進行評價
性能評價包括時間、空間、效率、開銷等各個方面
⊙CPU服務時間和I/O服務時間的長短取決于應用程序設計
⊙CPU隊列等待時間和I/O隊列等待時間的長短受計算機系統(tǒng)作業(yè)的影響
⊙設計者可以有限度地控制分布式數(shù)據(jù)庫系統(tǒng)的通信延遲時間
②存儲空間存儲空間存放程序和數(shù)據(jù)
程序包括運行的應用程序、DBMS子程序、OS子程序等
數(shù)據(jù)包括用戶工作區(qū)、DBMS工作區(qū)、OS工作區(qū)、索引緩沖區(qū)、數(shù)據(jù)緩沖區(qū)等
存儲空間分為主存空間和輔存空間
設計者只能有限度地控制主存空間,例如可指定緩沖區(qū)的分配等
但設計者能夠有效地控制輔存空間
③開銷與效率設計中還要考慮以下各種開銷,開銷增大,系統(tǒng)效率將下降
⊙事務開銷指從事務開始到事務結(jié)束所耗用的時間
更新事務要修改索引、重寫物理塊、進行寫校驗等操作,增加了額外的開銷
更新頻度應列為設計的考慮因素
⊙報告生成開銷指從數(shù)據(jù)輸入到有結(jié)果輸出這段時間
報告生成占用CPU及I/O的服務時間較長
設計中要進行篩選,除去不必要的報告生成
⊙對數(shù)據(jù)庫的重組也是一項大的開銷
設計中應考慮數(shù)據(jù)量和處理頻度這兩個因數(shù),做到避免或盡量減少重組數(shù)據(jù)庫
在物理設計階段,設計、評價、修改這個過程可能要反復多次,最終得到較為完善的物理數(shù)據(jù)庫結(jié)構(gòu)說明書
建立數(shù)據(jù)庫時,DBA依據(jù)物理數(shù)據(jù)庫結(jié)構(gòu)說明書,使用DBMS提供的工具可以進行數(shù)據(jù)庫配置
在數(shù)據(jù)庫運行時,DBA監(jiān)察數(shù)據(jù)庫的各項性能,根據(jù)依據(jù)物理數(shù)據(jù)庫結(jié)構(gòu)說明書的準則,及時進行修正和優(yōu)化操作,保證數(shù)據(jù)庫系統(tǒng)能夠搜凱保持高效率地運行
程序編制及調(diào)試在邏輯數(shù)據(jù)庫漏卜結(jié)構(gòu)確定以后,應用程序設計的編制就可以和物理設計并行地展開程序模塊代碼通常先在模擬的環(huán)境下通過初步調(diào)試,然后再進行聯(lián)合調(diào)試
聯(lián)合調(diào)試的工作主要有以下幾點:(1)建立數(shù)據(jù)庫結(jié)構(gòu)根據(jù)邏輯設計和物理設計的結(jié)果,用DBMS提供的數(shù)據(jù)語言(DDL)編寫出數(shù)據(jù)庫的源模式,經(jīng)編譯得到目標模式,執(zhí)行目標模式即可建立實際的數(shù)據(jù)庫結(jié)構(gòu)
(2)調(diào)試運行數(shù)據(jù)庫結(jié)構(gòu)建立后,裝入試驗數(shù)據(jù),使數(shù)據(jù)庫進入調(diào)試運行階段
運行應用程序,測試(3)裝入實際的初始數(shù)據(jù)在數(shù)據(jù)庫正式投入運行之前,還要做好以下幾項工作:(1)制定數(shù)據(jù)庫重新組織的可行方案
(2)制定故障恢復規(guī)范(3)制定系統(tǒng)的安全規(guī)范7
運行和維護數(shù)據(jù)庫正式投入運行后,運行維護階段的主要工作是:(1)維護數(shù)據(jù)庫的安全性與完整性
按照制定的安全規(guī)范和故障恢復規(guī)范,在系統(tǒng)的安全出現(xiàn)問題時,及時調(diào)整授權和更改密碼
及時發(fā)現(xiàn)返漏穗系統(tǒng)運行時出現(xiàn)的錯誤,迅速修改,確保系統(tǒng)正常運行
把數(shù)據(jù)庫的備份和轉(zhuǎn)儲作為日常的工作,一旦發(fā)生故障,立即使用數(shù)據(jù)庫的最新備份予以恢復
(2)監(jiān)察系統(tǒng)的性能
運用DBMS提供的性能監(jiān)察與分析工具,不斷地監(jiān)控著系統(tǒng)的運行情況
當數(shù)據(jù)庫的存儲空間或響應時間等性能下降時,立即進行分析研究找出原因,并及時采取措施改進
例如,可通修改某些參數(shù)、整理碎片、調(diào)整存儲結(jié)構(gòu)或重新組織數(shù)據(jù)庫等方法,使數(shù)據(jù)庫系統(tǒng)保持高效率地正常運作
(3)擴充系統(tǒng)的功能在維持原有系統(tǒng)功能和性能的基礎上,適應環(huán)境和需求的變化,采納用戶的合理意見,對原有系統(tǒng)進行擴充,增加新的功能
關于分布式數(shù)據(jù)庫的產(chǎn)生過程的介紹到此就結(jié)束了,不知道你從中找到你需要的信息了嗎 ?如果你還想了解更多這方面的信息,記得收藏關注本站。
香港服務器選創(chuàng)新互聯(lián),2H2G首月10元開通。
創(chuàng)新互聯(lián)(www.cdcxhl.com)互聯(lián)網(wǎng)服務提供商,擁有超過10年的服務器租用、服務器托管、云服務器、虛擬主機、網(wǎng)站系統(tǒng)開發(fā)經(jīng)驗。專業(yè)提供云主機、虛擬主機、域名注冊、VPS主機、云服務器、香港云服務器、免備案服務器等。
當前文章:分布式數(shù)據(jù)庫的誕生歷程簡析(分布式數(shù)據(jù)庫的產(chǎn)生過程)
文章路徑:http://m.fisionsoft.com.cn/article/ccsgepg.html


咨詢
建站咨詢
