新聞中心
我們可以不再使用ETL了嗎?
說到ETL,很多開發(fā)伙伴可能會(huì)有些陌生,我也是在近幾年的工作過程中才接觸到ETL的,現(xiàn)在的項(xiàng)目是比較依賴于ETL,可以說是項(xiàng)目中重要的一部分。

創(chuàng)新互聯(lián)是專業(yè)的宜豐網(wǎng)站建設(shè)公司,宜豐接單;提供網(wǎng)站制作、成都網(wǎng)站制作,網(wǎng)頁設(shè)計(jì),網(wǎng)站設(shè)計(jì),建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行宜豐網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴(kuò)展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團(tuán)隊(duì),希望更多企業(yè)前來合作!
先看一看ETL是做什么用的:ETL是將各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù),通過抽取、清洗、轉(zhuǎn)換之后,加載到數(shù)據(jù)倉庫的過程;ETL可以將分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起。完整的ETL功能有很多(ETL是三個(gè)三次的縮寫...),我只從我實(shí)際使用的場(chǎng)景出發(fā),說明我對(duì)ETL的理解和實(shí)際應(yīng)用。
我接觸過的項(xiàng)目,使用ETL工具的場(chǎng)景有這個(gè)幾種:
在公司建設(shè)的初期,業(yè)務(wù)比較少,系統(tǒng)也比較少,一臺(tái)數(shù)據(jù)庫就搞定了;
隨著公司業(yè)務(wù)的增加,業(yè)務(wù)系統(tǒng)被拆成很多系統(tǒng);
隨著數(shù)據(jù)量的繼續(xù)增加,單個(gè)系統(tǒng)的數(shù)據(jù)增加到一定程度的時(shí)候,也做了分庫分表;
這時(shí)候領(lǐng)導(dǎo)、業(yè)務(wù)人員在用數(shù)據(jù)做分析的時(shí)候,數(shù)據(jù)來源可能是多個(gè)系統(tǒng)的多張表,這時(shí)候企圖通過一個(gè)復(fù)雜的SQL跑出來結(jié)果就很困難了;通常公司會(huì)建立一個(gè)數(shù)據(jù)倉庫,通過ETL工具把數(shù)據(jù)抽取到數(shù)據(jù)倉庫中,再做數(shù)據(jù)的擬合和展示。
目前來說是不行的,ETL任然是大數(shù)據(jù)時(shí)代下數(shù)據(jù)遷移不可缺少的
首先說一下什么是ETL,ETL是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL一詞較常用在數(shù)據(jù)倉庫,但其對(duì)象并不限于數(shù)據(jù)倉庫。也就是說幾乎所有的數(shù)據(jù)的移動(dòng)都需要ETL的參與!
目前用到的ETL工具常見的有Datastage,informatica,kettle三種,前兩者是收費(fèi)的,并且占據(jù)了大多數(shù)國(guó)內(nèi)市場(chǎng),而kettle是來源免費(fèi)的!但是在大數(shù)據(jù)量下Informatica 與Datastage的處理速度是比較快的,比較穩(wěn)定。Kettle的處理速度相比之下稍慢。所以很多公司尤其是金融機(jī)構(gòu)選Informatica 與Datastage。但是kettle由于是開源的所以有很強(qiáng)的擴(kuò)展性。
數(shù)據(jù)要想有價(jià)值,就必須把它進(jìn)行分析,挖掘出來它潛藏的價(jià)值,人們?nèi)粘;顒?dòng)產(chǎn)生的數(shù)據(jù)一般是放在業(yè)務(wù)系統(tǒng)中,而在業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)是不能直接進(jìn)行分析處理的,這個(gè)時(shí)候我就得把這些數(shù)據(jù)搬運(yùn)到一個(gè)倉庫里,再進(jìn)行分析!也就是所說的數(shù)據(jù)倉庫,在而這個(gè)數(shù)據(jù)的搬運(yùn)工就是ETL,在搬運(yùn)的過程中我們還要做一些初步的清洗,去掉一些無用的不全的數(shù)據(jù),這也是ETL的功能!最后我們那這些處理過的數(shù)據(jù)進(jìn)行商業(yè)分析!這就是一個(gè)ETL的過程。
在數(shù)據(jù)就是價(jià)值的今天我們更加離不開ETL,當(dāng)然這個(gè)過程也在不斷的改進(jìn),運(yùn)用也越來越智能越來越方便
ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉庫的過程,目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù), ETL是BI(商業(yè)智能)項(xiàng)目重要的一個(gè)環(huán)節(jié)。通常情況下,在BI項(xiàng)目中ETL會(huì)花掉整個(gè)項(xiàng)目至少1/3的時(shí)間,ETL設(shè)計(jì)的好壞直接關(guān)接到BI項(xiàng)目的成敗。
ETL的設(shè)計(jì)分三部分:
- 數(shù)據(jù)抽?。?strong>Extract)
- 數(shù)據(jù)的清洗轉(zhuǎn)換(Transform)
- 數(shù)據(jù)的加載(Load)
目前常用的ETL工具有:
- SSIS
- Kettle
- DataStage
- Informatica
Datastage和Informatica是收費(fèi)的,并且占據(jù)了大多數(shù)國(guó)內(nèi)市場(chǎng),而Kettle是來源免費(fèi)的。但是在大數(shù)據(jù)量下Informatica 與Datastage的處理速度是比較快的,比較穩(wěn)定。Kettle的處理速度相比之下稍慢。所以很多公司尤其是金融機(jī)構(gòu)選Informatica與Datastage。但是kettle由于是開源的所以有很強(qiáng)的擴(kuò)展性。所以在這個(gè)巨大的市場(chǎng)條件下,基本是不會(huì)被淘汰的,除非出現(xiàn)更加劃時(shí)代的產(chǎn)物。
不可以。
哈哈,是不是離你的預(yù)期答案差很多?
先說說為什么會(huì)有不想再使用ETL的想法?
因?yàn)楸M管在ETL上花費(fèi)了大量時(shí)間和金錢,公司仍然會(huì)遇到很大的問題:比如數(shù)據(jù)不準(zhǔn)確、查詢不夠徹底等。
那這些問題現(xiàn)在有辦法解決嗎?
暫時(shí)是沒有的,ETL還是得用,在具有成熟業(yè)務(wù)的公司里不可或缺,但這并不代表這是一個(gè)好崗位。
etl工程師主要進(jìn)行數(shù)據(jù)采集、轉(zhuǎn)換等方面的數(shù)據(jù)預(yù)處理,也稱數(shù)據(jù)清洗。這個(gè)工作打個(gè)不恰當(dāng)?shù)谋扔?,是洗菜工而不是廚師,所以和工作年限和年齡無關(guān),和自己的發(fā)展規(guī)劃相關(guān)。
所以做了幾年之后,發(fā)展的空間不夠大,但是養(yǎng)活自己是沒有問題的。
到此,以上就是小編對(duì)于mongodb 重啟的問題就介紹到這了,希望這1點(diǎn)解答對(duì)大家有用。
新聞標(biāo)題:我們可以不再使用ETL了嗎?(windows中mongodb重啟的命令是什么)
標(biāo)題路徑:http://m.fisionsoft.com.cn/article/ccssehp.html


咨詢
建站咨詢
