新聞中心
數(shù)據(jù)安全正處于安全產(chǎn)業(yè)的風(fēng)口,同時(shí)也是用戶和市場(chǎng)關(guān)注的焦點(diǎn)。數(shù)據(jù)脫敏,看似一個(gè)簡(jiǎn)單易用千人一面的技術(shù)領(lǐng)域。但不同產(chǎn)品技術(shù)的性能表現(xiàn)和應(yīng)用價(jià)值其實(shí)存在巨大差異。

隨著我國(guó)信息化建設(shè)的持續(xù)推進(jìn),政府、企業(yè)乃至個(gè)人對(duì)數(shù)據(jù)安全的認(rèn)知與重視程度不斷提升。作為數(shù)據(jù)安全防護(hù)工作的重要一環(huán),數(shù)據(jù)脫敏技術(shù)和產(chǎn)品已作為常規(guī)手段,在開(kāi)發(fā)測(cè)試環(huán)境構(gòu)建以及數(shù)據(jù)外發(fā)共享等典型場(chǎng)景中被廣泛普及應(yīng)用。
而作為帶有日常工具屬性的數(shù)據(jù)安全產(chǎn)品,數(shù)據(jù)脫敏產(chǎn)品在幫助客戶滿足合規(guī)需求外,還要能夠切實(shí)解決客戶敏感數(shù)據(jù)在分發(fā)、遷移過(guò)程中的安全痛點(diǎn),這點(diǎn)也尤為重要:
- 面對(duì)紛繁復(fù)雜業(yè)務(wù)系統(tǒng)數(shù)據(jù),客戶需要從中自動(dòng)、準(zhǔn)確地識(shí)別出敏感數(shù)據(jù),但由于業(yè)務(wù)系統(tǒng)中數(shù)據(jù)的復(fù)雜程度往往較高,對(duì)敏感數(shù)據(jù)的整理和判斷會(huì)占用大量的人工資源;而業(yè)務(wù)系統(tǒng)數(shù)據(jù)的存儲(chǔ)位置也不只是數(shù)據(jù)庫(kù),還有大量的結(jié)構(gòu)化導(dǎo)出及備份文件;這時(shí)如果缺乏足夠自動(dòng)化、智能化的敏感數(shù)據(jù)發(fā)現(xiàn)手段,就很可能出現(xiàn)誤判、漏判等問(wèn)題,從而導(dǎo)致數(shù)據(jù)在遷移過(guò)程中發(fā)生敏感數(shù)據(jù)泄露事件。
- 面對(duì)大規(guī)模數(shù)據(jù)脫敏場(chǎng)景,無(wú)論客戶選擇快速搭建1:1仿真測(cè)試環(huán)境,還是長(zhǎng)期維持備份或開(kāi)發(fā)、測(cè)試環(huán)境所需的實(shí)時(shí)數(shù)據(jù),都對(duì)數(shù)據(jù)脫敏性能提出了較高的要求與挑戰(zhàn)。換言之,無(wú)論是全量脫敏還是增量脫敏,都可能需要產(chǎn)品能夠在數(shù)小時(shí)內(nèi)處理完TB級(jí)別的數(shù)據(jù),而且數(shù)據(jù)處理過(guò)程應(yīng)盡量自動(dòng)化、減少人工干預(yù),以便融入真實(shí)場(chǎng)景的整個(gè)分發(fā)流程。
如果單純從“使用效果”來(lái)看,數(shù)據(jù)脫敏所要實(shí)現(xiàn)的不過(guò)是將用戶真實(shí)數(shù)據(jù)遷移至新環(huán)境中,并對(duì)敏感數(shù)據(jù)進(jìn)行變形、遮蔽等處理,達(dá)到數(shù)據(jù)“敏感性降低、標(biāo)識(shí)化消除”的目的。然而,上述貌似簡(jiǎn)單明確的需求,如果沒(méi)有數(shù)據(jù)安全廠商專業(yè)、復(fù)雜的技術(shù)支撐,非但無(wú)法將安全和便捷帶給客戶,還會(huì)在項(xiàng)目交付實(shí)施等環(huán)節(jié)造成一系列問(wèn)題和麻煩!下面,就讓我們針對(duì)那些貌似簡(jiǎn)單的需求,看清其背后的產(chǎn)品、技術(shù)需求差異:
一、數(shù)據(jù)“敏感性識(shí)別”能力
針對(duì)目標(biāo)環(huán)境中的敏感數(shù)據(jù)進(jìn)行發(fā)現(xiàn),是進(jìn)行數(shù)據(jù)脫敏公認(rèn)的前提。然而,對(duì)這項(xiàng)技術(shù)的應(yīng)用除必須考察數(shù)據(jù)脫敏產(chǎn)品的“發(fā)現(xiàn)性能和準(zhǔn)確度”外,在實(shí)際使用過(guò)程中還隱藏著對(duì)產(chǎn)品更多“深度能力”的要求,這些能力也將決定一款數(shù)據(jù)脫敏產(chǎn)品能否真正適用于真實(shí)復(fù)雜的場(chǎng)景:
1. 多種內(nèi)容混合的字段脫敏
對(duì)于“由多種內(nèi)容混合在一起”的字段,數(shù)據(jù)脫敏產(chǎn)品能否準(zhǔn)確辨別其中每種數(shù)據(jù)的類型,同時(shí)給出類型占比以供使用者參考抉擇?
以個(gè)人信息收集場(chǎng)景為例,其中一個(gè)典型的內(nèi)容就是需要有人填寫(xiě)“聯(lián)系方式”字段。但是由于填寫(xiě)人員對(duì)采集需求的理解不同,導(dǎo)致所填寫(xiě)的信息可能會(huì)由手機(jī)號(hào)、座機(jī)號(hào)、地址等五花八門(mén)的“個(gè)人信息”構(gòu)成。而這些信息會(huì)存儲(chǔ)在同一列中,如果單從數(shù)據(jù)特征入手,處理不善的話很容易將此字段當(dāng)做非敏感字段被忽略掉。因此,一款成熟的數(shù)據(jù)脫敏產(chǎn)品的發(fā)現(xiàn)機(jī)制,不僅要能將上述字段準(zhǔn)確識(shí)別為敏感數(shù)據(jù)字段,還要能根據(jù)采樣數(shù)據(jù)給出各類數(shù)據(jù)在此字段中的發(fā)現(xiàn)占比;此外,在之后的數(shù)據(jù)脫敏運(yùn)算環(huán)節(jié)中,還應(yīng)能夠根據(jù)每行數(shù)據(jù)的真正類型,對(duì)應(yīng)地產(chǎn)生高度仿真的數(shù)據(jù)。
2. 無(wú)法判別敏感屬性的字段脫敏
對(duì)于“從數(shù)據(jù)特征上無(wú)法判別敏感屬性”的字段,在傳統(tǒng)數(shù)據(jù)脫敏產(chǎn)品的發(fā)現(xiàn)邏輯中往往容易被忽略,從而導(dǎo)致敏感數(shù)據(jù)的泄露;其實(shí)處理得當(dāng)?shù)脑?,此類?shù)據(jù)是能夠進(jìn)行識(shí)別的,可通過(guò)以下兩種方式進(jìn)行:
其一,對(duì)屬于某種集合范圍內(nèi)、能夠被枚舉概括的數(shù)據(jù),可將這些集合全部列出作為數(shù)據(jù)字典保存;當(dāng)遇到這類“落到字典中”的數(shù)據(jù)時(shí),即可以此辨別其是否為敏感數(shù)據(jù)。例如:中國(guó)的省市區(qū)劃、企業(yè)和機(jī)構(gòu)的行政部門(mén)、股票證券行業(yè)的上市公司代碼等,均可通過(guò)此類邏輯進(jìn)行敏感數(shù)據(jù)發(fā)現(xiàn)。
其二,對(duì)字段命名具有特征的數(shù)據(jù),可根據(jù)字段名稱特征嘗試進(jìn)行敏感數(shù)據(jù)發(fā)現(xiàn);通過(guò)這種發(fā)現(xiàn)方式得出的結(jié)果雖是基于猜測(cè),但卻能縮減客戶大海撈針般的工作量。例如:保存有密碼的字段,單從數(shù)據(jù)內(nèi)容特征上是很難辨別其敏感性的,但若根據(jù)字段的名稱,卻可利用一條“包含了PWD或PASSWORD等字符串的列名”作為此類數(shù)據(jù)的疑似判別依據(jù)。
此外,在實(shí)際使用場(chǎng)景中,敏感數(shù)據(jù)的載體除了常見(jiàn)的數(shù)據(jù)庫(kù)、結(jié)構(gòu)化文件之外,還包含了保險(xiǎn)行業(yè)大規(guī)模使用的xml保單文件;醫(yī)療行業(yè)常見(jiàn)的以html結(jié)構(gòu)保存的病例、診療記錄以及用于臨床醫(yī)學(xué)的DICOM圖像格式文件。對(duì)這類文件中敏感信息的分析識(shí)別不僅要求產(chǎn)品能夠適應(yīng)不同種類的文件格式,還要有更智能的詞法語(yǔ)義拆分、非結(jié)構(gòu)化信息識(shí)別等能力。
二、數(shù)據(jù)脫敏“高度仿真”能力
“數(shù)據(jù)脫敏”,看上去是描述數(shù)據(jù)脫敏產(chǎn)品“最基礎(chǔ)能力”的詞語(yǔ),但在差異化的使用場(chǎng)景下卻有著對(duì)其不同能力的要求;比如客戶對(duì)于脫敏后數(shù)據(jù)的“仿真”質(zhì)量的要求,就會(huì)伴隨脫敏后數(shù)據(jù)的真實(shí)使用得以驗(yàn)證,從而對(duì)數(shù)據(jù)脫敏產(chǎn)品的“高度仿真”能力提出了更多、更高的要求,往往由以下幾個(gè)難度層級(jí)構(gòu)成:
1. 內(nèi)容仿真
基礎(chǔ)的內(nèi)容仿真,要求脫敏后數(shù)據(jù)從“數(shù)據(jù)類型、長(zhǎng)度、格式、內(nèi)在邏輯和語(yǔ)義”等特性上均與原始數(shù)據(jù)保持一致,不會(huì)對(duì)脫敏后數(shù)據(jù)的使用場(chǎng)景造成無(wú)法識(shí)別或產(chǎn)生歧義等問(wèn)題。通常來(lái)說(shuō),市面上多數(shù)脫敏產(chǎn)品通過(guò)內(nèi)置規(guī)則,針對(duì)身份證、姓名、銀行卡、手機(jī)號(hào)、地址等常見(jiàn)字段都能較好地滿足上述最基礎(chǔ)的仿真要求。但是,當(dāng)客戶面對(duì)的是五花八門(mén)的使用場(chǎng)景時(shí),想要實(shí)現(xiàn)脫敏后數(shù)據(jù)的“高度仿真”,就需要更加靈活的產(chǎn)品技術(shù)能力提供支撐。
例如:在某制造行業(yè)中,對(duì)于制成品的批次號(hào)需要進(jìn)行脫敏,但批次號(hào)是由生產(chǎn)日期、車間號(hào)、流水線號(hào)和操作者相關(guān)信息共同組成的,這種行業(yè)級(jí)的數(shù)據(jù)顯然已超出一般數(shù)據(jù)脫敏產(chǎn)品內(nèi)置規(guī)則的默認(rèn)范圍,這時(shí)就需要安全廠商的數(shù)據(jù)脫敏產(chǎn)品能夠?qū)?shù)據(jù)按位數(shù)進(jìn)行切分,并基于切分的結(jié)果對(duì)各段配置脫敏規(guī)則。比如:對(duì)于日期段,可采用標(biāo)準(zhǔn)的日期脫敏規(guī)則;對(duì)于車間號(hào)、流水線號(hào)這種有范圍的數(shù)據(jù),要能基于數(shù)據(jù)字典進(jìn)行脫敏;最終還要將各段組合成完整的脫敏后數(shù)據(jù)。
2. 區(qū)間、比例仿真
進(jìn)階一步的數(shù)據(jù)仿真,除對(duì)內(nèi)容進(jìn)行仿真外,還要求脫敏后的整列數(shù)據(jù)能夠滿足某些特征,以避免這些脫敏后數(shù)據(jù)被分發(fā)到分析統(tǒng)計(jì)場(chǎng)景后,因?yàn)槭д娼档推鋵?shí)用性。
例如:金融行業(yè)客戶需要對(duì)儲(chǔ)戶的儲(chǔ)蓄金額進(jìn)行分析,但若拿到的脫敏后數(shù)據(jù)與原始數(shù)據(jù)相差過(guò)大,將會(huì)導(dǎo)致統(tǒng)計(jì)分析結(jié)果大大失真,因而需要脫敏產(chǎn)品的算法能夠?qū)⒔痤~數(shù)據(jù)劃分區(qū)間不長(zhǎng),并能以“就近隨機(jī)”的方式完成脫敏;而高??蛻粼诮y(tǒng)計(jì)生源分布比例時(shí),即便拿到的已是將“北京市脫敏成上海市,天津市脫敏成江西省”這樣的非真實(shí)數(shù)據(jù),也還是希望“同一省市生源數(shù)據(jù)的比例”是不變的等等。
3. 關(guān)聯(lián)仿真
關(guān)聯(lián)仿真則是更進(jìn)一步的數(shù)據(jù)仿真,要求脫敏后數(shù)據(jù)與其所在行的其他數(shù)據(jù)能夠保留一定的關(guān)聯(lián)關(guān)系或運(yùn)算關(guān)系,例如:
當(dāng)身份證號(hào)、出生日期、年齡三個(gè)字段出現(xiàn)在同一個(gè)表中,則天然存在“身份證中間8位數(shù)據(jù)與出生日期一致,且當(dāng)前年份減去出生日期即為年齡”這一邏輯關(guān)系。在這種情況下,就要求脫敏后數(shù)據(jù)也要保持這種關(guān)聯(lián)關(guān)系,否則在分發(fā)到開(kāi)發(fā)測(cè)試場(chǎng)景后極易造成業(yè)務(wù)系統(tǒng)出現(xiàn)邏輯異常;
而在制造行業(yè),一張表中常存在“產(chǎn)品單價(jià)、折扣率、實(shí)際價(jià)格”三個(gè)字段,且存在“產(chǎn)品單價(jià)x折扣率 = 實(shí)際價(jià)格”這一邏輯關(guān)系。在這種情況下,如果對(duì)價(jià)格數(shù)據(jù)進(jìn)行脫敏,那么要求脫敏后數(shù)據(jù)仍能保留上述運(yùn)算關(guān)系,這就需要脫敏產(chǎn)品能夠通過(guò)表達(dá)式精確處理此類行業(yè)內(nèi)特定的數(shù)據(jù)邏輯關(guān)系;
再以證券行業(yè)為例,同一張表內(nèi)常存在“證券號(hào)碼、上市地區(qū)、企業(yè)名稱”等存在對(duì)應(yīng)關(guān)系的數(shù)據(jù),并且要求在對(duì)證券號(hào)碼或企業(yè)名稱進(jìn)行脫敏后,三者的邏輯關(guān)系依然能夠?qū)?yīng)。為此,脫敏產(chǎn)品需要能夠針對(duì)多列數(shù)據(jù)字典,實(shí)現(xiàn)精確且保障效率的關(guān)聯(lián)仿真脫敏運(yùn)算。
綜上所述,想要真正做到以仿真數(shù)據(jù)滿足不同行業(yè)、不同場(chǎng)景下的客戶使用需求,并不是簡(jiǎn)單一句“數(shù)據(jù)脫敏”所能概括的,其背后對(duì)廠商產(chǎn)品、技術(shù)有著更多、更高的要求與考驗(yàn)。
三、“高性能”數(shù)據(jù)脫敏能力
“脫敏性能”是一個(gè)客戶極為關(guān)注的產(chǎn)品指標(biāo)!在一些場(chǎng)景下,客戶需要執(zhí)行“一次全量脫敏后每天增量脫敏”的數(shù)據(jù)處理邏輯,這就要求脫敏產(chǎn)品必須在規(guī)定時(shí)間內(nèi)處理完前一天的增量數(shù)據(jù),不然就會(huì)直接影響到脫敏目標(biāo)環(huán)境中的數(shù)據(jù)一致性;而在另一些場(chǎng)景中,對(duì)數(shù)據(jù)脫敏的需求則處于“隨用隨做”的客觀節(jié)奏,且從數(shù)據(jù)脫敏需求被發(fā)出到完成數(shù)據(jù)脫敏環(huán)境的構(gòu)建,留給相關(guān)人員的時(shí)間很可能是緊張的。無(wú)論面臨以上哪種場(chǎng)景,都對(duì)大批量數(shù)據(jù)的脫敏性能都不斷提出著新的要求與挑戰(zhàn)。而除常規(guī)的提升調(diào)度合理性及算法運(yùn)算效率外,還有兩個(gè)關(guān)鍵因素也影響著數(shù)據(jù)脫敏效率的提升:
其一,是利用數(shù)據(jù)庫(kù)特性完成數(shù)據(jù)抽取與入庫(kù)邏輯。例如:以“數(shù)據(jù)庫(kù)并行加載機(jī)制或load機(jī)制”替換“通過(guò)JDBC讀寫(xiě)數(shù)據(jù)”,這種方式會(huì)令數(shù)據(jù)脫敏產(chǎn)品的開(kāi)發(fā)復(fù)雜程度大幅提升,但與此同時(shí)也會(huì)帶來(lái)大規(guī)模數(shù)據(jù)脫敏性能的提升。
其二,是數(shù)據(jù)脫敏產(chǎn)品能夠提供平行擴(kuò)展的集群化部署運(yùn)算能力,從而通過(guò)擴(kuò)展運(yùn)算節(jié)點(diǎn)的數(shù)量,成倍擴(kuò)展數(shù)據(jù)脫敏產(chǎn)品的運(yùn)算能力。
戳這里,看該作者更多好文
網(wǎng)站名稱:數(shù)據(jù)脫敏產(chǎn)品應(yīng)用價(jià)值差異與選型指標(biāo)建議
文章網(wǎng)址:http://m.fisionsoft.com.cn/article/djsjegj.html


咨詢
建站咨詢
