大數(shù)據(jù)時代的到來,讓政府、企業(yè)看到了數(shù)據(jù)資產(chǎn)的價值,快速開始探索應(yīng)用場景和商業(yè)模式、建設(shè)技術(shù)平臺。這無可厚非。但是,如果在大數(shù)據(jù)拼圖中遺忘了數(shù)據(jù)治理,那么做再多的業(yè)務(wù)和技術(shù)投入也是徒勞的,因為很經(jīng)典的一句話:Garbage in ,Garbage out,數(shù)據(jù)質(zhì)量沒有保證。而保證數(shù)據(jù)質(zhì)量,數(shù)據(jù)治理是必須的手段。
數(shù)據(jù)治理這個話題看似陽春白雪高大上,實際上是非常下里巴人接地氣,或者說必須要頂天立地才能見實效。頂天是指,與信息化類似,數(shù)據(jù)治理也是一把手工程,沒有高層推動、在業(yè)務(wù)與業(yè)務(wù)間、業(yè)務(wù)與技術(shù)間協(xié)調(diào),數(shù)據(jù)治理無法落地;立地是指:一般是IT人員對數(shù)據(jù)問題有深刻體會,也是IT人員最先意識到數(shù)據(jù)治理的重要性,而且數(shù)據(jù)治理最終是在IT層面落地的。
一、數(shù)據(jù)治理相關(guān)概念
1.1 數(shù)據(jù)分類
言歸正傳,首先是基本概念部分,既然談到數(shù)據(jù),首先要看一下數(shù)據(jù)的分類。其實筆者有點擔心提到“分類”這個詞,因為每個人、每個角色分類的視角都是不同的,各有道理。
這里所提的數(shù)據(jù)分類,是指在企業(yè)信息化領(lǐng)域做數(shù)據(jù)治理通常的分類方式。有其他方式也歡迎提出來大家一起探討。我們通常將數(shù)據(jù)分為:主數(shù)據(jù)、交易數(shù)據(jù)、參考數(shù)據(jù)、元數(shù)據(jù)和統(tǒng)計分析數(shù)據(jù)(指標)。上一張圖來說明:
為什么要談數(shù)據(jù)分類,因為對每類數(shù)據(jù)進行治理時,關(guān)注點、方法和效果都不同,需要區(qū)別對待。下面談一點筆者個人的理解:
主數(shù)據(jù)關(guān)注的是“人”和“物”,主數(shù)據(jù)管理(MDM)是數(shù)據(jù)治理領(lǐng)域一個專門的話題,其主要目的是對關(guān)鍵業(yè)務(wù)實體(如員工、客戶、產(chǎn)品、供應(yīng)商等)建立統(tǒng)一視圖,讓客觀世界里本是同一個人或物,在數(shù)據(jù)世界里也能做到唯一識別,而不是在不同系統(tǒng)、不同業(yè)務(wù)中成為不同的人或物。主數(shù)據(jù)管理在各行業(yè)企業(yè)已經(jīng)有大量的實踐,受限于時間,今天不單獨展開,其核心管理思想是和后面要談的數(shù)據(jù)治理方法一脈相承的。
交易數(shù)據(jù)關(guān)注的是“事”,交易數(shù)據(jù)沒有形成單獨的數(shù)據(jù)治理領(lǐng)域,由于交易數(shù)據(jù)是BI分析的基礎(chǔ),因此往往在數(shù)據(jù)質(zhì)量管理中重點關(guān)注;
參考數(shù)據(jù)是更細粒度的數(shù)據(jù),是對“人”“事”“物”的某些屬性進行規(guī)范性描述的,對參考數(shù)據(jù)的管理一般會與主數(shù)據(jù)管理同時進行,或與BI數(shù)據(jù)質(zhì)量管理同時進行,因為指標維度和維值直接影響到BI數(shù)據(jù)質(zhì)量;
元數(shù)據(jù)是一個包羅萬象的概念,其本質(zhì)是為數(shù)據(jù)提供描述,所以任何數(shù)據(jù)都有元數(shù)據(jù)。數(shù)據(jù)治理領(lǐng)域的元數(shù)據(jù),更多是指BI、數(shù)據(jù)倉庫這個范疇內(nèi)的元數(shù)據(jù)(國際上有Common Warehouse Meta-model規(guī)范),此外還有信息資源管理的元數(shù)據(jù)(如Dublin core協(xié)議)、地理信息元數(shù)據(jù)、氣象元數(shù)據(jù)等等。正因為如此廣泛,也造成了從業(yè)者對其有極高的預(yù)期以及實踐后的極大失落。
多說兩句元數(shù)據(jù):筆者從事過4年左右元數(shù)據(jù)管理的產(chǎn)品設(shè)計和方案規(guī)劃,但現(xiàn)在極少談“元數(shù)據(jù)”,而是談“數(shù)據(jù)定義”,談數(shù)據(jù)必談定義,但卻又不將其作為專門一類數(shù)據(jù)來管理,在數(shù)據(jù)治理領(lǐng)域單獨做元數(shù)據(jù)管理,收效甚微。
主要原因有兩點:
數(shù)據(jù)生產(chǎn)與數(shù)據(jù)管理脫節(jié),元數(shù)據(jù)管理更多是在數(shù)據(jù)生產(chǎn)的事后進行元數(shù)據(jù)收集和應(yīng)用展現(xiàn),對數(shù)據(jù)生產(chǎn)起到的管控作用極小。
工具自身問題:雖然很多工具都號稱支持CWM規(guī)范,但元數(shù)據(jù)自動獲取始終是技術(shù)難題,而且對于存儲過程、自定義腳本很難自動解析和獲取,就無法準確、完整展現(xiàn)細節(jié)的數(shù)據(jù)處理過程。
統(tǒng)計分析數(shù)據(jù)(指標),無需多言,目前BI系統(tǒng)建設(shè)的主要作用就是做各種指標和報表的計算和展示。指標往往是數(shù)據(jù)治理的重點,指標的數(shù)據(jù)流分析、指標數(shù)值的波動性、平衡性監(jiān)控,幾乎是各個企業(yè)做數(shù)據(jù)治理的必備應(yīng)用。
1.2數(shù)據(jù)治理
談完數(shù)據(jù)分類,再來談“什么是數(shù)據(jù)治理”。數(shù)據(jù)治理的英文是DataGovernance,不同軟件廠商和咨詢公司給出的定義也會有所不同,但本質(zhì)都是相似的。
這里引用《DAMA 數(shù)據(jù)管理知識體系指南》一書給出的定義:數(shù)據(jù)治理是對數(shù)據(jù)資產(chǎn)管理行使權(quán)力和控制的活動集合(規(guī)劃、監(jiān)控和執(zhí)行)。數(shù)據(jù)治理職能指導其他數(shù)據(jù)管理職能如何執(zhí)行。可能有些抽象,有圖有真相,下面這張圖說明了數(shù)據(jù)治理與其他幾個數(shù)據(jù)管理職能的關(guān)系:
可以看到數(shù)據(jù)治理貫穿在數(shù)據(jù)管理的整個過程中,重點關(guān)注的是有關(guān)數(shù)據(jù)的戰(zhàn)略、組織、制度等高層次的話題,并通過制定和推行戰(zhàn)略、組織、制度,將其他幾個數(shù)據(jù)管理職能貫穿、協(xié)同在一起,讓企業(yè)的數(shù)據(jù)工作能夠成為一個有機的整體而不是各自為政。
有關(guān)DataGovernance的中文翻譯,國內(nèi)最常見的翻法有兩種:數(shù)據(jù)治理、數(shù)據(jù)管控。國內(nèi)客戶似乎更喜歡數(shù)據(jù)管控,因為這個詞有力度、體現(xiàn)權(quán)威。筆者從實踐層面的體會:治理與管控缺一不可,治理在前、管控在后,治理針對的是存量數(shù)據(jù),是個由亂到治、建章立制的過程,而管控針對的是增量數(shù)據(jù),實現(xiàn)的是執(zhí)法必嚴、行不逾矩的約束。
為什么要做數(shù)據(jù)治理?下面是一份國際數(shù)據(jù)質(zhì)量協(xié)會的調(diào)研結(jié)果可以參考。
從理論上來講數(shù)據(jù)治理主要是三個目的:保證數(shù)據(jù)的可用性、數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全。而在實踐層面,國內(nèi)外談到數(shù)據(jù)治理,其主要目的都是數(shù)據(jù)質(zhì)量,對于數(shù)據(jù)安全,往往是有專門的團隊和管理舉措,從數(shù)據(jù)治理領(lǐng)域涉及的較少。我們下面的討論也繼承這種習慣,主要探討數(shù)據(jù)質(zhì)量這個目標。
概念探討先告一段落,后面在探討方法和實踐的時候,會反過來對概念有更好的理解。
二、數(shù)據(jù)治理的方法
在方法部分,主要講三個內(nèi)容:誰負責數(shù)據(jù)治理?治理或者管控對象是什么?技術(shù)工具有哪些?
2.1組織架構(gòu)
首先來談?wù)l負責數(shù)據(jù)治理,也就是組織架構(gòu),先上一張圖。
從理論和國外實踐來看,大型企業(yè)會建立企業(yè)級數(shù)據(jù)治理委員會,有業(yè)務(wù)部門領(lǐng)導、IT部門領(lǐng)導共同參與,讓業(yè)務(wù)與業(yè)務(wù)之間、業(yè)務(wù)與技術(shù)之間能夠有更充分的討論溝通,從而對宏觀的數(shù)據(jù)戰(zhàn)略、制度達成共識。在企業(yè)級之下,還可以有部門級、項目級的委員會,負責某些局部的數(shù)據(jù)治理,在最基層面向某一個業(yè)務(wù)領(lǐng)域應(yīng)該有相應(yīng)的數(shù)據(jù)管理專員(DataSteward)。
Steward實際上是管家的意思,但翻譯成管家似乎不夠嚴肅,因此采用了“專員”。Steward一詞與Owner相對應(yīng),說的是雖然資產(chǎn)不是歸Steward所有,但是他們替Owner代管,由此也衍生出Stewardship一詞,表明代管、托管制度,這里面蘊含了一種兢兢業(yè)業(yè)、克己奉公的管家精神,何其難得!數(shù)據(jù)治理委員會、數(shù)據(jù)管理專員會制定出一系列數(shù)據(jù)相關(guān)的標準和制度,由數(shù)據(jù)管理服務(wù)組織(DMSO)去執(zhí)行。從圖中可以看到,DMSO實際上是信息化建設(shè)團隊,他們負責數(shù)據(jù)倉庫、數(shù)據(jù)集成等技術(shù)平臺建設(shè)。
上面談的是理論和國外,在國內(nèi)的情況剛好相反,DMSO是主力軍,因為大家普遍“重功能、輕數(shù)據(jù),重技術(shù)、輕管理”,絕大部分企業(yè)是缺失左側(cè)的委員會等管理角色的。據(jù)筆者的經(jīng)驗,國內(nèi)大型銀行在這方面做得相對領(lǐng)先,企業(yè)級數(shù)據(jù)治理委員會或者專職的部門去推動數(shù)據(jù)治理;能源行業(yè)對數(shù)據(jù)治理的接觸和認同程度比較高,開展了不少數(shù)據(jù)治理項目,特別是在主數(shù)據(jù)管理方面。
運營商更重視技術(shù)手段,數(shù)據(jù)治理體制機制有待建設(shè)、健全。整體而言,國內(nèi)在企業(yè)層面成立數(shù)據(jù)治理委員會的不多,更多是將數(shù)據(jù)治理的工作放在“企業(yè)信息化領(lǐng)導小組”推動,由信息部門負責具體落實執(zhí)行。而有些企業(yè)雖然信息化水平很高,但信息化建設(shè)未實現(xiàn)信息部門的歸口管理,這對數(shù)據(jù)治理的推行帶來了極大挑戰(zhàn),跨部門、跨系統(tǒng)的協(xié)同異常艱難。
2.2 治理/管控對象
這個部分主要是筆者個人實踐經(jīng)驗的總結(jié),可能和國外的一些理論不一樣。個人總結(jié)為“內(nèi)容管控”和“過程管控”。此處用了管控一詞,體現(xiàn)一些管理的“力道”。
2.2.1內(nèi)容管控
先說內(nèi)容管控,數(shù)據(jù)在信息系統(tǒng)中是以不同形態(tài)體現(xiàn)的,需要將每種形態(tài)管理好,才有可能管好最終的數(shù)據(jù)質(zhì)量。上一張圖來說明:
從宏觀到微觀,數(shù)據(jù)的形態(tài)體現(xiàn)為數(shù)據(jù)架構(gòu)、數(shù)據(jù)標準和數(shù)據(jù)質(zhì)量標準。
數(shù)據(jù)架構(gòu),包括了數(shù)據(jù)模型(概念模型、邏輯模型)以及數(shù)據(jù)的流轉(zhuǎn)關(guān)系,一般在企業(yè)級和系統(tǒng)級會談數(shù)據(jù)架構(gòu),主要對企業(yè)數(shù)據(jù)的分類、分布和流轉(zhuǎn)進行規(guī)劃、設(shè)計,確保新建系統(tǒng)、新建應(yīng)用能夠與現(xiàn)有系統(tǒng)保持一致和融合,避免產(chǎn)生信息孤島,或者帶來重復不必要的數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換。
數(shù)據(jù)標準,包括了數(shù)據(jù)項、參考數(shù)據(jù)、指標等不同形式的標準。舉例來說,“客戶類型”是一個數(shù)據(jù)項,應(yīng)該有統(tǒng)一的業(yè)務(wù)含義,將客戶歸類為大客戶、一般客戶的規(guī)則是什么,數(shù)據(jù)項的取值是幾位長度,有哪些有效值(如01,02,03)等。這方面有國際標準可以參考,如ISO11179,國內(nèi)很多行業(yè)也制定了行業(yè)數(shù)據(jù)標準,如電子政務(wù)數(shù)據(jù)元、金融行業(yè)統(tǒng)計數(shù)據(jù)元等等。共同的問題是,標準定義出來之后,執(zhí)行的情況怎么樣?是否真正落實到IT系統(tǒng)了?
數(shù)據(jù)質(zhì)量標準,包括數(shù)據(jù)質(zhì)量規(guī)則以及稽核模型(即規(guī)則的組合應(yīng)用)。數(shù)據(jù)質(zhì)量規(guī)則一般會關(guān)注及時性、準確性、完整性、一致性、唯一性等,展開來談還有許多內(nèi)容,有的專家整理出12個數(shù)據(jù)質(zhì)量維度,有定性的也有定量的。
IT部門應(yīng)該牽頭制定并且定期更新企業(yè)級的數(shù)據(jù)架構(gòu)、數(shù)據(jù)標準和數(shù)據(jù)質(zhì)量標準,作為新建系統(tǒng)和應(yīng)用的指導約束。值得注意的是,在標準制定的過程中,要避免IT部門的閉門造車,一定要讓業(yè)務(wù)部門充分參與進來。
舉一個例子,筆者個人作為技術(shù)人員參與一次數(shù)據(jù)架構(gòu)的規(guī)劃,需要設(shè)計數(shù)據(jù)的流轉(zhuǎn)關(guān)系。筆者發(fā)現(xiàn)從技術(shù)角度看,數(shù)據(jù)從哪流向哪里似乎都是合理的,也都可以有相應(yīng)的工具去支撐,似乎沒有什么可以決策的依據(jù)。其實,這時就應(yīng)該有業(yè)務(wù)的參與,因為業(yè)務(wù)職能、業(yè)務(wù)流程和業(yè)務(wù)部門間的職能邊界劃分,直接決定了數(shù)據(jù)來源和去向,IT部門更多是從技術(shù)層面考慮具體實現(xiàn)方案。
2.2.2過程管控
這里談的過程,是指信息系統(tǒng)建設(shè)過程。因為經(jīng)過大量的實踐我們發(fā)現(xiàn),數(shù)據(jù)質(zhì)量不佳主要原因之一是在信息系統(tǒng)建設(shè)的過程中忽視了對數(shù)據(jù)的管控,這就會造成數(shù)據(jù)的設(shè)計與需求不一致,開發(fā)與設(shè)計不一致,對數(shù)據(jù)質(zhì)量要求考慮缺失,不同系統(tǒng)對數(shù)據(jù)的定義和技術(shù)實現(xiàn)不一致等等諸多問題。等待系統(tǒng)上線后再去解決這些問題,亡羊補牢,消耗資源。
其實,數(shù)據(jù)管理甚至IT行業(yè)都應(yīng)該虛心向傳統(tǒng)行業(yè)學習管理理念。比如制造業(yè)的質(zhì)量管理是在產(chǎn)品生產(chǎn)線各個環(huán)節(jié)進行質(zhì)量管控,有些理念也很有啟發(fā):QualityBy Design,質(zhì)量是設(shè)計出來的,不是檢查出來的;Quality check is a cost not benefit,質(zhì)量檢查是成本而非收益。
筆者公司最近完成了對工廠化的數(shù)據(jù)生產(chǎn)和管理模式的探索和初步實踐,運行效率、開發(fā)維護效率和數(shù)據(jù)質(zhì)量都有顯著提升,找機會再分享,提供一張效果圖有些感性認識。
下面是過程管控的示意圖:
這張圖的內(nèi)容比較豐富,其核心內(nèi)容是將“內(nèi)容管控”中形成的各項標準規(guī)范注入到通過信息系統(tǒng)建設(shè)的生命周期中,通過對系統(tǒng)建設(shè)各個階段交付物的管控確保標準規(guī)范得到遵從,從而保障數(shù)據(jù)的標準化和規(guī)范化。
過程管控一方面依靠開發(fā)管理中的評審機制去落實,另一方面就是靠工具去固化一些標準和規(guī)范,做到自動化檢查。在系統(tǒng)上線常態(tài)運行階段,注重新的數(shù)據(jù)需求和數(shù)據(jù)問題的收集和處理,對標準規(guī)范進行優(yōu)化。
在信息化早期階段ERP、CRM等操作型系統(tǒng)的建設(shè)是以功能和流程為中心,而后期BI、數(shù)據(jù)倉庫、大數(shù)據(jù)平臺等數(shù)據(jù)分析平臺的建設(shè)是以數(shù)據(jù)為中心的,這就注定一些傳統(tǒng)方式需要改變,應(yīng)該更加注重對數(shù)據(jù)架構(gòu)、數(shù)據(jù)標準、數(shù)據(jù)質(zhì)量的管控,更加關(guān)注數(shù)據(jù)的生命周期,否則數(shù)據(jù)分析平臺建設(shè)成功的概率不高。
2.2.3技術(shù)工具
下面簡單談?wù)劶夹g(shù)工具。先上一張圖,這是國外對數(shù)據(jù)治理關(guān)鍵技術(shù)的調(diào)研結(jié)論。
可以看到元數(shù)據(jù)、主數(shù)據(jù)、數(shù)據(jù)質(zhì)量是主要的技術(shù)手段。具體的產(chǎn)品功能不是今天要探討的話題,筆者主要想談一談技術(shù)工具在數(shù)據(jù)治理工作中的定位。與ERP遇到的情況非常類似,國內(nèi)的客戶往往寄望于上一套技術(shù)工具就能包治百病的解決數(shù)據(jù)問題、提升數(shù)據(jù)質(zhì)量。
而實際情況是,如果前面所說的組織架構(gòu)、內(nèi)容管控、過程管控等管理機制、技術(shù)標準不到位,僅僅上一套軟件工具,起不到任何效果。以上軟件工具的作用又是什么呢?核心作用在于知識的固化和提高數(shù)據(jù)治理人員的工作效率。
比如,需要手工編寫程序收集的元數(shù)據(jù),工具幫你自動獲取;需要人工識別或編寫代碼實現(xiàn)的數(shù)據(jù)質(zhì)量檢查,工具幫你自動識別問題;用文檔管理的數(shù)據(jù)字典,工具幫你在線管理;基于郵件和線下的流程,工具幫你線上自動化。
除此之外,數(shù)據(jù)治理的軟件工具與其他軟件工具一樣,沒有什么神奇之處,沒有數(shù)據(jù)治理人員的參與和數(shù)據(jù)治理工作的推進,軟件也只是看上去很美。這也是為什么數(shù)據(jù)治理咨詢服務(wù)一直有其市場,以及為什么國內(nèi)大部分單純數(shù)據(jù)治理軟件項目未能達到預(yù)期目標。
三、數(shù)據(jù)治理的實踐案例
第一個案例是運營商客戶的系統(tǒng)級數(shù)據(jù)治理,主要的啟示在于:組織架構(gòu)對于推動數(shù)據(jù)治理的重要性。
運營商數(shù)據(jù)倉庫建設(shè)已有多年,對元數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量管理一直高度重視。數(shù)據(jù)質(zhì)量問題往往是在數(shù)據(jù)倉庫發(fā)現(xiàn)的,而有很大比例問題是由于上游BOSS系統(tǒng)的升級或者數(shù)據(jù)錯誤傳遞到了數(shù)據(jù)倉庫。
例如,推出了新產(chǎn)品但數(shù)據(jù)倉庫中尚未注冊、SIM卡號位數(shù)升級但未通知數(shù)據(jù)倉庫等等。這說明兩個問題:業(yè)務(wù)人員與分析系統(tǒng)技術(shù)人員協(xié)同不夠;業(yè)務(wù)系統(tǒng)與分析系統(tǒng)協(xié)同不夠。
因此,數(shù)據(jù)倉庫的主管方嘗試從集團推動BOSS和數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量協(xié)同管理,通過幾省試點的方式建立了跨系統(tǒng)的元數(shù)據(jù)血緣圖、數(shù)據(jù)質(zhì)量聯(lián)動監(jiān)控等一系列技術(shù)手段去解決問題。
但是,數(shù)據(jù)質(zhì)量協(xié)同管理的工作終于試點、未能全國推廣實施,其原因主要有三點:
組織上,BOSS系統(tǒng)和數(shù)據(jù)倉庫沒有實現(xiàn)歸口IT管理、是由平級的兩個處室管理。
BOSS系統(tǒng)業(yè)務(wù)關(guān)鍵性高于數(shù)據(jù)倉庫。
此工作作為技術(shù)工作發(fā)起,沒有去爭取業(yè)務(wù)部門的支持、參與甚至牽頭。
由此可見,組織架構(gòu)和管理機制不順暢,會制約數(shù)據(jù)問題的解決,甚至會帶來數(shù)據(jù)問題。
第二個案例是一個能源行業(yè)客戶企業(yè)級的數(shù)據(jù)治理,主要的啟示在于:數(shù)據(jù)治理既要大處著眼,更要小處著手,而且要善于找時機切入。
該客戶通過信息化規(guī)劃設(shè)計了企業(yè)級數(shù)據(jù)架構(gòu),通過主數(shù)據(jù)管理項目經(jīng)過1年時間建立了企業(yè)級的主數(shù)據(jù)標準、實現(xiàn)了不同業(yè)務(wù)部門對不同領(lǐng)域數(shù)據(jù)認責(即承擔數(shù)據(jù)管理專員的角色),又通過數(shù)據(jù)管控項目理順了業(yè)務(wù)部門、信息化部門在數(shù)據(jù)管控工作上的職責,在項目管理辦公室PMO設(shè)置了數(shù)據(jù)管控組對各項目數(shù)據(jù)統(tǒng)一管控,同時制定了制度、流程和技術(shù)標準。組織、制度和標準上都可謂是到位的,但是技術(shù)標準的落地工作一直不順利。
舉例來說,以ERP為首的套裝軟件實施團隊對組織機構(gòu)主數(shù)據(jù)的標準一直很抵觸,不肯使用8位統(tǒng)一編碼而是使用本地4位編碼。這個問題的影響在只有ERP系統(tǒng)時并不明顯,數(shù)據(jù)管控組也無法推動8位編碼的應(yīng)用。隨著項目后期非套裝軟件的建設(shè),系統(tǒng)間的集成需求豐富起來,如果不能統(tǒng)一編碼標準,系統(tǒng)間無法集成。
這時,非ERP系統(tǒng)都遵從標準使用統(tǒng)一8位編碼,ERP項目組不得不讓步,通過映射表的方式實現(xiàn)了4位與8位的編碼映射,確保順利集成。由此可見,組織架構(gòu)、管理機制和技術(shù)標準建立好之后,其推行落地需要找時機,也需要數(shù)據(jù)治理人員的耐心和智慧,否則只能是紙上談兵。
第三個案例是美國的一個案例,主要的啟示在于:小處著手,可以非常非常小,這對國內(nèi)客戶喜歡大而全的思路是非常有益的互補。
這個企業(yè)也是受困于數(shù)據(jù)質(zhì)量問題,希望通過數(shù)據(jù)治理來解決。但開始時并不知道如何實際操作數(shù)據(jù)治理,所以他們啟動了一個“企業(yè)數(shù)據(jù)定義”的項目:用6個月的時間梳理現(xiàn)有系統(tǒng)的數(shù)據(jù)項,識別跨系統(tǒng)、跨業(yè)務(wù)的數(shù)據(jù)項作為數(shù)據(jù)治理的重點。數(shù)據(jù)項梳理完畢后,他們選擇了7個數(shù)據(jù)項去重點治理。
注意,只有7個數(shù)據(jù)項哦!國內(nèi)客戶一定會認為7個太少,不能當個事情來做。但美國這個企業(yè)就是圍繞這7個數(shù)據(jù)項去調(diào)研相關(guān)的業(yè)務(wù)用戶,發(fā)現(xiàn)他們的數(shù)據(jù)使用需求和問題,去分析與這些數(shù)據(jù)項相關(guān)的業(yè)務(wù)流程和數(shù)據(jù)流程。后來識別了40多項可以改進的內(nèi)容,也為數(shù)據(jù)治理的全面開展積累經(jīng)驗,在此基礎(chǔ)上制定了總體規(guī)劃和實施路線。
四、大數(shù)據(jù)與數(shù)據(jù)治理
終于談到了大數(shù)據(jù)。從前面的討論來看,數(shù)據(jù)治理大的脈絡(luò)并不復雜:對數(shù)據(jù)資產(chǎn)家底清晰、管理權(quán)責分明、建立配套標準規(guī)范、確保落地執(zhí)行,由此去保障數(shù)據(jù)質(zhì)量。雖然大數(shù)據(jù)的規(guī)模大、類型多、速度快,但數(shù)據(jù)治理的原則對于大數(shù)據(jù)也是同樣適用的。
那么大數(shù)據(jù)的到來會給數(shù)據(jù)治理提出哪些新的要求呢?
首先來看《大數(shù)據(jù)時代》的作者的觀點之一,他認為在大數(shù)據(jù)時代數(shù)據(jù)質(zhì)量不再重要,因為人們需要的是整體趨勢的分析而非精確結(jié)果。個人不太同意此觀點,而是認為對大數(shù)據(jù)而言數(shù)據(jù)質(zhì)量更加重要。
作者提的整體趨勢分析僅僅是大數(shù)據(jù)的應(yīng)用之一,而從精準營銷、風險識別等應(yīng)用場景來看,因為數(shù)據(jù)與運營結(jié)合的更緊密、要求數(shù)據(jù)粒度更細,任何一點錯誤都可能直接帶來業(yè)務(wù)上的損失;而傳統(tǒng)的指標應(yīng)用,反而對運營環(huán)節(jié)沒有如此直接的影響。因此,在大數(shù)據(jù)環(huán)境下對數(shù)據(jù)質(zhì)量的需求是提升而非降低。
其次,Hadoop、Spark等大數(shù)據(jù)技術(shù)的應(yīng)用,對數(shù)據(jù)治理的技術(shù)手段提出新的要求。傳統(tǒng)模式下基于RDBMS進行管理,SQL是通用的數(shù)據(jù)訪問方式。而在大數(shù)據(jù)環(huán)境中,Hadoop、MPP、RDBMS、Spark并存,如何在混搭的異構(gòu)環(huán)境中實現(xiàn)對數(shù)據(jù)資產(chǎn)的可視化統(tǒng)一管控,避免大數(shù)據(jù)系統(tǒng)成為不可管理的黑盒子,這是傳統(tǒng)行業(yè)應(yīng)用大數(shù)據(jù)技術(shù)需要面對的關(guān)鍵問題之一。
特別是大數(shù)據(jù)技術(shù)人才目前更多流向互聯(lián)網(wǎng)企業(yè),進入傳統(tǒng)行業(yè)的少之又少,在人才可得性短期不能快速解決的情況下,需要依靠技術(shù)手段來確保傳統(tǒng)企業(yè)IT人員能夠?qū)?shù)據(jù)資產(chǎn)的可視、可控。
第三,數(shù)據(jù)安全,或者說數(shù)據(jù)隱私的重要性比以往有顯著提升,這也需要在數(shù)據(jù)治理中加強對數(shù)據(jù)安全的重視。在傳統(tǒng)應(yīng)用場景中,數(shù)據(jù)由企業(yè)收集,在企業(yè)內(nèi)部應(yīng)用,數(shù)據(jù)所有權(quán)的問題并不突出。
在大數(shù)據(jù)時代,數(shù)據(jù)要更多進行跨界整合、外部應(yīng)用的商業(yè)模式創(chuàng)新,這其中就涉及到更多數(shù)據(jù)所有權(quán)、數(shù)據(jù)隱私的話題。用戶信息究竟屬于企業(yè)還是用戶、在什么條件下企業(yè)可以拿來用于商業(yè)應(yīng)用?這些問題的答案還在探討當中,毋庸置疑的是,企業(yè)需要在數(shù)據(jù)治理過程中,需要更加注意數(shù)據(jù)安全、數(shù)據(jù)隱私相關(guān)的制度和政策。