如今關於企業數字化進程,企業信息化程度以及運營效率都有了極大的提高,數據的內容和維度得到了空前的豐富,很多場景或信息都能被數據有效、準確、實時地記錄下來。
本文主要以零售為例,講講當要了解壹個企業的數據時,需要了解什麽,如何快速從“門外漢”到“門兒清”。
壹、這個世界充滿了數據
不難想象,我們目前所處的世界處處充滿了數據。在日常生活中,我們的壹言壹行,壹舉壹動,幾乎都已被數據記錄下來,而且越來越多地被表征。
4G的成熟應用以及5G的興起,基站等通信基礎設施的廣泛布局以及LBS的商業化,出行或導航軟件(包括買票、打車、***享單車、地圖導航、汽車傳感器......)的廣泛使用,使得關於我們每個人的活動軌跡都轉為數據而被記錄下來,例如在哪裏上班、住在哪裏、出行方式、什麽時候出行、經過哪裏、在哪裏停留、停留多久、什麽時候達到等等。
隨著新零售的發展,大數據、AI、掃碼支付、圖像識別、感應器等新技術的應用,微信營銷、社交營銷、社區營銷等新思維的興起,加速了線上線下的融合。無論人們在線上還是在線下購物,整個購物鏈條的各環節數據都會快速且準確地被傳輸至系統後臺。
基於記錄下來的數據,商家或購物平臺會知道誰買、什麽時候買、在哪裏買、買什麽、買多少、花了多少錢、怎麽付款、是否打折或優惠等信息。如果妳在線上購物,妳搜索什麽關鍵詞、瀏覽哪些商品、跟商家咨詢什麽、商品送到哪裏等信息,也會被商家或購物平臺知道。如果妳在線下購物,從進店到離店,妳在店裏的壹舉壹動都在安裝店裏的攝像頭嚴密監控之下。通過視頻監控和人臉識別,商家會馬上知道妳是誰、新客還是老客、在店裏的行走路徑是怎樣的,在哪個商品區停留,拿起哪些商品,把哪些商品放進購物籃等等。
當我們在網上聊天時,我們和誰聊天、什麽時候聊、聊什麽、文字/語音還是視頻,都相應地產生了數據,也都被記錄了下來。
同樣地,我們在打電話、寄快遞、點外賣、跑步健身、去餐廳吃飯、看電影或瀏覽網頁的時候,都或多或少以數據的形式留下壹點兒不可磨滅的痕跡。甚至,當妳漫步在城市的每壹條街道上,遍布城市每個角落的攝像頭都可能會捕捉到妳的倩影。
總之,科技服務給我們帶來生活上的極大便利,但也從我們身上索取了最重要的東西——個人信息,作為交換。畢竟,天底下從來就沒有免費的午餐。
盡管被數據記錄或表征的事件、行為、場景越來越多,但仍有很多東西在目前階段甚至未來很長壹段時間都無法用數據記錄。例如,人的內心想法,只要不表達出來,很難用數據記錄下來,這大概也是導致這個世界充滿不確定性的原因之壹吧。
圖1. 數據對業務的表征
當我們接觸到企業數據的時候,我們需要清楚這些數據是怎麽來的。這些數據不會無緣無故地產生,其背後壹定對應著某些業務場景。
我們深刻感受到,這個世界充滿了數據,數據規模正在不斷呈指數級地增長,數據類型也呈現多樣性,從結構化數據,到文本、語音、圖像、短視頻、視頻等非結構化數據。
二、數據表達了什麽
真實(而不是杜撰、模擬、偽造)、可量化、可被記錄的數據壹定會反映真實世界某方面的業務場景。真實業務場景的發生或改變,大多也會反映在後臺系統的數據中。
但數據對業務場景細節的表征仍存在壹定的信息丟失或者失真。例如,有個30歲的女性顧客在母嬰店買了兩件嬰兒服飾,但我們並不知道她為什麽購買,是買給她自己的小孩還是送給親戚朋友,是作為生日禮物送給小孩還是小孩長身體了需要換衣服,這時候需要做分析,需要“猜”。
零售是業務場景最繁多而且最貼近我們每壹個人日常生活的行業。當談到業務與數據的關系時,不妨以零售方面的例子,幫助我們更好的理解。
炎炎夏日,酷暑難耐,當妳走進公司附近的便利店,使用微信支付,花了3.5元,買了壹瓶無糖330ml摩登罐的可樂,而且刷會員卡攢了100積分,而收銀員MM返回給了妳壹張POS單據,這時妳所發生的這壹切都已經通過收銀記錄在了數據庫裏。更糟糕的是,店裏的攝像頭也已經把妳在店裏的壹舉壹動錄了下來了,轉化成為壹幀幀圖像數據。
這就是業務數據化。
分析發現,最近3.5元330ml摩登罐可樂的銷量比上月增長20%,而消費者中75%是20-35歲的男性,相比之下,300ml塑料瓶裝的可樂銷量卻下滑40%。店長權衡比較之下,認為300ml塑料瓶裝可樂利潤低,而330ml摩登罐可樂目前更受年輕人歡迎,考慮到日漸增長的租金壓力以及日漸激烈的便利店競爭,做了壹個大膽的決定——下架300ml塑料瓶裝可樂,增加330ml摩登罐可樂。
這就是數據業務化,或者數據驅動業務。
圖2. 業務與數據的關系
所以,不要急著去看企業系統裏面的壹張張表。當脫離業務去看數據時,數據只是壹個個冰冷的數字,沒有什麽意義,也不會告訴妳什麽信息。當我們在著手了解企業數據前,先讓自己熟悉壹下業務。
圖3. 了解數據的流程
以“面-線-點”的方式熟悉業務,較為恰當,全面、系統、有效、深入,先是壹個行業,再到某個垂直領域,然後是企業,最後是具體業務場景。以下幾種途徑可以幫助妳快速熟悉業務:
閱讀行業報告,包括行業現狀、整體規模、發展模式、使用技術、商品特點、消費者特征、標桿企業、趨勢預測,等;
從公司年報、經營分析報告等文件了解企業的總體情況;
瀏覽公司官網、公眾號、官微、網店等,加深和完善對企業的了解,同時可以做壹些線上體驗及感知;
實地考察企業線下網點,體驗網點服務,向壹線網點工作人員了解情況。(很多大公司都會要求總部人員每年至少在壹線體驗1-2天,避免與業務脫節。)
請教有經驗且很懂業務的老員工。他們不僅熟悉業務,而且對企業的人和事也很清楚,可以多咨詢他們;
很多業務場景常常出現在日常生活之中,保持開放心態,細致觀察,所見即所得;
註重平時積累,多讀書,多體驗生活,增加社會閱歷和經驗。
對於沒有家室的年輕人來說,壹罐嬰兒奶粉能喝多久,大多是沒有概念的;沒談過戀愛的男生,大多不會明白,BB霜、隔離霜是什麽,為什麽卸妝要用卸妝水、卸妝棉(直接水洗不就好了嗎,省事~~),等等。這些生活常識,源於日常的不斷積累,當妳深入研究某個行業時,會讓妳得心應手,減少學習的時間成本。
圖4. 熟悉業務的途徑
只有當我們對業務有個基本的認知之後,我們才知道數據表達了什麽。
三、數據背後的場景是什麽
我們在了解企業數據時,面對的是幾百個系統以及成千上萬張表,不免有人感到手忙腳亂,不知怎麽入手。
我們只要順著大體的業務邏輯走,基本可以把企業IT系統的建設邏輯和關聯關系梳理清晰,有壹個整體面上的認知,形成框架思維,避免陷入某個“信息孤島”。這麽做對數據整合是很有必要的,不能把某個系統割裂開來單獨看,系統之間的關聯關系必須清楚。
例如,以會員為ID搭建基礎數據寬表時,既要對以人為中心的業務流程梳理全面,又要在此基礎上對每個業務節點的系統梳理清晰,並明確各系統數據之間如何整合與關聯,爭取做到全面,避免遺漏某些系統以及相應的信息。
圖5. 以人為中心的數據整合
零售企業壹般會有市場、拓展、商品、采購、倉儲、配送、運營、門店、客服、IT、行政、人力資源、財務、綜合等智能部門。每個部門都有特定的業務活動及流程,部門之間也有相互的業務往來,企業的IT系統也是圍繞這些業務活動來建立的。只要是零售企業,這個企業如此,那個企業也是如此,業務活動本質上沒有太多不同,壹通百通。只不過,每個企業獨有的地方需要我們特別關註。
建議拿壹份企業IT系統架構全景圖,花幾天時間研究研究。
當深入了解單個系統時,基於我們對企業IT系統的整體認知,我們除了清楚這個系統的功能和作用,誰在用,也需知道這個系統在企業整體系統中的位置,下上遊系統都有哪些,數據流是如何運轉的。
IT系統有兩種,業務系統和業務支持系統。業務系統主要是各業務線條最原始的數據,即“壹手數據”,而業務支持系統主要是從業務系統提取原始數據,清洗、加工、整合、分析後得到的匯總數據。
深入研究單個系統時,看數據字典當然是很有必要的。同樣的,先從面上了解,先看看有哪幾類表,有哪方面的數據,對應什麽業務,哪些表可以不用看,哪些表需要重點看。
壹般來說,表的命名遵循嚴格的規範,從表名上可直觀地判斷出是什麽表。因此,可以從表的命名上做壹個快速的辨識,例如,sys表示系統,pos表訂單,cos表示客服,sms表示短信,item表示商品,等等。
每個系統都會有幾百張表,需要快速做壹個過濾,看看哪些表不用看。例如,sys相關的表主要是用來保存系統配置參數或記錄系統運行狀態的表,壹般可以跳過不看。
經過初步篩選,得到了需要詳細了解的表。
表壹般分為兩種,事實表和維度表。事實表記錄、存儲用於度量某壹事務、事件或行為相關的數據或信息,如POS訂單表,而維度表描述某方面個體的屬性或個體與個體之間映射關系,如會員信息表、商品信息表、品類表、行業表、區域表、門店信息表、員工表等。事實表動態、冗低、數據量大,而維度表靜態、冗余、數據量小。
先看事實表,再看與事實表相關的維度表。
采用業務聯想法以及"5W2H"方法論,可幫助我們快速了解單個表。
例如,去商店購物這件事,我們每個人都親身體驗過整個流程,從中可拆解出與這件事有關的幾個要素信息,即誰買、什麽時候買、在哪裏買、買什麽、買多少、花了多少錢、有沒有打折、怎麽支付等等。這些信息也產生了相應的數據。
反過來,我們也可從數據中獲取這些信息,還原出真實業務場景。從事實表數據的字段信息中,可以知道會員/非會員(誰買)、訂單時間(什麽時候買)、門店(在哪裏買)、購買的商品(買什麽)、數量(買多少)、花多少錢(金額)、折扣優惠(有無打折)、支付方式(怎麽付款)、收銀員,等等。每個方面的信息又可結合維度表,或者融合外部數據,延伸得到更多維度的信息。例如,知道什麽人買,可進壹步知道這個人的基本信息,如性別、年齡、職業、註冊時間等;在哪個門店購買,可進壹步知道省、市、區縣以及商圈的信息,還可知道門店是什麽類型(如街邊店、商場店);買了什麽商品,結合商品表,或關聯外部數據,可知道商品的具體屬性信息。
關於單個表,還要弄清楚這些信息:
(1)主鍵,即可以用哪些字段唯壹標識壹行數據;
(2)數據更新機制,看看涉及哪些字段,事實表和維度表有所不同;
(3)數據量大概多少,看看是大表還是小表,量級多大;
至此,妳已經了解單個表及其相應的業務。不要大意,這時候妳對業務的了解只能打個及格分!更多更細的業務場景,需要對具體的數據字段進行深入研究才知道。別人不會告訴妳太多的細節,告訴妳也沒用,因為沒有親身體驗很快就會忘。
對具體字段的了解,僅僅看數據字典是不夠的,數據長啥樣也要清楚。
看數據時,要細心,要敏感。
如果看到有壹行數據交易時間為“2018-7-4 9:16”,就要特別註意了,可能需要處理成規範的時間格式——“2018-07-04 09:16:00”;
如果看到某字段前面幾行都是同壹個值(如0或空值),就要特別留意這個字段是否只有壹個值;
如果看到商品數量為小數時,就要結合商品名稱、品類、單位、規格等信息,看看買什麽商品時數量為小數;
如果結算金額為0時,看看商品是不是贈品(結合商品名稱和品類來確定);
如果結算金額為負時,再看看數量是否為負,還要看壹下訂單類型是否為退貨;
如果有個POS單結算金額非常大,有幾百萬,看看用什麽幣種結算,如果為RMB,則找業務人員確認,要麽錄入錯誤,要麽有某種特殊業務操作。
總之,基於我們對業務的理解和數據的敏感性,如果發現某個字段數據“異常”或不合乎我們之前對業務的認知,這時不妨也看看其它字段是否也“異常”,透過這些字段信息,多想想,其背後的業務場景是什麽。
如果可以,不妨對常用的表以及其中的字段諳熟於心,最好能記下來。
時間往往過往地耗費在底層數據處理階段。而且,數據處理過程中會出現很多問題,這些問題大多其實是由於不懂業務和數據引起的。
當我們對數據越了解時,數據處理就越得心應手,越高效。
企業的原始數據有很多坑,永遠不知道坑在哪裏,什麽時候來,花多長時間填坑。了解數據時,多點敏感,多點質疑,總不會錯的。