由於資源和人才的限制,很多中小微企業目前在數據收集和數據應用上還處於比較落後的階段,沒有合適的方法處理數據。最典型的情況就是利用 Excel收集數據,然後頻繁的手動生成報告。
這樣容易導致數據品質差、流程重複,還可能增加數據錯誤的風險。因此,企業需要透過 BI工具來改善數據處理流程,獲得更自動化的數據體驗。接下來,我們將以 Domo商業智慧分析工具為例,為大家展示如何即時連接本地 Excel。
第一步:數據準備
我們今天要介紹的案例是透過超市銷售訂單數據實現的。原始數據儲存在超市訂單、超市退貨以及超市銷售人員這三張本地 Excel表中,數據更新方式是直接在本地 Excel表中編輯行。三張表包含的字段如下:
表名 | 字段 |
超市訂單 | 產品ID、產品名稱、訂單ID、訂單日期、郵寄方式、發貨日期、國家/地區、城市、類別、客戶ID、客戶名稱、裝運狀態… |
超市退貨 | 訂單ID(退貨)、退回 |
超市銷售人員 | 地區(業務人員)、區域經理 |
我們假設原始數據只有 2017年的訂單數據。隨著時間的推移,我們有了 2018、2019以及 2020年的數據。
我們先在超市訂單表中導入2017年的訂單交易數據,在超市退貨表中導入 2017年的退貨訂單數據,在超市銷售人員表中導入地區銷售人員資訊,若無人員變動,超市銷售人員表將不會更新。
第二步:數據連接
如果將本地的 Excel 數據分享給其它用戶或者分享到其它平台是比較簡單的操作,但如果後續 Excel 數據進行了更新,我們如何告知下游程式和用戶進行相應的修改,這才是難點。
當前,大多規模較小的企業採取的是最簡單的方法-即重新導出數據,再次分享,如此循環下去。這不僅造成了重複的工作,類似的表格太多還很容易將數據搞混。因此,在 Domo商業智慧工具中,我們可以使用 Wrokbench 這個工具,實現數據的即時連接和追蹤。
我們可以在本地將所有需要即時連接的 Excel文件儲存到一個文件夾,接著在 Workbench 上設置數據同步文件夾,從而即時追蹤文件中的數據更新。這個文件夾裡面的所有 Excel表都會被跟蹤,然後自動創建調度作業。
比如在今天的案例中,我們需要追蹤的是超市訂單、超市退貨以及超市銷售人員三張表。我們設置文件夾同步後就自動創建了這三個調度作業,傳輸類型是本地文件,讀取器類型是本地的 Excel。其中一個作業的具體配置如下:
自動創建作業後,我們還需要在配置選項卡設置一些資訊,作業才能正常執行。如果是透過文件夾同步自動創建的作業,默認文件路徑已經選好,有需要的話可以進行更改。
“正在處理”選項,是用於填寫 Excel的相關資訊,我們可以在其中輸入文件密碼,選擇其中的一個工作表,以及選擇起始單元格和結束單元格(沒有選定範圍的話,默認是讀取整個工作表)。
對於數據的更新,我們可以在計劃選項卡中設置。有手動更新、文件更改時更新以及按計劃更新三種方式。其中文件更改時更新僅針對於本地文件,按計劃更新是設置在某一個時間點進行自動更新。
對於數據量更新不頻繁的情況,建議採用文件更改時更新,這樣可以避免頻繁佔用內存。
作業成功執行後,我們可以在 Workbench中進行預覽,也可以在 Domo商業智慧平台的數據中心查看,Domo平台也是我們後續進行數據處理和視覺化的地方。連接到 Domo平台的三個表如下:
第三步:數據預處理
實現數據連接後,就需要對數據進行預處理。首先,我們預覽超市訂單表,發現“產品id“字段包含了產品類別、子類別和編號,其實只有後面的編號是需要的;”產品名稱“字段包含了產品的品牌、名字以及相關描述;”城市“字段的值歸類不正確;部分字段值不好區分需要替換等,這些就是我們可能需要去做預處理的地方。
透過我們在本地連接到 Domo平台的三個表,我們可以在平台中構建一個 ETL數據流。
首先,透過一個輸入數據集的操作塊,連接到超市訂單表。
其次,透過“字符串操作”塊從右邊截取“產品 id”字段的8個字符,以獲得正確的產品編號。
接著,對於”產品名稱字段“,採用”拆分列“操作塊,以空格為標識符,截取產品品牌和產品名稱,再一次運用”拆分列“操作塊,修正產品名稱。
然後,對於字段值的修正,直接使用”替換文本“操作塊,將”客戶領域“字段中的”消費者“替換為”個體消費者“,”小型企業“替換為”中小型企業“,”公司“替換為”大型企業“。
最後,為了便於在視覺化中應用地圖,需要將地區、省份和城市等地理名稱進行修正,此處使用”公式“操作塊,應用 Case語句,將名稱進行整理。
對於超市訂單表的預處理,大致如下:
對於超市退貨表和超市銷售人員表,本身數據是乾淨的,不需要做太多的預處理,此處只需要透過“加入數據“操作塊對錶進行連接即可,採用的關聯字段分別是”訂單 Id“和”地區“。對於連接後存在 Null值的情況,我們需要進行補全。
比如,對”退回“字段,沒退回的訂單由於與超市退貨表沒有匹配的記錄,因此值為空,此處用”否“進行填充。完成三表連接後,還需要對數據進行篩選過濾,將重複的記錄進行刪除,只保留一條。操作流程大致如下:
最終我們輸出了一個叫做“超市數據 Demo“的數據集,這個數據流我們設置的調度是僅當數據集更新時運行。即當超市訂單表、超市退貨表、超市銷售人員表中的任一數據集發生更改,都會觸發這個數據流的更新,從而我們獲得的處理後的數據集永遠是基於最新數據的。
第四步:數據視覺化
基於上述數據集,我們繪製了兩個儀表板。首先超市利潤分析儀表板,第一幅圖是利潤趨勢圖,以月份進行聚合,以季度為單位進行回歸預測,因此默認是預測3個月的。點擊旁邊的控件,可以相應的增加或減少預測的範圍。
第二幅圖是按七大地區進行統計的帕累托圖,同樣可以進行下鑽。我們可以看到華東地區貢獻了全國29.08%的利潤,是最重要的地區之一。
接著鑽取到該地區,發現大部分省份都是盈利的,但是在江蘇和浙江這兩個省份有虧損的情況發生。
第三幅圖是產品子類別利潤貢獻率條形圖。可以看到,椅子這一類別獲得的利潤是最大的,而桌子這一類別是虧損最嚴重的。
下面是客戶貢獻度散點圖,是以利潤率為橫軸,以利潤額為縱軸繪製的。氣泡越大代表客戶購買的數量越多。可以看到第三象限全部氣泡都是紅色的,代表的是這個客戶提交的總體訂單利潤和小於0,是虧損的。
換句話說,這些客戶並不能給我們帶來盈利。所以在這個圖中,我們需要關注偏右上角的這一塊的客戶,這些相對來說是我們的重點客戶,因為他們能夠購買的東西以及貢獻的利潤是最多的。
接著是客戶交易次數統計圖,此處僅展示前 30名客戶,從中我們可以了解到哪些客戶是交易比較頻繁的,以及他們的交易頻率如何,從而進行需求預測。比如楊歡這個客戶,他到目前總共交易了10次。
我們點擊進來,可以看到他分別是在什麼時候交易的,交易的金額是多少。可以預測他可能在2019年12月初會有交易需求,所以在這個時間段我們可以主動與他聯繫溝通,抓住銷售機會。
第五步:數據更新
接下來我們更新一下數據,前面已經添加了2017年、2018年、2019年的交易數據,現在我們再把 2020年的數據添加進來。總共是3377條訂單記錄,386條退貨記錄,把它們分別複製到超市訂單表和超市退貨表中。
然後我們回到平台,可以看到數據集立刻就發生了更新,數據流也同步運行了。
類似的,由於驅動可視化的數據集有了更新,我們的圖表也會自動進行更新。比如客戶交易次數這幅圖,我們可以看到累計的訂單數已經變為2770筆,交易次數的第一名變成了彭博,達到了17次。
點擊“彭博“所屬的條形圖,鑽取到下一層,可以看到該客戶的具體交易時間,其中就包含2020年的交易記錄。基於此預測,在2021年的1月份該客戶可能沒有需求,因此不必分配太多精力去跟進這個客戶。
透過上述例子,我們實現了本地 Excel數據集的實時連接,即時分析和實時視覺化,使整個數據過程智慧化。您需要做的只是更新數據,其它的工作在最初完成部署之後都會自動的執行!
Domo平台上可以構建自定義應用程序並透過 Buzz實現共享和聊天功能,具有雲靈活性、能夠進行異常管理、嵌入式分析、擁有世界一流的數據治理和安全性。
從視覺化到數據應用程序,幫助企業簡化數據集成、提供數據洞察力、優化業務決策、實現多場景數據共享,助力企業數據上雲與數字化轉型升級!
點我了解更多>>Domo商業智慧分析平台