當前位置:法律諮詢服務網 - 企業資訊 - 數據可視化的基本流程

數據可視化的基本流程

作者 | 向倩文

來源 | 數據產品手記

大多數人對數據可視化的第壹印象,可能就是各種圖形,比如Excel圖表模塊中的柱狀圖、條形圖、折線圖、餅圖、散點圖等等,就不壹壹列舉了。以上所述,只是數據可視化的具體體現,但是數據可視化卻不止於此。

數據可視化不是簡單的視覺映射,而是壹個以數據流向為主線的壹個完整流程,主要包括數據采集、數據處理和變換、可視化映射、用戶交互和用戶感知。壹個完整的可視化過程,可以看成數據流經過壹系列處理模塊並得到轉化的過程,用戶通過可視化交互從可視化映射後的結果中獲取知識和靈感。

圖1 可視化的基本流程圖

可視化主流程的各模塊之間,並不僅僅是單純的線性連接,而是任意兩個模塊之間都存在聯系。例如,數據采集、數據處理和變換、可視化編碼和人機交互方式的不同,都會產生新的可視化結果,用戶通過對新的可視化結果的感知,從而又會有新的知識和靈感的產生。

下面,對數據可視化主流程中的幾個關鍵步驟進行說明。

01

數據采集

數據采集是數據分析和可視化的第壹步,俗話說“巧婦難為無米之炊”,數據采集的方法和質量,很大程度上就決定了數據可視化的最終效果。

數據采集的分類方法有很多,從數據的來源來看,可以分為內部數據采集和外部數據采集。

1.內部數據采集:

指的是采集企業內部經營活動的數據,通常數據來源於業務數據庫,如訂單的交易情況。如果要分析用戶的行為數據、APP的使用情況,還需要壹部分行為日誌數據,這個時候就需要用「埋點」這種方法來進行APP或Web的數據采集。

2.外部數據采集:

指的數通過壹些方法獲取企業外部的壹些數據,具體目的包括,獲取競品的數據、獲取官方機構官網公布的壹些行業數據等。獲取外部數據,通常采用的數據采集方法為「網絡爬蟲」。

以上的兩類數據采集方法得來的數據,都是二手數據。通過調查和實驗采集數據,屬於壹手數據,在市場調研和科學研究實驗中比較常用,不在此次探討範圍之內。

02

數據處理和變換

數據處理和數據變換,是進行數據可視化的前提條件,包括數據預處理和數據挖掘兩個過程。

壹方面,通過前期的數據采集得到的數據,不可避免的含有噪聲和誤差,數據質量較低;另壹方面,數據的特征、模式往往隱藏在海量的數據中,需要進壹步的數據挖掘才能提取出來。

常見的數據質量問題包括:

1.數據收集錯誤,遺漏了數據對象,或者包含了本不應包含的其他數據對象。

2.數據中的離群點,即不同於數據集中其他大部分數據對象特征的數據對象。

3.存在遺漏值,數據對象的壹個或多個屬性值缺失,導致數據收集不全。

4.數據不壹致,收集到的數據明顯不合常理,或者多個屬性值之間互相矛盾。例如,體重是負數,或者所填的郵政編碼和城市之間並沒有對應關系。

5.重復值的存在,數據集中包含完全重復或幾乎重復的數據。

正是因為有以上問題的存在,直接拿采集的數據進行分析or可視化,得出的結論往往會誤導用戶做出錯誤的決策。因此,對采集到的原始數據進行數據清洗和規範化,是數據可視化流程中不可缺少的壹環。

數據可視化的顯示空間通常是二維的,比如電腦屏幕、大屏顯示器等,3D圖形繪制技術解決了在二維平面顯示三維物體的問題。

但是在大數據時代,我們所采集到的數據通常具有4V特性:Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。如何從高維、海量、多樣化的數據中,挖掘有價值的信息來支持決策,除了需要對數據進行清洗、去除噪聲之外,還需要依據業務目的對數據進行二次處理。

常用的數據處理方法包括:降維、數據聚類和切分、抽樣等統計學和機器學習中的方法。

03

可視化映射

對數據進行清洗、去噪,並按照業務目的進行數據處理之後,接下來就到了可視化映射環節。可視化映射是整個數據可視化流程的核心,是指將處理後的數據信息映射成可視化元素的過程。

可視化元素由3部分組成:可視化空間+標記+視覺通道

1.可視化空間

數據可視化的顯示空間,通常是二維。三維物體的可視化,通過圖形繪制技術,解決了在二維平面顯示的問題,如3D環形圖、3D地圖等。

圖2 可視化空間示例

2.標記

標記,是數據屬性到可視化幾何圖形元素的映射,用來代表數據屬性的歸類。

根據空間自由度的差別,標記可以分為點、線、面、體,分別具有零自由度、壹維、二維、三維自由度。如我們常見的散點圖、折線圖、矩形樹圖、三維柱狀圖,分別采用了點、線、面、體這四種不同類型的標記。

圖3 標記類型示例

3.視覺通道

數據屬性的值到標記的視覺呈現參數的映射,叫做視覺通道,通常用於展示數據屬性的定量信息。

常用的視覺通道包括:標記的位置、大小(長度、面積、體積...)、形狀(三角形、圓、立方體...)、方向、顏色(色調、飽和度、亮度、透明度...)等。

圖3中的四個圖形示例,就很好的利用了位置、大小、顏色等視覺通道來進行數據信息的可視化呈現。

「標記」、「視覺通道」是可視化編碼元素的兩個方面,兩者的結合,可以完整的將數據信息進行可視化表達,從而完成可視化映射這壹過程。

關於可視化編碼元素的優先級,以及如何根據數據的特征選擇合適的可視化表達,下次會專題來分享下。

04

人機交互

可視化的目的,是為了反映數據的數值、特征和模式,以更加直觀、易於理解的方式,將數據背後的信息呈現給目標用戶,輔助其作出正確的決策。

但是通常,我們面對的數據是復雜的,數據所蘊含的信息是豐富的。

如果在可視化圖形中,將所有的信息不經過組織和篩選,全部機械的擺放出來,不僅會讓整個頁面顯得特別臃腫和混亂,缺乏美感;而且模糊了重點,分散用戶的註意力,降低用戶單位時間獲取信息的能力。

常見的交互方式包括:

1.滾動和縮放:當數據在當前分辨率的設備上無法完整展示時,滾動和縮放是壹種非常有效的交互方式,比如地圖、折線圖的信息細節等。但是,滾動與縮放的具體效果,除了與頁面布局有關系外,還與具體的顯示設備有關。

2.顏色映射的控制:壹些可視化的開源工具,會提供調色板,如D3。用戶可以根據自己的喜好,去進行可視化圖形顏色的配置。這個在自助分析等平臺型工具中,會相對多壹點,但是對壹些自研的可視化產品中,壹般有專業的設計師來負責這項工作,從而使可視化的視覺傳達具有美感。

3.數據映射方式的控制:這個是指用戶對數據可視化映射元素的選擇,壹般壹個數據集,是具有多組特征的,提供靈活的數據映射方式給用戶,可以方便用戶按照自己感興趣的維度去探索數據背後的信息。這個在常用的可視化分析工具中都有提供,如tableau、PowerBI等。

4.數據細節層次控制:比如隱藏數據細節,hover或點擊才出現。

05

用戶感知

可視化的結果,只有被用戶感知之後,才可以轉化為知識和靈感。

用戶在感知過程,除了被動接受可視化的圖形之外,還通過與可視化各模塊之間的交互,主動獲取信息。

如何讓用戶更好的感知可視化的結果,將結果轉化為有價值的信息用來指導決策,這個裏面涉及到的影響因素太多了,心理學、統計學、人機交互等多個學科的知識。

學習之路漫漫,壹直在路上, 我們會持續分享數據可視化領域的知識,記得持續follow我們喲!

  • 上一篇:市級水利信息化建設工作總結
  • 下一篇:順豐總部在哪裏
  • copyright 2024法律諮詢服務網