簡單5步,輕松學(xué)會數(shù)據(jù)可視化
作者對現(xiàn)有的可視化工具專職為部分?jǐn)?shù)據(jù)可視化人群和職能的現(xiàn)象不滿意,認(rèn)為不能孤立的看數(shù)據(jù)處理的每個步驟下的數(shù)據(jù)可視化。他認(rèn)為最好的看待數(shù)據(jù)可視化的方式就是不要受限于角色或工具,而是專注于在數(shù)據(jù)處理過程中哪里需要使用到數(shù)據(jù)可視化。作者介紹了在數(shù)據(jù)生命周期中,數(shù)據(jù)可視化是如何參與到每個階段并產(chǎn)生影響力的。
如今你能看到的任何地方,特別是在數(shù)據(jù)驅(qū)動的組織機(jī)構(gòu),你會發(fā)現(xiàn)數(shù)據(jù)可視化。
數(shù)據(jù)可視化是現(xiàn)代公司締造影響力的關(guān)鍵要素,存在于每個工具和工作流程里。
它不僅僅是數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析員的工作中重要的部分,也是那些職位名稱中不帶“數(shù)據(jù)”的人的工作重要部分。數(shù)據(jù)可視化出現(xiàn)在產(chǎn)品演示中,在 Slack 上的臨時通訊中、在提交給股東的領(lǐng)導(dǎo)層報告中,甚至在營銷材料中。我們希望改變?nèi)藗兘?jīng)常在數(shù)據(jù)可視化中看到的以工具為中心和以角色為中心的設(shè)計(jì)方法,這些方法強(qiáng)迫用戶在工具間或者不同角色的權(quán)限墻中來回跳躍。
在 Noteable,我們很清楚地設(shè)計(jì)了視覺可視化來反映當(dāng)今人們在工作中如何使用數(shù)據(jù),而不是他們在 15 年前如何使用數(shù)據(jù)。無論數(shù)據(jù)工作者的職位名稱是什么,無論數(shù)據(jù)消費(fèi)者在解決的問題是什么,我們正在研究他們的期望是如何增長并融合的。
我們希望改變?nèi)藗兘?jīng)常在數(shù)據(jù)可視化中看到的以工具為中心和以角色為中心的設(shè)計(jì)方法,這些方法強(qiáng)迫用戶在工具間或者不同角色的權(quán)限墻中來回跳躍。我們感覺通過從其他方法中引入優(yōu)勢,會鼓勵數(shù)據(jù)可視化表達(dá)的多樣性。
這意味著,即使我們在開發(fā)一個計(jì)算筆記本【1】產(chǎn)品,我們?nèi)匀恍枰鰝鹘y(tǒng)筆記本的局限性,去看數(shù)據(jù)可視化,并將其置于更廣闊的背景下,即每個人如何使用數(shù)據(jù)可視化。
(【1】計(jì)算筆記本(computational notebook):指能讓用戶將說明文本、數(shù)學(xué)方程、代碼和可視化內(nèi)容全部組合到一個易于共享的文檔中的工具。是特別適合數(shù)據(jù)科學(xué)使用的平臺,能讓數(shù)據(jù)科學(xué)家在同一個文檔中編寫代碼、分析數(shù)據(jù)和插入可視化。)
一、現(xiàn)有的工具往往傾向到具體工作/職能
創(chuàng)建可視化數(shù)據(jù)的設(shè)計(jì)工具無處不在的呈現(xiàn)與反映在各方面并沒有改變。
現(xiàn)有可用的工具通常與某個具體的使用案例相關(guān),并針對案例進(jìn)行優(yōu)化。如果你是數(shù)據(jù)科學(xué)家,你會專注于驗(yàn)證方法,通常你會使用 Jupyter notebooks 或者 RStudio;如果你是分析師,你可能會使用 Tableau 或者 Looker;如果你需要制作說明圖表,你是軟件開發(fā)你可能會使用 D3,如果你不是開發(fā)你可能會選擇 Powerpoint;如果你從業(yè)于金融或人力資源,你可能會選擇Excel。
二、很多工具在數(shù)據(jù)科學(xué)興起前已存在
這些工具是在數(shù)據(jù)素養(yǎng)更低、數(shù)據(jù)驅(qū)動的組織機(jī)構(gòu)更少、以及技術(shù)限制導(dǎo)致工具功能受限時設(shè)計(jì)的。
當(dāng)行業(yè)繼續(xù)發(fā)展,很多工具隨之發(fā)展的過程和特定的數(shù)據(jù)、數(shù)據(jù)處理方法及專業(yè)角色結(jié)合得太過緊密,導(dǎo)致這些工具讓人感覺過于專業(yè)化,例如主要為數(shù)據(jù)分析師使用的BI(商業(yè)智能)工具。
數(shù)據(jù)處理方法和工具的緊密耦合也是數(shù)據(jù)角色演變后的結(jié)果,隨著它們的成熟,反而加強(qiáng)了讓工具定義工作:研究生課程宣傳如何通過學(xué)習(xí) python 計(jì)算筆記本成為一名數(shù)據(jù)科學(xué)家,訓(xùn)練營告訴你要學(xué) D3 軟件這樣你才可以成為一名數(shù)據(jù)可視化開發(fā),無數(shù)的工作坊幫助你學(xué)習(xí) Tableau 軟件來成為一名分析師。
但是由 分析師 / 數(shù)據(jù)科學(xué)家 / 產(chǎn)品經(jīng)理 所做的工作并不是離散的、孤立的數(shù)據(jù)可視化片刻。在這些領(lǐng)域中用的某一數(shù)據(jù)處理方法在本質(zhì)上和在另一領(lǐng)域用到的沒有任何不同。恰恰相反:如果將一種方法中使用到的技能和方法結(jié)合到另一種方法中,可能會非常有用。
我們看到這些步驟是孤立的,不是因?yàn)檫@是使用它們的最佳方式,而是因?yàn)樗鼈兡壳笆翘幱诠铝顟B(tài)下運(yùn)行的。這就是為什么我們應(yīng)該避開“分析師做的數(shù)據(jù)可視化與數(shù)據(jù)科學(xué)家做的不一樣”的觀點(diǎn)。我們看到這些步驟是孤立的,不是因?yàn)檫@是使用它們的最佳方式,而是因?yàn)樗鼈兡壳笆翘幱诠铝顟B(tài)下運(yùn)行的。這就是便利規(guī)則被創(chuàng)建的原因,例如“不要用餅圖”或“從不使用彩虹配色方案”或“最大化你的 數(shù)據(jù)墨水比 【2】”。
即使在孤立狀態(tài)之外的進(jìn)行數(shù)據(jù)分析任務(wù)時,這些便利規(guī)則仍會受到挑戰(zhàn),但這些步驟是將原始數(shù)據(jù)轉(zhuǎn)化為洞察和行動的過程的一部分。這個過程橫跨從早期對數(shù)據(jù)的完全探索到最后給股東和領(lǐng)導(dǎo)層的匯報。
(【2】數(shù)據(jù)墨水比(Data-Ink-Ratio):圖形中的數(shù)據(jù)墨水量除以圖形中的總墨水量,即在展示介質(zhì)/頁面上,用于展示數(shù)據(jù)所用的“墨水”量與介質(zhì)/頁面上全部“墨水”量之間的比值。其中數(shù)據(jù)墨水指的是圖表中不可刪除的核心內(nèi)容。數(shù)據(jù)墨水比值越大,即意味著數(shù)據(jù)可視化圖表中的冗余信息越少,不可刪除的核心內(nèi)容越多。)
三、數(shù)據(jù)可視化生命周期
最好的看待數(shù)據(jù)可視化的方式就是不要受限于角色或工具,而是專注于數(shù)據(jù)處理過程中哪里需要使用到數(shù)據(jù)可視化。
這些孤立離散的步驟中每一個都需要數(shù)據(jù)可視化的特別功能,從對原始數(shù)據(jù)的探索數(shù)據(jù)分析,到驗(yàn)證數(shù)據(jù)的假設(shè)、解釋數(shù)據(jù)模式,再到將生成的圖表產(chǎn)品化為定期的報告和其他數(shù)據(jù)資源。
組織或機(jī)構(gòu)試圖尋找數(shù)據(jù)的日子早已將一去不復(fù)返了,現(xiàn)在他們輕易能獲得大量數(shù)據(jù),而挑戰(zhàn)變成了:如何從中定位正確的數(shù)據(jù)并將這些數(shù)據(jù)摘要給到正確的人。讓我們來看下每個步驟,了解當(dāng)今數(shù)據(jù)可視化如何應(yīng)用與支撐工作。
1. 探索性數(shù)據(jù)分析
探索性數(shù)據(jù)分析(EDA)指的是 當(dāng)數(shù)據(jù)可視化是用來理解數(shù)據(jù)的模式和形狀,而不是來解釋解釋這些模式。
當(dāng)它最常放在數(shù)據(jù)科學(xué)的背景下討論時(使用例如 ggplot2 和 vega-lite 等工具優(yōu)化數(shù)據(jù)處理方法),它的最佳案例是數(shù)據(jù)訪問問題。組織或機(jī)構(gòu)試圖尋找數(shù)據(jù)的日子早已將一去不復(fù)返了,現(xiàn)在他們輕易能獲得大量數(shù)據(jù),而挑戰(zhàn)變成了:如何從中定位正確的數(shù)據(jù)并將這些數(shù)據(jù)摘要給到正確的人。
為了支持探索性數(shù)據(jù)分析,數(shù)據(jù)工程師持續(xù)性的工作就是部署數(shù)據(jù)可視化來展示數(shù)據(jù)源的形狀、數(shù)據(jù)的沿襲【5】、以及它們?nèi)绾渭尤氲狡渌麛?shù)據(jù)中。
在數(shù)據(jù)集還是分析師/數(shù)據(jù)科學(xué)家的眼中獨(dú)有的秘密之前,數(shù)據(jù)工程師早已在創(chuàng)建數(shù)據(jù)集并評估數(shù)據(jù)健康時用上了數(shù)據(jù)可視化。在這些數(shù)據(jù)源的視覺表達(dá)中,部分可能會繼續(xù)保留來提供有關(guān)數(shù)據(jù)源狀態(tài)的持續(xù)性報告,但一旦數(shù)據(jù)集【3】合或 數(shù)據(jù)工作流 【4】完工,大部分的此階段數(shù)據(jù)可視化會被拋棄。
【3】數(shù)據(jù)集(dataset):一組數(shù)據(jù)的集合,通常以表格形式出現(xiàn)。每一列代表一個特定變量。每一行都對應(yīng)于某一成員的數(shù)據(jù)集的問題。
【4】數(shù)據(jù)工作流(data pipeline):數(shù)據(jù)工作流溝通了數(shù)據(jù)源和數(shù)據(jù)應(yīng)用的目標(biāo),包含了一家公司內(nèi)部的數(shù)據(jù)流動全過程。它是一個貫穿了整個數(shù)據(jù)產(chǎn)品或者數(shù)據(jù)系統(tǒng)的一個管道,它連接了不同的數(shù)據(jù)處理分析的各個環(huán)節(jié),將整個龐雜的系統(tǒng)變得井然有序,便于管理和擴(kuò)展,因此讓使用者能夠集中精力從數(shù)據(jù)中獲取所需要的信息,而不是把精力花費(fèi)在管理日常數(shù)據(jù)和管理數(shù)據(jù)庫方面。
【5】數(shù)據(jù)延襲(data lineage):通常定義為一種數(shù)據(jù)生命周期,其中包括數(shù)據(jù)的來源以及數(shù)據(jù)隨時間推移的位置。該術(shù)語還可以描述數(shù)據(jù)經(jīng)過不同過程時會發(fā)生什么。
用來構(gòu)建這類模式的工具,例如 Superset,強(qiáng)調(diào)直接插入您的數(shù)據(jù),讓您可以在不同的圖表和設(shè)置之間快速切換。這種快速高效地可視化任何數(shù)據(jù)集的能力,無論它是關(guān)于什么的,再怎么強(qiáng)調(diào)都不為過。
任何數(shù)據(jù)可視化處理的第一步幾乎總是先看一看表格的一些行,不是因?yàn)檫@是可視化數(shù)據(jù)的最佳方式,而是因?yàn)楸砀駧缀踹m用于所有數(shù)據(jù)集。
通常股東僅需要訪問并概覽數(shù)據(jù),他們會接受表格視圖,因?yàn)檫@快捷又方便。探索性數(shù)據(jù)分析(EDA)在數(shù)據(jù)科學(xué)的領(lǐng)域特別突出,它在一開始與上面已經(jīng)描述的類似,但很快就轉(zhuǎn)向更集中的方法,這些方法屬于數(shù)據(jù)可視化生命周期的下一步。
2. 假說的生成和驗(yàn)證
數(shù)據(jù)可視化中最和工作相關(guān)的方面是生成和驗(yàn)證假說。
這和探索性數(shù)據(jù)分析(EDA)很像,但是更加具體,因?yàn)樗趩渭兊奶剿髦飧钊霐?shù)據(jù)的清晰申明。在數(shù)據(jù)科學(xué)的工作流程里,假說的生成和驗(yàn)證是通過具有分面等強(qiáng)大功能和處理幾乎能處理所有類型數(shù)據(jù)的工具 —— 比如 ggplot2 和 vega —— 來完成的。這些工具通常還提供可用的功能來展示統(tǒng)計(jì)數(shù)據(jù)的顯著性和不確定性,這是數(shù)據(jù)可視化生命周期里的其他部分所缺少的。統(tǒng)計(jì)測試,特別是 A/B 測試,可能會使用更定制化的界面并利用統(tǒng)計(jì)摘要的復(fù)雜表格來展示,為了方便那些非數(shù)據(jù)科學(xué)家進(jìn)行假說的驗(yàn)證。
機(jī)器學(xué)習(xí)是數(shù)據(jù)可視化在假設(shè)生成部分占有重要地位的另一個主要領(lǐng)域。數(shù)據(jù)可視化可能提供非常不同的形式來支持機(jī)器學(xué)習(xí)的工作流程:目標(biāo)是優(yōu)化特定數(shù)字(例如混淆矩陣的某些方面)以驗(yàn)證你的假說,然后對隨機(jī)樣本進(jìn)行可視化來嘗試確認(rèn)沒有偏差。
3. 說明圖
驗(yàn)證假說是不夠的,你必須向觀眾解釋它。
可能存在同樣有效的競爭方法,即使沒有,公司也沒有無限的資源來追求每一種驗(yàn)證方法。數(shù)據(jù)可視化僅讓建立它的人能理解是不夠的,它需要被那些參與到圍繞可視化數(shù)據(jù)決策的的人們所無障礙地理解并相信。
這是從業(yè)人員真正的盲點(diǎn)領(lǐng)域,他們會很驚訝在他們分析中用到的圖表在報告中沒有那么有效。即使這個假說簡單到是“這件事很重要”,下一件需要做到的事就是讓這個假說對于不熟悉原始創(chuàng)建者的數(shù)據(jù)集和方法的受眾而言更加清楚。
你可以使用正式的 BI (商業(yè)智能)工具以及數(shù)據(jù)可視化庫來完成此操作,它們能風(fēng)格化并裝飾那些在早期步驟中創(chuàng)建的簡樸且雜亂的圖表。
有效的說明圖依賴于所有有效溝通的法則:編輯、上下文(情景)和清晰度。在前期數(shù)據(jù)分析探索中使用到(用來展示盡可能多的值)的配色方案被更深思熟慮過的顏色所取代,這些顏色強(qiáng)調(diào)了被分析的數(shù)據(jù)中的關(guān)鍵主題。圖表中元素上的標(biāo)簽(比如如坐標(biāo)軸)的格式更經(jīng)過深思熟慮并弱化(不要那么視覺顯眼)。
遵循無數(shù)的數(shù)據(jù)可視化指南中描述的最佳實(shí)踐,圖表獲得了一個標(biāo)題和一些文本來配合讀者。
注釋和上下文圖表進(jìn)一步說明和簡單圖表不同,說明圖是為更多人設(shè)計(jì)的,而不僅僅是為了原始圖表創(chuàng)建者們。
4. 產(chǎn)品化
讓圖表變得可閱讀并不是最后一件事,因?yàn)樗枰屗氖鼙婇喿x和分發(fā)。
大部分?jǐn)?shù)據(jù)可視化指南忽略了這步,除非他們處理看板(dashboard)—— 他們真心地認(rèn)為數(shù)據(jù)可視化的產(chǎn)品化的唯一方式就是把圖表都塞到看板里。但是圖表們有其他觸達(dá)到它們受眾的形式,無論是通過自動郵件、演講還是備忘錄。
產(chǎn)品化改變了圖表,它能讓圖表:增強(qiáng)合作(比如可以評論)、便于分享、易于交互和自動更新(或者用郵件報告的方式定期發(fā)布)。
因此,產(chǎn)品化可能就像讓在 Apple 和 Netflix 這樣公司里的數(shù)據(jù)可視化工程師們?nèi)ゴ罱ㄒ粋完全定制化的分享應(yīng)用一樣,非常復(fù)雜和昂貴。或者產(chǎn)品化可能就像截圖一個圖表并把它塞到一個用于會議分享的文檔里一樣簡單。
現(xiàn)代的BI(商業(yè)智能)工具有能改進(jìn)共享(它們工具構(gòu)建的)看板的功能,其中還包括將看板共享為電子郵件報告。在定制化的應(yīng)用和標(biāo)準(zhǔn)化的BI(商業(yè)智能)工具之間,還有例如 Dash 和 Streamlit 這樣的看板庫,可以快速地從上文提到的探索性數(shù)據(jù)分析(EDA)和假說生成這兩個模式中生成看板。除此之外,最有爭議的莫過于將圖表的圖片嵌入文檔了。
數(shù)據(jù)可視化的產(chǎn)品化,能像在 Notion, Coda, Quip, Confluence 或者 Google Docs 中插入圖表一樣簡單嗎?
在很多情況下,便于分享和提供評論功能,是產(chǎn)品化的核心需求,但這已經(jīng)通過在線文檔里的靜態(tài)截圖完成了。這是最優(yōu)解嗎?還差得遠(yuǎn)了。圖表不能夠再繼續(xù)動態(tài)更新、截圖的人們可能會不小心裁剪掉關(guān)鍵信息。但很明顯,鑒于這種能夠在圖表上分享和評論的方法的頻率,收益仍大于缺陷。
5. 戰(zhàn)略方向
產(chǎn)品化可能看上去也像是在數(shù)據(jù)額可視化生命周期里的最后一步,但不是。
除了在演講中的直接影響力之外,圖表還(消極地和積極地)有助于使用數(shù)據(jù)的知識共享、最佳實(shí)踐和指南。圖表是一個公司的生命之血。如果公司想要改進(jìn)它如何使用數(shù)據(jù)可視化,他們只能在評估如何使用數(shù)據(jù)可視化時才能做到這一點(diǎn)。
即使沒有積極的數(shù)據(jù)可視化評估,圖表仍然影響著一個公司的戰(zhàn)略方向。因?yàn)閳D表提純和強(qiáng)調(diào)了指標(biāo)。這些我們展示的指標(biāo)、特別是在數(shù)據(jù)可視化生命周期中從探索活到產(chǎn)品化的指標(biāo),是認(rèn)真投資的結(jié)果。
它們影響決策,但也影響著之后的指標(biāo)。這就是為什么數(shù)據(jù)可視化是指標(biāo)設(shè)計(jì)的一個關(guān)鍵方面。類似地,數(shù)據(jù)本身以及數(shù)據(jù)的轉(zhuǎn)變需要可視化。數(shù)據(jù)沿襲(數(shù)據(jù)生命周期)不僅包括ETL【6】過程中創(chuàng)建的數(shù)據(jù)、也包括讓數(shù)據(jù)在語義上足夠有意義來讓公司使用且決策的必需步驟。
(【6】ETL:是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。)
最后,每個公司產(chǎn)生的圖表是公司里的人需要看的。這似乎是一個顯而易見的觀點(diǎn),但圖表通過提高或限制數(shù)據(jù)素養(yǎng)的方式表示數(shù)據(jù)。
如果你的所有圖表都是條形圖或者折線圖,那么你所有的指標(biāo)都只會是那些可以在那些條形圖和折線圖圖表上出現(xiàn)的那種,并且你所有的決策都將是基于這些指標(biāo)的那種。
但是,如果你有顯示不確定性、分層數(shù)據(jù)、地型圖、過程圖、地圖和其他數(shù)據(jù)類型的圖表,那么你的公司將能夠根據(jù)此類數(shù)據(jù)做出決策。
因此,即使圖表已成功被部署,它仍然會影響你公司的數(shù)據(jù)素養(yǎng)。如果你想了解更多相關(guān)信息,請查看我的文章——《圖表能做什么》。
四、支持整個數(shù)據(jù)可視化生命周期
我決定與他人共同創(chuàng)立 Noteable 公司的原因之一是我堅(jiān)信受眾和數(shù)據(jù)工具的融合,這是我在 2018 年 Tapestry 的主題演講中提出的觀點(diǎn)。在我嘗試預(yù)測未來時,我建議將“Dashtellingbooks”作為數(shù)據(jù)講故事、看板和計(jì)算筆記本的融合。自從那時起,我意識到構(gòu)建支持現(xiàn)代數(shù)據(jù)可視化的產(chǎn)品不僅僅只需要不同工具形式的簡單組合。
在數(shù)據(jù)可視化上,我們需要關(guān)注的不僅僅是工具的產(chǎn)出;我們需要考慮這些工具如何適應(yīng)現(xiàn)代數(shù)據(jù)方法,數(shù)據(jù)可視化發(fā)生在數(shù)據(jù)生命周期的每個點(diǎn),而不僅僅是在最后。這就是我們在 Noteable 公司處理數(shù)據(jù)可視化的方式。這就是每個想要利用數(shù)據(jù)可視化的公司都應(yīng)該采用的處理方式。
在 Noteable 公司,我們正在創(chuàng)建一個能支持整個數(shù)據(jù)可視化生命周期的工具:我們利用計(jì)算筆記本的力量來讓我們的用戶能探索、解釋和拓展他們的數(shù)據(jù)。
對于數(shù)據(jù)可視化生命周期的每一個階段,在未來我會寫得更加詳細(xì),并闡明如何以整體化的方式去處理數(shù)據(jù)可視化的產(chǎn)品設(shè)計(jì)與應(yīng)用設(shè)計(jì),能更好地使用戶能夠充分利用數(shù)據(jù)可視化生命周期。
來源:人人都是產(chǎn)品經(jīng)理
以上是關(guān)于用戶增長師的相關(guān)信息,以供大家查看了解。想要了解更多用戶增長師信息,第一時間了解用戶增長師相關(guān)資訊,敬請關(guān)注唯學(xué)網(wǎng)用戶增長師欄目,如有任何疑問也可在線留言,小編會為您在第一時間解答!