什麽會讓數據科學家抓狂?
如今,人們對數據科學充滿熱情。只要在產品介紹中加入“人工智能驅動”,就能極大地促進產品的銷售。
然而,問題也隨之而來。
數據科學在營銷中經常被誇大。因此,客戶大大提高了他們的期望。但最終,數據科學需要盡力滿足客戶的高期望。
在這篇文章中,我們將討論在機器學習項目中讓數據科學家瘋狂的八個常見問題,以及為什麽這些問題會困擾數據科學家。
如果妳也在數據科學領域,或者考慮進入這個領域,那麽理清這些問題可以幫助妳更好的做出判斷和處理。
1.我們想要壹個人工智能模型來解決這個問題
行業內80%的問題都可以通過簡單的探索性數據分析來解決。如果用機器學習來解決壹些問題有些大材小用,那麽完全沒有必要考慮用AI。
是的,高級分析很高。企業喜歡在這方面投資,從而處於行業領先地位。哪個公司不想推廣AI項目?但是需要給客戶壹個基本的解釋,采用合適的行業用例。
“到目前為止,人工智能最大的危險是,人們過早地認為自己已經完全理解了它。”
——埃利澤·尤德科夫斯基
2.通過壹些數據,我們可以得到革命性的分析意見。
通常客戶認為他們只需要提交數據。壹些客戶甚至沒有提供相關問題的定義,如第4點所示。他們需要數據分析師獲取數據,得出革命性的商業見解,可以在壹夜之間改變企業的發展方向。
不幸的是,數據科學家無法獨自提出可行的商業建議。這就需要與客戶進行持續有效的溝通,充分了解企業的情況。在整個項目過程中,定期與業務人員壹起制定計劃是非常重要的。
“如果妳不知道如何問正確的問題,那麽妳將壹無所獲。”
——愛德華·戴明
3.構建模型並跳過不必要的分析以節省時間
許多數據分析師忽略了數據整理和探索性分析的重要性。
數據分析是機器學習和其他更高層次分析的必要步驟。如果妳不理解數據,發現異常值或潛在模式,那麽模型就沒用了。所以要預留時間進行分析,把有價值的發現分享給客戶。
"當煉金術士尋找黃金時,他們會發現許多其他更有價值的東西."
——亞瑟·叔本華
根據上周的數據,能否預測未來半年的數據?
這是數據科學家最討厭的情況。客戶在電子表格中提供了幾行數據,並希望人工智能能夠預測未來。有時候甚至更誇張。當沒有數據時,客戶希望知道機器學習是否可以填補這些數據的空白。
數據的質量和數量很重要,“垃圾進,垃圾出”適用於數據分析。有用的統計技術有助於處理數據問題,從妳提供的少量數據中得出更多的結論。例如,估計缺失點、生成數據或使用更小的簡單模型。但這需要降低客戶對結果的預期。
對技術和數據量之間關系的分析,資料來源:吳恩達。
5.妳能在兩周內完成建模項目嗎?
很多項目規定的時間很緊。這種高強度的項目安排,往往會影響到型號工程階段。隨著模型API和GPU計算的出現,客戶想知道是什麽減緩了慢數據科學家的速度。
雖然自動機器學習已經取得了進展,但在建模過程中,人工操作也是必不可少的。數據科學家必須在痛苦的叠代中檢查統計結果,比較模型,檢查解釋。這些不能自動化,至少現在還不能。最好是通過案例向客戶說明這壹點。
6.可以替換輸出變量並刷新嗎?
在數據科學家解決了商業行為的建模問題之後,新的請求即將出現,也就是最後的小變化。通常,替換輸出變量並重新運行模型。客戶沒有意識到,這些改變不僅會改變目標,還會改變整個模式。
雖然機器學習是高度叠代的,但關鍵的挑戰是為給定的輸出變量選擇正確的影響因素,並映射它們的關系。客戶必須了解這背後的基本工作原理,明確自己可以調節的範圍。
7.模型的準確率能達到100%嗎?
人們往往對錯誤率有誤解,容易盲目追求考試水平。有的客戶甚至希望準確率達到100%。當準確性超過其他因素,成為唯壹的關註點時,這是非常令人擔憂的。建立壹個復雜到無法實現的高精度模型有什麽意義?
以高精度獲得網飛獎的模型壹直沒有正式推出,因為復雜度高會帶來巨大的工程成本,但精度低的模型會被采用。所以在考慮準確性的時候,要權衡簡單性、穩定性和業務可解釋性。
模型工程:權衡各種因素
8.訓練出來的模型能壹直沒有問題嗎?
在煞費苦心的建模和測試之後,客戶想知道機器是否掌握了壹切。常見的問題是,該模型是否能夠始終無故障,並適應未來的業務變化。
可惜,機器無法終身學習。它需要不斷的訓練,通常每隔幾周或幾個月就要復習和訓練,就像寒窗苦讀的學生壹樣。現在的分析行業發展很快,變化很快,模型需要不斷維護和更新。
標簽
在機器學習項目中,以上八個誤區會讓數據科學家很頭疼,在機器學習建模生命周期的六個階段也會出現類似的問題,如下圖所示。
機器學習項目的生命周期
產生上述誤解的原因在於對項目缺乏了解,沒有正確把握輕重緩急。了解這些原因的數據科學家需要更好地解釋他們的客戶,這樣雙方才能更好地解決問題,而不是壹味地妥協。