第壹種:軟件接口模式
通過軟件廠商開放的數據接口,實現不同軟件數據的互聯互通。這是目前最常見的數據對接方式。
優點:接口對接方式的數據可靠性和價值高,壹般不會出現數據重復;通過該接口可以實時傳輸數據,滿足實時數據應用的要求。
缺點:①界面開發成本高;(2)需要協調多個軟件廠商,工作量大,容易失敗;③可擴展性不高。比如,新的業務需要每個軟件系統開發壹個新的業務模塊,它與大數據平臺之間的數據接口需要做相應的修改和變更,甚至需要推翻之前所有的數據接口代碼,工作量大,耗時長。
第二種:軟件機器人采集
軟件機器人是目前比較先進的軟件數據對接技術,可以收集客戶端和網站的軟件數據。
常見的軟件機器人是韋波·肖邦。產品設計原則是“所見即所得”,即在沒有軟件廠商配合的情況下,采集軟件界面上的數據,輸出結果是結構化的數據庫或excel表格。
如果只需要界面上的業務數據,或者軟件廠商不配合/倒閉,數據庫分析困難的情況下,更希望使用軟件機器人采集數據,尤其是詳情頁的數據采集功能更有特色。
技術特征如下:
(1)沒有原始軟件制造商的合作;(2)兼容性強,可以收集和匯總Windows平臺上各種軟件系統的數據;③輸出結構化數據;④隨時可用,實施周期短,簡單高效;⑤配置簡單,無需編程,每個人都可以DIY壹個軟件機器人;⑥價格遠低於人工和接口。
缺點:采集軟件數據的實時性有限。
第三種:網絡爬蟲
網絡爬蟲是模擬客戶端的網絡請求並接收請求響應,按照壹定規則自動抓取萬維網信息的程序或腳本。
爬蟲數據采集的缺點有:①輸出數據多為非結構化數據;②只能收集網站數據,容易受到網站反爬取機制的影響;③用戶面窄,需要專業編程知識才能玩的轉。
第四種方式:開放式數據庫模式。
開放式數據庫是收集和融合數據最直接的方式。
優點:開放式數據庫方式可以直接從目標數據庫中獲取所需數據,準確率高,實時性有保證,是最直接便捷的方式。
缺點:開放數據庫方式還需要協調軟件廠商開放數據庫,這要看對方的意願。壹般出於安全考慮不會打開;如果壹個平臺同時連接多個軟件廠商的數據庫,實時獲取數據,對平臺的性能也是壹個很大的挑戰。
以上是四種常用的數據采集方式,各有優勢,適合不同的應用場景。