旅遊是行業屬性,決定了我們需要關註哪些指標;
大數據平臺是壹個技術架構,決定了妳能以什麽速度處理多少數據,最後如何呈現。
所以我就從這兩個方面來闡述:
壹、大數據平臺大數據平臺的整體架構如下
如圖所示,從下到上有幾個環節:
業務應用:其實是指數據收集,以及妳如何收集數據。在互聯網上收集數據相對簡單。可以通過網頁和app收集數據,也可以在更深層次上收集用戶行為數據。可以細分和詳細分析許多維度。但對於線下行業,數據采集需要借助各種業務系統來完成。當然,妳也可以通過壹些開放的數據源或者爬蟲獲取壹些外部數據,來彌補自己數據的不足。
數據集成:實際上指的是ETL,即用戶從數據源中提取所需數據,清洗數據,最後根據預先定義的數據倉庫模型將數據加載到數據倉庫中。這裏的Kettle只是ETL中的壹個。
數據存儲:指數據倉庫的構建,這裏比較復雜,不贅述。可以詳細看看下圖中的“數據倉庫層”。
數據* * *共享層:提供數據倉庫和業務系統之間的數據* * *共享服務。Web服務和Web API都代表了壹種連接數據的方式。
數據分析層:大家可以理解的分析功能,就是各種數學公式,比如聚類分析,回歸分析等等。
列存儲允許磁盤的每個頁面只存儲單個列的值,而不是整行的值。因此,壓縮算法效率更高,因為它們可以處理相同類型的數據。簡單來說,可以減少磁盤上的I/O,提高緩存利用率,這樣磁盤存儲的使用效率就會更高。
而分布式計算可以把壹個需要巨大計算能力的問題分成很多小的部分,然後把這些部分分布到很多臺計算機上進行處理,最後綜合這些計算結果得到最終的結果。
總的來說,通過這兩種技術可以大大提高數據分析的效率。
永紅MPP應該是目前最好的柱儲配產品。
數據呈現:分析結果將以什麽形式呈現?說白了就是數據可視化的工作。這部分推薦敏捷BI產品,和傳統BI不同。只需簡單拖拽即可生成報告,節省時間,學習成本相對較低。在國內敏捷BI中,個人用戶推薦Tableau,企業級需求推薦永紅BI。
數據訪問:這相對簡單,取決於妳如何看待這些數據。圖中的例子是因為B/S架構,最終的可視化結果是通過瀏覽器訪問的。當然也有C/S架構的,可以通過客戶端查看。相對來說,B/S架構會更方便,更適合很多用手機工作的人的需求。打開網頁就能看到數據。
二、旅遊行業要關註哪些指標?我以某省的旅遊數據為例:
可以分析的指標有:
省級旅遊收入分析(包括收入額、增長率以及與全國收入增長率的比較)
全省旅遊形勢分析(包括星級飯店總數、國內遊客、入境遊客、入境過夜遊客、遊客消費水平、旅行社數量、旅遊專業人員等))
入境旅遊人數分析(外國遊客、港澳臺同胞及其相應增長率)
旅遊收入分析(商品銷售、長途運輸、住宿、景點門票、餐飲、郵電)
酒店分析(根據客房數量,可以分析出新興階段適合發展的酒店形式,比較適合連鎖酒店或者民宿)
基於以上分析,可以得出該省下壹階段旅遊應重點關註的地方,為判斷規劃提供依據。
所以,旅遊大數據平臺,大數據平臺是基礎,具體指標才能決定應用價值。