邏輯層提供了壹種組織組件的方式。這些層提供了壹種組織執行特定功能的組件的方法。這些層只是邏輯層;這並不意味著每壹層的功能都支持在獨立的機器或獨立的進程上運行。大數據解決方案通常由以下邏輯層組成:
1,大數據源
2.數據消息和存儲層
3.分析層
4.使用圖層
互聯網是壹張神奇的大網,大數據開發和軟件定制也是壹種模式。這裏提供了最詳細的報價。如果妳真的想做,妳可以來這裏。這個手機的起始號碼是187,中間的號碼是三零,最後的號碼是14250。按順序組合就能找到。我想說的是,除非妳想做或者懂這方面,如果只是湊熱鬧,那就別來了。
大數據源:考慮可以用於分析的所有來源的所有數據。請組織中的數據科學家闡明執行所需分析類型所需的數據。數據的格式和來源各不相同:
格式-結構化、半結構化或非結構化。
速度和數據量-數據到達的速度和傳輸的速率因數據源而異。
收集點——直接或通過數據提供者實時或以批處理方式收集數據的位置。數據可能來自主要來源,如天氣狀況,也可能來自輔助來源,如媒體贊助的天氣頻道。
數據源的位置—數據源可能位於企業內部或外部。確定您有權訪問的數據,因為對數據的訪問會影響可用於分析的數據範圍。
數據變更和存儲層:該層負責從數據源獲取數據,並在必要時將其轉換為適合數據分析的格式。例如,在存儲到Hadoop分布式文件系統(HDFS)存儲或關系數據庫管理系統(RDBMS)倉庫進行進壹步處理之前,可能需要對圖形進行轉換。法規遵從性系統和治理策略要求為不同的數據類型提供適當的存儲。
分析層:分析層讀取存儲層的數據變化和數據摘要。在某些情況下,分析層直接從數據源訪問數據。設計分析層需要提前仔細規劃和計劃。必須決定如何管理以下任務:
生成所需的分析
從數據中獲得洞察力
查找所需的實體。
找到可以為這些實體提供數據的數據源。
了解執行分析需要哪些算法和工具。
使用層:這壹層使用分析層提供的輸出。消費者可以是可視化應用程序、人、業務流程或服務。可視化分析圖層的結果可能具有挑戰性。有時候,看看相似市場中的競爭對手是如何做的會有所幫助。
每壹層都包含各種組件類型,下面將介紹這些組件類型。
大數據源
這壹層包含所有必要的數據源,並提供解決業務問題所需的洞察力。數據有結構化的、半結構化的和非結構化的,它有許多來源:
1,企業遺留系統?這些系統是執行業務需求分析並獲得所需洞察力的企業應用程序:
crm系統
結算操作
大型機應用程序
企業資源計劃
Web應用程序開發
Web應用程序和其他數據源擴展了企業擁有的數據。這些應用程序可以使用定制的協議和機制來公開數據。
2.數據管理系統(DMS)-數據管理系統存儲邏輯數據、流程、策略和各種其他類型的文檔;
微軟?Excel?試算表
Microsoft Word文檔
這些文檔可以轉換成用於分析的結構化數據。文檔數據可以作為域實體公開,或者數據修改和存儲層可以將其轉換為域實體。
3.數據存儲—數據存儲包括企業數據倉庫、運營數據庫和交易數據庫。這些數據通常是結構化的,可以直接使用,也可以輕松轉換以滿足需求。根據上下文,這些數據不壹定存儲在分布式文件系統中。
4.智能設備—智能設備可以用最廣泛使用的協議和格式來捕獲、處理和傳輸信息。例如智能手機、儀表和醫療設備。這些設備可用於進行各種類型的分析。大部分智能設備都會進行實時分析,但是智能設備的信息也可以進行批量分析。
5.聚合數據提供者—這些提供者擁有或獲取數據,並通過特定的過濾器以復雜的格式和所需的頻率公開數據。每天都會產生海量的數據,這些數據有不同的格式,以不同的速度產生,由各種數據提供商、傳感器和現有企業提供。
其他數據源—許多數據來自自動化來源:
地理信息:
地圖
地區詳情
位置詳細信息
挖掘詳細信息
人為生成的內容:
社會化媒體
電子郵件
博客
在線信息
傳感器數據:
環境:天氣、降雨、濕度、光線。
電:電流、勢能等。
導航設備
電離輻射、亞原子粒子等
鄰近、存在等。
位置、角度、位移、距離、速度、加速度
聲音、聲振動等。
汽車、交通工具等。
熱度,熱度,溫度
光學、光、成像、可見度
化學
壓力
流量、液體、速度
力、密度水平等。
來自傳感器供應商的其他數據
數據更改和存儲層
由於傳入數據可能具有不同的特征,數據修改和存儲層中的組件必須能夠讀取各種頻率、格式、大小和通信信道的數據:
數據采集—從各種數據源獲取數據,並將其發送到數據整理組件或存儲在指定位置。該組件必須足夠智能,能夠選擇是否存儲傳入數據以及存儲在哪裏。它必須能夠確定數據是否應該在存儲之前進行更改,或者數據是否可以直接發送到業務分析層。
數據整理——負責將數據修改成分析所需的格式。該組件可以使用簡單的轉換邏輯或復雜的統計算法來轉換源數據。分析引擎將確定所需的具體數據格式。主要挑戰是適應非結構化數據格式,如圖像、音頻、視頻和其他二進制格式。
分布式數據存儲—負責存儲來自數據源的數據。通常,這壹層提供多種數據存儲選項,如分布式文件存儲(DFS)、雲、結構化數據源、NoSQL等。
分析層
這是從數據中提取業務洞察力的層:
分析層中的實體標識—負責標識和填充上下文實體。這是壹項復雜的任務,需要高效和高性能的流程。數據排序組件應補充此實體標識組件,並將數據修改為所需的格式。分析引擎將需要上下文實體來執行分析。
分析引擎-使用其他組件(具體來說,包括實體識別、模型管理和分析算法)來處理和執行分析。分析引擎可以具有支持並行處理的各種工作流、算法和工具。
模型管理——負責維護各種統計模型,對這些模型進行驗證和測試,通過對模型的不斷訓練來提高精度。然後,模型管理組件提升這些模型,實體識別或分析引擎組件可以使用這些模型。
使用層
這壹層使用從分析應用程序中獲得的業務洞察力。組織內的用戶和組織外的實體(如客戶、供應商、合作夥伴和提供商)使用分析結果。這種洞察力可用於向客戶提供產品營銷信息。例如,通過從分析中獲得的洞察力,公司可以使用客戶偏好數據和位置感知,在客戶通過渠道或商店時向他們提供個性化的營銷信息。
這種洞察力可用於檢測欺詐,實時攔截交易,並將它們與使用企業中已存儲的數據構建的視圖相關聯。當欺詐交易發生時,可以通知客戶可能存在欺詐,以便及時采取糾正措施。
此外,可以根據在數據變更層完成的分析來觸發業務流程。可以啟動自動化步驟,例如,如果客戶接受可以自動觸發的營銷消息,則需要創建新訂單,如果客戶報告欺詐,則可以觸發阻止信用卡使用。
分析的輸出還可以被推薦引擎使用,推薦引擎可以為客戶匹配他們喜歡的產品。推薦引擎分析可用信息,並提供個性化的實時推薦。
使用層還為內部用戶提供了理解、查找和導航企業內外的鏈信息的能力。對於內部用戶,為業務用戶構建報告和儀表板的能力使利益相關者能夠做出明智的決策和設計適當的策略。為了提高運營的有效性,可以從數據中生成實時業務警告,並且可以監控運營關鍵績效指標:
事務攔截器(transaction Interceptor)—該組件可以實時攔截高容量的事務,並將其轉換為分析層易於理解的實時格式,以便對傳入的數據進行實時分析。交易攔截器應該能夠集成和處理來自各種來源的數據,如傳感器、智能儀表、麥克風、攝像頭、GPS設備、ATM和圖像掃描儀。您可以使用各種類型的適配器和API來連接數據源。各種加速器也可以用來簡化開發,例如實時優化和流分析、視頻分析、銀行、保險、零售、電信和公共交通中的加速器、社交媒體分析和情感分析。
業務流程管理流程—業務流程執行語言(BPEL)流程、API或其他業務流程可以使用分析層的見解,通過自動化上遊和下遊IT應用程序、人員和流程的功能來進壹步獲得業務價值。
實時監控—來自分析的數據可用於生成實時警報。警報可以發送給感興趣的用戶和設備,如智能手機和平板電腦。您可以使用從分析組件生成的數據洞察來定義和監控關鍵性能指標,以便確定運營的有效性。實時數據可以以儀表板的形式從各種來源披露給業務用戶,以便監控系統的健康狀況或衡量營銷活動的有效性。
報告引擎—生成類似於傳統商業智能報告的報告的能力至關重要。用戶可以根據從分析層獲得的見解創建臨時報告、計劃報告或自助查詢和分析。
推薦引擎——基於來自分析層的分析結果,推薦引擎可以向購物者提供實時、相關和個性化的推薦,提高電子商務交易中的轉化率和每筆訂單的平均值。該引擎實時處理可用信息並動態響應每個用戶,根據用戶、存儲在CRM系統中的註冊客戶信息以及未註冊客戶的社交簡檔來響應實時活動。
可視化和發現—數據可以在企業內外的各種聯合數據源之間導航。數據可能有不同的內容和格式,所有的數據(結構化、半結構化和非結構化)都可以組合起來可視化提供給用戶。這種功能使組織能夠將其傳統的企業內容(包含在企業內容管理系統和數據倉庫中)與新的社交內容(如tweet和博客帖子)結合到單個用戶界面中。
垂直層
影響邏輯層所有組件(大數據源、數據更改和存儲、分析和使用層)的方面包含在垂直層中:
信息集成
大數據治理
系統管理
服務質量
信息集成
大數據應用從各種數據源、提供商和數據源獲取數據,並將其存儲在HDFS、NoSQL和MongoDB等數據存儲系統中。這個垂直層可以被各種組件(如數據采集、數據整理、模型管理和事務攔截器)使用,並負責連接各種數據源。集成來自具有不同特征(如協議和連接)的數據源的信息需要高質量的連接器和適配器。加速器可以用來連接到大多數已知的和廣泛使用的源。這些加速器包括社交媒體適配器和天氣數據適配器。各種組件也可以使用該層將信息存儲在大數據存儲中,並從大數據存儲中檢索信息以便對其進行處理。大多數大數據存儲提供服務和API來存儲和檢索這些信息。
大數據治理
數據治理包括定義指導方針,以幫助企業做出正確的數據決策。大數據治理有助於處理來自企業或外部來源的數據的復雜性、數量和多樣性。當數據傳輸到企業進行處理、存儲、分析、清除或歸檔時,需要強有力的指導原則和流程來監控、構建、存儲和保護數據。
除了正常的數據治理考慮事項,大數據治理還包括其他因素:
1.管理各種格式的大量數據。
2.持續培訓和管理必要的統計模型,以預處理非結構化數據和分析。請記住,在處理非結構化數據時,設置是壹個重要的步驟。
3.為外部數據的保留和使用制定政策和合規系統。
4.定義數據存檔和清除策略。
5.創建關於如何跨不同系統復制數據的策略。
6.設置數據加密策略。
服務質量層
這壹層復雜地定義了數據質量、隱私和安全政策、數據頻率、每次抓取的數據大小和數據過濾器:
數據質量
1,完全識別所有必要的數據元素。
2.提供具有可接受的新鮮度的數據時間線。
3、根據數據準確性規則驗證數據的準確性。
4.采用通用語言(數據元組滿足使用簡單業務語言表達的需求)
5.根據數據壹致性規則驗證來自多個系統的數據壹致性。
6.在滿足數據規範和信息架構指導原則的基礎上實現技術合規性
隱私和安全策略
需要策略來保護敏感數據。從外部組織和提供商獲得的數據可能包含敏感數據(如臉書用戶的聯系信息或產品定價信息)。數據可以來自不同的地區和國家,但必須進行相應的處理。必須做出關於數據屏蔽和這種數據的存儲的決定。考慮以下數據訪問策略:
A.數據可用性
b、數據關鍵性
c、數據真實性
d、數據* * *享受和發布
e數據存儲和保留,包括外部數據是否可以存儲。如果數據可以存儲,可以存儲多久?可以存儲什麽類型的數據?
f、數據提供者的制約因素(政策、技術和區域)
G.社交媒體的使用條款
數據頻率
妳多久提供壹次新數據?是按需、持續還是離線?
捕獲的數據的大小。
此屬性有助於定義可以爬網的數據以及每次爬網後可以使用的數據大小。
過濾器
標準過濾器將刪除數據中不需要的數據和幹擾數據,只留下分析所需的數據。
系統管理
系統管理對於大數據非常重要,因為它涉及到跨企業集群和邊界的許多系統。監控整個大數據生態系統的運行狀況包括:
A.管理系統日誌、虛擬機、應用程序和其他設備。
B.關聯各種日誌以幫助調查和監控特定情況。
c、監控實時警告和通知
d、使用顯示各種參數的實時儀表板。
E.引用相關系統的報告和詳細分析。
f、制定並遵守服務水平協議
G.管理存儲和容量
g、歸檔和檔案檢索管理
執行系統恢復、集群管理和網絡管理。
j、戰略管理
結束語
對於開發人員來說,該層提供了壹種對大數據解決方案必須執行的功能進行分類的方法,並建議了組織執行這些功能所需的代碼。然而,對於希望從大數據中獲得洞察力的業務用戶來說,考慮大數據的需求和範圍通常是有幫助的。原子模式解決了大數據的訪問、處理、存儲和使用的機制,為業務用戶提供了解決需求和範圍的途徑。下壹篇文章將介紹用於此目的的原子模式。