報告編委
李喆
愛分析合伙人&首席分析師
廖耘加
愛分析分析師
目錄
1. 研究范圍定義
2. 市場洞察
3. 廠商全景地圖
4. 市場分析與廠商評估
5. 入選廠商列表
1. 研究范圍定義
研究范圍
在后疫情時代,以數據分析為代表的數據消費場景日益豐富,數據驅動業務增長成為市場共識,數據開發管理越來越受到企業決策者重視。
當前,各類管理信息系統、協同辦公系統的應用,物聯網和邊緣設備的普及,都讓企業端數據采集和分析的場景變得越來越多,數據驅動的場景從當前集中在前端的營銷、銷售環節,正在向后端供應鏈的全場景延伸,從與消費互聯網緊密相關的零售電商向金融、教育、醫療、工業等全行業覆蓋,數據消費場景的豐富和分析需求的快速增長導致數據應用開發需求迅速增加。
金融、零售等行業頭部企業紛紛成立獨立的數據管理部門,在數據開發與管理方面的投入明顯增加。建設銀行、民生銀行、興業銀行等金融機構通過新建數據管理部門來實施大數據戰略,快速釋放數據生產力,實現數據資產的集中管理,聚集數據人才,深度挖掘與共享數據資源,從而利用數據驅動全方位支持業務發展。
盡管對數據的需求和投入不斷增大,但在實際管理和應用時企業仍面臨諸多挑戰:
企業內部數據管理的協作成本越來越高。一方面,數據分析工具多元化導致數據用戶角色更復雜,企業內現在設置了如數據工程師、數據管理員、報表開發人員、運維工程師等多個職位,反而容易造成職責邊界交叉模糊,協作困難。另一方面,IT部門、數據部門和業務部門之間難以建立起緊密的融合關系,數據部門相對弱勢,難以推動業務部門主動用數,整體數據應用效率較低。
單個環節的自動化無法解決全局問題。盡管企業在數據開發、數據治理等單個環節采購了相關的工具或平臺,實現了局部的自動化,然而僅僅能解決表面問題,無法真正解決全局需求。難以建立覆蓋所有業務的規范統一、集成互聯的數據基礎,從根本上消除數據孤島,實現企業級數據集成整合、全面共享應用,提升企業大數據能力。
數據應用開發需求增長與數據用戶角色的復雜致使企業數據開發、數據運維工作量以及數據應用交付協調難度大大增加。因此,企業需要一套全新解決方案,真正實現數據驅動業務增長。DataOps以其能服務于業務部門、大數據部門,提供敏態數據開發支持,優化數據生產者和數據消費者協作效率,成為解決以上問題的最佳方案。
在此背景下,為企業引入DataOps過程中提供全面的規劃、建設和產品選型參考,愛分析調研并撰寫了《2022年愛分析DataOps廠商全景報告》。
DataOps市場定義
圖 1: 數據全生命周期
數據全生命周期包括三個階段:首先,由業務部門在業務運行過程中產生原始數據;其次,大數據部門(IT部門)對原始數據進行數據加工;最后,加工后的數據再次回到業務部門完成數據消費。因此,在數據全生命周期中核心環節基本上由大數據部門(IT部門)完成。
大數據部門(IT部門)職責包括兩方面:1)數據資產統一管理;2)支持業務部門的敏穩雙態數據消費需求。
DataOps核心是面向于大數據部門的第二項職責,既滿足業務部門穩態的數據消費需求,如數據報表、數據可視化、自助式分析等;也要滿足業務部門敏態的數據消費需求,如機器學習建模、智能推薦等,敏態需求迭代速度更快,其中涉及到很多探索式需求。
DataOps市場定義:服務于業務部門(業務部門ITBP)和大數據部門,滿足敏穩雙態數據消費需求,提升數據加工環節效率的咨詢、工具和服務。
圖 2: DataOps市場全景地圖
基于數據全生命周期三大階段,進一步將數據加工環節拆分為數據采集(數據同步)、數據開發、數據服務(數據虛擬化)和數據質量提升;將數據消費環節拆分為數據分析和數據應用。并根據每一階段存在的業務需求,映射出對應的細分市場。
本次報告,愛分析認為DataOps全景圖主要覆蓋數據加工環節,具體來說,與數據采集、數據同步對應的是“敏捷數據管道”市場;與數據開發對應的是“一站式數據開發管理平臺”市場;與數據服務對應的是“數據服務平臺”市場、“智能數據資產目錄”市場和“指標中臺”市場;與數據質量提升對應的是“數據可觀測性平臺”市場和“數據治理”市場。
愛分析認為,甲方企業真正要實現DataOps,必須具備完整的數據能力,建設一整套面向業務需求的數據開發管理機制,僅僅具備單點能力是遠遠不夠的。因此,上述對DataOps市場劃分,主要是考慮到市場發展現狀、甲方企業建設進展和廠商能力,并不意味著具備單點能力就可以實現DataOps。
愛分析綜合考慮市場關注度、甲方需求和實際落地進展等因素,選取以下3個特定市場進行重點分析,分別是“一站式數據開發管理平臺”、“敏捷數據管道”和“智能數據資產目錄”。
本報告面向金融、制造、汽車、消費品零售、能源等行業的大數據部門負責人、IT部門負責人和業務部門(業務部門ITBP),通過對各特定市場的需求定義和代表廠商能力解讀,為企業數字化轉型規劃與廠商選型提供參考。
廠商入選標準
本次入選報告的廠商需同時符合以下條件:
廠商的產品服務滿足各市場分析的廠商能力要求;
廠商具備一定數量以上的付費客戶(參考第4章各市場分析部分);
廠商在特定市場的營業收入達到指標要求(參考第4章各市場分析部分)。
2. 市場洞察
1.DataOps市場規模超180億元
愛分析推算,2022年中國DataOps市場規模為185.1億元人民幣,同比增速為13.0%。考慮到大部分DataOps項目甲方還是大型企業,立項和交付受疫情影響很大,2022年增速較2021年明顯放緩,但預計2023年會40%以上的增速,市場進入快速發展階段。
圖 3: 中國DataOps市場規模預測
DataOps市場由軟件產品和服務組成,現階段整個市場并未形成統一標準和規范,絕大多數DataOps項目都是基于甲方企業自身需求進行落地,因此,軟件產品占比30%左右,大量項目還是以服務為主。大部分DataOps項目是廠商提供核心產品組件,基于實際甲方需求,形成DataOps解決方案。
DataOps市場甲方以金融、制造、能源、消費品與零售等行業為主,主要是以集團型甲方企業和行業頭部甲方企業為主,但兩者對DataOps的需求略有不同。集團型甲方企業在實際開展數據管理工作時,已經深刻意識到數據管理與數據服務的挑戰,正在尋求新的數據管理解決方案。行業頭部甲方企業在數字化轉型、數據能力建設處于行業前列,數據部門自身有很強烈的創新和探索意愿,愿意嘗試更多新的技術方案。
2.DataOps是實現數據驅動業務的關鍵基礎設施
DataOps概念一經出現,就會不斷跟數據中臺進行比較。愛分析認為,數據中臺承載了企業實現數字化轉型的長遠愿景,DataOps解決了數據驅動業務的實際問題。
2019年至今,數據中臺一直備受詬病,建設預期與實際結果之間的巨大落差是大量數據中臺項目失敗的重要原因之一。很多數據中臺項目需求來自企業決策者,并非技術部門或數據部門,數據中臺往往承載了企業決策者實現數字化轉型的美好預期,不過數字化轉型并非一蹴而就,企業在數字化轉型中遇到的挑戰也不可能完全依靠技術平臺來解決。
數據中臺建設雖然出現很多負面新聞,但持續數年的數據中臺建設對整個數據智能市場發展還是起到了重要推動作用。第一,數據中臺在實際企業業務開展中還是發揮了價值,數據驅動業務、數據驅動決策的理念深入人心,越來越多的企業決策者和業務人員重視數據的價值,將數據分析作為一項重要工具。第二, “數據統一管理與共享服務”等理念被大量企業的技術部門和數據部門所接受,越來越多的企業用這套理念來建設自身的數據開發與管理能力。
DataOps的需求多數來自于技術部門或數據部門負責人,解決的是企業開展數據開發管理工作的挑戰。當越來越多的業務部門關注數據,基于數據分析來實現業務增長,對企業的技術部門或數據部門而言,最大的挑戰是如何基于有限資源,最大化地滿足多個業務部門的數據消費需求。
一味地增加人力和預算,并不能從根本上解決這一問題。以某頭部互聯網公司為例,其數據開發管理團隊一度增加到千人規模,但依然無法滿足各個業務部門提出的數據需求。技術部門的挑戰一定要通過新的數據開發管理服務標準、流程和協作機制來解決,才能滿足企業日益增長的數據消費需求。
愛分析認為,實現數據驅動業務在技術架構創新的同時,還需要關注數據與業務之間的協作機制、流程和標準創新,后者是實現數據驅動業務的關鍵,DataOps重點在解決這一問題。
3.DataOps考驗廠商的產品架構能力
與數據湖倉引擎、實時計算引擎不同,DataOps并非技術架構創新,而是產品架構創新。性能是DataOps項目建設的重要指標,但并非最核心指標。大部分DataOps建設面臨的問題是,如何實現技術、數據和業務的融合,同時滿足三方的需求。
第一,應用開發與數據開發融合。當前大部分企業的應用開發與數據開發還是分開,但越來越多應用都是數字化應用,基于數據驅動的應用,數據開發與應用開發呈現融合態勢,如何在滿足IT運維、安全等前提下,提升數據開發的效率是一大挑戰,特別是集團型企業多數都有很強的合規要求。
第二,業務深度參與數據開發工作。當前業務和數據之間的協作并不緊密,自助式分析等數據分析工具興起,讓業務部門具備自助式數據分析和管理的能力,但大部分數據開發工作業務部門依然沒辦法深度參與,會導致很多數據開發工作并不能滿足業務需求,特別是在當下業務快速迭代的背景下。
基于上述挑戰可以看出,每個甲方企業在落地DataOps項目時,一定存在非常大的差異化,但背后要解決的本質問題會非常類似。對于DataOps廠商而言,需要從數據開發管理的全局出發,以終為始,在設計產品架構時要考慮到企業完整需求,才能夠應對不同DataOps項目的差異化甲方需求。
3. 廠商全景地圖
愛分析基于對甲方企業和典型廠商的調研以及桌面研究,遴選出在DataOps市場中具備成熟解決方案和落地能力的入選廠商。
4. 市場分析與廠商評估
愛分析對本次DataOps項目重點研究的特定市場定義如下。同時,針對參與此次報告的部分代表廠商,愛分析撰寫了廠商能力評估。
4.1 一站式數據開發管理平臺
市場定義:
一站式數據開發管理平臺,是指針對整個數據加工鏈路進行數據的監控、管理和運維,實現數據質量持續提升。
甲方終端用戶:
金融、制造、汽車、消費品零售、能源等行業的大數據部門負責人、IT部門負責人
甲方核心需求:
對甲方而言,核心是建立一套面向未來數據開發的機制,提升面向業務視角的數據開發能力,而不僅僅是實現數據整合。
過往,甲方更多是將數據整合和管理作為企業的階段性目標和項目來完成,對數據如何應用、如何在業務場景中發揮價值關注度不足。在實踐過程中,投入大量資源和人力,完成數據整合之后,“取數難”、“用數難”、數據質量低等問題依然存在,甲方還是無法發揮數據的價值。
因此,甲方真正需要具備的是一套完整的數據開發管理的能力,包含但不限于統一開發管理平臺、面向業務需求的開發管理流程與機制等。
1)梳理流程,建立統一的開發管理機制。
在甲方現有流程中,應用開發和數據開發往往是分開進行,但考慮到越來越多數字化應用是基于數據驅動這一趨勢下,企業需要考慮將二者融合。過去建設的數據中臺盡管一定程度上能夠支持報表、自助式分析等應用,但實質上仍未能滿足支撐整個數據開發管理體系,無法滿足越來越多基于數據驅動的應用需求,特別是以機器學習建模為代表的探索式應用。
隨著企業數字化轉型程度加深,數據管理和應用需求越來越迫切,很多甲方成立專門的數據部門處理數據相關的問題,并與IT部門和業務部門厘清職責邊界,建立起協作關系,數據部門與IT部門、業務部門如何進行協作,內部需要達成共識并建立協作機制。
數據開發和管理的建設并非一蹴而就,而是一個長期的工程。在實際建設中,既要考慮長期方向與目標,與整個公司戰略方向相適配,又要設置階段性目標,讓高層和相關部門感受到落地效果。因此,甲方需要明確數據開發和管理的實現路徑,并設置階段性目標。
對于金融等強監管行業,整個機制還需要符合監管要求。自數據安全法、個保法等法律法規出臺以來,監管機構對數據安全審查加強,企業在數據開發和管理過程中要注意合規問題,審慎使用數據,提升數據治理水平。
2)搭建功能豐富、具備擴展性的開發管理平臺。
經過多年信息化和數字化建設,絕大多數甲方已經具備一定數據基礎,以MPP、Hadoop為代表的技術架構,以大數據平臺為核心的數據開發和治理工具,因此,一站式數據開發管理平臺需要兼容現有的數據基礎設施。同時,隨著業務的發展,未來產生越來越多的創新業務場景,平臺需要有充分的擴展性以應對多元的需求,能夠支持各類型業務場景開展。
平臺需要圍繞整個數據開發管理的需求,提供豐富的功能,并具備自動化開發能力。企業需要在這一平臺上完成所有類型數據的開發和管理,覆蓋數據加工全鏈路的監控、管理、運維等需求,具備對全域數據治理的能力。同時,為應對越來越多且時效性越來越強的開發任務,還需要利用自動化工具提升效率。
廠商能力要求:
廠商需要具備咨詢能力和成功實踐經驗,能提供成熟的方法論。不僅提供數據平臺的產品,還能夠基于可復用的成功經驗,針對客戶的業務需求和內部建設現狀指導實施落地;需要具備規劃能力,能夠設計一套適用于未來幾年的框架,幫助數據部門、IT部門、業務部門能夠達成共識,通過幫助客戶梳理流程,基于數據產品調整組織架構并優化協作方式,提供完整的咨詢服務;此外,還需要為客戶提供建議,幫助甲方設置實現路徑,并制定階段性目標。
產品需要有較強的架構能力和可擴展性。需要具備解耦能力,采用模塊化方式構建,能夠單獨拆分功能模塊按需提供。在擴展性方面,需要能夠適配企業內的其他生態,支持多種接口協議,已封測及對接多種軟件或硬件接口調用等方式,能夠快速滿足企業未來的創新應用。
產品需要具備豐富的功能,能夠覆蓋數據加工的全流程,包括數據開發、數據治理、數據資產和運維監控等各個方面,能夠提供多人可協作的項目空間管理,具備持續集成和發布的能力。
入選標準:
1.符合一站式數據開發管理平臺市場分析的廠商能力要求;
2.累計在該市場服務客戶數10家及以上;
3.累計在該市場收入5000萬及以上;
代表廠商評估:
火山引擎
廠商介紹:
北京火山引擎科技有限公司(以下簡稱“火山引擎”),是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和工具開放給外部企業,提供云基礎、視頻與內容分發、大數據、人工智能、開發與運維等服務,幫助企業在數字化升級中實現持續增長。
產品服務介紹:
火山引擎數智平臺(Volcengine Data Intelligence,英文簡稱VeDI),基于字節跳動數據平臺多年的“數據驅動”實踐經驗,匯集端到端的數智產品、場景化的行業解決方案和專業的數智轉型咨詢。其中大數據研發治理套件DataLeap是一站式大數據研發治理套件解決方案,提供數據集成、開發、運維、治理、資產管理等能力。以獨立部署方式,通過數據治理的思維,綜合運用數據管理制度、人員組織、技術方法和流程標準等手段,幫助企業對數據資產在可用性、完整性和安全上實現全面有效的管理,賦能企業基于數據驅動下的業務創新。目前,已服務幾百家來自汽車、零售、互聯網、金融、文旅等行業的知名企業。
廠商評估: 整體來看,火山引擎基于數智平臺和一站式大數據研發治理套件打造的數據驅動管理解決方案,在產品功能、產品架構與理念、落地實踐經驗、體系機制四方面具備優勢。
1)功能豐富易用,提供一站式數據研發全鏈路管理。
DataLeap為企業提供基于DataOps敏捷研發流程、海量任務秒級調度能力和開源計算引擎的拓展能力,覆蓋數據研發與運維、數據治理、數據資產和安全合規等各個方面,賦能業務團隊進行數據自治。
具體來說,在全場景數據整合環節,DataLeap支持20+多源異構數據集成,涵蓋常見的業務存儲系統,支持全量、增量、實時的數據同步;在全鏈路的數據研發環節,DataLeap支持多引擎(批、流、OLAP),敏捷開發CI/C,對開發、測試、發布、運維等研發全鏈路進行管理;在數據治理環節,DataLeap集合了基線監控、數據質量、SLA治理等能力,提供事前預警、事中處理、事后復盤及推薦優化的功能;在數據資產建設方面,DataLeap具備數據資產快速接入及自動構建全鏈路血緣等技術。
2)技術架構先進,融合分布式數據治理理念,能夠應對高并發、大批量數據處理需求。
火山引擎創新性提出分布式數據治理的理念,并落地于DataLeap產品中。DataLeap采用了標準化、組件化的解耦架構,各個模塊均可獨立使用分布式治理模式,建設周期較短,適配能力強;企業用戶不僅能實現各級業務及個人的自驅治理,還能充分根據業務階段來制定治理的內容,讓數據治理對業務的沖擊和影響可以盡可能最小化;專業的治理知識可以沉淀下來,實現產品化協同,并結合智能化推薦功能,為企業提升執行效率。
DataLeap通過對引擎和架構的優化,提升了產品性能、擴展性和實時性,以應對業務多樣性和復雜度帶來的龐大數據處理作業量要求。為滿足時效性的需求,火山引擎通過自研的分布式調度系統,實現了秒級調度能力。同時提供了任務的分級打標機制,通過多種任務資源控制方式,實現資源最合理的調配。還可以根據任務的歷史情況,對不合理的任務配置,提出配置優化的告警建議。
3)數據技術能力均來自于字節跳動內部多年實踐經驗的積累與沉淀。
VeDI及DataLeap沉淀了字節跳動各業務線的數據治理經驗和規則,適合多種類型客戶在業務的不同階段使用。
字節跳動根據內部業務的痛點和需求,從2014年開始研發并逐步迭代出一套能夠挖掘分析海量數據、有效賦能業務的數據平臺。利用這一平臺敏捷支持內部今日頭條、抖音、西瓜視頻、朝夕光年等各大業務線后,對大數據的架構、產品、治理、安全隱私、組織設計等方面積累了豐富實踐,開始對外To B輸出和商業化。目前,火山引擎已經沉淀了完整的行業Know-How,能夠基于各部分產品組合和調用為客戶提供端到端解決方案,并以整體VeDI的方式呈現。
4)引入BP機制,幫助客戶建立體系化的數據治理方法。
火山引擎為客戶引入字節成熟的數據BP模式,從組織層面配合數據產品實現數據治理落地,切實把握業務的痛點,讓數據工具和平臺真正用起來。
數據BP,即“數據業務伙伴”,本質是將具備數據專業能力的人才上升至業務線。數據BP的職責是在一線配合數據分析師充分滿足數據需求,同時保障數據治理工作的有序落地。希望在數據治理成果推進到一定程度之后,為企業進一步探索數據賦能業務發展的方法。
火山引擎還會派專家團隊駐場,近距離參與企業的數據治理工作中。對企業的實際情況進行具體問題分析后,在數據指標治理、業務數據治理、埋點數據治理、數據底座管理體系四大方向上,給出建議并協助企業進行體系化建設,為企業跨職能的數據治理實踐提供長期穩定抓手。
典型客戶:
得到
代表廠商評估:
科杰科技
廠商介紹:
科杰科技是一家數據能力構建商,核心技術團隊擁有豐富的頭部互聯網企業云數據平臺搭建及運營經驗,致力于將成熟完備的數據底座產品與多業態復雜場景的最佳實踐有機融合,為企業提供數據管理、開發挖掘、運維一體化的整套方案,助力企業快速構建數據能力,實現高度規范化、敏捷化的數據工作協同與數據應用創新。現已服務百余家 政府單位及金融、能源、汽車、零售等行業頭部企業。
產品服務介紹:
科杰科技核心產品湖倉一體數據智能平臺 Keen Data Lakehouse是基于云原生技術自主研發的數據底座產品,產品設計內置12大功能模塊,在實現多云資源統一納管、彈性擴展和靈活調度的基礎上,滿足數據統一采集、存儲、開發、管理和服務的需求,具有高性能高穩定性的特性。其中數據開發管理平臺Keen BDP、數據同步系統Keen Dsync、實時計算平臺Keen Stream、數據標準產品Keen DSM、數據質量產品Keen DQM、主數據管理平臺Keen MDM、數據資產目錄Keen Asset、數據服務平臺Keen DAAS、數據標簽平臺Keen TAG功能模塊與一站式數據開發管理平臺直接相關。
廠商評估: 整體來看,科杰科技形成了“領先的大數據技術+全域數據資產管理+大數據工作方法論”三位一體的解決方案,在產品、技術、行業Know-How和咨詢服務方面具備優勢。
1)產品功能全,產品架構能力強。
基于過往實踐,科杰科技覆蓋數據開發管理的全生命周期,產品功能豐富。科杰科技將DataOps的理論融入產品設計中,支持DataOps持續集成、持續開發、持續運營方法論的最佳實踐。科杰產品矩陣覆蓋數據集成、數據轉換、數據開發、智能任務依賴、智能血緣解析、自動沉淀數據資產的全生命周期,在貫穿全流程工程化能力的同時提供全局統一數據標準、數據質量、主數據管理、元數據管理以及數據安全的全方面數據治理能力,是數據治理與數據工程相融合的增強型大數據平臺產品,提供一站式數據源到數據洞察分析和數據編織能力,為企業數字化轉型提供數據底座能力。
科杰科技對重點功能進行產品化、模塊化封裝,整個平臺采取松耦合架構,能夠獨立交付部署。Keen Data Lakehouse整體采用松耦合結構搭建而成,產品具備高度自主性和靈活性。科杰科技針對重點功能進行產品化、模塊化封裝,每個模塊都能夠與企業內信息系統進行對接,支持獨立交付和部署應用。因此能夠面向多業態、復雜的業務場景,以樂高式的產品組合方式搭建,支持大型組織全角色精細化業務開展,持續高效地創造高質量、可復用的數據資產。
2)底層技術架構領先,支撐集團企業多源異構數據統一納管。
Keen Data Lakehouse采用了領先的湖倉一體、新一代技術架構。這一架構兼具數據倉庫的高性能、強管理能力和數據湖的靈活性,具備批流一體、存算分離、數據編織、ACID事務性等特點,打通企業的數據孤島和數據煙囪,提供一個統一可共享的數據底座。通過將生產過程中大量結構化和非結構化的離線、實時數據抽取到數據倉庫,實現多源多態數據匯聚,為后續數據標準化、資產化、安全管理等需求提供了基礎條件。
科杰科技通過多模數據統一處理技術,實現企業數據在數據湖和數據倉庫之上的無縫調度和管理,避免大數據平臺、云數倉、分析型數據庫等現有數據資產的遷移。既能利用企業已有建設成果提供包容性支撐,對歷史數據、實時數據進行存儲、計算和查詢,保持現有業務的連續性;又能以邏輯統一的數據資產和協作方式進行開發,面向未來數據工作保持開放性,為技術部門與業務部門的高效協作奠定了基礎。
3)行業落地經驗豐富,對集團企業的數據資產統一管理和高效協作方式有深刻理解。
科杰科技的核心研發成員具有互聯網大廠背景和十多年大數據實戰經驗,曾親身經歷大型企業的大數據部門組建、數據中臺項目的建設,對于大型企業的集團、分公司、不同業務條線之間數據權限、數據安全、數據使用和存儲壓力問題了解深入,能夠根據不同企業的組織架構、業務流程等特點,提出適合的解決方案。
基于多年實踐經驗,科杰科技總結形成一套標準完善的企業級數據底座落地實施流程,結合Keen Data Lakehouse產品矩陣,能夠大大提升項目實施效率。目前,已在金融、新零售、能源、工業互聯網、汽車、通信等行業成功落地,并打造了具有針對性的多個行業解決方案。
4)具備咨詢服務能力,能為企業持續構建大數據能力提供建議。
科杰科技能夠為客戶提供前期的數字化咨詢服務,根據企業現狀給出問題診斷和建設路徑,幫助企業內部的IT技術部門、數據部門和業務部門達成共識、明確目標、梳理流程、制定規則,真正實現數據驅動業務、數據驅動管理,推動一站式數據開發管理平臺項目真正實現落地。
典型客戶:
一汽、中石化、永旺、中金公司、銀華基金
4.2 敏捷數據管道
市場定義:
基于ETL、ELT、CDC、Kafka等方式,從多種數據源采集原始數據,經過數據轉換,存儲至數據湖(數據倉庫)中,實現數據集成和標準化。
甲方終端用戶:
制造、汽車、消費品零售、能源等行業的大數據部門負責人、IT部門負責人和業務部門(業務部門ITBP)
甲方核心需求:
甲方的目標是更加敏捷、自動化地搭建數據管道,并對數據管道進行統一管理和編排。
隨著數字化轉型的深入和數據消費需求的增加,甲方內部的IT環境和數據環境越來越復雜,數據集成工具越來越多,彼此難以融合,相互割裂運行,對運維和管理提出了很高的挑戰。與此同時,數據管道的重要度越來越高,特別在業務部門對數據分析需求日益增長的趨勢之下,越來越多的數據管道建設需求來自于業務部門。
因此,數據管道逐步從整個大數據平臺獨立出來,作為一個獨立項目進行建設、運維和管理。以新消費、新能源為代表的行業,IT部門規模不大,但業務部門有很強烈的數據分析需求,敏捷、輕量、自助式數據管道建設需求日益增強。
1)數據類型和應用場景越來越多,對數據管道建設提出了更高要求。
傳統企業面臨的數據應用場景也更加多元,如BI報表、實時決策、基于機器學習的預測性分析等;同時,數據體量和多樣性也在快速增長,隨著物聯網應用的落地,時序、GIS、圖像、視頻、文本等新興數據類型大規模涌現。因此需要支持離線和在線場景,結構化、半結構化、非結構化等數據類型的數據采集。
2)業務快速迭代,敏捷搭建和自動化運維管理是數據管道建設的必備能力。
企業業務進行數字化轉型,產生大量數字化應用,對數據分析、數據應用提出了更高的要求。一方面業務發展變化快,傳統的ETL數據抽取、轉換和加載工作量繁雜,單這一流程會耗費數周乃至上月時間,導致業務面臨時效性之后,因此需要能夠快速搭建數據管道;另一方面隨著管道數量和數據量的迅速增加,數據管道的運維管理壓力變大,人工運維的模式無法應對,需要更多自動化的工具。
廠商能力要求:
廠商需要支持多類型數據源,滿足業務場景需求。同時支持離線和實時集成模式,滿足ETL、ETL、CDC、Kafka等多種技術路線,支持常見的各類型數據源,滿足各類型業務系統之間復雜的數據分發、推送、傳輸和共享發布。
圍繞著運維管理監控,廠商需要支持豐富的工具鏈和較高的自動化程度。提供組件化的多種類型數據處理工具,支持相互銜接組合,以滿足數據采集、數據轉換、數據存儲過程中的各種數據處理需求,并把重復的工作流程嵌入自動化,提升效率。
產品需要具備易用性。數據管道的使用人群不僅僅是IT部門,還有一部分業務部門的ITBP角色,因此根據不同使用角色的需求,需要支持通過拖、拉、拽等簡單操作方式完成數據集成流程的構建和相關功能。
入選標準:
1.符合敏捷數據管道市場分析的廠商能力要求;
2.累計在該市場服務客戶數10家及以上;
3.累計在該市場收入1000萬及以上。
代表廠商評估:
谷云科技
廠商介紹:
谷云科技(廣州)有限責任公司成立于2017年,是國內最早一批專注于iPaaS混合集成中臺研發的產品和技術解決方案提供商。公司專注于數據集成、服務集成、MQ消息集成、API管理領域,從底層開發框架入手完全自主研發,并基于統一平臺自主研發了全線RestCloud系列產品,服務于零售、制造、金融、教育等行業企業客戶,以及政府機構等各類組織。
產品服務介紹:
RestCloud 數據集成平臺是谷云科技基于DataOps理念完全自主研發和創新的新一代數據集成平臺,平臺一站式融合了ETL、ELT、CDC、API等能力,可幫助企業客戶快速搭建批流一體的數據集成底座,實現業務系統之間的數據集成和多源異構數據的交換和融合。
作為一套面向數據集成的輕量化、標準化產品,RestCloud 數據集成平臺采用全Web化配置,開箱即用,能夠讓用戶實現自助式構建數據管道,并具有豐富的組件,幫助用戶實現開發、測試、發布、監控、告警、運維等一系列工作。同時,結合谷云科技的API服務平臺,RestCloud數據集成平臺可以幫助企業快速構建輕量級數據中臺,滿足企業統一數據管理和數據共享需求,幫助IT部門實現對業務部門的支持。
廠商評估:
整體來看,谷云科技自主研發的數據集成平臺在數據傳輸性能、任務調度架構、產品易用性和系統穩定性等方面具備優勢,同時創新的把CDC和ETL進了一體化設計,使得實時流數據和批數據可以進行混合處理和合并。
1)技術能力強,覆蓋多種技術路線,滿足多種場景數據處理要求。
谷云科技的RestCloud數據集成平臺支持ETL/ELT離線數據處理和CDC實時數據處理等技術路線,能夠滿足企業客戶離線和實時業務場景的數據處理需求,滿足大中小型企業進行數據倉庫/數據中臺構建、客戶主數據平臺的構建、工業互聯網IoT設備的數據采集、云上云下SaaS數據同步、混合云數據同步等各種復雜數據集成應用場景的需求。同時,通過配置BI以及API數據服務,谷云科技還可構建各種數據應用的創新場景,滿足于企業敏態化數據消費需求。
谷云科技的RestCloud 數據集成平臺能夠廣泛支持企業的各類數據源和數據類型,不但具備功能強大的離線數據處理能力,同時具備實時數據傳輸能力,能夠支持包含國產數據庫在內的40多個數據源,以及Kafka、MQTT物聯網數據、HTTP等多類型實時數據流接入。
2)產品架構設計能力強,具有標準化、輕量化等特點。
谷云科技將RestCloud 數據集成平臺分為執行層、管理層和調度層支持10000+數據管道的準確調度和執行,平臺作為標準化產品,能夠按模塊進行自由地分離和組裝,大大增強了平臺的靈活性和可擴展性。一方面,平臺可以快速接入新的數據源,滿足不同場景的數據需求;另一方面,可以根據用戶的偏好和現狀,自定義配置平臺的功能和數據處理組件,平臺采用輕量化架構可以幾分鐘內完成部署上線并可運行在公有云、私有云以及個人電腦上。
3)產品易用性強,能夠滿足不同發展階段的企業需求。
基于過往實踐經驗,谷云科技將大量數據集成、數據服務過程中涉及的功能模塊封裝到RestCloud數據集成平臺中,數據抽取、加載、清洗、運算、脫敏、行轉列、列轉行等相關組件超過100種。
考慮到不同企業用戶自身IT能力的差異,谷云科技的RestCloud平臺支持自助式開發設計,支持基于純Java語法的自定義規則和算法,能夠通過規則實現復雜的自定義業務邏輯處理。因此,用戶通過可視化拖、拉、拽方式,完成數據管道的構建并實現數據抽取、轉換、清洗、脫敏、加載等功能。
4)底層技術架構以自研為主,平臺系統穩定性、可用性強。
谷云科技基于微服務架構研發的RestCloud數據集成平臺,能夠支持大規模的分布式部署架構,滿足企業用戶的云原生應用場景的需求。基于微服務架構對整個平臺進行技術解耦,每個功能模塊都可以獨立運行,使得平臺未來具備SaaS化的發展潛力。
ETL、ELT、CDC、調度平臺、API開發平臺等技術均以自研為主,而不是基于開源技術架構之上做改進和優化,底層技術能力完全自主可控,提升了整個平臺的穩定性和可控性。
典型客戶:
浙商證券、中金財富、三一重工、中建科工、億緯鋰能
4.3 智能數據資產目錄
市場定義:
面向業務場景,結合機器學習和知識圖譜技術,實現元數據一站式、自動化管理,包含數據采集、數據血緣、數據標準、數據發現、權限管理、資產監控等。
甲方終端用戶:
金融、制造、汽車、消費品零售、能源等行業及政府機關的大數據部門負責人、IT部門負責人
甲方核心需求:
業務與數據“脫節”是很多甲方當前面臨的重要問題之一。一方面,數據開發部門對業務理解有限,導致整個數據開發過程緩慢;另一方面,不同業務之間的數據如何打通和融合,建立統一的數據標準,對數據開發部門來說挑戰很大。以政府應急管理為例,數據來自于多個不同的委辦局,需要以一套標準、流程和規范來開展工作,實現對安全隱患的排查、監督和管理,背后是對不同業務的數據表單、字段和指標的融合和統一。企
針對當前快速、多變的數據服務需求,甲方的目標是基于現有數據資產目錄基礎上增加更多面向業務場景的標簽和指標,實現數據部門與業務部門的連接,并同時具備自動化迭代能力,持續提升數據開發效率。
1)快速梳理業務、建立業務認知的方法論。
以業務為中心,解決“數據在哪里”、“數據誰負責”以及數據如何用等問題,識別出業務主責部門、相關核心業務系統的核心對象、核心數據,打通查數/取數環節、打通基礎類數據和指標類數據的聯系。這些問題需要有一套方法論,能夠幫助數據開發部門快速開展工作的標準、流程和規范。
2)兼顧當前和未來需求的可擴展架構。
隨著創新業務發展,未來會有越來越多業務部門納入到數字化建設中,數據驅動業務滲透率持續提升,勢必使得數據復雜度持續提升,如何能夠兼顧當前業務需求,并為長期發展奠定基礎,需要一套具備可擴展性的技術架構,能支撐未來的更豐富的應用需求,實現業務流程和場景智能化的提升。
廠商能力要求:
廠商需要滿足對甲方業務理解能力,能夠基于業務視角提供解決方案。基于廠商自身積累的方法論,快速從多維度業務視角理解業務表達的含義、關系和趨勢,理解業務服務的對象、范圍,厘清數據與業務、業務與業務之間的關系,建立起對業務的認知,從而指導數據匯聚和數據應用。
廠商需要具備較強的技術架構能力,產品滿足自動化和擴展性需求。能夠通過原生集成和擴展的方式連接全域數據,并結合機器學習和知識圖譜等技術,實現自動編目數據、自動化數據和業務血緣,支持數據治理工作,并滿足不斷豐富的業務場景和數據應用需求。
入選標準:
1.符合智能數據資產目錄市場分析的廠商能力要求;
2.累計在該市場服務客戶數5家及以上;
3.累計在該市場收入1000萬及以上。
代表廠商評估:
愛數
廠商介紹:
上海愛數信息技術股份有限公司(簡稱“愛數”)成立于2006年,是領先的全域數據能力服務商。愛數以全域數據能力、統一架構和平臺+生態模式,打造創新的大數據基礎設施,通過AnyBackup、AnyShare、AnyRobot、AnyDATA、AnyFabric等產品覆蓋全域數據的整合、治理、保護,實現數據資產化和知識化,與客戶共創數據驅動型組織。依托自身強大的大數據基礎設施,愛數已服務超40個國家、地區的27000+客戶。
產品服務介紹:
AnyFabric是面向全域數據的數據資產管理平臺,為企業或政府機構提供的一套智能數據資產管理解決方案。基于領域認知智能和Data Fabric架構思想,通過對元數據的全面采集、深度學習、認知推理分析,自動關聯數據的業務語義,快速生成數據資產知識網絡,實現業務與數據的連接,業務與業務的連接,從而實現以業務為中心的數據管理和運營,助力客戶實現數據驅動組織,通過認知智能輔助數據管理和業務決策。目前已經在政府、制造、零售等行業率先落地,已經積累了不少成功落地案例。
廠商評估:
整體來看,愛數基于Data Fabric架構研發的AnyFabric在數據管理架構、認知智能和開放集成能力上具備優勢。
1)以業務為中心設計產品架構,產品功能豐富且貼近業務需求。
AnyFabric通過業務治理整合數據孤島,簡化數據治理。相較于基于數倉的強管控模型下集中化的數據治理,愛數采用了以業務為中心編織、連接所有元數據,通過建立數據資產知識網絡來編織和驅動數據的方式。AnyFabric通過連接型架構和領域認知智能作為核心引擎,以業務模型為中心連接全域數據,利用知識圖譜引擎構建數據資產知識網絡,形成了增強型數據資產目錄。不僅能夠賦能企業整合數據孤島,還能從業務視角出發,自動化、精確指導數據歸集、清洗、開發和加工等,簡化數據治理。
AnyFabric基于業務提升數據質量,實現數據資產化。AnyFabric所建立的數據資產知識網絡,能夠快速發現業務與業務之間的融合關系,監控業務指標、風險定位,做出問題分析、價值判斷等。在數據準備環節圍繞業務透視企業多個系統間的復雜關系,并實現直接獲取業務部門真正需要的原始數據,提高數據質量。基于業務標準并結合領域認知智能,高效組織和調度數據,開展數據治理,最終有效賦能業務最大化產生價值。
AnyFabric的業務可擴展性強。愛數采用業務視角的連接型架構,并將智能資產目錄建立的流程和模板固化到產品中。當企業出現新的業務時,將按照步驟進行業務梳理和成果輸出,原有的業務語義能夠由機器學習自動推薦,并識別相關的業務對象、業務對象,最終迅速到融入領域業務知識網絡中。后臺通過自動更新,不斷豐富業務和數據之間的關系,實現自動迭代和拓展,更好的應對企業的業務擴張。
2)融合知識圖譜技術,具備自動化和智能化能力。
愛數在知識圖譜領域已有超過四年的技術沉淀,并在多個行業有成功項目落地經驗。在原有數據資產目錄之上,結合愛數現有知識圖譜技術沉淀,使得數據資產目錄具備自動化和智能化,形成領域知識網絡,并在此基礎上實現推理分析和輔助決策,最終實現業務智能化。
AnyFabric通過融合機器學習、知識圖譜等先進技術,實現自動化的元數據采集、編目數據和數據血緣跟蹤。通過自動抽取本體和連接,并輔以人工校核,自動形成單業務知識圖譜,將多個單業務知識圖譜自動匯聚,連接生成企業級的業務知識網絡,賦能數據服務開發工作。借助自動化、智能化技術降低整個過程中數據編目的復雜性和工作量,幫助業務和數據管理人員輕松掌握數據的轉換和流動。
3)統一技術架構,能夠與愛數其他產品線融合,能夠提供端到端的解決方案。
AnyFabric沿用了愛數統一的技術棧架構,與AnyDATA、AnyShare等愛數產品內置對接,在統一的ONE架構上融合部署和深度集成,降低數據管理的運維難度和復雜性,為企業提供全域數據能力和一致的用戶體驗。
典型客戶:
中新天津生態城、郴州市城市大腦、中國中車
5. 入選廠商列表
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。
關鍵詞: