企业业务越来越复杂多元,对数据处理能力的需求越来越高,当下实时分析场景越来越多。数据技术日新月异,纷繁复杂,利用合适的数据技术打造自己的实时分析能力非常重要。
(照片配图:)
本期,我们有幸邀请到偶数科技创始人&ceo常雷博士,他指出现在数据湖和数仓的融合已是大势所趋,有迫切的需求,当下已经到了实时湖仓一体时代。他分享了实时湖仓的发展、建设路径和方法论。
此外,常雷也指出,这是技术创业最好的时代,也存在挑战。技术发展多年,现在突变的技术没有以前那么多。在突破力越来越少的情况下,大家都在做一些存量的竞争,这时候从商业层面其实蛮困难的,还是要从技术上做一些突破,来打破这样一个格局。他强调要坚持创新,不进则退。“要结合需求来看,别拿个锤子老找钉子,你根据钉子来造锤子。技术型创业的人最容易这样,强调技术产品贼牛,这是技术创业最大的一个坑。”
追问:我们为什么需要实时湖仓?
itpub:常雷博士,很高兴能采访到您,请您简单做个自我介绍。
常雷:我之前是北大博士数据库方向毕业,毕业之后就加入emc,曾任emc高级研究员、emc/pivotal研发部总监。
2010年emc收购greenplum,我在emc带领研究团队做数据库内核的研发工作,结合greenplum开发了新的产品hawq,hawq和gp早期是闭源产品,在2015年我们就把这两个产品全部开源了,hawq后面成为了的顶级项目。
看到了云时代的机遇,2016年年,我带着团队出来创立了偶数科技,当时我们定位是想做新一代云原生的分析型数据库,慢慢地演进成现在的实时湖仓,就是把结构化数据、非结构化数据、半结构化数据,所有的数据都能够融合起来处理,架构上做云原生存算分离,把数据湖和数仓融合形成新一代数据平台。
itpub:打造新一代云原生分析型数据库,是不是对标snowflake?
常雷:其实我们对标国外的snowflake和databricks两家公司,snowflake做云原生数仓起家,是分析型数据仓库。databricks是做spark,早期定位是机器学习,后面做lakehouse(湖仓一体)。这两家公司,前者是从数据库角度出发,后者是hadoop生态,从数据湖出发,现在都往湖仓一体融合发展,我们其实正好是两个都对标。gp是一个分析型数据库,hawq源于gp,是sql on hadoop引擎,是hadoop生态,我们从hawq出发,做云原生存算分离,演变到oushudb,又以oushudb为基础,打造了skylab实时湖仓数据平台。
以前都是有湖有仓,现在湖的能力比如说事务一致性、性能等等都在增强。仓之前只能做结构化数据,现在慢慢把流处理各方面的东西都给融进来。
我们已经扩大产品栈,有一套完整的产品矩阵,能为企业提供非常完整的数据分析产品栈,具有整体的数据分析的凯发k8官方旗舰厅的解决方案能力,像是一个航空母舰一样。
itpub:公司凯发官网入口首页官网的介绍是开启实时湖仓一体时代,您看到的是怎样的一个时代?
常雷:数据库经过好几代的发展,其实脉络比较清晰,最早期是交易数据库,像oracle、db2,交易数据库其实变化没有那么大,就是传统集中式到分布式的变化。
分析型数据库的架构变化比较大,这是需求场景变化使然,分析库从早期只能做一些统计报表,到后来数据量大了之后要处理大量的数据,在到做bi。后来大数据时代,有各种不同类型的数据出来,数据量也很大,数据处理变得复杂,出现了hadoop大数据平台。最近这几年,云计算兴起,湖和仓向着融合演进,变成了云原生湖仓一体。
湖仓一体概念是美国先提的,英文是lakehouse,湖仓一体只是说把湖和仓融合起来,减少了数据的孤岛。以前湖和仓是分开的,在湖和仓里面都要存数据,造成数据冗余,不是一份数据,使得开发成本、维护成本等提高,湖仓一体确实解决了一些问题,降低了客户的运营成本。
我们觉得只说湖仓一体还不够,从应用的场景来看,在分析方面,以前的t 1已经不能满足很多实时场景需求,t 0实时场景越来越多,我们不仅要做湖仓一体,而且要针对实时场景,做一个新的技术架构,所以说我们提实时湖仓一体的时代,不仅强调技术架构,而是技术、应用场景的支持和融合。
市场上也有实时“数”仓的概念,和实时“湖”仓虽然差一个字,但是差别蛮大的。实时数仓处理结构化数据,实时湖仓是一个产品矩阵,实时湖仓包含了实时数仓,范围更大一些,会把企业各种各样的数据都管理起来。
itpub:实时数仓、实时湖仓核心就是实时性的需求,您觉得是如何发生的?
常雷:现在越来越多的实时场景出现,就是比如说实时大屏、实时报表、实时指标、实时推荐、反欺诈、风控、iot场景等,比如说一个用户在浏览商品,他要收到一些实时的推荐。
从业务场景的需求来看,传统的t 1已经支撑不了这种需求,大家对实时的需求已经很迫切了。
客户的it能力越强,投入越大,业务做得越好,越讲究实时性。有些传统的企业技术方面做的比较弱一些,觉得现在好像不需要,业务这样还挺好,但实际上是数字化转型没有做好,业务提升空间还很大。
itpub:也许企业真的没有需要?
常雷:他不是没需要,而是他没想到他有需要,别人都已经做了,他就是跟随者。任何一个新场景、新业务或者新技术的发展,都会有一些创新的先行者,跟随者也挺多,跟随者其实是占大部分,创新者只占一小部分。
实时湖仓案例,我们做了很多头部客户,基本上每个行业的头部都有。我觉得技术随着业务场景在变化,往往是先有业务场景才有技术,有时候有了技术之后,会开拓一些以前不能做的业务场景。实时湖仓好像是需求和技术在齐头并进。一个是有需求,另外技术也在发展,走到了实时湖仓一体这样的一个时代。
itpub:具备哪些特性才能是真正的实时湖仓?
常雷:根据湖仓一体平台的本质,我们总结出了湖仓一体的六大特征——anchor,其中6个字母分别代表:all disparate data(多源异构数据)、native on cloud(云原生)、consistency(数据一致性)、high concurrency(超高并发)、one data in open format(一份开放格式数据)、realtime(实时t 0)。anchor 的中文意思是“锚”,利用anchor六大特性很容易判断出某一系统设计是否真正满足湖仓一体,“锚”定湖仓一体。
itpub:在实时性方面,有很多技术和概念,实时数仓、实时湖仓、流批一体、htap数据库等,您觉得企业需要的是什么?偶数为什么会专门提实时湖仓?
常雷:这些概念其实都有一些自己的应用场景,比如htap的场景也有一些。在交易库里面,有时候要做一点小的分析查询,可能在分析场景里面有一点交易型场景,也能做。从现在的业务现状来看,大家说数据库的时候,场景基本都是分开建,银行tp和ap还是分着的,是完全不同的部门团队在做。
一般场景都是有侧重的,这个场景偏重于分析,那个场景偏重于交易,然后选用不同的产品,我们其实是偏重于分析型场景,也支持一些交易。有些数据库是偏交易型的数据库,也支持一点分析。但企业真的要采购分析平台的时候,没有人去找交易库,同样,如果选型交易库,也不会有人去选一个分析库,我觉得在实际项目中区分得很清楚的。
偶数为什么挑选实时湖仓,我觉得湖和仓融合是必须的,是未来所有人都要做的,并不是锦上添花的一个东西。分析场景将来都会走向实时湖仓平台,现在企业都在想着降本增效,实时湖仓能带来很大的价值。
itpub:关于实时场景,很多在谈在线、离线、近线,怎么理解实时?
常雷:gartner有个关于实时的定义,梳理得蛮清楚的。按照分析的时效可以分为战略决策、战术分析、业务运营和自动化处理,时效和分析频率越来越高。战略决策,比如企业收购、海外扩张,通常要做几个月到半年的分析;战术分析,比如细分市场的定价策略,通常要用几周到一个月的时间来分析;自动化处理,比如信用卡自动审批、股票的量化交易,通常是毫秒级,在一秒钟内完成;而业务运营夹在中间,从1秒钟到几天,跨度很大。
所以在业务运营场景中,就需要对实时有更加明确的要求。gartner认为15分钟内的算是实时和准实时范畴,根据我们的观察和实践,10秒钟以内才能算是强实时,10秒到15分钟的区间可以认为是准实时的。很多企业正在将传统的t 1报表升级为分钟级的准实时报表,在我看来,接下来完全可以做成强实时的交互式分析。
偶数做实时湖仓,是从离线到在线,从准实时到强实时,全部覆盖,我们提出叫做全实时,也是按需实时的理念,全实时通过omega技术架构来支持。
itpub:不同的企业对实时湖仓的需求有哪些共性和差异?
常雷:同一个行业基本上共性是比较强的,对产品的需求基本上都类似。但对创新型的需求,不同规模的企业差别比较大,大型企业的业务场景相对复杂,技术创新能力比较强,像稍微大型的银行在创新方面比中小银行要强很多,新的实时场景往往是他们在率先尝试,然后中小银行才会跟进。
实践:企业如何构建实时湖仓?
itpub:企业是如何构建实时湖仓的?
常雷:根据现状的一些不同,企业会采取不同的方式来构建,大致分为三类。
第一类,以前信息化做得比较弱,可能分析场景基本上没做,或者他觉得以前的太落后了,只做了一个传统的 ods ,新的大数据平台也没上,这是往往采取新建模式。
第二类,以前的it基础栈比较全,可能有湖,也有仓,还有数据集市。基于现有的it建设,向实时湖仓升级换代。比如你的存储是hdfs,我可以利用你的原有存储,使用我们的计算层,加上偶数的一些实时存储,使得架构向实时湖仓转型。
第三类,以前有传统的数仓,但没有hadoop大数据平台,这种情况可以把数仓先升级成云原生存算分离的架构,先把oushudb用起来。其他新应用场景再引入新的组件,慢慢形成实时湖仓平台。
所以基本上是三条路径,新建、从湖转型实时湖仓,或从数仓转型到实时湖仓。
我们遇到新建的比较多一些,新建一个平台,硬件还可以重用,应用场景逐步迁移,并不是新建完之后一下全部迁移。对客户来说,新建相对比较简单,因为新建不会涉及重大历史包袱。如果此前有大量业务在跑,改造相对来说耗时较长,需要几个月或者半年的时间,我们尽量让企业在短期内看到价值,增加他的信心。
itpub:能否分享一些项目建设的方法论?
常雷:结合偶数在数据平台项目建设的长期探索和经验总结,提炼出了偶数湖仓一体建设方法论。这个方法论主要包括规划(planning)、实施(implementation)、运营(operation)三个子过程,三者先后衔接并形成闭环;战略(strategy)是一个或有子过程,一般适用新建湖仓数据平台场景,或者特殊建设背景下行业客户的特别要求。
偶数湖仓一体方法论逻辑视图
偶数湖仓一体建设方法论,既能兼容传统数据仓库的实施方法,又能规避过往数据湖落地过程中的一些弊端;既考虑众多企业已建数据平台多年的现实情况,又吸收近年数据相关技术快速变化演进的前瞻趋势。
itpub:企业在构建实时湖仓的时候,你觉得有哪些需要注意的地方?
常雷:在湖仓一体正式立项之前,我们建议客户从行业实施经验、项目实施周期、平台总体成本三个要素来考虑湖仓一体的项目规划,进行总体设计、分步实施。通俗讲,就是团队要找好,产品要选好,项目要实施好。偶数的方法论还给出了在立项阶段的几点避坑建议,以及项目实施过程中的重要抓手,大家可以关注凯发官网入口首页即将发布的关于湖仓一体建设方法的书。
展望:aigc时代的实时数据技术以及技术创业
itpub:aigc时代,大模型等ai技术对数据技术带来了哪些影响?
常雷:我觉得大模型的兴起对我们是一个重大利好。因为大模型降低了大家使用数据的门槛,可以用自然语言使用数据,而以前使用数据往往需要学习复杂的产品和查询语法。
aigc使得数据栈变得更加简单易用了,比如可以自动生成sql,将来设计模型、数据治理也可以自动,用自然语言。所以大模型对行业影响很大,只不过现在这种垂直场景还没有非常好的落地。
大模型现在属于一个比较前沿的探索阶段,基本上还是做一些比较通用的基础场景,针对一些垂直场景,还有很长的路要走,任重道远。
itpub:很多人就说现在是一个对技术创业者来说比较好的一个时代,作为一个技术创业者,您如何迎接挑战,把握机遇?
常雷:现在对技术创业者确实是最好的时代,你真的想把一个事情做深做透做好,没有技术创新很困难。但是技术创业者也有局限,通常对业务逻辑和需求等方面了解要少一点,也是个挑战。
技术已经发展这么多年,现在突破性的技术没有以前那么多。在突破越来越少的情况下,如果大家都做存量的竞争,这从商业层面其实还是蛮困难的,所以还是要从技术上做一些突破,来打破这样的格局,技术创业还是很重要的。
例如,在三年之前我们讲实时湖仓的时候,大家还在犹豫观望,现在基本上已经形成共识了。我们希望这些企业用好实时湖仓,真正实现业务的降本增效。
itpub:现在市场有那么多类似的产品,怎么看行业的竞争?
常雷:这就和当年的百团、千团大战一样。一个新的技术出来之后,一定会有一批公司来做,这是很正常的,市场竞争一定越来越激烈。但是否能笑到最后,那就看战略、技术、产品,谁做得最好。
其实数据技术的发展是非常快的,现在大概每过10-15 年左右就会有新一代平台出现,很多厂商一不小心可能就落后了,可能就被淘汰了。
所以你永远要把握住自己的创新,永远不要把创新放下,别以为产品比较稳定了,就觉得可以满足需求了,不需要创新了。不做创新就会被淘汰,只不过有的行业可能对创新的要求更高一些,变化更快一些,有的行业创新稍微慢一点,但仍然需要握住机遇和创新。交易库稍微简单一点,它发展慢一点,但做大数据相关的发展变化就尤为明显,真的是日新月异,我经历了过去三代平台,现在已经发展到第四代云原生存算分离了。
创业是不进则退。我们一直在创新演变,刚开始我们做云原生数据仓库,是分析型数据库,现在我们变成实时湖仓,以分析型数据库为核心,形成了一套产品矩阵,这几年我们一直在不断迭代前行。
itpub:现在都在讲融合,数据技术的大融合,像以前的按键手机、mp3、照相机全融合成一个智能手机一样。
常雷:oracle很早就已经讲融合了,oracle对各种数据场景都支持,比如图数据,时序数据等等,所以融合不是个新概念。
现在到处都在提融合,我觉得有些部分融合是可以的。但所有东西都融合在一起一定是有问题的,让一个人干所有的事情,什么事情都可以干,但是干的肯定不是所有事情都是最好的,要有侧重点。
企业的诉求是你解决了什么问题,到底带来多少价值,比如有实时场景的问题要解决。比如湖和仓,为什么要融合到一起?你要说清楚价值,然后再讨论融不融合。客户的视角是解决问题带来价值。技术人的角度,可能是你看我啥都能做,我技术很牛,这个视角是不可取的。
要结合需求来看,别总拿个锤子找钉子,要根据钉子来造锤子。
itpub:对于从业者而言,您能不能给他们一些建议,如何跟上技术迭代的节奏?
常雷:针对从业者,我觉得新的技术要紧跟,大的趋势要紧跟,国内新的趋势是新一代数据库产品、是实时湖仓,千万不要故步自封。现在知识和技术更新迭代的速度很快,一定要注意武装好自己。比如说我们现在推出一些课程,我觉得像这种新技术的培训分享,传统的dba应该去学习,等到以后别人都掌握了,那你就很危险。
本文属于原创文章,如若转载,请注明来源:对话偶数科技常雷:如何开启实时湖仓一体时代?https://pad.zol.com.cn/844/8443139.html