数据库是“卡脖子”的技术,我们必须自主可控。以开源为开始,通过引进、消化、吸收,使我们快速和真正掌握“卡脖子”的核心技术,实现完全自主研发的终极目标。11月30日下午,由中国商业联合会互联网应用工作委员会指导,亿欧主办的2018亿欧创新者年会—企业智能服务创新者论坛在北京顺利举办。本次峰会响应亿欧2018创新者年会“智能产业 美好生活”主题,邀请行业成熟企业和创新创业企业以及一线投资人在市场转折点时期,与行业人士共同交流未来企业服务发展方向。
全场大会交流内容突出“智能”两字,现场国双科技、阿里钉钉、金蝶集团、安华金和、热璞科技、柏睿数据、偶数科技、易点租、斗米、汇联易、元璟资本、红点中国、梧桐树资本、薪太软、泰迪熊移动等国内一线企业家、创业者、投资人发表了最新行业观点和趋势看法。
在“新技术机会:创新数据库如何助力产业发展?”圆桌论坛上,安华金和、柏睿数据、热璞科技、偶数科技企业出席一起讨论。
以下是圆桌讨论内容,速记经亿欧整理(有删改),供行业人士阅读了解。
黄志磊:大家好,我是亿欧华东内容负责人,非常感谢大家来到亿欧峰会来看整个企服行业发展方向,也特别荣幸邀请到四位创业者来探讨中国国产数据库未来的发展,首先请四位嘉宾做一个简短的自我介绍。
刘晓韬:我现在不做数据库,安华金和是做数据安全,给数据库加防护,保护大家的数据资产不外露、不外泄、不篡改。我从2011年从事国产数据库开发,从最早的目录服务器到国产的通用数据库,到内存数据库,再到分析型数据库,一直伴随国产数据库的发展。今天非常有幸来到这个论坛讨论国产数据库软件如何为我们的企业进行赋能,希望一会儿在沟通的过程中听到数据库的创业者们更精彩的分享。
如
韩辉辉:我主要是做数据库,柏睿数据的定位是做实时分析的数据库。现在提到大数据、AI以及大数据时,关注的焦点应该放在当下时代的背景,当下业务的需求,讨论希望今天能和各位创业者共同探讨这个问题。
李威震:大家好,我是热璞科技的李威震,非常感谢亿欧搭建这样一个同业交流的平台。我们是一家专注于分布式事务数据库产品的厂商。总部位于上海,在北京、深圳、南京设有办事处。公司正式成立于2013年,核心技术团队来自阿里、甲骨文、达梦等公司,早在2004年就开始投入开源分布式中间件的设计和开发,经过近10年的技术积累和研发投入,我们掌握了分布式事务数据库的关键技术、算法模型和技术架构。凭借在这一领域的核心技术优势,自主研发的分布式事务数据库和私有云数据等两款产品快速抢占市场制高点,已经在金融行业、运营商、物流等行业的关键业务场景广泛应用。在共建行业生态方面,也得到相关主管机构、合作伙伴、科研院所的高度认可,参与中国人民银行科技司、中国信通院等主导的金融级分布式数据库应用指导意见起草。
常雷:大家好我是偶数科技的常雷。偶数是一个创业公司,现在主要做两件事情,第一件是做新一代云数据库,第二个是基于云数据库搭建自动化的机器学习平台。众所周知,Apache是世界上最大的开源组织。我们发起并主导的Apache HAWQ项目是中国第一个在Apache开源的数据库顶级项目。很高兴今天能跟大家在一起交流数据库相关的一些工作,谢谢大家。
黄志磊:谢谢四位嘉宾简短的自我介绍。我们知道在过去几年当中去IOE一直是我们云计算里面很重要的现象,在这个里面数据库是一个关键替代。国产数据库一直以来有两种声音,一种是用开源技术做自己的产品,另一种则是自研技术做产品。在场有支持开源的也有支持闭源的,从各位嘉宾角度来看,各位怎么看待开源技术在数据库产品创新中的比重或者是选择。
刘晓韬:关于开源和闭源的话题,从二零零几年的时候我们做国产数据库时候就是讨论的重点,我最早参加核高基国产数据库的专项课题研究时,有达梦、人大金仓、航天跟南大通用合作的南通数据库三家厂商入选。
那时我感觉大多数国内的数据库起源都跟国际开源有密切关系的,DB2跟MySQL、pstgreSQL两种数据库类型有比较密切地联系,达梦可能在自主的成份里面会大一些。
但是通过这么多年的发展,我们看到这两条技术路线在整个市场的占有率都不错,达梦在国家的港口占有率高,但是由开源发展起来的也不错,例如人大金仓是从pstgreSQL发展起来的,南大通用是从MySQL发展起来的。
开源技术本身会对整个业态产业产生极大的触动
我感觉,因为数据库的难度不亚于操作系统,对这样的一个核心技术的研发实际上没有几十年的理论跟工程的积累,很难在偶然间做出成绩。
我们国家包括在座很多创业者都会得到开源的很大帮助,包括安华金和最近的MySQL技术的诞生也是因为开源的兴起而做到的。在这种情况下,无论是中小端甚至商业化的软件背后都会有开源的身影在后面。
比如说安华金和做的跟数据安全相关的软件,在单机的处理容量上现在要处理千亿条日志,这个千亿条日志也集成像MySQL开创式的技术和Sybase 全文检索的开创式软件,给IT建设带来极大地效能,给我们创业者提供了很好的技术基础。
开源会造成产业的竞争
当然,。因为像阿里、腾讯等云平台厂商,他们也推出来一些数据处理软件,也有大量的开源技术在背后支撑,包括最近银行业也推出自己的数据库,能源行业也在说有自己的数据库,但是背后百分之八九十都会与开源有关。
开源促进了创业者对核心技术的快速掌握,同时也造成了产业链比较挤压,但是整体上来讲,这对我们从国家的自主安全是一个好事情,开源是封锁不住的,它依然是给我们提供数据处理的重要来源。
所以,
黄志磊:据我所知,柏睿数据不是特别推崇开源是吧?
韩辉辉:从公司的层面来看,柏睿数据的产品是自主研发的,但是我们也是不否认开源这种做法。
实际上刚才是从企业的角度来看,我们现在从项目分析问题。从项目的层面上,我们更多的工程师要聚集在开源社区,工程师的技能积累是从开源的数据库去承载的,这是一种技能的迭代。
从项目上的要求来说,不仅项目需要持续,公司的文化、技术的沉淀也是需要去传承的。从项目的程度上看,柏睿更多的是看项目对开源、对技术要求的程度,比如说我们会认为开源的技术是可以驾驭的,从成本上考虑,很多工作会选择使用开源。
毕竟数据库是在底层,并不能像在上层使用端一样可以修改和把握,它会使用商业的层次,基于企业角度发生变化。
有一些在开源产品可以在低的成本控制,但对数据库来说,还是有一些技术难点,柏睿数据借助大数据这一个平台,基于对现有数据的需求,要去做一款自主研发的产品,我们的产品定位不仅是能提供性能上的需求,满足企业的需求,更多是从企业数据安全的保障还有产品的驾驭能力方面为企业主提供服务。
从企业发展战略层面来看,闭源其实也是一种不错的选择,但是开源和闭源两者并不存在绝对的优缺。
因此我们认为,
对于开源的选择
黄志磊:热璞科技怎么看?。
没有最好的技术,只有最适合的技术。数据库行业的技术门槛很高,需要长期技术积累和研发投入。我们还是要客观、清醒地认识到,我们在这一领域的技术成熟度及市场发展与Oracle等国外巨头还是有一定的差距。
李威震:谈到开源和自主研发这个问题,借用当下最流行的一句话,
对于现阶段的国产数据库企业,开源社区的技术成熟和广泛共识,助推我们国产数据库的技术成熟,加速缩短了我们与国外一流厂商的差距,实现换道超越的发展目标。结合目前的国际环境,中美贸易战以及前段时间的“中兴事件”,完全实现自主研发的形势刻不容缓。
数据库是“卡脖子”的技术,我们必须自主可控。以开源为开始,通过引进、消化、吸收,使我们快速和真正掌握“卡脖子”的核心技术,实现完全自主研发的终极目标。
为实现这一目标,需要汇集各方力量。今天在座的不光是数据库从业者,也有政府领导、产业伙伴、机构投资等嘉宾,为国产数据库行业提供从技术、资金、政策等全方位、立体化的支持,具备这些配套的商业环境,我们中国也一定能够孵化出世界级的数据库企业。
黄志磊:请偶数科技常总也对这个话题分享一下您的看法。
常雷:我们做了很多年开源,站在偶数科技的角度来看,开源对整个世界的发展起到了非常大的作用。
举个简单的例子,在上个世纪,伯克利做了一个开源的数据库Postgres,它对整个世界的影响非常大,包括很多并行分析型数据库和云数据库厂商很多都是基于Postgres开源项目发展起来的数据库。
开源可以说是未来的一个必然趋势
,很多企业在之前是非常反对开源,这里面很好的例子就是微软。微软在多年之前一直是站在反对开源的第一线,但是最近可以看到它拥抱开源的姿态非常明显,收购了GitHub,IBM也收购了红帽(RedHat),这是对开源领域很大的认可。
站在中国的角度来看,开源是非常好的。我从外企出来,在EMC工作过八年,当时在EMC是做数据库的,EMC在数据仓库领域做的非常不错,比如在运营商领域,包括很多银行都是在使用EMC的数据仓库。站在外企的角度来看中国的数据库是落后的,这是因为数据库需要很多年的开发,不仅有技术的挑战也有工程的挑战。我经常说一句话是计算机领域三个东西最难做。一个是CPU芯片,一个是操作系统,一个是数据库。要重头开发一个数据库没有五到十年是做不成的。如果现在没有开源,国内的数据库就不可能有这么多的数据库出现,从这个角度看开源起到非常大的促进作用。
另外一个角度开源也有它的弊端,很多做创新的公司可能会受到一定的伤害,例如初创企业做了很多创新的工作,做了很多开源,其他机构直接拿了开源产品就用上了,或者以一种云服务的形式再次转卖而不像初创者付费,这样会给创新带来一些伤害。
黄志磊:我们下一个话题想要去挑战一下四位的创业者。其实在座四位在数据库行业乃至技术研发等行业从事了多年,而在最近几年中,以人工智能为代表的新技术催生了很多新的服务商,对我们的市场也带来一些影响,我们的用户有了新的需求和变化。我想知道在这种挑战下面你们怎么看待利用新技术而崛起的新服务商?第二是你们怎么抓住这种机会,运用新的技术,比如说深度学习、机器学习、文本算法等,这类技术在我们的数据库产品上是不是也有体现?
刘晓韬:这是一个非常好的话题,因为所有的技术软件、科技的发展一定是由应用场景的需求变化带来的。
曾经在数据库发展到2000年的时候,有一个困惑说Oracle已经发展到这个程度了还要有其他厂商的必要性吗?有一个厂商提出一个理念就是没有数据库能解决所有的问题,在那个时候它陆续跟一些大学合作推出了类似于Server数据库,类似于内存分布式数据库,类似于内存分析数据库的东西。
这些年整个数据库发展都跟曾经的那段时间会有一个非常大的关联。包括现在基于互联网的搜索技术所产生的技术,主要是处于大规模的分布式的简单搜索运算,这种类型也在促进一种新的数据处理、类型,一种新技术的演进。我觉得AI这种计算,就是数据加上算力加算法构成的,这是一个必然的事情,在整个未来IT建设之后,如果在数据、算力、算法再加上通讯可能会构成我们一个重要的基础。
海量数据的存储,海量数据的运算会怎么办,而且会带来一些新的挑战。
但是这样的基础带来很大的问题是就刚才说的深度挖掘它的分类、图谱之间的关系如何处理,这样在传统的数据模型处理的时候都有它的一些弊端。现有的数据库要么是一种分析性的数据库,要么是事务处理,要么是简单检索类,但是真正在聚类、分类图谱运算上都有它的短板。
现在国内外有专门的图谱类的数据库正在做这方面的工作,我们国家在公安跟国安领域对此的需求量非常大,它其中就是讲我们人跟人的关联关系。在公安领域有一种应用是做什么事情呢?我短期内能够迅速查找到你跟谁最近的,关系更为紧密。是对交通出行、电话、微信等迅速运算,在几秒内完成。这是传统的通信技术很难做到的。
AI一定会带来新的存储运算条件,也会带来新的商业机会。在这块领域里面很可能开源产品都没有,它可能更需要深度自我的创造力。
所以所以我认为AI会给数据库界的创新者带来新的机会。
没有任何一款产品是可以解决所有的问题。
韩辉辉:
刚才提到一个数据库,我们现在有了新的场景、新的需求,对自己、对实际的应用场景提出了更高的需求,所以才会有了一些深的技术的要求。这个技术的要求并不是说从功能的角度上可以实现,是实现之后是否可以让我们的体验得到满足。
刚才提到,不管是从公安系统还是从别的行业,比如说交通,它对知识图谱、对图片的识别,以及对这些识别出来以后进行深度的分析,这些都是对我们很有必要的场景。
这些场景如何利用数据库来做?如何在短时间去响应?个人觉得,这些就是数据库与深度挖掘怎么结合的一个问题。
AI本来就是一个开源,里面没有的一些需求,现有的一些产品足以支撑,而我们以前在开源里面更多是从功能的程度看,我们面对这样的一些要求,从产品的层面去结合,这个也就是数据库与AI结合的创新点,我比较赞同这块。
李威震:人工智能和深度学习,是近两年非常热门的话题。所有的技术创新,都是应该服务具体应用,有适用的业务场景。目前人工智能已经在很多行业的业务场景开始落地应用,例如金融行业的智能投顾、智能风控等。
传统的集中式技术架构,已经很难支持越来复杂的数字化业务场景。分布式架构、微服务等创新技术架构与人工智能技术的融合,能够很好地支撑企业的数字化转型。
中国经过20年的高速发展,移动互联、大数据、云计算、人工智能等技术与各种业务场景深入融合,为人们的生活和工作带来颠覆性变革,引领了企业服务的数字化转型。数字化业务场景层出不穷,带来海量数据、海量吞吐、海量并发等业务场景。
我们热璞科技自主研发的关系型分布式事务数据库HotDB Server和私有云数据库 HotDB Cloud,通过人工智能技术,实现了智能的数据分片、智能数据拓扑、智能数据流控等功能。
常雷:谈到新技术对数据库产品的一个影响,我想先举其他几个相关的例子。
比如说计算机的发展,早期是大型机,到小型机,再到PC机、手机,计算功能需求基本是类似的,但是技术的迭代使得产品不停地演进。还有其他很多例子,比如存储的变化,早期的纸带,后来的磁盘,现在的SSD等等,这些技术的创新带来了产品的更新迭代。
数据库也是一样,中国的数据库现在看起来还是很大一部分市场被Oracle占据,但是Oracle基本上是一些老的数据库技术。随着各方面新的技术发展和新需求的变化,以及硬件的变化,例如GPU、SSD(固态硬盘)、FPGA等各种各样新的硬件的出现。当然在软件方面也出现一些新的技术,比如说传统的基于共享存储的架构是不能支持大规模海量数据的。在需求方面,大数据、物联网、人工智能等等需求层出不穷。当环境变了,传统的数据库也就很难满足新环境的变化和新需求的变化,自然会被新一代的数据库取代。
所以说,现在的创新型公司需要站在一个新的角度,打造新的数据库,而不是老盯着传统的数据库技术。偶数科技做的就是一个新一代的云数据库,这是行业的发展趋势。
黄志磊:非常感谢各位嘉宾的分享,本场圆桌的话题到此结束,欢迎在座的客户以及对数据库行业感兴趣的嘉宾的聆听。