发现新冠病毒的传播路径?用图数据库!
识别金融欺诈,实现风控处理?用图数据库!
个性化商品推荐,给买家更好的购物体验?用图数据库!
“图”,为什么这么热?
图数据库,其实并不是什么新鲜事物。随着大数据分析、人工智能等技术的快速普及,它已经开始“飞入寻常百姓家”,在社交推荐、风控领域、健康和医疗,乃至区块链、公共安全等领域有了诸多成功的落地应用。
近两三年,图数据库市场一直处于持续升温状态。在先行一步的国外市场,以Amazon Neptune、Microsoft Cosmos等为代表的传统大厂,以及以Neo4j、TigerGraph等为代表的新兴势力,还有诸如JanusGraph、Dgraph、Redis Graph等开源产品,交相辉映。在国内,图数据库市场也是一派热闹景象,大厂有百度HugeGraph、华为GES、腾讯TGDB、阿里GDB、蚂蚁GeaBase、字节跳动ByteGraph等,还有星环科技StellarDB、创邻科技GalaxyBase、欧若数网NebulaGraph等也是各具特色,整个市场竞争日趋激烈。
图数据库市场的兴盛,从宏观的趋势和政策层面看,与全球数字化转型步伐的加快、大数据应用蔚然成风,以及中国已将大数据作为一项核心战略密切相关。尤其是在数据作为一种新型生产要素,写入2020年4月10日发布的《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》中,加快培育和完善数据要素市场,实现数据驱动,成了当前最紧迫的任务。从微观的企业应用层面看,越来越多的企业认识到,数据是企业的战略资产,数据的分析、数据价值的挖掘成了决定企业未来成败的关键。
当前,图数据库技术已趋于成熟,并且逐步进入了场景化落地阶段。图数据库主要用于图数据的存储和联机事务查询,具备实时性。虽然图数据库可以存储海量数据,但并不适合直接用来进行海量数据的分析计算。图数据库无法解决图计算领域的所有问题,它是知识图谱的基石。而知识图谱的构建和应用,还要结合不同的图计算技术。目前,知识图谱已在搜索推荐、知识问答、投研分析等领域得到了广泛使用。知识图谱基于自然语言处理模型,将文本数据进行提炼抽取后,存储为图数据,如此一来,更易于做实体、关联和图信息的查询与分析,以及知识的统一管理。
虽然人们对于图数据库、知识图谱等概念和技术不再陌生,但先进技术的大规模应用总有一个过程。从整体来看,图数据技术在行业应用中落地还有一定难度,究其原因:第一,行业用户对图的概念还不够熟悉,在技术选型时缺乏动力和“主心骨”;第二,复杂的图应用灵活度较高,需要参与人员具有较丰富的算法和数据建模经验,而这正是很多用户所欠缺的;第三,在面对不同的业务场景时,用户可能要做大量的业务场景梳理、数据清洗、标注、NLP模型训练工作,有时还要做很多定制化的工作,复杂度和成本相对较高,从而造成了应用的障碍。
俗话说,工欲善其事,必先利其器。面对应用的挑战,行业用户更迫切需要一个能力全面的图数据解决方案。首先,它必须具有强大的图查询能力,支持快速返回点边、路径和子图查询;其次要具有强大的图分析能力,支持运行传统图算法;再次,还要具备可视化能力,支持展示图查询结果;最后,生态开放的能力也是不可或缺的,要支持多数据源接入和导出。
目前,在图数据库市场上,产品种类繁多,各厂商也是八仙过海,各显神通。行业用户在选择时,一定要结合自己的业务需求,选择一个功能强大、简单易用且全面的解决方案。
从金融行业看“图”如何落地?
金融行业是图数据库应用的先锋行业,不仅从大型国有银行到股份制银行都普遍使用了企业级分布式图数据库和知识图谱平台,而且从2021年开始,一些中小型的金融机构也在积极探索和尝试图应用的商业化路径。究其原因,一方面,随着图数据技术越来越成熟,图应用的投入成本逐步走低;另一方面,从客户的业务需求来看,处理复杂关联关系的需求日趋旺盛,不断创新的图数据技术、分析手段,可以给客户带来明显的业务价值和收益,同时还可以有效解决最为迫切的监管与风控需求。
从应用需求的变化和发展来看,国内金融行业知识图谱最早是从监管和大银行发展起来的风险图谱,如反洗钱、反欺诈图谱应用。这一类图最初是同构图,整个图谱Schema可以简化抽象成只包含一类实体和一类关系,处理起来相对简单。近些年来,随着技术进步和应用场景的不断拓展,包含多种实体或关系的异构图数据源渐成主流,包括工商数据、司法数据、供应链数据、产业链数据、价值链数据、担保链数据,甚至是社交网络数据等。基于此,未来两三年,知识图谱的主战场将集中在异构知识图谱上。
从成本上看,知识图谱的应用除包括图数据源采购的费用以外,图数据库、知识图谱PaaS和图挖掘应用是主要的成本构成。也正因为如此,以前,只有大型金融机构才有资金和技术实力投入预研性质的开发或者方案选型。未来,随着能够提供全栈知识图谱解决方案的厂商逐快速崛起,图应用的商业化落地成本将随之有效降低,图应用有可能在金融全行业中落地开花。
图数据库与传统关系型数据库最大的不同之处在于关系发现和关系查询。传统关系型数据库需要多表关联,以及跨表查询才能实现关系的计算。在复杂的图查询场景中,传统关系型数据库可能会出现严重的性能瓶颈,甚至出现算不出来的现象。而分布式图数据库可以支持超大规模万亿点边计算存储场景,基于原生图存储技术,充分利用图拓扑结构和数据索引,实现图上模式挖掘和图范式查找,效率、准确性等都得到大幅度提升。
千亿级大图的查询是一个业界公认的难点,而从另一个角度说,也是最好的突破口。当初,星环科技坚定地进入图数据库领域,也是希望发挥自身的技术优势,在图数据库领域闯出属于自己的一片天地。星环科技从来不打无准备之仗,其底气在于,在异构知识图谱领域已经拥有大量技术储备,并且面向未来3~5年的技术发展,进行了充分准备。事实胜于雄辩,星环科技自研的分布式图数据库StellarDB不仅能够支持万亿边规模的图数据存储,而且具有查询速度快、分析能力强、稳定性高等特点,可以支持丰富的图分析算法,性能表现十分优异。
随着StellarDB快速落地上线,客户不仅可以稳定地为上层业务提供查询业务,同时还可降低集群节点数量,以及数据导入成本。StellarDB具备完整的企业级功能,如用户认证、权限管理、数据热备份、资源控制等,具备高性能的图查询能力,包含近20种常见图算法。StellarDB与大数据系统紧密融合,可配合Hadoop、Spark、Kafka等大数据系统构建复杂应用。StellarDB支持SQL操作和图数据查询,可处理结构化数据和图数据。
星环科技以领先的图数据技术,为用户打通了从底层的关系型数据库、大数据平台,到中层的图数据库,再到上层知识图谱应用的全栈产品通路,实现了从最底层独立的“点”分析到关系的“线”分析,再到事件的“面”分析,最终形成行业全面的“体”分析的全栈智能分析赋能。星环科技从点到面再到体的一站式分析工具,可以为用户节省大量开发成本和基础算力,并显著提升分析性能。
如今,星环科技StellarDB已经在金融等众多行业得到了广泛部署。比如,星环科技帮助监管和头部金融机构打造了多个监管、集团派系知识图谱,以及对公知识图谱、零售知识图谱等。
国产“图”,底气何来?
最近一两年,国内的用户越来越倾向于选择国内厂商自主研发的企业级分布式图数据库和知识图谱平台。究其原因,可以归纳为以下两个方面。
首先,中国的图数据库厂商在技术上并不逊于国外厂商,在某些技术细分领域甚至还超过了国外同类厂商。都说中国是天生的“大数据之国”,客户众多、数据量庞大、业务场景繁复,尤其是在金融、社交等领域,时常会遇到超大规模数据计算的场景,图计算的网络规模不是普通图数据库所能承载和解决的。中国的图数据库厂商从一开始就要面对诸如超大规模、超高复杂性等的挑战,其解决方案百炼成钢,能够更好地满足中国客户的特殊需求。以星环科技为例,它立足自主研发,可以支持万亿点边图计算场景,也因此赢得了众多中国行业客户的青睐。
星环科技的差异化优势突出体现在,能够提供端到端的图数据解决方案,包括基础的大数据平台,以及可以高效运行的图数据库、知识图谱等产品。星环科技是同时具备图数据库(StellarDB)、知识图谱平台(Sophon KG)、图挖掘应用开发能力的企业,其全栈能力可以助力企业用户快速构建知识图谱应用,有效降低图应用的门槛。
其次,出于行业监管与合规的要求,自主可控的国产化产品可以避免用户在技术应用上被“卡脖子”,拥有更多的选择,确保安全、可靠、可用。
“图”的未来
未来,图数据库应用将走向何方?
从技术上看,多模态异构图将是市场热点,而知识图谱与自然语言处理的深度融合发展则是必然趋势。另外,时序图、空间图应用,图神经网络也是未来的主要方向。
从应用的角度看,未来图应用更需要完整的方***和解决方案。其真正价值将体现在,利用图的方***围绕诸如金融风控、金融投研等领域的知识图谱,构建整体解决方案。从应用趋势来看,偏SaaS级的端到端解决方案能够有效消除用户的应用痛点。对于图数据库厂商来说,拥有基于业务场景的know-how,也就是行业解决方案,才是在知识图谱领域实现破局的法宝。
可以预见,用户会越来越倾向于选择端到端的整体解决方案,而无需分别购买图数据库、图平台和建模服务,更无需担心底层图数据库、中层图建模平台和上层图挖掘应用。对于图应用来说,大型机构会有非常多的定制化需要,而中小型机构则偏好标准化的解决方案。星环科技就是这样一家针对知识挖掘应用,拥有从底层到顶层完整解决方案的厂商,能够赋予用户构建完整的图应用生态的能力。