数库科技成立于2009年,是一家数据科技公司,专注于在金融及产业领域提供基于产业逻辑的智能数据产品与系统服务,以成熟的数据方案解决金融机构、政府部门及企业的数字化转型升级问题。目前已经完成B轮融资。
在数字化新工业革命时代,数据已成为核心生产要素。在数库科技创始人兼总裁沈鑫看来,数据质量将直接影响决策引擎性能,因此数据能力成为产业数字化转型的核心能力。在传统投研时代,由于场景单一、数据维度极少,且数据逻辑组装及分析主要由专业人士的人脑来完成,数据孤岛并不是问题。但在如今的数据驱动决策时代,数据驱动决策场景已远超金融投研领域,开始向银行、政务、企业、中小企业等各维度产融决策场景覆盖。在这些决策场景中,数据服务需求发生了质变,数据范围及维度剧增。因此破除数据孤岛,实现数据融合成为实现高质量应用的基础。
目前,数库科技的产品主要应用在银行、产业园区、金融机构、企业集团及政府部门等领域,比如为银行寻找优质企业进行贷款、帮助政府招商引资强链补链、帮助大型企业实现智能化供应链风控及管理等,其决策本质都是不断定位及跟踪动态发展中的优质企业或潜在风险点。目前数库科技在相关领域中已有众多合作客户,营收在2021年翻了近五倍。
以银行场景举例,银行的对公业务需要锁定客户,然后拜访、转化,但是如何锁定客户呢?数库科技会帮银行划定一个区域,用数字化的形式将里面的产业、不同产业节点上有什么企业,一一呈现;而这些所呈现的企业要满足不同银行的需求,比如是否具备足够高的科技含量、这个产业是否有政策扶持等,帮助银行节省大量人力时间和成本。
企业供图
如何找到这些产业和企业?靠的是数库科技在以往对于不同公司公开产品信息的提取、清洗、标准化、质检,通过数据智能搭建形成完整的产业画像和企业画像,实现对产业及企业周边的实时资讯动态解析及跟踪,进而对目标企业的快速定位及评估。这些能力结合后,即可形成从产业到企业的完整画像。
沈鑫告诉36氪,之所以能够达成以上成就,源于数库科技的三大核心能力:SAM全产业链数据网络、结构化数据量产能力、NLP自然语言解析能力。
先看SAM全产业链数据网络。SAM全称Segment Analysis Mapping,中文释义为“数库产业链数据体系”。从二级市场到一级市场,数库科技都实现了标准化的数据能力。比如,一个企业是做石油的,但是具体是做冶炼、贸易、运输,其实是有很大的差别。而数库科技可以通过公开信息,判断公司的具体业务,安放在不同的产业节点上。
其将中国大陆,香港及美国市场全部上市公司业务分布及产品集披露进行标准化,确保上市公司在业务及产品纬度实现高度可比。其中包括A股、港股、美股、新三板、发债企业等累计3.5万+家上市公司;全量工商注册非上市公司累计6000万+家,实现了全领域的企业覆盖。SAM产业链拥有超过2万+个标准化产品节点,500000+个上下游产业关系。
在这张产业链网络上,可以找出任意两家企业的关系,而不用担心存在“数据孤岛”的问题。沈鑫向36氪举例,别的投研工具,产业链是单线的,比如芯片产业链、新能源汽车产业链,但其实实体经济运行的规律是万物关联的、是网络状的,是有蝴蝶效应和传导风险的,芯片紧缺,一定会影响新能源汽车产业链,因此需要SAM来打破单链数据孤岛。
企业供图
沈鑫告诉36氪,SAM产业链本身是一个数据逻辑框架,是骨架,但要真正到了客户那边,还需要皮、肉、毛发,才能真正跑起来。这就涉及到其他两个能力:结构化数据量产能力和NLP自然语言解析能力,二者相辅相成,密不可分。
要想让全产业链网络能够真正发挥作用,就要保持持续不断地更新能力。在网络上任何一个相关信息,都可以被数库科技自动放进产业链体系中,这靠的就是自然语言解析的能力。而自然语言解析能力又为何能比其他厂商精准?这与数据量产能力有关。
在现在,不同厂商的NLP算法相差无几,而影响解析结果的,是词库。而数库科技量产出来的结构化数据本身就是一个海量的词库。
IT时代的数据处理工具,虽然能提供统一标准、统一口径的数据,但归根到底却没有解决数据快速量产问题。沈鑫表示,虽然数库科技数据团队目前还不到一百人,但是其数据产出的维度和数量并不比七八百人的传统数据服务商少。原因是,如果将产出数据的过程进行具象化,数库科技和其他传统数据服务商虽同是工厂,但数库科技是机械手臂自动化作业,其他的工厂还在用流水线工人。
因此,沈鑫将数库科技形容为一个运转十多年的自动化数据工厂。但是其他厂商为什么无法实现“机械手臂自动化作业”?其中有一个难以跨越的点——数据标准化。沈鑫向36氪举例,仅拿A股3000多家上市公司为例,营销费用就有近9000种非标科目名称及叫法,数库科技通过多年积累的容错集将其自动化处理为20种左右的标准化科目,确保公司间高度可比,确保数据标准统一,为下一步深度建模奠定扎实基础。如果这件事要靠人来做,不仅耗时耗力,还对人的财务背景有很高的要求。但是数库科技通过机器来解决这件事,其数据工厂经过十多年的积累和四个版本的迭代,可以快速、标准地完成。
数据标签不断沉淀,训练NLP模型,而自动化识别标签又进一步提升了数据量产的维度和数量,形成双向反哺。
沈鑫认为,很多这个行业的创业者,会将AI能力误认为是最重要的能力,但其实核心是数据。
大数据与互联网金融(大数据与互联网金融风险管理体系的融合策略)
【本文标题和网址,转载请注明来源】大数据与互联网金融(大数据与互联网金融风险管理体系的融合策略) http://www.gdmzwhlytsq.com/hyxw/362014.html