这家公司的名称,取自于“庖丁解牛”这一成语。据悉,庖丁科技创立的初衷也是如此“希望 AI 技术能够像庖丁一样,干净利落的把金融文档结构化”。
相较于别的行业,金融行业可以可以称为“文档密集型”产业,所有的金融活动,比如 IPO,上市公司年报等等,这些文档都是以公开 PDF 文本的形式公开发布的。这就从另一方面代表着,能够适用于 AI 训练的数据量足够大;同时金融行业作为一个“离钱最近”的行业,整个行业的付费能力极强。
那么,这家勇于探索商业模式的公司,要如何让计算机读懂这些金融文本呢?钛媒体近日和庖丁科技创始团队及首席科学家罗平聊了聊技术如何改变金融业的话题。
首先要弄清楚“读懂”这一层含义:这既包括识别文本中的每个字词,也包括理解由这些字词组成句子的含义,更重要的是能理解表格里每一个数据所对应的文本语句。这需要利用监督学习和深度学习这一套技术,结合大量的标注数据去完成一套算法的训练。
除了自然语言的理解外,还有表格。一般的表格是结构化的,但是很多财报里的表格并没有边框,计算机就无法读懂。罗平和庖丁科技的团队通过一个黑科技技术能自动给没有边框的表格“加上边框”,从而将非结构化的数据结构化。对自然语言、表格进行结构化处理,让计算机能够读懂其中的逻辑,这就是庖丁科技的核心技术。
以目前庖丁科技所服务的金融行业为例,这一套算法能帮助金融从业者进行文本中的数据复核用户只需上传需要复核的金融文档,经过自动解析和比对,机器会自动标注出数据不一致的地方。庖丁科技在 1000 个已公开的债券募集说明书上来测试和人工确认。测试结果是:其中 68.92% 的文档存在数据不一致的错误。一份 500 页的招股说明书,一位投行分析师需要至少 2 天的时间进行复核。
当计算机能够“读懂”这些文本,能对这个文本做多元化的分析复核之后,那么理论上而言,计算机也能写出这一类文本,用庖丁科技首席科学家、联合创始人,中科院计算所副研究员、微信人工智能科学顾问罗平的话说,懂和编写其实就是一个逆过程。
“为什么叫逆过程呢?”罗平解释道,“对文本中的自然语言进行语义提取,结构化是让计算机读懂文本的整一个完整的过程。那再对既有的数据,运用同样的语言进行描述,那么就实现了文本的撰写。”
庖丁科技的这套技术能对文本做多元化的分析,同时也能逆向撰写类似的文本,这对于金融从业者而言,是极大的帮助。“虽然这套算法能够撰写类似的报告,但这并不代表它就能替代金融从业者,”罗平表示,“比如,在一些报告中,可能公司出现了很大的财务变化,这部分是可以描述出来的,但具体是什么造成的呢?这需要企业自己去申报,机器是不了解这一个事实的。类似的情况可能还有,这些需要金融从业者去分析和调研。我们的产品目的是成为金融从业者的工具,而非取代他们的工作。”
除了能对文本中的数据来进行分析和复核之外,庖丁科技的产品还能帮助相关机构进行行业监管。同时,在大量用户使用这个产品一定时间之后,很多数据就能沉淀下来。有了这些数据,这个产品对于具体财务指标的描述会变得更精准,对于撰写金融报告有很大的帮助。此外,结合相应的金融模型,它还能帮助从业者对企业进行估值,投资风险分析等等。
目前庖丁科技的产品对金融从业者是免费开放的,无论是哪个投行的从业者都能使用这个工具。“从去年 5 月上线以来,我们服务了很多用户。我们这样做是为了教育市场,提高自身在业内的知名度,”罗平表示,“半年之后,果然就有券商方面的开发者直接 email 联系我们,表示想要将我们的产品在企业内部进行私有化部署。对于金融行业公司而言,在报告发布之前,都属于商业机密的存在,因此私有化,将数据本地化储存是必要的。当然,发布之后,这些数据能继续用于我们产品的调优。”
对金融文本做多元化的分析,提取数据进行分析和复核,是庖丁科技拥有的核心技术。但罗平表示,这并不是“竞争中的壁垒”。对于 AI 方面的顶级科学家而言,技术不是壁垒,在罗平坦言,“同类的公司也可能花上一定的时间,研究出类似的模型出来。但这并不决定一家公司的竞争力强弱。”
换而言之,文本分析并不是哪一家公司的独门武器,尤其是对于拥有顶尖 AI 技术人才的大公司而言。
而庖丁科技在同行业的项目中“最先实现了产品化并同时投入使用”,这就意味着他们获得了更多时间去积累相关的数据。快速地将这项技术产品化,投入到实际使用中,同时积累大量的数据这才是罗平所说的庖丁科技的核心竞争力。
有了这一些数据和调优的经验,这一项技术还能被“复制”应用到其他对于文本处理有需求的行业中,比如法律和医疗领域,而这正是未来庖丁科技有可能进入的领域。
在庖丁科技的团队中,真正负责 AI 算法方面研究的人反而没有占到很大比例,数据和产品方面的研发人员要占到 70% 左右。这一方面既显示了 AI 算法开发人才的稀缺,另一方面也显示了庖丁科技对于数据方面的重视。
庖丁科技将 AI 技术应用到金融领域,可以可以称为 AI 落地的一个典型案例。未来 AI+ 的行业会慢慢的多,市场潜力巨大。以庖丁科技所在的金融行业为例:据悉,中国在 2016 年的时候传统的金融机构在 IT 方面的投入差不多一年 1000 亿左右,而且都是投向基础 IT,比如银行电脑的升级换代等等,所谓智能化的投入不到 1%,也就是 10 亿左右。
现在保守估计,到了 2020 年,智能化的升级应该占到总投入的 20% 以上。对于庖丁科技而言,这既是机遇,也是挑战目前据说有几家国际巨头都要进入中国金融领域分一杯羹,但罗平认为,这对巨头来讲挑战比较大,因为中文是很复杂的一种语言。相对来说,其实中国的 AI 去做英文的内容相对来说更简单。