您的位置  网络技术

来自微软亚洲,出走海豚浏览器,核心团队二次创业阿博茨科技

在金融行业,只有15%的知识是整理好的,85%的知识隐藏在公告、研报、图片、邮件中。“金融民工”在日常工作中需要花费大量时间找数据、抠数据、填数据和画图表,做这些基础性的重复工作,不但耗时,而且出错率高,还将导致企业的人力成本上升。

现实中,大部分企业还停留在将数据数字化的初始阶段,缺少挖掘数据、可供精细化运营和决策的工具,加上互联网企业的竞争与监管层的压力,让企业处于“内忧外患”的窘境。

得益于云计算、大数据、物联网、人工智能等信息技术的快速发展,数据处理技术近年来在基础理论、算法模型、创新应用、软件支持等方面不断取得突破。亿欧金融专访北京阿博茨科技有限公司联合创始人兼首席产品官余宙,作为金融业的“变革者”,阿博茨是如何利用技术解决金融行业的痛点呢?

Al赋能,改进金融数据处理流程

阿博茨科技,英文名称为“Al、Big Data、Cloud”(ABC),也就是人工智能、大数据和云服务,是一家Al赋能金融业的科技公司。致力于使用AI技术改进金融数据的产生、提取、分析、沉淀以及呈现,基于自然语言处理、机器视觉技术和知识图谱三项核心技术, 目前已拥有覆盖数据生产和流转、数据呈现和分析与决策支持全业务链条的AI产品矩阵。

余宙告诉亿欧金融,区别于替代别人实施决策的“雇佣兵”模式,阿博茨更像是“军火商”模式,为企业和专业人员提供可以适应各种环境的“武器”,起到辅助决策的作用。

那么,阿博茨如何通过自身的金融大脑,利用Al进行数据的处理,做好一个“军火商”呢?

AI的作用,在整个数据处理过程中,主要体现在以下三分层次:

第一层是认知引擎层。从无到有,无论是人还是机器,都需要一个学习过程。

对于一些分析师,需要在长篇幅的研究报告里寻找特定数据,仅翻看理解专业内容这一过程,就需要耗费大量的时间,还不包括分析师因为疲劳而造成的低效和错误。

那么对于机器的话,是如何实现人类数据查询这个环节呢?机器首先要阅读大量的报告,不断地学习,然后才能把这些数据找到,认知层就是把所有非结构化的数据解析出来。机器相当于在做填空题,知道不同数据在什么位置。

第二层是感知层。这是一个从有到精的过程,举个例子,认知层让机器知道水是无色、无味的液体,而感知层让机器知道水可以解渴,在口渴时会想到水。

在解析一张财务报表中,比如说里面出现了1.98,数据中间是一个“.”,这到底是属于分隔符,还属于金融单位呢?都是要结合上下文,并且具备专业的金融知识,才能把这些数据整理得更好,这就是对数据的理解,并不容易。

对于阿博茨这样的初创公司,余宙表示,AI的技术必须专注于非常垂直、非常细分的领域,才有可能做好。

第三层是可视化。这是一个从精到美的过程,当机器找到信息,读懂信息之后,如何把这些信息通过一套能够绘图的引擎进行加工,用更美观的方式呈现给分析师,也是不可或缺的重要一步。

对于一个刚入门的新手分析师,可能对于手中的数据都不知道是什么含义,生成图表又谈何容易?

而阿博茨目前的可视化引擎经过反复的文本训练,已经学习并储存了超过3千万份金融的文档和报告,阅读了超过10亿张的金融图片和信息,几乎已经涵盖了金融数据的所有类型。

量的积累,带来的是质的改变,当分析师丢进去一些数据样本后,引擎可以迅速反应,输出标准化格式的表格、图纸。

三大核心技术,夯实金融领域专家地位

既作为阿博茨的核心技术,同时也是人工智能关注的三大信息类型(语音、视觉、语言)之一,自然语言文本是典型的无结构数据,由语言符号(如汉字)序列构成,作为人类使用的最庞杂的符号系统,其理解一般被认为是最难的一项。

数据来源:清华大学NLP实验室刘之远团队

阿博茨通过三步,理解文档内容以及自然语言互动:

1、解析非结构化文本,提取领域知识,分析出结构化信息,相当于上图中“Part of speech”与“Named entity recognition”这两个过程;

2、汇聚多数据源非结构化信息,理解关联关系,进行结构化分,相当于上图中“Co-reference”与“Basic dependencies”这两个过程;

3、理解客户自然语言输入,识别用户意图,转换为机器搜索指令;

以上市公司的一份普通增发公告为例,通常有三四百页内容,要实现对文本的完整理解,需要建立更完备的语义结构表示空间,这种更完备的语义表示经常成为上述NLP任务进行结构预测的依据。

阿博茨的另一项核心技术是计算机视觉,是人工智能关注的三大信息类型之二。不同于人脸识别技术,自20世纪60年代开始研究,到现在其技术成熟度已经达到较高的水平;文本的形式具有多样性,内容具有天然的复杂性。

余宙也表示,专业类型文档,很难进行信息的识别和提取,工具化是非常重要的能力

在文字识别技术(OCR)的基础上,阿博茨更进一步,不仅可以从纸质文件、PDF、图片中识别图表,直接生成Excel文档,还可以通过理解图表的坐标和数值关联关系,重建Excel公式、重新绘制可编辑的图表。

在具备了自然语言理解和机器视觉两项核心技术后,阿博茨利用知识图谱对数据进行存储,将行业经验和知识沉淀,构建领域知识大脑。

核心技术的实现,背后是阿博茨强大的技术团队作支撑。

8 位高管中5 位曾在微软亚洲研究院从事操作系统底层研发工作,公司技术人员占比80%。创始人兼CEO杨永智在2010年创立基于安卓移动端的海豚浏览器,在全球成功俘获2亿多用户,2014年被搜狐畅游并购后良性退出。

卓越的技术能力,让阿博茨一举囊获2019年全球文字识别(OCR)领域最顶级赛事

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186
友荐云推荐
热网推荐更多>>