当前位置:2019年全年资料歇后语 > 取文本 >

服务百家企业接连获得投资 达观数据如何切入文本智能领域?

  在语言学习中,人类一般都遵循着“听说读写”的规律来进行,每个人小时候都是这样来学习语文:认字、组词、造句、写作文,其中“写”是最难的。然而在我们日常工作中,处理文本数据却又是十分频繁的。

  目前来看,人工智能技术已经在图像识别、语音处理这两块领域中有了较为巨大的突破。在图像识别领域中已经有了诸如海康、大华、Face++等巨头;在语音处理领域中科大讯飞基本上已经一家独大,但是唯独在文本智能领域中,似乎并没有一家冒尖的企业。

  但是在9月6日“AI智能+传统产业创新论坛”中,虎哥发现一家在一年多时间内连续获得融资,被真格基金连续跟投的文本智能处理领域企业——达观数据。虎哥与达观数据联合创始人高翔,聊了聊目前文本智能处理领域中的进展与问题。

  机器进行文本处理的流程与人类相似,首先要标注词,基于词的输出形成段落,最后基于段落的输出形成篇章。

  文本数据难以智能化,因为其在词的层级上就比较抽象。“词的意义很多,比如同义词、反义词、近义词,上升到句子中,有些带有歧义的句子甚至人类理解起来都比较困难,更不用说机器了。”

  高翔举例说:“‘你上班了吗?’、‘班 你上了吗’、‘上班了吗 你’、‘你 班上了吗’这四句话在我们听来意义都一样,但是机器听起来却是4种不同的含义。”

  那么达观数据是如何让机器像人类一样读懂文本呢?虎哥了解到,达观数据通过层级化的手段构建出一套产品的逻辑。

  最底层是“达观文本智能处理平台”提供最基础的模块,这一层负责数据的一些调用;在这个基础上,达观数据构建出三个引擎,分别是“文本挖掘引擎”“智能推荐引擎”“垂直搜索引擎”;在三个引擎的基础上进行产品级别的开发。

  “只有引擎依旧不能算成是可以使用的产品,就好比一辆车只有引擎也是没办法开的。它需要车架、轮子等等部件才能跑得起来。”高翔说。

  由于目前在法律、政务、保险、金融、科技等行业中,文本已经形成规范化语言而且数量庞大,因此智能化应用场景较大。

  譬如在金融保险领域,很多企业需要上千人团队负责集团的合同审阅,保证合同中的各种信息准确性。达观数据和国内某知名保险公司在文本智能处理方面展开的合作,能够实现自动从非结构化的文本中抽取结构化信息,提升了其集团合同审阅的准确性和效率。

  “比如一份几十页的合同,机器可以迅速而准确提取出其‘甲方’、‘乙方’、‘金额’等数据。这套系统布局2个月内,其准确率已经达到95.1%。”

  不止如此,文档智能审阅系统还可以做智能审核,比如审核财务合同金额是否一致,大小写是否一致,银行卡号对不对等等信息。

  此外,基于用户的留存数据以及行为数据,达观数据也在为某些银行做手机银行APP提供个性化推荐和垂直搜索服务。目前,达观数据已积累了华为、招商银行、浦发银行、海尔、长虹等数百家企业客户的服务经验。

  由于底层模块与引擎相同,只是不同场景需要使用不同的数据去训练,因此达观这套系统可实现快速的部署。同时,系统经过训练与标注后会越来越智能。

  另外值得一提的是,虎哥了解到诸如百度开发者平台上,也有针对智能文本的一些开放API,只需要开发者随时调用便可实现一些应用。达观数据又与这些开放式平台有什么区别呢?

  高翔认为:“开放平台公布出的API层级比较低,比如分词这些,如果需要做成产品应用仍需要企业具有开发能力,这对于一般传统企业来讲还是比较难;另外,开放平台没有办法针对特定领域做一些定制化的东西,效果不一定比我们好。”

  对应到不同的应用场景,达观数据都会提出针对性产品。即便是针对不同行业的定制化开发,因为其底层的引擎以及处理模块都类似,只需要用不同的数据去训练和调试。

  而未来,达观数据也还将专注于智能文本领域的处理,提升企业对各类文字内容处理的准确率和效率,加速企业智能化转型流程。

http://mimaximafm.com/quwenben/149.html
点击次数:??更新时间2019-06-03??【打印此页】??【关闭
  • Copyright © 2002-2017 DEDECMS. 织梦科技 版权所有  
  • 点击这里给我发消息
在线交流 
客服咨询
【我们的专业】
【效果的保证】
【百度百科】
【因为有我】
【所以精彩】