您的当前位置:高大上新闻网 > 科技 > 正文

追一科技 CTO 刘云峰:翻过技术的蒋介石铜像再成泄愤对象 “山”,越过落地的 “岭”,NLP 也有春天

发布时间:2019-10-26 21:48:44 观看次数:55

10 月 12 日,由追一科技主办的 “首届中文 NL2SQL 挑战赛” 正式收尾。表面上看,这仅仅是一场学术性的技术比武。事实上,它承载着一家 NLP 企业对于推动行业发展的殷切愿望。

在最近这一波人工智能浪潮中,视觉和语音行业的发展和应用表现出了强劲的增速,相比之下,NLP 行业的表现则较为暗淡。从市场上的新兴技术导向企业来看,视觉和语音领域都跑出了独角兽,如旷视科技已经申请 IPO,而这种现象在 NLP 领域尚未出现。

不过,尽管 NLP 尚未引起市场巨浪,但实际上其潜在的力量却是不容小觑。“从理论上讲,与视觉等领域相比,NLP 的市场会更大。因为人类的绝大多数信息还是以文字方式在存储,交流方式也是以语言为主。有语言的地方就有 NLP 作用的机会。” 追一科技 CTO 刘云峰在与媒体分享时表示,NLP 去年开始成熟,今年相对进入逐渐成熟的阶段。“NLP 也会进入一个爆发期。从技术成熟度来看,今年肯定是 NLP 的一个大年,落地到产品应该还有一两年的延后,后面会有一个比较大的爆发。” 他分析说道。

而众所周知,新技术的应用发展有两大核心要素:技术和产品,这也是 NLP 行业当前面临的挑战。在行业较初期的阶段,“如何活着” 成为了市场抛给企业的命题。而在解决了基本的生存问题后,面临 “持续发展” 时,则需要结合对企业自身的战略规划和行业生态的推动。这即是追一科技目前正在探索的事情。一个技术创新驱动的 NLP 企业,在面临将至的行业大爆发,如何厚积薄发?刘云峰分享了追一科技的理解与实践。

追一科技 CTO 刘云峰

首先,他分享了针对技术的探讨。“算力的突破,解决了语音和视觉的问题。但 NLP 不太依赖算力,人们对于这项技术的期望值也很高。” 追一科技 CTO 刘云峰认为,NLP 需要突破的核心较为特别。当然,技术不能是空中楼阁,必须要走出论文投入实际生产。除了基础技术的潜在可能性待挖掘,落地能力也成为决定性因素。“很多技术从论文到工业的转换周期比以前加快了很多,这是很好的事情。基础设施已经搭建好了,我们需要加速这个过程。” 他表示,近两年有很多基础能力的突破,特别是语言模型上突破,但这些基础能力并不可以直接在工业应用中落地,还需要扩展到如 NL2SQL 这类技术的突破,女司机遇8起事故 ,然后再落地。

首先,是来自技术层面的尝试与突破。今年 9 月,其打破了 CoQA 多轮对话阅读理解纪录,位列榜单第一。除了在研发上发力,该公司也致力于搭建 NLP 细分方向应用研究的平台,如其发起的中文 NL2SQL 挑战赛。

据介绍,NL2SQL(自然语言转结构化查询语句)作为新兴的研究领域,在国外由 SalesForce 耶鲁大学等发布了 WikiSQL 和 Spider 数据集,但在国内市场,目前还处于起步阶段。 NL2SQL 在银行、保险、证券、电商、汽车、地产等数据富矿领域,有很大的应用潜力,可以大大地降低数据库访问和使用门槛,更好地挖掘数据特别是结构化数据价值,让数据库不再 “沉睡”。 “我们希望搭建一个平台,让企业、学术届都关注到这个方向。这叫众人拾柴火焰高。”

追一科技发布了业内首个大规模的中文数据集,包括 4870 张表格数据、近 50000 条标注数据以及相应的 SQL 语句。“这个数据集就像一个 NLP 领域的公开尺子。” 刘云峰解释,就像李飞飞做的视觉领域数据集,对整个计算机视觉的作用一样,大家都愿意把自己最好的方法用这个尺子度量一下。“技术的研究下一步肯定是踩在之前已经度量过的,比较稳固的结论基础上进行,所以它为技术发展起到了很大作用。” 他说。

技术在被一步步突破的同时,也要置于实际落地场景中检验。然而,这一过程也并非一帆风顺。刘云峰直言,对于做企业服务的 AI 企业来说,很大一个问题是技术提供方和使用方互不理解。“客户有一个钉子,但是不知道用什么锤子来砸。AI 公司有一个锤子,但不知道在哪里找钉子。” 他表示需要一个平台来加速从论文到工业应用的蜕变过程。

那么,具体到 AI 技术的 “老大难” 问题——落地,追一科技又是如何接招?刘云峰分享了几个方向。

一是全栈式的技术布局策略。“融合、开放” 是现市场上的趋势,这不仅体现在企业关系之间的微妙变化,也表现在技术的应用逻辑中。“真正在工业落地时,视觉和 NLP 集合得越来越多,这个趋势叫做多模态的融合。” 刘云峰介绍道,工业落地时,经常需要同时处理多种信号,而很多应用企业没有能力,也不会去融合两家不同技术公司的方案。“未来头部的 AI 公司一定是全栈的。” 他补充强调。所以,实际上,追一科技以 NLP 为核心的同时,也在涉足语音识别等方面,如,其研究在对话的交互场景里,有上下文的情况时怎么把语音识别做得更准。

sitemap | 网站地图

免责声明:本站内容均来自网络或网友投稿,如有侵权请联系管理员,我们会第一时间为您处理或者删除侵权内容!谢谢您的合作!联系邮箱:269406793@qq.com

Copyright © 2018 高大上新闻网 All Rights Reserved.

Top