作为新一轮科技革命和产业变革的核心驱动力,人工智能正在叠加释放历次科技革命和产业变革积蓄的巨大能量,快速催生新产品、新服务、新业态,培育经济发展新动能。发展至今,人工智能经历了明显的泡沫降温,进入了技术成熟度曲线的低谷期。行业开始回归理性,更多地关注人工智能如何落地产业,推动企业的数字化转型。
由于深度学习的研究方向,人力密集型的数据标注工作是推进人工智能技术落地的重要环节之一。庞大的前景下,数据采集与标注也可以分NLP(自然语音处理)、CV(计算机视觉)等几个部分,随着数据需求量的增大、对数据质量要求的提高,其中的NLP越来越成为“硬骨头”。就NLP来说,它实际上就是在极其丰富的人类语言之中和机器语言之间搭建无障碍沟通的桥梁。在新的 AI 技术发展下,越来越需要巨大的数据以支撑不同的场景。
一个成功的NLP应用与其他应用的差异化对比,更多的来自于精准大量的训练数据。可以说,具有更高精准度的数据已成为当前训练阶段的主流需求。以机器人听懂人说话的这一需求为例,NLP数据具复杂性,除了对意图、领域、槽位等进行判断和标注,多角度的泛化也必不可少,在这一过程中需要数据标注公司就需要对需求进行拆解、预判甚至提前给出建议。
在2020年国家级重大国际经贸活动服贸会的成果发布环节上,数据标注领域的头部企业云测数据首次对外展示了一项成果,其数据项目的最高交付精准度竟然达到了99.99%。这个决定AI产品落地水平的领域里,99.99%的精准度刷新了一个行业记录,按照实际NLP项目的需要,NLP客户可选择的服务标准跨越到了一个新的时代。
在NLP技术应用领域,专注于应用场景落地、对数据质量有更高要求的企业,更需要云测数据这种高质量、场景化的数据服务商,来助力企业将自己算法的精度推到一个新的高度。企业获得实际场景中所需要的数据,可规避数据杂乱带来的诸如成本增加、产品周期增加等的负面影响,同时发挥优质数据融合应用场景加速落地的优势,更好的帮助相关企业在NLP技术具体场景中的工作。
但是,正如云测数据总经理贾宇航所言,“图像采标有很强的规则性,按照规范化的指导文档工作即可,但NLP数据对应的是语言的丰富性,需要结合上下文等背景去理解和处理。”在高位提升这件事上,NLP数据更难。
以智能客服业务场景为例,当客服询问用户是否购买此商品时,各种用户会给出不同回答:“我要和家人商量一下”;“我会考虑”;“我现在不方便,你一会儿再打过来”等等,背后的意图有很多种,可能是暂不购买,暂不考虑,拒绝购买或者兴趣较大。那么,NLP数据标注就需要对这些对话背后的意图进行标注和分类。
云测数据 “场景化、精准化” 的服务模式,跟的就是需求方复杂、精深而个性化的数据要求。在云测数据,具体到NLP,在数据采集上可满足特定人物(老人、妇女、小孩)、特定场景(家居、办公、商业等)、不同方言的声音/文本等类型的数据采集;在数据标注层面,以智能客服单个场景的意图标注为例,就分为10-20个大类,上百个子类,根据业务需求可能还会有进一步的标注细分。
除了对NLP数据进行对话意图、领域、槽位等进行判断和标注,多角度的泛化也必不可少。也就是说,无论用户说的是地方话还是普通话,有没有出现口误,还是以不同的句子表达同一个意思,AI都能够读懂句子并给出正确的回答,这就要求NLP数据标注员对句子进行泛化,以不同的描述方式重组或扩充句式、标签等,以提升AI对话的准确度。
在技术层面,云测数据对软硬件设施的持续投入,也是保持高还原应用场景、高标注精准度的有力举措。
云测数据自研的数据标注平台会根据实际使用中的反馈,以每周甚至更快的频率进行功能迭代,以技术结合更多的落地场景,不断提升数据标注工具的技术含量。同时,云测数据也致力于通过工程化开发来减轻数据标注中的重复劳动,提升业务效率。
按贾宇航的话说,“我们以企业服务的方式,为标注的精准度负责”。
在云测数据服务的众多企业中,既有各大头部AI企业,也有各个行业的龙头企业。这些企业在追求更高的AI认知智能准确度的过程中,合作过各种各样的数据服务商,最终找到了数据标注质量非常高的云测数据,并保持着长期良好的合作。
事实上,除了数据采标的质量和安全,数据服务商的全品类服务能力,以及独立第三方的身份,也是企业进行AI合作所考量的重要因素。像云测数据这样的服务商,不涉及客户业务,只提供专业的数据服务,让企业客户在合作时倍感放心。
如今,AI产业在政策红利和蓝海市场的双重利好中迎来快速发展,其中NLP市场发展也进入了快车道。目前,自然语言处理已经有了许多商业化应用,如:机器翻译、舆情监测、自动摘要、问答机器人、客服机器人、电销机器人、智能推荐等,在庞大的市场规模和市场需求下,高质量的NLP数据服务也将成为AI商业化发展的必然趋势。