听课笔记

第二天AICon人工智能大会记录

AICon第二天 2019.11.22

腾讯云 《腾讯云知识图谱技术与应用实践之路》吴睿

  • 知识图谱定义

    • 知识图谱是采取二元图网络,描述客观世界中的实体信息及其相互关系规律的知识化描述,其基本组成单位是【实体-关系-实体】 , 【实体-属性-属性值】 的三元组(triplet),实体之间通过关系相互联结,构成网状结构
  • 图谱构建与应用流程

  • 知识图谱一站式平台

    • 图谱构建可用预训练语言模型提高效果
    • 用远监督回标降低成本。
    • 用云更降本增效。
  • 知识抽取

  • 知识图谱一站式平台底层:腾讯Plato高性能图计算引擎 (已开源

小米人工智能实验室 《知识图谱在小米的落地与挑战》刘作鹏

  • 知识图谱简介

    • 本质上,知识图谱是大规模的语义网络( Semantic Web);
    • 语义网络是知识表示的重要方式之一,富含实体、概念和多种语义关系;
    • 让机器具备认知能力的关键技术
  • OpenBase 项目

    • 联合OpenKG、小米、清华大学、浙江大学、东南大学、狗尾草、海知智能
    • 多个中文知识图谱自由下载
  • 关键构建技术

    • bert太重,蒸馏!
  • 百科知识图谱构建(避坑指南)

    • 知识抽取 → 实体发现 → 实体分类 → 知识补全 → 知识更新 → 知识融合

    • 百科图谱的对齐: Schema层对齐

      • 以cnSchema为基础,半自动地抽取等价概念和上下位关系
      • 利用等价概念发现等价谓词
  • 垂域知识图谱的构建

    • ^本体定义 → 实体发现 → 知识抽取 → 实体对齐 → 知识择优 → 知识更新
    • 小样本条件下的文本分类模型
      • 联合BERT和Meta Network的网络模型;
      • Transformer层之间用残差网络连接
    • 图谱的质检流程…(众包)

    • 数据不足

      • 人工标注10000条垂域数据+远程监督
    • 知识择优来源
      • 数据的权重引用数
    • 知识及时更新
  • 小米图谱

    • 以百科图谱为中心(已接入9大业务类别),链接了52垂域图谱
  • 基于图谱的问答 - KBQA

    • 小爱开放域问答系统

    • 问句理解是当前的难点

      • 问句纠错 → 问句改写 → 意图识别 → 指代消解 → 实体链接谓词判断

      • 借鉴了搜索和NLP的技术

      • 需要在80毫秒内完成全部处理,每天处理6千万次以上的请求 (120ms以内返回答案)
    • KBQA关键技术:实体链接

    • KBQA关键技术:谓词判断

      • ……
  • 未来发展

    • 从KG到KG Plus
    • KG Plus查询: 根据内容名称或者内容ID,从KG Plus里查询内容;
    • 理解服务:根据内容名称或者内容ID,查询补充了各类信息的内容数据;
    • 融合服务:将结构化的和非结构化的数据融合到KG Plus中;
    • 距离计算:查询实体之间或者概念之间的图谱距离 ;
    • 实体推荐:根据给定实体,推荐关联实体;
  • 知识图谱:好用,耗钱,耗人力,偏长远发展

  • 如何对客服机器人评价?

    1. 对给出的答案进行反馈(点赞点踩)

    2. 标注测试集,计算PRF值

平安银行 / AI算法团队《智能金融在客服机器人中台的落地实践》潘鹏举

  • 平安AI业务架构

  • 客服机器人小安1.0

    • 存在问题
      • 知识库独立不共享(借记卡和信用卡)
      • 前端重复开发
      • 不智能,无法回答其他业务的问题
    • 解决方案
      1. 知识库维护在一个地方
      2. 程序分别调用两个机器人,前端进行结果合并(√)
  • 客服机器人小安2.0

    利用中控机器人来调用不同业务机器人

    • 存在问题
      • 知识库的维护工作量增大(各类业务知识的不断接入)
      • FAQ知识不共享,扩展性差
      • 新机器人的冷启动工作量大
        • 冷启动科普:在无初始客户积累,得不到新入客户群数据,分析不出客户习惯,不能针对性改进和推广
      • 需定长周期的定制化开发(麻烦)
    • 解决方案
      • 对不同模块进行抽象封装(共享、复用、组件化 )
  • 客服机器人小安3.0(中台化)

    抽象出3个重点

    1. 知识统一沉淀

      • 知识共享(不同业务知识库+闲聊库)
      • 知识集中化管理(后台管理系统,知识易适配、易维护)
      1. 服务统一管理

        • 实现了服务的统一注册、编排和管理

      • 实体管理 (分通用实体、场景化实体)

        • 实体状态保持机制实现

          • 命中了某个实体,根据上下文进行状态机制的保存
      1. 答案的配置化

        • 卡片式答案
        • 卡片组件库管理

    3.0架构如下:

    • 示例

  • 总结

    • 扩展问的数量会大幅提高问答的效果

      • 找运维,多标注知识(很重要)
    • 充足的FAQ数据是保证模型起效果的关键

      • 数据!数据!数据!
    • 多轮对话效果有待提高

    • 核心的NLU抽象成模块,和知识、答案展示等服务进行解耦

    • 通过发现bad case,人工调整数据重新训练


阿里巴巴达摩院语音实验室 《阿里KAN-TTS技术和落地实践》雷鸣

  • 语音合成技术的历史演变
  • 语音合成技术的应用场景
    • ASR→NLP→TTS
    • 三方面刚需
      • 交互(智能客服、智能硬件、虚拟助理)
      • 播报(导航、内容播报)
      • 娱乐(变声)
  • Knowledge-aware Neural TTS (KAN-TTS)
    • 评价指标(MOS%)
  • 基于KAN-TTS的定制(声音克隆)
    • 5大场景,42种声音
      • 高品质– 听起来好听
      • 开箱即用– 想要什么声音就有什么声音
      • 低门槛定制– 想做什么声音就可以做什么声音
      • 个性化– 低成本娱乐效果

追一科技AI Lab《企业服务中智能交互机器人的实践与探索》徐易楠

实践过程中的瓶颈及探索

  • 冷启动效果差、可复制能力不够

    • 数据量 vs. 准确率 服从线性递增关系
  • 解决方案

    • 数据复用
      • 构造伪标签( 无监督数据增强+主动学习 )

    • 模型优化
      • 小样本学习
  • 系统鲁棒性不⾜

    • 两句话相似,但语义完全不一致

    • 字面完全不匹配,意图却相关

    • 顺序重要还是不重要

    • 标点符号也很重要

  • 解决方案

    • 数据优化
      • 简单数据增强:近义词、乱序、随机替换、删除等
      • 复杂数据增强:使用生成模型
    • 模型优化
      • 对抗训练:在某个输⼊上有意的加⼊⾜够小的扰动,能够使⽹络预测错误且预测概率较高的样本
  • 口语化表达理解能力不够

    • 通用ASR对于 领域知识 识别效果有限

      | ASR识别结果 | 标签 |
      | —————————- | —————————- |
      | 能不能改天呐 | 能不能改签呐 |
      | 我怎么投保啊 | 我怎么淘宝啊 |

    • 领域关键词通常会导致意图识别错误

    • 口语化表达与文本差异较大

  • 解决方案

    • 将ASR转写的数据也参与模型训练
    • 语音+文本联合建模
  • 不能洞察用户情感,从而进行安抚

微软小冰:人格化对话机器人的构建及在语音场景当中的实践(上)》曾敏

  • 对话系统的基本架构

  • 语义分析(四方面)

  • 检索模型的基本结构

    • 利用bert+蒸馏作检索排序(分类),效果提升很明显
  • 2017年业界第一个把开放域对话生成模型做成线上系统

  • 人格化IP

    • AI beings需要避免被工具化
    • 上升到内容创作,有创造力(现代诗创作)

网易云音乐搜索《AI算法在云音乐搜索中的应用实践》王新欣

  • 面临的问题

    • 用户需求仅仅是一首歌曲?
    • 如何理解用户并匹配?
    • 如何给用户更好的资源?
    • 如何给业务赋能?
  • 云音乐搜索框架

  • 关键分享(两部分)

  • Query理解体系

  • 意图识别 - 方法归纳

  • 多链路相关性(没太听懂)

    1. 传统相关性
      • Word Seg+Term weight
    2. 基于点击的Graph

  1. 基于深度语义表征

  • 排序模型(第二个重点部分)

华为海思计算芯片《达芬奇密码:昇腾芯片的前世今生》王晓雷

  • ⾼算⼒的计算平台
    • CPU
    • GPU / FPGA / DSP
    • TPU
  • 深度学习性能提升小秘诀


第二天AICon人工智能大会记录
http://example.com/2019/11/22/2019-11-22-第二天AICon人工智能大会记录/
作者
NSX
发布于
2019年11月22日
许可协议