听课笔记
第二天AICon人工智能大会记录
AICon第二天 2019.11.22
- 腾讯云 《腾讯云知识图谱技术与应用实践之路》吴睿
- 小米AI Lab 《知识图谱在小米的落地与挑战》刘作鹏
- 平安AI团队《智能金融在客服机器人中台的落地实践》潘鹏举
- 阿里达摩院语音实验室 《阿里KAN-TTS技术和落地实践》雷鸣
- 追一科技AI Lab《企业服务中智能交互机器人的实践与探索》徐易楠
- 《微软小冰:人格化对话机器人的构建及在语音场景当中的实践(上)》
- 网易云音乐搜索《AI算法在云音乐搜索中的应用实践》王新欣
腾讯云 《腾讯云知识图谱技术与应用实践之路》吴睿
知识图谱定义
- 知识图谱是采取二元图网络,描述客观世界中的实体信息及其相互关系规律的知识化描述,其基本组成单位是【实体-关系-实体】 , 【实体-属性-属性值】 的三元组(triplet),实体之间通过关系相互联结,构成网状结构
图谱构建与应用流程
知识图谱一站式平台
- 图谱构建可用预训练语言模型提高效果
- 用远监督回标降低成本。
- 用云更降本增效。
知识抽取
知识图谱一站式平台底层:腾讯Plato高性能图计算引擎 (已开源)
小米人工智能实验室 《知识图谱在小米的落地与挑战》刘作鹏
知识图谱简介
- 本质上,知识图谱是大规模的语义网络( Semantic Web);
- 语义网络是知识表示的重要方式之一,富含实体、概念和多种语义关系;
- 让机器具备认知能力的关键技术
OpenBase 项目
- 联合OpenKG、小米、清华大学、浙江大学、东南大学、狗尾草、海知智能
- 多个中文知识图谱自由下载
关键构建技术
- bert太重,蒸馏!
百科知识图谱构建(避坑指南)
知识抽取 → 实体发现 → 实体分类 → 知识补全 → 知识更新 → 知识融合
百科图谱的对齐: Schema层对齐
- 以cnSchema为基础,半自动地抽取等价概念和上下位关系
- 利用等价概念发现等价谓词
垂域知识图谱的构建
- ^本体定义 → 实体发现 → 知识抽取 → 实体对齐 → 知识择优 → 知识更新
- 小样本条件下的文本分类模型
- 联合BERT和Meta Network的网络模型;
- Transformer层之间用残差网络连接
图谱的质检流程…(众包)
数据不足
- 人工标注10000条垂域数据+远程监督
- 知识择优来源
- 数据的权重引用数
- 知识及时更新
小米图谱
- 以百科图谱为中心(已接入9大业务类别),链接了52垂域图谱
基于图谱的问答 - KBQA
- 小爱开放域问答系统
问句理解是当前的难点
问句纠错 → 问句改写 → 意图识别 → 指代消解 → 实体链接 → 谓词判断
借鉴了搜索和NLP的技术
- 需要在80毫秒内完成全部处理,每天处理6千万次以上的请求 (120ms以内返回答案)
KBQA关键技术:实体链接
KBQA关键技术:谓词判断
- ……
未来发展
- 从KG到KG Plus
- KG Plus查询: 根据内容名称或者内容ID,从KG Plus里查询内容;
- 理解服务:根据内容名称或者内容ID,查询补充了各类信息的内容数据;
- 融合服务:将结构化的和非结构化的数据融合到KG Plus中;
- 距离计算:查询实体之间或者概念之间的图谱距离 ;
- 实体推荐:根据给定实体,推荐关联实体;
知识图谱:好用,耗钱,耗人力,偏长远发展
如何对客服机器人评价?
对给出的答案进行反馈(点赞点踩)
标注测试集,计算PRF值
平安银行 / AI算法团队《智能金融在客服机器人中台的落地实践》潘鹏举
平安AI业务架构
客服机器人小安1.0
- 存在问题
- 知识库独立不共享(借记卡和信用卡)
- 前端重复开发
- 不智能,无法回答其他业务的问题
- 解决方案
- 知识库维护在一个地方
- 程序分别调用两个机器人,前端进行结果合并(√)
- 存在问题
客服机器人小安2.0
利用中控机器人来调用不同业务机器人
- 存在问题
- 知识库的维护工作量增大(各类业务知识的不断接入)
- FAQ知识不共享,扩展性差
- 新机器人的冷启动工作量大
- 冷启动科普:在无初始客户积累,得不到新入客户群数据,分析不出客户习惯,不能针对性改进和推广
- 需定长周期的定制化开发(麻烦)
- 解决方案
- 对不同模块进行抽象封装(共享、复用、组件化 )
- 存在问题
客服机器人小安3.0(中台化)
抽象出3个重点
知识统一沉淀
- 知识共享(不同业务知识库+闲聊库)
- 知识集中化管理(后台管理系统,知识易适配、易维护)
服务统一管理
- 实现了服务的统一注册、编排和管理
实体管理 (分通用实体、场景化实体)
实体状态保持机制实现
- 命中了某个实体,根据上下文进行状态机制的保存
答案的配置化
- 卡片式答案
- 卡片组件库管理
3.0架构如下:
- 示例
总结
扩展问的数量会大幅提高问答的效果
- 找运维,多标注知识(很重要)
充足的FAQ数据是保证模型起效果的关键
- 数据!数据!数据!
多轮对话效果有待提高
核心的NLU抽象成模块,和知识、答案展示等服务进行解耦
通过发现bad case,人工调整数据重新训练
阿里巴巴达摩院语音实验室 《阿里KAN-TTS技术和落地实践》雷鸣
- 语音合成技术的历史演变
- 语音合成技术的应用场景
- ASR→NLP→TTS
- 三方面刚需
- 交互(智能客服、智能硬件、虚拟助理)
- 播报(导航、内容播报)
- 娱乐(变声)
- Knowledge-aware Neural TTS (KAN-TTS)
- 评价指标(MOS%)
- 基于KAN-TTS的定制(声音克隆)
- 5大场景,42种声音
- 高品质– 听起来好听
- 开箱即用– 想要什么声音就有什么声音
- 低门槛定制– 想做什么声音就可以做什么声音
- 个性化– 低成本娱乐效果
- 5大场景,42种声音
追一科技AI Lab《企业服务中智能交互机器人的实践与探索》徐易楠
实践过程中的瓶颈及探索
冷启动效果差、可复制能力不够
- 数据量 vs. 准确率 服从线性递增关系
解决方案
- 数据复用
- 构造伪标签( 无监督数据增强+主动学习 )
- 模型优化
- 小样本学习
- 数据复用
系统鲁棒性不⾜
两句话相似,但语义完全不一致
字面完全不匹配,意图却相关
顺序重要还是不重要
标点符号也很重要
解决方案
- 数据优化
- 简单数据增强:近义词、乱序、随机替换、删除等
- 复杂数据增强:使用生成模型
- 模型优化
- 对抗训练:在某个输⼊上有意的加⼊⾜够小的扰动,能够使⽹络预测
错误且预测概率较高
的样本
- 对抗训练:在某个输⼊上有意的加⼊⾜够小的扰动,能够使⽹络预测
- 数据优化
口语化表达理解能力不够
通用ASR对于 领域知识 识别效果有限
| ASR识别结果 | 标签 |
| —————————- | —————————- |
| 能不能改天呐 | 能不能改签呐 |
| 我怎么投保啊 | 我怎么淘宝啊 |领域关键词通常会导致意图识别错误
口语化表达与文本差异较大
解决方案
- 将ASR转写的数据也参与模型训练
- 语音+文本联合建模
不能洞察用户情感,从而进行安抚
《微软小冰:人格化对话机器人的构建及在语音场景当中的实践(上)》曾敏
对话系统的基本架构
语义分析(四方面)
检索模型的基本结构
- …
- 利用
bert+蒸馏
作检索排序(分类),效果提升很明显
2017年业界第一个把开放域对话生成模型做成线上系统
人格化IP
- AI beings需要避免被工具化
- 上升到内容创作,有创造力(现代诗创作)
网易云音乐搜索《AI算法在云音乐搜索中的应用实践》王新欣
面临的问题
- 用户需求仅仅是一首歌曲?
- 如何理解用户并匹配?
- 如何给用户更好的资源?
- 如何给业务赋能?
云音乐搜索框架
关键分享(两部分)
Query理解体系
意图识别 - 方法归纳
多链路相关性(没太听懂)
- 传统相关性
- Word Seg+Term weight
- 基于点击的Graph
- 传统相关性
- 基于深度语义表征
- 排序模型(第二个重点部分)
华为海思计算芯片《达芬奇密码:昇腾芯片的前世今生》王晓雷
- ⾼算⼒的计算平台
- CPU
- GPU / FPGA / DSP
- TPU
深度学习性能提升小秘诀
…