PPO要点摘录 PPO(Proximal Policy Optimization)算法中,状态、动作、价值函数、奖励和策略模型的含义如下: 状态(state):状态是指环境当前的状态,如:对话历史与之前生成的序列。在强化学习中,智能体需要根据当前状态来做出决策。 动作(action):动作是指智能体在当前状态下选择的行动,如:生成每一个token,从词表中采样即是一个动作。在强化学习中,智能体需要根据当前状态选 2023-03-14 强化学习 #PPO
ChatGPT复现总结 复现ChatGPT的难点与平替复现和使用GPT-3/ChatGPT,我们应该注意什么? 1.3B的模型+RLHF就可以很强,在真正的落地中,训一个for单一生成任务的定制化ChatGPT不再那么遥不可及,一两张A100和十万级别的数据就可以了——《追赶ChatGPT的难点与平替》 在人力、算力、时间有限的情况下,效率最优的路径是直接在1.3B模型上迭代,大概10万标注数据,复现一个低配小型Ch 2023-03-02 ChatGPT #原创
Transformer详解 TransformerTransformer抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建,作者的实验是通过搭建编码器和解码器各6层,总共12层 2023-02-26 llm #Transformer
🍺预训练语言模型小酌new 本文为 Pre-trained Models for Natural Language Processing: A Survey 和相关模型的笔记 一、为什么要进行预训练? 二、PTMs 有哪两大范式? 三、PTMs 按照任务类型如何分类? 四、PTMs 有哪些拓展? 五、如何对 PTMs 进行迁移学习? 预训练模型详解 ELMo GPT (2018) BERT (2018) UniLM ( 2023-02-26 llm #ptm
《深度学习推荐系统》-极客时间 一、互联网的增长引擎—推荐系统1、推荐系统的作用 解决在信息过载的情况下,用户高效获得感兴趣信息的问题 提高产品的用户转化率,得到公司商业目标连续增长的目的 2、推荐系统的架构逻辑框架 对于用户U,在特定场景C下,针对海量的物品信息,构建一个函数f(U,I,C),预测用户对特定候选物品I的喜好程度 技术架构 数据部分 数据收集 推荐模型所需的样本数据 推荐模型所需特征 系统监控、商业智能所需的统 2022-10-27 #推荐系统
《推荐系统三十六式》-极客时间 参考:推荐算法概览参考:学姐问我推荐系统是怎么做的?我用23张图带她搞懂!参考:推荐系统三十六式-刑无刀参考:万字长文详述对话推荐系统的逻辑与演化参考:图文解读:推荐算法架构——精排! 课程学习,推荐系统的基础知识总结! 概念篇 推荐系统需要可以找到用户和物品之间是否有关联; 这个关联是一种概率上的可能性,而不是强关联; 输入:推荐系统需要已经存在的连接,从已有的连接去预测未来 2022-09-29 #推荐系统
向量检索库总结 NLP向量搜索开源工具必备:常用向量化检索工具的优缺点与试用场景介绍干货:向量检索库总结|建议收藏 向量相似度检索,即根据一个向量Q从海量的向量库中寻找TopK个与Q最相似或者距离最近的向量,其在工业中有着广泛的应用场景,比如图像检索、文本语义检索以及推荐系统中基于User与Item的Embedding向量召回等。在生产环境中,被查找的向量库往往是海量,甚至超过了内存的限制,而且面临着高并发与 2022-09-23 ChatGPT #向量检索库
并行训练大型神经网络(转载) 参考资料: OpenAI一篇文章总结 实操教程 | GPU多卡并行训练总结(以pytorch为例) 最近OpenAI发布了一篇文章,详细介绍了一些训练大型神经网络的相关技术及底层原理,彻底消除你对并行的恐惧! 比如以并行训练一个三层的神经网络为例,其中并行可以分为数据并行、pipeline并行,trensor并行和专家并行,图中不同颜色代表不同层、虚线隔开的是不同的GPU。 听上去很多,但理 2022-08-03 llm #分布式训练
坐席辅助话术推荐1-方案调研&设计 方案调研关注点: 这个方案的baseline是什么,最简单和快捷的方式是哪些,都有什么优缺点。 大厂常用的方案是什么,有没有什么特别地操作,为什么要做这个操作。 论文,科研界的主要方式是什么,需要关注哪些方面。 1、美团人工辅助——话术推荐 美团智能客服核心技术与实践 智能辅助目的: 自动匹配历史对话日志,便于人工座席了解客户背景诉求; 自动匹配历史优秀座席回答话术,供其他座席参考; 场 2022-06-07 NLP #坐席辅助
坐席辅助话术推荐2-详细技术方案 数据来源 C2 坐席半年的对话日志数据(20220301~20220420),通过二八分拆出训练集和评测集; 数据清洗 全小写 替换html标签、时间(年月日时分秒)、手机号&尾号等 过滤无意义数据(如:“转人工”、“服务评价”、“感谢您的咨询”) 过滤无意义单字Query 添加特殊占位符[pic]、[http]、[subphone]、[phone]、[alnum]、[ques]、[kn 2022-06-07 NLP #坐席辅助