中文分词算法综述(转载) NLP分词算法深度综述 之前总是在看前沿文章,真正落实到工业级任务还是需要实打实的硬核基础,我司选用了HANLP作为分词组件,在使用的过程中才感受到自己基础的薄弱,决定最近好好把分词的底层算法梳理一下。 1. 简介NLP的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析(还包括词性标注和命名实体识别)中最基本的任务,可以说既简单又复杂。说简单是因为分词的算法研究已经很成 2022-05-30 NLP #中文分词
2021-11-26-度量学习之损失函数⭐️ metric learning希望使同源的向量相似度尽可能的高,而非同源的向量相似度尽可能的低,即类内相近,类间分离。通过distance metric引导分类器可以学习到能区分不同类的特征组合,所以多被用于 CV 的人脸识别,NLP 的语义匹配等。 在语义模型的训练框架里,Deep Metric Learning 大致可以分为两类:分类和排序。 采用分类的方法,一般最后一层接的是多类别的sof 2021-11-26 度量学习 #原创
度量学习之采样Sampling 在metric learning中采样方法也同样重要。甚至在Sampling Matters in Deep Embedding Learning中,作者指出在metric learning中,采样方法比损失函数具有同等或更重要的作用。 为什么要采样以triplet loss为例,它的输入为(anchor,positive,negative)。如果有一个人脸训练集,共m个人(m=10000),每个 2021-11-26 度量学习 #原创
度量学习简述 一句话总结:metric learning希望使同源的向量相似度尽可能的高,而非同源的向量相似度尽可能的低,即类内相近,类间分离。经典的应用就是人脸识别。通过计算两张图片之间的相似度,使得输入图片被归入到相似度大的图片类别中去。 Metric learning is an approach based directly on a distance metric that aims to esta 2021-11-26 度量学习 #原创
度量学习之 AMSoftmax 理解 从最优化的角度来推导出Softmax交叉熵损失函数一般而言,最优化的问题通常需要构造一个目标函数。使用神经网络进行多分类(假设为 $C$ 类)时的目标函数是什么?可以将各个类别的输出独立开来,每个类别占据一个维度。那么如果让一个样本的真值标签(ground-truth label)所对应的分数比其他分数更大,就可以通过比较 $C$ 个分数的大小来判断样本的类别了。 多分类优化目标: 输出C个分数 2021-11-26 度量学习 #原创
Keyword-BERT 腾讯微信团队于2020年提出的一种深度语义匹配方法的论文。在QA检索问题中,新输入的一个问法,就需要与语料库中的所有问题-答案对(QA对)进行语义相关性匹配。但是在开放领域的场景下,由于在“问法-问题”对中会存在各式各样不同表达的词汇,导致衡量新问法与候选QA对的相似性就变的富有挑战性。 Keyword-BERT提出了一种“关键词-注意力机制”的方法来改进深度语义匹配任务。首先从海量的语料中按领域 2021-11-15 #Keyword-BERT
元学习入门(转载) 元学习入门转载自https://zhuanlan.zhihu.com/p/136975128 以下是本文的主要框架: Introduction Meta Learning实施——以MAML为例 Reptile What’s more 2021-11-15 #Meta-Learning
图神经网络入门(转载) 本文参照以下两篇blog,这两篇应该是目前介绍GNN和GCN最好的blog了。 https://distill.pub/2021/gnn-intro/ https://distill.pub/2021/understanding-gnns/ 讲图神经网络(GNN)之前,先介绍一下什么是graph,为什么需要graph,以及graph有什么问题,然后介绍一下如何用GNN处理graph问题,最 2021-11-15 #GNN
常见距离度量方法 在NLP中,我们经常要去比较两个句子的相似度,其标准方法是想办法将句子编码为固定大小的向量(Word2Vec、BERT等),然后用某种几何距离(欧氏距离、cos距离等)作为相似度。这种方案相对来说比较简单,而且检索起来比较快速,一定程度上能满足工程需求。 此外,还可以直接比较两个变长序列的差异性,比如编辑距离,它通过动态规划找出两个字符串之间的最优映射,然后算不匹配程度; 不同距离度量方法的图示 2021-11-09