CQA调研——学术界-转载 目录 1. 任务 1.1. 背景 1.2. 任务定义 1.3. 评测标准 1.4. 数据集 2. 方法总结 2.1. 基于词频的方法 2.2. 基于语义的方法 2.2.1. 基于表示的方法 2.2.2. 基于比较的方法 2.3. 训练方法 2.3.1 Pointwise方法 2.3.2 Pairwise方法 2.3.3 Listwise方法 3. Paper List 3.1. 2020-09-16 #QA
CQA调研——工业界-转载 目录 1 任务 1.1 任务定义 1.2 任务分类 1.3 评测标准 1.4 数据集 “技术需求”与“技术成果”项目之间关联度计算模型(需求与成果匹配) 智能客服问题相似度算法设计——第三届魔镜杯大赛 CCKS 2018 微众银行智能客服问句匹配大赛 AFQMC 蚂蚁金融语义相似度 OPPO手机搜索排序query-title语义匹配数据集 医疗问题相似度衡量竞赛数据集 2020-09-16 #QA
计算机网络通信通俗解释-转载 前言天各一方的两台计算机是如何通信的呢?在成千上万的计算机中,为什么一台计算机能够准确着寻找到另外一台计算机,并且把数据发送给它呢? 可能很多人都听说过网络通信的 5 层模型,但是可能并不是很清楚为什么需要五层模型,五层模型负责的任务也有可能经常混淆。下面是网络通信的五层模型 说实话,五层模型的具体内容还是极其复杂的,不过今天这篇文章,我将用最简洁的模式,通过网络通信的五层模型来讲解一台计算机是 2020-09-11 #技术
一位浙大CS大佬的校招面试心得 写在20年初的校招面试心得与自学CS经验及找工作分享 转载自 https://github.com/conanhujinming/tips_for_interview/blob/master/README-zh_CN.md 我于大三(15年下旬)开始自学CS,并在去年(19年)参加了校招的实习与春招,很幸运地拿到了10来家公司的offer。在这里分享一下自己总结的面试心得与技巧、自学CS的方法与 2020-09-07 #面经心得
Lightgbm使用指南 Lightgbm介绍LightGBM 是Light Gradient Boosted Machine的缩写,是Microsoft开发的用于机器学习的免费开源分布式梯度提升框架。它基于决策树算法,用于排名,分类和其他机器学习任务。开发重点是性能和可伸缩性。该框架支持不同的算法,包括GBT,GBDT,GBRT,GBM和MART。 本文介绍Lightgbm的常用参数以及调参方法。最后给出一个实用超参数优 2020-08-24 #技术
sklearn分类评价指标介绍 评价指标在机器学习中,性能指标(Metrics)是衡量一个模型好坏的关键,通过衡量模型输出y_predict和y_true之间的某种“距离”得出的。 下面是常用的分类评估指标的Sklearn方法: 准确率 准确率是指我们的模型预测正确的结果所占的比例。 正式点说,准确率的定义如下: $Accuracy=\frac{Number of correct predictions}{Total numb 2020-08-24 #评价指标 #精确率和召回率
Word embeddings in 2020 Word embeddings in 2020 转载自 https://colab.research.google.com/drive/1N7HELWImK9xCYheyozVP3C_McbiRo1nb 本文对每个词嵌入方法都有一个(非常)简短的描述,进一步研究的链接以及Python中的代码示例。所有代码都打包为Google Colab Notebook。 根据Wikipedia的说法,单词嵌 2020-08-10 #技术
用人话解释交叉熵 交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距。以前做一些分类问题的时候,没有过多的注意,直接调用现成的库,用起来也比较方便。最近开始发现自己对交叉熵的理解有些模糊,不够深入。遂花了几天的时间从头梳理了一下相关知识点,才算透彻的理解了,特地记录下来,以便日后查阅。 信息论(熵概念介绍) 为什么要用交叉熵做loss函数? 交叉熵在单分类问题中的使用 2020-07-23 #交叉熵
NLP数据增强方法总结 在这篇文章中,我将基于我的发现概述当前用于文本数据扩充的方法。 词汇替代 反向翻译 文字表面转换 随机噪声注入 实例交叉扩展 语法树操作 文字混合 生成方法 中文EDA工具 2020-07-03 #数据增强 #EDA