CQA调研——学术界-转载

目录 1. 任务 1.1. 背景 1.2. 任务定义 1.3. 评测标准 1.4. 数据集 2. 方法总结 2.1. 基于词频的方法 2.2. 基于语义的方法 2.2.1. 基于表示的方法 2.2.2. 基于比较的方法 2.3. 训练方法 2.3.1 Pointwise方法 2.3.2 Pairwise方法 2.3.3 Listwise方法 3. Paper List 3.1.

2020-09-16

#QA

CQA调研——工业界-转载

目录 1 任务 1.1 任务定义 1.2 任务分类 1.3 评测标准 1.4 数据集 “技术需求”与“技术成果”项目之间关联度计算模型（需求与成果匹配) 智能客服问题相似度算法设计——第三届魔镜杯大赛 CCKS 2018 微众银行智能客服问句匹配大赛 AFQMC 蚂蚁金融语义相似度 OPPO手机搜索排序query-title语义匹配数据集医疗问题相似度衡量竞赛数据集

2020-09-16

#QA

计算机网络通信通俗解释-转载

前言天各一方的两台计算机是如何通信的呢？在成千上万的计算机中，为什么一台计算机能够准确着寻找到另外一台计算机，并且把数据发送给它呢？可能很多人都听说过网络通信的 5 层模型，但是可能并不是很清楚为什么需要五层模型，五层模型负责的任务也有可能经常混淆。下面是网络通信的五层模型说实话，五层模型的具体内容还是极其复杂的，不过今天这篇文章，我将用最简洁的模式，通过网络通信的五层模型来讲解一台计算机是

2020-09-11

#技术

一位浙大CS大佬的校招面试心得

写在20年初的校招面试心得与自学CS经验及找工作分享转载自 https://github.com/conanhujinming/tips_for_interview/blob/master/README-zh_CN.md 我于大三（15年下旬）开始自学CS，并在去年（19年）参加了校招的实习与春招，很幸运地拿到了10来家公司的offer。在这里分享一下自己总结的面试心得与技巧、自学CS的方法与

2020-09-07

#面经心得

Lightgbm使用指南

Lightgbm介绍LightGBM 是Light Gradient Boosted Machine的缩写，是Microsoft开发的用于机器学习的免费开源分布式梯度提升框架。它基于决策树算法，用于排名，分类和其他机器学习任务。开发重点是性能和可伸缩性。该框架支持不同的算法，包括GBT，GBDT，GBRT，GBM和MART。本文介绍Lightgbm的常用参数以及调参方法。最后给出一个实用超参数优

2020-08-24

#技术

sklearn分类评价指标介绍

评价指标在机器学习中，性能指标（Metrics）是衡量一个模型好坏的关键，通过衡量模型输出y_predict和y_true之间的某种“距离”得出的。下面是常用的分类评估指标的Sklearn方法：准确率准确率是指我们的模型预测正确的结果所占的比例。正式点说，准确率的定义如下： $Accuracy=\frac{Number of correct predictions}{Total numb

2020-08-24

#评价指标 #精确率和召回率

Word embeddings in 2020

Word embeddings in 2020 转载自 https://colab.research.google.com/drive/1N7HELWImK9xCYheyozVP3C_McbiRo1nb 本文对每个词嵌入方法都有一个（非常）简短的描述，进一步研究的链接以及Python中的代码示例。所有代码都打包为Google Colab Notebook。根据Wikipedia的说法，单词嵌

2020-08-10

#技术

用人话解释交叉熵

交叉熵（cross entropy）是深度学习中常用的一个概念，一般用来求目标与预测值之间的差距。以前做一些分类问题的时候，没有过多的注意，直接调用现成的库，用起来也比较方便。最近开始发现自己对交叉熵的理解有些模糊，不够深入。遂花了几天的时间从头梳理了一下相关知识点，才算透彻的理解了，特地记录下来，以便日后查阅。信息论（熵概念介绍）为什么要用交叉熵做loss函数？交叉熵在单分类问题中的使用

2020-07-23

#交叉熵

搜索系统调研

如何构建搜索系统搜索系统的基本组成 Item 内容理解 Query 理解检索召回结果集排序

2020-07-21

#技术

NLP数据增强方法总结

在这篇文章中，我将基于我的发现概述当前用于文本数据扩充的方法。词汇替代反向翻译文字表面转换随机噪声注入实例交叉扩展语法树操作文字混合生成方法中文EDA工具

2020-07-03

#数据增强 #EDA