InsaneLife/ChineseNLPCorpus
SophonPlus/ChineseNlpCorpus
brightmart/nlp_chinese_corpus
ningshixian/NLP-zoo、fighting41love/funNLP
中文词典
- Synonyms:中文近义词工具包 基于维基百科中文和word2vec训练的近义词库,封装为python包文件
- 同义词库、反义词库、否定词库
- 中文人名语料库 中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。
- 公司名、机构名语料库 公司简称,缩写,品牌词,企业名。
- 中文敏感词词库 textfilter 敏感词过滤的几种实现+某1w词敏感词库
- 中文简称/缩写词库 A corpus of Chinese abbreviation, including negative full forms.
- 词汇情感值:如山泉水:0.400704566541、充沛: 0.37006739587
- THU整理的词库:IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库
- 中文字符数据:github
- 领域词典库 DomainWordsDict:涵盖68个领域、共计916万词的专业词典知识库
超大型通用语料
领域特定语料
语料名称 |
语料大小 |
语料描述 |
保险行业QA语料库 |
未知 |
train_data含有问题12,889条,数据 141779条,正例:负例 = 1:10; test_data含有问题2,000条,数据 22000条,正例:负例 = 1:10;valid_data含有问题2,000条,数据 22000条,正例:负例 = 1:10 |
FinancialDatasets |
- |
SmoothNLP 金融文本数据集(公开) Public Financial Datasets for NLP Researches Only |
CAIL2018 |
- |
2018中国‘法研杯’法律智能挑战赛(任务:罪名预测、法条推荐、刑期预测)的数据,数据集共包括268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑。 |
github |
- |
Chinese medical dialogue data 中文医疗对话数据集 |
github |
包含110万医学咨询,400万条医患对话 |
一个大规模医疗对话数据集 |
github |
- |
MedQuAD(英文)医学问答数据集 |
NER & POS & 分词
文本分类
推荐系统
数据集 |
数据概览 |
下载地址 |
ez_douban |
5 万多部电影(3 万多有电影名称,2 万多没有电影名称),2.8 万 用户,280 万条评分数据 |
点击查看 |
dmsc_v2 |
28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 |
点击查看 |
yf_dianping |
24 万家餐馆,54 万用户,440 万条评论/评分数据 |
点击查看 |
yf_amazon |
52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 |
点击查看 |
阅读理解
阅读理解数据集按照方法主要有:抽取式、分类(观点提取)。按照篇章又分为单篇章、多篇章,比如有的问题答案可能需要从多个文章中提取,每个文章可能都只是一部分,那么多篇章提取就会面临怎么合并,合并的时候怎么去掉重复的,保留补充的。
FAQ 问答
数据集 |
数据概览 |
下载地址 |
保险知道 |
8000 多条保险行业问答数据,包括用户提问、网友回答、最佳回答 |
点击查看 |
安徽电信知道 |
15.6 万条电信问答数据,包括用户提问、网友回答、最佳回答 |
点击查看 |
金融知道 |
77 万条金融行业问答数据,包括用户提问、网友回答、最佳回答 |
点击查看 |
法律知道 |
3.6 万条法律问答数据,包括用户提问、网友回答、最佳回答 |
点击查看 |
联通知道 |
20.3 万条联通问答数据,包括用户提问、网友回答、最佳回答 |
点击查看 |
农行知道 |
4 万条农业银行问答数据,包括用户提问、网友回答、最佳回答 |
点击查看 |
保险知道 |
58.8 万条保险行业问答数据,包括用户提问、网友回答、最佳回答 |
点击查看 |
百度知道问答 |
包括超过580万的问题,每个问题带有问题标签。问答对983万个,每个问题的答案个数1.7个,问题标签个数5824个。 |
点击查看 |
DuReader |
百度开源的一个QA和MRC数据集,共140万篇文档,30万个问题,及66万个答案。 |
点击查看 |
社区问答数据 |
含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个话题,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签 |
点击查看 |
任务型对话数据
数据集 |
数据概览 |
下载地址 |
任务型对话英文数据集 |
【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。 |
github |
Medical DS |
复旦大学发布的基于百度拇指医生上真实对话数据的,面向任务型对话的中文医疗诊断数据集。 |
链接 |
千言数据集 |
包含知识对话、推荐对话、画像对话。千言里面还有很多数据集,见: https://www.luge.ai/#/ |
官网 |
JD客服对话数据 |
42GB的JD客服对话数据(CSDD) |
github |
CATSLU |
之前的一些对话数据集集中于语义理解,而工业界真实情况ASR也会有错误,往往被忽略。CATSLU而是一个中文语音+NLU文本理解的对话数据集,可以从语音信号到理解端到端进行实验,例如直接从音素建模语言理解(而非word or token)。 |
链接 |
NLPCC2018 Shared Task 4 |
中文真实商用车载语音任务型对话系统的对话日志. |
训练开发集 测试集 |
SMP-2020-ECDT小样本对话语言理解数据集 |
来自于讯飞AIUI开放平台上真实用户语料和专家构造的语料(比例大概为3:7) |
链接 |
SMP2017中文人机对话评测数据 |
包含了两个任务的数据集,用户意图领域分类和特定域任务型人机对话在线评测。第一个数据集用得比较多。用户意图领域分类包含闲聊类、任务垂直类共三十一个类别,属于短文本分类的一个范畴 |
链接 |
SMP-2019-NLU |
包含领域分类、意图识别和语义槽填充三项子任务的数据集 |
trian.json |
闲聊
语义相似度
哈工大 LCQMC 数据集
LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同。该数据集的数据预览如下:
1 2 3
| 喜欢打篮球的男生喜欢什么样的女生 爱打篮球的男生喜欢什么样的女生 1 我手机丢了,我想换个手机 我想买个新手机,求推荐 1 大家觉得她好看吗 大家觉得跑男好看吗? 0
|
原始数据集链接:http://icrc.hitsz.edu.cn/Article/show/171.html
AFQMC 蚂蚁金融语义相似度数据集
AFQMC(Ant Financial Question Matching Corpus)蚂蚁金融语义相似度数据集,用于问题相似度计算。即:给定客服里用户描述的两句话,用算法来判断是否表示了相同的语义。每一条数据有三个属性,分别是句子1,句子2,句子相似度标签。标签 “1” :表示两个句子的语义类似;”0”:表示两个句子的语义不同。
原始数据为 json 格式,本仓库将其处理成形如 LCQMC 三列的格式,每列之间使用 ‘\t’ 分隔:
1 2 3
| 花呗消费超过额度有什么影响吗 花呗额度成负数有啥影响吗 1 还款还清了,为什么花呗账单显示还要还款 花呗全额还清怎么显示没有还款 1 花呗一次性付款有限制吗 解除花呗支付限制 0
|
原始数据集链接:https://tianchi.aliyun.com/dataset/dataDetail?dataId=106411
OPPO 小布对话文本语义匹配数据集
该数据集通过对闲聊、智能客服、影音娱乐、信息查询等多领域真实用户交互语料进行用户信息脱敏、相似度筛选处理得到,数据主要特点是文本较短、非常口语化、存在文本高度相似而语义不同的难例。该数据集所有标签都有经过人工精标确认。
原始数据为 json 格式,本仓库将其处理成形如 LCQMC 三列的格式,每列之间使用 ‘\t’ 分隔:
1 2 3
| 我真的超级生气 气死我了 1 你生日是几月几日 你的老师生日是几月几日 0 打电话给爱老公 给爱老公打电话 1
|
原始数据集链接:https://tianchi.aliyun.com/competition/entrance/531851/introduction
谷歌 PAWS-X 数据集
谷歌发布的同义句识别数据集,中文部分包含了释义对和非释义对,即识别一对句子是否具有相同的释义(含义),特点是具有高度重叠词汇,重点考察模型对句法结构的理解能力。该数据集的数据预览如下:
1 2 3
| 2 1975年的NBA赛季 - 76赛季是全美篮球协会的第30个赛季。 1975-76赛季的全国篮球协会是NBA的第30个赛季。 1 3 还有具体的讨论,公众形象辩论和项目讨论。 还有公开讨论,特定档案讨论和项目讨论。 0 4 当可以保持相当的流速时,结果很高。 当可以保持可比较的流速时,结果很高。 1
|
每条数据包含4列,分别表示数据 id,sentence1,sentence2 和 label,每列之间使用 ‘\t’ 分隔。
原始数据集链接:https://github.com/google-research-datasets/paws
北大中文文本复述数据集 PKU-Paraphrase-Bank
北大发布的中文文本复述语料库,每条数据包含两列,分别表示两个具有相同含义的句子,列与列之间使用 ‘\t’ 分隔。该数据集一共有 509832 组句子对,平均每句 23.05 个词。
1 2 3
| 莫雷尔指指肩膀,向士兵们暗示那是一个军官,应当给他找个地方暖和暖和。 莫雷尔指着他的肩,向士兵们示意,这是一个军官,应当让他暖和一下。 他细心地把斧头套在大衣里面的环扣里。 他把斧子细心地挂在大衣里面的绳套上。 仁慈的上帝!难道那时我灵魂中还有一丝精力未曾使用? 仁慈的主呵!那时难道有我心灵中的任何一种能力不曾发挥么?
|
原始数据集链接:https://github.com/pkucoli/PKU-Paraphrase-Bank/
Chinese-STS-B 数据集
该数据集通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度上缓解中文语义相似度计算数据集不够的问题。每条数据包含三列,分别表示 sentence1、sentence2 和相似等级,相似等级范围为 0~5,5 表示语义一致,0 表示语义不相关。
1 2 3 4 5 6
| 一架飞机要起飞了。 一架飞机正在起飞。 5 一个男人在切面包。 一个人在切洋葱。 2 一个男人在划独木舟。 一个人在弹竖琴。 0 一个男人开着他的车。 一个男人在开车。 4 三个男孩在跳舞。 孩子们在跳舞。 3 一个人一只手握着一只小动物。 一个男人在炫耀一只小猴子。 1
|
原始数据集链接:https://github.com/pluto-junzeng/CNSD
中文指令数据集
收集包含中文的指令数据集,用于微调语言模型。