🇨🇳中文常用语料Corpus整理

InsaneLife/ChineseNLPCorpus
SophonPlus/ChineseNlpCorpus
brightmart/nlp_chinese_corpus
ningshixian/NLP-zoofighting41love/funNLP

中文词典

超大型通用语料

语料名称 语料大小 语料描述
维基百科json版(wiki2019zh) 104万个词条, 1.6G 做预训练的语料或构建词向量,也可以用于构建知识问答
新闻语料json版(news2016zh) 250万篇新闻,原始数据9G 密码: film 包含了250万篇新闻。数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万
百科类问答json版(baike2018qa) 150万个问答,原始数据1G多 含有150万个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别
社区问答json版(webtext2019zh) 410万个问答,过滤后数据3.7G 含有410万个预先过滤过的、高质量问题和回复。

领域特定语料

语料名称 语料大小 语料描述
保险行业QA语料库 未知 train_data含有问题12,889条,数据 141779条,正例:负例 = 1:10; test_data含有问题2,000条,数据 22000条,正例:负例 = 1:10;valid_data含有问题2,000条,数据 22000条,正例:负例 = 1:10
FinancialDatasets - SmoothNLP 金融文本数据集(公开) Public Financial Datasets for NLP Researches Only
CAIL2018 - 2018中国‘法研杯’法律智能挑战赛(任务:罪名预测、法条推荐、刑期预测)的数据,数据集共包括268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑。
github - Chinese medical dialogue data 中文医疗对话数据集
github 包含110万医学咨询,400万条医患对话 一个大规模医疗对话数据集
github - MedQuAD(英文)医学问答数据集

NER & POS & 分词

语料名称 语料大小 语料描述
MSRA 5w+条 中文NER任务最常用数据之一,包含地名、人名和机构名三类
1998人民日报 137万多条 中文NER任务最常用数据之二,包含地名、人名和机构名三类实体类型。人民日报语料处理工具集 github
weibo NER corpus 1,890条 中文NER任务最常用数据之三。设计的实体有:人名、地点、组织、地理政治相关实体
boson数据(不维护了) 2000条 包含6种实体类型:人名、地名、时间、组织名、公司名、产品名
Resume NER data - 爬虫新浪财经的的简历数据, CoNLL format (BIOES tag scheme),包括城市、学校、地点、人名、组织等
影视、音乐、书籍 大约10000条 包含 3 种实体:视频/音乐/书籍
1300W字的新闻 未知 该语料可用于分词、NER、POS等任务。标记和格式请参考此文章
CCKS2017中文电子病例命名实体识别 - 数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理
CCKS2018中文电子病例命名实体识别 - CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体
CLUE Fine-Grain NER - CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料
Chinese-Literature-NER-RE-Dataset - A Discourse-Level Named Entity Recognition and Relation Extraction Dataset for Chinese Literature Text

文本分类

语料名称 语料大小 语料描述
2018中国‘法研杯’法律智能挑战赛数据 未知 268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑
今日头条中文新闻(短文本) 共38万条 15个分类中,包含民生、文化、娱乐、体育、财经、房产、骑车、教育、科技、军事、旅游、国际、证券、农业、电竞
搜狗20061127新闻语料(包含分类)@百度盘
清华新闻分类语料 74万篇新闻文档(2.19 GB) 根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成
中科大新闻分类语料库

推荐系统

数据集 数据概览 下载地址
ez_douban 5 万多部电影(3 万多有电影名称,2 万多没有电影名称),2.8 万 用户,280 万条评分数据 点击查看
dmsc_v2 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 点击查看
yf_dianping 24 万家餐馆,54 万用户,440 万条评论/评分数据 点击查看
yf_amazon 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 点击查看

阅读理解

阅读理解数据集按照方法主要有:抽取式、分类(观点提取)。按照篇章又分为单篇章、多篇章,比如有的问题答案可能需要从多个文章中提取,每个文章可能都只是一部分,那么多篇章提取就会面临怎么合并,合并的时候怎么去掉重复的,保留补充的。

名称 规模 说明 单位 下载 评测
DuReader 30万问题 140万文档 66万答案 问答阅读理解数据集 百度 链接 2018 NLP Challenge on MRC2019 Language and Intelligence Challenge on MRC
DuReaderrobust 2.2万问题 单篇章、抽取式阅读理解数据集 百度 链接 评测
CMRC 2018 2万问题 篇章片段抽取型阅读理解 哈工大讯飞联合实验室 链接 第二届“讯飞杯”中文机器阅读理解评测
DuReaderyesno 9万 观点型阅读理解数据集 百度 链接 评测
DuReaderchecklist 1万 抽取式数据集 百度 链接 -

FAQ 问答

数据集 数据概览 下载地址
保险知道 8000 多条保险行业问答数据,包括用户提问、网友回答、最佳回答 点击查看
安徽电信知道 15.6 万条电信问答数据,包括用户提问、网友回答、最佳回答 点击查看
金融知道 77 万条金融行业问答数据,包括用户提问、网友回答、最佳回答 点击查看
法律知道 3.6 万条法律问答数据,包括用户提问、网友回答、最佳回答 点击查看
联通知道 20.3 万条联通问答数据,包括用户提问、网友回答、最佳回答 点击查看
农行知道 4 万条农业银行问答数据,包括用户提问、网友回答、最佳回答 点击查看
保险知道 58.8 万条保险行业问答数据,包括用户提问、网友回答、最佳回答 点击查看
百度知道问答 包括超过580万的问题,每个问题带有问题标签。问答对983万个,每个问题的答案个数1.7个,问题标签个数5824个。 点击查看
DuReader 百度开源的一个QA和MRC数据集,共140万篇文档,30万个问题,及66万个答案。 点击查看
社区问答数据 含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个话题,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签 点击查看

任务型对话数据

数据集 数据概览 下载地址
任务型对话英文数据集 【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。 github
Medical DS 复旦大学发布的基于百度拇指医生上真实对话数据的,面向任务型对话的中文医疗诊断数据集。 链接
千言数据集 包含知识对话、推荐对话、画像对话。千言里面还有很多数据集,见: https://www.luge.ai/#/ 官网
JD客服对话数据 42GB的JD客服对话数据(CSDD) github
CATSLU 之前的一些对话数据集集中于语义理解,而工业界真实情况ASR也会有错误,往往被忽略。CATSLU而是一个中文语音+NLU文本理解的对话数据集,可以从语音信号到理解端到端进行实验,例如直接从音素建模语言理解(而非word or token)。 链接
NLPCC2018 Shared Task 4 中文真实商用车载语音任务型对话系统的对话日志. 训练开发集 测试集
SMP-2020-ECDT小样本对话语言理解数据集 来自于讯飞AIUI开放平台上真实用户语料和专家构造的语料(比例大概为3:7) 链接
SMP2017中文人机对话评测数据 包含了两个任务的数据集,用户意图领域分类和特定域任务型人机对话在线评测。第一个数据集用得比较多。用户意图领域分类包含闲聊类、任务垂直类共三十一个类别,属于短文本分类的一个范畴 链接
SMP-2019-NLU 包含领域分类、意图识别和语义槽填充三项子任务的数据集 trian.json

闲聊

语料名称 语料Size 语料来源 语料描述
中文对白语料 chinese conversation corpus 可以用作聊天机器人的训练语料
chatterbot 560 开源项目 按类型分类,质量较高
qingyun(青云语料) 10W 某聊天机器人交流群 相对不错,生活化
xiaohuangji(小黄鸡语料) 45W 原人人网项目语料 有一些不雅对话,少量噪音
douban(豆瓣多轮) 352W 来自北航和微软的paper, 开源项目 噪音相对较少,原本是多轮(平均7.6轮)
weibo(微博语料) 443W 来自华为的paper 有一些噪音
中文闲聊语料库LCCC ??W 清华大学2020 大规模的中文闲聊语料库LCCC,从开源的文件上来看,这可能是目前开源的数量最大、质量最好的闲聊语料库了
dgk_lost_conv 中文对白语料 chinese conversation corpus
用于训练中英文对话系统的语料库 Datasets for Training Chatbot System
八卦版問答中文語料
中文公开聊天语料库

语义相似度

哈工大 LCQMC 数据集

LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同。该数据集的数据预览如下:

1
2
3
喜欢打篮球的男生喜欢什么样的女生	爱打篮球的男生喜欢什么样的女生		1 
我手机丢了,我想换个手机 我想买个新手机,求推荐 1
大家觉得她好看吗 大家觉得跑男好看吗? 0

原始数据集链接:http://icrc.hitsz.edu.cn/Article/show/171.html

AFQMC 蚂蚁金融语义相似度数据集

AFQMC(Ant Financial Question Matching Corpus)蚂蚁金融语义相似度数据集,用于问题相似度计算。即:给定客服里用户描述的两句话,用算法来判断是否表示了相同的语义。每一条数据有三个属性,分别是句子1,句子2,句子相似度标签。标签 “1” :表示两个句子的语义类似;”0”:表示两个句子的语义不同。
原始数据为 json 格式,本仓库将其处理成形如 LCQMC 三列的格式,每列之间使用 ‘\t’ 分隔:

1
2
3
花呗消费超过额度有什么影响吗	花呗额度成负数有啥影响吗	1 
还款还清了,为什么花呗账单显示还要还款 花呗全额还清怎么显示没有还款 1
花呗一次性付款有限制吗 解除花呗支付限制 0

原始数据集链接:https://tianchi.aliyun.com/dataset/dataDetail?dataId=106411

OPPO 小布对话文本语义匹配数据集

该数据集通过对闲聊、智能客服、影音娱乐、信息查询等多领域真实用户交互语料进行用户信息脱敏、相似度筛选处理得到,数据主要特点是文本较短、非常口语化、存在文本高度相似而语义不同的难例。该数据集所有标签都有经过人工精标确认。
原始数据为 json 格式,本仓库将其处理成形如 LCQMC 三列的格式,每列之间使用 ‘\t’ 分隔:

1
2
3
我真的超级生气		气死我了	1 
你生日是几月几日 你的老师生日是几月几日 0
打电话给爱老公 给爱老公打电话 1

原始数据集链接:https://tianchi.aliyun.com/competition/entrance/531851/introduction

谷歌 PAWS-X 数据集

谷歌发布的同义句识别数据集,中文部分包含了释义对和非释义对,即识别一对句子是否具有相同的释义(含义),特点是具有高度重叠词汇,重点考察模型对句法结构的理解能力。该数据集的数据预览如下:

1
2
3
2	1975年的NBA赛季 -  76赛季是全美篮球协会的第30个赛季。	1975-76赛季的全国篮球协会是NBA的第30个赛季。	1 
3 还有具体的讨论,公众形象辩论和项目讨论。 还有公开讨论,特定档案讨论和项目讨论。 0
4 当可以保持相当的流速时,结果很高。 当可以保持可比较的流速时,结果很高。 1

每条数据包含4列,分别表示数据 id,sentence1,sentence2 和 label,每列之间使用 ‘\t’ 分隔。
原始数据集链接:https://github.com/google-research-datasets/paws

北大中文文本复述数据集 PKU-Paraphrase-Bank

北大发布的中文文本复述语料库,每条数据包含两列,分别表示两个具有相同含义的句子,列与列之间使用 ‘\t’ 分隔。该数据集一共有 509832 组句子对,平均每句 23.05 个词。

1
2
3
莫雷尔指指肩膀,向士兵们暗示那是一个军官,应当给他找个地方暖和暖和。	莫雷尔指着他的肩,向士兵们示意,这是一个军官,应当让他暖和一下。 
他细心地把斧头套在大衣里面的环扣里。 他把斧子细心地挂在大衣里面的绳套上。
仁慈的上帝!难道那时我灵魂中还有一丝精力未曾使用? 仁慈的主呵!那时难道有我心灵中的任何一种能力不曾发挥么?

原始数据集链接:https://github.com/pkucoli/PKU-Paraphrase-Bank/

Chinese-STS-B 数据集

该数据集通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度上缓解中文语义相似度计算数据集不够的问题。每条数据包含三列,分别表示 sentence1、sentence2 和相似等级,相似等级范围为 0~5,5 表示语义一致,0 表示语义不相关。

1
2
3
4
5
6
一架飞机要起飞了。	一架飞机正在起飞。	5 
一个男人在切面包。 一个人在切洋葱。 2
一个男人在划独木舟。 一个人在弹竖琴。 0
一个男人开着他的车。 一个男人在开车。 4
三个男孩在跳舞。 孩子们在跳舞。 3
一个人一只手握着一只小动物。 一个男人在炫耀一只小猴子。 1

原始数据集链接:https://github.com/pluto-junzeng/CNSD

中文指令数据集

收集包含中文的指令数据集,用于微调语言模型。

模型 大小 语言 下载 作者 项目地址 备注
Zhihu-KOL / 中文 dataset Rui Wang Zhihu-KOL
InstructionWild 104k 中英文 dataset Xue Fuzhao InstructionWild
GuanacoDataset / 中/多语言 dataset Guanaco guanaco-model
Traditional-Chinese-alpaca 52K 中文 dataset NTU NLP Lab Traditional-Chinese Alpaca gpt翻译
alpaca_chinese_dataset / 中文 dataset akou alpaca_chinese_dataset 人工校验
alpaca-chinese-dataset / 中文 dataset carbonz alpaca-chinese-dataset 机器翻译
generated_train_1M_CN 1M 中文 dataset Ke Technologies BELLE
generated_train_0.5M_CN 0.5M 中文 dataset Ke Technologies BELLE
HC3 人类-ChatGPT 问答对比语料集(中文) / 中文 dataset SimpleAI chatgpt-comparison-detection

🇨🇳中文常用语料Corpus整理
http://example.com/2023/03/21/🇨🇳中文常用语料Corpus整理/
作者
Ning Shixian
发布于
2023年3月21日
许可协议