🇨🇳中文常用语料Corpus整理
InsaneLife/ChineseNLPCorpus
SophonPlus/ChineseNlpCorpus
brightmart/nlp_chinese_corpus
ningshixian/NLP-zoo、fighting41love/funNLP
中文词典
- Synonyms:中文近义词工具包 基于维基百科中文和word2vec训练的近义词库,封装为python包文件
- 同义词库、反义词库、否定词库
- 中文人名语料库 中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。
- 公司名、机构名语料库 公司简称,缩写,品牌词,企业名。
- 中文敏感词词库 textfilter 敏感词过滤的几种实现+某1w词敏感词库
- 中文简称/缩写词库 A corpus of Chinese abbreviation, including negative full forms.
- 词汇情感值:如山泉水:0.400704566541、充沛: 0.37006739587
- THU整理的词库:IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库
- 中文字符数据:github
- 领域词典库 DomainWordsDict:涵盖68个领域、共计916万词的专业词典知识库
超大型通用语料
语料名称 | 语料大小 | 语料描述 |
---|---|---|
维基百科json版(wiki2019zh) | 104万个词条, 1.6G | 做预训练的语料或构建词向量,也可以用于构建知识问答 |
新闻语料json版(news2016zh) | 250万篇新闻,原始数据9G | 密码: film 包含了250万篇新闻。数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万 |
百科类问答json版(baike2018qa) | 150万个问答,原始数据1G多 | 含有150万个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别 |
社区问答json版(webtext2019zh) | 410万个问答,过滤后数据3.7G | 含有410万个预先过滤过的、高质量问题和回复。 |
领域特定语料
语料名称 | 语料大小 | 语料描述 |
---|---|---|
保险行业QA语料库 | 未知 | train_data含有问题12,889条,数据 141779条,正例:负例 = 1:10; test_data含有问题2,000条,数据 22000条,正例:负例 = 1:10;valid_data含有问题2,000条,数据 22000条,正例:负例 = 1:10 |
FinancialDatasets | - | SmoothNLP 金融文本数据集(公开) Public Financial Datasets for NLP Researches Only |
CAIL2018 | - | 2018中国‘法研杯’法律智能挑战赛(任务:罪名预测、法条推荐、刑期预测)的数据,数据集共包括268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑。 |
github | - | Chinese medical dialogue data 中文医疗对话数据集 |
github | 包含110万医学咨询,400万条医患对话 | 一个大规模医疗对话数据集 |
github | - | MedQuAD(英文)医学问答数据集 |
NER & POS & 分词
语料名称 | 语料大小 | 语料描述 |
---|---|---|
MSRA | 5w+条 | 中文NER任务最常用数据之一,包含地名、人名和机构名三类 |
1998人民日报 | 137万多条 | 中文NER任务最常用数据之二,包含地名、人名和机构名三类实体类型。人民日报语料处理工具集 github |
weibo NER corpus | 1,890条 | 中文NER任务最常用数据之三。设计的实体有:人名、地点、组织、地理政治相关实体 |
boson数据(不维护了) | 2000条 | 包含6种实体类型:人名、地名、时间、组织名、公司名、产品名 |
Resume NER data | - | 爬虫新浪财经的的简历数据, CoNLL format (BIOES tag scheme),包括城市、学校、地点、人名、组织等 |
影视、音乐、书籍 | 大约10000条 | 包含 3 种实体:视频/音乐/书籍 |
1300W字的新闻 | 未知 | 该语料可用于分词、NER、POS等任务。标记和格式请参考此文章 |
CCKS2017中文电子病例命名实体识别 | - | 数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理 |
CCKS2018中文电子病例命名实体识别 | - | CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体 |
CLUE Fine-Grain NER | - | CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料 |
Chinese-Literature-NER-RE-Dataset | - | A Discourse-Level Named Entity Recognition and Relation Extraction Dataset for Chinese Literature Text |
文本分类
语料名称 | 语料大小 | 语料描述 |
---|---|---|
2018中国‘法研杯’法律智能挑战赛数据 | 未知 | 268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑 |
今日头条中文新闻(短文本) | 共38万条 | 15个分类中,包含民生、文化、娱乐、体育、财经、房产、骑车、教育、科技、军事、旅游、国际、证券、农业、电竞 |
搜狗20061127新闻语料(包含分类)@百度盘 | ||
清华新闻分类语料 | 74万篇新闻文档(2.19 GB) | 根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成 |
中科大新闻分类语料库 |
推荐系统
数据集 | 数据概览 | 下载地址 |
---|---|---|
ez_douban | 5 万多部电影(3 万多有电影名称,2 万多没有电影名称),2.8 万 用户,280 万条评分数据 | 点击查看 |
dmsc_v2 | 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 | 点击查看 |
yf_dianping | 24 万家餐馆,54 万用户,440 万条评论/评分数据 | 点击查看 |
yf_amazon | 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 | 点击查看 |
阅读理解
阅读理解数据集按照方法主要有:抽取式、分类(观点提取)。按照篇章又分为单篇章、多篇章,比如有的问题答案可能需要从多个文章中提取,每个文章可能都只是一部分,那么多篇章提取就会面临怎么合并,合并的时候怎么去掉重复的,保留补充的。
名称 | 规模 | 说明 | 单位 | 下载 | 评测 |
---|---|---|---|---|---|
DuReader | 30万问题 140万文档 66万答案 | 问答阅读理解数据集 | 百度 | 链接 | 2018 NLP Challenge on MRC、2019 Language and Intelligence Challenge on MRC |
DuReaderrobust | 2.2万问题 | 单篇章、抽取式阅读理解数据集 | 百度 | 链接 | 评测 |
CMRC 2018 | 2万问题 | 篇章片段抽取型阅读理解 | 哈工大讯飞联合实验室 | 链接 | 第二届“讯飞杯”中文机器阅读理解评测 |
DuReaderyesno | 9万 | 观点型阅读理解数据集 | 百度 | 链接 | 评测 |
DuReaderchecklist | 1万 | 抽取式数据集 | 百度 | 链接 | - |
FAQ 问答
数据集 | 数据概览 | 下载地址 |
---|---|---|
保险知道 | 8000 多条保险行业问答数据,包括用户提问、网友回答、最佳回答 | 点击查看 |
安徽电信知道 | 15.6 万条电信问答数据,包括用户提问、网友回答、最佳回答 | 点击查看 |
金融知道 | 77 万条金融行业问答数据,包括用户提问、网友回答、最佳回答 | 点击查看 |
法律知道 | 3.6 万条法律问答数据,包括用户提问、网友回答、最佳回答 | 点击查看 |
联通知道 | 20.3 万条联通问答数据,包括用户提问、网友回答、最佳回答 | 点击查看 |
农行知道 | 4 万条农业银行问答数据,包括用户提问、网友回答、最佳回答 | 点击查看 |
保险知道 | 58.8 万条保险行业问答数据,包括用户提问、网友回答、最佳回答 | 点击查看 |
百度知道问答 | 包括超过580万的问题,每个问题带有问题标签。问答对983万个,每个问题的答案个数1.7个,问题标签个数5824个。 | 点击查看 |
DuReader | 百度开源的一个QA和MRC数据集,共140万篇文档,30万个问题,及66万个答案。 | 点击查看 |
社区问答数据 | 含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个话题,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签 | 点击查看 |
任务型对话数据
数据集 | 数据概览 | 下载地址 |
---|---|---|
任务型对话英文数据集 | 【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。 | github |
Medical DS | 复旦大学发布的基于百度拇指医生上真实对话数据的,面向任务型对话的中文医疗诊断数据集。 | 链接 |
千言数据集 | 包含知识对话、推荐对话、画像对话。千言里面还有很多数据集,见: https://www.luge.ai/#/ | 官网 |
JD客服对话数据 | 42GB的JD客服对话数据(CSDD) | github |
CATSLU | 之前的一些对话数据集集中于语义理解,而工业界真实情况ASR也会有错误,往往被忽略。CATSLU而是一个中文语音+NLU文本理解的对话数据集,可以从语音信号到理解端到端进行实验,例如直接从音素建模语言理解(而非word or token)。 | 链接 |
NLPCC2018 Shared Task 4 | 中文真实商用车载语音任务型对话系统的对话日志. | 训练开发集 测试集 |
SMP-2020-ECDT小样本对话语言理解数据集 | 来自于讯飞AIUI开放平台上真实用户语料和专家构造的语料(比例大概为3:7) | 链接 |
SMP2017中文人机对话评测数据 | 包含了两个任务的数据集,用户意图领域分类和特定域任务型人机对话在线评测。第一个数据集用得比较多。用户意图领域分类包含闲聊类、任务垂直类共三十一个类别,属于短文本分类的一个范畴 | 链接 |
SMP-2019-NLU | 包含领域分类、意图识别和语义槽填充三项子任务的数据集 | trian.json |
闲聊
语料名称 | 语料Size | 语料来源 | 语料描述 |
---|---|---|---|
中文对白语料 chinese conversation corpus | 可以用作聊天机器人的训练语料 | ||
chatterbot | 560 | 开源项目 | 按类型分类,质量较高 |
qingyun(青云语料) | 10W | 某聊天机器人交流群 | 相对不错,生活化 |
xiaohuangji(小黄鸡语料) | 45W | 原人人网项目语料 | 有一些不雅对话,少量噪音 |
douban(豆瓣多轮) | 352W | 来自北航和微软的paper, 开源项目 | 噪音相对较少,原本是多轮(平均7.6轮) |
weibo(微博语料) | 443W | 来自华为的paper | 有一些噪音 |
中文闲聊语料库LCCC | ??W | 清华大学2020 | 大规模的中文闲聊语料库LCCC,从开源的文件上来看,这可能是目前开源的数量最大、质量最好的闲聊语料库了 |
dgk_lost_conv 中文对白语料 | chinese conversation corpus | ||
用于训练中英文对话系统的语料库 | Datasets for Training Chatbot System | ||
八卦版問答中文語料 | |||
中文公开聊天语料库 |
语义相似度
哈工大 LCQMC 数据集
LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同。该数据集的数据预览如下:
1 |
|
原始数据集链接:http://icrc.hitsz.edu.cn/Article/show/171.html
AFQMC 蚂蚁金融语义相似度数据集
AFQMC(Ant Financial Question Matching Corpus)蚂蚁金融语义相似度数据集,用于问题相似度计算。即:给定客服里用户描述的两句话,用算法来判断是否表示了相同的语义。每一条数据有三个属性,分别是句子1,句子2,句子相似度标签。标签 “1” :表示两个句子的语义类似;”0”:表示两个句子的语义不同。
原始数据为 json 格式,本仓库将其处理成形如 LCQMC 三列的格式,每列之间使用 ‘\t’ 分隔:
1 |
|
原始数据集链接:https://tianchi.aliyun.com/dataset/dataDetail?dataId=106411
OPPO 小布对话文本语义匹配数据集
该数据集通过对闲聊、智能客服、影音娱乐、信息查询等多领域真实用户交互语料进行用户信息脱敏、相似度筛选处理得到,数据主要特点是文本较短、非常口语化、存在文本高度相似而语义不同的难例。该数据集所有标签都有经过人工精标确认。
原始数据为 json 格式,本仓库将其处理成形如 LCQMC 三列的格式,每列之间使用 ‘\t’ 分隔:
1 |
|
原始数据集链接:https://tianchi.aliyun.com/competition/entrance/531851/introduction
谷歌 PAWS-X 数据集
谷歌发布的同义句识别数据集,中文部分包含了释义对和非释义对,即识别一对句子是否具有相同的释义(含义),特点是具有高度重叠词汇,重点考察模型对句法结构的理解能力。该数据集的数据预览如下:
1 |
|
每条数据包含4列,分别表示数据 id,sentence1,sentence2 和 label,每列之间使用 ‘\t’ 分隔。
原始数据集链接:https://github.com/google-research-datasets/paws
北大中文文本复述数据集 PKU-Paraphrase-Bank
北大发布的中文文本复述语料库,每条数据包含两列,分别表示两个具有相同含义的句子,列与列之间使用 ‘\t’ 分隔。该数据集一共有 509832 组句子对,平均每句 23.05 个词。
1 |
|
原始数据集链接:https://github.com/pkucoli/PKU-Paraphrase-Bank/
Chinese-STS-B 数据集
该数据集通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度上缓解中文语义相似度计算数据集不够的问题。每条数据包含三列,分别表示 sentence1、sentence2 和相似等级,相似等级范围为 0~5,5 表示语义一致,0 表示语义不相关。
1 |
|
原始数据集链接:https://github.com/pluto-junzeng/CNSD
中文指令数据集
收集包含中文的指令数据集,用于微调语言模型。
模型 | 大小 | 语言 | 下载 | 作者 | 项目地址 | 备注 |
---|---|---|---|---|---|---|
Zhihu-KOL | / | 中文 | dataset | Rui Wang | Zhihu-KOL | |
InstructionWild | 104k | 中英文 | dataset | Xue Fuzhao | InstructionWild | |
GuanacoDataset | / | 中/多语言 | dataset | Guanaco | guanaco-model | |
Traditional-Chinese-alpaca | 52K | 中文 | dataset | NTU NLP Lab | Traditional-Chinese Alpaca | gpt翻译 |
alpaca_chinese_dataset | / | 中文 | dataset | akou | alpaca_chinese_dataset | 人工校验 |
alpaca-chinese-dataset | / | 中文 | dataset | carbonz | alpaca-chinese-dataset | 机器翻译 |
generated_train_1M_CN | 1M | 中文 | dataset | Ke Technologies | BELLE | |
generated_train_0.5M_CN | 0.5M | 中文 | dataset | Ke Technologies | BELLE | |
HC3 人类-ChatGPT 问答对比语料集(中文) | / | 中文 | dataset | SimpleAI | chatgpt-comparison-detection | |