🇨🇳中文NLP常用开源库整理

https://github.com/crownpku/Awesome-Chinese-NLP
fighting41love/funNLP

Toolkits 综合NLP工具包

中文:

  • THULAC 中文词法分析工具包 (⭐️1.8K) by 清华 (C++/Java/Python)
  • BaiduLac (⭐️3.4K) by 百度,支持分词,词性标注,命名实体识别,词重要性
  • hankcs/HanLP (⭐️28.5K) 面向生产环境的多语种自然语言处理工具包
  • SnowNLP (⭐️6K) ,支持中文分词、词性标注、转换成拼音、TextRank算法、BM25等
  • EasyBert,基于Pytorch的Bert应用,包括命名实体识别、情感分析、文本分类以及文本相似度等

英文:

  • Stanza by Stanford (Python) A Python NLP Library for Many Human Languages
  • NLTK (Python) Natural Language Toolkit
  • spaCy (Python) Industrial-Strength Natural Language Processing with a online course
  • texthero Text preprocessing, representation and visualization from zero to hero.
  • AllenNLP 一个基于 PyTorch 构建的 Apache 2.0 NLP 研究库,用于在各种语言任务上开发最先进的深度学习模型。

中文分词工具包

  • Jieba 结巴中文分词 (Python及大量其它编程语言衍生) 做最好的 Python 中文分词组件
  • 北大中文分词工具 (Python) 高准确度中文分词工具,简单易用,跟现有开源工具相比大幅提高了分词的准确率。

信息提取工具包

  • Information-Extraction-Chinese Chinese Named Entity Recognition with IDCNN/biLSTM+CRF, and Relation Extraction with biGRU+2ATT 中文实体识别与关系提取
  • Familia 百度出品的 A Toolkit for Industrial Topic Modeling,可用于语义表示和语义匹配

关键短语挖掘库:

  • TextRank4ZH 从中文文本中自动提取关键词和摘要
  • HarvestText 作者对比测试优于上者(仅限关键词抽取)
  • JioNLP: 在 tfidf 方法提取的碎片化的关键词(默认使用 pkuseg 的分词工具)基础上,将在文本中相邻的关键词合并,并根据权重进行调整,同时合并较为相似的短语,并结合 LDA 模型,寻找突出主题的词汇,增加权重,组合成结果进行返回。
  • LAC (paddlepaddle >=2.0、LAC>=2.1) + DDParser

文本摘要:

QA & Chatbot 工具包

  • Rasa NLU (Python) turn natural language into structured data, a Chinese fork at Rasa NLU Chi
  • Rasa Core (Python) machine learning based dialogue engine for conversational software
  • DeepPavlov (Python) An open source library for building end-to-end dialog systems and training chatbots.
  • Chatterbot (Python) ChatterBot is a machine learning, conversational dialog engine for creating chat bots.
  • Chinese-Chatbot-PyTorch-Implementation 根据自己的语料训练出自己想要的聊天机器人,可以用于智能客服、在线问答、智能聊天等场景
  • rasa_chatbot_cn 基于最新版本rasa搭建的对话系统

文本匹配开源库

资源名(Name) 描述(Description) 链接
句子、QA相似度匹配MatchZoo 文本相似度匹配算法的集合,包含多个深度学习的方法,值得尝试。 github
中文问题句子相似度计算比赛及方案汇总 github
similarity相似度计算工具包 java编写,用于词语、短语、句子、词法分析、情感分析、语义分析等相关的相似度计算 github
中文词语相似度计算方法 综合了同义词词林扩展版与知网(Hownet)的词语相似度计算方法,词汇覆盖更多、结果更准确。 gihtub
Python字符串相似性算法库 github

文本分类

  • NeuralNLP-NeuralClassifier腾讯开源深度学习文本分类工具 github

    文本聚类

  • TextCluster短文本聚类预处理模块 Short text cluster github

文本数据增强

资源名(Name) 描述(Description) 链接
中文NLP数据增强(EDA)工具 github
英文NLP数据增强工具 github
一键中文数据增强工具 github
数据增强在机器翻译及其他nlp任务中的应用及效果 link
NLP数据增广资源集 github

Learning Materials 学习资料

医疗自然语言处理

资源名(Name) 描述(Description) 链接
中文医学NLP公开资源整理 github
spaCy 医学文本挖掘与信息提取 github
构建医疗实体识别的模型 包含词典和语料标注,基于python github
基于医疗领域知识图谱的问答系统 github
Chinese medical dialogue data 中文医疗对话数据集 github
一个大规模医疗对话数据集 包含110万医学咨询,400万条医患对话 github
新冠肺炎相关数据 新冠及其他类型肺炎中文医疗对话数据集;清华大学等机构的开放数据源(COVID-19) github

🇨🇳中文NLP常用开源库整理
http://example.com/2023/03/21/🇨🇳中文NLP常用开源库整理/
作者
Ning Shixian
发布于
2023年3月21日
许可协议