🇨🇳中文NLP常用开源库整理
https://github.com/crownpku/Awesome-Chinese-NLP
fighting41love/funNLP
Toolkits 综合NLP工具包
中文:
- THULAC 中文词法分析工具包 (⭐️1.8K) by 清华 (C++/Java/Python)
- BaiduLac (⭐️3.4K) by 百度,支持分词,词性标注,命名实体识别,词重要性
- hankcs/HanLP (⭐️28.5K) 面向生产环境的多语种自然语言处理工具包
- SnowNLP (⭐️6K) ,支持中文分词、词性标注、转换成拼音、TextRank算法、BM25等
- EasyBert,基于Pytorch的Bert应用,包括命名实体识别、情感分析、文本分类以及文本相似度等
英文:
- Stanza by Stanford (Python) A Python NLP Library for Many Human Languages
- NLTK (Python) Natural Language Toolkit
- spaCy (Python) Industrial-Strength Natural Language Processing with a online course
- texthero Text preprocessing, representation and visualization from zero to hero.
- AllenNLP 一个基于 PyTorch 构建的 Apache 2.0 NLP 研究库,用于在各种语言任务上开发最先进的深度学习模型。
中文分词工具包
- Jieba 结巴中文分词 (Python及大量其它编程语言衍生) 做最好的 Python 中文分词组件
- 北大中文分词工具 (Python) 高准确度中文分词工具,简单易用,跟现有开源工具相比大幅提高了分词的准确率。
信息提取工具包
- Information-Extraction-Chinese Chinese Named Entity Recognition with IDCNN/biLSTM+CRF, and Relation Extraction with biGRU+2ATT 中文实体识别与关系提取
- Familia 百度出品的 A Toolkit for Industrial Topic Modeling,可用于语义表示和语义匹配
关键短语挖掘库:
- TextRank4ZH 从中文文本中自动提取关键词和摘要
- HarvestText 作者对比测试优于上者(仅限关键词抽取)
- JioNLP: 在 tfidf 方法提取的碎片化的关键词(默认使用 pkuseg 的分词工具)基础上,将在文本中相邻的关键词合并,并根据权重进行调整,同时合并较为相似的短语,并结合 LDA 模型,寻找突出主题的词汇,增加权重,组合成结果进行返回。
- LAC (paddlepaddle >=2.0、LAC>=2.1) + DDParser
文本摘要:
QA & Chatbot 工具包
- Rasa NLU (Python) turn natural language into structured data, a Chinese fork at Rasa NLU Chi
- Rasa Core (Python) machine learning based dialogue engine for conversational software
- DeepPavlov (Python) An open source library for building end-to-end dialog systems and training chatbots.
- Chatterbot (Python) ChatterBot is a machine learning, conversational dialog engine for creating chat bots.
- Chinese-Chatbot-PyTorch-Implementation 根据自己的语料训练出自己想要的聊天机器人,可以用于智能客服、在线问答、智能聊天等场景
- rasa_chatbot_cn 基于最新版本rasa搭建的对话系统
文本匹配开源库
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
句子、QA相似度匹配MatchZoo | 文本相似度匹配算法的集合,包含多个深度学习的方法,值得尝试。 | github |
中文问题句子相似度计算比赛及方案汇总 | github | |
similarity相似度计算工具包 | java编写,用于词语、短语、句子、词法分析、情感分析、语义分析等相关的相似度计算 | github |
中文词语相似度计算方法 | 综合了同义词词林扩展版与知网(Hownet)的词语相似度计算方法,词汇覆盖更多、结果更准确。 | gihtub |
Python字符串相似性算法库 | github |
文本分类
NeuralNLP-NeuralClassifier腾讯开源深度学习文本分类工具 github
文本聚类
TextCluster短文本聚类预处理模块 Short text cluster github
文本数据增强
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文NLP数据增强(EDA)工具 | github | |
英文NLP数据增强工具 | github | |
一键中文数据增强工具 | github | |
数据增强在机器翻译及其他nlp任务中的应用及效果 | link | |
NLP数据增广资源集 | github |
Learning Materials 学习资料
- 中文Deep Learning Book
- Stanford CS224n Natural Language Processing with Deep Learning 2017
- Oxford CS DeepNLP 2017
- [Course materials for Georgia Tech CS 4650 and 7650, “Natural Language”] (https://github.com/jacobeisenstein/gt-nlp-class)
- Speech and Language Processing by Dan Jurafsky and James H. Martin
- 52nlp 我爱自然语言处理
- hankcs 码农场
- 文本处理实践课资料 文本处理实践课资料,包含文本特征提取(TF-IDF),文本分类,文本聚类,word2vec训练词向量及同义词词林中文词语相似度计算、文档自动摘要,信息抽取,情感分析与观点挖掘等实验。
- nlp_tasks Natural Language Processing Tasks and Selected References
- NLP研究入门之道 from清华刘知远老师
- Chinese NLP Shared tasks, datasets and state-of-the-art results for Chinese Natural Language Processing
医疗自然语言处理
🇨🇳中文NLP常用开源库整理
http://example.com/2023/03/21/🇨🇳中文NLP常用开源库整理/