🇨🇳中文NLP常用开源库整理

https://github.com/crownpku/Awesome-Chinese-NLP
fighting41love/funNLP

Toolkits 综合NLP工具包

中文：

英文：

Stanza by Stanford (Python) A Python NLP Library for Many Human Languages
NLTK (Python) Natural Language Toolkit
spaCy (Python) Industrial-Strength Natural Language Processing with a online course
texthero Text preprocessing, representation and visualization from zero to hero.
AllenNLP 一个基于 PyTorch 构建的 Apache 2.0 NLP 研究库，用于在各种语言任务上开发最先进的深度学习模型。

Information-Extraction-Chinese Chinese Named Entity Recognition with IDCNN/biLSTM+CRF, and Relation Extraction with biGRU+2ATT 中文实体识别与关系提取
Familia 百度出品的 A Toolkit for Industrial Topic Modeling，可用于语义表示和语义匹配

关键短语挖掘库：

TextRank4ZH 从中文文本中自动提取关键词和摘要
HarvestText 作者对比测试优于上者（仅限关键词抽取）
JioNLP: 在 tfidf 方法提取的碎片化的关键词（默认使用 pkuseg 的分词工具）基础上，将在文本中相邻的关键词合并，并根据权重进行调整，同时合并较为相似的短语，并结合 LDA 模型，寻找突出主题的词汇，增加权重，组合成结果进行返回。
LAC (paddlepaddle >=2.0、LAC>=2.1) + DDParser

文本摘要：

Rasa NLU (Python) turn natural language into structured data, a Chinese fork at Rasa NLU Chi
Rasa Core (Python) machine learning based dialogue engine for conversational software
DeepPavlov (Python) An open source library for building end-to-end dialog systems and training chatbots.
Chatterbot (Python) ChatterBot is a machine learning, conversational dialog engine for creating chat bots.
Chinese-Chatbot-PyTorch-Implementation 根据自己的语料训练出自己想要的聊天机器人，可以用于智能客服、在线问答、智能聊天等场景
rasa_chatbot_cn 基于最新版本rasa搭建的对话系统

资源名（Name）	描述（Description）	链接
句子、QA相似度匹配MatchZoo	文本相似度匹配算法的集合，包含多个深度学习的方法，值得尝试。	github
中文问题句子相似度计算比赛及方案汇总		github
similarity相似度计算工具包	java编写,用于词语、短语、句子、词法分析、情感分析、语义分析等相关的相似度计算	github
中文词语相似度计算方法	综合了同义词词林扩展版与知网（Hownet）的词语相似度计算方法，词汇覆盖更多、结果更准确。	gihtub
Python字符串相似性算法库		github

中文Deep Learning Book
Stanford CS224n Natural Language Processing with Deep Learning 2017
Oxford CS DeepNLP 2017
[Course materials for Georgia Tech CS 4650 and 7650, “Natural Language”] (https://github.com/jacobeisenstein/gt-nlp-class)
Speech and Language Processing by Dan Jurafsky and James H. Martin
52nlp 我爱自然语言处理
hankcs 码农场
文本处理实践课资料文本处理实践课资料，包含文本特征提取（TF-IDF），文本分类，文本聚类，word2vec训练词向量及同义词词林中文词语相似度计算、文档自动摘要，信息抽取，情感分析与观点挖掘等实验。
nlp_tasks Natural Language Processing Tasks and Selected References
NLP研究入门之道 from清华刘知远老师
Chinese NLP Shared tasks, datasets and state-of-the-art results for Chinese Natural Language Processing

资源名（Name）	描述（Description）	链接
中文医学NLP公开资源整理		github
spaCy 医学文本挖掘与信息提取		github
构建医疗实体识别的模型	包含词典和语料标注，基于python	github
基于医疗领域知识图谱的问答系统		github
Chinese medical dialogue data 中文医疗对话数据集		github
一个大规模医疗对话数据集	包含110万医学咨询，400万条医患对话	github
新冠肺炎相关数据	新冠及其他类型肺炎中文医疗对话数据集；清华大学等机构的开放数据源（COVID-19）	github

LLM

#中文NLP库

🇨🇳中文NLP常用开源库整理

http://example.com/2023/03/21/🇨🇳中文NLP常用开源库整理/

作者

Ning Shixian

发布于

2023年3月21日

许可协议