自动混合精度训练 摘要《MIXED PRECISION TRAINING》这篇论文是百度&Nvidia研究院一起发表的,结合N卡底层计算优化,提出了一种灰常有效的神经网络训练加速方法,不仅是预训练,在全民finetune BERT的今天变得异常有用哇。而且小夕调研了一下,发现不仅百度的paddle框架支持混合精度训练,在Tensorflow和Pytorch中也有相应的实现。下面我们先来讲讲理论,后面再分析混 2020-04-21 #教程 #技术 #Keras
linux后台运行(nohup&screen) linux后台运行(nohup&screen)nohup1nohup python -u flask_test.py > log.txt 2>&1 & 为避免python的输出缓冲,将程序中print的内容写入日志,使用-u参数,使得python不启用缓冲. screenscreen 是一个非常有用的命令,提供从单个 SSH 会话中使用多个 shell 窗口(会 2020-04-20 #教程 #技术 #Linux
预训练语言模型小酌 预训练原理 语言表示学习 神经上下文编码器 为什么预训练 预训练任务 应用于下游任务 开放资源 预训练模型 Transformer介绍 GPT (2018) BERT (2018) UniLM (2019) Transformer-XL (2019) XLNet (2019) MASS (2019) RoBERTa (2019) BART (2019) T5 (2019) ERNIE (Ba 2020-04-10 #预训练 #语言模型
python定时任务 Python定时任务 实现系统监测功能为例: 1:定时或者定点监测CPU与内存使用率; 2:将时间,CPU,内存使用情况保存到日志文件; 主要介绍4类开启定时任务的方法: 最简单使用方式:循环+sleep 线程模块中Timer类 调度模块:schedule 💡定时任务框架:APScheduler 2020-04-02 #技术 #Python #定时任务
通过Python来操作kylin数据 通过Python来操作kylin数据 安装依赖的包(py2/py3都支持) 123pip install kylinpypip install sqlalchemypip install --upgrade kylinpy kylinpy工具库包含两个可使用原件. 想要了解更多关于此工具库信息请点击Github仓库. Apache Kylin 命令行工具 Apache Kylin SQLAc 2020-04-01 #教程 #技术 #Python
基于模糊音的中文匹配Dimsim dimsim介绍 论文解读dimsim的python实现 中文的语音相似性Phonetic similarity算法,可以用于语音纠错spelling correction,比如将稀饭修改为喜欢。 dimsim三方库介绍:给定两个相同长度的中文单词,模型确定两个单词之间的距离,并返回几个与给定单词接近的候选单词。它包括 2 个API接口: get_distance:接收两个短语字符串,返回 2020-03-31 #Dimsim
FlashText高效关键词查找与替换 FlashText 介绍通常,我们使用Python 在文本中进行关键词查找或替换时,会使用 re 模块以正则的形式实现。在文本数量、文本内容、关键词数量较小时,该方法能够满足我们程序的功能、性能需要。但当在大规模的文本或者对大量关键词语料查找或者替换,re 实现方案的性能将成为瓶颈,本文我们将介绍一种新的关键词搜索和替换的算法:Flashtext 算法,它是一个高效的字符搜索和替换算法。 先来看个 2020-03-31 #FlashText
Trie 树 什么是 Trie 树Trie 树,又称前缀树,字段典树,或单词查找树,是一种树形结构,也是哈希表的变种,它是一种专门处理字段串匹配的数据结构,用来解决在一组字符串集合中快速查找某个字符串的问题,主要被搜索引擎用来做文本词频的统计。 先看一下前辍树的图: 这棵前辍树根节点不存放数据,其他节点保存了 hello,her,hi,how,see,so 等关键词信息,如果查 he 前辍的单词可以很快返回 2020-03-31 #Trie 树
字符串模糊匹配指南 字符串模糊匹配指南 textdistance: 30+传统的字面距离计算 √ difflib: Python自带的计算文本差异的辅助工具 √ fuzzywuzzy: 依据编辑算法计算两个序列之间的差异 strsimpy: 计算各种字符串距离的包 Fast Fuzzy Matching: 快 textdistance库 ❤❤❤textdistance 库使用传统的字面匹配算法来综合评估两段文本的匹 2020-03-31 #字符串模糊匹配
模式匹配技术总结(AC自动机) 转载自:经典算法—Aho-Corasick automaton Aho–Corasick automaton,简称AC自动机,著名的多模匹配算法,由Alfred V. Aho和Margaret J.Corasick于1975年在贝尔实验室发明,主要用于多模式串匹配问题,即给几个关键词(模式串),再给一篇文章,判断关键词是否在文章中出现,或出现的次数。 Aho-Corasick算法,通过将模式串 2020-03-31 #模式匹配