K-means聚类详解 K-means 算法是一种基于相似属性将一组数据点划分为不同集群或组的方法。它是一种无监督学习算法,这意味着它不需要标记数据来查找数据集中的模式。 K-Means使用步骤 初始中心点怎么确定 K值怎么确定 「K均值聚类」的Tips 什么是聚类?聚类的目标是将项目分成组,使得组中的对象比组外的对象更相似,我们可以在 k-means 中使用我们想要的任何相似度函数来比较两个点。 如何定义集群中的相 2021-09-06 #文本聚类
文本聚类算法总结 1. 聚类介绍 聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster). 通过这样的划分,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。 聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者自己来把握。 聚类既能作为一个单独的过程用于寻找数据内在的分布结构,也可以作为分类等其他学习任务的前驱过程。 1.1 2021-09-06 #文本聚类
降维方法总结 在现实生活中很多机器学习问题有上千维,甚至上万维特征,这不仅影响了训练速度,通常还很难找到比较好的解。这样的问题成为维数灾难(curse of dimensionality) 幸运的是,理论上降低维度是可行的。比如MNIST数据集大部分的像素总是白的,因此可以去掉这些特征;相邻的像素之间是高度相关的,如果变为一个像素,相差也并不大。 需要注意:降低维度肯定会损失一些信息,这可能会让表现稍微变差。因 2021-09-06 #降维
【转载】深度学习中Dropout原理解析 目录: Dropout简介 1.1 Dropout出现的原因 1.2 什么是Dropout Dropout工作流程及使用 2.1 Dropout具体工作流程 2.2 Dropout在神经网络中的使用 为什么说Dropout可以解决过拟合 Dropout在Keras中源码分析 2021-08-30 #Dropout
从0开始知识蒸馏 翻译自 https://keras.io/examples/vision/knowledge_distillation/#train-student-from-scratch-for-comparison View in Colab • GitHub source 更多关于蒸馏和模型推理加速的知识可参考博客《预训练模型参数量越来越大?这里有你需要的BERT推理加速技术指南》 知识蒸馏简介 2021-07-27 #知识蒸馏
算法工程师工作心得 转载自《心法利器[31] | 我的算法工程师日常》 大家对算法工程师有这么几个误区: 算法工程师每天就是调调包就好了,工资还赚的很多。 模型一训练,剩下的时间就能摸鱼了。 整天就是调模型就好了,脱离业务。 其实这些误区都是围绕着模型来走的,很多人会以为算法只是在做模型,当然这个和很多媒体号聊的风向有关,但其实并非如此,模型工作只是占的很小的一个比例,大家一定要有这个预期。 工作总结大体工作有哪 2021-07-22 #算法工程师
Docker容器 Docker基本概念 镜像(Image) Docker 镜像 是一个特殊的文件系统,除了提供容器运行时所需的程序、库、资源、配置等文件外,还包含了一些为运行时准备的一些配置参数(如匿名卷、环境变量、用户等)。镜像 不包含 任何动态数据,其内容在构建之后也不会被改变。 容器(Container) 镜像(Image)和容器(Container)的关系,就像是面向对象程序设计中的 类 和 实例 2021-07-14 大数据技术支持 #docker
Kafka消息队列 文章目录1、Kafka 为实时日志流而生,要处理的并发和数据量非常大。可见,Kafka 本身就是一个高并发系统,它必然会遇到高并发场景下典型的三高挑战:高性能、高可用和高扩展。 2、为了简化实现的复杂度,Kafka 最终采用了很巧妙的消息模型:它将所有消息进行了持久化存储,让消费者自己各取所需,想取哪个消息,想什么时候取都行,只需要传递一个消息的 offset 进行拉取即可。 3、从宏观角度解析 2021-07-14 大数据技术支持 #kafka
oss对象存储服务 oss 简介对象存储服务(Object Storage Service,OSS)是一种海量、安全、低成本、高可靠的云存储服务,适合存放任意类型的文件。容量和处理能力弹性扩展,多种存储类型供选择,全面优化存储成本。 白话文解释就是将系统所要用的文件上传到云硬盘上,该云硬盘提供了文件下载、上传等一列服务,这样的服务以及技术可以统称为OSS,业内提供OSS服务的厂商很多,知名常用且成规模的蓝队云等。 O 2021-07-14 大数据技术支持 #oss