机器学习界有一群炼丹师,他们每天的日常是: 拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着丹药出炉了。 不过,当过厨子的都知道,同样的食材,同样的菜谱,但火候不一样了,这出来的口味可是千差万别。火小了夹生,火大了易糊,火不匀则半生半糊。 机器学习也是一样,模型优化算法的选择直接关系到最终模型的性能。有时候效果不好,未必是特征的问题或者模型设计的问题,很可能就是优化算法的问题。 说到优化算法,入门级必从SGD学起,老司机则会告诉你更好的还有AdaGrad/AdaDelta,或者直接无脑…

2020年07月04日 0条评论 19点热度 1人点赞 阅读全文

决策树概述 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。 缺点:可能会产生过度匹配问题。 适用数据类型:数值型和标称型。 决策树是一种依托决策而建立起来的一种树。在机器学习中,决策树是一种预测模型,代表的是一种对象属性与对象值之间的一种映射关系,每一个节点代表某个对象,树中的每一个分叉路径代表某个可能的属性值,而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所表示的对象的值。决策树仅有单一输出,如果有多个输出,可以分别建立独立的决策树以处理不同的输出。接下来讲解ID3…

2020年07月03日 0条评论 34点热度 2人点赞 阅读全文

简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。 k-近邻算法 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。 k-近邻算法(kNN),它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中…

2020年07月03日 0条评论 10点热度 2人点赞 阅读全文

机器学习算法涉及很多线性代数知识,因此本书在使用Python语言构造机器学习应用时,会经常使用NumPy函数库。如果不熟悉线性代数也不用着急,这里用到线性代数只是为了简化不同的数据点上执行的相同数学运算。将数据表示为矩阵形式,只需要执行简单的矩阵运算而不需要复杂的循环操作。在你使用本书开始学习机器学习算法之前,必须确保可以正确运行Python开发环境,同时正确安装了NumPy函数库。NumPy函数库是Python开发环境的一个独立模块,而且大多数Python发行版没有默认安装NumPy函数库,因此在安装Python…

2020年07月03日 0条评论 11点热度 0人点赞 阅读全文

首先,在试图弄懂AUC和ROC曲线之前,一定,一定要彻底理解混淆矩阵的定义!!! 混淆矩阵中有着Positive、Negative、True、False的概念,其意义如下: 称预测类别为1的为Positive(阳性),预测类别为0的为Negative(阴性)。 预测正确的为True(真),预测错误的为False(伪)。 对上述概念进行组合,就产生了如下的混淆矩阵: 然后,由此引出True Positive Rate(真阳率)、False Positive(伪阳率)两个概念: 仔细看这两个公式,发现其实TPRate就…

2020年07月02日 0条评论 13点热度 2人点赞 阅读全文

R语言 外部资源 以下资源包含有关R语言编程的其他信息。 请使用它们获得有关此主题的更深入的知识。 R语言编程的相关链接 R项目 - 官方R软件和文档。 R编程语言 - 维基百科解释R编程语言。 R Studio - 强大的R编程IDE。 R上的编程有用的书籍 R语言 相关讨论 R语言是用于统计分析,图形表示和报告的编程语言和软件环境。 R由Ross Ihaka和Robert Gentleman在新西兰奥克兰大学创建,目前由R开发核心团队开发。 R在GNU通用公共许可证下免费提供,并为…

2020年07月01日 0条评论 12点热度 1人点赞 阅读全文

R语言 平均值,中位数和模式 R中的统计分析通过使用许多内置函数来执行。 这些函数大多数是R基础包的一部分。 这些函数将R向量作为输入和参数,并给出结果。 我们在本章中讨论的功能是平均值,中位数和模式。 Mean平均值 通过求出数据集的和再除以求和数的总量得到平均值 函数mean()用于在R语言中计算平均值。 语法 用于计算R中的平均值的基本语法是 - mean(x, trim = 0, na.rm = FALSE, ...) 以下是所使用的参数的描述 -  x是输入向量。 trim用于从排序向量的两端丢…

2020年07月01日 0条评论 13点热度 0人点赞 阅读全文

R语言 CSV文件 在R语言中,我们可以从存储在R语言环境外的文件中读取数据。 我们还可以将数据写入将被操作系统存储和访问的文件。 R语言可以读取和写入各种文件格式,如csv,excel,xml等。 在本章中,我们将学习从csv文件读取数据,然后将数据写入csv文件。 该文件应该存在于当前工作目录中,以便R语言可以读取它。 当然我们也可以设置我们自己的目录并从那里读取文件。 获取和设置工作目录 您可以使用getwd()函数检查R语言工作区指向的目录。 您还可以使用setwd()函数设置新的工作目录。 # Get a…

2020年07月01日 0条评论 19点热度 0人点赞 阅读全文

R语言 条形图 条形图表示矩形条中的数据,条的长度与变量的值成比例。 R语言使用函数barplot()创建条形图。 R语言可以在条形图中绘制垂直和水平条。 在条形图中,每个条可以给予不同的颜色。 语法 在R语言中创建条形图的基本语法是 - barplot(H, xlab, ylab, main, names.arg, col) 以下是所使用的参数的描述 -  H是包含在条形图中使用的数值的向量或矩阵。 xlab是x轴的标签。 ylab是y轴的标签。 main是条形图的标题。 names.arg是在每个条下…

2020年07月01日 0条评论 13点热度 0人点赞 阅读全文

数据帧是表或二维阵列状结构,其中每一列包含一个变量的值,并且每一行包含来自每一列的一组值。以下是数据帧的特性。 列名称应为非空。 行名称应该是唯一的。 存储在数据帧中的数据可以是数字,因子或字符类型。 每个列应包含相同数量的数据项。 创建数据帧 # Create the data frame. emp.data <- data.frame( emp_id = c (1:5), emp_name = c("Rick","Dan","Michelle","Ryan","Gary"), salary = c(623…

2020年07月01日 0条评论 9点热度 0人点赞 阅读全文
1234578