集体智慧 综合若干错误的预测结果,可以得到正确的预测结果吗?答案是可以!这好像违背直觉,但优秀的预测模型可以做到,甚至理应如此。 这基于以下事实:虽然错误的预测结果可能有很多,但是正确的只有一个。通过组合具有不同优缺点的模型,往往能强化正确的预测结果,同时使错误相互抵消。这种通过组合不同模型来提高预测准确度的方法被称为集成方法。 前面学习了决策树,本文主要讲的随机森林就是基于决策树的一种集成方法。为了说明随机森林为何优于决策树,我们首先生成1000棵决策树,用来预测可能发生在美国旧金山的犯罪行为,然后基于这1000…

2020年07月09日 0条评论 12点热度 1人点赞 阅读全文

本文会给出一些使用概率论进行分类的方法。首先从一个最简单的概率分类器开始,然后给出一些假设来学习朴素贝叶斯分类器。我们称之为“朴素”,是因为整个形式化过程只做最原始、最简单的假设。不必担心,你会详细了解到这些假设。我们将充分利用Python的文本处理能力将文档切分成词向量,然后利用词向量对文档进行分类。我们还将构建另一个分类器,观察其在真实的垃圾邮件数据集中的过滤效果,必要时还会回顾一下条件概率。最后,我们将介绍如何从个人发布的大量广告中学习分类器,并将学习结果转换成人类可理解的信息。 基于贝叶斯决策理论的分类方法…

2020年07月06日 0条评论 9点热度 1人点赞 阅读全文

2020年07月04日 0条评论 27点热度 3人点赞 阅读全文

决策树概述 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。 缺点:可能会产生过度匹配问题。 适用数据类型:数值型和标称型。 决策树是一种依托决策而建立起来的一种树。在机器学习中,决策树是一种预测模型,代表的是一种对象属性与对象值之间的一种映射关系,每一个节点代表某个对象,树中的每一个分叉路径代表某个可能的属性值,而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所表示的对象的值。决策树仅有单一输出,如果有多个输出,可以分别建立独立的决策树以处理不同的输出。接下来讲解ID3…

2020年07月03日 0条评论 32点热度 2人点赞 阅读全文

简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。 k-近邻算法 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。 k-近邻算法(kNN),它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中…

2020年07月03日 0条评论 10点热度 2人点赞 阅读全文

机器学习算法涉及很多线性代数知识,因此本书在使用Python语言构造机器学习应用时,会经常使用NumPy函数库。如果不熟悉线性代数也不用着急,这里用到线性代数只是为了简化不同的数据点上执行的相同数学运算。将数据表示为矩阵形式,只需要执行简单的矩阵运算而不需要复杂的循环操作。在你使用本书开始学习机器学习算法之前,必须确保可以正确运行Python开发环境,同时正确安装了NumPy函数库。NumPy函数库是Python开发环境的一个独立模块,而且大多数Python发行版没有默认安装NumPy函数库,因此在安装Python…

2020年07月03日 0条评论 9点热度 0人点赞 阅读全文

为了实现上述的预测,RPN搭建了如图1所示的网络结构。具体实现时,在feature map上首先用3×3的卷积进行更深的特征提取,然后利用1×1的卷积分别实现分类网络和回归网络。 图一 RPN网络计算流程 物体检测中,通常我们将有物体的位置称为前景,没有物体的位置称为背景。在分类网络分支中,首先使用1×1卷积输出18×37×50的特征,由于每个点默认有9个Anchors,并且每个Anchor只预测其属于前景还是背景,因此通道数为18。随后利用torch.view()函数将特征映射到2×333×75,这样第一维仅仅是…

2020年06月30日 0条评论 12点热度 0人点赞 阅读全文

2020年06月30日 0条评论 9点热度 1人点赞 阅读全文

脚本实现及实践 这个脚本目前只能刷一趟车的,人数可以是多个,支持选取作为类型等。 实现思路是splinter.browser模拟浏览器登陆和操作,由于12306的验证码不好自动识别,所以,验证码需要用户进行手动识别,并进行登陆操作,之后的事情,就交由脚本来操作就可以了,下面是我测试时候的一些截图: 第一步:如下图,首先输入抢票基本信息 第二步:然后进入登录页,需要手动输入验证码,并点击登陆操作 第三步:登陆后,自动进入到抢票页面,如下图这样的 最后:就是坐等刷票结果就好了,如下图这样,就说是刷票成功了,刷到票后,会…

2020年06月30日 0条评论 14点热度 1人点赞 阅读全文

很多数据科学工作者都存在这样一个痛点,由于没有能点亮网页前端的技能树,导致在项目展示或项目合作时,无法快速开发出这样一套用户界面以供使用。而今天要介绍的Streamlit正是为了应对这一痛点而生的。 Streamlit是一个机器学习工程师专用的,专门针对机器学习和数据科学团队的应用开发框架,是目前开发自定义机器学习工具的最快的方法。可以认为它的目标是取代Flask在机器学习项目中的地位,可以帮助机器学习工程师快速开发用户交互工具。 一、Streamlit是什么? Streamlit是一个强大的python开源工具包…

2020年06月30日 0条评论 14点热度 1人点赞 阅读全文