首页
关于
phaseless
导航
首页
关于
目录
分类
Python
pyspark-通过协同过滤算法推荐电影
2022-04-09 23:35
24
0
0
26.4℃
机器学习
Pyspark
Python
数据集是Movielens官网的ml-100k数据,下载地址 https://grouplens.org/datasets/movielens/ 用jupyter实现比较好 from pyspark.sql import SparkSession user_df=spark.read.text('
pyspark-通过kmeans分析出租车数据并调用百度API进行可视化
2022-04-09 23:34
21
0
0
26.1℃
机器学习
Pyspark
Python
(1)数据准备 采用数据为出租车载客时的GPS记录数据集,数据格式为CSV,CSV格式是数据分析中常见的一种数据格式。CSV(Comma-Separated Values) 即逗号分隔值,文件以文本的方式存储表格数据(包含数字和文本)。其中每一行代表一条记录,每条记录被逗号分隔为字段,并且每条记录都
pyspark-机器学习实战:预测婴儿出生率(二)使用ML库
2022-04-09 23:33
19
0
0
25.9℃
机器学习
Pyspark
Python
在上一文中,主要对Spark MLlib机器学习库使用流程进行了介绍。 从搭建环境开始,然后加载数据,探索数据,直到进行模型的训练与评估,最终进行未知数据的预测,即预测婴儿生存机会 本文则来介绍如何使用ML机器学习库来实战ML!同样使用上一节的数据集来演示ML的构建过程。再次尝试预测婴儿的生存几率。
pyspark-机器学习实战:预测婴儿出生率(一)使用MLlib库
2022-04-08 22:50
14
0
0
25.4℃
Pyspark
机器学习
Python
机器学习是通过算法对训练数据构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就要调整算法来重新建立模型,再次进行评估,如此循环往复,最终获得满意的经验来处理其他的数据的过程。 简单点讲,机器学习就是通过一定的模型,让计算机可以从大量的数据中学习到相关的知
PySpark-机器学习实战:建立鸢尾属植物种的ML分类模型、建立ML回归模型并使用定义的特征预测电厂的发电量(使用ML库)
2022-04-08 22:48
24
0
0
26.4℃
机器学习
Pyspark
Python
分类和回归ML库在Spark的帮助下,从UCI机器学习知识库开源数据集。 iris数据集(https://archive.ics.uci.edu/ml/machine-learning-databases/iris) 电厂数据(https://archive.ics.uci.edu/ml/machi
爬虫入门(这玩意儿懂的都懂)
2020-11-24 22:44
7
0
0
24.7℃
Python
爬虫
第一章:爬虫原理和数据爬取 1.1 通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引
害!两小时带你看透数据可视化
2020-06-10 22:43
29
0
0
26.9℃
数据可视化
Python
一、数据可视化概述 1、什么是数据可视化 在计算机视觉领域,数据可视化是对数据的一种形象直观的解释,实现从不同维度观察数据,从而得到更有价值的信息。 抽象的、复杂的、不易理解的数据 图形、图像、符号、颜色、纹理等 具备较高的识别效率 数据本身所包含的有用信息 2、为什么要进行数据可视化 我们利用视觉
正则表达式(反正也记不住,用的时候查就行)
2019-10-23 22:42
29
0
0
26.9℃
正则表达式
Python
1、正则表达式概述 正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里
机器学习难吗?那必然难啊!!!
2019-06-19 22:41
17
0
0
25.7℃
机器学习
Python
机器学习 第一章数据挖掘 数据挖掘概念 数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息,从数据中发现有用的信息,从而帮助我们做出决策 数据挖掘做什么:1预测和描述数据,预测的计算机和事件过程被称为监督学习:从标记的训练数据来推断一个功能的机器学习任务 描述则被通常称为无监督学习:根据位置样
python数据清洗(numpy+pandas)
2018-08-08 22:40
20
0
0
26.0℃
Numpy
Pandas
Python
第一章:数据清洗常用工具 1.numpy常用数据结构 常用清洗工具: 目前在Python中, numpy和pandas是最主流的工具 Numpy中的向量化运算使得数据处理变得高效 Pandas提供了大量数据清洗的高效方法 在Python中,尽可能多的使用numpy和pandas中的 函数,提高数据清
上一页
下一页
1
2
3
弹