spark1.6学习（二）——独立的python程序运行pyspark

柔情只为你懂 2022-04-13 06:49 366阅读 0赞

本篇文章主要介绍如何使用独立的python程序运行pyspark。

一般，我们在测试的时候可以使用pyspark进行简单的交互，但是在线上具体使用的程序，我们需要使用一个完整的pyspark程序的。

主要参考：[http://spark.apache.org/docs/1.6.0/quick-start.html][http_spark.apache.org_docs_1.6.0_quick-start.html]

好，下面上货。

首先是完整的程序，从hdfs中读取文件并且缓存下来，同时算出包含a和包含b 的行数，并且打印出来。

from pyspark import SparkContext, SparkConf
    
    
    def main():
        logFile = "/user/root/data.txt"
        master = 'yarn-client'
        appName = 'Simple App spark study01'
        conf = SparkConf().setAppName(appName).setMaster(master)
        sc = SparkContext(conf=conf)
        logData = sc.textFile(logFile).cache()
        numAs = logData.filter(lambda s: 'a' in s).count()
        numBs = logData.filter(lambda s: 'b' in s).count()
        print("Lines with a: %i, lines with b: %i" % (numAs, numBs))
    
    
    if __name__ == '__main__':
        main()

运行命令：

spark-submit --master yarn-client sparkstudy01.py

[http_spark.apache.org_docs_1.6.0_quick-start.html]: http://spark.apache.org/docs/1.6.0/quick-start.html

发表评论取消回复

表情：

评论列表（有 0 条评论，366人围观）

还没有评论，来说两句吧...

相关阅读

相关【Python】PySpark 数据处理 ① ( PySpark 简介 | Apache Spark 简介 | Spark 的 Python 语言版本 PySpark | Python 语言场景 )

文章目录一、PySpark 简介 1、Apache Spark 简介 2、Spark 的 Python 语言版本 PySpark

男娘i/ 2023年10月14日 09:33/ 0 赞/ 21 阅读

相关 pyspark案例系列1- 运行spark-sql的几种方式

文章目录一.环境介绍二.运行spark-sql的几种方式 2.1 spark-shell的方式 2.2 beeline的方式

╰半夏微凉°/ 2023年01月22日 14:47/ 0 赞/ 164 阅读

相关 pycharm运行第一个pyspark程序

一、环境搭建 1、[windows下spark环境搭建][windows_spark]； 2、python3.7安装并配置环境变量；3.7以上版本在后期运行时容易出现问

ゞ浴缸里的玫瑰/ 2022年10月07日 10:46/ 0 赞/ 287 阅读

相关运行python版本的Spark程序

两种方法： 1. 使用 spark-submit 解释执行python脚本 2. 使用 python 解释执行python脚本 1. 使用Spark-submit

青旅半醒/ 2022年07月29日 08:46/ 0 赞/ 202 阅读

相关 PySpark 学习笔记二

2 DataFrames 和Python的dataframe类似，pyspark也有dataframe，其处理速度远快于无结构的RDD。 Spark 2.0 用 Spar

谁践踏了优雅/ 2022年06月01日 00:13/ 0 赞/ 280 阅读

相关 Spark程序运行架构

![70][] 1.Driver Application : Spark运行程序。 2.Cluster Manager：集群管理器。 3.Worker：工作节点。 4.

落日映苍穹つ/ 2022年05月20日 00:44/ 0 赞/ 259 阅读

相关 Python独立运行环境

在开发Python应用程序的时候，系统安装的Python3只有一个版本：3.4。所有第三方的包都会被`pip`安装到Python3的`site-packages`目录下。如

小灰灰/ 2022年05月16日 21:11/ 0 赞/ 323 阅读

相关 spark1.6学习（二）——独立的python程序运行pyspark

本篇文章主要介绍如何使用独立的python程序运行pyspark。一般，我们在测试的时候可以使用pyspark进行简单的交互，但是在线上具体使用的程序，我们需要使用一个完整

柔情只为你懂/ 2022年04月13日 06:49/ 0 赞/ 367 阅读

相关 spark:pyspark shell python tab自动提示

1. home dir 下创建.pythonrc ~> vi .pythonrc import rlcompleter, readline r

忘是亡心i/ 2022年01月22日 00:09/ 0 赞/ 202 阅读

相关 luigi框架--关于python运行spark程序

首先，目标是写个python脚本，跑spark程序来统计hdfs中的一些数据。参考了别人的代码，故用了luigi框架。至于luigi的原理底层的一些东西Google就好。

Myth丶恋晨/ 2021年12月23日 12:15/ 0 赞/ 273 阅读