新聞中心
為什么要使用python來寫Spark

成都創(chuàng)新互聯(lián)公司-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設、高性價比睢寧縣網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式睢寧縣網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設找我們,業(yè)務覆蓋睢寧縣地區(qū)。費用合理售后完善,十載實體公司更值得信賴。
Python寫spark我認為唯一的理由就是:你要做數(shù)據(jù)挖掘,AI相關的工作。因為很多做數(shù)挖的他們的基礎語言都是python,他們?nèi)绻匦聦Wscala比較耗時,而且,python他的強大類庫是他的優(yōu)勢,很多算法庫只有python有。
Win本地編寫代碼調(diào)試
編輯器:PyCharm
Spark:1.6
Python:2.7
Win環(huán)境準備
Python的安裝
解壓python包,在環(huán)境變量里面配上bin的路徑
Spark的安裝
下載spark的bin文件,解壓即可,在環(huán)境變量配置SPARK_HOME
要可以通過編輯器來安裝,如pycharm,查找pyspark庫安裝即可
Hadoop安裝
安裝hadoop環(huán)境 。在win下面需要winutils.exe;在環(huán)境里面配置HADOOP_HOME 即可。
代碼示例
# -*- coding: utf-8 -*-
from __future__ import print_function
from pyspark import *
import os
print(os.environ['SPARK_HOME'])
print(os.environ['HADOOP_HOME'])
if __name__ == '__main__':
sc = SparkContext("local[8]")
rdd = sc.parallelize("hello Pyspark world".split(" "))
counts = rdd \
.flatMap(lambda line: line) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b) \
.foreach(print)
sc.stop
python學習網(wǎng),大量的免費python學習視頻,歡迎在線學習!
問題:
from pyspark import *
找不到pyspark。那你需要把spark的bin包下面的python的所有都拷貝到(可能需要解壓py4j)
%PYTHON%\Lib\site-packages下面去。這樣,你的編輯器才能找到。
或者:
配置你的編輯器的環(huán)境變量:
PYTHONPATH=F:\home\spark-1.6.0-bin-hadoop2.6\python;F:\python2.7\Lib\site-packages
使用spark-submit提交時用到其他類庫 –py-files xxxx/xxxx.zip,xxxx.py。
網(wǎng)站欄目:創(chuàng)新互聯(lián)Python教程:怎么用python寫spark
鏈接分享:http://m.fisionsoft.com.cn/article/cdiidho.html


咨詢
建站咨詢
