盗墓笔记,唐家三少,管理书籍排行榜

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

創(chuàng)新互聯(lián)Python教程：怎么用python寫spark

為什么要使用python來寫Spark

成都創(chuàng)新互聯(lián)公司-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設、高性價比睢寧縣網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式睢寧縣網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設找我們，業(yè)務覆蓋睢寧縣地區(qū)。費用合理售后完善，十載實體公司更值得信賴。

Python寫spark我認為唯一的理由就是：你要做數(shù)據(jù)挖掘，AI相關的工作。因為很多做數(shù)挖的他們的基礎語言都是python，他們?nèi)绻匦聦Wscala比較耗時，而且，python他的強大類庫是他的優(yōu)勢，很多算法庫只有python有。

Win本地編寫代碼調(diào)試

編輯器：PyCharm

Spark：1.6

Python：2.7

Win環(huán)境準備

Python的安裝

解壓python包，在環(huán)境變量里面配上bin的路徑

Spark的安裝

下載spark的bin文件，解壓即可，在環(huán)境變量配置SPARK_HOME

要可以通過編輯器來安裝，如pycharm，查找pyspark庫安裝即可

Hadoop安裝

安裝hadoop環(huán)境。在win下面需要winutils.exe；在環(huán)境里面配置HADOOP_HOME 即可。

代碼示例

# -*- coding: utf-8 -*-
from __future__ import print_function
from pyspark import *
import os
print(os.environ['SPARK_HOME'])
print(os.environ['HADOOP_HOME'])
if __name__ == '__main__':
    sc = SparkContext("local[8]")
    rdd = sc.parallelize("hello Pyspark world".split(" "))
    counts = rdd \
        .flatMap(lambda line: line) \
        .map(lambda word: (word, 1)) \
        .reduceByKey(lambda a, b: a + b) \
        .foreach(print)
    sc.stop

python學習網(wǎng)，大量的免費python學習視頻，歡迎在線學習！

問題：

from pyspark import *

找不到pyspark。那你需要把spark的bin包下面的python的所有都拷貝到（可能需要解壓py4j）

%PYTHON%\Lib\site-packages下面去。這樣，你的編輯器才能找到。

或者：

配置你的編輯器的環(huán)境變量：

PYTHONPATH=F:\home\spark-1.6.0-bin-hadoop2.6\python;F:\python2.7\Lib\site-packages

使用spark-submit提交時用到其他類庫 –py-files xxxx/xxxx.zip,xxxx.py。

網(wǎng)站欄目：創(chuàng)新互聯(lián)Python教程：怎么用python寫spark
鏈接分享：http://m.fisionsoft.com.cn/article/cdiidho.html

新聞中心

其他資訊