pyspark 包介绍
子包
内容
PySpark是针对Spark的Python API。根据网上提供的资料,现在汇总一下这些类的基本用法,并举例说明如何具体使用。也是总结一下经常用到的这些公有类的使用方式。方便初学者查询及使用。 
Public 类们: 
 
类
- (loadDefaults=True,_jvm=None,_jconf=None)
 
- 
配置一个Spark应用,一般用来设置各种Spark的键值对作为参数。 
大多数时候,使用来创建SparkConf对象,也用于载入来自spark.* Java系统的属性值。此时,在对象上设置的任何参数都有高于系统属性的优先级。 
对于单元测试,也能调用来略过额外的配置,无论系统属性是什么都可以获得相同的配置。 
这个类中的设值方法都是支持链式结构的,例如,你可以这样编写配置conf.setMaster(“local”).setAppName(“My app”)。 
注意:
 (key)
- 
配置中是否包含一个指定键。 
 
 
(key,defaultValue=None)
- 
获取配置的某些键值,或者返回默认值。 
 
 
()
- 
得到所有的键值对的list。 
 
 
(key,value)
- 
设置配置属性。 
 
 
(pairs)
- 
通过传递一个键值对的list,为多个参数赋值。 
 
 
(value)
- 
设置应用名称 
 
 
(key=None,value=None,pairs=None)
- 
设置环境变量复制给执行器。 
 
 
(key,value)
- 
如果没有,则设置一个配置属性。 
 
 
(value)
- 
设置主连接地址。 
 
 
(value)
- 
设置工作节点上的Spark安装路径。 
 
 
()
- 
返回一个可打印的配置版本。 
 
 
 
 
(master=None,appName=None,sparkHome=None,pyFiles=None,environment=None,batchSize=0,serializer=PickleSerializer(),conf=None,gateway=None,jsc=None,profiler_cls=)
- 
Spark功能的主入口,SparkContext 代表到Spark 集群的连接,并且在集群上能创建RDD和broadcast。 
 
(value,accum_param=None)
- 
用指定的初始化值创建一个    累加器。使用
 
(path,recursive=False)
- 
使用在每个节点上的Spark job添加文件下载。这里path 参数可以使本地文件也可以使在HDFS中的文件,也可以是HTTP、HTTPS或者URI。 
在Spark的job中访问文件,使用L{SparkFiles.get(fileName)}可以找到下载位置。 
如果递归选项被设置为“TRUE”则路径能被指定。当前路径仅仅支持Hadoop文件系统。 
 >>>  pyspark  >>> path = os.path.join(tempdir, >>> with open(path, ...    _ = testFile.write( >>> >>>  ...    with open(SparkFiles.get( ...        fileVal = ...         [x * fileVal  x  >>> sc.parallelize([1,2,3,4 [100,200,300,400]
 
 
(path)
- 
为所有将在SparkContext上执行的任务添加一个a.py或者.zip的附件。这里path 参数可以使本地文件也可以使在HDFS中的文件,也可以是HTTP、HTTPS或者FTP URI。 
 
 
- 
Spark应用的唯一ID,它的格式取决于调度器实现。 
本地模式下像这样的ID‘local-1433865536131’   
模式下像这样的ID‘application_1433865536131_34483’
>>>
(path,minPartitions=None)
- 
注意
- 从HDFS上读取二进制文件的路径,本地文件系统(在所有节点上都可用),或者其他hadoop支持的文件系统URI党组偶一个二进制数组。每个文件作为单独的记录,并且返回一个键值对,这个键就是每个文件的了路径,值就是每个文件的内容。
 
- 
  
 
 
(path,recordLength)
 
path – 输入文件路径
- 
recordLength – 分割记录的长度(位数)
 
 
- 
注意
从平面二进制文件中载入数据,假设每个记录都是一套指定数字格式的数字(ByteBuffer),并且每个记录位数的数是恒定的。 
 
 
(value)
- 
                        
(编辑:莱芜站长网) 
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! 
                       |