apache spark python api

pyspark的Python项目详细描述


spark是一个快速通用的大数据集群计算系统。它 提供scala、java、python和r中的高级api,以及 支持用于数据分析的通用计算图的引擎。它 还支持一组丰富的高级工具,包括 sql和dataframes,用于机器学习的mllib,用于图形的graphx 用于流处理的处理和火花流。

http://spark.apache.org/

联机文档

您可以找到最新的Spark文档,包括编程 指南,在project web page

python打包

此自述文件仅包含与PIP相关的基本信息 安装了Pyspark。这种包装目前正在试验中,可能 未来版本的变化(尽管我们将尽最大努力保持 兼容性)。使用Pyspark需要火花罐,如果你是 从源代码开始构建请参阅 “Building Spark”

spark的python包并不打算替换所有 其他用例。spark的python打包版本适合于 与现有的集群交互(它是火花独立的,纱线,或 但不包含建立自己的 独立火花集群。你可以下载Spark的完整版本 从Apache Spark downloads page开始。

注意:如果您将此与Spark独立群集一起使用,则必须 确保版本(包括次要版本)匹配,或者 经历奇怪的错误。

python需求

pyspark的核心依赖于py4j(当前版本是0.10.7),但是 附加的子包对某些 特征(包括numpy、pandas和pyarrow)。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java正则表达式:重复组?   java遇到COM异常:在调用时:AddItem Description:80004002/不支持此类接口   java获取ServletContextListener上的spring应用程序上下文   java工作簿。写入(fileoutputstream);写入空的excel文件   java如何在没有关系的情况下连接多个表   Java8流:列表到按分组的平面图   java如何在go-in firebase数据库中修改所有经过身份验证的用户的数据   java扫描器。hasNext()导致无限循环   jframe开发Java应用程序启动器   java局部变量类型推断   java我的viewpager实现在片段/活动方面让我很困惑   java如何在多模块项目中正确使用dependencyManagement?它在我的演示中总是无法工作   java Junit5和Maven:@BeforeAll初始化方法未被调用   java主应用程序线程在到达方法末尾之前不更新GUI   JavaSpring:MongoRepository count()和findAll()   java Android Studio滑动以更改屏幕   荡秋千。getPreferredSize不总是在Java 9中工作?   java在Android中以编程方式添加视图   多线程Java:线程技术与概念