apache spark python api
pyspark的Python项目详细描述
spark是一个快速通用的大数据集群计算系统。它 提供scala、java、python和r中的高级api,以及 支持用于数据分析的通用计算图的引擎。它 还支持一组丰富的高级工具,包括 sql和dataframes,用于机器学习的mllib,用于图形的graphx 用于流处理的处理和火花流。
联机文档
您可以找到最新的Spark文档,包括编程 指南,在project web page
python打包
此自述文件仅包含与PIP相关的基本信息 安装了Pyspark。这种包装目前正在试验中,可能 未来版本的变化(尽管我们将尽最大努力保持 兼容性)。使用Pyspark需要火花罐,如果你是 从源代码开始构建请参阅 “Building Spark”。
spark的python包并不打算替换所有 其他用例。spark的python打包版本适合于 与现有的集群交互(它是火花独立的,纱线,或 但不包含建立自己的 独立火花集群。你可以下载Spark的完整版本 从Apache Spark downloads page开始。
注意:如果您将此与Spark独立群集一起使用,则必须 确保版本(包括次要版本)匹配,或者 经历奇怪的错误。
python需求
pyspark的核心依赖于py4j(当前版本是0.10.7),但是 附加的子包对某些 特征(包括numpy、pandas和pyarrow)。