Home

Jump to bottom

peter.wsj edited this page Jan 26, 2025 · 12 revisions

阿里云 MaxCompute Spark

MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务。它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持用户以熟悉的开发使用方式提交运行Spark作业，以满足更丰富的数据处理分析场景。

关键特性

支持原生多版本Spark作业

社区原生Spark运行在MaxCompute里，完全兼容Spark的API，支持多个Spark版本。

统一的计算资源

MaxCompute Spark像MaxCompute SQL/MR等任务类型一样，运行在MaxCompute项目开通的统一计算资源中。

统一的数据和权限管理

遵循MaxCompute项目的权限体系，在用户权限范围内安全地查询数据。

与开源系统相同的使用体验

提供原生的开源实时Spark UI和查询历史日志的功能。

约束与限制

目前MaxCompute Spark支持以下功能：

离线计算：GraphX、Mllib、RDD、Spark-SQL、PySpark等
读写MaxCompute表数据
引用MaxCompute中的文件资源
访问阿里云VPC环境下的服务
访问阿里云OSS非结构化存储

不支持以下场景：

交互式类需求Spark-Shell、Spark-SQL-Shell、PySpark-Shell等
访问MaxCompute外部表，函数和UDF