Skip to content

Spark 3.4.2 使用

shujiewu edited this page Jan 27, 2025 · 2 revisions

Spark 3.4.2 使用

使用集群模式

  • 使用Dataworks提交任务,添加以下参数指定版本
spark.hadoop.odps.spark.version=spark-3.4.2-odps0.48.0
  • 使用Spark客户端提交任务,添加以下参数指定版本
spark.hadoop.odps.spark.libs.public.enable=true
spark.hadoop.odps.spark.version=spark-3.4.2-odps0.48.0

Spark 3.4.2 参数配置

  • spark.sql.defaultCatalog
    • 配置值 odps
  • spark.sql.catalog.odps
    • 配置值 org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog
  • spark.sql.sources.partitionOverwriteMode
    • 配置值 dynamic
  • spark.sql.extensions
    • 配置值 org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions
  • spark.sql.catalog.odps.enableNamespaceSchema
    • 默认值 false
    • 配置说明 如果MaxCompute项目开启三层模型,需要设置为true
  • spark.sql.catalog.odps.enableVectorizedReader
    • 默认值 true
    • 配置说明 开启向量化读
  • spark.sql.catalog.odps.enableVectorizedWriter
    • 默认值 true
    • 配置说明 开启向量化写
  • spark.sql.catalog.odps.splitSizeInMB
    • 默认值 256
    • 配置说明 该配置可以用来调节读Maxcompute表的并发度,默认每个分区为256MB
  • spark.sql.catalog.odps.tableReadProvider
    • 默认值 v1
    • 配置说明 使用local模式时需要设置为tunnel
  • spark.sql.catalog.odps.tableWriteProvider
    • 默认值 v1
    • 配置说明 使用local模式时需要设置为tunnel