spark-submit 官方教程:https://spark.apache.org/docs/latest/submitting-applications.html
可以使用 spark-submit --help
查看完整选项。
下面分别介绍一下这些参数。
MASTER_URL 可以是 spark://host:port, mesos://host:port, yarn, k8s://host:port, or local (Default: local[*]).
可选值为 client 和 cluster,默认是 client,以 client 模式运行,就会把日志打印到当前命令窗口,就像在编辑器中调试一样。如果 cluster,spark 就会将计算调度上某个 worker 之上。
当这个值是 cluster 时,spark 默认会将日志放到 worker 节点下的 spark 安装目录的 work 目录下,这个目录下有这个 worker 运行的所有任务的文件夹,
才开始所有的任务都是以 driver 开头的,只有 FINISHED 状态的任务才会转换为 app 开头的文件夹。
对于 Java 或 Scala 程序来说,通过这个参数来指定主类。。
通过这个参数来为任务指定一个名字。不过程序中的写好的 name 会覆盖这个参数。
以逗号分隔的jar列表,包括在驱动程序和执行程序的类路径中。
以逗号分隔的 jar 包名字列表,格式是 groupId:artifactId:version
与 --packages 的作用相反。
指定 jar 仓库。
以逗号分隔的放在 PYTHONPATH 中的 .zip, .egg, or .py 文件列表。
可以通过 SparkFiles.get(fileName) 访问的文件列表,以逗号分隔。
任意的 Spark 配置属性
指定配置文件,默认是 conf/spark-defaults.conf
。
默认是 1024M
额外的工作节点的 java 选项。
额外的库。
额外的类路径
执行时使用的内存,默认 1G。
使用哪个用户跑,在使用了 --principal / --keytab 的情况下不起作用。
查看版本
查看帮助信息
可以使用的 CPU 核心数,默认是 1,只有在 cluster 模式下有效
总共的核心数量,只用于 standalone 模式下。