在pyspark中配置hadoop相关的参数,我们可以使用config('spark.hadoop.xxxx'),这个里面的xxx就是hadoop中的参数 可以是yarn相关 也可以是hdfs相关 下面是一个pyspark中的使用dfs参数的实例. dfs.client.use.datanode.hostname 设置为true允许 客户端远程访问的时候,使用hostname来访问. 主要是解决docker或者内网搭建的hdfs对外提供问题 更详细实例 查看 另一篇文章 关于pyspark 访问云服务docker 搭建的haodoop问题
spark = (SparkSession
.builder
.master("local[*]")
.appName("insurance_main")
.config("spark.sql.warehouse.dir", "hdfs://namenode:8020/user/hive/warehouse")
.config("spark.hive.metastore.uris", "thrift://namenode:9083") # 配置hive参数 正常的hive参数前面增加spark即可
.config('spark.hadoop.dfs.client.use.datanode.hostname','true')
.enableHiveSupport()
.getOrCreate())
0