关于pyspark中设置hadoop hive相关的参数问题

文 / sptk 来源 / 原创阅读 / 494 1年前

在pyspark中配置hadoop相关的参数,我们可以使用config('spark.hadoop.xxxx'),这个里面的xxx就是hadoop中的参数可以是yarn相关也可以是hdfs相关下面是一个pyspark中的使用dfs参数的实例. dfs.client.use.datanode.hostname 设置为true允许客户端远程访问的时候,使用hostname来访问. 主要是解决docker或者内网搭建的hdfs对外提供问题更详细实例查看另一篇文章关于pyspark 访问云服务docker 搭建的haodoop问题

spark = (SparkSession
        .builder
        .master("local[*]")
        .appName("insurance_main")
        .config("spark.sql.warehouse.dir", "hdfs://namenode:8020/user/hive/warehouse")
        .config("spark.hive.metastore.uris", "thrift://namenode:9083")   # 配置hive参数 正常的hive参数前面增加spark即可
        .config('spark.hadoop.dfs.client.use.datanode.hostname','true')
        .enableHiveSupport()
        .getOrCreate())

django spark

首页归档关于

站点声明：站点主要用于个人技术文章。

关于pyspark中设置hadoop hive相关的参数问题

相关文章

关于pyspark 访问云服务docker 搭建的haodoop hive问题

vmware虚拟机centos网络问题

PySpark 离线读取检查点(checkpoin)目录