大数据

关于pyspark中设置hadoop hive相关的参数问题

文 / sptk 来源 / 原创 阅读 / 106 4月前

在pyspark中配置hadoop相关的参数,我们可以使用config('spark.hadoop.xxxx'),这个里面的xxx就是hadoop中的参数 可以是yarn相关 也可以是hdfs相关 下面是一个pyspark中的使用dfs参数的实例. dfs.client.use.datanode.hostname 设置为true允许 客户端远程访问的时候,使用hostname来访问. 主要是解决docker或者内网搭建的hdfs对外提供问题 更详细实例 查看 另一篇文章 关于pyspark 访问云服务docker 搭建的haodoop问题

spark = (SparkSession
        .builder
        .master("local[*]")
        .appName("insurance_main")
        .config("spark.sql.warehouse.dir", "hdfs://namenode:8020/user/hive/warehouse")
        .config("spark.hive.metastore.uris", "thrift://namenode:9083")   # 配置hive参数 正常的hive参数前面增加spark即可
        .config('spark.hadoop.dfs.client.use.datanode.hostname','true')
        .enableHiveSupport()
        .getOrCreate())

0

站点声明:站点主要用于个人技术文章。

冀ICP备19037883号
相关侵权、举报、投诉及建议等,请发E-mail:804330969@qq.com