Pyspark sql创建hive分区表

2022-01-30 14:46:13 标签 apache-sparkpysparkhive

我试图创建一个hive分区表从pyspark数据框架使用spark sql。下面是我正在执行的命令,但得到一个错误。下面的错误消息。

df.createOrReplaceTempView(df_view)
spark.sql("create table if not exists tablename PARTITION (date) AS select * from df_view")

错误:pyspark。sql。utils。ParseException:u"\nmismatched input 'PARTITION' expected <EOF>

当我尝试运行没有分区(日期)在上面的行,它工作得很好。然而,我无法创建分区。

如何创建分区表和插入日期。Pyspark数据帧到hive。

###为了解决这个问题,我首先创建了表

火花。sql("create table if not exists table_name (name STRINGage INT) by date_column STRING)")

然后使用下面的方法将动态分区设置为非严格分区。

火花。sql("SET hive。exec。dynamic。partition = true")

火花。sql("SET hive。exec。dynamic。partition。mode = nonstrict")

火花。sql("insert into table table_name PARTITION (date_column)) select *'%s from df_view" % current_date))

其中current date是一个包含今天日期的变量。

阅读全文

▼ 版权说明

相关文章也很精彩
推荐内容
更多标签
相关热门
全站排行
随便看看

错说 cuoshuo.com —— 程序员的报错记录

部分内容根据CC版权协议转载;网站内容仅供参考,生产环境使用务必查阅官方文档

辽ICP备19011660号-5

×

扫码关注公众号:职场神器
发送: 1
获取永久解锁本站全部文章的验证码