scala之如何在 apache Spark 中展平数据框 |斯卡拉

telwanggs 阅读:156 2025-06-02 22:19:02 评论:0

我有以下数据框:

df1

uid  text  frequency 
1    a     1 
1    b     0 
1    c     2 
2    a     0 
2    b     0 
2    c     1 

我需要根据 uid 将其展平为:

df2

uid  a  b  c 
1    1  0  2 
2    0  0  1 

我在 R 中研究过类似的代码,但无法将其转换为 sql 或 scala。

关于如何解决这个问题有什么建议吗?

请您参考如下方法:

您可以按uid分组,使用text作为数据透视列并求和频率:

   df1 
     .groupBy("uid") 
     .pivot("text") 
     .sum("frequency").show() 


标签:Spark
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

关注我们

一个IT知识分享的公众号