添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

spark sql percentile vs percentile_approx

Spark SQL中的percentile和percentile_approx是两种不同的百分位函数。

Percentile函数为给定数据集计算百分位数,它对数据集进行排序并找到对应的百分位数。它的实现是高效的,但是如果数据集很大,它可能非常慢。

Percentile_approx函数是百分位数的近似值,它使用了随机采样来快速地计算百分位数。因此,它速度更快,但是可能不够精确。

因此,如果需要对数据集的百分位数进行高精度的计算,请使用Percentile函数;如果对精度要求不高,但是需要快速计算,请使用Percentile_approx函数。

  •