记一个使用SparkSession的错误（构造sparksession时候的getOrCreate的错误）_spark=sparksession报错_getyou123的博客

link之家
链接快照平台
输入网页链接，自动生成快照
标签化管理网页链接
相关文章推荐
谦和的乌冬面 · java Tuple ...· 1 年前 ·
帅气的松鼠 · WINDOWS应用程序与内核通信_windo ...· 2 年前 ·
活泼的签字笔 · threejs-加特效-后期处理的基本使用方 ...· 2 年前 ·
胡子拉碴的牛肉面 · 多周期时间序列分解算法-MSTL原理 - 知乎· 2 年前 ·
追风的花生 · 【第一批吃螃蟹】试用 React 18 ！ ...· 2 年前 ·
首先是错误输出：
19/09/20 14:12:40 INFO BlockManagerMaster: Registering BlockManager BlockManagerId(driver, 192.168.101.1, 56307, None)
19/09/20 14:12:40 INFO BlockManagerMasterEndpoint: Registering block manager 192.168.101.1:56307 with 894.3 MB RAM, BlockManagerId(driver, 192.168.101.1, 56307, None)
19/09/20 14:12:40 INFO BlockManagerMaster: Registered BlockManager BlockManagerId(driver, 192.168.101.1, 56307, None)
19/09/20 14:12:40 INFO BlockManager: Initialized BlockManager: BlockManagerId(driver, 192.168.101.1, 56307, None)
Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.internal.config.package$.SHUFFLE_SPILL_NUM_ELEMENTS_FORCE_SPILL_THRESHOLD()Lorg/apache/spark/internal/config/ConfigEntry;
	at org.apache.spark.sql.internal.SQLConf$.<init>(SQLConf.scala:1003)
	at org.apache.spark.sql.internal.SQLConf$.<clinit>(SQLConf.scala)
	at org.apache.spark.sql.internal.StaticSQLConf$.<init>(StaticSQLConf.scala:31)
	at org.apache.spark.sql.internal.StaticSQLConf$.<clinit>(StaticSQLConf.scala)
	at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:935)
	at test.App$.main(App.scala:27)
	at test.App.main(App.scala)
错误所在的代码行是： 
  val sparkSession:SparkSession= SparkSession.builder().
      master("local")
      .appName("spark session example")
      .getOrCreate()
这个还能有错？我也是一脸懵逼。
 一顿百度，google，最后的错误的解决方法在这里记录一下：
 主要是版本问题，SparkSession在sparksql中，而sparksql依赖于spark-core，所以应该保持spark-sql和spark-core版本一致，这里说一下pom文件中的依赖的写法，
 原来的pom.xml中的一点写法：
 < dependency>
 < groupId>org.apache.spark</ groupId>
 < artifactId>spark-core_2.11</ artifactId>
 < version>2.2.0</ version>
 </ dependency>
 < dependency>
 < groupId>org.apache.spark< /groupId>
 < artifactId>spark-sql_2.11</ artifactId>
 < version>2.3.0< /version>
 < /dependency>
 这里可以看见spark-core是基于scala的2.11版本的，使用的版本是2.2.0，spark-sql基于scala的2.11版本，使用的版本是2.3.0，错误就在2.3.0和2.2.0不一致导致的。所以改好之后重新import change一下就好了。
 改过的pom.xml文件片段：
 < dependency>
 < groupId>org.apache.spark< /groupId>
 < artifactId>spark-core_2.11< /artifactId>
 < version>2.2.0< /version>
 </ dependency>
 < dependency>
 < groupId>org.apache.spark< /groupId>
 < artifactId>spark-sql_2.11</ artifactId>
 < version>2.2.0< /version>
 < /dependency>
该项目为的静默活体检测项目，您可以扫描下方的二维码获取安卓端APK，体验静默活体的检测效果。
2020-07-30：开源caffe模型，分享工业级静默活体检测算法技术解析直播视频以及相关文件。
在本工程中我们开源了活体模型训练架构，数据预处理方法，模型训练和测试脚本以及开源的APK供大家测试使用。
活体检测技术主要是判别机器前出现的人脸是真实还是伪造的，其中更多其他媒介呈现的人脸都可以定义为虚假的人脸，包括打印的纸质照片，电子产品的显示屏幕，硅胶面具，立体的3D人像等。目前主流的活体解决方案分为配合式活体检测和非配合式活体检测（静默活体检测）。 ，静默活体则在用户无感的情况下直接进行活体重置。
因傅里叶频谱图一定程度上能够React真假脸在频域的差异，因此我们采用了一种基于傅里叶频谱图的辅助监督的静默
                                    Spark 总结
Spark 是流行大数据计算框架之一，和 mapred 相比，这种计算框架更加灵活方便。并且还有强大的机器学习库 Spark Mllib 。
除此之外，我们还可以发现 Spark 项目包含很多组件，这些组件关系密切并且可以相互调用。这样就不需要组合各种工具使用了。
Spark 可以运行在各种集群上，比如 YARN ，同时自带独立集群管理器。
Spark 还支持与 HDFS 进行对...
                                    Spark知识点讲解SparkSpark环境部署Spark简介为什么使用SparkSpark的优势Spark技术栈Spark架构设计Spark架构核心组件Spark交互工具Spark APISparkContextSparkSessionRDDDataSetDataFrameSpark RDD概念RDD与DAGRDD的特性RDD编程流程创建RDDRDD分区RDD的操作RDD转换算子RDD常用算子Spark分布式计算原理RDD的依赖关系DAG的工作原理
Spark
Spark环境部署
前置条件：完成Scal
                                    我相信文档在这里有点误导，当您使用Scala时，您实际上会看到如下警告：... WARN SparkSession$Builder: Use an existing SparkSession, some configuration may not take effect.在Spark 2.0之前更明显的是在上下文之间有明确的分离：SparkContext 配置无法在运行时修改 . 您必须先停止现有...
                                    最近在写算法题时，发现一个小难处，javascript里的 map.keys() 获取出来的不是一个数组，而是一个 iterator，只能用 interator.next().value 获取值，很不方便，然后来查阅资料发现有两个解决方法：
解决方法一
let keys = map.keys();
let arr = Array.from(keys);
解决方法二
let keys = map....
spark = SparkSession.builder() TypeError: 'Builder' object is not callable
解决办法：.builder() 改为.builderhttps://issues.apache.org/jira/browse/SPARK-1842...
                                    Table or view not found: aaa.bbb
The column number of the existing table dmall_search.query_embedding_data_1(struct<>) doesn’t match the data schema(struct<user_id:string,dt:string,sku_list:array>);
Cannot insert into table ddw_ware.purchase_d.
                                    本次问题仅用于scala生产环境
当我们在现实生产活动中尤其是在处理实时数据都难免会遇到某些特殊原因导致宕机,而当我们重新接收并处理的数据需要进行计算结果联系时,这种情况将会十分严重,因为宕机后之前在缓存数据都将在重启后消失.这就会导致计算结果产生误差.
因此这里我们使用StreamingContext.getActiveOrCreate和ssc.checkpoint函数来处理,大体过程如下:
                                    一、SparkContext 初始化
上次阅读到 Master 通知 Worker 启动了一个 Driver，就是启动了一个 JVM，并且开始使用反射的方式执行 DriverWrapper 的 main 方法。
假设我们提交了一个 JavaWordCount 程序到集群上，其实接下来就开始执行这个方法：
然后开始创建 SparkContext
SparkSession spark = SparkSession.builder().appName("JavaWordCount").getOrCreate()
                                    项目github地址：bitcarmanlee easy-algorithm-interview-and-practice
欢迎大家star，留言，一起学习进步
1.为什么需要窗口函数
在1.4以前，Spark SQL支持两种类型的函数用来计算单个的返回值。第一种是内置函数或者UDF函数，他们将单个行中的值作为输入，并且他们为每个输入行生成单个返回值。另外一种是聚合函数，典型的是SUM, MAX, AVG这种，是对一组行数据进行操作，并且为每个组计算一个返回值。
上面提到的两种函数，实际当中使用非常广泛，但