Databricks 第3篇：pyspark.sql 通过JDBC连接数据库

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

近视的充电器 · 下載 - JDBC Driver for ...· 3 月前 ·

耍酷的柑橘 · 如何在Java应用中使用JDBC连接Post ...· 3 月前 ·

发呆的洋葱 · 使用JDBC连接与开发PolarDB ...· 3 月前 ·

冲动的梨子 · Reusable Containers ...· 3 月前 ·

逼格高的西瓜 · 测试 Databricks JDBC ...· 2 月前 ·

不拘小节的爆米花 · JavaScriptSerializer.D ...· 9 月前 ·

一身肌肉的茶叶 · excel WSD - CSDN文库· 1 年前 ·

安静的饭盒 · dolphinscheduler调度常见问题 ...· 1 年前 ·

爱喝酒的手电筒 · 将一个uint8变量写入两个字节？· 1 年前 ·

活泼的猕猴桃 · 浣跨�浜��XML ...· 2 年前 ·

Databricks Runtime 包含 Azure SQL 数据库的 JDBC 驱动程序，本文介绍如何使用数据帧 API 连接到使用 JDBC 的 SQL 数据库，通过 JDBC 接口进行的读取操作和更新操作。

在Databricks的Notebook中，spark是Databricks内置的一个SparkSession，可以通过该SparkSession来创建DataFrame、引用DataFrameReader和DataFrameWriter等。

一，创建JDBC URL

本文适用Python语言和JDBC驱动程序来连接Azure SQL Database，

jdbcHostname = "Azure SQL Database"
jdbcDatabase = "db_name"
jdbcPort = 1433
jdbcUsername="user_name"
jdbcPassword="user_password"
jdbcUrl = "jdbc:sqlserver://{0}:{1};database={2}".format(jdbcHostname, jdbcPort, jdbcDatabase)
connectionProperties = {
  "user" : jdbcUsername,
  "password" : jdbcPassword,
  "driver" : "com.microsoft.sqlserver.jdbc.SQLServerDriver"
二，把查询向下推送到数据库引擎
可把整个查询或表向下推送到数据库，且只返回结果。table 参数标识要读取的 JDBC 表。
spark.read.jdbc(url, table, column=None, lowerBound=None, upperBound=None, numPartitions=None, predicates=None, properties=None)
参数注释：
url：JDBC URL
table：表名或查询
column、numPartitions、lowerBound和upperBound：用于指定分区的列名，分区的数量，分区的列的最小值和最大值
predicates：谓词，用于对数据进行过滤，类似于Where子句
properties：JDBC数据库连接参数的字典
1，向下推送表
如果把table设置为表名，那么表示查询整个表。
pushdown_query = "table_name"
df = spark.read.jdbc(url=jdbcUrl, table=pushdown_query, properties=connectionProperties)
display(df)
对查询的结果进行投影和过滤：
spark.read.jdbc(jdbcUrl, table=pushdown_query, connectionProperties).select("carat", "cut", "price").where("cut = 'Good'")
2，向下推送查询
如果向下推送查询，那么需要采用下方的格式：(query) data_alias
pushdown_query = "(select * from employees where emp_no < 10008) emp_alias"
df = spark.read.jdbc(url=jdbcUrl, table=pushdown_query, properties=connectionProperties)
display(df)
三，向下推送更新
通过JDBC，把DataFrame的内容存储到外部数据表中： 
spark.write.jdbc(url, table, mode=None, properties=None)
参数注释：
url：JDBC Url
table：外部数据库的表名
mode：数据更新的模式，append、overwrite、ignore、error（默认，如果数据存在，抛出异常）
properties：JDBC数据库连接参数的字典

推荐文章

近视的充电器 · 下載 - JDBC Driver for SQL Server | Microsoft Learn

3 月前

耍酷的柑橘 · 如何在Java应用中使用JDBC连接PostgreSQL版数据库 - 云原生数据库 PolarDB - 阿里云

3 月前

发呆的洋葱 · 使用JDBC连接与开发PolarDB PostgreSQL版(兼容Oracle)-云原生数据库 PolarDB-阿里云

3 月前

冲动的梨子 · Reusable Containers (Experimental) - Testcontainers for Java

3 月前

逼格高的西瓜 · 测试 Databricks JDBC 驱动程序（Simba） - Azure Databricks | Microsoft Learn

2 月前

不拘小节的爆米花 · JavaScriptSerializer.Deserialize 方法 (System.Web.Script.Serialization) | Microsoft Learn

9 月前

一身肌肉的茶叶 · excel WSD - CSDN文库

1 年前

安静的饭盒 · dolphinscheduler调度常见问题_org.apache.dolphinscheduler.plugin.task.api.taskex-CSDN博客

1 年前

爱喝酒的手电筒 · 将一个uint8变量写入两个字节？

1 年前

活泼的猕猴桃 · 浣跨�浜��XML ��XMLIndex �ヨ��苟�ヨ�� XML �版�婧�/title> <style type="text/css"> <!-- .

2 年前