Python连接数据库——首次连接impala并获取数据_小猪课堂的博客

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

怕老婆的红茶 · Pandas 查找，丢弃列值唯一的列 ...· 1 年前 ·

沉稳的木瓜 · rsync同步技巧---跳过指定文件或目录_ ...· 1 年前 ·

孤独的沙发 · 驱动开发：取进程模块的函数地址 - ...· 1 年前 ·

近视的充电器 · iOS UITouch事件处理-原理篇 - 简书· 1 年前 ·

爱看书的松鼠 · electron webview ...· 1 年前 ·

from impala.dbapi import connect
import pandas as pd
conn = connect(host='query.nobank.com',port=2000)#21000,query.noobank.com
cur = conn.cursor()

sql = """
select user_id
from idw.fact_borrows
limit 10
#执行sql
cur.execute(sql)
cur.close
result = cur.fetchall()
df = pd.DataFrame(data = result)
df.to_excel('路径'，index=True)

好了就这么简单~

**喜欢可以关注【小猪课堂】公众号了解更多编程小技巧**

因需要将 impala 仅仅作为数据源使用，而 python 有较好的数据分析函数，所以需要使用 python 客户端来获取 impala 中的表数据，这里的测试环境是：操作系统：win7 (linux下也可行) python 2.7 大数据环境：centos6.6 CDH版本：CDH5.4.1 impala 2.1.2 port:21050 1、安装 Python package pip install impyla 2、 python 客户端与 impala 交互 2.1 连接 impala >>> from impala .dbapi import connect >>> conn = connect(hos 2.1 连接 impala >>> from impala .dbapi import connect >>> conn = connect(host='my. impala .host', port=21050) >>> cur = conn.cursor() 文章来源：林骥作者：林骥1. 序言读取数据往往是做数据分析的第一步，本文没有讲那些艰涩难懂的概念，只有一些问题的解决方案，当你遇到类似的问题的时候，可以拿来参考借鉴。首先，我们下载并安装... 相关环境如下: Python 3.4Win7 64位参照官网https://github.com/cloudera/impyla中的安装步骤执行：1、pip install six2、pip install bit_array3、pip install thriftpy## thrift (on Python 2.x) or thriftpy (on Python 3.x)4、pip install ... 前些天有个小项目，每天自动将数据库的信息汇总上报，上报的信息有每个表的：名字、所在数据库、数据量、字段数量。其中 获取数据 量较为容易，通过select count(*) 即可，而数据库名、表名、字段数量则难以获取，经过一番搜索，解决方案如下： >>> import sqlalchemy >>> from impala .dbapi import connect Impyla是用于分布式查询引擎的HiveServer2实现(如 Impala 、Hive)的 python 客户端1)安装impylapip install impyla安装报错解决办法：根据提示下载对应的工具直接下载安装即可工具安装完成后，继续pip install impyla安装成功代码测试：from impala .dbapi import connectconn = connect(host='... Ibis是一个工具箱，可弥补本地 Python 环境，远程存储，Hadoop组件（HDFS， Impala ，Hive，Spark）和SQL数据库等执行系统之间的差距。其目标是简化分析工作流程并提高您的生产率。通过以下方式从PyPI安装Ibis： pip install ibis-framework 或通过conda-forge与 conda install ibis-framework -c conda-forge Ibis当前提供用于与以下系统进行交互的工具：（实验性）（实验性）在了解有关使用该库的更多信息。连接器说明：使用活动的NameNode 连接到HDFS 使用随机活动的DataNode 连接到Hive或 Impala pip install git+https://github.com/saagie/pySaagie-connect.git from pySaagie_connect import pySaagie_connect as sc client_hdfs = sc.return_client_hdfs(user='auser_name' , list_name_nodes=['http://nn1', 'http://nn2'] , port_hdfs=50070) Redash: 连接到任何数据源,轻松可视化和分享你的数据 Redash 是我们对以更适合我们的文化和使用模式的方式释放公司内部数据的看法。在 Redash 之前，我们尝试使用传统的 BI 套件并发现了一组臃肿、技术上有挑战且缓慢的工具/流程。我们正在寻找一种更像黑客的方式来查看数据，所以我们建立了一个。 Redash 旨在允许快速轻松地访问数十亿条记录，我们使用 Amazon Redshift（“说”PostgreSQL 的“PB 级数据仓库”）处理和收集这些记录。如今，Redash 支持查询多个数据库，包括：Redshift、Google BigQuery、PostgreSQL、MySQL、Graphite、Presto、Google Spreadsheets、Cloudera Impala 、Hive 和自定义脚本。 Redash 由两部分组成：查询编辑器：考虑使用 JS Fiddle 进行 SQL 查询。通过共享数据集和生成它的查询，您可以以开放的方式在组织中共享数据。通过这种方式，每个人不仅可以对结果数据集进行同行评审，还可以对生成它的过程进行同行评审环境：Centos6.5 python 2.71、下载并安装 Python package:impyla-0.14.0.tar.gzhttps://pypi. python .org/packages/6c/30/da9fe733561eb948a07aaef3ae0240ac6a5466cfea5e6872525515634544/impyla-0.14.0.tar.gz python setup.py ... 1.文档编写目的继上一章讲述如何在CDH集群安装Anaconda&搭建 Python 私有源后，本章节主要讲述如何使用Pyton Impyla客户端连接 CDH集群的HiveServer2和 Impala Daemon，并进行SQL操作。 1.依赖包安装 2.代码编写 3.代码测试 1.CM和CDH... Impyla是用于分布式查询引擎的HiveServer2实现(如 Impala 、Hive)的 python 客户端1)安装impylapip install impyla安装报错解决办法：根据提示下载对应的工具直接下载安装即可工具安装完成后，继续pip install impyla安装成功代码测试：from impala .dbapi import connectconn = connect(host='... 安装impyla包 cmd: python 3 -m pip install impyla 在安装的过程中可能会报出Microsoft Visual C++ 14.0 is required 按照提示的链接下载2015版，然后再重新安装就OK 代码demo from impala .dbapi import connect from impala .u