2、"range unbounded preceding"
range unbounded preceding会把当前行之前的所有行都包含进来,但当partition by时:
SQL> select deptno,ename,sal,
sum(sal) over (partition by deptno order by deptno range unbounded preceding) sumsal
from emp;
SQL> select deptno,ename,sal,
sum(sal) over (order by deptno range unbounded preceding) sumsal
from emp;
这SQL句子和下面这SQL是等价的:
select deptno,ename,sal, sum(sal) over (order by deptno) sumsal from emp;
因为order by的默认窗口总是从结果集的第一行开始到它分组的最后一行。
而partiton by的默认窗口总是从分区的第一行开始。
3、range窗口: “range 100 preceding”
这个子句只适用于number和date,而且只能order by一列。
如果over()里asc排列,意思是[number-100,number]这样一个闭区间是它的窗口。
如果over()里desc排列,意思是[number,number+100]这样一个闭区间是它的窗口。
4、窗口总结
1、unbounded preceding:从当前分区的第一行开始,到当前行结束。
2、current row:从当前行开始,也结束于当前行。
3、[numeric expression] preceding:对于rows来说从当前行之前的第[numeric expression]行开始,到当前行结束。对range来说从小于数值表达式的值开始,到当前行结束。
4、[numeric expression] following:与[numeric expression] preceding相反。
几乎每次我展示SQL Server里的窗口时,人们都非常有兴趣知道,当你定义你的窗口(指定的一组行)时,ROWS与RANGE选项之间的区别。因此在今天的文章里我想给你展示下这些选项的区别,对于你的分析计算意味着什么。
ROWS与RANGE之间的区别
当你用OVER()子句进行你的分析计算来打开你的窗口,你也可以在窗口里看到的,通过ROWS与RANGE选项来限制你的行数。来看下面的T-SQL语句:
复制代码
1 SELECT
2 t.OrderYear,
3 t.OrderMonth,
4 t.TotalDue,
5 SUM(t.TotalDue) OVER(ORDER BY t.OrderYear, t.OrderMonth ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS ‘RunningTotal’
6 FROM
7 (
8 SELECT
9 YEAR(OrderDate) AS ‘OrderYear’,
10 MONTH(OrderDate) AS ‘OrderMonth’,
11 SalesPersonID,
12 TotalDue
13 FROM Sales.SalesOrderHeader
14 ) AS t
15 WHERE
16 t.SalesPersonID = 274
17 AND t.OrderYear = 2005
18 GO
复制代码
这个T-SQL语句用SUM()聚合函数进行汇总计算。窗口本身从第1行(UNBOUNDED PRECEDING)上至当前行(CURRENT ROW)。对于记录级中的每1行,窗口变得越来越大,因此很容易进行汇总运算。下图演示了这个概念。
从输出你可以看到,结果是个自增长的汇总——运行合计汇总的结果。
现在假设你修改窗口为RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW,会发生什么:
复制代码
1 SELECT
2 t.OrderYear,
3 t.OrderMonth,
4 t.TotalDue,
5 SUM(t.TotalDue) OVER(ORDER BY t.OrderYear, t.OrderMonth RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS ‘RunningTotal’
6 FROM
7 (
8 SELECT
9 YEAR(OrderDate) AS ‘OrderYear’,
10 MONTH(OrderDate) AS ‘OrderMonth’,
11 SalesPersonID,
12 TotalDue
13 FROM Sales.SalesOrderHeader
14 ) AS t
15 WHERE
16 t.SalesPersonID = 274
17 AND t.OrderYear = 2005
18 GO
复制代码
从下图你可以看到,你得到了不同的结果,对于2005年11月的记录显示同样的汇总。
我们来尝试理解下为什么这里RANGE选项比ROWS选项给你不同的结果。使用ROWS选项你定义当前行的固定前后记录。这里你看到的行取决于窗口的ORDER BY从句。你也可以说你在物理级别定义你的窗口。
当你使用RANGE选项事情就改变了。RANGE选项包含窗口里的所有行,和当前行有相同ORDER BY值。从刚才的图片你可以看到,对于2005年11月的2条记录你拿到同个汇总,因为这2行有同样的ORDER BY值(2005年11月)。使用RANGE选项你在逻辑级别定义你的窗口。如果更多的行有同个ORDER BY值,当你使用ROWS选项你的窗口会包含更多的行。
小结
在今天的文章里你看到了当你为你的分析计算定义窗口时,ROWS和RANGE选项之间的区别。使用ROWS选项你在物理级别定义在你窗口里有多少行。使用RANGE选项取决于ORDER BY值在窗口里有多少行被包含。因此当你使用RANGE选项时有性能上的巨大区别。在接下来的文章我会讨论下这些副作用。
感谢关注!
开窗olap转自 https://www.cnblogs.com/sooner/p/7735154.html range和row的区别转自 http://www.cnblogs.com/woodytu/p/4709020.html Oracle分析函数-OLAP函数总结 ORACLE OLAP 函数 最近这个东东用得特别多,总结了一下 。 语法: FUNCTION_...
在网上搜索很多关于窗口函数中的滑动窗口,但是找不到自己需要的,所以自己亲自试验,在此分享一些经验
1 窗口函数基本介绍
window_function_name (expression)
over(
[partition_definition]
[order_definition]
[frame_definition])
其中window_function_name为函数名,over是关键字,窗口由 [partition_definition],[order_definition],[frame_d
滚动窗口有固定的大小,是一种对数据进行“均匀切片”的划分方式。窗口之间没有重叠,也不会有间隔,是“首尾相接”的状态。如果我们把多个窗口的创建,看作一个窗口的运动,那就好像它在不停地向前“翻滚”一样。这是最简单的窗口形式,我们之前所举的例子都是滚动窗口。也正是因为滚动窗口是“无缝衔接”,所以每个数据都会被分配到一个窗口,而且只会属于一个窗口。
滚动窗口可以基于时间定义,也可以基于数据个数定义;需要的参数只有一个,就是窗口的大小(window size)。比如我们可以定义一个长度为 1 小时的滚动时间窗口,那么
1、窗口函数入门
(1)窗口函数的作用于由over子句定义的数据行集合
(2)窗口函数主要用于分析目的、汇总计算、移动平均值计算、计算数据差、发现数据岛等
(3)这些函数都是基于标准sql(ISO 和 ANSI 标准)
(4)其概念的精髓在于可以通过对数据行集合或数据行窗口进行多种计算,最后得到单个值
(5)窗口函数让我们以更加轻松、直观、高效的方式解决数据行集合计算和分析问题
(6)...
cookieid(用户id) uvdate(访问时间) pagename(浏览页面) pv(访问次数)
cookie1 2022-02-01 A_page 1
cookie1 2022-02-01 B_page 2
cookie1 2022-02-0..
活跃度:每天不同的新增的用户
第1日留存率(即“次留”):(当天新增的用户中,新增日之后的第1天还登录的用户数)/第一天新增总用户数;
第2日留存率:(当天新增的用户中,新增日之后的第2天还登录的用户数)/第一天新增总用户数;
第3日留存率:(当天新增的用户中,新增日之后的第3天还登录的用户数)/第一天新增总用户数;
第7日留存率:(当天新增的用户中,新增日之后的第7天还登录的用户数)/第一天新增...
窗口函数可以进行排序,生成序列号等一般的聚合函数无法实现的高级操作。
窗口函数也称为OLAP函数,意思是对数据库数据进行实时分析处理。窗口函数就是为了实现OLAP而添加的标准SQL功能。
窗口函数语法:其中[]中的内容可以省略
<窗口函数> over ([partition by <列清单>]
order by <...
统计:各站点逐时次的,前一天的20点到当前时间的平均值(当天大于20到23点的,统计20点到当前不用减一天);
思路:先生成时间序列(判断好是取前一天20点还是当天20点),然后和数据表进行左连接
select c.station_num 站号,c.edate 日期,avg(T) 统计结果 from
select a.edate,b.* from (
select station_num,CONVERT(varchar(100), date20, 23)+' 20:00:00' sdate,fore
select * from table where to_days(column_time) = to_days(now());
select * from table where date(column_time) = curdate();
查询最近一周的数据
select * from "table" where DATE_SUB(CURDATE(), INTERVAL 7 DAY) <= date("column_time").