数据结构 | 7f - 柒风博客

树状数组（Binary Indexed Tree / Fenwick Tree）学习与实现

2020年9月14日作者：7forz
暂无评论
树状数组是一个能高效处理数组①更新、②求前缀和的数据结构。它提供了2 个方法，时间复杂度均为O(log n)：
1. update(index, delta)：将 delta 加到数组的 index 位置
2. prefix_sum(n)：获取数组的前 n 个元素的和
  range_sum(start, end)：获取数组从 [start, end] 的和，相当于 prefix_sum(end) – prefix_sum(start-1)
如果只追求第 1 点，即快速修改数组，普通的线性数组可满足需求。但对于 range sum()，需要O(n)。

如果只追求第 2 点，即快速求 range sum，使用前缀数组的效果更好。但对于 add() 操作，则需要O(n)，所以只适合更新较少的情况。

树状数组则处于两者之间，适合数组又修改，又获取区间和的情景。

思想

树状数组的思想是怎样的呢？

假设有一个数组 [1, 7, 3, 0, 5, 8, 3, 2, 6, 2, 1, 1, 4, 5]，想求前 13 个元素的和。那么，

13 = 2³ + 2² + 2⁰ = 8 + 4 + 1

前 13 个数的和等于【前 8 个数的和】+【接下来 4 个数的和】+【接下来 1 个数的和】，即 range(1, 13) = range(1, 8) + range(9, 12) + range(13, 13)。如果有一种方法，可以保存 range(1, 8)、range(9, 12)、range(13, 13)，那么计算这个区间和就可以加快了。

这里给出已经计算好的结果（即最下面的 array 层）。例如 array[8] 是 29，往上可以找到 29 对应的是 [1,8]，即 range(1, 8) = array[8]。同理，range(9, 12) = array[12]，range(13, 13) = array[13]。

range(1, 13) = range(1, 8) + range(9, 12) + range(13, 13) = array[8] + array[12] + array[13]

由此图可以发现，虽然它的英文是含有 Tree，中间的部分看起来也是树状的，但是最终用到的 array 是线性的数组（太好了，复杂程度大减）。

那中间这 3 层是怎么来的呢？——需要从上到下，从左到右看。

首先计算 [1, 1] 的和，然后计算 [1, 2] 的和，然后计算 [1, 4]、[1, 8] 的和，每次乘 2，直到越界（[1, 16] 越界），这里分别算出来了1、8、11、29。

然后是第二层，从空缺的位置继续，这里的“界”不是整个数组的最大值，而是所有上层中下一个非空缺的位置。计算 [3, 3] 的和，[3, 4] 不用算，因为越界了。然后计算 [5, 5] 的和，接下来是 [5, 6] 的和，[5, 8] 越界不用算。

第三层也是类似，然后发现填完了。

以上可以帮助理解 result 数组中各值的来源，实际建立时有更简洁的做法。至于为什么是这样定义，可以另外找找资料，我看起来这有点像“分形”的感觉。
阅读更多…
一图流领悟跳跃列表(Skip List)，附 Python/Java/Kotlin 实现

2020年8月23日作者：7forz
暂无评论

跳跃列表是一种随机数据结构。它使得包含 n 个元素的有序序列的查找、插入、删除操作的平均时间复杂度都是 O(log n)。（注意关键词有序，如果不需要有序，也不需要用到跳跃列表；数据量大时，时间复杂度退化到较慢的概率微乎其微）

平均最差
搜索 O(log n) O(n)
插入 O(log n) O(n)
删除 O(log n) O(n)
空间 O(n) O(n log n)

跳跃列表是通过维护一个多层的链表实现的。每一层链表中的元素的数量，在统计上来说都比下面一层链表元素的数量更少。也就是说，上层疏，下层密，底层数据是完整的，上面的稀疏层作为索引——这就是链表的“二分查找”啊。

一开始时，算法在最稀疏的层次进行搜索，直至需要查找的元素在该层两个相邻的元素中间。这时，算法将跳转到下一个层次，重复刚才的搜索，直到找到需要查找的元素为止。

Wikipedia 的道理就讲到这里，我不希望把本文写得难懂。说好的一图流就能领悟呢？其实我有点标题党，本文不止一幅图，但是核心的图只有一幅，上图（来自 Wikipedia）：

请多次认真观看插入节点的全过程 gif。我看完之后，就觉得自己可以实现出来了（虽然后来实际开发调试了很多次）。

例如想在上图中所示的跳跃列表中插入 80，首先要找到应该插入的位置。

首先从最稀疏的层的 30 开始，把当前位置设置为顶层的 30。
80 比当前位置右边的 NIL 小，所以把当前位置移到下一层的 30；
80 比当前位置右边的 50 大，所以把当前位置右移到 50；
80 比当前位置右边的 NIL 小，所以把当前位置移到下一层的 50；
80 比当前位置右边的 70 大，所以把当前位置右移到 70；
80 比当前位置右边的 NIL 小，所以把当前位置移到下一层的 70；（当前位置已到达底层）
之后用 80 不断与右边的节点比较大小，右移至合适的位置插入 80 节点。（底层插入完毕）
接下来用随机决定是否把这个 80 提升到上面的层中，例如图中的提升概率是 50%（抛硬币），不断提升至硬币为反面为止。

上面一段描述了 gif 中插入 80 的搜索和插入过程。那么，代码如何实现？右移和下移的逻辑很浅显，那么重点就在如何提升节点到上层的逻辑。
阅读更多…
【坐在马桶上看算法】最常用的排序——快速排序

2015年10月4日作者：7forz
暂无评论

最近在学习数据结构，真的是不简单。看到这篇文章，简单易懂，转载下来给自己回味。原文：http://bbs.ahalei.com/thread-4419-1-1.html

假设我们现在对“6 1 2 7 9 3 4 5 10 8”这个10个数进行排序。首先在这个序列中随便找一个数作为基准数（不要被这个名词吓到了，就是一个用来参照的数，待会你就知道它用来做啥的了）。为了方便，就让第一个数6作为基准数吧。接下来，需要将这个序列中所有比基准数大的数放在6的右边，比基准数小的数放在6的左边，类似下面这种排列。

3 1 2 5 4 6 9 7 10 8

在初始状态下，数字6在序列的第1位。我们的目标是将6挪到序列中间的某个位置，假设这个位置是k。现在就需要寻找这个k，并且以第k位为分界点，左边的数都小于等于6，右边的数都大于等于6。想一想，你有办法可以做到这点吗？

给你一个提示吧。请回忆一下冒泡排序，是如何通过“交换”，一步步让每个数归位的。此时你也可以通过“交换”的方法来达到目的。具体是如何一步步交换呢？怎样交换才既方便又节省时间呢？先别急着往下看，拿出笔来，在纸上画画看。我高中时第一次学习冒泡排序算法的时候，就觉得冒泡排序很浪费时间，每次都只能对相邻的两个数进行比较，这显然太不合理了。于是我就想了一个办法，后来才知道原来这就是“快速排序”，请允许我小小的自恋一下(^o^)。

方法其实很简单：分别从初始序列“6 1 2 7 9 3 4 5 10 8”两端开始“探测”。先从右往左找一个小于6的数，再从左往右找一个大于6的数，然后交换他们。这里可以用两个变量i和j，分别指向序列最左边和最右边。我们为这两个变量起个好听的名字“哨兵i”和“哨兵j”。刚开始的时候让哨兵i指向序列的最左边（即i=1），指向数字6。让哨兵j指向序列的最右边（即j=10），指向数字8。

阅读更多…

	平均	最差
搜索	O(log n)	O(n)
插入	O(log n)	O(n)
删除	O(log n)	O(n)
空间	O(n)	O(n log n)

树状数组（Binary Indexed Tree / Fenwick Tree）学习与实现

思想

一图流领悟跳跃列表(Skip List)，附 Python/Java/Kotlin 实现

【坐在马桶上看算法】最常用的排序——快速排序

Ad: