你好,我是微扰君。
专栏正文已经结束了,在过去一段时间里我们一起学的知识,不知道你掌握得怎么样了呢?如果还意犹未尽的话,从今天开始我们会陆陆续续聊一些其他话题,作为特别番外,希望你可以和我一起继续享受其中的思维乐趣。
今天就先从一个颇有趣味的“洗牌算法” 来开始我们的番外之旅。
“洗牌算法”,顾名思义就是给一副牌,让你用计算机打乱这副牌,这也是一道常见的算法面试题,输入一个数组,让你将数组元素进行“一定程度”的随机重排,也就是使牌组变“乱”。
乍一看你是不是觉得这个问题也太简单了,只需要一点数学基础就能写出来。但是实际上,不同的实现,效率和正确性会有巨大的差异。
那现在就让我们一起来探究洗牌算法的不同实现方式吧。
首先考虑最直观的实现,就是直接模拟现实世界里人们是如何洗牌的。
生活中一种比较常见的洗牌做法就是把牌从牌堆中切出一叠,调换其在牌组中的顺序,然后重复这个过程许多次,直至牌组被打乱至不可预测的状态,我们就认为之后的发牌是具有随机性的,所以游戏可以公平的进行。
用计算机当然可以很轻松地模拟这个过程,而且相比手动一次切出一叠,用计算机我们可以更精细的每次选出两张牌直接进行位置交换,并反复进行这个过程。直觉告诉我们,经过很多次操作之后,牌就被很好的打乱了,而且因为我们是随机交换的,所以各种可能的牌组排列理论上出现的概率是差不多的。
代码写出来并不难,大概如下:
void shuffle(vector<int>& arr) {
int n = arr.size();
int swaps = 1000;
for (int i = 0; i < swaps; i++) {
int x = rand() % n;
int y = rand() % n;
swap(arr[x], arr[y]);
}
}
但这个算法真的是正确的吗?
我们需要打乱多少次才能确保牌真的是乱的呢?这里我们选的交换次数是1000次,对于一副扑克牌来说肯定是够了,但如果只交换5次,显然没有办法覆盖所有可能出现的排列方式,那交换的次数到底如何取就是一个问题,这个数字显然会和牌组的大小有关。
不过,在讨论需要多少次才能真正打乱数组之前,我们首先要来明确定义一下“乱”这个词,毕竟这不是一个很严谨的数学描述,无法量化,在计算机的世界里,我们当然更青睐精确的描述。
对于洗牌算法来说, “乱”可以这样定义:随机生成数组的一种排列,使数组的所有排列情况都能以等概率的方式被选出来,并且我们的方案需要覆盖所有的排列方式。
有n个元素的数组,通过排列组合的知识,我们知道一共有 n! 种不同的排列方式,所以我们就需要有一个算法,让每种排列方式都以 1/n! 的概率出现,或者说,让每个位置出现各个元素的概率是1/n,就可以覆盖所有排列且概率相同。
具体怎么操作呢?
在对n个不同元素进行排列时,我们可以从第一位开始枚举,等概率的选择1~n中的某一个,然后进行第二位的枚举,选择剩下的n-1个元素中的某一个……直到选取最后一个元素,这样的排列总数为n!,因为我们是完全随机选择的,不会产生某些排列出现概率高于其他情况概率的情况。
基于这个想法,我们自然就能想到一种很直观的实现方式,Fisher-Yates Shuffle 算法。
思路就是将刚刚描述的排列过程直接翻译成代码,逐位确定数组每个位置应该选择的元素,每次选择的时候从剩余可选的元素中随机选择一个即可。
为了维护剩余的元素,我们需要用另一个数组去存储剩余元素,一开始放入所有的元素,然后每次确定一位就要将该元素从数组中移除掉。
翻译成代码如下:
void Fisher_Yates_Shuffle(vector<int>& arr,vector<int>& res) {
int k;
int n = arr.size();
for (int i=0;i<n;i++) {
k=rand()%arr.size();
res.push_back(arr[k]);
arr.erase(arr.begin()+k);
}
}
其中 arr 就是我们待打乱的数组,res 则是最终打乱之后的排列结果。
但是相信你也看到了,这个算法的弊端很明显。数组的随机删除操作会带来O(n)的时间复杂度,所以整体的时间复杂度就是O(n^2),并且引入了额外的数组来存放候选集时,也引入了O(n)的空间复杂度。这并不是一个理想的时空复杂度。
因此,Knuth 和 Durstenfeld 在此基础上进行了改进,采用直接在原始数组上操作的方式,避免了O(n)的额外空间开销,也把时间复杂度降到了O(n)。
做法和Fisher的本质其实是一样的,只不过在随机选择和交换的时候采取了一个小trick,我们来看具体是怎么做的。
仍然逐位进行选择,但是当我们在选择第i位的时候,会假设0~i-1位已经确定,那么i的可选范围其实就是当前数组的第i~n-1位,于是 我们只需要把第i位元素和第i~n-1位元素中的任意一个元素交换,就可以实现随机选择的效果。
翻译成代码如下:
void shuffle(vector<int>& arr) {
for (int i = 0; i < n; i++) {
int tmp;
int target = i + rand() % (n - i);
tmp = arr[i];
arr[i] = arr[target];
arr[target] = tmp;
}
}
这样我们就可以逐个确定每一位元素的位置,等可能的从所有的可能项中选择,保证等概率性。所需的时间复杂度为O(n),空间复杂度为O(1)。
看这个做法你可能还是有点疑惑,怎么严格证明这样的洗牌算法是等概率的呢?
其实我们只需要看每个位置出现各个元素的概率是不是1/n就可以了。这里直接引用我之前写的洗牌算法的力扣 题解 的证明:
先看第一个位置,由于我们是从n个元素中随机选择一个,每个元素出现的概率显然是1/n。
而对于第二个位置,我们要考虑这个元素没有出现在之前的选择中,然后是从剩下n-1个元素中随机选择一个,所以任意一个元素出现的概率是 ((n-1)/n) * (1/(n-1)) = 1/n 。
同样,第三个位置,任意元素出现的概率应该保证前面两个位置都没有选中,那是 (n-1/n)*(n-2/n-1)*(1/n-2) = 1/n 。
依次递推,所以你会发现每个位置任意元素出现的概率都是相等的,1/n 。
这就可以严格的证明我们的算法是正确的。
那事实上,在我们日常业务开发中,这种需要随机的场景其实也是很多的。
比如知名的注册中心 Eureka,它客户端侧的负载均衡就是基于洗牌算法实现的,大致的做法就是把每个客户端维护的服务器的IPList打乱,然后尝试逐个请求服务器的接口,直至请求成功。
在 java.util.Collections 里也有内置的 shuffle 函数(也就是洗牌算法)用于打乱数组元素,事实上最新的 Eureka 里的随机负载均衡策略也是用JDK内置的 shuffle 函数实现的,感兴趣的话,你可以看具体 代码。
public static <T extends EurekaEndpoint> List<T> randomize(List<T> list) {
List<T> randomList = new ArrayList<>(list);
if (randomList.size() < 2) {
return randomList;
}
Collections.shuffle(randomList,ThreadLocalRandom.current());
return randomList;
}
核心逻辑非常简单,就是简单的调用shuffle函数,将实现注册的IP列表通过randomize函数打乱,之后逐一请求。
我们今天学习了三种不同的洗牌算法思路:每次随机选出两张牌交换,然后不断重复这一过程、Fisher-Yates Shuffle 算法、Knuth-Durstenfield算法。
第一种是源于日常生活中的观察,但是它不能说是正确的洗牌算法,根本原因是因为对问题没有清晰的定义,比如对于打乱的结果“乱”到底如何量化?这个问题不解决,我们就没法确定自己的算法是否是正确的。
而我们在解决计算机问题的时候,很多时候是需要去寻求本质解的。后两种思路,在找到了精确的定义之后,就可以让算法能保证数组每种排列出现的概率是等可能的了。
Knuth-Durstenfield算法是对Fisher-Yates算法的一种优化。在日常开发中,我们也需要分析每个可能产生性能开销的地方,然后尝试是否有优化的可能,这个时候可能需要一些tricks,除了灵光一现,也需要一些经验。不断学习各种算法就是一种非常好的积累经验的方法。
如果别人提供了一个洗牌算法的实现,你有没有什么办法可以大致验证这个算法的正确性呢?
欢迎在留言区留下你的思考,和我一起讨论。如果觉得这篇文章对你有帮助,也欢迎转发给你的朋友或者同事一起学习。