博文

世界杯比赛规则与数据聚类

已有 5996 次阅读 2010-6-27 15:35 |个人分类:文本挖掘|系统分类:科研笔记| 机器学习, 世界杯, 层次聚类

应该有很多博友像我一样，这段时间可能要花些时间看世界杯。有些博友还会发些心得。俺就从数据聚类的角度，来对世界杯比赛规则进行“重认识”一下，呵呵。

先交代下基础背景知识，内行直接跳过本段，呵呵。数据聚类包括划分聚类、层次聚类等、基于模型的聚类等基本模式。划分聚类中最经典的方法就是K-均值聚类，需要事先给定初始点和聚类类目数。层次聚类中最常用的是HAC聚类，事先两两求出相似度，将最相似的或者最不相似的连接起来呢，然后再求次相似的，一直到所有点的都被连接为止。近年来，基于模型的聚类越来越火，可以将基于竞争的聚类方法划入这个类别。07年Frey提出的AP聚类方法更是被大量引用。

再结合数据聚类，说下世界杯比赛规则。

1. 首先，小组划分，是做基于约束的划分聚类：

(1) 经过预选赛入围的32只球队，被划分为4个档次，其中第一档中的8支球队作为种子队（32个数据，8个聚类类目，将以往世界排名作为权重，选择初始聚类中心，当然东道主特殊，直接作为种子）；

(2) 剩余球队按照其档次和所在洲的约束，进行抽签划分到相应的小组中（24个数据按照一定的规则约束后，随机分配到每个聚类中心的所在组中）；

2. 然后，正式比赛，是做层次聚类：

      (1) 小组确定后，每组四个队，两两求“相似度”，就是说两两打一场，胜的权重给3，平了给1，输了给0，每小组的6场赛事结束后，得到每个队的总体权重（当然了，有可能还要考虑净胜球，相互战绩啥的），那么小组中排名前2的队作为连接点参与下一个层次的聚类。（这里，两两求相似度，完全是基于竞争的，整个比赛阶段基于竞争的层次聚类）；

      (2) 淘汰赛阶段，直接竞争，做二分聚类，胜的参加下一轮聚类；

      (3) 直到最后两支最牛的打决赛，冠军队成为了根节点。

3. 聚类结束，参数重新分配，准备4年后的聚类，呵呵。

所以，世界杯做了大量的约束，注意比赛的观赏性，用了比较简单公平的方法，在较短时间内确定聚类层次关系。

如果是动物界打比赛，可能又是另一个场景，完全自由随机的打，最强的完全有可能因为体力不支，提早被淘汰而成不了冠军。

以上仅供娱乐参考，推理和比喻不当地方，请博友指出，谢谢。

（图片来源：http://worldcup.qq.com/schedule/）

转载本文请联系原作者获取授权，同时请注明本文来自章成志科学网博客。
链接地址：https://blog.sciencenet.cn/blog-36782-339277.html

上一篇：垃圾邮件也知道“个性化服务”了
下一篇：讲座通知：行为信息学与行为计算

收藏 IP: .*| 热度|

当前推荐数：6 推荐人：武夷山 赵星 刘耀 化柏林 许培扬 dulizhi95

发表评论评论 (6 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

章成志

扫一扫，分享此博文

章成志　分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

博文

世界杯比赛规则与数据聚类

当前推荐数：6 推荐人：武夷山 赵星 刘耀 化柏林 许培扬 dulizhi95

发表评论评论 (6 个评论)

章成志

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

章成志 分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

博文

世界杯比赛规则与数据聚类

当前推荐数：6 推荐人： 武夷山 赵星 刘耀 化柏林 许培扬 dulizhi95

发表评论 评论 (6 个评论)

章成志

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

章成志　分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

当前推荐数：6 推荐人：武夷山赵星刘耀化柏林许培扬 dulizhi95

发表评论评论 (6 个评论)