此文首发在 infoq 中文站。作者:明灵(dragon) , fenng . note:要转载的朋友请注意注明这篇文章的第一作者!
这篇文章是dragon 朋友来邮探讨后他做的一个总结。在 db 中排序还是在 应用程序中排序是个很有趣的话题,dragon 第一份邮件中其实已经总结的很好了,我添加了一点建议而已。现在放上来,与大家共享。这篇文章也投稿到了 infoq 中文站 。
q:列出在
php 中执行排序要优于在 mysql 中排序的原因?给一些必须在mysql中排序的实例?
a:通常来说,执行效率需要考虑 cpu、内存和硬盘等的负载情况,假定 mysql 服务器和 php 的服务器都已经按照最适合的方式来配置,那么系统的可伸缩性(scalability)和用户感知性能(user-perceived performance)是我们追求的主要目标。在实际运行中,mysql 中数据往往以 hash tables、btree 等方式存贮于内存,操作速度很快;同时 index 已经进行了一些预排序;很多应用中,mysql 排序是首选。而在应用层(php)中排序,也必然在内存中进行,与 mysql 相比具有如下优势:
- 1、 考虑整个网站的可伸缩性和整体性能,在应用层(php)中排序明显会降低数据库的负载,从而提升整个网站的扩展能力。而数据库的排序,实际上成本是非常高的,消耗内存、cpu,如果并发的排序很多,db 很容易到瓶颈。
- 2、 如果在应用层(php)和mysql之间还存在数据中间层,合理利用,php会有更好的收益。
- 3、 php在内存中的数据结构专门针对具体应用来设计,比数据库更为简洁、高效;
- 4、 php不用考虑数据灾难恢复问题,可以减少这部分的操作损耗;
- 5、 php不存在表的锁定问题;
- 6、 mysql中排序,请求和结果返回还需要通过网络连接来进行,而php中排序之后就可以直接返回了,减少了网络io。
至于执行速度,差异应该不会很大,除非应用设计有问题,造成大量不必要的网络io。另外,应用层要注意php 的 cache 设置,如果超出会报告内部错误;此时要根据应用做好评估,或者调整cache。具体选择,将取决于具体的应用。
列出一些 php 中执行排序更优的情况:
- 1、 数据源不在 mysql 中,存在硬盘、内存或者来自网络的请求等;
- 2、 数据存在 mysql 中,量不大,而且没有相应的索引,此时把数据取出来用php排序更快;
- 3、 数据源来自于多个 mysql 服务器,此时从多个 mysql 中取出数据,然后在php中排序更快;
- 4、 除了 mysql 之外,存在其他数据源,比如硬盘、内存或者来自网络的请求等,此时不适合把这些数据存入 mysql 后再排序;
列出一些必须在 mysql 中排序的实例:
- 1、 mysql 中已经存在这个排序的索引;
- 2、 mysql 中数据量较大,而结果集需要其中很小的一个子集;比如 1000000 行数据,取top 10;
- 3、 对于一次排序、多次调用的情况,比如统计聚合的情形,可以提供给不同的服务使用,那么在 mysql 中排序是首选的。另外,对于数据深度挖掘,通常做法是在应用层做完排序等复杂操作,把结果存入mysql即可,便于多次使用。
- 4、 不论数据源来自哪里,当数据量大到一定的规模后,由于占用内存/cache 的关系,不再适合 php 中排序了;此时把数据复制、导入或者存在 mysql ,并用 index 优化,是优于 php 的。不过,用 java,甚至 c++ 来处理这类操作会更好。 [有些类似大数据集聚合或者汇总的数据,在客户端排序得不偿失。当然,也有用类似搜索引擎的思路来解决类似应用的情况。]
从网站整体考虑,就必须加入人力和成本的考虑。假如网站规模和负载较小,而人力有限(人数和能力都可能有限),此时在应用层(php)做排序要做不 少开发和调试工作,耗费时间,得不偿失;不如在 db 中处理,简单快速。对于大规模的网站,电力、服务器的费用很高,在系统架构上精打细算,可以节约大量的费用,是公司持续发展之必要;此时如果能在应用层(php) 进行排序并满足业务需求,尽量在应用层进行。
评论列表:
发布于 3天前回复该评论
发布于 3天前回复该评论
发布于 3天前回复该评论
发布于 3天前回复该评论
发布于 2天前回复该评论
发布于 2天前回复该评论
发布于 2天前回复该评论
发布于 2天前回复该评论