《SQL语言艺术(PDF格式)》第4章


我们希望存储过程返回什么结果?再辅以大胆的思维,思考这些问题的答案,就能得到一个性 
能大幅提升的处理方式了。 
总结:考虑解决方案的细节之前,先站得远一些,把握大局。 
先定义问题,再解决问题 
Problem Definition Before Solution 
PPrroobblleemm DDeeffiinniittiioonn BBeeffoorree SSoolluuttiioonn 
一知半解是危险的。人们常在听说了新技术或特殊技术之后——有时的确很吸引人——试图采 
用它作为新的解决方案。普通开发者和设计师通常会立即采纳这些新“解决方案”,直到后来才 
发现它们会产生许多后续问题。 
现成的解决方案中,非规范化设计引人注目。设计伊始,非规范化设计的拥护者就提出此方案, 
为了寻求“性能”而无视最终将会面临的升级恶魔——而事实上,在开发周期早期,改进设计(或 
学习如何使用join)也是一个不错的选择。作为非规范化设计的一种手段,物化视图(materialized 
view)常被认为是灵丹妙药。物化视图有时被称为快照(snapshot),这个更加平常的词更形象 
地反映了可悲的事实:物化视图是某时间点的数据副本。在没有其他办法时,这个理论上遭到 
质疑的技术也未尝不值得一试,借用卡夫卡(Franz Kafka)的一句名言:“逻辑诚可贵,生存价 
更高。” 
然而,绝大部分问题都可借助传统技术巧妙解决。首先,应学会充分利用简单、传统的技术。 
只有完全掌握了这些技术,才能正确评价它们的局限性,最终发现它相当于新技术的潜在优势 
(如果有的话)。 
所有技术方案,都只是我们达到目标的手段。没有经验的开发者误把新技术本身当成了目标。 
…………………………………………………………Page 10……………………………………………………………
对于热衷于技术、过于看重技术的人来说,此问题就更为严重。 
总结:先打基础,再赶时髦:摆弄新工具之前,先把手艺学好。 
直接操作实际数据 
OperationsAgainst Actual Data 
OOppeerraattiioonnssAAggaaiinnsstt AAccttuuaall DDaattaa 
许多开发者喜欢建立临时工作表(temporaryworktable),把后续处理使用的大量数据放入其中, 
然后开始“正式”工作。这种方法广受质疑,反映了“跳出业务流程细节考虑问题”的能力不足。 
记住,永久表(permanent table)可以设置非常复杂的存储选项(在第5章将讨论一些存储选项 
的设置),而临时表不能。临时表的索引(如果有的话)可能不是最优的,因此,查询临时表的 
语句效率比永久表的差。另外,查询之前必然先为临时表填入数据,这自然也多了一笔额外的 
开销。 
就算使用临时表有充足理由,若数据量大,也绝不能把永久表当作临时工作表来用。问题之一 
在于统计信息的自动收集:若没有实时收集要求,DBMS通常会在不活动或活动少时进行统计 
信息收集,而这时作为临时工作表可能为空,从而使优化器收到了完全错误的信息。这些不正 
确且有偏差的统计信息可能造成执行计划(execution plan)完全不合理,导致性能下降。所以, 
如果一定要用临时表,应确保数据库知道哪些表是临时的。 
总结:暂时工作表意味着以不太合理的方式存储更多信息。 
SQL 
用SSQQLL处理集合 
Set Processing in SQL 
SSeett PPrroocceessssiinngg iinn SSQQLL 
SQL 完全基于集合(Set)来处理数据。对大部分更新或删除操作而言 —— 如果不是针对整 
个表的话 —— 你必须先精确定义出要处理的记录的集合。这定义了该处理的粒度 
(granularity),可能是对大量记录的粗粒度操作,有可能是只影响少数记录的细粒度操作。 
将一次“大批量数据的处理”分割成多次“小块处理”是个坏主意,除非对数据库的修改太昂贵, 
否则不要使用,因为这种方法极其低效: 
(1)占用过多的空间保存原始数据,以备事务(transaction)回滚(rollback)之需; 
(2)万一修改失败,回滚消耗过长的实践。 
许多人认为,进行大规模修改操作时,应在操作数据的代码中有规律地多安排些mit命令。 
其实,严格从实践角度来讲,“从头开始重做”比“确定失败发生的时间和位置,接着已提交部分 
重做”要容易得多、简单得多、也快得多。 
处理数据时,应适应数据库的物理实现。考虑事务失败时回滚所需日志的大小,如果要为undo 
保存的数据量确实巨大,或许应该考虑数据修改的频率问题。也就是说,将大规模的“每月更新”, 
改为规模不大的“每周更新”,甚至改为规模更小的“每日更新”,或许是个有效方案。 
总结:几千个语句,借助游标(cursor)不断循环,很慢。换成几个语句,处理同样的数据, 
还是较慢。换成一个语句,解决上述问题,最好。 
…………………………………………………………Page 11……………………………………………………………
SQL 
动作丰富的SSQQLL语句 
Action…Packed SQL Statements 
AAccttiioonn……PPaacckkeedd SSQQLL SSttaatteemmeennttss 
SQL 不是过程性语言(procedurallanguage),尽管也可以将过程逻辑(procedurallogic)用于SQL, 
但必须小心。混淆声明性处理(declarative processing)和过程逻辑,最常见的例子出现在需要 
从数据库中提取数据、然后处理数据、然后再插入到数据库时。在一个程序(或程序中的一个 
函数)接收到特定输入值后,如下情况太常见了:用输入值从数据库中检索到一个或多个另外 
的数据值,然后,借助循环或条件逻辑(通常是 if。。。then 。。。else)将一些语句组织起来,对数 
据库进行操作。大多数情况下,造成上述错误做法的原因有三:根深蒂固的坏习惯、SQL知识 
的缺乏、盲从功能需求规格说明。其实,许多复杂操作往往可由一条 SQL 语句完成。因此, 
如果用户提供了一些数据值,尽量不要将操作分解为多条提取中间结果的语句。 
避免在 SQL 中引入“过程逻辑(procedurallogic)”的主要原因有二。 
数据库访问,总会跨多个软件层,甚至包括网络访问。 
即使没有网络访问,也会涉及进程间通讯;额外的存取访问意味着更多的函数调用、更大的带 
宽,以及更长的等待时间。一旦这些调用要重复多次,其对性能的影响就非常可观了。 
在SQL中引入过程逻辑,意味着性能和维护问题应由你的程序承担。 
大多数据库系统都提供了成熟的算法,来处理join等操作,来优化查询以获得更高的效率。基于 
开销的优化器(cost…basedoptimizer,CBO)是很复杂的软件,它早已不像刚推出时那样没什么 
用了,而在大部分情况下都是非常出色的成熟产品了,优秀的CBO 查询优化的效率极高。然而, 
CBO 所能改变的只有 SQL 语句。如果在一条单独的SQL语句中完成尽可能多的操作,那么性 
能优化可以还由 DBMS 核心负责,你的程序可以充分利用DBMS的所有升级。也就是说,未 
来大部分维护工作从程序间接转移给了DBMS 供货商。 
当然,“避免在 SQL 中引入过程逻辑”规则也有例外。有时过程逻辑确实能加快处理速度,庞 
大的SQL语句未必总是高效。然而,过程逻辑及其之后的处理相同数据的语句,可以编写到一 
个单独的 SQL 语句中,CBO 就是这么做的,从而获得最高效的执行方式。 
总结:尽可能多地把事情交给数据库优化器来处理。 
充分利用每次数据库访问 
Profitable Database Accesses 
PPrrooffiittaabbllee DDaattaabbaassee AAcccceesssseess 
如果计划逛好几家商店,你会首先决定在每家店买哪些东西。从这一刻起,就要计划按何种顺 
序购物才能少走冤枉路。每逛一家店,计划东西购买完毕,才逛下一家。这是常识,但其?
小说推荐
返回首页返回目录