如何设计数据库表中同一字段数据的一致性
所以,虽然在数据库表设计的时候,允许表中具有空字段,但是,我们应该尽量避免。若确实需要的话,我们可以通过一些折中的方式,来处理这些空字段,让其对数据库性能的影响降低到最少。一个成功的管理系统,是由:[50% 的业务 + 50% 的软件] 所组成,而 50% 的成功软件又有 [25% 的数据库 + 25% 的程序] 所组成,数据库设计的好坏是一个关键。如果把企业的数据比做生命所必需的血液,那么数据库的设计就是应用中最重要的一部分。
数据库表设计的四条原则 数据库表设计例子简单
(3) 更新异常:
有关数据库设计的材料汗牛充栋,大学学位课程里也有专门的讲述。不过,就如我们反复强调的那样,再好的老师也比不过经验的教诲。所以我归纳历年来所走的弯路及体会,并在网上找了些对数据库设计颇有造诣的专业人士给大家传授一些设计数据库的技巧和经验。精选了其中的 60 个技巧,并把这些技巧编写成了本文,为了方便索引其内容划分为 5 个部分:
如果采用了 Microsoft Access,你可以用 qry、rpt、tbl 和 mod 等符号来标识对象(比如 tbl_Employees)。我在和 SQL 打交道的时候还用过 tbl 来索引表,但我用 sp_company (现在用 sp_feft_)标识存储过程,因为在有的时候如果我发现了更好的处理办法往往会保存好几个拷贝。我在实现 SQL 2000 时用 udf_ (或者类似的标记)标识我编写的函数。第 1 部分 - 设计数据库之前:这一部分罗列了 12 个基本技巧,包括命名规范和明确业务需求等。
第 2 部分 - 设计数据库表:总共 24 个指南,涵盖表内字段设计以及应该避免的常见问题等。
第 3 部分 - 选择键:怎么选择键呢?这里有 10 个技巧专门涉及系统生成的主键的正确用法,还有何 时以及如何索引字段以获得性能等。
第 5 部分 - 各种小技巧:不包括在以上 4 个部分中的其他技巧,五花八门,有了它们希望你的数据库开发工作会更轻松一些。
第 1 部分 - 设计数据库之前
在设计一个新数据库时,你不但应该仔细研究业务需求而且还要考察现有的系统。大多数数据库项目都不是从头开始建立的;通常,机构内总会存在用来满足特定需求的现有系统(可能没有实现自动计算)。显然,现有系统并不完美,否则你就不必再建立新系统了。但是对旧系统的研究可以让你发现一些可能会忽略的细微问题。一般来说,考察现有系统对你有好处。
定义标准的对象命名规范
一定要定义数据库对象的命名规范。对数据库表来说,从项目一开始就要确定表名是采用复数还是单数形式。此外还要给表的别名定义简单规则(比方说,如果表名是一个单词,别名就取单词的前 4 个字母;如果表名是两个单词,就各取两个单词的前两个字母组成 4 个字母长的别名;如果表的名字由 3 个单词组成,你不妨从头两个单词中各取一个然后从一个单词中再取出两个字母,结果还是组成 4 字母长的别名,其余依次类推)对工作用表来说,表名可以加上前缀 WORK_ 后面附上采用该表的应用程序的名字。表内的列[字段]要针对键采用一整套设计规则。比如,如果键是数字类型,你可以用 _N 作为后缀;如果是字符类型则可以采用 _C 后缀。对列[字段]名应该采用标准的前缀和后缀。再如,假如你的表里有好多"money"字段,你不妨给每个列[字段]增加一个 _M 后缀。还有,日期列[字段]以 D_ 作为名字打头。
检查表名、报表名和查询名之间的命名规范。你可能会很快就被这些不同的数据库要素的名称搞糊涂了。假如你坚持统一地命名这些数据库的不同组成部分,至少你应该在这些对象名字的开头用 Table、Query 或者 Report 等前缀加以区别。
工欲善其事,必先利其器
获取数据模式资源手册
其他的你还可以参考:萨师煊王珊著数据库系统概论
我发现询问用户如何看待未来需求变化非常有用。这样做可以达到两个目的:首先,你可以清楚地了解应用设计在哪个地方应该更具灵活性以及如何避免性能瓶颈;其次,你知道发生事先没有确定的需求变更时用户将和你一样感到吃惊。
一定要记住过去的经验教训!我们开发人员还应该通过分享自己的体会和经验互相帮助。即使用户认为他们再也不需要什么支持了,我们也应该对他们进行这方面的教育,我们都曾经面临过这样的时刻"当初要是这么做了该多好.."。
在物理实践之前进行逻辑设计
在深入物理设计之前要先进行逻辑设计。随着大量的 CASE 工具不断涌现出来,你的设计也可以达到相当高的逻辑水准,你通常可以从整体上更好地了解数据库设计所需要的方方面面。
在你百分百地确定系统从客户角度满足其需求之前不要在你的 ER(实体关系)模式中加入哪怕一个数据表(怎么,你还没有模式?那请你参看技巧 9)。了解你的企业业务可以在以后的开发阶段节约大量的时间。一旦你明确了业务需求,你就可以自己做出许多决策了。
一旦你认为你已经明确了业务内容,你同客户进行一次系统的交流。采用客户的术语并且向他们解释你所想到的和你所听到的。同时还应该用可能、将会和必须等词汇表达出系统的关系基数。这样你就可以让你的客户纠正你自己的理解然后做好下一步的 ER 设计。
创建数据字典和 ER 图表
一定要花点时间创建 ER 图表和数据字典。其中至少应该包含每个字段的数据类型和在每个表内的主外键。创建 ER 图表和数据字典确实有点费时但对其他开发人员要了解整个设计却是完全必要的。越早创建越能有助于避免今后面临的可能混乱,从而可以让任何了解数据库的人都明确如何从数据库中获得数据。
有一份诸如 ER 图表等文档其重要性如何强调都不过分,这对表明表之间关系很有用,而数据字典则说明了每个字段的用途以及任何可能存在的别名。对 SQL 表达式的文档化来说这是完全必要的。
创建模式
一张图表胜过千言万语:开发人员不仅要阅读和实现它,而且还要用它来帮助自己和用户对话。模式有助于提高协作效能,这样在先期的数据库设计中几乎不可能出现大的问题。模式不必弄的很复杂;甚至可以简单到手写在一张纸上就可以了。只是要保证其上的逻辑关系今后能产生效益。
从输入输出下手
在定义数据库表和字段需求(输入)时,首先应检查现有的或者已经设计出的报表、查询和视图(输出)以决定为了支持这些输出哪些是必要的表和字段。举个简单的例子:假如客户需要一个报表按照邮政编码排序、分段和求和,你要保证其中包括了单独的邮政编码字段而不要把邮政编码糅进地址字段里。
报表技巧
理解客户需求
看起来这应该是显而易见的事,但需求就是来自客户(这里要从内部和外部客户的角度考虑)。不要依赖用户写下来的需求,真正的需求在客户的脑袋里。你要让客户解释其需求,而且随着开发的继续,还要经常询问客户保证其需求仍然在开发的目的之中。一个不变的真理是:"只有我看见了我才知道我想要的是什么"必然会导致大量的返工,因为数据库没有达到客户从来没有写下来的需求标准。而更糟的是你对他们需求的解释只属于你自己,而且可能是完全错误的。
理解什么是数据库规范化
优点是降低冗余,利于保证数据的一致性和完整性;缺点是过度的规范化,易造成查询和统计时的效率下降,这主要是由于多表连接所造1、思想性与单一性成的问题。适当的反规范化设计可以提高效率,但在那些数据不太发生变化的情况下使用。通常情况下,可以从两个方面来判断数据库是否设计的比较规范。一是看看是否拥有大量的窄表,二是宽表的数量是否足够的少。若符合这两个条件,则可以说明这个数据库的规范化水平还是比较高的。当然这是两个泛泛而谈的指标。为了达到数据库设计规范化的要求,一般来说,需要符合以下五个要求。要求一:表中应该避免可为空的列。虽然表中允许空列,但是,空字段是一种比较特殊的数据类型。数据库在处理的时候,需要进行特殊的处理。如此的话,就会增加数据库处理记录的复杂性。当表中有比较多的空字段时,在同等条件下,数据库处理的性能会降低许多。所以,虽然在数据库表设计的时候,允许表中具有空字段,但是,我们应该尽量避免。若确实需要的话,我们可以通过一些折中的方式,来处理这些空字段,让其对数据库性能的影响降低到最少。一是通过设置默认值的形式,来避免空字段的产生。如在一个人事管理系统中,有时候号码字段可能允许为空。因为不是每个人都可以记住自己的号码。而在员工报到的时候,可能没有带在身边。所以,号码字段往往不能及时提供。为此,号码字段可以允许为空,以满足这些特殊情况的需要。但是,在数据库设计的时候,则可以做一些处理。如当用户没有输入内容的时候,则把这个字段的默认值设置为0或者为N/A。以避免空字段的产生。二是若一张表中,允许为空的列比较多,接近表全部列数的三分之一。而且,这些列在大部分情况下,都是可有可无的。若数据库遇到这种情况,笔者建议另外建立一张副表,以保存这些列。然后通过关键字把主表跟这张副表关联起来。将数据存储在两个的表中使得主表的设计更为简单,同时也能够满足存储空值信息的需要。要求二:表不应该有重复的值或者列。为了解决这个问题,有多种实现方式。但是,若设计不合理的话在,则会导致重复的值或者列。如我们也可以这么设计,把客户信息、都放入同一张表中。为了解决多个的问题,可以设置、电话、第二、第二电话等等。若还有第三、第四等等,则往往还需要加入的字段。所以,在数据库设计的时候要尽量避免这种重复的值或者列的产生。笔者建议,若数据库遇到这种情况,可以改变一下策略。如把客户另外设置一张表。然后通过客户ID把供应商信息表跟客户信息表连接起来。也就是说,尽量将重复的值放置到一张的表中进行管理。然后通过视图或者其他手段把这些的表联系起来。要求三:表中记录应该有一个的标识符。在数据库表设计的时候,数据库应该养成一个好习惯,用一个ID号来的标识行记录,而不要通过名字、编号等字段来对纪录进行区分。每个表都应该有一个ID列,任何两个记录都不可以共享同一个ID值。另外,这个ID值有数据库来进行自动管理,而不要把这个任务给前台应用程序。否则的话,很容易产生ID值不统一的情况。要求四:数据库对象要有统一的前缀名。一个比较复杂的应用系统,其对应的数据库表往往以千计。若让数据库看到对象名就了解这个数据库对象所起的作用,恐怕会比较困难。而且在数据库对象引用的时候,数据库也会为不能迅速找到所需要的数据库对象而头疼。其次,表、视图、函数等也有统一的前缀。如视图可以用V为前缀,而函数则可以利用F为前缀。如此数据库无论是在日常管理还是对象引用的时候,都能第 4 部分 - 保证数据完整性:讨论如何保持数据库的清晰和健壮,如何把有害数据降低到最小程度。够在最短的时间内找到自己所需要的对象。要求五:尽量只存储单一实体类型的数据。这里将的实体类型跟数据类型不是一回事,要注意区分。这里讲的实体类型是指所需要描述对象的本身。笔者举一个例子,估计大家就可以明白其中的内容了。如现在有一个图书馆里系统,有图书基本信息、作者信息两个实体对象。若用户要把这两个实体对象信息放在同一张表中也是可以的。如可以把表设计成图书名字、图书作者等等。可是如此设计的话,会给后续的维护带来不少的麻烦。遇到这种情况时,笔者建议可以把上面这张表分解成三种的表,分别为图书基本信息表、作者基本信息表、图书与作者对应表等等。如此设计以后,以上遇到的所有问题就都引刃而解了。以上五条考察现有环境是在数据库设计时达到规范化水平的基本要求。除了这些另外还有很多细节方面的要求,如数据类型、存储过程等等。而且,数据库规范往往没有技术方面的严格限制,主要依靠数据库日常工作经验的累积。范式每个分量不可再分范式消除了非主属性对键的部分函数依赖,就是第二范式第二范式消除了任何属性对键的传递依赖,就是第三范式~
数据库中的表有什么作用呢?
5. 通俗地理解 3个范式数据库中的表以行和列来组织数据,每一行称为____,(一条记录) 每一列称为____。(一个字段) 。
为了实现数据共享,在航空物探数据库建模过程中,参考和引用了近百个信息化标准,编制了4个中心信息化标准和1个图件信息化工作指南。数据库中的表与我们日常生活中使用的表格类似,它也是由行(Row) 和列(Column)组成的。列由同类的信息组成,每列又称为一个字段,每列的标题称为字段名。行包括了若干列信息项。
在表字段追加方式和追加内容要明确(每个表字段之间的关系一定要清楚,不然到时候会给你的表结构带来许多不便)。一行数据称为一个或一条记录,它表达有一定意义的信息组合。一个数据库表由一条或多条记录组成,没有记录的表称为空表。每个表中通常都有一个主关键字,用于地确定一条记录。
扩展资料:分数据库表分类原则:
1.每个表应该只包含关于一个主题的信息
当每个表只包含关于一个主题的信息时,就可以于其他主题来维护该主题的信息。例如,应将教师基本信息保存在“教师”表中。如果将这些基本信息保存在“授课”表中,则在删除某教师的授课信息,就会将其基本信息一同删除。
2.表中不应包含重复信息
表间也不应有重复信息 每条信息只保存在一个表中,需要时只在一处进行更新,效率更高。例如,每个学生的姓名、性别等信息,只在“学生”表中保存,而“成绩”中不再保存这些信息。
参考资料来源:
关于数据库表设计的效率问题
1.维护数据字典你提到SQL,说明你使用的是关系数据库。关系数据库的一个优点是物理性,应用程序只需要知道表的定义,不需要关心数据如何存储在磁盘里。
因此,数据库的设计通常分为选择数据库考虑成本逻辑设计和物理设计两部分。
逻辑设计完成后,才是物理设计,这时你关心的是:进行一次检视,找出与企业战略相悖的地方,进行整体调整与再造。需要建哪些表,每个表有哪些列,数据类型是什么?需要哪些索引?
回到你的问题,一个只包含一张表的数据库不能叫数据库,只能称得上是一个文件系统。多表之间的join是家常便饭,各个关系数据库系统(RDBMS)对关系运算都优化得很好。
问题不是建几个表,而是弄清到底需要记录哪些数据,这些数据有什么关联。对于你举的例子,一个表肯定不行,正如你所想的,一个”超级表“包含非常多的列,每行记录都有很多列是null。当然也不是说表越多越好。同样是客户,你可以把的客户和美国的客户分成两个表,但这样做通常是错误的,即使有上亿个客户。因为这不仅增加了查询的难度,还影响数据完整性。设计数据库很重要的一点就是数据完整性。
对一个设计得合理的关系数据库来说,1亿,乃至10亿条记录不算什么。很多数据库系统提供工具(比如横向分割,纵向分割等)以提高性能。
总而言之,,逻辑设计过程中不要太关注物理存储和性能;其次,关系数据库系统能满足大多大数据量的应用场景,前提是设计合理。怎么样才算设计合理?规范化是很好的衡量标准(尽量符合3NF),具体怎么设计,得弄清需求,分析数据,不断改进。花在设计上的时间越多,以后遇到的问题越少。
数据库逻辑模型
图一:数据库关系模型(数据库逻辑模型)是将数据概念模型转换为所使用的数据库管理系统(DBMS)支持的数据库逻辑结构,即将E-R图表示成关系数据库模式。数据库逻辑设计的结果不是的,需利用规范化理论对数据库结构进行优化。
在关系模型中,数据库的逻辑结构是一张二维表。在数据库中,满足下列条件的二维表称为关系模型:
1)每列中的分量是类型相同的数据;
2)列的顺序可以是任意的;
3)行的顺序可以是任意的;
4)表中的分量是不可再分割的最小数据项,即表中不允许有子表;
5)表中的任意两行不能完全相同。
由此可见,有序的航空物探测量剖面数据不满足数据库关系模型条件第3条“行的顺序可以是任意的”,因此,不能简单地直接利用关系数据库(如Oracle,SQL ,Sybase等)来管理剖面数据,需将数据在数据库中的存储方式改为大字段存储,确保不因数据库数据的增加和删除等作改变剖面数据有序特性。
一、大字段存储
(一)大字段存储技术
大字段LOB(Large Object)技术是Oracle专门用于存放处理大对象类型数据(如多媒体材料、影像资料、文档资料等)的数据管理技术。LOB包括内部的和外部的两种类型。内部LOB又分CLOB(字符型)、BLOB(二进制型)等3种数据类型,其数据存储在数据库中,并且支持事务作;外部LOB只有BFILE类型,其数据存储在作系统中,并且不支持事务作。LOB存放数据的长度可以达到4G字节,并且空值列(没有存放数据)不占空间(图2-6)。
图2-6 大字段存储示意图
由于外部LOB存放在作系统文件中,其安全性比内部LOB一些。此外,大字段的存储支持事务作(批量提交和回滚等),而外部LOB不支持事务作。所以,航空物探测量剖面数据采用BLOB来存储。对于BLOB类型,如果数据量小于4000字节,数据库通常采用行内存储,而数据量大于4000字节采用行外存储。分析航空物探测量剖面数据,每个场值数据占4个字节(单精度),目前航磁数据采样率为10次/s,4000字节只能存储100 s数据;一般情况下航空物探测量每条测线飞行时间至少在10 min以上,每条测线数据量远远大于4000字节。所以,航空物探测量剖面数据采用行外存储方式,即大字段列指定“Disable Storage In Row”的存储参数。
由于大字段类型长度可变,可到4G。假设测线飞行时间为T,场值采样率为n次/s,测线场值数据量为4Tn,所以有4Tn≤4G。单条测线飞行时间T不会超过10 h(36000 s,航空物探测量1架次至少飞行1个往返2条测线),则场值的采样率n≤4G/4T=4×1024×1024×1024/4×36000次/s=29826次/s。采用大字段来存储测量数据,不仅能够减少数据表的记录数,提高查询效率,而且使得采样率的扩展不受限制。
(二)大字数据库的高效运行不仅需要技术上的支持,也需要硬件平台和网络的支持以及数据库的有效管理,本文只是从技术的角度说明如何提高数据库的效率,但在实际应用过程中其它方面的支持也是不可缺少的,尤其是数据库管理,数据库建设是“三分技术,七分管理,十二分基础数据”,因此对于数据库管理一定要重视,在管理到位的情况下技术才能发挥应有的作用。段存储技术应用
由于航空物探数据的数据量较大,现有的航磁测量数据按基准点方式(点存储)存储可达几亿个数据记录。若按磁场数据采样点存储方式(简称“场值存储方式”),则记录条数=(磁场数据采样率/坐标采样率)点存储方式的记录数,达几十亿条数据记录,且随着数据采样率的扩展、测点的加密,航空物探测量数据量随着时间的推移呈现快速增长之势。显然,如果采用常规的表结构来存储,势必造成数据的存储、管理、检索、浏览和提取都非常困难。另一方面,从航空物探专业应用需求来说,很少对单个测点的场值数据进行运算、分析等作,一般至少是对一条测线或以上测线,多数时候是需要对整个测区的场值数据进行化极、上延、正反演拟合等。
因此,在航空物探数据库表结构设计时,改变过去将基准点或场值点数据记录作为数据库最小管理对象的理念,采用了大字段存储技术,将测线作为数据库最小管理对象,将测线上的测量数据,如坐标数据和磁场、重力场数据分别存储在相应大字段中。在航空物探数据库建设中,大量采用数据库的大字段存储技术(详见《航空物探信息系统数据库结构设计》)。
(三)大字段存储效率
以航磁测量数据为例分析大字段存储技术优势。如果以场值存储方式存储测线数据,则每条记录包含架次号、测线号、基准号、地理坐标、投影坐标、磁场数据等,由于坐标数据采样率2次/s,磁场数据采样率10次/s,每5个磁场数据中,只有第1个磁场数据有坐标数据,其他4个坐标数据是内插出来,因此在测线记录中会产生大量冗余的数据坐标数据。采用点存储方式存储的测线数据记录数等于线上基准点数,若采用大字段存储方式,一条测线数据只存储为1条数据记录(图2-7),一般一条测线的测点数近万个,甚至更多,可见采用大字段存储大大减少测线数据存储记录数,提高数据的存取效率。
以某测区的两条航迹线为例,分别采用3种方式测试数据库的数据存储效率。磁场数据的采样率10次/s,坐标数据采样率2次/s,两条测线上共有基准点8801个。以场值方式存储先内插坐标信息,使得每个场值数据都拥有自己的坐标,然后存入数据库,共有数据记录44005条,写入数据库时间为57.22 s,读取时间为1.03 s。第二种方式是以采样点的方式进行存储,共有8801条记录,写入数据库时间为9.47 s,读取需要0. s。第三种方式是以大字段的形式存储,只有2条记录,写入数据库1.03 s,读取时间为0.44 s(表2-2)。大字段数据存储记录数最少,存取效率。用整个测区数据测试效果更加明显。
表2-2 三种数据存储方法的存取效率比较 图2-7 大字段存储方式示意图
二、联合主键
主外键是关系型数据库建立表间关系的核心。在航空物探空间数据库建设过程中,要素类与要素类之间、要素类与对象类之间,以及对象类与对象类之间的关系的描述有3种形式,即拓扑关系——描述要素类与要素类之间结点、邻接和联通关系;叠加关系——描述要素类与要素类之间的相交、包含与分类关系;隶属关系——描述对象类与对象类之间的派生关系。前两种关系是采用空间数据模型建立的关系,而隶属关系是通过主键建立的对象类与对象类之间的关系。在建立一对一、一对多的表间关系时,需要在整个数据库表中确定具有性的一个字段作为主键(主关键字)。
按照传统的航空物探数据的档案管理模式,每个项目分配一个自然数作为档案号,项目的所有资料均与此档案号相联系。勘查项目和科研项目的档案号是编号的,且均从001开始。加之人工管理的原因,存在1个项目2个档案号和2个项目1个档案号的情况,因此现行的档案号与项目之间的对应关系不具备性,不能作为项目的标识,即不能作为数据库表的主键。项目编号也不能作为数据库表的主键,项目编号也只是近十,以前的项目没有项目编号。
综合考虑上述因素和项目具有分级、分类的特点,提出了构造项目标识码(简称“项目标识”)的方法,并以此码作为数据库表的主键。
项目标识(主键):AGS+项目类别(2位)+项目起始年份(4位)+档案号(6位)
标识含义:AGS——航空物探的缩位代码;
项目类别——2位代码,01代表勘查项目、02代表科研项目;
起始年份——4位代码,项目开始年号;
档案号——6位代码,为了与传统的项目管理方式相衔接,后面3~4位是
项目档案管理模式下的档案号,不足部分补零。
以上15位编码是一级项目的项目标识,二级及其以下级别的项目标识是在上一级项目标识基础上扩展2位数字代码,中间用“.”号隔开,数字为该级项目的序号。项目标识定义为30位编码,适用于六级以内的项目。例如:AGS022004000576.08.04.02,表示该项目为2004年开展的档案号为576的航空物探科研项目(一级项目)的第8课题(二级项目)第4子课题(项目)的第2专题。由此可见,该项目标识不仅仅是一个建立表间关系的关键字,同时还表达了不同级别项目间的隶属关系。在系统软件开发时,利用此关系生成了项目的分级树形目录,用户对项目的层次关系一目了然,便于项目查询。
数据库的主键一经确定,相应地需要确定联合主键的组成及其表达方式。所谓联合主键就是数据资料的标识,在一个数据库表中选择2个或者2个以上的字段作为主键。由于航空物探数据绝大部分与项目标识有关,加之数据的种类较多,分类复杂,单凭主键确定数据库表中记录的性,势必需要构建极其复杂的主键,这种方法既不利于主键的数据作,又会造成大量的数据冗余,合理地使用联合主键技术可以很好地解决资料问题。以项目提交资料为例,提交的资料分为文字类资料、图件类资料和媒体类资料,我们对资料进行分类和编号,例如100代表文字资料(110——World文档,120——PDF文档),200代表图件资料(210——基础地理资料、220——基础地质资料,230——航迹线图,240——剖面图,——等值线图等),300代表媒体资料(310——PPT文档,320——照片等),第1位(百位)表示该资料的类型,第2~3位表示该类资料的序号。
在数据库管理和项目资料查询时,采用项目标识与资料分类编号作为联合主键(图2-8),可以高效地实现复杂数据的查询。在整个数据库系统中多处(项目查询、数据提取等模块)使用联合主键技术。
图2-8 联合主键实例
三、信息标准化
(一)引用的信息化标准
1)地质矿产术语分类代码:地球物理勘查,地球化学勘查,大地构造学,工程地质学,结晶学及矿物学,矿床学,水文地质学,岩石学,地质学等。
2)基础信息数据分类与代码,国土基础信息数据分类与代码,地球物理勘查技术符号,地面重力测量规范,地面磁勘查技术规程,地面高精度磁测技术规程,例尺重力勘查规范,地理信息技术基本术语,地理点位置的纬度、经度和高程的标准表示法,地名分类与类别代码编制规则。
3)地球空间数据交换格式;数学数字地理底图数据交换格式;数字化地质图图层及属性文件格式。
(二)本系统建立的信息化标准
编写了“航空物探空间数据要素类和对象类划分标准”,“航空物探项目管理和对那些不熟悉标准化一词(normalization)的人而言,标准化可以保证表内的字段都是最基础的要素,而这一措施有助于消除数据库中的数据冗余。标准化有好几种形式,但 Third Normal Form(3NF)通常被认为在性能、扩展性和数据完整性方面达到了平衡。简单来说,3NF 规定:资料管理分类代码标准”,“航空物探勘查分类代码标准”,“航空物探信息系统元数据标准”,“航空物探图件信息化工作指南”,以便与其他应用系统进行信息交换,实现数据库资料共享。
航空物探空间数据要素类和对象类划分标准:根据物探方法、数据处理过程以及推断解释方法和过程,把与GIS有关的数据划分为不同类型的要素类-对象类数据,按专业、比例尺、数据内容对要素类和对象类进行统一命名,使空间数据库中的每个要素类和对象类的命名具有性,防止重名出现。规定要素类-对象类数据库表结构及数据项数值类型。
航空物探项目管理和资料管理分类代码标准:规定了航空物探项目管理和资料管理的相关内容,包括航空物探勘查项目和科研项目的项目立项、设计、实施、成果、评审、资料汇交等项目管理的全过程中的内容,以及项目成果资料和收集资料的归档、发送、销毁、借阅等资料管理与服务过程中的内容和数据项代码。
航空物探勘查分类代码标准:在“地质矿产术语分类代码 地球物理勘查”(标准GB/T 9649.28—1998)增加了航磁、航重专业方面所涉及的数据采集、物性参数、方法手段、仪器设备、资料数据解释及成图图件等内容和数据项代码。
航空物探信息系统元数据标准:规定了航空物探空间数据管理与服务的元数据(数据的标识、内容、质量、状况及其他有关特征)的内容。
四、航迹线数据模型
(一)航迹线模型的结构
航空物探测量是依据测量比例尺在测区内布置测网(测线和切割线)。当飞机沿着设计的测线飞行测量时,航空物探数据收录系统按照一定的采样率采集采样点的地理位置、高度和各种地球物理场信息。采用属性数据分置的方法,将测线地理位置信息从航空物探测量数据中分离出来,形成航迹线要素类表,在此表中只存储与航迹线要素类有关的数据,如项目标识、测区编号、测线号、测线类型(用于区分测线、切割线、不同高度线、重复线等)、坐标、高度值等;将航迹线的对象类数据(磁场、重力场基础数据)分别以大字段形式存储在各自的二维表中,它们共享航迹线,解决了多源有序不同采样率的航空物探测量数据的数据存储问题,在满足要素类空间查询的同时,统一数据的存储方式(图2-9)。航迹线要素类隶属于测区要素类,它们之间为空间拓扑(包含)关系。测区从属于勘查项目,每个勘查项目至少有一个测区,它们之间为1对多关系。有关项目信息存放在项目概况信息对象类表中,各种表之间通过项目标识进行联接。
图2-9 航迹线数据模型结构
(二)航迹线的UML模型
图2-10 与航迹线有关的数据库表逻辑模型结构图
在确定航迹线数据模型后,以它为基础,使用UML完成与航迹的有关的项目概况信息、测区信息、原始数据等数据库表逻辑模型设计(图2-10)。
由UML模型生成Geodatabase模式时,模型中的每个类都对应生成一个要素类或对象类。类的属性映射为要素类或对象类的字段。基类属性中包含的字段,在继承类中不需重复创建。例如,每个类都包括项目标识等字段,可以创建一个包含公共属性的基类,其他类从该类继承公共的属性,而无需重复建基类中包含的属性。因为基类没有对应的要素类或对象类,所以将基类设置为抽象类型。要素类之间的关系采用依赖关系表示。
五、数据库逻辑模型
关系数据库的逻辑结构由一组关系模式组成,因而从概念结构到关系数据库逻辑结构的转换就是将概念设计中所得到的概念结构(ER图)转换成等价的UML关系模式(图2-11)。在UML模型图中,要素数据集用Geodatabase工作空间下的静态包表示。要素集包不能互相嵌套,为了容易组织,在生成物理模型后,在要素数据集包中自定义嵌套。要素数据集与空间参考有关,但是空间参考不能在UML中表达。要素类和二维表都是以类的形式创建的,区别是要素类继承Feature Class的属性,而二维表继承Object属性。为了表达每种元素的额外属性,比如设置字符型属性字段的字符串长度,设置要素类的几何类型(点、线或面)需要使用Geodatabase预定义的元素标记值。
图2-11 逻辑设计关系转换
基于航空物探数据的内在逻辑关系进行分析,使用统一建模语言(UML)构建数据实体对象间的关系类,定义了航空物探数据库的逻辑模型(图2-12)。
如何设计动态字段的产品数据库表
这个数据库是符合2NF的,但是不符合3NF,因为存在如下决定关系:可以采用四种技术:
动态增加数据库表字段
预留足够的空白字段,运行时作动态影射
用xml格式保存在单字段里
改列为行,用另外一个表存放定制字段
【一】
现在我们来分析一下四种技术的优劣,不过首先可以排除的是点动态增加字段的方法,因为在实际作时候几乎是不可能的(sqlserver太慢,oracle索性不支持),基本可以不讨论就排除。剩下后三点。
【二】
name varchar(12),field0 varchar(1),field1 varchar(1),fieldN varchar(1)
}然后看实际运行时候的需要,动态分配字段给系统使用,也许需要一个这样的结构来描述分配情况:
public class Available
{public int ;
public Hashtable ;
}也许某一时刻的数据状况是这样的: =3,哈西表包含内容是("field0"="SomeId", "field1"="AnyName","field2=IsOk")
现在的问题是如果要配合Hibernate,如何来处理?以上段的数据使用状况为例子,如果我们的类定义是这样:
public class Entity01、{
public string Name;
public string SomeId;
public string AnyN列[字段]命名技巧ame;
public bool IsOk;
}也许只需要修改一下xxx.hbm.xml,把 SomeId 和 field0
做成对应就ok了。但是在运行时我们怎么知道会有这样的类定义?除非我们做动态代码生成,自动编译也许可以,但是问题也许就到其他方面去了;如果我们不用动态定义,那么类就只能是这样:
public class Entity01、{
public string Name;
public Hashtable ;
}使用的时候,用 entity01..setValue("AnyName", "boss")
的方式来引用,也许这样是修改最少的了,但是问题是Hibernate不支持这样的方法。
【三】
再来讨论单字段存储的方法,我们使用这样的数据库表定义
CREATE TABLE Sample
(Name varchar(12),Xml CLOB(102400) // 仅作说明而已
)然后对应这样的类定义
public class Entity01、{
public string Name;
public string Xml;
public Hashtable ;
}我们的代码就可以这样使用:string id =
entity01..getValue("SomeId")
了。这样解决看起来很不错,不仅不需要Available表,而且看起来Hibernate对它的支持也很完美,但是致命的问题在于:如果保持高效的查询?除非数据库系统本身对此有支持,否则就只能用低效的substring或者like做查询,这在大批量数据中根本就不可行。
是不是折衷一下,把两种方在表中包含一个"删除标记"字段,这样就可以把行标记为删除。在关系数据库里不要单独删除某一行;采用清除数据程序而且要仔细维护索引整体性。法的优点和起来?问题有来了:怎么保持两者之间数据的同步?难道要我们用存储过程去解析xml内容?
所以,一个两难的问题,需要我们认真去解决。我们通过认真的需求分析,也许可以减少可变字段的数量,但是只要有一个可变字段或者可变的可能性存在,我们始终要去解决这个两难的问题。
期待继续讨论。
【四】
还有一种方法就是改列为行,用另外一个表存放扩展字段,定义可以如下:
TABLE
(idSample Integer,fieldName varchar(30),fieldValue varchar(100)
)其中idSample关联到Sample表的id字段(我没有写出来)。这样的话,Hibernate很容易支持,也可以支持Sql的查询,而且可以支持把内容放到Hashtable中去,看起来是目前的方式了。但是在大容量数据的时候,表的数据会是主表数据量的N倍(看定制的字段数目多少而定),同样存在有很的性能问题。
如何进行数据库设计详解及基本的知识概念
CREATE需求分析--逻辑设计--物理设计--维护优化
1.需求分析
分析模块属性
可选标识属性
存储特点
eg:如注册
包括属性:用户名、密码、电话、邮箱、号、地址、姓名、昵称
可选标识属性:用户名、、电话
存储特点:随系统上线时间逐渐增加,需要存储
2.逻辑设计
范式--二维表 定义由行和列组成的
数据库表中所有字段都是单一属性不可再分由基本数据类型所构成。
第二范式--所有单关键字段的表都符合每二范式
数据库的表中不存在非关键字段对任一选关键字段的部分函数依赖。
eg:商品名称 价格 重量 供应商名称 供应商电话
商品表 和供应商表 以及关联俩个表的商品供应商ID表
第如果采用了 Microsoft Access,你可以用 qry、rpt、tbl 和 mod 等符号来标识对象(比如 tbl_Employees)。我在和 SQL 打交道的时候还用过 tbl 来索引表,但我用 s相关性原则要求企业会计提供的信息应当能够充分反映企业的财务状况、经营成果和流量,以满足会计信息使用者的需要。 在收集、加工、处理和提供会计信息的过程中,充分考虑会计信息使用者的信息需求。p_company (现在用 sp_feft_)标识存储过程,因为在有的时候如果我发现了更好的处理办法往往会保存好几个拷贝。我在实现 SQL 2000 时用 udf_ (或者类似的标记)标识我编写的函数。三范式
如果数据表中不存在非关键字段对任意候选关键字段的传递函数依赖则符合第三范式
eg:商品名称 价格 分类 分类描述 分类关联着分类描述不符合第三范式
拆分为 商品表 分类表 关联商品和分类ID表
第三范式扩展--BC范式
在第三范式的基础之上,数据库表中如果不村子任何字段对任一候选关键字段的传递函数依赖则符合BC范式
也就是说复合关键字,则复合关键字之间也不能存在函数依赖关系。
eg:供应商 商品ID 供应商 商品数量
饮料一厂 1 张三 10
饮料二厂 1 李四 20
供应商 -> 供应商
如果饮料二厂刚签完合同没有提供商品 则看不到二厂的信息 等
拆分成 供应商商品表 和 供应商表
3.物理设计
建立数据库表结构 选择数据库eg: oracle mysql sqlserver
定义数据库、表及字段的命名规范
建表建库选择字段类型 范式化设计
mysql 开源数据库 适合互联网项目
oracle sqlserver商业数据库 适合企业项目 如金融类项目
表及字段命名规则
1.可读性原则
2.表意性原则
3.长命原则 eg: pwd password
如何选择主键?
1.区分业务主键和数据库主键
业务主键进行表与表之间关联数据库主键为了优化数据库存储
2.根据数据库的类型,考虑主键是否要顺序增长
有些数据库是按主键的顺序逻辑存储的 可以设置自动增长
3.主键字段类型所占空间要尽可能的小
对于使用聚集索引方式存储的表,每个索引后都会附加主键信息
外键
1.降低数据导入恶效率
2.增加维护成本
3.虽然不建议使用外键约束,但是相关联的列上一定要建立索引
触发器
1.降低数据导入的效率
2.可能会出现意想不到的数据异常
3.使业务逻辑变得复杂
严禁使用预留字段 后期维护成本高
4.维护优化
维护和优化要做什么?
2.维护索引
3.维护表结构
4.在适当的时候对表进行水平拆分或垂直拆分
可以使用第三方工具对数据字典进行维护
望采纳,谢谢!
建立数据库的原则(怎样建立一个好的数据库)
6,配套原则、主目录分类要清楚详细(也就是要实现的功能)无论是自己,或别人看到你的数据库名(或表名)都一目了然。
每个表之间的关联要明确,表之间的访问,可读写(也就是安全,约束)要明确这点最重要。
在这之前是写出详细的需求分析说明,用图把层次结构画出来,这要在建的时候才不会混乱。
还有就是当你在写程序涉及到数据库的时候,如果你的WEB(FORM)与最初设计的数据库需求分析不同的话,是把需求分析也改为一致。这样才能够同步。尽量避免写程序的时候再回头设计数据库。
以上是我自己的看法,可能同行内有更好的解决办法,多多参考.多多总结..
cool_hnu - 千总 五级 的回答已经很全面!
1.买本书
2.看书
3.做项目的经验
4.好的数将数据分组放入相关字段(例如与客户相关的信息、与相关的信息等),每个字段组都代表要建立的表。然后考虑如何将这些表相互关联。例如,哪些表具有一对多关系(例如,一个客户可能持有多张)?哪些表具有一对一关系(这种情况下,通常会考虑将其组合到一个表中)?据库出现了~
1:需求分析好后,找实体,不要有所落下
2:分析实体里所要涉及到的属性(比如学生,在这个数据库里我需要他的学号,但不需要他的籍贯)
3:分析属性的类型,长度。要想的长远点,比如学生名字的长度,汉族一般几位就够了,可万一来个,那几位长度就不够用了。
4:实体间的关系,要满足需求和现实
5(课程名称) → (学分):写出关系模式
6:优化关系模式(越满足后面的范式越好)
7:建数据库。属性,约束等字母+单词(正确的),这样易懂。
8:数据库安全性设置
如何合理和有效的进行数据库设计
了解你的业务通常情况下,可以从两个方面来判断数据库设计的是否规范:
1)一是看看是否拥有大量的窄表
窄表往往对于OLTP比较合适,符合范式设计原则
2)宽表的数量是否足够的少。
所谓的宽表就是字段比较多的表,包含的维度层次比较多,造成冗余也比较多,毁范式设计,但是利于取数统计
若符合这两个条件,我们可以说数据库设计的比较好.
当然这是两个泛泛而谈的指标。为了达到数据库设计规范化的要求,一般来说,需要符合以下五个要求。
要求一:表中应该避免可为空的列。
虽然表中允许空列,但是,空字段是一种比较特殊的数据类型。数据库在处理的时候,需要进行特殊的处理。如此的话,就会增加数据库处理记录的复杂性。当表中有比较多的空字段时,在同等条件下,数据库处理的性能会降低许多。
要求二:表不应该有重复的值或者列。
如现在有一个进销存管理系统,这个系统中有一张产品基本信息表中。这个产品开发有时候可以是一个人完成,而有时候又需要多个人合作才能够完成。所以,在产品基本信息表产品开发者这个字段中,有时候可能需要填入多个开发者的名字。
如进销存管理中,还需要对客户的进行管理。有时候,企业可能只知道客户一个采购员的姓名。但是在必要的情况下,企业需要对客户的采购代表、仓库人员、财务人员共同进行管理。因为在订单上,可能需要填入采购代表的名字;可是在出货单上,则需要填入仓库管理人员的名字等等。
为了解决这个问题,有多种实现方式。但是,若设计不合理的话在,则会导致重复的值或者列。如我们也可以这么设计,把客户信息、都放入同一张表中。为了解决多个的问题,可以设置、电话、第二、第二电话等等。若还有第三、第四等等,则往往还需要加入更多的字段。
所以,我们在数据库设计的时候要尽量避免这种重复的值或者列的产生。笔者建议,若数据库遇到这种情况,可以改变一下策略。如把客户另外设置一张表。然后通过客户ID把供应商信息表跟客户信息表连接起来。也就是说,尽量将重复的值放置到一张的表中进行管理。然后通过视图或者其他手段把这些的表联系起来。
要求三正在寻求示例模式的人可以阅读《数据模式资源手册》一书,该书根本目的由 Len Silverston、W. H. Inmon 和 Kent Graziano 编写,是一本值得拥有的数据建模图书。该书包括的章节涵盖多种数据领域,比如人员、机构和工作效能等。:表中记录应该有一个的标识符。
在数据库表设计的时候,数据库应该养成一个好习惯,用一个ID号来的标识行记录,而不要通过名字、编号等字段来对纪录进行区分。每个表都应该有一个ID列,任何两个记录都不可以共享同一个ID值。另外,这个ID值有数据库来进行自动管理,而不要把这个任务给前台应用程序。否则的话,很容易产生ID值不统一的情况。
另外,在数据库设计的时候,还能够加入行号。如在销售订单管理中,ID号是用户不能够维护的。但是,行号用户就可以维护。如在销售订单的行中,用户可以通过调整行号的大小来对订单行进行排序。通常情况下,ID列是以1为单位递进的。但是,行号就要以10为单位累进。如此,正常情况下,行号就以10、20、30依次扩展下去。若此时用户需要把行号为30的纪录调到行显示。此时,用户在不能够更改ID列的情况下,可以更改行号来实现。如可以把行号改为1,在排序时就可以按行号来进行排序。如此的话,原来行号为30的纪录现在行号变为了1,就可以在行中显示。这是在实际应用程序设计中对ID列的一个有效补充。这个内容在教科书上是没有的。需要在实际应用程序设计中,才会掌握到这个技巧。
要求四:数据库对象要有统一的前缀名。
一个比较复杂的应用系统,其对应的数据库表往往以千计。若让数据库看到对象名就了解这个数据库对象所起的作用,恐怕会比较困难。而且在数据库对象引用的时候,数据库也会为不能迅速找到所需要的数据库对象而头疼。
其次,表、视图、函数等也有统一的前缀。如视图可以用V为前缀,而函数则可以利用F为前缀。如此数据库无论是在日常管理还是对象引用的时候,都能够在最短的时间内找到自己所需要的对象。
要求五:尽量只存储单一实体类型的数据。
这里将的实体类型跟数据类型不是一回事,要注意区分。这里讲的实体类型是指所需要描述对象的本身。笔者举一个例子,估计大家就可以明白其中的内容了。如现在有一个图书馆里系统,有图书基本信息、作者信息两个实体对象。若用户要把这两个实体对象信息放在同一张表中也是可以的。如可以把表设计成图书名字、图书作者等等。可是如此设计的话,会给后续的维护带来不少的麻烦。
如当后续有图书出版时,则需要为每次出版的图书增加作者信息,这无疑会增加额外的存储空间,也会增加记录的长度。而且若作者的情况有所改变,如住址改变了以后,则还需要去更改每本书的记录。同时,若这个作者的图书从数据库中全部删除之后,这个作者的信息也就荡然无存了。很明显,这不符合数据库设计规范化的需求。
遇到这种情况时,笔者建议可以把上面这张表分解成三种的表,分别为图书基本信息表、作者基本信息表、图书与作者对应表等等。如此设计以后,以上遇到的所有问题就都引刃而解了。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 12345678@qq.com 举报,一经查实,本站将立刻删除。