`
Newhaven
  • 浏览: 60158 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

数据库对象的缓存策略

阅读更多

数据库对象的缓存策略

前言

本文探讨Jive(曾经开源的Java论坛)和Hibernate(Java开源持久层)的数据库对象的缓存策略,并阐述作者本人的Lightor(Java开源持久层)采用的数据库对象缓存策略。

本文的探讨基于以前开源的Jive代码,Hibernate2.1.7源码,和作者本人的Lightor代码。

本文用ID (Identifier的缩写)来代表数据记录的关键字。

数据对象查询一般分为两种:条件查询,返回一个满足条件的数据对象列表; ID查询,返回ID对应的数据对象。

本文主要探讨“条件查询”和“ID查询”这两种情况的缓存策略。

本文只探讨一个JVM内的数据缓存策略,不涉及分布式缓存;本文只探讨对应单表的数据对象的缓存,不涉及关联表对象的情况。
一、Jive的缓存策略
1.Jive的缓存策略的过程描述:

(1)条件查询的时候,Jive用 select id from table_name where …. (只选择ID字段)这样的SQL语句查询数据库,来获得一个ID列表。

(2) Jive根据ID列表中的每个ID,首先查看缓存中是否存在对应ID的数据对象:如果存在,那么直接取出,加入到 结果列表中;如果不存在,那么通过一条select * from table_name where id = {ID value} 这样的SQL查询数据库,取出对应的数据对象,放入到结果列表,并把这个数据对象按照ID放入到缓存中。

(3) ID查询的时候,Jive执行类似第(2)步的过程,先从缓存中查找该ID,查不到,再查询数据库,然后把结果放入到缓存。

(4) 删除、更新、增加数据的时候,同时更新缓存。
2.Jive缓存策略的优点:

(1) ID查询的时候,如果该ID已经存在于缓存中,那么可以直接取出。节省了一条数据库查询。

(2) 当多次条件查询的结果集相交的情况下,交集里面的数据对象不用重复从数据库整个获取,直接从缓存中获取即可。

比如,第一次查询的ID列表为{1, 2},然后根据ID列表的ID从数据库中一个一个取出数据对象,结果集为{a(id = 1), b(id = 2)}。

下一次查询的ID列表为{2, 3},由于ID = 2的数据对象已经存在于缓存中,那么只要从数据库中取出ID = 3的数据对象即可。
3.Jive缓存策略的缺点:

(1) 在根据条件查找数据对象列表的过程中,DAO的第(1)步用来获得ID列表的那一次数据库查询,是必不可少的。

(2) 如果第(1)步返回的ID列表中有n个ID,在最坏的命中率(缓存中一个对应ID都没有)情况下,Jive还要再查询n次数据库。最坏情况下,共需要n + 1数据库查询。
二、Hibernate的二级缓存策略

Hibernate用Session类包装了数据库连接从打开到关闭的过程。

Session内部维护一个数据对象集合,包括了本Session内选取的、操作的数据对象。这称为Session内部缓存,是Hibernate的第一级最快缓存,属于Hibernate的既定行为,不需要进行配置(也没有办法配置 :-)。

Session的生命期很短,存在于Session内部的第一级最快缓存的生命期当然也很短,命中率自然也很低。当然,这个Session内部缓存的主要作用是保持Session内部数据状态同步。

如果需要跨Session的命中率较高的全局缓存,那么必须对Hibernate进行二级缓存配置。一般来说,同样数据类型(Class)的数据对象,共用一个二级缓存(或其中的同一块)。
1.Hibernate二级缓存策略的过程描述:

(1)条件查询的时候,总是发出一条select * from table_name where …. (选择所有字段)这样的SQL语句查询数据库,一次获得所有的数据对象。

(2) 把获得的所有数据对象根据ID放入到第二级缓存中。

(3) 当Hibernate根据ID访问数据对象的时候,首先从Session一级缓存中查;查不到,如果配置了二级缓存,那么从二级缓存中查;查不到,再查询数据库,把结果按照ID放入到缓存。

(4) 删除、更新、增加数据的时候,同时更新缓存。


2.Hibernate二级缓存策略的优点:

(1) 具有Jive缓存策略同样的第(1)条优点:ID查询的时候,如果该ID已经存在于缓存中,那么可以直接取出。节省了一条数据库查询。

(2) 不具有Jive缓存策略的第(2)条缺点,即hibernate不会有最坏情况下的 n + 1次数据库查询。
3.Hibernate二级缓存策略的缺点:

(1) 同Jive缓存策略的第(1)条缺点一样,条件查询的时候,第(1)步的数据库查询语句是不可少的。而且Hibernate选择所有的字段,比只选择ID字段花费的时间和空间都多。

(2) 不具备Jive缓存策略的第(2)条优点。条件查询的时候,必须把数据库对象从数据库中整个取出,即使该数据库的ID已经存在于缓存中。
三、Hibernate的Query缓存策略

可以看到,Jive缓存和Hibernate的二级缓存策略,都只是针对于ID查询的缓存策略,对于条件查询则毫无作用。(尽管Jive缓存的第(2)个优点,能够避免重复从数据库获取同一个ID对应的数据对象,但select id from …这条数据库查询是每次条件查询都必不可少的)。

为此,Hibernate提供了针对条件查询的Query缓存。
1.Hibernate的Query缓存策略的过程描述:

(1) 条件查询的请求一般都包括如下信息:SQL, SQL需要的参数,记录范围(起始位置rowStart,最大记录个数maxRows),等。

(2) Hibernate首先根据这些信息组成一个Query Key,根据这个Query Key到Query缓存中查找对应的结果列表。如果存在,那么返回这个结果列表;如果不存在,查询数据库,获取结果列表,把整个结果列表根据Query Key放入到Query缓存中。

(3) Query Key中的SQL涉及到一些表名,如果这些表的任何数据发生修改、删除、增加等操作,这些相关的Query Key都要从缓存中清空。
2.Hibernate的Query缓存策略的优点

(1) 条件查询的时候,如果Query Key已经存在于缓存,那么不需要再查询数据库。命中的情况下,一次数据库查询也不需要。
3.Hibernate的Query缓存策略的缺点

(1) 条件查询涉及到的表中,如果有任何一条记录增加、删除、或改变,那么缓存中所有和该表相关的Query Key都会失效。

比如,有这样几组Query Key,它们的SQL里面都包括table1。

SQL = select * from table1 where c1 = ? …., parameter = 1, rowStart = 11, maxRows = 20.

SQL = select * from table1 where c1 = ? …., parameter = 1, rowStart = 21, maxRows = 20.

SQL = select * from table1 where c1 = ? ….., parameter = 2, rowStart = 11, maxRows = 20.

SQL = select * from table1 where c1 = ? ….., parameter = 2, rowStart = 11, maxRows = 20.

SQL = select * from table1 where c2 = ? …., parameter = ‘abc’, rowStart = 11, maxRows = 20.



当table1的任何数据对象(任何字段)改变、增加、删除的时候,这些Query Key对应的结果集都不能保证没有发生变化。

很难做到根据数据对象的改动精确判断哪些Query Key对应的结果集受到影响。最简单的实现方法,就是清空所有SQL包含table1的Query Key。



(2) Query缓存中,Query Key对应的是数据对象列表,假如不同的Query Key对应的数据对象列表有交集,那么,交集部分的数据对象就是重复存储的。

比如,Query Key 1对应的数据对象列表为{a(id = 1), b(id = 2)},Query Key 2对应的数据对象列表为{a(id = 1), c(id = 3)},这个a就在两个List同时存在了两份。
4.二级缓存和Query缓存同步的困惑

假如,Query缓存中,一个Query Key对应的结果列表为{a (id = 1) , b (id = 2), c (id = 3)}; 二级缓存里面有也id = 1对应的数据对象a。

这两个数据对象a之间是什么关系?能够保持状态同步吗?

我阅读Hibernate的相关源码,没有发现两个缓存之间的这种同步关系。

或者两者之间毫无关系。就像我上面所说的,只要表数据发生变化,相关的Query Key都要被清空。所以不用考虑同步问题?
四、Lightor的缓存策略

Lightor是我做的Java开源持久层框架。Lightor的意思是,Lightweight O/R。Hibernate,JDO,EJB CMP这些持久层框架,都是Layer。Lightor算不上Layer,而只是一个Helper。这里的O/R意思不是Object/Relational,而是Object/ResultSet的意思。:-)

Lightor的缓存策略,主要参照Hibernate的缓存思路,Lightor的缓存也分为 Query缓存和ID缓存。但其中有一点不同,两者之间并不是毫无联系的,而是相互关联的。
1.Lightor的缓存策略的过程描述:

(1) 条件查询的请求一般都包括如下信息:SQL, 对应SQL的参数,起始记录位置(rowStart),最大记录个数(maxRows),等。

(2) Lightor首先根据这些信息组成一个Query Key,根据这个Query Key到Query缓存中查找对应的结果ID列表。注意,这里获取的是ID列表。

如果结果ID列表存在于Query缓存,那么根据这个ID列表的每个ID,到ID缓存中取对应的数据对象。如果所有ID对应的数据对象都找到,那个返回这个数据对象结果列表。注意,这里获取的是整个数据对象(所有字段)的列表。

如果结果ID列表不存在于Query缓存,或者结果ID列表中的某一个ID不存在于ID缓存,那么,就查询数据库,获取结果列表。然后,把获取的每个数据对象按照ID放入到ID缓存;并组装成一个ID列表,按照Query Key存放到Query缓存中。注意,这里是把ID列表,而不是整个对象列表,放入到Query缓存中。

(3) ID查询的时候,Lightor先从ID缓存中查找该ID,如果不存在,那么查询数据库,把结果放入ID缓存。

(4) Query Key中的SQL涉及到一些表名,如果这些表的任何数据发生修改、删除、增加等操作,这些相关的Query Key都要从缓存中清空。
2.Lightor的缓存策略的优点

(1) Lightor的ID缓存具有Jive缓存,和Hibernate二级ID缓存的优点。ID查询的时候,如果该ID已经存在于缓存中,那么可以直接取出。节省了一条数据库查询。

(2) Lightor的Query缓存具有Hibernate的Query缓存的优点。条件查询的时候,如果Query Key已经存在于缓存,那么不需要再查询数据库。命中的情况下,一次数据库查询也不需要。

(3) Lightor的Query缓存中,Query Key对应的是ID列表,而不是数据对象列表,真正的数据对象只存在于ID缓存中。所以,不同的Query Key对应的ID列表如果有交集,ID对应的数据对象也不会在ID缓存中重复存储。

(4) Lightor的缓存也没有Jive缓存的最坏情况n + 1次数据库查询缺点。
3.Lightor的缓存策略的缺点

(1) Lightor的Query缓存具有Hibernate的Query缓存的缺点。条件查询涉及到的表中,如果有任何一条记录增加、删除、或改变,那么缓存中所有和该表相关的Query Key都会失效。

(2) Lightor的ID缓存也具有hibernate的二级ID缓存具有的缺点。条件查询的时候,即使ID已经存在于缓存中,也需要重新把数据对象整个从数据库取出,放入到缓存中。
五、Query Key的效率

Query缓存的Query Key的空间和时间开销比较大。

Query Key里面存放的东西不少,SQL, 参数,范围(起始,个数)。

这里面最大的东西就是SQL。又占地方,又花时间(hashCode, equals)。

Query Key最关键的两个方法是hashCode和equals,重点是SQL的hashCode和equals。



Lightor的做法是,由于Lightor直接使用SQL,不用HQL、OQL之类,所以推荐尽量使用static final String的SQL,能够节省空间和时间,以至于Query Key的效率能够相当于ID Key的效率。

至于Hibernate的QueryKey,有兴趣的读者可以去下载阅读Hibernate的各个版本的源代码,跟踪一下QueryKey的实现优化过程。
六、总结






注:

“重复ID缓存问题”的含义是,每次条件查询,不是只取ID列表,而是取出完整对象(所有字段)的列表。这样,同一个ID对应的数据对象,即使在缓存中已经存在,也可能被重新放入缓存。参见相关缓存的缺点描述。

“重复ID缓存问题”的负面效应到底有多大,就看你的select id from …(只选择ID)比你的 select * from … (选择所有字段)快多少。主要影响因素是,字段的个数,字段值的长度,与数据库服务器之间网络传输速度。

不管怎么说,即使选择所有字段,也只是一次数据库查询。而N + 1问题带来的可能最坏的负面效应(N + 1次数据查询)却是非常大的。

选择缓存策略的时候,应根据这些情况发生的概率和正负面效应进行取舍。

分享到:
评论

相关推荐

    laravel-repository:轻松实现行业标准缓存策略的抽象层

    该程序包提供了一个抽象层,用于使用Eloquent模型轻松实现行业标准的缓存策略。 缓存方法概述 实施缓存策略 旁读 直读 直写 回写 漂亮查询 缓存无效技术 保存缓存存储 保持缓存一致性 异常处理 数据库异常 缓存存储...

    Oracle数据库管理员技术指南

    7.6 恢复策略和情况 7.6.1 数据库恢复和涉及的数据库结构 组织 7.7 各种需要恢复的情形 7.8 恢复丢失的数据文件 7.8.1 SYSTEM 数据文件的丢失 7.8.2 包含活动回退段的数据文件的丢失 7.8.3 其他数据文件的...

    数据库设计准则及方法论.docx

    在模型的设计上,我们通常采用第三范式来进行数据库对象的模型设计,但是有时为了性能考虑,我们通常会做一些退化,比如设计一些冗余字段或者多表合并来加快系统的查询性能。例如对于有大量数据的销售流水表,完全...

    hibernate 3中的缓存小结

     Hibernate的二级缓存策略,是针对于ID查询的缓存策略,对于条件查询则毫无作用。为此,Hibernate提供了针对条件查询的Query Cache。 2.3.2. 什么样的数据适合存放到第二级缓存中? 1 很少被修改的数据 2 不是很...

    精通 Hibernate:Java 对象持久化技术详解(第2版).part2

     22.1.2 持久化层的缓存的并发访问策略  22.2 Hibernate的二级缓存结构  22.3 管理Hibernate的第一级缓存  22.4 管理Hibernate的第二级缓存  22.4.1 配置进程范围内的第二级缓存  22.4.2 配置集群范围内的第二...

    数据库优化设计方案.doc

    优化自由结 构,简单地讲就是在数据库中可以高效自由地分布逻辑数据对象,因此首先要对数据库 中的逻辑对象根据他们的使用方式和物理结构对数据库的影响来进行分类,这种分类包 括将系统数据和用户数据分开、一般...

    浅谈数据库系统优化.docx

    这种优化器主要是根据数据库相关的服务器的因素来进行分配处理的,包括缓存大小和策略,I/O 大小等。 2)基于规则的优化器。基于规则的优化器主要是根据制定的一些规则和一些优化原则来执行过程和访问控制方式。相对...

    Hibernate_3.2.0_符合Java习惯的关系数据库持久化

    5.7. 辅助数据库对象(Auxiliary Database Objects) 6. 集合类(Collections)映射 6.1. 持久化集合类(Persistent collections) 6.2. 集合映射( Collection mappings ) 6.2.1. 集合外键(Collection foreign keys)...

    oracle数据库dba管理手册

    5.3.5 确定数据库对象的大小 107 5.3.6 迭代开发 125 5.3.7 迭代列定义 126 5.4 管理技术 126 5.4.1 CASE工具 127 5.4.2 共享目录 127 5.4.3 项目管理数据库 127 5.4.4 讨论数据库 127 5.5 管理包开发 127 5.5.1 ...

    实时数据库系统的设计浅谈.docx

    图 3 索引结构和二级缓存技术原理图 索引结构采用数组结构实现,根据唯一的变量名,可以定位出内存数据库中相应的数据单元。 一级缓冲区中存储各个数据项的基本信息和附加信息指针。 基本信息是从不同数據类型提取...

    精通Hibernate:对象持久化技术第二版part3

    处于持久化状态的Java对象位于一个Session实例的缓存中,Session能根据这个对象的属性变化来同步更新数据库。 8.1 Java对象在JVM中的 生命周期 179 8.2 理解Session的缓存 181 8.2.1 Session的缓存的作用 182 ...

    精通hibernate:对象持久化技术孙卫琴第二版part2

    处于持久化状态的Java对象位于一个Session实例的缓存中,Session能根据这个对象的属性变化来同步更新数据库。 8.1 Java对象在JVM中的 生命周期 179 8.2 理解Session的缓存 181 8.2.1 Session的缓存的作用 182 ...

    精通 Hibernate:Java 对象持久化技术详解(第2版).part4

     22.1.2 持久化层的缓存的并发访问策略  22.2 Hibernate的二级缓存结构  22.3 管理Hibernate的第一级缓存  22.4 管理Hibernate的第二级缓存  22.4.1 配置进程范围内的第二级缓存  22.4.2 配置集群范围内的第二...

    精通 Hibernate:Java 对象持久化技术详解(第2版).part3

     22.1.2 持久化层的缓存的并发访问策略  22.2 Hibernate的二级缓存结构  22.3 管理Hibernate的第一级缓存  22.4 管理Hibernate的第二级缓存  22.4.1 配置进程范围内的第二级缓存  22.4.2 配置集群范围内的第二...

    精通 Hibernate:Java 对象持久化技术详解(第2版).part1.rar

     22.1.2 持久化层的缓存的并发访问策略  22.2 Hibernate的二级缓存结构  22.3 管理Hibernate的第一级缓存  22.4 管理Hibernate的第二级缓存  22.4.1 配置进程范围内的第二级缓存  22.4.2 配置集群范围内的第二...

Global site tag (gtag.js) - Google Analytics