本文共 2412 字,大约阅读时间需要 8 分钟。
转自:
其中的Cached为140M左右(page cache)。注意其中有一个Dirty: 24KB,表示当前有24KB的数据缓存在page cache,这些数据等待后台线程刷入磁盘。随着写入数据增加,这个值也会增加。
writeback
有了page cache就有了writeback写方式。一个写IO会先写入page cache,然后等待后台pdflush把page cache中脏数据刷入磁盘。如果在刷入磁盘之前系统断电,则page cache的数据丢失。所以对一些可靠性要求高的场景都会把这个写缓存禁掉。writeback写方式是linux操作系统提供的一种非常通用写模式。writeback提供了较好的吞吐量,有了缓存也缩短了IO响应时间。但它也有缺点:(1)断电可能丢数据(数据安全性)(2)对于像数据库这样自缓存的系统来说,多了一层IO缓存开销。因为数据库已经在应用层做了一层缓存。所以对于这样的应用可以用direct io方式,减少用户空间和page cache之间数据复制开销。(3)如果page cache过大,那么就会缓存太多的数据,当需要统一刷入磁盘的时候就会出现一个IO峰值和瓶颈,在这其间对用户的IO访问出现明显影响。如果想削平这个峰值可以把page cache容量设置小一点,让pdflush一段时间内较为平均的刷新dirty数据。pdflush
pdflush是linux系统后台运行的一个线程,这个进程负责把page cahce中的dirty状态的数据定期的输入磁盘。一个系统中会运行很多这个pdflush。cat /proc/sys/vm/nr_pdflush_threads查看当前系统运行pdflush数量。当一段时间(一般是1s)没有任何的pdflush处于工作状态,系统会remove一个pdflush线程。pdflush最大和最小的数量是有配置的,但这些配置一般很少修改。4.2 dirty_expire_centisecs
cat /proc/sys/vm/dirty_expire_centisecs查看这个值,默认是3000(单位是1/100秒)。这个值表示page cache中的数据多久之后被标记为脏数据。只有标记为脏的数据在下一个周期到来时pdflush才会刷入到磁盘,这样就意味着用户写的数据在30秒之后才有可能被刷入磁盘,在这期间断电都是会丢数据的。如果想pdfflush刷新频率大写可以减小这个值,比如:echo 1000 >> /proc/sys/vm/dirty_expire_centisecs 设置为10s一个刷新周期。4.3 dirty_backgroud_ratio
cat /proc/sys/vm/dirty_background_ratio查看这个值,默认是10(单位是百分比,不同的内核版本可能有不同的默认值)。很多的描述文档中描述这个值表示最多缓存脏数据的空间占总内存的百分比。其实不然,查看源码的描述,它的真实意义是占(MemFree + Cached - Mapped)的百分比。达到这个上限后会唤醒pdflush把这些脏数据刷新到磁盘,在把脏数据输入磁盘之前所有写IO会被阻塞。所以如果这个值设的过大,则会周期的出现一个写IO峰值,而且这个峰值持续比较长时间,在这段时间内用户的写IO会被阻塞。对于一些业务场景需要把这个值设置的小写,把峰值写IO平分为多次小的写IO。例如:echo 5 >> cat /proc/sys/vm/dirty_background_ratio 把百分比降低到5%。4.4 dirty_ratio
cat /proc/sys/vm/dirty_ratio查看这个值,默认是20(单位是百分比,不同的内核版本可能有不同的默认值)。表示当脏数据占用总内存的百分比超过20%的时候,内核会把所有的写操作阻塞掉,等待pdflush把这些脏数据刷入到磁盘后才能恢复正常的IO写。要注意的是当这个事件发生时,会阻塞掉所有写操作。这样会产生一个很大的问题,一个长时间大IO会抢占更多的IO写资源,可能把其它的小IO饿死。因为大IO产生的脏数据较多,很快达到这个阀值,此时就会系统会阻塞掉所有的写IO,从而小写IO无法进行写操作。转载于:https://blog.51cto.com/2164097/2132802