技术解析

为什么 grep 大文件,第二遍就会变得很快呢?
0
1975-02-24 09:51:52
idczone

我 grep 一个大文件,第一遍大约几十秒,第二遍就很快了,几乎秒出,请问这是为什么呢?


参考这里 https://unix.stackexchange.com/questions/8914/does-grep-use-a-cache-to-speed-up-the-searches

操作系统文件读写缓存吧

谢谢,我有点疑惑,貌似还不是内存缓存,因为 grep 是一行一行读的,我几十 G 的文件,grep 完之后,内存几乎没变过,还是维持在 grep 之前的水平。也就是说,这个缓存是在文件中吗?

一楼的回答是操作系统会缓存最近读写的文件,是不是可以这么理解,原来缓存的是别的文件,你 grep 一次后,把别的文件释放了,替换进去,所以看起来内存不变?

操作系统启动的时候就占用了不少内存,其中可能就有缓存的部分。另外,我觉得缓存这一部分的内存,操作系统也可能展示给用户的是空闲的状态?

缓存这一部分应该都是预留的吧

执行以下命令清除缓存之后再试试?
sync; sudo sysctl -w vm.drop_caches=3

linux 本来就和 windows 的内存管理机制不一样,windows 是起来后,有需要才进行占用,linux 是起来后,先占用了再说,多多益善。所以楼主看到的所谓内存没有变化,只是 linux 没有占用的那一部分

文件系统缓存

现在 windows 也是了,甚至还会主动缓存最近的文件

第一次是从硬盘读,后面已经缓存在内存里面了。

挺好的啊,用久了常用的文件都缓存起来了。别经常关机就好了

问题是,我 grep 一个 50g 的文件,内存没涨过,才用了 5g,所以这些文件是不可能缓存到内存的啊

那是系统缓存没记入你看到的数值了,free 命令了解一下

free 看 cached 的变化

linux 和 windows 内存机制不一样 ,linux 会先占用空闲内存,而且 linux 会缓存文件系统 。用 free -m 或者 dd 复制一下。能明显感受到有缓存。

cache 啊~

就算你文件是 100G 1T 也没有必要一次过全部放入内存中缓存啊,你的应用也没有一次过读 100G 1T 的能力啊。这么想之后你就会发现是因为你知道得太少。

Linux 的缓存策略比 Win 激进不少,Linux 下群星重开都是秒进,估计全都在 RAM 里

必须是缓存啊。。。不然怎么 linux 下可用内存长时间都是比较少的。除非手动释放

请教一下,既然没放到缓存中,为什么第二次那么快呢?

这个是缓存命中和未命中的问题吧,第一遍全部不命中,第二遍几乎都命中了。


并不是没有放到缓存中,而是不论多大的文件,怎么放入缓存里面是有讲究的。
而你的观测方法,譬如说,只观察内存和 swap 的总使用量,不一定能说明缓存使用的内部变化。
如果你把 Disk IO 以及内存读写次数也纳入观察了,你才可以发现第二遍读取速度变快的原因。
简单来说就是,grep 读取一个文件是顺序向前读取,文件分片存储在文件系统中(例如 ext 系列等等)
利用好这两个特点,可以写出一个不需要增大缓存使用量也可以提高读取效率的算法。
而这就是 内核或者 FS 提供的,具体如何实现,可以看相关文档或者书籍或者源代码。

数据地带为您的网站提供全球顶级IDC资源
在线咨询
专属客服