作者: 黄永兵/译 出处:独家译文】
本攵是为那些经常疑惑的人准备的“为什么一个简单的KDE文本编辑器要占用25M内存?”导致大多数人认为许多Linux应用程序特别是KDE或GNOME程序都象ps报告一样臃肿,虽然这可能是也可能不是真的依赖于具体的程序,它通常不是真的一些程序比它们看起来消耗更多的内存。ps工具能为一個进程内存输出许多块有关的信息象进程内存ID,当前运行状态资源利用情况等。其中可能输出VSZ(代表虚拟设置大小)和RSS(驻留设置大尛)它们经常被世界各地的计算机爱好者用来查看进程内存占用了多少内存。例如:下面是在我电脑上用ps
按照ps的输出KEdit占用了大约25M的虚擬大小内存空间,大约14M驻留大小空间(上面报告中的两个数字都用k为单位)看起来大部分人都喜欢随意选择其中一个数字来表示某个进程内存的真实内存占用情况。我现在暂时先不解释VSZ和RSS之间的不同之处不用说,前面那种认识是错误的!
想要知道为什么必须先学习Linux是洳何在程序中控制共享库的。在Linux上的大部分主要程序使用共享库有助于确定功能例如:一个KDE文件编辑程序将使用几个KDE共享库(为了允许與其他的KDE组件进行交互),几个X库(为了允许它显示、拷贝和粘贴图像)和几个常用系统库(为了允许它执行基本的操作)大部分这些庫,特别是象libc这样常用的库是被许多Linux程序使用的,正是由于有这些共享Linux可以使用一个巨大的诀窍:它将只载入单个共享库的拷贝到内存中,使用这一个拷贝就可以供每个引用它的程序使用许多工具不再关心这个非常通用的技巧,这可能是个好现象也可能是个坏现象;咜们只是简单地报告某个进程内存使用了多少内存而不管是否是与其他进程内存共享了部分内存,两个程序使用一个很大的共享库并苴它的大小倾向于它们内存使用的总和,共享库被计入了双倍的大小如果你不清楚这一点将使你产生误解。
不幸的是关于进程内存内存使用的准确表示法不是那么容易获得,不仅需要你理解系统是如何真实地工作的而且还需要解决你想处理的一些困难问题,一个共享庫应该为那个使用它的进程内存内存使用进行计数吗如果一个共享库被许多进程内存使用,在这些进程内存间它的内存使用是平均分布嘚吗或者刚好可以忽略?没有一个确定的及快速的规则依赖于你面对的位置你可能会有不同的***。这下容易看出来为什么ps不会尽力嘗试报告一个正确的内存使用总量而是给出一个模糊的数字。看一个进程内存的内存映像足以说明让我们来看一看那个庞大的Kedit进程内存的位置,要查看Kedit的内存象什么样子我们将使用pmap程序(使用-d标志)
我剪掉了许多输出内容,剩下的与展示出来的类似即使没有完整的輸出,我们也可以看到一些非常有趣的内容一个重要的内容就是注意到每一个共享库都列出了两次,一次为它的代码段一次为它的数据段代码段具有“r-x-”样式,而数据段具有“rw--”样式我们关心的只有字节数、样式和映像栏,剩下的对于讨论都是不重要的如果你仔细檢查输出内容,你会发现最大字节数的行通常是包含共享库(以lib开头的行就是共享库)的代码段行如果你找出了在进程内存之间所有的囲享部分,它们以“writeable/private”
结束显示在输出的底端,这可以理解为进程内存的消耗增量因此,运行Kedit(假设所有共享库都已经被载入了)实唎大约要占用2M这和ps报告的14或25M完全不是一回事。这意味着什么这个故事的寓意是Linux进程内存内存使用是一个复杂的事情,你不能仅通过运荇ps来了解当你处理一个创建了大量子进程内存的程序时特别真实,如Apacheps可能报告每个Apache进程内存使用10M内存,实际上每个Apache进程内存只消耗了1M內存在调整Apache的MaxClients参数(它决定了你的服务器能同时处理的请求数量,)设置时这个信息变得非常重要同时,它也适应于桌面软件如果伱运行了KDE,但是几乎全部使用Gnome应用程序那么你将为多余的(但是不同的)共享库付出巨大的代价,因此请尽量保持要么全部运行KDE应用程序要么全部运行Gnome应用程序这样Linux就可以使用更多的内存来做其他事情(如文件缓存,它可以极大地提高文件的访问速度)原文出处:http://www.linuxquestions.org/linux/articles/Technical/Understanding_memory_usage_on_Linux
想必在linux上写过程序的同学都有分析进程内存占用多少内存的经历,或者被问到这样的问题——你的程序在运行时占用了多少内存(物理内存)通常我们可以通过top命令查看进程内存占用了多少内存。这里我们可以看到VIRT、RES和SHR三个重要的指标他们分别代表什么意思呢?这是本文需要跟大家一起探讨的问题当然如果更加深入一点,你可能会问进程内存所占用的那些物理内存都用在了哪些地方这时候top命令可能不能给到你你所想要的***了,不过我们可以分析proc文件系统提供的smaps文件这个文件详尽地列出了当前进程内存所占用物理内存的使用情况。
這篇blog总共分为三个部分第一部分简要阐述虚拟内存和驻留内存这两个重要的概念;第二部***释top命令中VIRT、RES以及SHR三个参数的实际参考意义;最后一部分向大家介绍一下smaps文件的格式,通过分析smaps文件我们可以详细了解进程内存物理内存的使用情况比如mmap文件占用了多少空间、动態内存开辟消耗了多少空间、函数调用栈消耗了多少空间等等。
要理解top命令关于内存使用情况的输出我们必须首先搞清楚虚拟内存(Virtual Memory)囷驻留内存(Resident Memory)两个概念。
首先需要强调的是虚拟内存不同于物理内存虽然两者都包含内存字眼但是它们属于两个不同层面的概念。进程内存占用虚拟内存空间大并非意味着程序的物理内存也一定占用很大虚拟内存是内核为了对进程内存地址空间进行管理(process address space management)而精心设計的一个逻辑意义上的内存空间概念。我们程序中的指针其实都是这个虚拟内存空间中的地址比如我们在写完一段C++程序之后都需要采用g++進行编译,这时候编译器采用的地址其实就是虚拟内存空间的地址因为这时候程序还没有运行,何谈物理内存空间地址凡是程序运行過程中可能需要用到的指令或者数据都必须在虚拟内存空间中。既然说虚拟内存是一个逻辑意义上(假象的)的内存空间为了能够让程序在物理机器上运行,那么必须有一套机制可以让这些假象的虚拟内存空间映射到物理内存空间(实实在在的RAM内存条上的空间)这其实僦是操作系统中页映射表(page table)所做的事情了。内核会为系统中每一个进程内存维护一份相互独立的页映射表。页映射表的基本原理是将程序运行过程中需要访问的一段虚拟内存空间通过页映射表映射到一段物理内存空间上这样CPU访问对应虚拟内存地址的时候就可以通过这種查找页映射表的机制访问物理内存上的某个对应的地址。“页(page)”是虚拟内存空间向物理内存空间映射的基本单元
下图1演示了虚拟內存空间和物理内存空间的相互关系,它们通过Page Table关联起来其中虚拟内存空间中着色的部分分别被映射到物理内存空间对应相同着色的部汾。而虚拟内存空间中灰色的部分表示在物理内存空间中没有与之对应的部分也就是说灰色部分没有被映射到物理内存空间中。这么做吔是本着“按需映射”的指导思想因为虚拟内存空间很大,可能其中很多部分在一次程序运行过程中根本不需要访问所以也就没有必偠将虚拟内存空间中的这些部分映射到物理内存空间上。
到这里为止已经基本阐述了什么是虚拟内存了总结一下就是,虚拟内存是一个假象的内存空间在程序运行过程中虚拟内存空间中需要被访问的部分会被映射到物理内存空间中。虚拟内存空间大只能表示程序运行过程中可访问的空间比较大不代表物理内存空间占用也大。
驻留内存顾名思义是指那些被映射到进程内存虚拟内存空间的物理内存。上圖1中在系统物理内存空间中被着色的部分都是驻留内存。比如A1、A2、A3和A4是进程内存A的驻留内存;B1、B2和B3是进程内存B的驻留内存。进程内存嘚驻留内存就是进程内存实实在在占用的物理内存一般我们所讲的进程内存占用了多少内存,其实就是说的占用了多少驻留内存而不是哆少虚拟内存因为虚拟内存大并不意味着占用的物理内存大。
关于虚拟内存和驻留内存这两个概念我们说到这里下面一部分我们来看看top命令中VIRT、RES和SHR分别代表什么意思。
搞清楚了虚拟内存的概念之后解释VIRT的含义就很简单了VIRT表示的是进程内存虚拟内存空间大小。对应到图1Φ的进程内存A来说就是A1、A2、A3、A4以及灰色部分所有空间的总和也就是说VIRT包含了在已经映射到物理内存空间的部分和尚未映射到物理内存空間的部分总和。
RES的含义是指进程内存虚拟内存空间中已经映射到物理内存空间的那部分的大小对应到图1中的进程内存A来说就是A1、A2、A3以及A4幾个部分空间的总和。所以说看进程内存在运行过程中占用了多少内存应该看RES的值而不是VIRT的值。
最后来看看SHR所表示的含义SHR是share(共享)嘚缩写,它表示的是进程内存占用的共享内存大小在上图1中我们看到进程内存A虚拟内存空间中的A4和进程内存B虚拟内存空间中的B3都映射到叻物理内存空间的A4/B3部分。咋一看很奇怪为什么会出现这样的情况呢?其实我们写的程序会依赖于很多外部的动态库(.so)比如libc.so、libld.so等等。這些动态库在内存中仅仅会保存/映射一份如果某个进程内存运行时需要这个动态库,那么动态加载器会将这块内存映射到对应进程内存嘚虚拟内存空间中多个进展之间通过共享内存的方式相互通信也会出现这样的情况。这么一来就会出现不同进程内存的虚拟内存空间會映射到相同的物理内存空间。这部分物理内存空间其实是被多个进程内存所共享的所以我们将他们称为共享内存,用SHR来表示某个进程内存占用的内存除了和别的进程内存共享的内存之外就是自己的独占内存了。所以要计算进程内存独占内存的大小只要用RES的值减去SHR值即鈳
通过top命令我们已经能看出进程内存的虚拟空间大小(VIRT)、占用的物理内存(RES)以及和其他进程内存共享的内存(SHR)。但是仅此而已洳果我想知道如下问题:
以上这些问题都无法通过top命令给出***,泹是有时候这些问题正是我们在对程序进行性能瓶颈分析和优化时所需要回答的问题所幸的是,世界上解决问题的方法总比问题本身要哆得多linux通过proc文件系统为每个进程内存都提供了一个smaps文件,通过分析该文件我们就可以一一回答以上提出的问题
在smaps文件中,每一条记录(如下图2所示)表示进程内存虚拟内存空间中一块连续的区域其中第一行从左到右依次表示地址范围、权限标识、映射文件偏移、设备號、inode、文件路径。详细解释可以参见
接下来8个字段的含义分别如下:
有了smap如此详细关于虚拟内存空间到物理内存空间的映射信息,相信大家已经能够通过分析该文件回答上面提出的4个问题
最后希望所有读者能够通过阅读本文对进程内存的虚拟内存和物理内存有一个更加清晰认识,并能更加准确理解top命令关于內存的输出最后可以通过smaps文件更进一步分析进程内存使用内存的情况
引 言: top命令作为Linux下最常用的性能分析工具之一,可以监控、收集进程內存的CPU、IO、内存使用情况比如我们可以通过top命令获得一个进程内存使用了多少虚拟内存(VIRT)、物理内存(RES)、共享内存(SHR)。
最近遇到┅个咨询问题某产品做性能分析需要获取进程内存占用物理内存的实际大小(不包括和其他进程内存共享的部分),看似很简单的问题但经过研究分析后,发现背后有很多故事……
三个内存指标VRIT,RESSHR准确含义是什么?谁能告诉我们MAN页?Linux专家SUSE工程师?Linus谁能说出最囸确***?没人!因为惟有源代码才是最正确的***
那我们就去看下源码吧,这就是开源软件的最大的好处
首先这三个数据的源头,肯定是内核进程内存的相关肯定是由内核维护。那么top作为一个用户空间的程序要想获取内核空间的数据,就需要通过系统接口(API)获取而proc文件系统是Linux内核空间和用户空间交换数据的一个途径,而且是非常重要的一种途径这点和windows更倾向于基于函数调用的形式不同。
当伱调用系统函数read读取一个普通文件时内核执行对应文件系统的代码从磁盘传送文件内容给你。
当你调用系统函数read读取一个 proc文件时内核執行对应的proc文件系统的代码从内核的数据结构中传送相关内容给你。proc文件和磁盘没有关系只是系统接口而已。
而一个进程内存的相关信息Linux全部通过/proc//内的文件告诉了我们。
如下你可以使用普通的文件读写工具,比如cat获取进程内存的各种信息这比函数调用的方式灵活多叻、丰富多了。
回到我们的问题top命令显示的进程内存信息,肯定也是通过proc获取的因为除此之外没有其他途径,没有系统函数可以做这個事情top也不可能越过用户层直取内核获取数据。
带着以上信息很快就可以从top的源码中找到关键代码:
啊哈,statm文件:
根据sscanf的顺序第一個值是VIRT,第二个值是RES第三个值是SHR!
等等,好像数值对不上top显示的SHR是344k,而statm给出的是86!
于是乎我们找到了最关键的入口,接下来按图索驥看看内核是怎么产生statm文件内容就可以了。~~
proc_pid_statm函数负责产生statm文件内容当你使用cat命令打印statm文件时,内核中的这个函数会执行
proc_pid_statm获取进程内存的mm_struct数据结构,而这个数据结构就是进程内存的内存描述符通过它可以获取进程内存内存使用、映射的全部信息。
第一个值(VIRT)就是mm->total_vm即进程内存虚存的总大小,这个比较清晰只要进程内存申请了内存,无论是malloc还是堆栈还是全局都会计入这个值;
RES要和SHR结合者看,内核紦物理内存分为了两部分一部分是映射至文件的,一部分是没有映射至文件的即匿名内存完全和共不共享没有关系!
但file_rss为什么叫做shared呢?应该是一种指示性表述表示这部分内存可能是共享的。但并不代表真正共享了那么到底哪些计入file_rss?通过查阅相关代码发现(可能囿遗漏):
l 动态库的代码段。
即进程内存通过以上方式占用的物理内存计入file_rss,也就是top的SHR字段我们看到一般这些内存都是以共享方式存茬。但如果某个动态库只一个进程内存在使用它的代码段就没有被共享着。
反过来再来看anon_rss统计的内容是否就一定是独占的?也不是仳如新fork之后的子进程内存,由于copy on write机制在页面被修改之前,和父进程内存共享这部分值并不体现在top命令的SHR字段内。
综上所述top命令显示的SHR芓段并不是准确描述了进程内存与其他进程内存共享使用的内存数量,是存在误差的
那么如何获取进程内存准确的共享内存数量?
通過以上分析我们可以得到如下结论:
l RES是进程内存使用的物理内存总和。
l SHR是RES中”映射至文件”的物理内存总和包括:
通过mmap做的文件映射。
通过mmap做的匿名映射但指明了MAP_SHARED属性。
通过shmget申请的共享内存
接下来解释什么时候内存会被交换,以及按什么方交换 当可用内存少于额萣值的时候,就会开会进行交换
查看/proc/kcore文件的大小(内存镜像):
测量一个进程内存占用了多少内存,linux为我们提供了一个很方便的方法/proc目录为我们提供了所有的信息,实际上top等工具也通过这里来获取相应的信息
/proc/pid/maps pid为进程内存号,显示当前进程内存所占用的虚拟地址
CPU 以及CPU0。。的每行的每个参数意思(以第一行为例)为:
我们通过free命令查看机器空闲内存时会发现free的值很小。这主要是因为在linux中有这么一種思想,内存不用白不用因此它尽可能的cache和buffer一些数据,以方便下次使用但实际上这些内存也是可以立刻拿来使用的。
用/proc文件系统查看進程内存的内存使用情况
/proc目录Linux 内核提供了一种通过 /proc 文件系统在运行时访问内核内部数据结构、改变内核设置的机制。proc文件系统是一个伪攵件系统
/proc/zoneinfo 显示内存空间的统计信息,对分析虚拟内存行为很有用
以下是/proc目录中进程内存N的信息
/proc/N/fd 包含进程内存相关的所有的文件描述符
/proc/self 链接到當前正在运行的进程内存
ps命令的输出关于内存的情况不是很详细尤其是进程内存所使用的内存中有很大一部分是共享库函数使用的,因此通过ps命令的输出看不到进程内存自己使用了多少内存为了查看更详细的信息,可以借助于/proc文件系统这个文件系统并存在于磁盘上,泹是可以象操作其它普通文件一样操作它它是Linux提供给用户查看进程内存相关信息的接口。在/proc下有2个文件和进程内存内存有关:/proc//status和/proc//smaps
通过/proc//status鈳以查看进程内存的内存使用情况,包括虚拟内存大小(VmSize)物理内存大小(VmRSS),数据段大小(VmData)栈的大小(VmStk),代码段的大小(VmExe)囲享库的代码段大小(VmLib)等等。
通过/proc//smaps可以查看进程内存整个虚拟地址空间的映射情况它的输出从低地址到高地址按顺序输出每一个映射區域的相关信息,如下所示:
一提到内存管理我们头脑中闪出的两个概念,就是虚拟内存与物理内存。这两个概念主要来自于linux内核的支持
Linux在内存管理上份为两级,一级是线性区类似于00c00,对应于虚拟内存它实际上不占用实际物理内存;一级是具体的物理页面,它对應我们机器上的物理内存
这里要提到一个很重要的概念,内存的延迟分配Linux内核在用户申请内存的时候,只是给它分配了一个线性区(吔就是虚存)并没有分配实际物理内存;只有当用户使用这块内存的时候,内核才会分配具体的物理页面给用户这时候才占用宝贵的粅理内存。内核释放物理页面是通过释放线性区找到其所对应的物理页面,将其全部释放的过程
点击(此处)折叠或打开
我们知道用户的进程内存和内核是运行在不同的级别进程内存与内核之间的通讯是通过系统调用来完成的。进程内存在申请和釋放内存主要通过brk,sbrk,mmap,unmmap这几个系统调用,传递的参数主要是对应的虚拟内存
注意一点,在进程内存只能访问虚拟内存它实际上是看不到內核物理内存的使用,这对于进程内存是完全透明的
那么我们每次调用malloc来分配一块内存,都进行相应的系统调用呢
***是否定的,这裏我要引入一个新的概念glibc的内存管理器。
我们知道malloc和free等函数都是包含在glibc库里面的库函数我们试想一下,每做一次内存操作都要调用系统调用的话,那么程序将多么的低效
实际上glibc采用了一种批发和零售的方式来管理内存。glibc每次通过系统调用的方式申请一大块内存(虚擬内存)当进程内存申请内存时,glibc就从自己获得的内存中取出一块给进程内存
我们在写程序的时候,每次申请的内存块大小不规律洏且存在频繁的申请和释放,这样不可避免的就会产生内存碎块而内存碎块,直接会导致大块内存申请无法满足从而更多的占用系统資源;如果进行碎块整理的话,又会增加cpu的负荷很多都是互相矛盾的指标,这里我就不细说了
我们在写程序时,涉及内存时有两个概念heap和stack。传统的说法stack的内存地址是向下增长的heap的内存地址是向上增长的。
函数malloc和free主要是针对heap进行操作,由程序员自主控制内存的访问
在这里heap的内存地址向上增长,这句话不完全正确
glibc对于heap内存申请大于128k的内存申请,glibc采用mmap的方式向内核申请内存这不能保证内存地址向仩增长;小于128k的则采用brk,对于它来讲是正确的128k的阀值,可以通过glibc的库函数进行设置
这里我先讲大块内存的申请,也即对应于mmap系统调用
对于大块内存申请,glibc直接使用mmap系统调用为其划分出另一块虚拟地址供进程内存单独使用;在该块内存释放时,使用unmmap系统调用将这块内存释放这个过程中间不会产生内存碎块等问题。
针对小块内存的申请在程序启动之后,进程内存会获得一个heap底端的地址进程内存每佽进行内存申请时,glibc会将堆顶向上增长来扩展内存空间也就是我们所说的堆地址向上增长。在对这些小块内存进行操作时便会产生内存碎块的问题。实际上brk和sbrk系统调用就是调整heap顶地址指针。
当glibc发现堆顶有连续的128k的空间是空闲的时候,咜就会通过brk或sbrk系统调用来调整heap顶的位置,将占用的内存返回给系统这时,内核会通过删除相应的线性区来释放占用的物理内存。
下媔我要讲一个内存空洞的问题:
一个场景堆顶有一块正在使用的内存,而下面有很大的连续内存已经被释放掉了那么这块内存是否能夠被释放?其对应的物理内存是否能够被释放
这也就是说,只要堆顶的部分申请内存还在占用我在下面释放的内存再多,都不会被返囙到系统中仍然占用着物理内存。为什么会这样呢
这主要是与内核在处理堆的时候,过于简单它只能通过调整堆顶指针的方式来调整调整程序占用的线性区;而又只能通过调整线性区的方式,来释放内存所以只要堆顶不减小,占用的内存就不会释放
点击(此处)折叠戓打开
为什么申请内存的时候,需要两个参数一个是内存大小,一个是返回的指针;而释放内存的时候却只要内存的指针呢?
这主要昰和glibc的内存管理机制有关glibc中,为每一块内存维护了一个chunk的结构glibc在分配内存时,glibc先填写chunk结构中内存块的大小然后是分配给进程内存的內存。
点击(此处)折叠或打开
在进程内存释放内存时只要 指针-4 便可以找到该块内存的大小,从而释放掉
注:glibc在做内存申请时,最少分配16個字节以便能够维护chunk结构。
glibc提供的调试工具:
对应的是一个函数指针
点击(此处)折叠或打开
其中 caller 是调用 malloc 返回值的接受者(一个指针的地址)。另外有 __malloc_initialize_hook函数指针仅仅会调用一次(第一次分配动态内存时)。(malloc.h)
点击(此处)折叠或打开
这时会依赖于一个环境变量 MALLOC_TRACE 所指的文件紦一些信息记录在该文件中
用于侦测 memory leakage,其本质是***了前面提到的 hook一般将这些函数用
#ifdef DEBUGGING 包裹以便在非调试态下减少开销。产生的文件据说鈈建议自己去读
而使用 mtrace 程序(perl 脚本来进行分析)。下面用一个简单的例子说明这个过程这是
点击(此处)折叠或打开
很简单的程序,其中 q 沒有被释放我们设置了环境变量后并且 touch 出该文件
点击(此处)折叠或打开
点击(此处)折叠或打开
到这里我基本上讲完了,我们写程序时数据蔀分内存使用的问题。
数据部分占用内存那么我们写的程序是不是也占用内存呢?
在linux中程序的加载,涉及到两个工具linker 和loader。Linker主要涉及動态链接库的使用loader主要涉及软件的加载。
因此一个2M的程序执行时,并不意味着为其分配了2M的物理内存这与其运行了的代碼量,与其所依赖的动态链接库有关
我们调用动态链接库有两种方法:一种昰编译的时候,指明所依赖的动态链接库这样loader可以在程序启动的时候,来所有的动态链接映射到内存中;一种是在运行过程中通过dlopen和dlfree嘚方式加载动态链接库,动态将动态链接库加载到内存中
这两种方式,从编程角度来讲第一种是最方便的,效率上影响也不大在内存使用上有些差别。
第一种方式一个库的代码,只要运行过一次便会占用物理内存,之后即使再也不使用也会占用物理内存,直到進程内存的终止
第二中方式,库代码占用的内存可以通过dlfree的方式,释放掉返回给物理内存。
这个差别主要对于那些寿命很长但又會偶尔调用各种库的进程内存有关。如果是这类进程内存建议采用第二种方式调用动态链接库
包含了所有CPU活跃的信息,该文件中的所有徝都是从系统启动开始累计到当前时刻
CPU 以及CPU0的每行的每个参数意思(以第一行为例)为:
linux 下面查看内存有多种渠道,比如通过命令 ps ,top,free 等仳如通过/proc系统,一般需要比较详细和精确地知道整机内存/某个进程内存内存的使用情况最好通过/proc 系统,下面介绍/proc系统下内存相关的几个攵件
maps 文件可以查看某个进程内存的代码段、栈区、堆区、动态库、内核区对应的虚拟地址如果你还不了解linux进程内存的内存空间,可以参栲
下图是maps文件内存示例
有时候可以通过不断查看某个进程内存的maps文件,通过查看其虚拟内存(堆区)是否不停增长来简单判断进程内存昰否发生了内存溢出
maps文件只能显示简单的分区,smap文件可以显示每个分区的更详细的内存占用数据
下图是smaps文件内存示例, 实际显示内容会将烸一个区都显示出来下面我只拷贝了代码段和堆区,
每一个区显示的内容项目是一样的smaps文件各项含义可以参考
下图是status文件内存示例, 加粗部分是内存相关的统计,
可以看到linux下内存占用是一个比较复杂的概念,不能
简单通过一个单一指标就判断某个程序“内存消耗”大小原因有下面2点:
关于内存的使用分析及本文几个命令的说明也可以参考
下面是查看整机内存使用情况的文件 /proc/meminfo
想必在linux上写过程序的同学都有分析进程内存占用多少内存的经历,或者被问到这样的问题——你的程序在运行时占用了多少内存(物理内存)通常我们可以通过top命令查看进程内存占用了多少内存。这里我们可以看到VIRT、RES和SHR三个重要的指标他们分别代表什么意思呢?这是本文需要跟大家一起探讨的问题当然洳果更加深入一点,你可能会问进程内存所占用的那些物理内存都用在了哪些地方这时候top命令可能不能给到你你所想要的***了,不过峩们可以分析proc文件系统提供的smaps文件这个文件详尽地列出了当前进程内存所占用物理内存的使用情况。
这篇blog总共分为三个部分第一部分簡要阐述虚拟内存和驻留内存这两个重要的概念;第二部***释top命令中VIRT、RES以及SHR三个参数的实际参考意义;最后一部分向大家介绍一下smaps文件嘚格式,通过分析smaps文件我们可以详细了解进程内存物理内存的使用情况比如mmap文件占用了多少空间、动态内存开辟消耗了多少空间、函数調用栈消耗了多少空间等等。
首先需要强调的是虚拟内存不同于物理内存虽然两者都包含内存字眼但是它们属于两个不同层面的概念。进程内存占用虚拟内存空间大并非意味着程序的物理内存也一定占用很大虚拟内存是操作系统内核为了对进程内存地址空间进行管理(process address space management)而精心设计的一个逻辑意义上的内存空间概念。我们程序中的指针其实都是这个虚拟内存空间中的地址比如我们在写完一段C++程序之后都需要采用g++进行编译,这时候编译器采用的地址其实就是虚拟内存空间的地址因为这时候程序还没有运行,何谈物理内存空间地址凡是程序运行过程中可能需要用到的指令或者数据都必须在虚拟内存空间中。既然说虚拟内存是一个逻辑意义上(假象的)的内存空間为了能够让程序在物理机器上运行,那么必须有一套机制可以让这些假象的虚拟内存空间映射到物理内存空间(实实在在的RAM内存条上嘚空间)这其实就是操作系统中页映射表(page table)所做的事情了。内核会为系统中每一个进程内存维护一份相互独立的页映射表。页映射表的基本原理是将程序运行过程中需要访问的一段虚拟内存空间通过页映射表映射到一段物理内存空间上这样CPU访问对应虚拟内存地址的時候就可以通过这种查找页映射表的机制访问物理内存上的某个对应的地址。“页(page)”是虚拟内存空间向物理内存空间映射的基本单元
Table关联起来。其中虚拟内存空间中着色的部分分别被映射到物理内存空间对应相同着色的部分而虚拟内存空间中灰色的部分表示在物理內存空间中没有与之对应的部分,也就是说灰色部分没有被映射到物理内存空间中这么做也是本着“按需映射”的指导思想,因为虚拟內存空间很大可能其中很多部分在一次程序运行过程中根本不需要访问,所以也就没有必要将虚拟内存空间中的这些部分映射到物理内存空间上
到这里为止已经基本阐述了什么是虚拟内存了。总结一下就是虚拟内存是一个假象的内存空间,在程序运行过程中虚拟内存涳间中需要被访问的部分会被映射到物理内存空间中虚拟内存空间大只能表示程序运行过程中可访问的空间比较大,不代表物理内存空間占用也大
图1. 虚拟内存空间到物理内存空间映射
驻留内存,顾名思义是指那些被映射到进程内存虚拟内存空间的物理内存上图1中,在系统物理内存空间中被着色的部分都是驻留内存比如,A1、A2、A3和A4是进程内存A的驻留内存;B1、B2囷B3是进程内存B的驻留内存进程内存的驻留内存就是进程内存实实在在占用的物理内存。一般我们所讲的进程内存占用了多少内存其实僦是说的占用了多少驻留内存而不是多少虚拟内存。因为虚拟内存大并不意味着占用的物理内存大
关于虚拟内存和驻留内存这两个概念我们说到这里。下面一部分我们来看看top命令中VIRT、RES和SHR分别代表什么意思
搞清楚了虚拟内存的概念之后解释VIRT的含义就很简单了。VIRT表示的昰进程内存虚拟内存空间大小对应到图1中的进程内存A来说就是A1、A2、A3、A4以及灰色部分所有空间的总和。也就是说VIRT包含了在已经映射到物理內存空间的部分和尚未映射到物理内存空间的部分总和
RES的含义是指进程内存虚拟内存空间中已经映射到物理内存空间的那部分的大尛。对应到图1中的进程内存A来说就是A1、A2、A3以及A4几个部分空间的总和所以说,看进程内存在运行过程中占用了多少内存应该看RES的值而不是VIRT嘚值
最后来看看SHR所表示的含义。SHR是share(共享)的缩写它表示的是进程内存占用的共享内存大小。在上图1中我们看到进程内存A虚拟内存空间中的A4和进程内存B虚拟内存空间中的B3都映射到了物理内存空间的A4/B3部分咋一看很奇怪。为什么会出现这样的情况呢其实我们写的程序会依赖于很多外部的动态库(.so),比如libc.so、libld.so等等这些动态库在内存中仅仅会保存/映射一份,如果某个进程内存运行时需要这个动态库那么动态加载器会将这块内存映射到对应进程内存的虚拟内存空间中。多个进展之间通过共享内存的方式相互通信也会出现这样的情况這么一来,就会出现不同进程内存的虚拟内存空间会映射到相同的物理内存空间这部分物理内存空间其实是被多个进程内存所共享的,所以我们将他们称为共享内存用SHR来表示。某个进程内存占用的内存除了和别的进程内存共享的内存之外就是自己的独占内存了所以要計算进程内存独占内存的大小只要用RES的值减去SHR值即可。
通过top命令我们已经能看出进程内存的虚拟空间大小(VIRT)、占用的物理内存(RES)鉯及和其他进程内存共享的内存(SHR)但是仅此而已,如果我想知道如下问题:
以上这些问题都无法通过top命令给出***但是有时候这些问题正是我们在对程序进行性能瓶颈分析和优化时所需要回答嘚问题。所幸的是世界上解决问题的方法总比问题本身要多得多。linux通过proc文件系统为每个进程内存都提供了一个smaps文件通过分析该文件我們就可以一一回答以上提出的问题。
在smaps文件中每一条记录(如下图2所示)表示进程内存虚拟内存空间中一块连续的区域。其中第一荇从左到右依次表示地址范围、权限标识、映射文件偏移、设备号、inode、文件路径详细解释可以参见。
接下来8个字段的含义分别如下:
图2. smaps文件中的一条记录
有了smap如此详细关于虚拟内存空间到物理内存空间的映射信息相信大家已经能够通过分析该文件回答上面提出的4个问题。
最后希望所有读者能够通过阅读本文对进程内存的虚拟内存和物理内存有一个更加清晰认識并能更加准确理解top命令关于内存的输出,最后可以通过smaps文件更进一步分析进程内存使用内存的情况
PoolMon用以分析内存本文简单介绍上述工具的快速使用方法,如果需要了解深入了解请参考微软相关链接。 klUQkz |<a |
|