Jvm垃圾收集和内存分配

参考 Java Garbage Collection Basics 和 《周志明. 深入理解Java虚拟机》

Jvm 内存运行时区域的各个部分中:程序计数器、 虚拟机栈、本地方法栈 3 个区域随线程而生,随线程而灭;栈中的栈帧随着方法的进入和退出而有条不紊地执行着出栈和入栈操作。每一个栈帧中分配多少内存基本上是在类结构确定下来时就已知的(尽管在运行期会由JIT编译器进行一些优化,但大体上可以认为是编译期可知的),因此这几个区域的内存分配和回收都具备确定性,在这几个区域内就不需要过多考虑回收的问题,因为方法结束或者线程结束时,内存自然就跟随着回收了。而堆和方法区则不一样,一个接口中的多个实现类需要的内存可能不一样,一个方法中的多个分支需要的内存也可能不一样,我们只有在程序处于运行期间时才能知道会创建哪些对象,这部分内存的分配和回收都是动态的,垃圾收集器所关注的是这部分内存。

HotSpot 虚拟机内存分区

内存分配和回收的整个过程

  1. 首先,任何新的对象会被分配到 eden 空间,两个 survivor 空间开始保持空白

  1. 当 eden 空间分配满,就会执行 minor GC

  1. 被引用的对象会被移动到第一个 survivor 空间;当 eden 空间清除时,未被引用的对象会被删除

  1. 当发生下一次 minor GC 时,eden 空间发生上面一样的事情。未被引用的对象被删除,被引用的对象被移动到 survivor 空间。但是现在,被引用的对象会被移动到第二个 survivor 空间。而且,上一次 minor GC 的幸存者也会从 S0 移动 S1 空间。当所有对象都移到 S1 之后, eden 和 S0 空间就被清空,幸存的对象年龄增加。

  1. 在下一个 minor GC中,重复相同的过程。 然而这次 survivor 空间会进行切换。被引用的对象被移动到S0。幸存的对象年龄增加。 eden 和 S1 会被清除。

  1. 在 minor GC 之后,当对象的年龄达到一定的年龄阈值时,它们从 young generation 晋升到 old generation。

  1. 随着 minor GC 继续发生,对象将继续被晋升到 old generation。

  1. 最终,将进行 major GC 对 old generation 清理和压缩。

垃圾回收的步骤

  1. 标记

  1. 正常删除

  1. 伴随着内存整理的删除

除了删除没有被引用的对象外,还会把存活的对象移动到一端,可以让新的内存分配更快

标记的算法

引用计数

给对象中添加一个引用计数器,每当有一个地方引用它时,计数器值就加1;当引用失效时,计数器值就减1;任何时刻计数器为0的对象就是不可能再被使用的。

存在的问题: 无法解决循环引用问题

可达性分析

通过一系列的称为”GCRoots”的对象作为起始点,从这些节点开始向下搜索,搜索所走过的路径称为引用链(ReferenceChain),当一个对象到 GCRoots 没有任何引用链相连时,则证明此对象是不可用的。

在Java语言中,可作为 GCRoots 的对象包括下面几种:

  • 虚拟机栈(栈帧中的本地变量表)中引用的对象。
  • 方法区中类静态属性引用的对象。
  • 方法区中常量引用的对象。
  • 本地方法栈中 JNI 引用的对象。

Java 中的引用

  • 强引用 直接引用对象

只有对象存在强引用,并到 GCRoots 可达,垃圾收集器不会回收对象

  • 软引用 SoftReference 包裹

对于软引用关联着的对象,在系统将要发生内存溢出异常之前,将会把这些对象列进回收范围之中进行第二次回收。如果这次回收还没有足够的内存,才会抛出内存溢出异常。

  • 弱引用 WeakReference 包裹

当垃圾收集器工作时,无论当前内存是否足够,都会回收掉只被弱引用关联的对象。

  • 虚引用 PhantomReference 包裹

一个对象是否有虚引用的存在,完全不会对其生存时间构成影响,也无法通过虚引用来取得一个对象实例。为一个对象设置虚引用关联的唯一目的就是能在这个对象被收集器回收时收到一个系统通知。

删除的算法

标记清除

算法分为“标记”和“清除”两个阶段:首先标记出所有需要回收的对象,在标记完成后统一回收所有被标记的对象,它的标记过程就是上面的可达性分析。它是最基础的收集算法,后续的收集算法都是基于这种思路并对其不足进行改进而得到的。它的主要不足有两个:一个是效率问题,标记和清除两个过程的效率都不高;另一个是空间问题,标记清除之后会产生大量不连续的内存碎片,空间碎片太多可能会导致以后在程序运行过程中需要分配较大对象时,无法找到足够的连续内存而不得不提前触发另一次垃圾收集动作。

复制

它将可用内存按容量划分为大小相等的两块,每次只使用其中的一块。当这一块的内存用完了,就将还存活着的对象复制到另外一块上面,然后再把已使用过的内存空间一次清理掉。这样使得每次都是对整个半区进行内存回收,内存分配时也就不用考虑内存碎片等复杂情况,只要移动堆顶指针,按顺序分配内存即可,实现简单,运行高效。只是这种算法的代价是将内存缩小为了原来的一半,未免太高了一点。

新生代和老年代是后面的分代收集算法提出的概率

IBM公司的专门研究表明,新生代中的对象98%是“朝生夕死”的,所以并不需要按照 1:1 的比例来划分内存空间,而是将内存分为一块较大的 Eden 空间和两块较小的 Survivor 空间,每次使用 Eden 和其中一块 Survivor 。当回收时,将 Eden 和 Survivor 中还存活着的对象一次性地复制到另外一块 Survivor 空间上,最后清理掉 Eden 和刚才用过的 Survivor 空间。HotSpot 虚拟机默认 Eden 和 Survivor 的大小比例是8:1,也就是每次新生代中可用内存空间为整个新生代容量的 90%(80%+10%),只有 10% 的内存会被“浪费”。当然,98% 的对象可回收只是一般场景下的数据,我们没有办法保证每次回收都只有不多于 10% 的对象存活,当Survivor 空间不够用时,需要依赖其他内存(这里指老年代)进行分配担保(HandlePromotion)。

因此从内存回收的角度, 常用的JVM 的堆的新生代可以细分为3个区域:

  • Eden
  • Survivor
  • Survivor

Eden 和第一个 Survivor 区负责存放新生的对象,第二个 Survivor 负责存放经历了一次内存回收之后依然存活的对象。

标记整理

复制收集算法在对象存活率较高时就要进行较多的复制操作,效率将会变低。更关键的是,如果不想浪费50%的空间,就需要有额外的空间进行分配担保,以应对被使用的内存中所有对象都100%存活的极端情况,所以在老年代一般不能直接选用这种算法。根据老年代的特点,有人提出了另外一种“标记-整理”(Mark-Compact)算法,标记过程仍然与“标记-清除”算法一样,但后续步骤不是直接对可回收对象进行清理,而是让所有存活的对象都向一端移动,然后直接清理掉端边界以外的内存。

分代收集

当前商业虚拟机的垃圾收集都采用“分代收集”(GenerationalCollection)算法,这种算法并没有什么新的思想,只是根据对象存活周期的不同将内存划分为几块。一般是把Java堆分为新生代和老年代,这样就可以根据各个年代的特点采用最适当的收集算法。在新生代中,每次垃圾收集时都发现有大批对象死去,只有少量存活,那就选用复制算法,只需要付出少量存活对象的复制成本就可以完成收集。而老年代中因为对象存活率高、没有额外空间对它进行分配担保,就必须使用“标记—清除”或者“标记—整理”算法来进行回收。

垃圾收集器

7种作用于不同分代的收集器,如果两个收集器之间存在连线,就说明它们可以搭配使用。虚拟机所处的区域,则表示它是属于新生代收集器还是老年代收集器。

赏杯咖啡 🍵 Donate