CPU上下文切换

什么是 CPU 上下文切换

CPU 寄存器,是 CPU 内置的容量小、但速度极快的内存。程序计数器,则是用来存储 CPU 正在执行的指令位置、或者即将执行的下一条指令位置。它们都是 CPU 在运行任何任务前,必须的依赖环境,因此也被叫做CPU 上下文

CPU 上下文切换,就是先把前一个任务的 CPU 上下文(也就是 CPU 寄存器和程序计数器)保存起来,然后加载新任务的上下文到这些寄存器和程序计数器,最后再跳转到程序计数器所指的新位置,运行新任务。

进程上下文切换

Linux 按照特权等级,把进程的运行空间分为内核空间用户空间

  • 内核空间(Ring 0)具有最高权限,可以直接访问所有资源。
  • 用户空间(Ring 3)只能访问受限资源,不能直接访问内存等硬件设备,必须通过系统调用陷入到内核中,才能访问这些特权资源。
  • 系统调用(特权模式切换):一个进程用户态与内核态的互相转变
  • 上下文切换:从一个进程切换到另一个进程运行
    • 虚拟内存、栈、全局变量等用户空间的资源
    • 内核堆栈、寄存器等内核空间的状态

一次系统调用的过程,发生了次 CPU 上下文切换。

什么时候会发生?

  • 进程 CPU 时间片耗尽,被系统挂起,切换到其他正在等待 CPU 的进程
  • 系统资源不足时进程被系统挂起,系统调度其他进程运行
  • 进程通过睡眠函数 sleep 这样的方法将自己主动挂起
  • 有优先级更高的进程运行,当前程序会被挂起
  • 发生硬件中断,转而执行内核中的终端服务程序

线程上下文切换

线程与进程的区别

  • 线程是调度的基本单位,而进程是资源拥有的基本单位
  • 当进程只有一个线程时,可以认为进程就等于线程
  • 当进程拥有多个线程时,这些线程会共享相同的虚拟内存和全局变量等资源,在上下文切换时,这些资源不需要修改
  • 线程有自己的私有数据,例如栈和寄存器等,在上下文切换时需要保存

什么时候会发生

  • 前后两个线程属于不同进程。此时因为资源不共享,因此等同于进程上下文切换
  • 前后两个线程属于同一个进程,因为虚拟内存共享,所以只需要切换私有数据、寄存器等不共享的数据

虽然同为上下文切换,但同进程内的线程切换,要比多进程间的切换消耗更少的资源,而这,也正是多线程代替多进程的一个优势。

中断上下文切换

  • 中断处理会打断进程的正常调度和执行
  • 对同一个 CPU 来说,中断处理比进程拥有更高的优先级

怎么查看系统的上下文切换情况

vmstat

vmstat 是一个常用的系统性能分析工具,主要用来分析系统的内存使用情况,也常用来分析 CPU 上下文切换和中断的次数。

  • 需要特别关注的四列内容:
    • cs(context switch) 表示每秒上下文切换的次数
    • in(interrupt)表示每秒中断次数
    • r(Running or Runnable)表示就绪队列的长度,也就是正在运行和等待 CPU 的进程数
    • b(Blocked)表示处于不可中断睡眠状态的进程数 #每隔 5 秒输出一组数据

pidstat

vmstat 只给出了系统总体的上下文切换情况,要想查看每个进程的详细情况,就需要使用 pidstat 了。给它加上 -w 选项,你就可以查看每个进程上下文切换的情况了。

  • 需要特别关注的两列内容
    • cswch 表示每秒自愿上下文切换的次数
    • nvcswch 表示每秒非自愿上下文切换的次数
  • 自愿上下文切换:进程无法获取所需资源
  • 非自愿上下文切换:进程由于时间片已到等原因,被系统强制调度
  • 自愿上下文切换变多了,说明进程都在等待资源,有可能发生了 IO 等其他问题
  • 非自愿上下文切换变多了,说明进程都在被强制调度,即在争抢 CPU,说明 CPU 成为瓶颈
  • 中断次数变多了,说明 CPU 被中断处理程序占用,还需要通过查看/proc/interrupts 文件来分析具体的中断类型

小结:

不管是哪种场景导致的上下文切换,我们应该知道:

  • CPU 上下文切换,是保证 Linux 系统正常工作的核心功能之一,一般情况下不需要我们特别关注。
  • 但过多的上下文切换,会把 CPU 时间消耗在寄存器、内核栈以及虚拟内存等数据的保存和恢复上,从而缩短进程真正运行的时间,导致系统的整体性能大幅下降。

碰到上下文切换次数过多的问题时,我们可以借助 vmstat 、 pidstat 和 /proc/interrupts 等工具,来辅助排查性能问题的根源。