CPU多进程切换导致过载-CPU上下文切换

Linux 支持远大于 CPU 数量的任务同时运行。系统在很短的时间内，将 CPU 轮流分配给它们，造成多任务同时运行的错觉。过多的上下文切换，会把 CPU 时间消耗在寄存器、内核栈以及虚拟内存等数据的保存和恢复上，从而缩短进程真正运行的时间，导致系统的整体性能大幅下降。

每个进程运行前，系统事先帮它设置好 CPU 寄存器和程序计数器（Program Counter，PC）。

CPU 上下文：
- CPU 寄存器，是 CPU 内置的容量小、但速度极快的内存。
- 程序计数器，则是用来存储 CPU 正在执行的指令位置、或者即将执行的下一条指令位置。
CPU 上下文切换
- 把前一个任务的 CPU 上下文（也就是 CPU 寄存器和程序计数器）保存起来，然后加载新任务的上下文到这些寄存器和程序计数器，最后再跳转到程序计数器所指的新位置，运行新任务。
- 保存下来的上下文，会存储在系统内核中，并在任务重新调度执行时再次加载进来
根据任务的不同， CPU 上下文切换场景
- 进程上下文切换
- 线程上下文切换
- 中断上下文切换

系统调用–特权模式切换–同进程CPU上下文切换

系统调用过程通常称为特权模式切换，而不是上下文切换。但实际上，系统调用过程中，CPU 的上下文切换还是无法避免的。

进程的运行空间：进程在用户空间运行时，被称为进程的用户态，而陷入内核空间的时候，被称为进程的内核态。
- 内核空间（Ring 0）具有最高权限，可以直接访问所有资源；
- 用户空间（Ring 3）只能访问受限资源，不能直接访问内存等硬件设备，必须通过系统调用陷入到内核中，才能访问这些特权资源。
系统调用 eg：当我们查看文件内容时，就需要多次系统调用来完成：首先调用 open() 打开文件，然后调用 read() 读取文件内容，并调用 write() 将内容写到标准输出，最后再调用 close() 关闭文件。
一次系统调用的过程，其实是发生了两次 CPU 上下文切换。
- CPU 寄存器里原来用户态的指令位置，需要先保存起来。接着，为了执行内核态代码，CPU 寄存器需要更新为内核态指令的新位置。最后才是跳转到内核态运行内核任务。
- 而系统调用结束后，CPU 寄存器需要恢复原来保存的用户态，然后再切换到用户空间，继续运行进程。

进程上下文切换

与系统调用的区别

进程上下文切换，是指从一个进程切换到另一个进程运行。进程的切换只能发生在内核态。所以，进程的上下文不仅包括了虚拟内存、栈、全局变量等用户空间的资源，还包括了内核堆栈、寄存器等内核空间的状态。
- 比系统调用时多了一步：在保存当前进程的内核状态和 CPU 寄存器之前，需要先把该进程的虚拟内存、栈等保存下来；而加载了下一进程的内核态后，还需要刷新进程的虚拟内存和用户栈。
而系统调用过程中一直是同一个进程在运行。不会涉及到虚拟内存等进程用户态的资源，也不会切换进程

上下文切换时机–进程调度

进程调度的时候，才需要切换上下文。Linux 为每个 CPU 都维护了一个就绪队列，将活跃进程（即正在运行和正在等待 CPU 的进程）按照优先级和等待 CPU 的时间排序，优先级最高和等待 CPU 时间最长的进程来运行。

时间片耗尽
**系统资源不足，**挂起，要等到满足才可以运行
自主挂起，sleep
优先级更高的到来时
硬件中断，会被中断挂起，之后执行内核中的中断服务程序

线程上下文切换

线程是调度的基本单位，而进程则是资源拥有的基本单位。

内核中的任务调度，实际上的调度对象是线程；而进程只是给线程提供了虚拟内存、全局变量等资源。

前后两个线程属于不同进程。此时，因为资源不共享，所以切换过程就跟进程上下文切换是一样
前后两个线程属于同一个进程。此时，因为虚拟内存是共享的，所以在切换时，虚拟内存这些资源就保持不动，只需要切换线程的私有数据、寄存器等不共享的数据。

中断上下文切换–短小快

中断处理比进程拥有更高的优先级。为了快速响应硬件的事件，中断处理会打断进程的正常调度和执行，转而调用中断处理程序，响应设备事件。

中断上下文切换并不涉及到进程的用户态。所以，即便中断过程打断了一个正处在用户态的进程，也不需要保存和恢复这个进程的虚拟内存、全局变量等用户态资源。

中断上下文，其实只包括内核态中断服务程序执行所必需的状态，包括 CPU 寄存器、内核堆栈、硬件中断参数等。

查看系统的上下文切换情况-vmstat

过多的上下文切换，会把 CPU 时间消耗在寄存器、内核栈以及虚拟内存等数据的保存和恢复上

vmstat 是一个常用的系统性能分析工具，主要用来分析系统的内存使用情况，也常用来分析 CPU 上下文切换和中断的次数。系统总体的上下文切换情况:

pidstat -w 参数表示输出进程切换指标，而 -u 参数则表示输出 CPU 使用指标

pidstat 默认显示进程的指标数据，加上 -t 参数后，才会输出线程的指标。也就是-wt

cswch ，表示每秒自愿上下文切换（voluntary context switches）的次数：进程无法获取所需资源，导致的上下文切换。比如说， I/O、内存等系统资源不足时，就会发生自愿上下文切换。
nvcswch ，表示每秒非自愿上下文切换（non voluntary context switches）的次数：进程由于时间片已到等原因，被系统强制调度，进而发生的上下文切换。比如说，大量进程都在争抢 CPU 时，就容易发生非自愿上下文切换。

实验：

sysbench 来模拟系统多线程调度切换的瓶颈情况，是一个多线程的基准测试工具，一般用来评估不同系统参数下的数据库负载情况。当然，在这次案例中，我们只把它当成一个异常进程来看，作用是模拟上下文切换过多的问题。

1 2	# 以 10 个线程运行 5 分钟的基准测试，模拟多线程切换的问题 $ sysbench --threads=10 --max-time=300 threads run

vmstat 1
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 6  0      0 6487428 118240 1292772    0    0     0     0 9019 1398830 16 84  0  0  0
 8  0      0 6487428 118240 1292772    0    0     0     0 10191 1392312 16 84  0  0  0

r 列：就绪队列的长度已经到了 8，远远超过了系统 CPU 的个数 2，所以肯定会有大量的 CPU 竞争。
us（user）和 sy（system）列：这两列的 CPU 使用率加起来上升到了 100%，其中系统 CPU 使用率，也就是 sy 列高达 84%，说明** CPU 主要是被内核占用了。**
in 列：中断次数也上升到了 1 万左右，说**明中断处理也是个潜在的问题。**

# 每隔 1 秒输出 1 组数据（需要 Ctrl+C 才结束）
# -w 参数表示输出进程切换指标，而 -u 参数则表示输出 CPU 使用指标
$ pidstat -w -u 1
08:06:33      UID       PID    %usr %system  %guest   %wait    %CPU   CPU  Command
08:06:34        0     10488   30.00  100.00    0.00    0.00  100.00     0  sysbench
08:06:34        0     26326    0.00    1.00    0.00    0.00    1.00     0  kworker/u4:2
 
08:06:33      UID       PID   cswch/s nvcswch/s  Command
08:06:34        0         8     11.00      0.00  rcu_sched
08:06:34        0        16      1.00      0.00  ksoftirqd/1
08:06:34        0       471      1.00      0.00  hv_balloon
08:06:34        0      1230      1.00      0.00  iscsid
08:06:34        0      4089      1.00      0.00  kworker/1:5
08:06:34        0      4333      1.00      0.00  kworker/0:3
08:06:34        0     10499      1.00    224.00  pidstat
08:06:34        0     26326    236.00      0.00  kworker/u4:2
08:06:34     1000     26784    223.00      0.00  sshd

# 每隔 1 秒输出一组数据（需要 Ctrl+C 才结束）
# -wt 参数表示输出线程的上下文切换指标
$ pidstat -wt 1
08:14:05      UID      TGID       TID   cswch/s nvcswch/s  Command
...
08:14:05        0     10551         -      6.00      0.00  sysbench
08:14:05        0         -     10551      6.00      0.00  |__sysbench
08:14:05        0         -     10552  18911.00 103740.00  |__sysbench
08:14:05        0         -     10553  18915.00 100955.00  |__sysbench
08:14:05        0         -     10554  18827.00 103954.00  |__sysbench
...

除了上下文切换频率骤然升高，还有一个指标也有很大的变化，中断次数。

pidstat 只是一个进程的性能分析工具，并不提供任何关于中断的详细信息

/proc 实际上是 Linux 的一个虚拟文件系统，用于内核空间与用户空间之间的通信。/proc/interrupts 就是这种通信机制的一部分，提供了一个只读的中断使用情况。

# -d 参数表示高亮显示变化的区域
$ watch -d cat /proc/interrupts
           CPU0       CPU1
...
RES:    2450431    5279697   Rescheduling interrupts

变化速度最快的是重调度中断（RES），这个中断类型表示，唤醒空闲状态的 CPU 来调度新的任务运行。这是多处理器系统（SMP）中，调度器用来分散任务到不同 CPU 的机制，通常也被称为处理器间中断（Inter-Processor Interrupts，IPI）。

中断升高还是因为过多任务的调度问题，跟前面上下文切换次数的分析结果是一致的。

总结

自愿上下文切换变多了，说明进程都在等待资源，有可能发生了 I/O 等其他问题；
非自愿上下文切换变多了，说明进程都在被强制调度，也就是都在争抢 CPU，说明 CPU 的确成了瓶颈；
中断次数变多了，说明 CPU 被中断处理程序占用，还需要通过查看 /proc/interrupts 文件来分析具体的中断类型。

文章作者: 褚成志

文章链接: https://blog.chucz.asia/2026/04/09/CPU%E5%A4%9A%E8%BF%9B%E7%A8%8B%E5%88%87%E6%8D%A2%E5%AF%BC%E8%87%B4%E8%BF%87%E8%BD%BD-CPU%E4%B8%8A%E4%B8%8B%E6%96%87%E5%88%87%E6%8D%A2/

Linux CPU 性能分析

相关推荐

2026-04-09

CPU平均负载升高的三个排查角度

1yum install -y man-pages 平均负载 == 平均活跃进程数 != cpu使用率uptime：1 分钟、5 分钟、15 分钟的平均负载（Load Average）。 0.63 不是CPU的使用率，而是单位时间内，系统处于可运行和不可中断的平均线程数。也就是平均活跃进程数。可运行：ps 显示的进程是R状态的，也就是Running或者Runnable状态的。不可中断：ps 显示的进程是D状态的，也就是Disk sleep的进程。处于内核态的关键流程，不可中断，否则会出现磁盘和进程的数据不一致。此状态是系统对硬件和进程的的一种保护机制。在只有 2 个 CPU 的系统上，意味着所有的 CPU 都刚好被完全占用。在 4 个 CPU 的系统上，意味着 CPU 有 50% 的空闲。而在只有 1 个 CPU 的系统中，则意味着有一半的进程竞争不到 CPU。平均负载多少合理查看CPU的个数 top 或者 grep 'model name' /proc/cpuinfo | wc -l 根据**系统负载趋...

2026-04-09

软中断softirq的CPU使用率升高

中断是系统用来响应硬件设备请求的一种机制，它会打断进程的正常调度和执行，然后调用内核中的中断处理程序来响应设备的请求。中断其实是一种异步的事件处理机制，可以提高系统的并发处理能力。由于中断处理程序会打断其他进程的运行，所以，为了减少对正常进程运行调度的影响，中断处理程序就需要尽可能快地运行。中断处理程序在响应中断时，还会临时关闭中断。这就会导致上一次中断处理完成之前，其他中断都不能响应，也就是说中断有可能会丢失。为什么有硬中断和软中断区分?为了解决中断处理程序执行过长和中断丢失的问题，****Linux 将中断处理过程分成了两个阶段，也就是上半部和下半部：上半部直接处理硬件请求，硬中断，特点是快速执行；网卡接收到数据包后：会通过**硬件中断**的方式，通知内核有新的数据到了。同时把网卡的数据读到内存中，然后更新一下**硬件寄存器的状态（表示数据已经读好了），最后再发送一个软中断信号**，通知下半部做进一步的处理。硬中断是硬件产生的,比如键盘、鼠标的输入，硬盘的写入读取、网卡有数据了；下半部则是由内核触发，软中断，特点是延迟执行。通...

2026-04-09

用户和系统CPU使用率升高

CPU节拍率和节拍数为了维护 CPU 时间，Linux 通过事先定义的节拍率（内核中表示为 HZ），触发时间中断，并使用全局变量 Jiffies 记录了开机以来的节拍数。每发生一次时间中断，Jiffies 的值就加 1。节拍率 HZ 是内核的可配选项，可以设置为 100、250、1000 等。不同的系统可能设置不同数值，你可以通过查询 /boot/config 内核选项来查看它的配置值。节拍率设置成了 250，也就是每秒钟触发 250 次时间中断。 12grep 'CONFIG_HZ=' /boot/config-$(uname -r)CONFIG_HZ=250 节拍率 HZ 是内核选项，所以用户空间程序并不能直接访问。为了方便用户空间程序，内核还提供了一个用户空间节拍率 USER_HZ，它总是固定为 100，也就是 1/100 秒。这样，用户空间程序并不需要关心内核中 HZ 被设置成了多少，因为它看到的总是固定值 USER_HZ。 CPU 使用率计算（一段时间内的）数据空闲和总的时间来自于 <font style=...

2026-04-09

CPU分析和优化总结

CPU 性能指标CPU 使用率用户 CPU 使用率，包括**用户态 CPU 使用率（user）和低优先级用户态 CPU 使用率（nice），表示 CPU 在用户态运行的时间百分比。用户 CPU 使用率高，通常说明有应用程序比较繁忙。** 系统 CPU 使用率，表示 CPU 在内核态运行的时间百分比（不包括中断）。系统 CPU 使用率高，说明内核比较繁忙。等待 I/O 的 CPU 使用率，通常也称为 iowait，表示等待 I/O 的时间百分比。iowait 高，通常说明系统与硬件设备的 I/O 交互时间比较长。软中断和硬中断的 CPU 使用率，分别表示内核调用软中断处理程序、硬中断处理程序的时间百分比。它们的使用率高，通常说明系统**发生了大量的中断**。除了上面这些，还有在虚拟化环境中会用到的窃取 CPU 使用率（steal）和客户 CPU 使用率（guest），分别表示被其他虚拟机占用的 CPU 时间百分比，和运行客户虚拟机的 CPU 时间百分比。平均负载（Load Average），系统的平均活跃进程分别指过去 1 分钟...

2026-04-09

内存泄漏与SWAP

内存泄漏如何发生没正确回收分配后的内存，导致了泄漏。访问的是已分配内存边界外的地址，导致程序异常退出用户空间内存包括多个不同的内存段，比如只读段、数据段、堆、栈以及文件映射段等。这些内存段正是应用程序使用内存的基本方式。只读段、数据段、栈不会泄漏在程序中定义了一个局部变量，比如一个**整数数组 int data[64]** ，就定义了一个可以**存储 64 个整数的内存段。由于这是一个局部变量，它会从内存空间的栈中分配内存。栈内存由系统自动分配和管理。一旦程序运行超出了这个局部变量的作用域，栈内存就会被系统自动回收，所以不会产生内存泄漏的问题。** 只读段，包括程序的代码和常量，由于是只读的，不会再去分配新的内存，所以也不会产生内存泄漏。数据段，包括全局变量和静态变量，这些变量在定义时就已经确定了大小，所以也不会产生内存泄漏。堆和文件映射可能会泄漏事先并不知道数据大小，所以你就要用到标准库函数** malloc() ，在程序中动态分配内存。这时候，系统就会从内存空间的堆中分配内存。堆内存由应用程序自己来分配和管理。除非程序退出，这些堆内存并不会被系统自动释放，...

2026-04-09

服务器丢包分析-iptables规则-MTU大小设置错误-perf-火焰图分析处理请求时内核线程调用

服务器丢包分析–iptables规则以及MTU大小设置错误容器利用 Linux 内核提供的命名空间技术，将不同应用程序的运行隔离起来，并用统一的镜像，来管理应用程序的依赖环境。这为应用程序的管理和维护，带来了极大的便捷性，并进一步催生了微服务、云原生等新一代技术架构。容易发生启动过慢、运行一段时间后 OOM 退出等问题。容器化后，应用程序会通过命名空间进行隔离。所以，你在分析时，不要忘了**结合命名空间、cgroups、iptables **等来综合分析： cgroups 会影响容器应用的运行； iptables 中的 NAT，会影响容器的网络性能；叠加文件系统，会影响应用的 I/O 性能等。数据包还没传输到应用程序中，就被丢弃了。这些被丢弃包的数量，除以总的传输包数，也就是我们常说的丢包率。丢包通常会带来严重的性能下降，特别是对 TCP 来说，丢包通常意味着网络拥塞和重传，进而还会导致网络延迟增大、吞吐降低。丢包模拟1docker run --name nginx --hostname nginx --privileged -p 80:80 -it...