Python fork 与 spawn 模式的关键差异

fork复制父进程内存(Unix/Linux/macOS),启动快但有线程/资源竞争风险;spawn新建解释器(全平台),启动慢但安全可预测,Windows/macOS默认使用。

Python 的 forkspawnmultiprocessing 模块中两种不同的进程启动方式,核心差异在于子进程的创建机制和初始化行为,直接影响程序兼容性、性能和跨平台表现。

fork 模式:复制父进程内存快照

fork 仅在 Unix/Linux/macOS 系统可用,调用操作系统 fork() 系统调用,直接复制父进程的整个内存地址空间(采用写时复制,COW),子进程立即拥有与父进程一致的代码、数据、打开的文件描述符和运行状态。

  • 启动极快,无模块重载开销
  • 子进程继承父进程已初始化的全局对象(如已连接的数据库连接、日志 handler、全局变量等),可能引发资源竞争或状态不一致
  • 若父进程中已有线程在运行,fork 后子进程只保留 fork 调用时刻的主线程,其他线程状态被丢弃,容易导致死锁(例如 GIL 锁或 pthread mutex 处于加锁状态)
  • 无法安全用于依赖线程安全初始化的库(如某些 GUI 或异步框架)

spawn 模式:全新 Python 解释器实例

spawn 在所有平台(包括 Windows)均支持。它启动一个全新的 Python 解释器进程,重新导入主模块(即执行 if __name__ == '__main__': 块),从头开始初始化所有模块和全局状态。

  • 更干净、可预测:子进程不共享父进程的内存或运行时状态
  • 避免 fork 引发的线程/资源残留问题,更适合复杂或第三方库集成场景
  • 启动稍慢:需重新解析、编译、导入模块,尤其主模块较大时明显
  • 要求主模块必须可被安全地重复导入——不能在顶层执行有副作用的操作(如直接启动服务、修改全局配置),否则每次 spawn 都会重复执行

Windows 下默认使用 spawn,Unix 下默认 fork

这是由操作系统能力决定的:Windows 没有 fork() 系统调用,因此 multiprocessi

ng 在 Windows 和 macOS(10.14+ 默认 spawn)上强制或倾向使用 spawn。可通过 multiprocessing.set_start_method('spawn')'fork' 显式指定(需在主模块入口处、if __name__ == '__main__': 内尽早调用)。

  • 显式设为 spawn 可提升跨平台一致性,减少环境差异引发的 bug
  • 显式设为 fork 可优化 Unix 下的启动性能,但需确保代码无 fork 不安全操作(如提前开启线程、使用 multiprocessing.Queue 以外的共享对象)
  • macOS 上部分版本对 fork 有兼容性限制(如涉及 objc runtime),spawn 更稳妥

如何选择?看场景和约束

没有绝对优劣,关键看你的程序结构和部署环境:

  • 开发调试阶段建议统一用 spawn,避免因平台切换导致行为突变
  • 高频启停大量子进程且确定无副作用时(如纯计算任务),fork 可降低开销
  • 使用了多线程、信号处理、GUI 库(如 PyQt)、异步运行时(如 asyncio event loop)或某些 C 扩展时,优先选 spawn
  • 主模块含初始化逻辑(如 logging.basicConfig()torch.set_num_threads())应确保其幂等,或移入子进程专用函数中