Python多进程/多线程 multiprocessing apply_async报错“left > 0” AssertionError

75 阅读 0 评论 50 点赞

我是靠谱客的博主完美大地，这篇文章主要介绍Python多进程/多线程 multiprocessing apply_async报错“left > 0” AssertionError，现在分享给大家，希望可以做个参考。

Python multiprocessing apply_async报错“left > 0” AssertionError

我使用的python版本：python3.7.3。

在处理一份较大的数据文件（17G）时，无论使用多进程或多线程均报此错误。在任务管理器里查看内存是完全足够的。查了很久才找到原因。

实现多进程/多线程时调用的类：
进程池:
from multiprocessing import Pool
线程池：
from multiprocessing.pool import ThreadPool

报错如下：

Process SpawnPoolWorker-4:
Traceback (most recent call last):
File"C:ProgramDataAnaconda3libmultiprocessingprocess.py", line 297, in _bootstrap
self.run()
File"C:ProgramDataAnaconda3libmultiprocessingprocess.py", line 99, in run
self._target(*self._args, **self._kwargs)
File"C:ProgramDataAnaconda3libmultiprocessingpool.py", line 110, in worker
task = get()
File"C:ProgramDataAnaconda3libmultiprocessingqueues.py", line 352, in get
res = self._reader.recv_bytes()
File"C:ProgramDataAnaconda3libmultiprocessingconnection.py", line 216, in recv_bytes
buf = self._recv_bytes(maxlength)
File"C:ProgramDataAnaconda3libmultiprocessingconnection.py", line 318, in _recv_bytes
return self._get_more_data(ov, maxsize)
File"C:ProgramDataAnaconda3libmultiprocessingconnection.py", line 337, in _get_more_data
assert left > 0
AssertionError

原因：python C的核心代码会阻止大于2GB的数据响应正常返回主线程/进程。

（python3.8中是否对此bug更新存疑）

StackOverflow上的回答：

There is a bug in Python C core code that prevents data responses bigger than 2GB return correctly to the main thread. you need to either split the data into smaller chunks as suggested in the previous answer or not use multiprocessing for this function.(UPDATE: the fix is present in python 3.8.0+)

StackOverflow上的问题描述和回答