python 批量插入数据到postgreSql

69 阅读 0 评论 46 点赞

我是靠谱客的博主俭朴宝贝，最近开发中收集的这篇文章主要介绍python 批量插入数据到postgreSql，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

开源的关系型数据库, mysql 和 postgreSql 都有很久的历史, 应用也很广泛了，今天有机会接触postgreSql11。

python 连接postgreSql 数据库，用的驱动工具是psycopg2。

官方文档地址：http://initd.org/psycopg/docs/

操纵插入3000w 条记录发现用单条插入的速度很慢，必须用批量插入的方法了。啃了一遍官方文档，终于在最后最后最后面发现了批量操作的说明，操作后批量比单条快了10倍左右的速度。

from psycopg2 import extras as ex
#values 后面直接%s
sql = '''insert into mytable(tag1, tag2)
values %s
'''
datalist = []
#这里做一个循环， 循环加入数据
datalist.append((192,342344))
#行数据是以元组的形式存放
ex.execute_values(cursor,sql, datalist,page_size=10000)
conn.commit()
#需要手动提交

官方具体说明地址：http://initd.org/psycopg/docs/extras.html#fast-execution-helpers

今天再接触了 postgreSQL 的copy 语法，copy_from 和 copy_to 才是postgreSQL 单客户端单线程最强的输入和输出，比上面的批量操作还要快10倍，3000w 的模拟数据3分钟就可以插完。

官方文档说明地址：http://initd.org/psycopg/docs/cursor.html#cursor.copy_from

import psycopg2 as pg
from io import StringIO
f = StringIO()
#StringIO 结构类似文件，但是内容都在内存里面
#循环写入数据到内存里面， 里面每个字段用制表符t 隔开，每一行用换行符n 隔开
f.write("1t192t234234n")
#最重要的一步，要把f 的游标移到第一位，write 方法后，游标会变成最尾，StringIO(**) 就不会
f.seek(0)
cursor.copy_from(f, "myTable",
columns=("tag1", "tag2", "tag3"),
sep='t', null='\N', size=16384)
#默认sep和null 都是none
conn.commit()
#要自己手动提交

第一次接触postgreSql，有一些注意点备忘