我是靠谱客的博主 悲凉饼干,最近开发中收集的这篇文章主要介绍腾讯2020广告算法大赛比赛-使用官方推荐平台进行数据的读取和合并,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

一、比赛数据


数据下载与展示


pip install wget

安装之后记得重启kernel

import wget,tarfile
#训练数据
filename = wget.download("https://tesla-ap-shanghai-1256322946.cos.ap-shanghai.myqcloud.com/cephfs/tesla_common/deeplearning/dataset/algo_contest/train_preliminary.zip")
#测试数据
test_filename = wget.download("https://tesla-ap-shanghai-1256322946.cos.ap-shanghai.myqcloud.com/cephfs/tesla_common/deeplearning/dataset/algo_contest/test.zip")

#解压缩
import zipfile
#解压缩训练数据
zFile = zipfile.ZipFile(filename,"r")
for fileM in zFile.namelist():
    zFile.extract(fileM,'./')
    print(fileM)
#解压缩测试数据 
test_zFile = zipfile.ZipFile(test_filename,"r")
for fileM in test_zFile.namelist():
    test_zFile.extract(fileM,'./')
    print(fileM)
zFile.close();
  • 上述代码完成了数据集的下载和解压,如下所示
    训练数据集
    测试数据集

  • 通过pandas来读取数据并进行分析

import pandas as pd
#读取数据
user_data = pd.read_csv("train_preliminary/user.csv")
click_log_data = pd.read_csv("train_preliminary/click_log.csv")
ad_data = pd.read_csv("train_preliminary/ad.csv")
#数据分析
user_data.shape #(900000, 3)
click_log_data.shape #(30082771, 4)
ad_data.shape #(2481135, 6)
#列名
'''
'user_id':'用户编号'
'age':'年龄段'
'gender':'性别'
'time':'日期'
'creative_id':'广告素材编号'
'click_times':'当日点击次数'
'ad_id':'广告编号'
'product_id':'产品编号'
'product_category':'产品类别'
'advertiser_id':'广告金主'
'industry':'金主所属行业'
'''
#数据类型
user_data.dtypes

#user_id    int64
#age        int64
#gender     int64
#time           int64
#creative_id    int64
#click_times    int64
#ad_id                int64
#product_id          object
#product_category     int64
#advertiser_id        int64
#industry            object
  • 展示每个数据表的前五条记录
    用户基本数据
    用户点击数据
    广告数据
  • 使用merge函数将三个训练数据集合并到一起
#将用户数据、用户点击广告数据和广告数据合并
user_click_data = pd.merge(user_data,click_log_data)
user_click_ad_data = pd.merge(user_click_data,ad_data)
user_click_ad_data.shape #(30082771, 11)
user_click_ad_data.columns
#Index(['user_id', 'age', 'gender', 'time', 'creative_id', 'click_times','ad_id', 'product_id', 'product_category', 'advertiser_id', 'industry'],dtype='object')

下面就可以选择特征值和不同的模型来进行训练和预测了,加油!大赛结束后再来写总结!

最后

以上就是悲凉饼干为你收集整理的腾讯2020广告算法大赛比赛-使用官方推荐平台进行数据的读取和合并的全部内容,希望文章能够帮你解决腾讯2020广告算法大赛比赛-使用官方推荐平台进行数据的读取和合并所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(58)

评论列表共有 0 条评论

立即
投稿
返回
顶部