2019腾讯广告算法大赛之清洗曝光广告数据集以及构造标签
首先是对清洗曝光广告日志中的脏数据进行清洗,脏数据主要包括三种情况,第一: 该条广告记录中的广告ID不存在于静态广告数据和操作广告数据中,因为不存的话则该条数据无法构造训练集。第二: 广告请求时间不合理,也即是出现二月三十号的这种情况第三: 如果该条广告操作数据的取值不合理,例如(广告行业ID中出现多值,或者出现缺失数据)最后在保存广告操作数据集时,我首先是按照天进行保存的,然后在...