与竞争量有关 计算每个旧广告在每天每个广告位的曝光量和竞争量,曝光量除以竞争量=曝光率,得到每天的曝光率。 旧广告规则:100-22号的广告语23号的广告有重叠,24号旧广告的exp=0.75exp23+0.25*exp10-22 旧广告建模:特征:10号到22号的竞争量曝光率,将18号作为validdata,用18号之前的数据对18号曝光量进行预测 再将旧广告的规则与旧广告建模的结果进行融合
新广告建模:新广告的aid和创建时间是无用特征,可以用的是各种type,size,loc
可以对y进行log(1+y)平滑处理之后进行预测
可以通过周一–周五 还是周末来构造特征
广告自身设定特征 广告的静态属性 出价信息特征 时间相关特征:样本日期与广告创建日期的间隔 竞争队列的特征 样本在当天参与竞争的请求数目 广告当天参与竞价的请求数目与某些用户特征的关系
构造其他特征 log(pctr) log(ecpm) 广告当天在竞价队列中的相对排名信息 广告 在当天的ecpm与最大的ecpm比值信息
竞争队列信息: 请求次数,过滤次数,曝光次数,ecpm在竞争队列的rank 针对上述特征,进行当日统计,历史统计,花窗统计
构造验证集时,尽量使验证集的分布与训练集大致相同
规则:历史胜出率*当天请求次数 时间越近的胜出率越可信
基础特征的类别特征的使用: 按照每个类别特征和日期进行组合,对日曝光量进行均值编码 类别特征之间进行两三组合,再与日期进行组合,对日曝光量进行均值编码
滑窗特征: 历史曝光数 历史未曝光数 队列长度 广告主 曝光率 曝光率 当日队列长度 历史曝光率
时序特征: 分别统计当滑窗大小为3,7,14时 广告曝光量的均值 中位数 最大最小值 标准差 日曝光 前k天广告的bid_amx,bid_min,bin_std, 每一天广告队列的长度的均值
每个用户的特征向量的均值作为人群定向
如果要用NN,要把数值特征压缩到【0,1】 删除皮尔逊相关性特别大的特征
对于旧广告: 广告id在日志中每日曝光的中位数,众数,平均数作为特征 广告id在预测日的前一天的统计曝光量作为特征 胜出比例*广告请求次数 对于新广告: 根据特征预测