在广义上,完播率是指:视频播放的次数中,有多少是完整播完的。
【资料图】
在实际计算过程中,视频网站约定俗成的完播率是指:视频平均播放时长在视频总长中的占比。或者说:完播率就是平均播放进度。
B站的UP主后台中也给出了这个数据,我们并不知道B站在统计过程中是如何工作的。但是我们可以通过陈瑞《很高兴遇见你》的报告中参考信息进行计算:
视频给出了平均播放时长的定义:平均播放时长 = 播放分钟数÷播放次数
此时,完播率,也就是平均播放进度就有了计算方法:
完播率 = 平均播放时长 ÷ 视频总分钟数 = 播放分钟数÷ 播放次数 ÷ 视频总分钟数
通过概念的梳理,可以确定完播率是在某一个时间段内视频的平均播放进度。
在通常情况下,完播率是从视频投稿开始,到某个时间点的平均播放进度情况。为了消歧,这个完播率我们会在下面称作“总体完播率”。
而在区间统计的过程中,也有一个“完播率”用来描述数据的变化情况。它是在某段时间内所产生的播放行为的平均播放进度,也就是“区间完播率”。
周刊左下角显示的就是“区间完播率”,通过视频的区间完播率可以用来在本周的播放次数和播放分钟数之间进行直接换算。
除了数据展示以外,完播率数据还是后期播放时长更迭预案的一部分。虽然无法获取播放计数是一个非常非常小概率的事件,但是预案还是有相关的涉及:
首先是神话曲的成就评估预案:每周的周刊统计阶段,还会显示完播率均值和播放进度均值。通过这个均值可以获得一个合理的平均完播率。而这个完播率可以用来对成就系统进行近似的换算。
举个例子:目前统计的12期,完播率均值在47%~52%之间,平均时长是1分45秒-2分之间。假如在数据充足的情况下我们聚类统计后,中心完播率为51%,中心播放时长为1分48秒钟。那么神话曲、传说曲、殿堂曲等播放量成就可以分别等效换算为一千八百万分钟、一百八十万分钟、十八万分钟
其次是周刊公式的近似换算预案:对于如此大的改动,最简单直接的方式肯定是更换更合理的公式。但是年刊的制作和类似期刊的数据统计则没有直接“重新开始”的机会。部分数据缺失是必然的,为了补齐这些数据,就需要一个“统计值”来折算不同换算式所产生的差异。区间完播率的持续计数,则可以用来分析这一“统计值”。
完播率有几个不同角度的定义,首先针对这些定义从意义角度上确认下值域:
(1)视频播放的次数中,有多少是完整播完的
这个定义是完整播放次数与总播放次数的比值。在意义上,完整播放的次数一定是小于总播放次数的。因此它的值域是[0,1]。
(2)视频平均播放进度。
任何性质的“进度”的值域一定是[0,1]的
因此,从定义上讲,完播率的合法值域是0% ~ 100%。而超过100%的完播率都是非法完播率。
既然有非法完播率,那么数据是不是真的异常呢?不是的。
从计算式上讲播放分钟数÷ 播放次数 ÷ 视频总分钟数可以改写为播放分钟数÷ ( 播放次数 × 视频总分钟数 )。因为视频总分钟数是恒正的固定值,因此当播放分钟数和播放次数不受限时,因此理论值域是[0,∞)。
那么就可以从这个计算式和值域的差异情况上讨论一下导致非法完播率的原因:
首先,从计算式中可以轻易的获知其值域关系:
播放分钟数≤ 播放次数 × 视频总分钟数 时 值域是[0,1]
播放分钟数> 播放次数 × 视频总分钟数 时 值域是(1,∞)
要知道,视频总长是固定的“视频总分钟数”,是恒定的。因此理论上播放次数每增加一,播放分钟数的增加量最大不应超过“视频总分数”。而当出现非法完播率时,一定是突破了这个“播放分钟数的增加量”的最大值的。也就是说:在非法完播率情况下,播放次数每增加一,播放分钟数的增加量超过了视频的总分钟数。
回到计算式上,造成以增加量超额原因,也就是导致非法完播率的原因就非常清晰了:
情况一:播放分钟数计数有额外数据
情况二:播放次数计数缺少
有因必有果,导致非法完播率的原因也可以在B站的网站规则中寻找到痕迹。
首先,这些规则来自Github等网站的黑盒实测结果,不代表B站的具体代码逻辑,也不代表未来B站不会修改相关规则。
首先是额外的播放分钟数:
B站的播放分钟数是通过每5秒一次的播放器“心跳”同步来统计的,因此只要是在持续播放,那么这个分钟数就会持续累加。但是由于没有重新进入页面,所以播放次数不会发生变化。因此产生了超额的“播放分钟数”
其次是缺少的播放次数:
在充电计划启动之后,为了防止部分UP主为了充电奖励恶意刷播放数据,B站严格的打击了播放计数刷取的情况,这些规则会移除一部分播放次数,最终导致播放次数缺少。
最常触发的规则就是5分钟播放规则:视频播放5分钟内刷新或者重新播放不计播放计数。
但是不计播放次数的行为并不影响播放分钟数的统计,因此导致了播放次数的缺少。
其他原因-推广计划:
部分视频在购买“推广计划”之后会出现同时产生上述两种情况的现象。具体体现是部分稿件被引流进入,但是触发了数据刷取规则,部分播放没有被计入。但是同时由于播放分钟数是向上取整的,因此就算部分引流观众播放后没有留存,也会向上取整播放分钟数。最终导致的综合结果就是:播放分钟数增长速度远超过播放次数。而这种增速倍数超过视频分钟数时就会触发“非法完播率”,因此这个原因是“数学性”的,而不是“逻辑性”或者“恶意性”的
非法完播率的存在,在B站现实面是存在的,而在逻辑面则是不应该出现的。
除了“推广计划”这类特例以外,无论是播放计数的缺少还是播放时长的额外累加,最终的结果都是非法完播率现象。
为了简化问题的定义,假定“播放次数”是一定准确的,那么这类非法完播率现象的原因就可以归一为:观众在同一页面不断循环播放,导致了额外的播放分钟数被统计。这类非法完播率现象可以称为“类循环播放”
此时,完播率 = ( 播放分钟数× 平均循环次数 ) ÷ ( 播放次数 × 视频总分钟数 )
如果观众没有进行循环播放,那么平均循环次数为1,完播率不存在额外的播放时长数据。
如果观众额外进行了N次循环播放,那么平均循环次数就是(1+N),完播率存在额外的播放时长数据N × 播放分钟数
如果将剔除循环情况的完播率视作“基础完播率”,则等式可以进一步转化为 完播率 = 基础完播率 × 平均循环次数 。 这里面“平均循环次数”就是完播率的“循环系数”
由于数据缺失,从数学上完全的剔除循环显然是不可能的,只能是近似的拟合。
从周刊数据角度上,完播率还可以写作:
总体完播率<期号=n>=(区间播放分钟数<期号=1>+ 区间播放分钟数<期号=2>+ 区间播放分钟数<期号=3>+ ... + 区间播放分钟数<期号=n-1>+ 区间播放分钟数<期号=n>) ÷ ( ( 区间播放次数<期号=1>+ 区间播放次数<期号=2>+ 区间播放次数<期号=3>+ ... + 区间播放次数<期号=n-1>+ 区间播放次数<期号=n>) × 视频总分钟数 )
由于“类循环播放”现象是不持续存在的,因此随着统计区间量的累加,循环数据占总数据的比例会越来越低,总体完播率也会逐渐向基础完播率的实际值逼近。越老的视频总体完播率受“类循环播放”现象的影响越小,越趋近于真实的基础完播率数据。
所以选择视频的总体完播率作为视频的基础完播率显示是较为合适的,此时“区间完播率”以总体完播率 × 区间循环系数的格式显示。
区间循环系数的值可以通过 区间完播率÷总体完播率来计算获得:
由于这个写法是基于“近似”的逻辑,所以该表达式只能作为“区间完播率”的一种显示格式。
不过,这种显示格式也是有一些额外的好处的:
(1)给出了视频总体完播率,这是一个评价视频整体留存情况的官方指数。
(2)评估视频完播情况变化趋势:当循环系数>1时,完播率环比上升,说明最近这个曲子的观众更多的留存,曝光率上升;当循环系数=1时,完播率不变,说明曲子的观众播放情况没有变化,不温不火; 当循环系数<1时,完播率环比下降,观众相较于作品的平均顺准的关注和曝光率呈下降态势;
(3) 标记可疑的视频:当循环系数 > ( 5 / 总体完播率 ) 时,需要重点关注是否有异常的数据干扰稿件成绩。
标签: