首页 正文

二手信息和真相之间的差距可以有多大?

库业游民 2021-10-07 0 694

根据手上的60w知乎用户数据我画了几张图,用来看看二手信息和真实信息之间的差距。同时,我也比较了一手信息和真实信息之间的差距,看看大家应该更相信二手信息呢,还是自己"眼见为实"呢,还是两者都要存疑比较好。你也可以先滚动到最后的总结看完了再回来看这几张图。

第一张:大家的粉丝有多少?

这张图展示了从不同角度来统计的知乎用户粉丝量的分布,其中红色展示的是样本里60w用户把每个用户的粉丝数都各统计一次做出来的分布,这个很大程度可以反映出在整个知乎用户群里粉丝数的真实分布。

而绿色展示的是根据二手信息所统计的分布。这是什么意思呢?这是指我有其中2w用户的关注列表中每一个用户的粉丝数(共400w条记录),因此我可以统计出这个问题的答案:让这2w用户中的每一个都去问问他们所关注的每一个人的粉丝有多少,然后根据所有人的回答(二手信息)来画出粉丝数的分布。我们可以看到,根据二手信息所做的估算严重高估了大家的粉丝数。

另一个我想去做比较的是所谓的一手信息,即如果我(

)根据我所关注的189个用户的情况去估计粉丝数的分布会怎样。可以看到,用我所关注的用户的情况来做的推算同样偏高得离谱。

在下面的每一个图,我们都会像上面的第一张图一样比较三个统计量:对60w样本所统计的真实情况,根据二手信息(让2w用户中的每一个都去问问他们所关注的用户的情况)所做的统计,和根据我个人所关注的用户情况所做的统计。

第二张:大家答题多吗?

这张图展示的是大家回答问题的数量的分布,红色表示的是回答问题的数量在60w样本中的真实分布,绿色画的是根据二手信息所做的统计,XL画的我所关注的189个用户的情况。

第三张:获得知乎官方认证(比如“某某博士”认证)和成就(比如“经济学话题优秀回答者”等)的用户多吗?

在我的整个60w样本里,获得官方认证或成就的用户比例连1%都没有。但你知道根据2w人的二手信息所统计出来的结果有多少吗?有18%!

而如果我连二手信息都没有呢?如果我根据我所关注的189个用户的情况去推断,我会觉得周围有43%的人都获得了知乎的官方认证!简直就是人手一个啊!大概是因为我关注了一堆的经济学话题优秀回答者。

第四张:知乎上男女比例是多少?

样本的真实情况:男生占58%,比一半高,但没有高太多。根据二手信息,我们得出了男生占了七成的结论。而在我所关注的用户里,男生毫无疑问占了绝大多数。

结论

二手信息靠不住,眼见通常也不为实。

你猜造成一手信息和二手信息都系统性地严重偏误的原因是什么(我并没有精心挑选了这几个变量)?这里有一个简单但深刻的原因——因为有某少部分用户(大v)有比其他用户多特别多的粉丝,因此在统计二手信息的时候这部分用户被重复统计了很多次。而粉丝量大、答题数多、和拥有官方认证这几项特征都必然是跟粉丝多的用户联系在一起的。另外,虽然整体上男性用户不比女性用户多很多,但从答题数、粉丝量等指标来说活跃用户里还是男性居多。所以造成一手信息和二手信息都系统性地偏误的原因是由于selection bias,也就是在统计的时候某部分不具有代表性的样本被重复计量了很多次。

而当我们在一个社交网络里来考虑这个由系统性样本偏差所造成的认知偏差的时候,你会发现这种认知偏差在某些问题上是无可避免的,因为——by definition——粉丝多的人会有更多粉丝,就像为什么有过半人都会觉得他们的朋友都比他们自己有更广的人脉——这是必然的。不仅如此,所有与人脉广的人联系在一起的特征全都会被高估——比如大部分的人都会觉得周围大部分人都比自己更健谈、更喜欢和善于交际、和更有学识,如果你也觉得这样,那很可能只是由于你所观察到的样本有偏而已。Xueheng Li ​)

二手 ·

发布者                           我也要免费发布

avatar