This Domain(Admin5.com) is for Sale:

百度,请别在动我的蛋糕(cookie)!

时间:2007-11-01  来源:不详  作者:林子

不靠谱

包子馅不靠谱,

包子馅的报道更不靠谱 copyright dedecms

韩国队不靠谱

copyright dedecms

日本队也不靠谱 内容来自dedecms

中国队掉链子靠谱 dedecms.com

17tech说吕博望的报告不靠谱

织梦内容管理系统

吕博望说CNNIC的报告不靠谱 内容来自dedecms

雅虎觉得艾瑞报告不靠谱 本文来自织梦

搜狗觉得易观报告的不靠谱

dedecms.com

百度说,你们都不靠谱,我来做报告

copyright dedecms

这是我在上一篇文章《谁的话不靠谱》的结尾。

本文来自织梦

最近不靠谱的事情太多,不靠谱的人也太多。不过,吕伯望的报告就因为四舍五入产生了0.1%的误差,遭遇质疑,笔者看来颇有些冤枉;而他在第一次IT龙门阵上所演示的CNNIC的报告的缺陷,倒有几分道理。之后的几份搜索报告(艾瑞和易观)也因调查结果大相径庭而遭遇了质疑,看来搜索报告还真没有多少靠谱的。

dedecms.com

百度却是真的开始作报告了。最近百度新开辟了二级频道:百度数据研究中心(data.baidu.com),其中有六个行业的报告可供了下载,分别是银行行业、基金行业、网络游戏、汽车业、化妆品和家电业。

织梦好,好织梦

大型网站网络调查优势 织梦内容管理系统

我对大网站涉足咨询行业还是有些信心,他们至少能在数据源的样本数量上能得到充分的保证,照理说应该比较靠谱。吕伯望在回答我关于调查成本的问题时表示,电话调查虽然相对入户调查成本大大降低,但也因此产生了一些误差,调查受资金限制而产生了一些误差。在我看来,CNNIC只要把中国有多少上网人口调查出来即可,其他关于互联网用户更深入的调查完全可以通过网络问卷的方式完成。网络调查成本极低,而调查样本可以大大增加,数据的准确性也有了保证。因此,大型网站在数据收集方面拥有一定的优势。 本文来自织梦

百度的报告靠谱么? 内容来自dedecms

百度虽然一下子编制了6本报告,人们却没有看到相关网络调查表,那么百度是通过什么方法获得数据的呢?笔者打开了其中的一份报告,关于调查方法是这样描述的: 本文来自织梦

搜索引擎能采集用户主动需求的文字表达(即关键词查询),因此对用户真实需求的把握较之门户网站更占优势。通过 Cookie 跟踪,能把关键词与具体的需求挂上钩。我们假设每一个Cookie 代表一个潜在消费者(在技术上和统计学上是成立的,同时技术后台可屏蔽掉多个用户使用的 Cookie,如网吧 Cookie),那么该 Cookie 在一定时间内的关键词集合能全面反映他(她)关注的信息。我们对这些信息进行系统编码、清理和分析,把不同 Cookie 检索的关键词进行交叉分析,发现网民搜索的群体行为,最后整合成行业报告。 织梦好,好织梦

原来百度是依靠用户的cookie和对关键词的整理分析生成的报告。那么百度的报告靠谱么?

织梦内容管理系统

从采样数量看,百度是中国流量最高的网站,每天访问人次数以亿计,百度的报告称采样的数量达到了百万数量级。可见,从调查用户的数量上看的确非常可观。

dedecms.com

但从调查方法上看,笔者认为还是存在一定的漏洞。 织梦内容管理系统

其一、百度的技术后台“屏蔽掉多个用户的cookie”,那么意味着,网吧用户的统计被剔除掉。但国内网民在网吧上网的比例有1/3强,绝对数量巨大。去掉这些信息会导致结果出现偏差,这在网络游戏上的结果上最为 明显。

内容来自dedecms

其二、国内上网用户还普遍存在一个家庭多个用户的情形,如夫妻共用一台电脑,家庭共用一台电脑的情形(笔者认为这些也比较普遍); 织梦内容管理系统

其三、某些用户使用多台电脑,例如笔者办公和家庭就使用不同的电脑,按照百度的统计口径,这些用户的数据被重复计算了,而这正是统计学所忌讳的。 内容来自dedecms

其四、百度所有用户的调查结果是基于百度搜索用户的。非搜索引擎用户或者非百度用户,就难以统计进去,这部分用户的比例保守估计也在1/3左右(根据CNNIC的搜索引擎数据)。 织梦好,好织梦

因此,百度的报告正如CNNIC的报告一样,在计算方法上还存在一定的漏洞,尽管庞大的采样数据能够弥补其中一些不足。笔者认为百度的报告只具有一定参考意义,并不能完全反映行业全貌。

看完这篇,您有何感觉呢?

文章评论

共有位Admini5网友发表了评论 查看完整内容

24小时热门信息