【译】魔幻的数字

原文地址：Magic numbers
原文作者：Gilles Dubuc
译文出自：FE-star/speed
译者：xujiujiu
校对者：[]
本文链接：[]

像RAIL这样的的指南在网络性能社区上很受欢迎。他们经常被要求必须遵守时间上的限制，比如感觉很快的100ms，比如1000ms是可接受的响应时间的限制。

我一直对这种主张持怀疑态度，今年的早些时候，我开始通过对网络性能感知学术研究进行广泛的文献综述，寻找这些数字是否存在任何的价值。以下是一些项目调查的发现。

从引文追踪中得出

如果你关注论文引用，一些经典的论文可以持续作为参考。在网络性能的世界里，下面两篇论文的引用比其他论文都要多。

1968年 Miller 发表的《Response Time in Man-Computer Conversational Transactions》

1993/2014年 Nielsen 的《Response Times: The 3 Important Limits 》

Nielsen 实际上从 Miller 的论文上获取了一些数据，清理掉网络之前的数据后将他们以每个人都懂的简单的方式呈现给大家，并声明他们适用于网络。然而， Nielsen 并没有证明这些数据对于任何类型的研究都是正确的。Jakob Nielsen 只是简单的将这些数据声明为事实，但没有做任何的学术依据去证明他们是正确的。从那以后，整个网络社区都已经相信一个自称为专家就此事说的内容并将变为指导方针。当然，如果一个戴着眼镜并持有HCI博士学位的权威人士表示非常坚定的话，那么它必须是正确的。

相信我，我知道的事！

Miller 的论文到底陈述了什么？毕竟，因为 Nielsen 坚信这些原则是绝对的真理并且在50年内都没有被改变，或许是因为 Miller 的研究开始时就如此引人注目了？我认为每一个相信在RAIL上的这些数字的研究和简单的指导方针的人都应该去读一读 Miller 的论文，这些无所不在的魔法数字的起源。不仅 Miller 没有用任何类型的研究来为这些数字声明-这真的只是一个巨大的主观文章-它包含了Nielsen似乎没有找到的价值，包括他清理掉的部分中：

如果他已经犯了一个系统可以检测的错误，他应该被允许在被打断或者告知他被锁定之前完成他的想做的。在2s之后4s之前完成他脑中的指令，他应该被提醒他的错误，而不是‘告知’他再次尝试，也不是告诉他所犯的错误。评论：在思考中被打断是无礼的（即烦人的）。中断的烦恼使回到思路中更加困难。两秒的暂停使得用户获得完成的感觉，此时一个错误的提示就更加容易被接收了。

Miller 主张故意将错误延迟2秒，为了避免打断用户的思路。如果它听起来愚蠢又过时的，那是因为它，就像是 Miller 论文的剩余部分。像 Nielsen 的论文，虽然方法很好，但是魔法数据就像凭空生成的一样。没有进行过一个简单的实验，也没有一个人在这些魔法数字的生成中进行过研究和调查。没有任何研究数据能够证明他的声明。

在你做真正的学术时发生了什么？

Forch, Franke, Rauh, Krems 在2017年发表的 Are 100 ms Fast Enough? Characterizing Latency Perception Thresholds in Mouse-Based Interaction看起来像是Miller/Nielsen 剧本中最受欢迎的魔法数字之一：100ms就像是感觉瞬间的一个阈值，这是一个研究的重要结论：

延迟感知阈值的范围为34-137ms，平均值为65ms（中值= 54ms），标准偏差为30ms。

这和我们一直听到的100ms的通用阈值完全不同。该研究继续表明，具有玩动作视频游戏习惯的受试者倾向于具有比其他人更低的阈值。这表明文化差异可以影响这种限制。

谷歌揭示了下一轮RAIL指南

当你考虑它时，真正的阈值是一个取决于人口统计数据的范围，这没有理由回事一个碰巧是整数的通用阈值，那将太神奇了，不是吗？

基于坐在大厅的学生证明人类的普遍事实

你能发现年龄小于19岁或者大于36岁的人吗？

我意识到，大部分做真正的学术研究的论文都有一个主要的缺点，当对人类进行实际的研究时，通常是在一个缺乏多样性的群里。通常，科学家们会访问同一所大学的学生，他们是受过教育，精通技术使用并经常需要付费参与的主体，这显然会使结果产生偏差。然而，在对十几名付费学生进行研究之后，这些研究论文通常会声称已经证明了关于所有人的普遍真理。

对于我之前引用的关于100ms阈值的研究，这实际上是正确的，学生在获得学分而不是金钱的差异很小。以下是他们对研究参与者的描述：

通过当地心理学学生邮件列表招收的20名学生（10名女性，年龄19-36岁，M=23.45，SD=3.32）参加了实验。所有参与者的视力正常或矫正到正常，通常用右手操作电脑鼠标。实验开始时，参与者签署了一份知情同意书，并获得部分课程学分。

我发现研究的另一个常见的缺点是，他们在实验室里让人们观看使用虚假的浏览器，预定的浏览脚本加载的页面加载过程。这些与浏览器的真实体验完全不想关。

总之，当他们的研究设施在这些方面存在问题时，我们应该对这个研究结果保持怀疑态度。虽然这个100ms的研究证明了只有20人的100ms的普遍性，但它仍不足以证明不同的数字出现是否更为普遍。

一切都很糟糕，现在呢？

除了魔幻的数字之外，我的文献综述显示，做过一般网络性能感知的真正的学术文真的很少。

令人失望的是，从科学的角度来看，我们对网络性能了解不多。WPO统计数据可能包含许多引人注目的案例研究。但是这背后的详细数据（如果有的话）很少共享。而且他们通常关注性能的改进如何推动销售，而不去回答用户是否觉得快的基本问题。此外，当性能改进不会导致销售或流量增加时，他们不会成为案例研究或者让人们能自豪的声明，这导致了对这种性质的行业故事的自我选择偏见。

对于文献中这些令人失望的研究，我的反应是，作为Wikimedia性能团队中的一员，开始在维基百科上写自己真正原创的研究。第一个结果将于明年初公布，我鼓励网络性能社区也这样做，缺乏学术是一个可以解决的问题，任何人都可以进行原创性研究，并将数据与研究结果一起发布，所以我们都可以在了解人们如何真正感知性能上共同进步，也许我们能够根据有科学支持的数字提出新的方向。

照片来源：Doc Searls，Tulane Public Relations CC-BY-SA 2.0

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2018.5.md

2018.5.md

【译】魔幻的数字

从引文追踪中得出

在你做真正的学术时发生了什么？

基于坐在大厅的学生证明人类的普遍事实

一切都很糟糕，现在呢？

Files

2018.5.md

Latest commit

History

2018.5.md

File metadata and controls

【译】魔幻的数字

从引文追踪中得出

在你做真正的学术时发生了什么？

基于坐在大厅的学生证明人类的普遍事实

一切都很糟糕，现在呢？