对于我的学士论文,我想比较两种算法的运行时间。运行时间是通过让这些算法针对庞大输入集中的每个值运行来衡量的。该输入集可以划分为三个子集,,. 每个子集包含 40,000 个值,算法对每个值执行一次。在我的情节中,我想在 x 轴上设置输入集,在 y 轴上设置每个集的运行时间。这种数据的良好表示是什么?
我首先尝试了一个散点图,但由于一些值真的很离群,所以该图的比例将最重要的值压缩到视觉上无法区分的区域。然后我叠加了平均值的线,标准偏差的误差线:

这清楚地表明了这些异常值有多远和少。在平均值线下甚至无法识别非离群值散点值,它们本身不是很容易区分。因为这些异常值对我的评估并不重要,所以我决定将图表更改为仅显示具有标准偏差的平均值:

这些部分改善了这种情况,但为了将标准偏差拟合到图上,平均值仍然有些接近。但我觉得删除误差线既不真实,也不科学准确。此外,像这样绘制数据会使误差线低于零,这表明数据的表示不好,因为时间值低于零显然是不可能的。
如何更好地表示这样的数据?在这种情况下,显示平均值实际上是一个好主意吗?或者像中位数这样的其他特征会更好吗?或者甚至从该数据中删除构成进一步异常值的 5%?
此外,我不知道误差线的良好格式是什么,可以避免它们低于零的情况。是否有高于平均值的标准偏差和低于平均值的标准偏差,然后我可以不对称地绘制?
我都在寻找对这个特殊案例的洞察力和关于如何展示数据的资源。如果有人想自己尝试一下,我将每个数据点的前 100 个值设为可用(上面的图表是用这些制作的): http: //pastebin.com/sjdPy8Np



