我可以使用一些关于呈现一些数据的指导。
第一个图是细胞因子 IL-10 的病例对照比较。我手动设置了 y 轴以包含 99% 的数据。

我手动设置的原因是因为案例组有一个极端异常值。

我的合作者不愿对我们的数据集执行异常值删除。我可以接受,但他们不愿意。那将是显而易见的解决方案。但是,如果我要保留所有数据而不删除这个异常值,我怎样才能以最佳方式呈现这个箱线图呢?分轴?只使用第一个图表并注意它的构建包含所有数据是否可以接受?(这个选项对我来说是不诚实的)。任何建议都会很棒。
我可以使用一些关于呈现一些数据的指导。
第一个图是细胞因子 IL-10 的病例对照比较。我手动设置了 y 轴以包含 99% 的数据。

我手动设置的原因是因为案例组有一个极端异常值。

我的合作者不愿对我们的数据集执行异常值删除。我可以接受,但他们不愿意。那将是显而易见的解决方案。但是,如果我要保留所有数据而不删除这个异常值,我怎样才能以最佳方式呈现这个箱线图呢?分轴?只使用第一个图表并注意它的构建包含所有数据是否可以接受?(这个选项对我来说是不诚实的)。任何建议都会很棒。
我想说的是,对于这样的数据,您确实需要以转换的比例显示结果。这是第一个当务之急,也是比精确如何绘制箱线图更重要的问题。
但我赞同弗兰克哈雷尔的观点,他敦促提供比最小箱线图更能提供信息的东西,即使确定了一些极值点。您有足够的空间来显示更多信息。这是许多示例之一,混合框和分位数图。与您的数据一样,有两组正在比较。

这两点我就一一说吧。
转换规模
在最简单的情况下,您的所有值都可能是正数,然后您应该首先尝试使用对数刻度。
如果您有精确的零,平方根或立方根比例仍将改善极端偏度。有些人对 log(value + constant) 感到满意,其中常量最常见的是 1,作为应对零的一种方式。
使用变换比例尺对箱线图的影响是微妙的。
如果您使用常见的 Tukey 约定单独显示超过上四分位数 + 1.5 IQR 或下四分位数 - 1.5 IQR 的所有点,那么可以说这些限制应该在转换后的比例上计算。这与在原始尺度上计算这些限制然后进行转换不同。
相反,我会支持似乎仍然是为胡须末端选择分位数的少数惯例。其几个优点之一是分位数的变换 = 变换的分位数,在大多数情况下至少对于图形目的来说足够接近。(小字体是通过相邻顺序统计之间的线性插值计算分位数时。)
Cleveland (1985) 相当突出地提出了这种分位数约定。作为记录,由(例如)Matthews(1936)和 Grove(1956)在地理和气候学中使用了增强的箱线图,箱线图到四分位数,更薄的箱线到外八分位数(12.5% 和 87.5% 点)和数据条形图,根据名称“色散图”。
不仅仅是箱线图
Tukey 在 1970 年左右重新发明了箱形图,并在他 1977 年的书中得到了最明显的推广。他的大部分目的是促进可以在非正式探索中使用钢笔和纸快速绘制的图形。他还提出了识别可能异常值的方法。这很好,但现在我们都可以使用计算机,绘制图表显示(如果不是所有数据,那么至少是更多细节)并不难。箱线图的总结作用很有价值,但图表也可以显示精细的结构,以防万一它有趣或重要。(研究人员认为无趣或不重要的东西可能对他们的读者更有吸引力。)
在我看来,关于什么是最有效的,有很大的礼貌分歧的空间,但光秃秃的箱形地块已经相当超卖了。
Stata 用户可以在此 Statalist 帖子中找到有关绘制该图形的程序的更多信息。其他软件的用户在画出同样好或更好的东西时应该没有困难(否则为什么要使用该软件?)。
克利夫兰,WS 1985。图形数据的元素。 加利福尼亚州蒙特雷:沃兹沃思。
Grove, AT 1956。尼日利亚的土壤侵蚀。在 Steel, RW 和 Fisher, CA (Eds) 关于英国热带土地的地理论文。 伦敦:乔治菲利普,79-111。
Matthews, HA 1936。一些熟悉的印度降雨的新观点。 苏格兰地理杂志52:84-97。
Tukey, JW 1977。探索性数据分析。马萨诸塞州雷丁:Addison-Wesley。
不要从尼克的出色回答中拿走任何东西,我认为这非常值得一试和赞成 - 但我想探索一些可能性。
由于数据在几个数量级上存在如此严重的偏差,在对数尺度上绘制通常很有启发性;请注意,您仍然可以在原始值中有刻度线和刻度线标签。(我同意尼克关于转换的观点,所以我不会进一步扩展。)
除了转换之外的另一种选择是执行类似于您的第一个图的操作,但包括未绘制的所有值的指示(因此它具有完整图的所有信息,但更好地显示数据的主要部分):
 
这样你就不会删除异常值,只是以不同的方式显示它们。
但是,我会加入 Frank 和 Nick 的建议,建议使用比普通箱线图更具信息性的显示 - 在 Nick 的帖子中,箱线图与分位数图的组合似乎是一个特别好的概念,尽管有人可能会轻轻地将分位数图绘制在上方(或下方) ,如这里)相应的框而不是它旁边:
 
如果您不做类似的事情(例如,只使用普通的箱线图),我建议您使用更窄的框。
我更喜欢扩展箱线图或小提琴图,因为它们包含更多信息。我将扩展箱线图缩放到组合样本的 0.01 和 0.99 分位数。有关详细信息,请参阅https://hbiostat.org/doc/graphscourse.pdf。