现代数据可视化软件使用户可以轻松地探索大型数据集,以搜索有趣的相关性和新发现。但是这种易用性 - 只需点击几下鼠标就可以提出问题数据集的问题 - 带来了严重的缺陷:它增加了发现错误发现的可能性。
问题在于统计学家称之为“多重假设错误”。问题基本上是这样的:有人问数据集的问题越多,他们更有可能偶然发现看起来像真正发现的东西,但实际上只是数据集中的随机波动。
布朗大学的一组研究人员正在开发软件来帮助解决这个问题。本周在芝加哥召开的SIGMOD2017会议上,他们展示了一个名为QUDE的新系统,该系统为交互式数据探索系统增加了实时统计保护,以帮助减少错误发现。
“越来越多的人使用像Tableau和Spark这样的数据探索软件,但大多数用户并不是统计学或机器学习方面的专家,”布朗的计算机科学助理教授蒂姆克拉斯卡说。研究。“你可以犯很多统计错误,所以我们正在开发帮助人们避免它们的技术。”
多个假设检验错误是统计学中众所周知的问题。在大数据和交互式数据探索的时代,Kraska说,这个问题已经重新凸显出来。
“这些工具使查询数据变得如此简单,”他说。“你可以使用这些可视化工具在一小时内轻松测试100个假设。如果不纠正多个假设错误,你很可能会遇到一个完全虚假的相关性。”
有众所周知的统计技术来处理这个问题。这些技术中的大多数涉及基于总共测试了多少假设来调整验证特定假设所需的统计显着性水平。随着假设检验的数量增加,判断结果有效所需的显着性水平也会增加。
但这些修正技术几乎都是事后调整。在所有假设检验完成后,它们是在研究项目结束时使用的工具,这对于实时交互式数据探索并不理想。
“我们不想等到会议结束时告诉人们他们的结果是否有效,”布朗和研究合着者的计算机科学教授Eli Upfal说。“我们也不希望系统通过在会话中的某个时刻告诉您某些事情很重要而只是稍后告诉您 - 在您测试了更多假设之后 - 您的早期结果不再重要”。 “
使用最常见的多假设校正方法,这两种情况都是可能的。因此,研究人员为该项目开发了一种不同的方法,使他们能够在假设检验正在进行时监控错误发现的风险。
Upfal表示,“我们的预算是你可以承担多少错误的发现风险,并在用户与数据交互时实时更新预算。” “我们还考虑了用户探索数据的方式。通过了解问题的顺序,我们可以调整算法并改变分配预算的方式。”
对于用户而言,体验类似于使用任何数据可视化软件,仅使用颜色编码的反馈来提供有关统计显着性的信息。
“绿色意味着可视化代表了一个重要的发现,”Kraska说。“如果它是红色的,那就意味着要小心;这是在不稳定的统计基础上。”
研究人员表示,该系统无法保证绝对的准确性。没有系统可以。但是在使用合成数据进行的一系列用户测试中,研究人员表明系统确实减少了用户所做错误发现的数量。
研究人员认为这项工作是向数据探索和可视化系统迈出的一步,该系统完全集成了一套统计保护措施。
“我们的目标是让更广泛的用户更容易获得数据科学,”Kraska说。“解决多重假设问题很重要,但也很难做到。我们认为这篇文章是迈出良好的第一步。”