您当前的位置:首页 > 指南 > 正文

一种无偏见的筛选大数据的方法

导读: 研究人员开发了一个复杂的系统模型,仅根据现有数据中表达的最重要变量来评估一些美国城市人口的健康状况。他们无偏见的,基于网络的挖掘大...

研究人员开发了一个复杂的系统模型,仅根据现有数据中表达的最重要变量来评估一些美国城市人口的健康状况。他们无偏见的,基于网络的挖掘大数据的概率方法可用于评估其他复杂系统,例如对大学进行排名或评估海洋可持续性。

筛选大量数据以确定用于评估城市人口健康等因素的变量具有挑战性。研究人员经常根据个人经验选择这些变量。他们可能会认为成人肥胖率,死亡率和预期寿命是计算居民整体健康状况的一般指标的重要变量。但这些是最好的变量吗?还有其他更重要的考虑因素吗?

在日本和美国明尼苏达州的美国大学的约瑟夫Servadio北海道大学利玛窦韦尔蒂诺都推出了新的概率方法,它允许在变量之间的关系的可视化大数据的复杂系统。该方法基于“最大传递熵”,其概率地测量多个变量之间的关系随时间的强度。

使用此方法,Convertino和Servadio在美国挖掘了大量的健康数据,以构建“最大熵网络”(MENet):由表示健康相关变量的节点和连接变量的线组成的模型。线条越暗,两个变量之间的相互依赖性越强。这使研究人员能够通过选择与2011年至2014年美国26个城市人口健康状况最具实际相关性的变量来建立最佳信息网络(OIN)。通过结合每个选定变量的数据,研究人员能够计算每个城市的“综合健康价值”。数字越高,城市人口的健康状况就越差。

他们发现,底特律等一些城市的价值很高,表明在此期间整体健康状况不佳。其他人,如旧金山,价值低,表明更有利的健康结果。一些城市,如费城,在四年期间表现出很大的变化。横断面比较显示,加州城市的得分趋势优于该国其他地区。此外,与其他地区相比,包括丹佛,明尼阿波利斯和芝加哥在内的中西部城市表现不佳,与全国城市排名相反。

Convertino认为,这样的方法,由大型数据集提供,并通过自动随机计算机模型进行分析,可用于优化研究和实践; 例如,用于指导有关健康的最佳决策。“这些工具可以被任何国家,任何行政级别用于实时处理数据,并帮助个性化医疗工作,”Convertino说。

但它不仅仅适用于健康数据。“该模型可应用于任何复杂系统,以确定其最佳信息网络,从生态学,生物学到金融和技术领域。解开其复杂性并制定无偏见的系统指标有助于改善决策过程,”Convertino补充说。


声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,谢谢。

上一篇: 怎么在方框里填写数字 如何在方框中填写数字

下一篇: 难忘的校园生活六年级 难忘的小学生活500字六年级



推荐阅读