久冉科技

财经资讯

谷歌的Snorkel DryBell是企业数据管理的未来吗?

时间:2021-01-07 12:48 阅读:

  对于清理企业数据并将其集成以使其更有用的软件工具来说,总是有一个丰富的市场。有了“数据就是新油”的口号,从甲骨文到塔伦德,大大小小的销售商比以往任何时候都有更好的销售渠道。

  

谷歌的Snorkel DryBell是企业数据管理的未来吗?

  但如果什么都不需要清理呢?如果从某种意义上说,数据中最有价值的部分可以转移到机器学习模型中,而不改变数据本身,那该怎么办?

  谷歌人工智能团队周四与布朗大学(Brown University)和斯坦福大学(Stanford University)合作推出的一项新技术暗示了这一概念。

  这段代码的名字“DryBell”有点笨拙,它建立在现有的Snukel软件之上,这是一个开源项目,是在斯坦福大学开发的。浮潜可以自动为数据分配标签,这是一种对数据中的内容的分类,从内容存储库到进入数据中心的实时信号。

  

谷歌的Snorkel DryBell是企业数据管理的未来吗?

  这项工作指出,有许多数据不能在防火墙之外使用,但仍然可以用来训练深度学习。谷歌称,这被称为“不可服务”数据,“就像每月的汇总统计数据”或“昂贵的内部模型”。他们认为,所有这些都应该能够被利用,使机器学习变得更好。

  隐含地提出的问题是,是否有任何数据需要清理。相反,它可以简单地成为建筑机器学习管道的一部分,而不需要修改。所需要的只是将基本的Snokel功能工业化,这样它就可以处理更多样化的数据源,并且规模更大,适合企业设置。

  斯坦福大学计算机科学系博士生亚历克斯·拉特纳(Alex Ratner)和谷歌人工智能(Google AI)的卡珊德拉·夏(Cassandra Xia)的博客文章解释了这项工作。还有一篇题为《德国之声:在工业规模部署薄弱监管的案例研究》的论文,其中斯蒂芬·巴赫是主要作者,发表在ar Xiv预印服务器上。

  浮潜方法很容易理解。在传统的机器学习监督学习版本中,输入机器学习系统的数据必须由主题专家标记。人工制作的标签是机器如何学会对数据进行分类的。这对人类来说很费时。

  而是让一组主题专家编写函数,自动为数据分配标签。一个生成神经网络,然后比较多个函数为同一数据生成的标签,这种投票结果导致概率被分配到哪些标签可能是真的。然后使用这些数据及其概率标签来训练逻辑回归模型,而不是使用手工标记的数据。这种方法被称为“弱监督”,与传统的监督机器学习相反。

  谷歌-斯坦福-布朗团队对浮潜进行调整,以更大规模地处理数据。换句话说,斯诺克尔德雷尔就是斯诺克尔的工业化。

  首先,他们改变了DryBell生成神经网络中使用的优化函数,而不是Snukel使用的优化函数。结果是计算标签的速度是他们所写的斯诺克公司通常提供的速度的两倍。

  虽然浮潜打算在一个计算节点上运行,但团队将DryBell与Map Reduce分布式计算方法集成在一起。这使得DryBell能够以“松散耦合”的方式运行在许多计算机上。

  有了这种工业化,团队能够向深度学习系统提供更弱的标记数据,他们写的结果表明,薄弱的监督击败了传统的监督学习,使用手工制作的标签-直到某一点。

  例如,在“主题分类”这一测试任务中,计算机必须在企业内容中“检测到感兴趣的主题”,它们“对”684000个未标记数据点“的逻辑回归模型进行了弱监督”。

  “我们发现,”他们写道,“需要大约80,000个手工标记的例子来匹配弱监督分类器的预测精度。”

  在这一切中,最关键的是不可服务的数据,凌乱的,嘈杂的东西,但在一个组织内是非常有价值的。当他们做了一项“消融”研究时,他们删除了无法提供的训练数据片段,结果并不理想。

  包含不可服务数据的结果是一种“转移学习”。转移学习是一种常见的机器学习方法,机器是在一堆数据上进行训练的,然后能够将其识别推广到来自不同来源的类似数据。

  正如作者所写,“这种方法可以看作是一种新型的转移学习,我们不是在不同的数据集之间转移模型,而是在不同的特征集之间转移域知识。”

  以这种方式传输的好处是获取困在企业中的数据,并赋予它新的效用。他们写道,这是“监管不力的主要实际优势之一,就像在斯诺克尔·德雷贝尔(Snukel DryBell)实施的监管方式一样。”

  然后,想象一下新的企业数据管理任务:在C中编写一些标记函数,基于领域专家的最佳猜测,并利用这些标记函数的输出来训练神经网络,然后继续前进。不再花费亿元清理或规范数据,也不再购买为此所需的专门工具。

  他们写道:“我们发现,标签功能抽象是用户友好的,也就是说,组织中的开发人员可以编写新的标签功能来获取领域知识。

  此外,将标签加以统计的生成模型成为企业数据质量的一种仲裁者,在这个过程中,他们称之为“关键”。

  “确定每个源的质量或效用,并相应地调整它们的组合,本身就是一项艰巨的工程任务,”他们观察到。

  ”使用斯诺克尔·德莱贝尔,这些薄弱的监督信号可以简单地集成为标签功能,由此产生的估计准确性被发现对识别以前未知的低质量来源(后来被确认为此类来源,或者被固定或移除)具有独立的有用性。

  

谷歌的Snorkel DryBell是企业数据管理的未来吗?

  从目前的工作中唯一缺少的是证据,它可以与深度学习神经网络模型一起工作。弱监督一个简单的Logistic回归模型是一回事..对于这样一个系统来说,训练非常深的卷积或递归网络将是一个有趣的下一个挑战。(请注意,斯坦福大学的拉特纳在一条推文中指出,在这篇文章之后,斯诺克尔本身确实与深层神经网络一起工作。进一步的实证研究将显示,斯诺克尔德雷贝尔推广到深层网络的效果如何。

  你认为斯诺克尔和斯诺克尔·德里贝尔能在企业数据管理中找到一席之地吗?让我知道你在评论部分的想法。