快讯

Facebook 开源数据增强库：可令 AI 精准识别盗版图

时间：2021-07-18 17:57 阅读：

　　 7月18日消息，只要稍微动点手脚，就会给AI模型的鲁棒性带来挑战。在AI眼里，下面这两张图片可能毫无关联。不过，FacebookAI在近日开源了用于数据增强的新Python库——AugLy。使用AugLy数据增强训练AI模型，训练后AI可以对用户上传的内容，进行更精确的识别，有助于识别盗版图文音视频。它支持音频、图像、视频和文本4种模态，提供了超过100种数据增强功能，可以对输入内容进行多种处理。比如，改变文字的大小写、字体、编码方式，给文本添加标点、调整字母位置、模拟错别字，以及裁剪、旋转图片，给图片加文字、增加饱和度、增加亮度、改变清晰度等。这一项目已经获得1.8k颗星，并且登上了GitHub热榜。让AI识别「截屏转发」AugLy的目的是涵盖现实网络中具体的数据增强，用来创建样本，从而训练和测试模型。根据Facebook和Instagram等平台上的生活图像和视频，AugLy在统一的库和API下转换项目的所有数据，提供了超过100种数据增强方式。其中包括4个子库，分别对应音频、图像、视频和文本4种模态。这些子库包括基于函数和类的变换、组合，并且可以选择所应用的元数据及其强度。以图片处理为例，AugLy可以对图片进行裁剪、旋转、添加噪声、模糊处理、灰度处理等。就像这样：或者图片或视频上叠加文字和emojis：除了包含许多通用的增强功能，AugLy更大的特点在于——提供“互联网用户”类型的数据增强方式。比如，把图片转换成屏幕截图的样式，更加符合生活中常见的样子。使用AugLy数据增强训练AI模型，这些内容相同而形式不同的信息，能帮助模型提高鲁棒性。在复制检测、言论检测或版权侵权等工作中，训练后AI可以对用户上传的内容，进行更精确的识别。此外，AugLy已经被用于Deepfake检测挑战赛，用来评估模型的鲁棒性。网友热议这个新的Python库也受到了网友们的关注，在Reddit上获得了350+赞。有网友提出疑问：文本模块只支持英语吗？一位热心网友表示：看起来文本模块在很大程度上是对nlpaug的一种包装，因此AugLy支持其他语言，只需修改几个参数。也有网友提出，为什么不直接把它加到pytorch里？对此，有人回复道：这样在安装的时候会很慢，有需要的的人单独安装就可以了，没必要让pytorch那么臃肿。AugLy要求Python3.6以上版本，通过pip安装，但是在虚拟环境和系统环境中，还需要用conda和sudoapt-get命令单独安装python-magic。比较遗憾的是，AugLy目前不支持输入批量图像，不过开发人员表示，以后将会完善这一功能。

上一篇：变相大放水？下周，所有目光都盯着欧洲央行
下一篇：天天盈网

久冉科技

久冉科技

快讯

Facebook 开源数据增强库：可令 AI 精准识别盗版图