人工智能培训

搜索

机器学习论文:视频行动变压器网络(Video Action Transformer Network)

[复制链接]
犀牛 发表于 2018-12-7 11:12:41 | 显示全部楼层 |阅读模式
犀牛 2018-12-7 11:12:41 308 0 显示全部楼层
机器学习论文:视频行动变压器网络(Video Action Transformer Network)我们介绍了Action Transformer模型,用于识别和定位视频剪辑中的人类动作。我们重新设计了一个变形金刚风格的架构来聚合我们试图分类的人的时空背景下的特征。我们通过使用高分辨率,特定于人的,类不可知的查询来表明,该模型自发地学习每个人,并从其他人的行为中获取语义上下文。此外,它的注意机制学会强调手和脸,这通常对于区分动作至关重要 - 除了盒子和类标签之外,所有这些都没有明确的监督。我们在原子视觉动作(AVA)数据集上训练和测试我们的ActionTransformer网络,以显着的优势超越现有技术 - 绝对超过7.5%(相对于40%)改进,仅使用原始RGB帧作为输入。
We introduce the Action Transformer model for recognizing and localizinghuman actions in video clips.We repurpose a Transformer-style architecture toaggregate features from the spatiotemporal context around the person whoseactions we are trying to classify.We show that by using high-resolution,person-specific, class-agnostic queries, the model spontaneously learns totrack individual people and to pick up on semantic context from the actions ofothers.Additionally its attention mechanism learns to emphasize hands andfaces, which are often crucial to discriminate an action - all without explicitsupervision other than boxes and class labels.We train and test our ActionTransformer network on the Atomic Visual Actions (AVA) dataset, outperformingthe state-of-the-art by a significant margin - more than 7.5% absolute (40%relative) improvement, using only raw RGB frames as input.机器学习论文:视频行动变压器网络(Video Action Transformer Network) a5zKyukZy5LdZ7kb.jpg
URL地址:https://arxiv.org/abs/1812.02707     ----pdf下载地址:https://arxiv.org/pdf/1812.02707    ----机器学习论文:视频行动变压器网络(Video Action Transformer Network)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 返回列表 发新帖

犀牛当前离线
新手上路

查看:308 | 回复:0

快速回复 返回顶部 返回列表