李飞飞力赞论文:描述视频密集事件新模型 !(附论文)

前几日李飞飞发了一条推文:

 

推文内容:

大意为:我的学生最近的论文被TechCrunch网站选为“计算机视觉最前沿的十篇论文”之一,我真是为它们感到骄傲。继Imagenet后,计算机视觉仍然在不断突破我们的想象力。

既然是大神李飞飞的得意门生,必是值得一读的大作。其实这篇论文早在今年5月就已公布,不少知乎网友也纷纷给出了自己的解读。在这篇文章中,第一部分为论文的摘要及引言翻译,第二部分为解读(不代表本文观点),希望对你有所帮助。

若需参看原文,请查阅文末链接。

摘要

大多数视频都包含着大量事件。举例来说,在一段钢琴演奏视频中,可能不仅仅包含钢琴演奏者,还可能包含着跳舞的人,或者鼓掌的观众。本论文提出了密集事件描述任务——检测和描述视频中的事件。作者提出了一个新模型,它可以识别出视频某一通道中的所有事件,同时还能用自然语言描述检测出的事件。

我们的模型介绍了一个与已有方法不同的描述模块,它可以捕捉到发生时间为几分钟到几十分钟的事件。为了捕捉视频中不同事件间的关系,该模型引入了一种新的描述模块(captioning module),该模块可以结合从过去和未来事件中得出的上下文信息,用它们来描述所有事件。作者还提出了ActivityNet Captions,这是一个用于密集事件描述任务的大型基准测试数据集。这个数据集包含了2万个视频(共长达849小时)以及10万条带有开始和结束时间的描述信息。最后,作者报告了该模型在密集事件描述、视频检索和定位任务中的性能。

图1:密集事件描述任务要求模型检测和使用自然语言描述视频中发生的每个事件。这些事件有各自的开始时间和结束时间,因此事件可能同时发生,在时间上发生重叠。

引言

利用大型的活动数据集,模型可以将视频中的事件分类为一系列互不关联的行为类别。例如,在图1中,此类模型会输出“弹钢琴”或“跳舞”这样的标签。尽管这些方法取了很好的结果,但是它们有一个重要的局限:细节。

为了解决现有行为检测模型的细节缺失问题,论文作者通过试验探讨了如何使用语句描述解释视频含义。例如,在图1中,模型可能会集中注意在人群前弹奏钢琴的老人。虽然模型可以通过描述告诉我们是谁在谈钢琴以及现场有一群观众在观看表演,但是它未能识别并描述出视频中的所有其他事件。例如,在视频中的某一点,一位女士开始跟着演奏者一起唱起歌来,之后一名男士开始伴着音乐跳起舞来。为了让模型能识别并以自然语言描述视频中的所有事件,作者提出了密集事件描述任务,这种任务要求模型根据视频中发生的多个事件生成一系列描述,并在视频中对这些事件进行时间上的定位。

密集事件描述任务类似于密集图像描述任务。不同之处在于:前者要求模型对视频中的事件进行描述和时间上的定位,而后者则要求模型对图像区块(regions)进行描述和空间上的定位;处理这两种任务时需要解决的问题不同。视频中的事件可能发生于多个时域内,不同的事件可能会重叠在一起。

在视频中,钢琴演奏这个事件可能从头到尾都在发生,但是观众鼓掌这个事件只发生了十几秒。为了捕捉到所有事件,我们需要对长视频序列和短视频序列进行编码,来对事件进行描述。以往的方法使用均值池化法或循环神经网络(RNN)对整个视频序列进行编码,从而绕过了这个问题。在处理短视频时此类方法很好用,但是如果对长达几分钟或几十分钟的长视频序列进行编码,就会出现梯度消失的问题,从而导致无法成功地训练模型。为了克服这个局限,作者将 action proposals生成上的近期研究成果应用到了多时域事件检测任务中。另外,作者引入的模块在前向通道中处理每个视频,这样模型就可以在事件发生的同时对其进行检测。

该论文还发现:视频中的各事件之间往往存在联系。在图1中,观众鼓掌的原因是因为演奏者表演了钢琴弹奏。因此。模型必须能够利用从前后事件中得出的上下文信息,来捕捉每个时间。最近发表的一份论文试图通过多个语句来描述视频中的事件;但是论文中使用的是“烹饪”教学视频,视频中的事件和物体之间存在很高的关联性,而且事件有一定的发生顺序。

作者证明了他们的模型并不能适用于“开放”时域(“open” domain)视频,这此类视频中,事件的发生是由行为主导的,而且不同事件可能会重叠在一起。作者提出了一种描述模块,该模块可以使用action proposal模块中所有事件的上下文信息,为每个事件生成描述语句。另外,作者还给出了一个描述模块(captioning module)的变体,这个变体可以只根据前面发生的事件,对流视频(streaming video)中的事件生成描述。本论文中的模型参考前面和后面发生的事件,证明了使用上下文信息的重要性。

为了评估模型在密集事件描述任务中的性能以及基准的提高程度,我们引入了ActivityNet Captions数据集。ActivityNet Captions包含20000个采集自ActivityNet的视频,每个视频包含一系列时序定位的描述语句。为了验证模型对长视频序列的检测,数据集中包含有长达10分钟的视频,每个视频平均标记有3.65个语句。这些语句描述的是可能同时发生并导致视频片段重叠的事件。虽然本论文使用的是关于人类活动的视频,但是描述可能会涉及非人为事件,例如:两个小时后,材料一块美味的蛋糕。作者使用众筹(crowdsourcing)的方式收集描述,在这个过程中发现时序事件视频片段之间存在高度的一致性。这一发现验证了一些研究的结论:大脑活动会被本能地转化为在语义上有意义的事件。

借助ActivityNet Captions,我们率先在密集事件描述任务中得出结果。我们结合使用了proposal模块和在线描述模块,证明了我们可以检测和描述长视频或流视频中的事件。而且,我们证明了我们能够检测出长视频序列和短视频序列中的事件。另外,我们还证明了使用从其他事件中得出的上下文信息可以提升模型在密集事件描述任务中的性能。最后,我们证明了ActivityNet Captions可以被用于研究视频检索和事件定位。

论文地址:
http://openaccess.thecvf.com/content_ICCV_2017/papers/Krishna_Dense-Captioning_Events_in_ICCV_2017_paper.pdf

关于这篇论文,营长就不做过多解析了,以下是知乎上两位同学的分析,供参考。

原文地址:
https://www.zhihu.com/question/59639334/answer/167555411

知乎答主:米特兰

整个框架主要分成两部分:proposal module和captioning module。

模型如下:

1.给定视频,生成特征序列。实验中以16帧为单位,输入C3D提取特征。

2.proposal module。proposal module是在DAPs的基础上做了一点修改,即在每一个time step输出K个proposals。采用LSTM结构,输入上述C3D特征序列,用不同的strides提取特征序列,strides={1,2,4,8}。生成的proposal在时间上会有重叠。每检测出一个event,就将当前的隐藏层状态作为视频描述。

3.captioning module。利用相邻事件的context来生成event caption。采用LSTM结构。

将所有的事件相对于当前事件分成两个桶:past events和future events。并发事件则依据结束时间分成past events和future events。计算公式如原文,不在此列出。

4.损失函数由两部分组成:

都采用cross-entropy。

5.实验:baseline:LSTM-YT、S2VT、H-RNN、full model和online model。其中full model是本文中模型,online model是在full model中只采用past events,而不采用future events。

6.评估:分别对proposal module和captioning module进行评估。

proposal model:recall,依赖两个条件:

  1. the number of proposals and 
  2. the IoU with ground truth events。同时也测试不同的strides在event localization中的效果。

captioning module:采用video retrieval。即给定视频不同部分的描述,在测试集中检测出正确的视频。

本文模型解决的问题:

  • 视频长短不一致。
  • 事件之间的相互联系。

我认为本文的主要贡献有以下几点:

  • 提出proposals module+captioning module,只处理一次视频就能同时生成short和long event。
  • 利用neighboring events的context生成current event caption。
  • 提出ActivityNet Captioning数据集

知乎答主:杨科

framework大致是:action segmentation proposal + video caption,首先做行为片段(或者说segmentation of interest吧)proposal,然后在proposal上做video caption;其中action segmentation proposal用的是eccv16的DAPs【1】。

【1】2016-eccv-DAPs Deep Action Proposals for Action Understanding

关于video caption,诸位可以去看知友@林天威最近的专栏文章(天威的专栏干货满满,做video相关的研究可以关注一下)

Video Analysis 相关领域介绍之Video Captioning(视频to文字描述)
https://zhuanlan.zhihu.com/p/26730181

我感觉最大的贡献是提出了这个dense video caption 的数据集(或者说task)吧,算法只是做一个baseline而已,(数据集在ActivityNet上加上了caption 的标注,ActivityNet是当前最火的行为识别/检测challenge的视频数据集)。

原文发布时间为:2017-11-11

本文作者:Ranjay Krishna, Kenji Hata,Frederic Ren, Li Fei-Fei, Juan Carlos 

本文来自合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

时间: 2024-02-14 03:56:03

李飞飞力赞论文:描述视频密集事件新模型 !(附论文)的相关文章

从“无“到“有”到“退役”,李飞飞与ImageNet的八年“不解情缘”

雷锋网(公众号:雷锋网)AI科技评论按:2017年是ImageNet挑战赛举办的最后一年,夏威夷当地时间7月26日,作为ImageNet创始人之一的李飞飞和他的学生邓嘉在CVPR 2017期间的一场workshop上做了主题演讲,他们对ImageNet 八年来所走的路做了深情回顾和总结.以下是雷锋网编辑整理. ImageNet创办至今共举办八届挑战赛,从最初的算法对物体进行识别的准确率只有71.8%上升到现在的97.3%,识别错误率已经远远低于人类的5.1%. 尽管ImageNet挑战赛已结束了

本次CVPR上,李飞飞团队都中了哪8篇论文? | CVPR 2017

CVPR是IEEE一年一度的计算机视觉与模式识别技术会议,也是计算机视觉的世界三大顶会之一.2017年的CVPR会议将于7月21日到26日于夏威夷Convention中心召开,雷锋网将赴前线做覆盖与报道. 李飞飞就职于斯坦福大学计算机科学系,目前为斯坦福大学人工智能实验室.斯坦福视觉实验室.丰田汽车-斯坦福人工智能研究中心负责人,同时也是Google云端人工智能暨机器学习首席科学家. 本次CVPR上,李飞飞团队共有8篇论文成功入选,以下是CVPR 2017 Li Fei Fei作为作者的论文摘要

李飞飞获全球最权威女性领导力奖 Athena Award,讲述推动AI多元化三大原因(视频)

新智元AI World 2017世界人工智能大会开场视频 斯坦福大学人工智能实验室主任.谷歌云首席科学家李飞飞日前获得全球最权威的女性领导力奖项 Athena Award. 李飞飞教授在个人推特上转发了这一消息,并表示:I'm honored & humbled. It's an exciting time for technology, &an important time for more women &diversity to participate in &lead

李飞飞北京演讲:AI会改变世界,改变AI的又会是谁?

雷锋网(公众号:雷锋网)按:2017年1月15日,李飞飞教授出席未来论坛2017年会暨首届未来科学颁奖典礼,发表名为<视觉智能的探索> (The  Quest  for  Visual  Intelligent)演讲.李飞飞教授分别从四个视角讲述了她眼里的AI,提到她加入谷歌后从事的几项工作,并致力于推动AI的多样性发展.雷锋网根据其现场演讲整理成本文,由宗仁和亚萌共同编辑. 大家下午好!我非常荣幸看到在这个历史性时刻,中国正在庆祝它在科学和创新领域的进步.今天我来到这边是作为人工智能的学术圈

李飞飞:物体识别之后,计算机视觉的进展、目标和前景何在?

9 月 26 日,机器人领域的顶级学术会议 IROS 2017 进入第二日.上午,著名华人计算机视觉专家.斯坦福副教授李飞飞,在温哥华会议中心面向全体与会专家学者作了长达一小时的专题报告. 在报告中李飞飞与大家讨论了计算机视觉的目标:丰富场景理解,以及计算机视觉与语言结合和任务驱动的计算机视觉的进展和前景.场景理解和与语言结合的计算机视觉进一步搭起了人类和计算机之间沟通的桥梁,任务驱动的计算机视觉也会在机器人领域大放异彩.李飞飞介绍的自己团队工作也丰富多样.令人振奋. 2015年,李飞飞也在同一

李飞飞团队最新跨界研究:神经任务编程NTP,让机器人具有强大泛化能力

9月26日,在温哥华举行的IROS大会上,计算机视觉专家.斯坦福AI Lab&Vision Lab主任李飞飞做了"A Quest for Visual Intelligence"的演讲,这也是李飞飞首次参加IROS这一机器人为主题的大会.值得注意的是,近日雷锋网在Arxiv发现了一篇讲述新型机器人学习框架的论文<Neural Task Programming: Learning to Generalize Across Hierarchical Tasks>,该论文

李飞飞:为什么计算机视觉对机器人如此重要?

根据Guide2Research的排名,IROS是计算机视觉领域排名第四的学术会议,前三名分别为CVPR.ICCV.ECCV.计算机视觉在机器人的发展史中起着非常重要的作用,与之相关的"感知"也正是历年IROS大会上的重要内容,随着机器人研究的发展和"越来越接近人类"这个目标的进一步深入,越来越多的学者更深刻认识到了计算机视觉对机器人整个行业发展的重要性.雷锋网认为,随着近几年深度学习在计算机视觉领域的突破,计算机视觉在机器人领域的应用也将会迎来一个新的时期,这也是

政府工作报告首现“人工智能”,AI进军国家战略层、李飞飞讲AI民主化四大战略| AI科技评论周刊

本周,国内AI圈值得关注的事情有:FPGA 2017最佳论文出炉,雷锋网对得主深鉴科技进行了专访:人工智能"进入国家战略层,AI公司最关注的是什么?AWE 2017本周在上海举办,海尔美的联手百度DuerOS,共同推出"会说话的家用电器":中国人工智能学会AIDL第二期[人工智能前沿讲习班]日前在北京中科院自动化所举行,北京大学王立威等教授参与讲课: 国外AI圈新闻有:Ian Goodfellow 离开OpenAI,重回谷歌大脑团队:Google Cloud Next' 17

李飞飞最新演讲:视觉智慧是人类和计算机合作沟通的桥梁

本文讲的是李飞飞最新演讲:视觉智慧是人类和计算机合作沟通的桥梁, 中国计算机学会 CCF 举办的中国计算机大会CNCC 2017已于10月26日在福州市海峡国际会展中心开幕.参加会议的人数众多,主会场座无虚席.雷锋网 AI 科技评论也派出记者团全程参与大会报道. 26日上午开幕式结束后,多位特邀嘉宾进行了现场演讲,主题涵盖计算机科学发展中的新技术和应用.自然语言利净额.AI如何服务于人.人工智能在信息平台的应用等等.斯坦福大学副教授.谷歌云首席科学家.机器学习界的标杆人物之一的李飞飞进行了题目为