2. Related WorksCapturing motion an

2. Related WorksCapturing motion and temporal information has been studied for activity recognition. Early, hand-crafted approachessuch as dense trajectories [24] captured motion informationby tracking points through time. Many algorithms have beendeveloped to compute optical flow as a way to capture motion in video [8]. Other works have explored learning theordering of frames to summarize a video in a single ‘dynamicimage’ used for activity recognition [1].Convolutional neural networks (CNNs) have been appliedto activity recognition. Initial approaches explored methodsto combine temporal information based on pooling or temporal convolution [12, 17]. Other works have explored usingattention to capture sub-events of activities [18]. Two-streamnetworks have been very popular: they take input of a singleRGB frame (captures appearance information) and a stackof optical flow frames (captures motion information). Often,the two network streams of the model are separately trainedand the final predictions are averaged together [20]. Therewere other two-stream CNN works exploring different waysto ‘fuse’ or combine the motion CNN with the appearanceCNN [7, 6]. There were also large 3D XYT CNNs learning spatio-temporal patterns [26, 3], enabled by large videodatasets such as Kinetics [13]. However, these approachesstill rely on optical flow input to maximize their accuracies.

0/5000

源语言: -

目标语言: -

结果 (简体中文) 1: [复制]

复制成功！

2.相关工作 已经研究了捕获运动和时间信息以进行活动识别。早期的手工方法， 例如密集的轨迹[24]，是 通过跟踪时间点来捕获运动信息的。已经 开发了许多算法来计算光流，以捕获视频中的运动[8]。其他工作也探索了学习 帧的顺序以将视频总结 为用于活动识别的单个“动态图像” [1]。 卷积神经网络（CNN）已应用于 活动识别。最初的方法探索了 基于池化或时间卷积来组合时间信息的方法[12，17]。其他作品也探索了使用 注意捕捉活动的子事件[18]。两流 网络非常流行：它们接受单个 RGB帧（捕获外观信息）和一堆 光流帧（捕获运动信息）的输入。通常， 分别训练模型的两个网络流， 并将最终的预测结果平均在一起[20]。还有 其他两阶段的CNN作品，探索 了“融合”或将运动CNN与 CNN外观结合的不同方法[7，6]。也有大型3D XYT CNN学习时空模式[26，3]，并通过 诸如Kinetics [13]之类的大型视频数据集启用。但是，这些方法 仍然依赖于光流输入来最大化其准确性。

正在翻译中..

结果 (简体中文) 2:[复制]

复制成功！

2. 相关作品 已研究捕获运动和时间信息以进行活动识别。早期手工制作的方法 如密集轨迹 [24] 捕获的运动信息 通过时间跟踪点。许多算法已经 开发以计算光流作为捕获视频[8]运动的方法。其他工作已经探索学习 订购帧以单个"动态"中总结视频 图像'用于活动识别[1]。 已应用卷积神经网络（CNN） 活动识别。探索方法的初始方法 结合基于汇总或时间组合的时间信息 [12， 17] 。其他作品已探索使用 注意捕捉活动的子事件[18]。双流 网络一直很受欢迎：他们采取一个单一的输入 RGB 框架（捕获外观信息）和堆栈 光流帧（捕获运动信息）。经常 模型的两个网络流分别经过培训 最后的预测平均在一起[20]。那里 是其他双流CNN作品探索不同的方式 "融合" 或将运动 Cnn 与外观相结合 CNN [7， 6] 。也有大型 3D XYT CNN 学习时空模式 [26， 3]，由大型视频启用 数据集，如动能[13]。但是，这些方法 仍然依赖于光流输入，以最大限度地提高其利用率。

正在翻译中..

结果 (简体中文) 3:[复制]

复制成功！

2相关工程 捕捉运动和时间信息已被研究用于活动识别。早期手工制作的方法 例如密集轨迹[24]捕捉到的运动信息 通过追踪时间点。许多算法已经被提出 开发用于计算光流，作为捕获视频中运动的一种方法[8]。其他作品也探讨了学习 对帧进行排序，以在单个“动态”窗口中汇总视频 图像'用于活动识别[1]。 卷积神经网络（CNNs）已经得到应用 活动识别。初步探索方法 结合基于池或时间卷积的时间信息[12，17]。其他作品也探讨了使用 注意捕捉活动的子事件[18]。双流 网络已经非常流行：他们只接受一个 RGB帧（捕获外观信息）和堆栈 光流帧（捕捉运动信息）。经常， 该模型的两个网络流分别进行训练 最后的预测是平均的。在那里 CNN的另外两部作品在探索不同的方法吗 “融合”或将运动与外观结合起来 CNN[7，6]。也有大型3D XYT CNN学习时空模式[26，3]，通过大型视频实现 动力学等数据集[13]。然而，这些方法 仍然依赖光流输入，以最大限度地提高其精度。

正在翻译中..

其它语言

本翻译工具支持: 世界语, 丹麦语, 乌克兰语, 乌兹别克语, 乌尔都语, 亚美尼亚语, 伊博语, 俄语, 保加利亚语, 信德语, 修纳语, 僧伽罗语, 克林贡语, 克罗地亚语, 冰岛语, 加利西亚语, 加泰罗尼亚语, 匈牙利语, 南非祖鲁语, 南非科萨语, 卡纳达语, 卢旺达语, 卢森堡语, 印地语, 印尼巽他语, 印尼爪哇语, 印尼语, 古吉拉特语, 吉尔吉斯语, 哈萨克语, 土库曼语, 土耳其语, 塔吉克语, 塞尔维亚语, 塞索托语, 夏威夷语, 奥利亚语, 威尔士语, 孟加拉语, 宿务语, 尼泊尔语, 巴斯克语, 布尔语(南非荷兰语), 希伯来语, 希腊语, 库尔德语, 弗里西语, 德语, 意大利语, 意第绪语, 拉丁语, 拉脱维亚语, 挪威语, 捷克语, 斯洛伐克语, 斯洛文尼亚语, 斯瓦希里语, 旁遮普语, 日语, 普什图语, 格鲁吉亚语, 毛利语, 法语, 波兰语, 波斯尼亚语, 波斯语, 泰卢固语, 泰米尔语, 泰语, 海地克里奥尔语, 爱尔兰语, 爱沙尼亚语, 瑞典语, 白俄罗斯语, 科西嘉语, 立陶宛语, 简体中文, 索马里语, 繁体中文, 约鲁巴语, 维吾尔语, 缅甸语, 罗马尼亚语, 老挝语, 自动识别, 芬兰语, 苏格兰盖尔语, 苗语, 英语, 荷兰语, 菲律宾语, 萨摩亚语, 葡萄牙语, 蒙古语, 西班牙语, 豪萨语, 越南语, 阿塞拜疆语, 阿姆哈拉语, 阿尔巴尼亚语, 阿拉伯语, 鞑靼语, 韩语, 马其顿语, 马尔加什语, 马拉地语, 马拉雅拉姆语, 马来语, 马耳他语, 高棉语, 齐切瓦语, 等语言的翻译.