We have proposed Light-OPU, an FPGA

We have proposed Light-OPU, an FPGA-based overlay processorto accelerate a variety of lightweight CNNs (LW-CNNs). LightOPU performs two levels of optimization: (1) Software-level network reformulation, including layer grouping, operation fusionand operation reordering, eliminates redundant memory accessand reduces number of operations in LW-CNN; (2) Hardware-levelmicro-architecture is specifically designed for LW-CNN operations.Meanwhile, the micro-architecture can be used for conventionalconvolutional layer computation since it keeps all hardware features such as those from [36] for conventional CNNs. The flexibleacceleration engine guarantees high run-time resource efficiency,and thereby leads to low latency and high power efficiency. LightOPU achieves 5.5× better latency and 3.0× better power efficiencycompared with edge computing targeted GPU Jetson TX2, and obtains 1.39× to 8× better throughput per DSP and 5× to 8.4× betterpower efficiency compared with recent FPGA accelerators for LWCNNs. Moreover, Light-OPU is fully software programmable, andno FPGA reconfiguration is required for network and applicationswitches. In contrast, existing FPGA accelerators are all designedfor specific LW-CNNs.

0/5000

源语言: -

目标语言: -

结果 (简体中文) 1: [复制]

复制成功！

我们提出了 Light-OPU，这是一种基于 FPGA 的叠加处理器， 用于加速各种轻量级 CNN (LW-CNN)。Light?OPU 执行两级优化： (1) 软件级网络重构，包括层分组、操作融合 和操作重新排序，消除冗余内存访问 并减少 LW-CNN 中的操作次数；(2) 硬件级 微架构专门为 LW-CNN 操作而设计。 同时，微架构可用于传统的 卷积层计算，因为它保留了所有硬件功能，例如 [36] 中用于传统 CNN 的那些。灵活的 加速引擎保证了高运行时资源效率， 从而导致低延迟和高功率效率。 与面向边缘计算的 GPU Jetson TX2 相比，Light OPU 实现了 5.5 倍的延迟和 3.0 倍的电源效率，并且每个 DSP 的吞吐量提高了 1.39 到 8 倍， 电源效率提高了5 到 8.4 倍使用最近用于 LW???CNN 的 FPGA 加速器。此外，Light-OPU 是完全软件可编程的， 网络和应用 交换机不需要重新配置 FPGA 。相比之下，现有的 FPGA 加速器都是 为特定的 LW-CNN设计的。

正在翻译中..

结果 (简体中文) 2:[复制]

复制成功！

我们提出了Light OPU，一种基于FPGA的覆盖处理器 加速各种轻型CNN（LW CNN）。光OPU执行两级优化：（1）软件级网络工作重组，包括层分组、操作融合 和操作重新排序，消除了冗余内存访问 减少LW-CNN中的操作数量；（2）硬件级 微结构是专门为LW-CNN操作设计的。 同时，该微体系结构可用于常规工艺 卷积层计算，因为它保留了所有硬件例如[36]中针对传统CNN的那些。柔韧的 加速引擎保证了高运行时资源效率， 从而导致低延迟和高功率效率。光OPU的延迟提高了5.5倍，功率效率提高了3.0倍 与边缘计算目标GPU Jetson TX2和ob相比每个DSP的吞吐量提高1.39倍至8倍，提高5倍至8.4倍 与用于LW的最新FPGA加速器相比的功率效率CNNs。此外，Light OPU是完全软件可编程的 网络和应用不需要FPGA重新配置 开关。相比之下，现有的FPGA加速器都是经过设计的 对于特定的LW CNN。

正在翻译中..

结果 (简体中文) 3:[复制]

复制成功！

我们已经提出了光OPU，一个基于现场可编程门阵列的覆盖处理器加速生产各种轻质氯化萘。light——OPU执行两级优化:(1)软件级网络重构，包括层分组、操作融合和操作重新排序，消除了冗余的存储器访问并减少在LW-CNN的操作次数；(2)硬件级微架构是专门为LW-CNN运营而设计的。同时，微体系结构可用于常规卷积层计算，因为它保留了所有的硬件特征，如传统中枢神经系统的[36]中的特征。灵活的加速引擎保证了高运行时资源效率，从而导致低延迟和高功率效率。光OPU实现了5.5倍的延迟和3.0倍的能效与面向边缘计算的GPU Jetson TX2相比，ob的每DSP吞吐量提高了1.39倍至8倍，性能提高了5倍至8.4倍与最近用于长波中枢神经系统的现场可编程门阵列加速器相比的功率效率。此外，光OPU是完全软件可编程的，并且网络和应用不需要现场可编程门阵列重新配置开关。相比之下，现有的FPGA加速器都是设计出来的对于特定的氯化萘。

正在翻译中..

其它语言

本翻译工具支持: 世界语, 丹麦语, 乌克兰语, 乌兹别克语, 乌尔都语, 亚美尼亚语, 伊博语, 俄语, 保加利亚语, 信德语, 修纳语, 僧伽罗语, 克林贡语, 克罗地亚语, 冰岛语, 加利西亚语, 加泰罗尼亚语, 匈牙利语, 南非祖鲁语, 南非科萨语, 卡纳达语, 卢旺达语, 卢森堡语, 印地语, 印尼巽他语, 印尼爪哇语, 印尼语, 古吉拉特语, 吉尔吉斯语, 哈萨克语, 土库曼语, 土耳其语, 塔吉克语, 塞尔维亚语, 塞索托语, 夏威夷语, 奥利亚语, 威尔士语, 孟加拉语, 宿务语, 尼泊尔语, 巴斯克语, 布尔语(南非荷兰语), 希伯来语, 希腊语, 库尔德语, 弗里西语, 德语, 意大利语, 意第绪语, 拉丁语, 拉脱维亚语, 挪威语, 捷克语, 斯洛伐克语, 斯洛文尼亚语, 斯瓦希里语, 旁遮普语, 日语, 普什图语, 格鲁吉亚语, 毛利语, 法语, 波兰语, 波斯尼亚语, 波斯语, 泰卢固语, 泰米尔语, 泰语, 海地克里奥尔语, 爱尔兰语, 爱沙尼亚语, 瑞典语, 白俄罗斯语, 科西嘉语, 立陶宛语, 简体中文, 索马里语, 繁体中文, 约鲁巴语, 维吾尔语, 缅甸语, 罗马尼亚语, 老挝语, 自动识别, 芬兰语, 苏格兰盖尔语, 苗语, 英语, 荷兰语, 菲律宾语, 萨摩亚语, 葡萄牙语, 蒙古语, 西班牙语, 豪萨语, 越南语, 阿塞拜疆语, 阿姆哈拉语, 阿尔巴尼亚语, 阿拉伯语, 鞑靼语, 韩语, 马其顿语, 马尔加什语, 马拉地语, 马拉雅拉姆语, 马来语, 马耳他语, 高棉语, 齐切瓦语, 等语言的翻译.