ilarly with different configuration

ilarly with different configurations, yet outperforms SGD. For our BMUF approach, NBM learns faster yet converges to better solu- tions than CBM. It is noted that NBM experiments with 8-32 GPUs converge to almost the same FER. In terms of testing set perfor- mance, Table 3 shows that in comparison with single-GPU SGD training, MA incurs WER degradations, while BMUF approaches achieve about 5.0% and 5.3% relative WER reductions on Eval2000 and RT03S, respectively. Again, NBM performs better than CBM. We also compare the elapsed time per sweep of data in Table 4. Ob- viously, a linear speedup is also achieved on this task.4. CONCLUSION AND DISCUSSIONFrom the above results, we conclude that the proposed BMUF ap- proach can indeed scale out deep learning on a GPU cluster with al- most linear speedup and improved or no-degradation of recognition accuracy compared with mini-batch SGD on single GPU. In addi- tion to the verified cases for DBLSTM and DNN training on LVCSR tasks, we have also verified its effectiveness up to 16 GPUs for CTC- training of DBLSTM on a handwriting OCR task using about one million training text line images. Our ongoing and future work in- clude 1) Scale out to more GPUs; 2) Evaluate our approach to CNN and other types of discriminative sequence training for D(B)LSTM and DNN; 3) Develop even better parallel training approach.

0/5000

源语言: -

目标语言: -

结果 (简体中文) 1: [复制]

复制成功！

具有不同的配置，但性能却优于SGD。对于我们的BMUF方法，与CBM相比，NBM学习速度更快，但收敛到更好的解决方案。注意，使用8-32 GPU的NBM实验收敛到几乎相同的FER。就测试集性能而言，表3表明，与单GPU SGD训练相比，MA导致WER降低，而BMUF方法分别在Eval2000和RT03S上实现了约5.0％和5.3％的相对WER降低。同样，NBM比CBM表现更好。我们还在表4中比较了每次扫描数据所花费的时间。显然，在此任务上也实现了线性加速。 4.结论与讨论 根据以上结果，我们得出结论，与单个GPU上的微型批处理SGD相比，所提出的BMUF方法确实可以在GPU集群上扩展深度学习，并且线性增长最快，并且识别精度得到改善或降低。除了经过验证的LVCSR任务的DBLSTM和DNN训练案例以外，我们还使用大约一百万个训练文本行图像验证了多达16个GPU的DBCSTM手写OCR任务的CTC训练的有效性。我们正在进行和将来的工作包括：1）扩展到更多GPU；2）评估我们针对D（B）LSTM和DNN进行CNN和其他类型的区分序列训练的方法；3）开发更好的并行培训方法。

正在翻译中..

结果 (简体中文) 2:[复制]

复制成功！

具有不同的配置，但优于 SGD。对于我们的 BMUF 方法，NBM 学习更快，但收敛到比 CBM 更好的 solu- tions。据指出，8-32 GPU的NBM实验收敛到几乎相同的FER。在测试设置的穿孔方面，表3显示，与单GPU SGD培训相比，MA产生 WER 下降，而 BMUF 方法在 Eval2000 和 RT03S 上相对 WER 减少约 5.0% 和 5.3%。同样， Nbm 的表现比 Cbm 好。我们还比较表 4 中每次扫描数据所经过的时间。显然，在这项任务中也实现了线性加速。 4. 结论和讨论 从上述结果中，我们得出结论，与单个 GPU 上的微型批号 SGD 相比，所提议的 BMUF ap-proach 确实可以在具有 al-最线性加速且识别精度改进或无下降的 GPU 群集上扩展深度学习。在DLSTM和DNN关于LVCSR任务的已验证案例的附加中，我们还验证了其有效性，多达16个GPU，用于对DBLSTM进行CTC培训，用于手写OCR任务，使用大约100万个培训文本行图像。我们正在进行的和未来的工作在 1）扩展到更多的 GPU;2）评估我们对 CNN 和 D（B）LSTM 和 DNN 的其他类型的鉴别序列培训的方法;3）开发更好的并行培训方法。

正在翻译中..

结果 (简体中文) 3:[复制]

复制成功！

我有不同的配置，但优于新元。对于我们的BMUF方法，NBM比CBM学习更快，但收敛到更好的解决方案。注意到8-32gpu的NBM实验收敛到几乎相同的FER。在测试集性能方面，表3显示，与单个GPU SGD训练相比，MA会导致WER降级，而BMUF方法在Eval2000和RT03S上分别实现约5.0%和5.3%的相对功耗降低。同样，NBM比CBM表现更好。我们还比较了表4中每次扫描数据所用的时间。显然，这项任务也实现了线性加速。 4结论与讨论 从以上结果，我们得出结论，与单GPU上的小批量SGD相比，所提出的BMUF ap-方法确实可以在GPU集群上进行深度学习，并且与在单个GPU上进行的小批量SGD相比，该方法具有最大的线性加速和提高或不降低识别精度的能力。除了已验证的关于LVCSR任务的DBLSTM和DNN培训案例外，我们还验证了其有效性，多达16个GPU用于DBLSTM手写OCR任务的CTC训练，使用了大约一百万个训练文本行图像。我们正在进行和未来的工作包括：1）扩展到更多的GPU；2）评估我们对CNN和其他类型的D（B）LSTM和DNN的判别序列训练的方法；3）开发更好的并行训练方法。

正在翻译中..

其它语言

本翻译工具支持: 世界语, 丹麦语, 乌克兰语, 乌兹别克语, 乌尔都语, 亚美尼亚语, 伊博语, 俄语, 保加利亚语, 信德语, 修纳语, 僧伽罗语, 克林贡语, 克罗地亚语, 冰岛语, 加利西亚语, 加泰罗尼亚语, 匈牙利语, 南非祖鲁语, 南非科萨语, 卡纳达语, 卢旺达语, 卢森堡语, 印地语, 印尼巽他语, 印尼爪哇语, 印尼语, 古吉拉特语, 吉尔吉斯语, 哈萨克语, 土库曼语, 土耳其语, 塔吉克语, 塞尔维亚语, 塞索托语, 夏威夷语, 奥利亚语, 威尔士语, 孟加拉语, 宿务语, 尼泊尔语, 巴斯克语, 布尔语(南非荷兰语), 希伯来语, 希腊语, 库尔德语, 弗里西语, 德语, 意大利语, 意第绪语, 拉丁语, 拉脱维亚语, 挪威语, 捷克语, 斯洛伐克语, 斯洛文尼亚语, 斯瓦希里语, 旁遮普语, 日语, 普什图语, 格鲁吉亚语, 毛利语, 法语, 波兰语, 波斯尼亚语, 波斯语, 泰卢固语, 泰米尔语, 泰语, 海地克里奥尔语, 爱尔兰语, 爱沙尼亚语, 瑞典语, 白俄罗斯语, 科西嘉语, 立陶宛语, 简体中文, 索马里语, 繁体中文, 约鲁巴语, 维吾尔语, 缅甸语, 罗马尼亚语, 老挝语, 自动识别, 芬兰语, 苏格兰盖尔语, 苗语, 英语, 荷兰语, 菲律宾语, 萨摩亚语, 葡萄牙语, 蒙古语, 西班牙语, 豪萨语, 越南语, 阿塞拜疆语, 阿姆哈拉语, 阿尔巴尼亚语, 阿拉伯语, 鞑靼语, 韩语, 马其顿语, 马尔加什语, 马拉地语, 马拉雅拉姆语, 马来语, 马耳他语, 高棉语, 齐切瓦语, 等语言的翻译.