【技术分享】云边AI实现

日期:2023-11-07 作者:润欣科技 返回列表

云边AI的必然

云边AI是指把AI大模型和算法在云端训练和优化后,部署到边缘设备上运行,从而将AI能力融入终端设备。在前期的AI发展中,云端计算平台凭借其强大的计算能力和能够集中存储和处理大规模数据的特点,发挥了重要的作用,但随着边缘计算和物联网技术的兴起,云边AI替代云端AI会成为一种趋势和必然。

边缘计算能够将计算和存储能力更接近数据来源和终端设备,极大地减少了数据传输和延迟,减少了网络压力提高了响应速度,这使得在边缘设备上实施AI算法和决策成为可能。并且,一些敏感数据和隐私数据可能不适合直接上传到云端进行处理。通过在边缘设备上进行处理,可以减少数据在传输过程中的风险,提升数据的隐私和安全性。此外,物联网技术的兴起意味着越来越多的设备将与互联网连接,并产生海量的数据,处理这些分布在各个边缘节点的数据,借助边缘计算和物联网技术,减轻了网络带宽和云端服务器的负荷的同时也降低了对网络环境的依赖,使得终端设备执行AI能力更加的高效和可行。因此,云边AI替代云端AI是必然的趋势,并将在未来的AI发展中成为众多企业的首选。

云边AI的硬件承载

谈到AI的硬件承载,我们首先需要了解的是和AI芯片性能相关的重要指标。在这里,我们重点讲解四个指标参数。

首先是算力,算力是评估芯片性能和效率的重要指标,常见的算力单位包括每秒浮点运算数 FLOPS和每秒万亿次运算数TOPS,更低的有MOPS,即每秒执行的百万次操作数。

其次是神经网络性能,跟软件算法架构、硬件加速器以及参数数量有关,选择合适的软件算法架构可以提高神经网络的性能,例如CNN适用于图像处理任务、RNN适用于序列数据处理,硬件加速器(如GPU、TPU、NPU等)可以提高神经网络的计算性能和效率,参数数量可以衡量模型的复杂性和容量,合适的参数数量可以优化神经网络的性能和预测结果。

再次是能效比,指性能和功耗之间的关系,较高的能效比表示芯片能够在相同计算性能下消耗较少的能量,减少了能源消耗和发热问题。比如运算功耗2 TOPS/W表示该芯片将能够以每瓦特2 TOPS的速度进行计算。

最后是存储的容量和带宽,高存储带宽可以加快数据传输和访问速度,提高芯片的整体性能,而大容量的可以支持更复杂的模型和数据集。比如在芯片内嵌MCRAM存储架构,通过将多个存储芯片汇总到一个统一的接口上,实现了存储容量的扩展和高带宽的访问。

11111.png

AI应用的硬件适配

AI应用对芯片的选择根据具体应用的需求和算法的特点进行权衡和决策,综合考虑处理能力、能效、存储、并行处理能力以及可编程性等因素,可以包括CPU、NPU、GPU、DSP、FPGA等。CPU适用于处理串行任务和逻辑操作。NPU是专门用于处理神经网络计算的芯片,可以提供高效且低功耗的深度学习计算能力。GPU是具备较强并行处理能力的芯片,适用于对大规模数据进行并行计算的AI任务,例如深度学习中的神经网络训练和推理。DSP适用于音频、语音处理和移动设备等嵌入式AI场景。而FPGA则适用于高性能计算、加速器设计和优化以及快速原型开发等需要定制硬件和高度灵活性的AI应用。

为了更直观地展示不同硬件和AI应用的匹配性,本文随机选了6款不同芯片的特性进行说明。

第一款芯片为通用CPU:“双核Cortex-A7 SMP架构,每个内核内嵌NEON向量处理单元以及32KB的L1指令缓存和数据缓存,工作频率最高可达1GHz,具有128位的AXI矩阵总线”。此芯片虽然带有L1缓存和NEON指令集,但是缓存相对较小,只适合处理一些轻量级的任务和小型模型,1GHz的主频和AXI矩阵总线在高速数据传输方面有优势,根据以上信息此款芯片适合较简单的图形处理任务、语音识别任务,以及规模较小且计算需求相对较低文本分类或情感分析模型。

第二款芯片为低端NPU:“4个支持NT8(8位整数)计算的Multiply-Accumulate单元,在12MHz的时钟频率下能够提供96 MOPS的性能,同时带有低功耗神经网络处理单元LP_NPU”。此芯片性能较低,不适合处理大型模型和算法,可用于低功耗、边缘设备或嵌入式设备,用于处理轻量级的AI应用,包括如图像和视觉识别、语音和音频处理、自然语言处理、智能物联网控制等。

第三款芯片为第二款的升级版:“具有4.0~8.0 TOPS @ INT8的算力和20 TOPS/W的能效”。此芯片能效适合处理较大的神经网络模型和算法,特别是那些需要高计算密集度的任务。这样的算力和能效可以应对较为复杂的深度学习模型,如大规模的卷积神经网络(CNN)、递归神经网络(RNN)和生成对抗网络(GAN)等。同时,高能效性能意味着处理器能够以较低的功耗提供较高的计算性能,适合在资源受限的环境中运行大型模型和算法。所以此芯片可以用于图像、语言、医疗影像以及自动驾驶和机器人相关的AI应用。

第四款芯片为存算一体AI芯片:“0.5T OP/Sec,150万参数@Int8,2TOPS/W的能效,MCRAM存储系统。”此芯片适合一些较小规模的大模型和算法,特别是那些相对较简单或计算需求较低的任务,比如浅层神经网络处理、轻量级的目标检测和图形处理,以及嵌入式设备上的语音识别应用等。

第五款芯片也为存算一体AI芯片:“1.6T OP/Sec,700万参数@Int8,2TOPS/W的能效,MCRAM存储系统。”此芯片适合一些特定类型的大模型和算法,特别是针对计算密集型任务的应用,包括如大规模的深度神经网络模型、需要进行大量的计算操作的计算密集型任务、高精度数据处理和自动驾驶以及机器人等实时推理场景的应用。

第六款芯片为中高端AI芯片:“5T OP/Sec,3000万参数@Int8,8TOPS/W的能效,MCRAM存储系统和KORU运算架构。”此款芯片跟前面的芯片相比,适合处理更大规模的大模型和算法,具备更高的计算性能,可以适用包括高分辨率图像处理、大规模的语言模型、超大规模的目标检测和图像分割,以及深度学习等应用。

边缘AI芯片的发展

随着边缘智能设备需求的不断增加,未来的边缘AI芯片将迎来一个发展高峰。边缘AI芯片的发展方向将不可避免地呈现多元化的趋势,这是由于终端设备和云端业务的差异性所决定的。边缘AI芯片需要具备高效的计算能力和低功耗特性,同时需要有感知处理能力和数据加密能力,为了更好地实现云边AI混合计算,边缘AI芯片还需要具备稳定可靠的通信和网络连接能力,实现边缘设备与云端的协同工作和数据共享任务。


返回列表