近几年的AI芯片发布会上常常会出现这样一张对比图,自研AI芯片性能与对比英伟达GPU性能的对比,这说一方面明了英伟达在云端AI芯片市场的地位,但也说明了市场缺乏一个判断AI芯片性能的标准。
相同问题在边缘端AI芯片中也存在。因此,为了能够更直观地展现芯片性能,云天励飞在2019深圳高交会期间发布首款5AIoT芯片Deepeye1000时从AI芯片最关键的性能、带宽、成本与海思NNIE进行了对比.结果显示,Deepeye1000平均性能提升了10倍,平均带宽降低40%,平均成本降低60%。
不过,云天励飞并不是想证明其AI芯片业界最强,更关键的是Deepeye1000是云天励飞芯片即服务的一个重要节点。
AI性能全面超越海思NNIE
NNIE(Neural Network Inference Engine )是海思媒体SoC 中专门针对神经网络特别是深度学习卷积神经网络进行加速处理的硬件单元。云天励飞之所以选择对比NNIE,道理与云端AI芯片对比英伟达GPU一个道理,用更直观的方式展现其DeepEye1000的AI能力。而之所以选择海思,是因为在视频监控芯片领域处于领导地位,用这样的对比能够更直观地说明DeepEye1000在AI视觉领域以及边缘计算中的能力。
云天励飞董事长兼CEO陈宁在发布会上介绍,我们的第一代芯片叫做初芯,经历了三年的奋战最终推出。功夫不负有心人,DeepEye1000流片回来一个星期就跑通了人像识别、人脸识别的全链路算法,一个月后就亮相了去年的高交会,并且跑通了完整业务的Demo,两个月的时间跑通了100万人像的4K以及基于4K的200个人像抓拍和识别的全功能。
云天励飞董事长兼CEO陈宁
据悉,云天初芯DeepEye1000专注边缘和端侧视觉应用,采用22nm工艺,基于多核异构并行计算架构设计,内置四核神经网络处理器,可支持INT16 / INT12 / INT8混合精度量化数据,采用存算融合体系架构和可重构计算阵列,可以灵活、高效的执行各种深度学习算法模型的推理计算,峰值算力达2.0Tops。
其中,DeepEye1000神经网络处理器由云天励飞自主研发,深度定制指令集,定制指令多达160条以上,支持主流神经网络模型。神经网络处理器采用可重构计算阵列,支持灵活可编程计算流,计算效率超过99%,同时采用存算融合体系架构,使得DDR存储访问带宽下降77%,功耗下降60%。
CPU采用RISC-V指令集的平头哥玄铁810,工作频率达到1.2GHz,双发射10级流水线,性能高于2.5 DMIPS/MHz。还集成了双核视觉DSP处理器,内置硬件加速运算子ACC,支持超过20个高效算子,每秒可跟踪1200张人脸。另外,还支持H.264和H.265解码,可支持4K@30fps视频、4路高清视频并行的实时分析。
关注AI芯片的人都知道,国内清微智能的芯片也采用的可重构的架构,两者是否相同?云天励飞副总裁 芯片产品线负责人李爱军接受雷锋网采访时表示,云天的实现方式是从PE的维度进行可重构,可以理解为是运算单元的可重构,通过工具链实现芯片的灵活性。因此,采用的方式和维度会有所不同,但最终的效果应该是异曲同工。
这种灵活性是否能够满足所有场景的需求?李爱军表示,在我们覆盖的场景里,能够满足客户超过90%的需求。
不过,AI芯片除了要找到灵活性和性能的平衡点,还需要解决卷积计算带来的高带宽挑战。对此,云天励飞是通过结构的设计,并且配合软件工具链,尽量提高数据的复用程度。更近一步,李爱军表示,通过软硬协同,AI算法映射到我们的神经网络处理器时,CI和CO我们做的非常好,这样就可以实现很高的并行度,并且,我们的架构设计还能实现多核之间参数和数据的复用。
最终,Deepeye1000实现了在AI算法和算力相同的情况下,比NNIE平均能够节省40%的带宽。雷锋网了解到,Deepeye1000采用的是云天励飞自主研发的第二代神经网络架构,第一代架构由于AI市场的快速发展以及需求还不够巨大等原因,只是通过FPGA进行了商用,并没有流片量产。
AI芯片的指标应该是有效算力
AI芯片的峰值性能并不代表其实际能力,在实际应用中的平均算力对于才更有参考价值。需要指出,云天励飞给出的Deepeye1000对比NNIE的10倍平均性能提升并非峰值性能而是算法执行性能IPS(Images Per Second Per 1Tops)。
陈宁表示,在人工智能时代,我们更加关注的是面向场景的有效算力,因为人工智能今天还处于非常早期的阶段,还没有进入通用人工智能时代,更不存在通用的AI芯片。有效算力=算力X效率XAI性能,对应的就是芯片、工具链以及算法应用。
云天励飞提供的芯片工具链是DETVM,具有5大特性,分别是高可用、全自动、高性能、可编程、完备性。这其中值得关注的是这个工具链兼容TVM开源生态,因为大部分AI芯片提供商更多的是在强调其芯片的性能以及工具链的高效易用性,但大都没有兼容开源生态。
“我们认为,AI之所以能发展这么快,与开源有着密不可分的关系。云天励飞选择开源社区,是希望能促进神经网络处理器硬件的快速发展。”李爱军表示。
DETVM对于开源社区的意义在于,云天励飞基于TVM,打通了CPU、DSP、NNP,一个统一的软件框架把这些架构整合起来,不需要再去面对DSP复杂的编程,并且遵循接口标准就能够很容易的集成自己设计的深度学习加速器。
至于更上层的算法,李爱军表示,“如果用传统的芯片和算法由不同的公司来做的方法,芯片的效率将会大打折扣,因此云天励飞是面向场景做协同设计和协同工作,为的就是让AI的效果能够达到预期。另外,算法公司要将算法移植到一个平台上,必须经历平台的学习时间,这可能需要花费半年甚至一年的时间。”
据了解,为了加速开发者的进度,云天励飞不仅已经能够提供配合芯片的硬件模组,还提供算法共享平台ARCTERN,这个平台自带100种以上的算法,与Deepeye1000高度适配。并且这些算法还支持Android、Linux,它是一个非常开放的SDK。
基于云天励飞发布的芯片,他们还发布了芯片即服务-人工智能“星云”生态战略,与海康威视、优必选科技、深圳超算中心、阿里巴巴平头哥、TCL、京东、深圳巴士集团、迈德威视等8家首批合作伙伴,共同开启“星云”生态,加速AI向产业渗透。
双11开放AI生态计划
不过,云天励飞还有更远大的目标。云天励飞首席科学家王孝宇提出了“双11开放AI生态计划”,他表示,云天励飞过去5年投入1亿美金的研发成果,将共享给合作伙伴,致力于帮助合作伙伴解决AI开发周期长、投入大的问题,“我们将本着降低AI门槛的目标,为合作伙伴提供‘双11’的AI开发能力,也就是说,我们将帮助合作伙伴在1周完成硬件、1周适配算法、1周对接服务,最终在1个月内完成AI能力的从无到有。”
云天励飞首席科学家王孝宇
王孝宇认为,AI大大规模应用有三个门槛,第一个是芯片成本太高,一块GPU就需要几千美金,二是算法需要投入大量的人力,三是云服务需要大数据人才。
可以看到,云天励飞将AI芯片的成本从几千美金降低到了10美金,且芯片功耗更低算力也足够满足边缘应用需求,还提供了ARCTERN算法共享平台。但还缺少云服务,因此,云天励飞开发了云服务平台商簿Vesionbook,商簿家族由1 个大脑-AI数字商场大脑和1 个平台-AI Campus场景管理平台构成,支持30种以上的业务场景。主要的工作就是完成从终端到云端的业务标准化。云天励飞把准化的协议叫做SIK(Service Integration Kit),通过几条指令就可以和云端通信,不需要再去开发。
王孝宇补充表示,如果客户的业务场景没有包含在这30种当中,还可以通过Open API构建自己开发定制化的场景。
既然场景定义定制,算法是否也可以定制?“我们和深圳超算联合发布一套系统AIOS,它是无门槛一站式算法研发平台,点击鼠标点击就可以完成AI算法的研发,不仅可以把AI算法研发的成本从几百万降到一万以下,还能把算法的研发周期降到一个月。” 王孝宇介绍。
AI应用零门槛
从芯片到工具链,从算法到场景,从芯片即服务到双11开放AI生态计划。云天励飞的更远大的目标是让AI应用零门槛。这个目标是可实现的吗?雷锋网认为云天励飞选择的路径值得期待。成立于2014年的云天励飞首先用过两年时间打造了全球第一套动态人像识别系统,而后迅速产业化落地。如今云天励飞的视觉大脑在北京、上海、深圳、杭州等近100个城市都有产业化的落地,覆盖了机场、地铁、社区、大型商超、火车站等智慧城市的生活场景,也服务了G20、APEC、港珠澳大桥等一系列重要会议和重要工程。
人像识别系统更多的让云天励飞深刻地了解了AI落地的场景,积累了算法能力,并且基于对场景和算法的理解开始芯片的自主研发。积累五年之后,以系统公司的方式为市场提供全栈的解决方案,这样的能力既能够服务有场景但是没有技术积累的公司,也能够服务有算法但没有芯片的公司,通过全面、多样的产品最大程度降低AI的落地门槛,可以看到,云天励飞在智能安防以及新商业领域取得了不错的成绩。
为满足更多场景的需求并且提供稳定的计算平台,李爱军透露云天励飞的芯片将保持一年到一年半更新一代的速度,下一款AI芯片预计将会在2021年上半年推出。目前,Deepeye1000芯片选用的工艺能够满足工业市场的需求,未来也会应用在ADAS。
更长远的未来,云天励飞也可能会推出云端AI芯片。
云天励飞副总裁 芯片产品线负责人李爱军
这样的实力也是云天励飞能够成为唯一一家企业能够承担科技创新2030“新一代人工智能”重大项目的关键。云天励飞还获得了国家科技部、发改委、工信部三大部委人工智能芯片重大项目“大满贯”!