首页 A1训练模型 汉博半导体CEO 钱军: 在具体应用方向 DSA架构AI芯片较GPU具有性能优势

汉博半导体CEO 钱军: 在具体应用方向 DSA架构AI芯片较GPU具有性能优势

标题:瀚博半导体CEO钱军 : 在特定应用方向,DSA架构的AI芯片比GPU更有性能优势

近日,高性能人工智能及视频处理芯片解决方案提供商汉博半导体发布了首款云端通用AI推理芯片SV100系列及基于该芯片的通用推理加速卡VA1,将于今年第四季度投入量产。

汉博半导体于2018年12月在上海成立,汉博A轮融资由快手、红点创投中国基金、五源资本联合领投;今年4月,完成5亿元A+轮融资,由经纬中国、中国互联网投资基金联合领投,联发科参投。公司主要开发针对多种深度学习推理负载进行优化的高性能通用加速芯片。应用场景包括计算机视觉、智能视频处理、自然语言处理等。SV102是汉博SV100系列的首款芯片,专为云端AI的通用推理任务而设计。

随着人工智能产业的不断技术演进,算法模型的精度、性能等关键指标在多个领域不断取得突破,并已进入算法大规模应用阶段。全球各行业数据中心对推理算力的需求快速增长,下游客户多样化的算力应用场景催生了对AI计算加速芯片的多样化需求。

汉博创始人兼CEO钱军表示,目前市场上除了主流GPU厂商之外,很少有更好的解决方案。汉博的SV102采用DSA(Domain Specific Architecture,特定领域架构)架构,主要适用于视频流。信息处理。

对于技术路线的选择,钱军表示,首先,由于Nvidia的GPU性能强大,初创公司很难在同一路线下获胜;其次,计算机视觉任务占据了AI市场的大部分,视频流占数据流的70%。且比例持续上升。适合处理视频信息的DSA架构芯片可以达到更好的信息处理效果。

视频解码能力对芯片有低延迟、高吞吐量、低能效等要求。根据汉博披露的产品性能指标,SV102峰值算力为200TOPS(INT8);在75瓦功耗下,其吞吐量是GPU AI吞吐量的2-10倍;并且延迟低于GPU的5%。

此次推出的SV100系列芯片可支持FP16、BF16、INT8等数据格式,可实现多种主流神经网络的快速部署以及计算机视觉、视频处理、自然语言处理、搜索推荐等多元化推理应用场景。同时集成超过64路H.264/H.265/AVS2 1080p视频解码,广泛适用于云端和边缘智能应用场景,提高客户设备资产效率,降低运营成本。

除了SV102之外,汉博半导体还计划推出15W、150W功率的推理产品,覆盖更多市场。

汉博同步推出的基于SV100系列芯片的VA1推理加速卡是一款单宽、半高、半长的75瓦PCIe x16卡。支持32GB内存和PCIe 4.0高速接口协议。无需额外供电,可适用于所有厂商的人工智能系统。智能服务器实现数据中心高密度、高算力部署。

在业务应用场景方面,汉博的芯片产品和卡处理产品主要应用于在线直播、流媒体、电商推荐、智能客服等领域。

汉博半导体在北京、深圳、多伦多设有研发分支机构。公司核心员工平均拥有15年以上相关芯片和软件设计经验,员工总数超过200人。公司创始人是AMD高管。 CEO钱军曾担任AMD高级总监,负责GPU(图像处理器)和AI服务器芯片的设计和生产。 CTO张雷于2013年晋升为AMD Fellow,负责AI、深度学习、视频编码、解码和视频处理领域,其公司团队部分成员设计了业界首款7nm工艺GPU。

以下为发布会采访内容:

1、创始人简历具有丰富的GPU行业经验和背景。为什么像你们这样的团队选择DSA 来创业?

我从2009年就开始思考如何接近NVIDIA,但由于NVIDIA是业界领先的公司,所以他们一直在努力。软件的成熟度和整个工程能力让你在同样的架构下很难获胜。

要打败NVIDIA,我们必须在架构上取得优势。我们DSA架构的整个核心IP设计都是我们自己的。当我们选择第一个产品时,我们看到推理市场非常大,需要非常高质量的产品。

我们更感兴趣的是做一个新架构的产品。通过这个架构,我们可以在性能指标上超越它,然后把产品卖到国外。

2、目前中国存在核心短缺问题。公司如何解决这个问题?是否会影响产品的量产?

核心短缺是全球性的,可能是由于产能与需求之间的不匹配造成的。还有一种理论认为,采矿等需求造成了产能的一些倾斜。一些有需求的产品,比如汽车电子,是买不到芯片的。

对于汉宝来说,今年汉宝的产能已经释放,明年的产能大部分已经提前预测。但如果剩下的产品卖得特别好,也可能面临产能问题。

3.最近AI行业流行大规模训练模型。你们的芯片会考虑到这一点或者有相关的优化吗?

我们已经注意到了这一点,所以在做云训练的时候,绝对不可能部署单个计算芯片。你必须考虑连接性、准确性和有效性。

我们非常关注这个领域。我们的S102是推理芯片,还不会面对这么大的模型,但是我们的计算能力足以支持大型模型。

4.这款芯片的研发花了两年时间。开发过程中遇到了哪些困难?我们是如何克服的?

我们整个芯片的研发也花了两年多的时间。这不是我做过的最大的芯片。不要以为推理芯片比训练芯片更容易制造。其实难度并不低。在整个过程中,初创企业面临着很多挑战。

我觉得最重要的是看客户的需求,架构一定要正确,然后你必须能够在整个模型阶段测试你的性能指标。

这中间,我们肯定会遇到各种各样的问题。对此,我们是以核心团队的专业知识为基础的。我们做了很多类型的芯片和20多种类型的GPU。所有GPU 均已量产。我们在整个领域都非常强大。

S102并不是我们第一个量产的产品。我们之前有一款7nm芯片,它也表现得非常好。该芯片为我们提供了一个渠道,可以严格、完整地梳理整个流程的专有技术和解决方案。现在,有了这两个芯片,我们就拥有了整个设计的完整性。

5、AI芯片生态非常重要。想问一下你们目前支持一些框架平台的成功率如何?

软件生态系统需要一点一滴地构建。对于我们的主要产品来说,这给了我们时间来构建生态系统并同时销售产品。

在整个软件方面,我们也看到除了我们的AI引擎之外,还有我们的视频CV引擎。如果我们在互联网上测试,AI引擎可能会启动得更快,而视频会稍微慢一些。在计算机视觉方面,我们会优化视频引擎的所有功能,所以我们也在大力发展软件团队。未来我们的软件人员将会是我们硬件的三倍、五倍。

稍后我们会推出15瓦到150瓦的产品,我们的软件团队会在我们基础软件的通用平台上构建不同的解决方案。

6.我们的架构是DSA架构。您刚才提到DSA架构在云推理方面比GPU架构有更好的性能。你能解释一下吗?

你看,和Nvidia竞争的公司,比如Habana,都采用DSA架构,没有人采用GPU架构。

同样的架构下,很难避免Nvidia专利中的一切。如何与Nvidia区分开来并战胜它也是一个问题。

DSA 架构也是如此。每个公司采用的方法不同,但我们都可以看到,在某些领域,尤其是推理领域,它比GPU 有优势。

7、除了打造芯片之外,还有寻找商业模式的问题。汉博半导体是如何思考如何销售芯片的?

低调务实是汉博的经营作风。我不可能做出没有客户的产品。

我们的芯片花了两年时间打造,今天刚刚发布。虽然前期我们又做了一个芯片,但是我们自己也做了很多打磨。当我们最终流片的时候,我们也找到了一个很好的合作伙伴。快手投资了我们,并与我们密切合作。

我认为要想卖掉产品,就必须了解顾客的需求。我们在这部分花了很多功夫。

此外,我们还建立了一个非常现代化的数据中心。在数据中心,我们有一部分使用我们刚才提到的所有适配服务器。我们会把自己的产品插入其中,构建整个云。虚拟应用算法的东西。

我们将大力开发我们的软件并提供良好的客户支持。

8. 硬件迁移到什么程度?是否只需要迁移硬件?我们可以在多大程度上迁移软件?是否可以仅迁移硬件?软件需要重新编译吗?

与云端训练相比,云端推理芯片的迁移成本相对较小。更重要的是,对于同样的服务器,我们的性能是T4或A10的2到10倍。对于客户来说,这是巨大的TCO(总拥有成本)节省。在这种情况下,一小部分迁移成本是客户可以接受的。

当它们迁移时,使用编译器没有编译成本,它是自动的。

热门文章