rf fpga vs. rf cmos ic 射频集成电路
1.数字 cmos ic和模拟cmos ic的区别是什么?答:数字 cmos ic的场效应晶体管电路可以稳定工作在截止区和饱和区,形成截止和饱和2种稳定状态,用来代表0或1两个数字,代表了2进制数字中1位的所有的数字。模拟 cmos ic的场效应晶体管电路可以稳定工作在线性放大区,形成从电平0到电平x连续状态,用来代表0到m任意数字,如果再连接n位模数转换器,则可代表2进制数字0-2^n的所有的数字。
2.数字 cmos ic和模拟cmos ic的相同点是什么?
答:数字和模拟 cmos ic都使用cmos工艺制造,集成度高,速度快,成本低。数字和模拟 cmos ic的场效应晶体管电路都有截止区和饱和区、放大区,可形成截止、饱和、线性放大等多种状态。
3.可以使用模拟cmos ic做rf ic吗?
答:可以。模拟 cmos ic使用cmos工艺制造,集成度高,速度快,成本低。模拟 cmos ic很适合做低噪声放大器和振荡器、乘法器、混合器、滤波器。模拟cmos ic的lna场效应晶体管电路工作在线性放大区,从接收天线外看lna相当于实现了高速的ad-da串联转换。
4.可以使用数字cmos ic做rf ic吗?
答:可以。根据上面1-3的描述,数字 cmos ic的场效应晶体管电路不仅有稳定的截止区和饱和区,也会经过线性放大区,但要稳定工作在线性放大区,需要电路时序严格匹配,由于数字cmos ic的线性放大区持续时间比截止、饱和区维持时间短,因此可获得很高的射频工作频率,这一点对开发rf ic是有利的,但由于时序匹配很严格,这对lna等设计的时序约束提出了很大的挑战。
5.可以设计制造 rf cmos ic?
答:可以。根据上面1-4的描述,使用cmos工艺设计制造rf ic可简化工艺,降低成本,提高集成度,是未来射频集成电路发展方向。
6.可以使用fpga来设计制造 rf cmos ic?
答:可以。因为asic大规模制造以前都使用fpga验证,所以如果rf cmos ic可以制造,那么也可以使用fpga做rf ic。
7.未来rf fpga比rf cmos ic有优势吗?
答:rf fpga比rf cmos ic优势之处在于:fpga可以不断使用软件升级,而asic cmos ic不能升级,浪费大量芯片和制造能源。而rf fpga不足之处在于比asic功耗更大,因为其内部连线开关使用cmos开关。如果能够降低fpga功耗,提高集成度,rf fpga比rf asic有优势。 评论:
我认为未来fpga很可能取代asic,c/c 很可能取代system verilog/vhdl,英特尔并购altera或许只是拉开了序幕。
英特尔用167亿美元并购altera
http://tech.sina.com.cn/zl/post/ ... -02/pid_8479945.htm
继安华高科技以370亿美元的现金和股票收购芯片厂商博通之后,年初英特尔并购可编程逻辑芯片巨头altera的传闻今天也成为现实。即英特尔宣布将以每股54美元的价格收购altera,以此计算,此交易总价将达到167亿美元,创造了英特尔并购历史上金额最大的纪录。
其实在数据中心市场,英特尔芯片占有接近95%左右的市场份额,可以说具有绝对领先的优势,既然如此,英特尔为何还要并购altera?altera与英特尔的数据中心业务有何关系?或者对于提升英特尔在数据中心的竞争力有何影响呢?
在此我们不妨回顾下英特尔公司高级副总裁兼数据中心事业部总经理柏安娜在2014 gigaom structure大会的一番言论,即:英特尔的下一代创新处理器的设计可以通过全定制化的加速器来极大提升应用性能。通过整合至强处理器(英特尔数据中心的主打芯片)和兼容的fpga到一个单独的封装里,其将与标准至强e5处理器实现插座(socket)上的兼容。有了fpga的可重编程能力,就能够在工作负载和计算需求发生波动的时候帮助改变算法。根据行业的基准测试,基于fpga的加速器可以实现超过10倍的性能提升,而功耗却提升很小。
parallel computing in the data center
multi-core(c-code) $9b
multi-core(c-code) gpu(nvidia cuda) $0.25b
multi-core(c-code) fpga(opencl) multi-core(c-code) fpga(hdl) $1b
除了上述保持数据中心这个增长引擎之外,在未来的物联网(iot)市场,并购altera对于英特尔也意义重大。据市场研究公司idc估计,整个物联网市场将由2013年的1.9万亿美元增长至2020年的7.1万亿美元。正基于此,在日前举行的谷歌i/o开发者大会上,谷歌发布了命为project iot(internet of things)新的物联网计划和物联网操作系统brillo,这是一个基于android底层框架的操作系统,可在配置32mb或64mb内存的设备上运行。如果说谷歌在系统和应用上开始发力物联网,那么高通、三星和英特尔在物联网芯片市场也已经是暗潮涌动。
例如高通就发布了两款旗舰级的物联网wif芯片qca401x和qca4531,三星也发布了专为物联网设备打造的系统级芯片artik。值得一提的是,高通和三星为了在未来的物联网市场占得先机和建立优势,分别并购了csr和smartthings,前者的低耗电蓝牙(bluetooth smart)及视讯处理上的技术,将为高通于物联网领域提供重要的yd2333云顶电子游戏的解决方案,后者则拥有一套开发工具和开发者整合平台,据称目前已经有1.9万种设备接入,并且三星还提供了云端的开发框架,用于集合物联网数据,帮助设备接入云端。
相比之下,在移动市场吃过亏的英特尔也发布了edison和curie平台,后者仅有一个钮扣大小,也包含了芯片、蓝牙、感应器等基本功能,面对的是各种可穿戴设备,而edison则是面向更大的物联网设备。这两个平台的核心就是英特尔的atom和quark芯片。尽管如此,与在数据中心芯片市场的需求变化类似,高度定制化和极高的性能功耗比是在物联网芯片市场的立足和竞争力的核心,而这些均是altera的fpga的优势所在。可以说,并购altera,不能说英特尔像在上述的数据中心市场获得绝对优势,但至少在物联网的初始阶段就与对手站在了同一起跑线上。况且之前altera在物联网相关的智慧城市、智能工业及生态系统等方面就已经具有yd2333云顶电子游戏的解决方案和实际的应用。这些是高通和三星所不具备的,至少存有一定的差距。
深度解读:收购altera,英特尔图个什么
http://www.elecfans.com/news/fpga/20150602372616_a.html
数据:
167亿美元/54美元/股=3.09亿股
167亿美元/(19.3亿美元/年 收入)=8.65年
167亿美元/(4.727亿美元/年 利润)=35.3年
fpga主要优势:
速度快。远快于cpu,比dsp也快得多,只比asic慢一点功耗高一点。
可软件编程升级,asic不能软件编程升级。fpga因为批量小可以采用最新的半导体制造工艺,由此提高集成度和速度,而asic必须等到大批量才能采用新工艺已经晚了几年又需要重新设计开发。
结论:
fpga取代asic是必然趋势,除非硬件不再升级。
为了能够更好地理解这一点,我们来看看一些fpga的加速应用案例,这样你就知道为什么英特尔会收购altera了。
关于azure的一点事
微软前些年已经给出了两个利用fpga加速的工作负载的细节,这也算为altera和xilinx传播了“福音”。下图是微软给出的各种器件的比较,横轴为处理器个数,纵轴为能效。
可以看到,在芯片上能效和计算功能的特殊性之间有不断的相互影响。其中处理器的更加灵活,dsp和定制asic的效率则更高一点(gpu没出现在微软的这张图上),而fpga则处在通用cpu和定制asic之间。而在现实世界中,一些芯片开始会使用fpga进行开发,等产品开发成熟后,在大批量地生产asic,这样在节省了成本的同时也增加了性能。
去年九月,微软在hot chips26会议透露其已经在fpga加速上试验了三年,并且提出了一个用于其开放云服务(open cloud server)的设计方案,目前这已经成为了开放计算项目(open compute project)的一部分。为了其称为catapult的系统,微软选择了altera stratix v d5 fpga,并将其放到了其开放云计算服务器的节点夹层卡中。
微软开放云计算服务器的节点夹层卡
该硬件首先被用来加速bing搜索的页面排序功能。微软检查了系统中的1632个服务器节点后发现,安装有一个fpga的节点运行排序软件的延迟比没有fpga的节点的延迟低29%,数据吞吐量达到了原来的两倍,而服务器节点的成本只上升了30%,每台服务器的功耗也只增加了25w。今年,这种基于fpga的bing页面排序将会开始大范围部署。
用于图像识别的机器学习技术是近日nvidia主办的gpu技术大会的热点话题,该公司ceo黄仁勋展示了未来的pascal gpu协处理器,其与x86处理器进行了结合,运行基于cnn的图像识别应用,将会比现有的maxwell协处理器的处理性能高出10倍以上。这两个系统都采用了流行的imagenet图像数据库。
今年二月份,微软放出了一份白皮书,其中解释了微软将怎样使用这种系统的定制版本来为复杂的神经网络(cnn)的图像识别应用加速。微软测试了altera stratix v d5 fpga,但计划切换为arria 10 fpga,其芯片上的专用模块能实现1.5万亿次单精度浮点运算。下表是为什么微软会用fpga实现图像处理的要点。
网络或许比计算更重要
英特尔毫无隐瞒,其想在未来几年将其数据中心事业部的体量翻番,并且在数据中心上的投入也将占据更大的份额。在服务器市场英特尔已经占领了cpu的出货量,但仍然有一些值得追逐的利润。但是如果英特尔摧毁了那30%多不是基于x86的市场,那英特尔实际的利润恐怕还会下滑。英特尔也将其xeon和atonal处理器应用到了大部分的存储阵列和集群存储产品中;而在网络市场,其结果却是喜忧参半。
据altera cfo pasek介绍,altera 20%到25%的收入都来自于计算、网络和存储业务。5亿美元的业绩还算不错。这一部分和英特尔的数据中心事业部重合,这一部分去年的销售额为144亿美元。altera的贡献可以说是微不足道。altera另外20%-25%的收入来自于其嵌入式和安防产品的云顶集团官方网站入口的合作伙伴。而剩下的40%-45%的收入(大概有10亿美元),则来自于销售给电信设备制造商的fpga。这些对英特尔来说才是实实在在的钱,使得英特尔能够销售x86-fpga混合结构的产品,从而和早些时候进入这一市场的arm厂商展开竞争。
英特尔一直都愿意花钱购买进入数据中心网络业务的方式,但没有足够的潜在动力来购买altera。英特尔进入这一领域的动作早就开始了,2011年7月英特尔以非公开的价格收购了以太网交换芯片制造商fulcrum;2012年2月,英特尔以1.25亿美元的价格收购了qlogic的交换机和适配器业务。目前的40gb/s的infiniband产品以true scale进行销售,这也是英特尔即将推出的omni-path的基础。接着2012年4月,英特尔又用1.4亿美元从cray手里收购了超级计算机连接器gemini和aries,我们怀疑这一部分的聪明的工程师也进入了omni-path的规划路径。
我只想说,英特尔在这方面又很多动作。
关于fpga销售得很好的网络和嵌入式市场有一个有趣的现象,这一领域大部分和fpga竞争的asic在制造工艺上都赶不上fpga。看一下pasek展示的图表,其中给出了各种各样的可编程逻辑器件(包括但不限于fpga)和asic的比较情况:
正如pasek说的那样,因为光刻成本在上升,可编程逻辑器件的利润就更引人关注。pasek说fpga和asic物理尺寸相同的临界点发生在6年前,那时候fpga进入了40nm制程,而大部分pc和服务器则使用的是130nm。“我们现在已经比常见的asic先进了3到4个节点,而且马上就要5个节点了。”他解释说,“目前大部分的asic还停留在90nm节点,因为如果没有巨大的出货量,采用更先进的节点是不划算的。”
除非,你是altera,而且被英特尔收购了;而且你的母公司想要在630亿美元的asic和assp市场分一块蛋糕,这一市场让50亿美元的可编程逻辑器件市场相形见绌。
英特尔现在的服务器cpu和网络asic没有取得市场,英特尔会让fpga来取得。 物联网将催生标准cmos射频前端ic快速发展日期:2014-12-12 来源: 作者:王丽英
http://www.epc.com.cn/special_report/2014-12-12/19510.html
硅的原材料是普通的沙子,但当几十年前,科学家将它用来制作半导体器件以来,在摩尔 定律的指导下,硅为我们的世界带来了翻天覆地的变化。如今,电子设备中所使用的大多数器件都采用了基于硅的标准cmos工艺制作,但其中有一个部分却难以 实现,这就是射频前端。目前,射频前端主要采用gaas或sige工艺制造,但由于材料的稀缺性和工艺的复杂性,射频前端芯片普遍良率不高,成本居高不 下。也有厂商探索采用基于衬底的硅技术,以期降低成本,但目前该技术还只能做到部分射频产品,例如一些开关器件。
rfaxis公司市场与应用工程副总裁钱永喜博士
rfaxis是一家专注于射频前端设计的公司,该公司以其独创的技术解决了纯硅cmos工艺生产射频前端器件的难题。rfaxis推出的射频前端器 件基于纯硅标准cmos工艺,将pa、lna和开关集成在一起,真正实现了高集成度的单一芯片,不仅大幅降低成本,同时减少了系统复杂度及噪声。其最近推 出的一款rfx8055芯片是业界首款单芯片5ghz 11ac产品,外型只有2.3mmx2.3mm。
rfaxis公司市场与应用工程副总裁钱永喜博士认为采用标准cmos工艺将是下一代射频前端器件发展的主流。钱永喜博士对比了当前用于射频应用的 gaas和标准cmos工艺,他指出,目前gaas生产工厂采用的是2μm gaas hbt工艺,6英寸晶圆,每片晶圆的成本远超过1000美元;而rfaxis采用的标准cmos工艺是0.18μm,8英寸晶圆,每片晶圆的成本大大低于 1000美元,而且良率远高于gaas hbt工艺。因此,钱博士认为,在射频应用上,从gaas/sige工艺转到标准cmos工艺将会是不可逆转的一种趋势,因为,标准cmos工艺可以解决 一直以来利用gaas/sige工艺生产射频放大器以及前端器件的供应瓶颈和成本困扰。
标准cmos射频前端ic将pa、lna和开关集成在单一芯片中
钱博士表示,宽带通信、移动通信及物联网是rfaxis的目标市场。尤其是物联网,时下物联网的火热发展带动了更广泛的无线网络通信需求,这些应用 于物联网的大批量的无线联网设备对成本极其敏感,又对供货周期要求苛刻。因此,传统的gaas/sige制造工艺已远远不能满足这些需求,而基于纯硅的标 准cmos工艺射频器件恰恰可以解决这些难题,迎来了广阔的发展空间。
rfaxis的产品可以满足无线互联市场的方方面面的应用,例如,大功率wi-fi领域的功率放大器、路由器;wi-fi终端设备pc、家庭网关;手机、 平板等移动wi-fi设备;以及zigbee/ism、无线音视频等机器与机器之间的无线通信。rfaxis的rfx2402c/e已经应用在一款在市场 上广受喜欢的触摸屏无线11n路由器中,酷派和tcl的手机中就采用了集成有rfaxis rfx8422s的展讯的芯片。前不久,高通创锐讯推出的qca9880 xb143参考设计就采用了rfaxis的rfx8051取代昂贵的gaas或sige前端模块,基于该参考设计,用户可以实现高性能11ac产品,在提 供无缝的、相当于千兆位速率的wi-fi功能的同时明显降低物料费用。
思科2013年的报告预计,物联网将以年复合增长率23.9%的速度快速发展,到2020年,全球联网的设备将达到500亿,如此庞大的市场为无线互联器件带来了广阔的舞台,也必将催生标准cmos射频前端ic的快速发展。
笙科电子 http://www.amiccom.com.tw/asp/product.asp 开源运动席卷芯片业
2020-02-07来源: eeworld关键字:开源risc-v
编辑:冀凯 引用地址:http://news.eeworld.com.cn/qrs/ic487492.html
在软件革命之后,开源运动正在改变着芯片行业。
本文来源彭博社
大型技术公司已开始涉足risc-v,该技术以任何人都可以使用的免费标准代替了芯片设计过程关键部分的专有技术。尽管还处于初期阶段,但这可能会创造出一批新的处理器,它们可以与英特尔公司的产品竞争,并争夺arm的许可业务。
12月,大约2,000人在硅谷参加了一场研讨会,以了解risc-v,这是一套控制与处理的新指令。在短短几年内,risc-v已从大学教学工具发展为一种开源标准,业界巨头正在探索该标准,包括google,三星,阿里巴巴,高通公司和nvidia等。
加州大学伯克利分校的计算机科学家krste asanovic,同时也是sifive联合创始人说:“大多数主要公司都在为risc-v做出巨大努力。”sifive是一家销售基于risc-v的芯片设计创业公司。
开源利用了众多公司的贡献,而不仅仅是少数公司的专有专利。通过共享新代码,任何人都可以看到其改变并在此基础上进行自己的贡献。在1990年代被诸如microsoft之类的巨头采用之后,这种不断扩展的方式已成为互联网、智能手机和许多软件应用程序的基础。去年,ibm以历史上最大的一笔软件交易收购了开源先驱red hat,甚至微软也加入进来,收购了最大的开源代码存储库github。
对于4000亿美元的芯片行业来说,只开放一小部分专利,是完全不够的。但是,如果有足够的公司承诺采用开源方法,那么这可能会创建一个共享的知识库,而这对于英特尔和arm来说可能很难跟上。
早期的发展集中在指令集上,指令集控制处理器的基本功能。几年来市场中只有两个重要的指令集,一种是英特尔的x86,它在计算机处理器中占主导地位,从英特尔或amd购买芯片是使用此指令集的唯一方法,英特尔是唯一可以改变它的公司。
其他指令集是所有主要智能手机组件的基础,它归软银集团旗下子公司arm所有,可以付费使用,因此其他公司也可以使用它来设计自己的芯片。但是同样,只有arm可以改变其基本架构。
这使得行业的其余部分智能依靠这两家公司创新,数十年来,这一直不是问题,因为大多数处理器都是通用组件,通过提高生产水平,每年都可以更快,更高效地工作。但是,这些行业规则正在瓦解,芯片不断小型化的稳步进行已经违反了物理定律,而人工智能以及来自互联网和智能手机的大量数据要求采用新的信息处理方式。 risc-v的支持者说,新的指令集将帮助创建更好的芯片来为无人驾驶汽车,语音识别和其他ai任务提供动力。
google在其opentitan项目中使用risc-v,该项目正在为数据中心服务器和存储设备开发安全芯片。多年来监督google大型数据中心的技术基础设施的urs holzle说:“还有许多其他计算任务,例如机器学习,都可以从开放计算架构中受益。”
三星表示将在其用于手机组件的芯片中使用sifive的设计。risc-v出现在微控制器(一种处理器的基本形式)中,该微控制器是高通和nvidia出售的更为复杂的芯片的一部分。最大的数据存储设备制造商之一western digital计划在某些产品中使用该技术,并已将其设计开源。阿里巴巴宣布了基于risc-v的芯片,几所大学也已经发布了开源设计。
risc-v基金会目前有200名中国会员,这是一个非营利组织,成立于2015年,旨在促进该指令集的使用。一个印度的项目使用该技术开发了六个处理器。
risc-v规范是由基金会技术委员会开发、批准和维护,该委员会由多家成员公司的工程师和其他贡献者组成。拟议的修订版发布在github上。risc-v设计可以是免费的也可以是许可的,虽然并没有严格遵守官方规范的要求,但会员有动机使其设计兼容。根据该项目的支持者表示,这为芯片客户提供了他们设计与软件正确通信的组件所需蓝图的多种选择。
盘点面向边缘和终端应用的ai芯片公司
2020-03-13来源: eeworld关键字:ai芯片
编辑:muyan 引用地址:http://news.eeworld.com.cn/iot/ic491409.html
翻译自——eetimes
为了跟上前沿神经网络的要求,高科技公司正在努力寻找提高人工智能性能的最佳方式。与此同时,世界各地涌现出许多初创公司,它们对如何更好的地实现ai提出了新的想法。这一领域正在吸引大量风险资本的投资,这使得该领域不仅拥有大量现金,而且还拥有计算架构的新颖想法。
我们正在追踪来自美国、欧洲和亚洲的约60家人工智能芯片公司, 从重新研发可编程逻辑和多核设计,到开发自己全新架构的公司,再到使用神经形态(脑启发)架构和光学计算等未来技术的公司。
以下是10个我们认为有前途,或至少有一些有趣想法的案例。我们将它们按照其产品在网络中的目标位置分为:数据中心、端点或aiot设备。
数据中心的人工智能
根据位置不同,数据中心可以算作“边缘”。边缘计算的关键概念是在(或接近)生成或收集数据的相同地理位置处理数据。这包括网关或集线器设备,也包括加速公司单一人工智能应用程序的内部服务器。想想医院或医学研究机构中加速x射线或ct扫描图像分类的服务器,以及从工厂接收状态数据并在现场处理的网关。
graphcore
总部位于英国布里斯托尔的graphcore公司在早期的一轮融资中获得了超过10亿美元的估值,成为首家被认定为独角兽的西方半导体初创公司。
graphcore的ipu(智能处理单元)芯片拥有超过1200个专业核心的大规模并行架构,每个核心可以运行6个程序线程。还有大量的片上内存,几百mb的ram,更重要的是,还有45 tb的内存带宽。这使得整个机器学习模型可以存储在芯片上。
graphcore的ipu芯片可以在戴尔服务器上用于边缘计算应用程序。
groq
groq是由谷歌的一个团队在硅谷创立,拥有70名员工,迄今已筹集了6700万美元的资金。在sc ' 19,他们正式推出了他们的超大芯片,可以达到1000 tops。
groq的软件优先的方法意味着他们的编译器处理许多通常在硬件中会发生的控制功能,比如执行计划。软件会编排所有的数据流和时间,以确保计算不会出现停顿,并使延迟、性能和功耗在编译时完全可预测。
groq正以其张量流处理器(tsp)芯片为目标,瞄准数据中心应用和自动驾驶车辆。
cerebras
cerebras是以恢复圆片规模芯片的倡导而著称,而这个想法早在80年代就已经被放弃。
我们常见的处理器都是经过封装之后才可使用的,实际上如cpu中的核心裸片大小一般在200平方毫米以下,而gpu核心的大小也没有超过1000平方毫米的,所以在一片晶圆上可以切割出很多核心裸片。不过这并不代表无法制造超大尺寸的芯片,在hot chip 31会议中,cerebras systems就推出了一款晶圆级深度学习芯片,尺寸达到了215×215平方毫米。几乎占据了一整个晶圆的大小。
cerebras庞大的46,225mm2的芯片,占用整个晶圆,其功耗15千瓦,在84个处理器块上封装40万个核和18gb内存。虽然这些数字看起来非常庞大,但请记住,这么大的芯片被设计出来,目的是代替成千上万个gpu的。
而这么大的芯片主要就是用来进行深度学习训练的,而深度学习的训练是应用小变化的过程,模型的大小等因素让神经网络训练变得非常困难。对于粗粒度计算,需要告诉互联才能进行训练,规模依旧有限且成本高昂。所以celebras systems设计了专门为神经网络原语优化的核心,这种核心可编程、可以快速进行西数计算,而且具有高速互联能力。celebras systems设计了非常灵活的内核,而且可以高效的处理张量运算。
该公司表示,它已经解决了之前困扰晶圆片规模设计的问题,如成品率(它绕过缺陷),并发明了对抗热效应的封装。
cerebras已经筹集了超过2亿美元的资金,此前曾表示,他们的rack系统正在少数几个客户数据中心运行。
cambricon寒武纪
cambricon是中国最早的人工智能芯片公司之一,但绝不是最后一家。cambricon是2016年由中国科学院的两名研究员创立。
由于cpu和通用gpu (gpgpu)指令集在加速神经网络方面缺乏灵活性,他们开发了自己的指令集架构(isa),这是一种集成了标量、向量、矩阵、逻辑、数据传输和控制指令的负载存储架构。
cambricon的第一款产品cambricon-1a被用于数千万部智能手机,以及无人机和可穿戴设备等其他终端设备。如今,第二代芯片包括云计算的两部分和边缘计算芯片——思源220。这种边缘芯片的设计是为了填补该公司在边缘计算产品组合中的空白。思远220标志着寒武纪实现了云、边、端的全方位立体覆盖。mlu220是一款专门用于边缘计算应用场景的ai加速产品(边缘人工智能加速卡)。产品集成4核arm cortex a55,lpddr4x内存及丰富的外围接口。用户既可以使用mlu220作为ai加速协处理器,也可以使用其实现soc方案。
cambricon(以及horizon robotics,见下文)目前是全球最有价值的芯片初创企业之一:该公司迄今已融资2亿美元,使其市值达到25亿美元左右。
端点处的ai
“端点”是指网络末端的设备,数据在收集数据的同一设备内处理。这包括从安全摄像头到消费电子产品和家用电器的一切。当然,由于一些设备既可以用作网关,也存在一些灰色地带,也可以用作端点(比如自动驾驶汽车或智能手机)。
hailo
hailo于2017年在以色列特拉维夫成立,由前以色列国防军精英情报单位成员创建。该公司约有60名员工,迄今已融资2100万美元。
hailo的ai协同处理器hailo-8可以处理26台电脑,功率效率为2.8台/w。应用目标是adas和自动驾驶。它的结构混合了记忆块、控制块和计算块,并通过软件分配相邻块来计算神经网络的每一层。减少芯片内外的数据传输有助于节约电能。
hailo表示他们的hailo-8将胜过所有其他边缘处理器,并且尺寸更小,小于一分钱硬币,内存需求更少。而且除了计算外,它还集成了内存和控制功能。
公司通过设计一种依赖于神经网络核心特性的架构,边缘设备现在可以比传统yd2333云顶电子游戏的解决方案更高效,更有效,更具持续性地运行深度学习应用程序,同时显著降低成本。
由于功能强大的软件开发套件(sdk)和新型散热设计,无需主动冷却,hailo-8在几个ai语义分割和对象检测基准测试中优于英伟达的xavier agx,包括resnet-50。
在图像分辨率为224 x 224的初步测试中,与xavier agx的每秒656帧相比,hailo-8每秒处理672帧。
hailo-8预计在2020年上半年开始批量生产。
kneron
kneron在圣地亚哥和台湾拥有150名员工,并获得了7300万美元的资金,kneron是首批在2019年5月将硅推向市场的初创公司之一。该公司已经有几个客户宣布了其第一代kl520芯片,并在2019年创造了“数百万美元”的收入。
kl520针对卷积神经网络(cnn)进行了优化,可以在0.5w下运行0.3个tops (相当于0.6 tops/w)。这已经足够用于ip安全摄像头中的面部识别,也可用于智能门锁和门铃。据介绍,以这款 kl520 芯片来说,它不仅仅在规格、性能上领先,还有在成本上能实现比较好的平衡,让方案拥有更全面的竞争力;其次在智能门锁特别是人脸识别智能门锁的高速成长阶段,选用 kl520,以更低的门槛切入,有机会快速抢占市场。
该公司最初生产用于面部识别的神经网络,现在又为其神经处理单元(npu)提供这些网络和ip。该公司表示,第二代芯片将于今年夏天问世,它将能够加速cnn和递归神经网络(rnn)。在 kl520 性能的支持下,耐能还能将这个芯片应用到更多的领域中,但耐能并不满足于此,他们现在已经规划了更强的 28nm 和 16nm 产品,展望为未来的 ai 市场带来更多的可能。
mythic
mythic于2012年在密歇根大学成立。该公司目前位于得克萨斯州奥斯汀市,已经筹集了8,600万美元来开发其模拟计算芯片,该芯片使用基于闪存晶体管的处理器存储技术,在功率、性能和成本方面都优于cpu和gpu。
内存处理器并不是什么新技术,但mythic表示,它已经解决了一些棘手的补偿和校准技术,这些技术可以消除噪声,并允许可靠的8位计算。mythic计划销售独立芯片以及多芯片处理卡。由于该设备可以处理30帧/秒的高清视频图像处理,mythic的主要目标市场之一是安全摄像头和用于安全摄像头系统的现场聚合器。
地平线
horizon robotics 于2015年在中国北京成立,这家初创公司到2019年底已经筹集了大约6亿美元,公司估值为30亿美元。如今,horizon robotics拥有500多名员工,拥有600多项专利。
horizon robotics的bpu(大脑处理单元)最初是为计算机视觉应用而设计。第二代bpu是一个64位多指令多数据(mimd)核心,可以处理所有类型的神经网络(不仅仅是卷积网络)。它使用该公司的稀疏神经网络来预测物体的运动和场景解析。第三代将为决策算法和深度学习之外的其他ai部分增加加速功能。
horizon robotics有两条芯片产品线:汽车版journey和aiot版sunrise。第一代journey和sunrise芯片于2017年12月发布,第二代基于bpu 2.0的芯片将于2019年秋季发布。journey 2.0为l3/l4自动驾驶提供典型功耗2w情况下可提供4tops的性能。并结合horizon自己的感知算法,实现了90%的核心利用率。
journey 2.0处理器2019年初流片成功,采用台积电28nm hpc 工艺,基于地平线自主研发的bpu 2.0架构,集成了2个cortex-a53核心,典型功耗2w下就可以提供4tops的性能,是同等级gpu的10倍以上。
此外,基于bpu 3.0架构的第三代征程处理器journey 3.0,专为自动驾驶和域控制器打造,同样符合aec-q100和iso 26262车规级标准,而预计明年发布的matrix 3.0自动驾驶计算平台也会使用征程三代处理器,算力提升到192tops,具备支持asil d的系统应用场景的能力。
物联网中的人工智能(tinyml)
在这一类,我们考虑微控制器级别的计算机芯片,它们在资源受限的环境中以超低功耗运行。在这些情况下,端点设备上的人工智能推断非常有吸引力,因为它增加了延迟,节省了带宽,帮助保护隐私,并节省了与数据到云的rf传输相关的能量。
greenwaves
greenwaves是位于法国格勒诺布尔的博洛尼亚大学的一个分支,它在一个超低功耗ml应用处理器中使用了多个risc-v核心,用于电池供电的传感设备。该公司依赖于其自定义指令集扩展,以方便dsp操作和人工智能加速的最低功耗。greenwaves是最早为业界提供高度差异化技术和市场定位的risc-v芯片供应商之一,以满足市场对risc-v指令集架构日益增长的需求
greenwaves作为arm的竞争对手,将其拥有的专利risc架构授权给许多芯片设计公司使用。而arm销售的知识产权可以结合到芯片制造商制作的芯片中。
2018年他们推出了全球首款物联网应用处理器——gap8,该处理器是业界首款在物联网(iot)应用中实现可以用电池长期供电人工智能(ai)的超低功耗处理器,可以在传感设备中进行低功率ai处理,芯片基risc-v与pulp的完全可编程并行运算架构,以应对机器学习算法最新技术的快速发展。
greenwaves的第二代产品gap9使用了10个核心。其中,1个用作fabric控制器, 9个构成计算集群,控制器和集群位于不同的电压和频率域中,因此它们仅在必要时才消耗电能。它还利用了最先进的fd-soi(完全耗尽的绝缘体上的硅)工艺技术,进一步降低功耗。
gap9的样品将于2020年上半年到达。
eta compute
eta compute为超低功耗物联网设备中的ai处理设计了两个核心—arm cortex-m3 一个dsp。两个核心都使用了动态电压和频率缩放技术,以尽可能低的功率水平运行,这是在没有锁相环的情况下实现的。ai工作负载可以运行在任何一个核心上,也可以运行在两个核心上(这是由软件分配)。使用这种技术,在线图像处理和传感器融合可以实现功率预算100µw。
eta compute还为运行在ecm3532设备上的超低功耗应用优化了神经网络。ecm3532为双核(arm cortex-m3和nxp coolflux dsp)soc,可支持用于电池供电或能源采集设计的微瓦级传感器融合应用。它以仅100µw的功率可实现物联网中的在线图像处理和传感器应用,号称能效是其竞品的100-1000倍。
eta compute成立于2015年,在美国和印度有35名员工,迄今已筹集了1900万美元资金。样品已经问市。 英特尔神经拟态系统扩展至1亿个神经元
https://mbd.baidu.com/newspage/data/landingsuper?context={"nid":"news_9570102096593713062"}&n_type=0&p_from=1
雷锋网
发布时间:2020-03-1912:50深圳英鹏信息技术股份有限公司
雷锋网消息,继去年9月宣布的800万神经元神经拟态系统(代号pohoiki beach)之后,英特尔今天又宣布其神经拟态系统扩展至1亿个神经元(代号pohoiki springs),该系统将拥有超过 1 亿神经元、1 万亿个突触,预计包含 768 颗芯片、1.5 万亿个晶体管。这相当于一个小型哺乳动物大脑神经元数量。
说的更容易理解一些,1只瓢虫的大脑大约有25万到50万神经元,蟑螂大脑约有100万神经元,斑马鱼大脑约有1000万神经元。
当然,pohoiki springs系统依旧是基于英特尔的神经拟态处理器loihi。与大脑一样,loihi能用比传统处理器快1,000倍的速度和高10,000倍的效率处理特定要求的工作负载。pohoiki springs是扩展loihi架构的下一步,可用于评估其解决ai问题以及一系列计算难题的潜力。英特尔研究人员认为,与当今最先进的传统计算机相比,神经拟态系统拥有超级并行性和异步信号传输能力,可以在明显降低功耗的同时显著提升性能。
pohoiki springs作为英特尔迄今为止开发的最大规模的神经拟态计算系统,采用数据中心机架式系统,将768块loihi神经拟态研究芯片集成在5台标准服务器大小的机箱中。
英特尔将向英特尔神经拟态研究社区(inrc)的成员提供这一基于云的系统,以扩展其神经拟态工作来解决更大规模且更复杂的问题。
数据中心机架式系统pohoiki springs(资料来源: tim herman/英特尔公司)
英特尔神经拟态计算实验室主任mike davies介绍称:“pohoiki springs将我们的loihi神经拟态研究芯片扩展了750倍以上,同时以低于500瓦的功率运行。当前,一些工作负载在传统架构(包括高性能计算系统)上运行缓慢。而pohoiki springs系统则让我们的研究云顶集团官方网站入口的合作伙伴能够探索加速处理这些工作负载的方法。”
英特尔和inrc研究人员展示了loihi的各种能力,包括实时识别手势、使用新型人造皮肤阅读盲文、使用习得的视觉地标确定方向,以及学习新的气味模式。所有这些功能都只需要消耗数十毫瓦的电能。到目前为止,这些小规模示例显示出极好的可扩展性,当运行更大规模的问题时,loihi比传统yd2333云顶电子游戏的解决方案更加快速高效。这模仿了自然界中从昆虫大脑到人类大脑的可扩展性。
需要注意,英特尔的pohoiki springs等神经拟态系统仍处于研究阶段,其设计目的并非取代传统的计算系统,而是为研究人员提供一个工具来开发和表征新的神经启发算法,用于实时处理、问题解决、适应和学习。inrc成员将使用英特尔nx sdk和社区贡献的软件组件,通过云访问在pohoiki springs上构建应用程序。
目前,正为loihi开发的前景极佳且高度可扩展算法示例包括:约束满足、搜索图和模式、优化问题。
关于英特尔神经拟态系统的进展,雷锋网将保持关注。 兼具fpga灵活性和asic性能:新兴ai/ml应用需要新的fpga架构
时间:2019-05-28 作者:顾正书
https://www.eet-china.com/news/201905286835.html
在fpga市场,xilinx和intel是两家主导厂商,几乎占据hpc和数据中心的全部市场,留给其它fpga厂商的机会很小。然而,有一家位于硅谷的小公司achronix却跃跃欲试,想凭借突破性的fpga技术和独特的产品策略抢夺这一市场的更多份额,他们有赢得市场和客户的机会吗?
据semico research的最新预测,新兴ai应用为fpga创造的市场增长迅速,未来5年的cagr将超过38%,到2023年规模达到52亿美元。这一市场增长主要来自云平台数据中心和高性能计算(hpc)应用,但针对这类应用的ai算法很多,而且仍在不断变化中,目前仍没有占据主导地位的ai芯片架构,gpu、cpu和fpga都有机会。
图1:semico对ai应用为fpga创造的市场规模预测
在fpga市场,xilinx和intel是两家主导厂商,几乎占据hpc和数据中心的全部市场,留给其它fpga厂商的机会很小。然而,有一家位于硅谷的小公司achronix却跃跃欲试,想凭借突破性的fpga技术和独特的产品策略抢夺这一市场的更多份额,他们有赢得市场和客户的机会吗?
intel虽然在数据中心和hpc市场霸占着压倒性的龙头地位,但在新兴的ai应用上,传统通用cpu正逐渐失去优势,英伟达的gpu一跃成为这一新兴市场的宠儿。微软和亚马逊在fpga上的投入也为fpga行业注入了新的活力。尽管intel有着最为完整的产品线,但收购altera以来却一直没有明确fpga的战略地位和价值。收购mobileye决定了其fpga在汽车市场已经没有发挥空间,最近发布的agilex平台似乎希望将fpga纳入其针对高端市场的整体方案的一部分,但能够发挥多大的价值还有待观察。
反观xilinx在新兴的ai应用上做得有声有色,相对弱小的私营公司achronix在强敌目前能否站稳脚跟?在最近举行的新闻发布会上,其ceo robert blake蛮有信心地表示,客户需要更多选择,achronix有能力凭借其创新的fpga 创新技术赢得客户青睐。对于fpga,新兴ai应用要求芯片不但具有传统fpga的灵活适应性,而且要有asic的性能,要同时在算力、数据传输、存储器层级和接口等方面达到最佳的能效比。如果还是按照传统的fpga逻辑思路来设计,芯片尺寸、面积和性能将难以满足hpc和数据中心对ai推理的要求。
图2:新的fpga架构要兼具传统fpga的灵活适应性和asic的性能
芯片内部各功能模块之间的数据传输现在成了芯片性能提高的瓶颈。异构计算虽然是处理器发展趋势,但将不同架构的模块塞进一个芯片里并不能解决所有问题,相互间的数据传输和互联接口会导致延迟而影响性能,因此同构计算的架构仍有独特的优势。achronix最新发布的speedster7t芯片从三个方面对传统fpga进行了彻底改造,从而满足高性能计算、高速内部数据传输,以及高速储存访问和接口的要求。
机器学习处理器(mlp):专为ai/ml性能而优化的数学运算模块
带有dsp引擎的传统fpga是针对无线滤波等复杂应用而设计的,需要高精度和浮点数字格式,但在处理ai/ml应用时效率比较低,需要消耗额外的逻辑和存储器资源,受限于fpga路由布线,其性能难以达到ai算法的要求。而专为ai/ml性能而优化的数学运算模块mlp则具有高密度倍乘器阵列,同时支持浮点mac和整数mac,而且与存储器块紧密耦合。mlp可以支持fp16、fp24、block float 17/12,以及16/8/4位整数运算。
图3:机器学习处理器(mlp)带片上存储并支持多种数学运算格式
gddr6:高速存储带宽和接口
处理器与片外存储器之间的数据存取已经成为高性能计算和机器学习系统的瓶颈,目前的高速储存标准有hbm和gddr6。hbm成本比较高,speedster7t选择支持gddr6,可以降低成本约50%。每个gddr6控制器可以支持512gbps带宽,8个gddr6的总带宽高达4tbps。
图4:新型fpga架构的高速存储带宽和通信接口
除gddr6外,speedster7t还支持ddr4/5以满足大容量存储要求。在高速接口方面,speedster7t可以支持1-120gbps serdes,具有固化的400gbps以太网接口,以及固化的pcie gen 5接口。
片上网络(noc):堪比城市立交和高架交通网络
如果一个芯片类似于一个拥挤的城市,那么片上网络(noc)相当于这个城市的高架立体交通网络。一辆车要从城市的a点到达b点,走高架立交高速路可以快速达到,而走地面线路则要花费很长时间。同样的道理,在传统fpga设计中,每增加一个加速器和接口所占用的面积都要以平方激增,相当于按照传统的地面线路规划行走。而有了noc,增加一个加速器和接口所占用的面积只是线性增加。因为每个加速器都带有一个网络访问节点(nap),在noc的水平行和垂直列交叉处都有一个主nap和一个从nap,让数据传输速率达到512gbps,总带宽可以达到20tbps。
图5:新型fpga架构的noc立体网络
此外,数据可以从pcie接口直接预存到存储器,而不需要占用任何fpga逻辑资源。例如,要进行400gbps以太网传输,传统fpga需要1024位的总线大小,最大频率要724mhz,这对传统pfga来说是难以达到的。而带noc和nap加速器的fpga则可以分为4个100gbps,只需要256位和506mhz即可实现。这种固化的asic noc架构具有可编程灵活性,可通过nap连接fpga逻辑功能块。
speedster7t fpga运行机器学习网络的初步仿真测试结果还是比较引人注目的,在resnet 50上可以达到8600个图像/秒的性能,在yolov2上可以达到1600,但真实性能还是要等mlperf测试结果出来才能确定。
除了以上展示的三项技术创新外,achronix在产品规划策略上也跟xilinx和intel/altera等fpga厂商不同,这或许是小公司在高度竞争的市场上寻求生存和发展的独特模式吧。对于新发布的fpga技术,achronix不但销售speedster7t fpga芯片,还对外授权speedcore efpga ip。
图6:efpga ip可以嵌入soc设计
实际上,根据ipnest专门针对全球芯片设计ip的市场统计,2018年增长最快的ip供应商就是achronix,相对于2017年ip销售额增长了2.5倍,达到5200万美元。blake先生向《电子工程专辑》透露说,从超大型云计算平台客户那里得到的信息是,他们对单一架构的fpga很有兴趣。微软和亚马逊的云平台都对fpga投入了很多资源,也在尝试开发自己的ai推理芯片,achronix的efpga ip对这些客户应该有很大的吸引力,因为市场上的同类选择并不多。此外,一旦针对某一特定应用的fpga确信可以达到所期望的性能,他们会考虑快速转向asic以降低成本和大规模部署,这时候efpga ip就可以发挥更大价值。
结语
以往芯片设计师在fpga的灵活性和asic的性能及成本方面总是难以兼得,但现在新兴的ai/机器学习应用要求芯片供应商同时做到可编程灵活性和高性能,这需要跟传统fpga截然不同的设计思维才能达到这一标准。achronix的speedster7t fpga芯片和speedcore efpga ip是一个新的尝试,能否在hpc和数据中心市场站得住脚还要看其现实环境下的性能表现。
ai/ml促使fpga和asic走到了一起
2020-03-25来源: eeworld关键字:fpgaasic
http://news.eeworld.com.cn/fpga/ic492508.html
翻译自——semiwiki
随着人工智能、机器学习等应用场景快速发展演进,对芯片的算力、安全性等性能也提出了更高的诉求。据市场调研公司semico research数据显示,2018年fpga市值约为10亿美元,在未来4年内,人工智能应用中fpga的市场规模将增长3倍,达到52亿美元。要知道,这个增长是非常惊人的,毕竟过去多年,fpga市场的年均增长率也才8%-9%。目前人工智能、机器学习等应用场景的fpga市场约为25%,预计两年后将达到72%。如此庞大的市场空间,则需要性能更高、更加灵活的ai 算法yd2333云顶电子游戏的解决方案。
关于块浮点数(bfp)已经出现一段时间了,但是现在才开始被看作是执行机器学习操作的一种非常有用的技术。值得指出的是,这与bfloat不是一回事。bfp结合了定点运算的效率,并提供了全浮点运算的动态范围。在研究bfp中使用的方法时,我想起了几个用于简化数学问题的“技巧”。首先想到的是所谓的日本乘法,它使用简单的图形方法来确定产品。另一个,当然,是曾经流行但现在几乎被遗忘的计算尺。
在即将到来的网络研讨会上,achronix的战略和规划高级总监mike fitton解释了关于在人工智能/ml工作负载的fpga中使用bfp的相关问题,bfp依赖于标准化的不动点随机数,因此计算中使用的“块”数字都具有相同的指数值。在乘法的情况下,只需要对尾数进行定点乘法,对指数进行简单的加法。令人惊讶的是,与传统的浮点运算相比,bfp提供了更快的速度和更低的功耗。当然,整数运算更精确,使用的功耗也更低,但是它们缺乏bfp的动态范围。根据mike bfp的说法,他为人工智能/ml工作负载提供了一个最佳位置,而网络研讨会将为他的结论提供支持数据。
ai/ml训练和推理的需求与dsp中信号处理通常需要的需求大不相同。它适用于内存访问,也适用于数学单元实现。mike详细讨论了这一点,并展示他们构建到speedster7t中的新机器学习处理器(mlp)单元如何对bfp提供本机支持,还支持广泛的完全可配置的整数和浮点精度。实际上,它们的mlp非常适合传统的工作负载,并且在ai/ml方面也很出色,没有任何区域损失。每个mac块最多有32个倍增器。
achronix mlp具有紧密耦合的内存,方便了ai/ml工作负载。每个mlp有一个本地72k位块ram和一个2k位寄存器文件。mlp的数学块可以配置为级联内存和操作数,而无需使用fpga路由资源。
achronix公司推出了创新性的、全新的fpga系列产品——speedster 7t系列。achronix称,speedster 7t系列是基于一种高度优化的全新架构,以其所具有的如同asic一样的性能、可简化设计的fpga灵活性和增强功能,从而远远超越传统的fpgayd2333云顶电子游戏的解决方案。
speedster7t也非常有趣,因为芯片上的高数据速率网络(noc)可以用来移动数据之间的mlp和/或其他块或芯片上的数据接口。noc可以在不消耗宝贵的fpga资源的情况下移动数据,并且避免了fpga结构内部的瓶颈。noc有多个管道,256位宽,2ghz运行,数据速率为512g。它们可以直接将数据从外围设备(如400g以太网)移动到gddr6内存中,而不需要使用任何fpga资源。
achronix将提出一个令人信服的理由,说明为什么在他们的架构中本地实现bfp(包括许多开创性的特性)对于ai/ml和其他更传统的fpga应用程序(如数据聚合、io桥接、压缩、加密、网络加速等)来说是非常有吸引力的选择。
为何要研发speedster7t fpga?——ml和ai需要全新架构的支撑
对于ai加速来说,相较于我们常见的cpu、gpu等通用型芯片以及可编程的fpga来说,asic芯片的计算能力和计算效率都直接根据特定的算法的需要进行定制的,它可以实现体积小、功耗低、高可靠性、保密性强、计算性能高、计算效率高等优势。所以,在其所针对的特定的应用领域,asic芯片的能效表现要远超cpu、gpu等通用型芯片以及可编程的fpga。
但是,目前ai算法仍然处在一个不断的快速更新迭代的阶段,数值精度的可选择性也越来越多。同时随着ai的应用场景快速发展演进,新的yd2333云顶电子游戏的解决方案都要去应对在高性能、灵活和上市时间等方面的不同需求。而aisc是针对特定的算法加速所设计的,这也使得其在灵活性上远不如可通过编程快速适应新的软件算法的fpga。但是,fpga在体积、能效、成本上却又不如aisc。那么是否能够有这样一款产品,能够很好的将fpga和asic的优点结合在一起呢?achronix的speedster 7t系列或许就是这样一款产品。
speedster7t fpga系列产品是专为高带宽应用进行设计,具有一个革命性的全新二维片上网络(2d noc),以及一个高密度全新机器学习处理器(mlp)模块阵列。
该产品的诞生也极具有创新性和针对性,achronix ceo 罗伯特·布莱克先生在接受芯师爷的采访时表示,在研发该芯片时,主要考虑三方面问题:
其一,如何拥有高效的计算力;
其二,如何将数据更快速、高效地传输到计算单元中;
其三,如何实现高效,丰富存储缓存能力。而这也是目前数据加速所需架构的三大要素。
achronix ceo robert blake认为speedster7t是achronix历史上最令人激动的发布,代表了建立在四个架构代系的硬件和软件开发基础上的创新和积淀,以及与我们领先客户之间的密切合作。
speedster7t是灵活的fpga技术与asic核心效率的融合,从而提供了一个全新的‘fpga ’芯片品类,它们可以将高性能技术的极限大大提升。
7nm制程工艺,集结五大优势
speedster7t fpga系列产品经历3年研发,将采用台积电7nm finfet工艺,是专为接收来自多个高速来源的大量数据而设计。整体来看,该产品主要有五大优势: 华为发布openeuler操作系统,投2亿发展鲲鹏,重金赏160万开发者
https://mbd.baidu.com/newspage/data/landingsuper?context={"nid":"news_8524920348890503119"}&n_type=0&p_from=1
雷锋网
发布时间:2020-03-2715:14深圳英鹏信息技术股份有限公司
雷锋网消息,3月27日-28日,华为开发者大会2020(cloud)于线上拉开帷幕,作为一个偏ict属性的开发者大会,主题围绕构建以“鲲鹏 昇腾”为核心的开发者生态,27日主要讲鲲鹏生态。
毋庸置疑的是,计算将是华为面向未来的战略使命,生态是关键。
华为云与计算bg总裁侯金龙首次以新身份亮相,云与计算bg是今年年初华为新设立的bg,显示出其业务地位提升,云与计算也是华为cloud&ai的中文叫法,至于为何不是云与人工智能,大概计算更贴合华为做人工智能的本质,华为从硬件出发,算力、算法和数据三要素中,算力也是华为一直着重强调的。
华为云与计算bg总裁侯金龙
“我们认为,电力是物理世界的动力,算力是数字世界的动力。”侯金龙提到。
传统计算已经无法满足新的需求,计算进入架构创新的黄金时代,世界在呼唤多样性的算力,并呈现以下特点:
异构计算:从通用cpu走向与arm,npu和gpu一起的并行计算和分布式计算;
协同计算:5g使能数据可以更多的分布在边和端,同时算力跟着数据走,实现云边端的协同;
“暴力”计算:ai算力高速增长,预计2025 ai将占据数据中心80%以上算力;
泛在计算:算力将无处不在,覆盖“边、端、云”及嵌入式系统。
既然是开发者大会,华为当然不能做主角戏,在侯金龙的演讲分享中,多次连线云顶集团官方网站入口的合作伙伴,证明鲲鹏生态已经在茁壮成长,包括麒麟软件、普华软件、统信软件,中国科学院软件研究所等。
硬件开放,软件开源
进入智能时代,摩尔定律放缓,传统计算模式已无法满足所有应用场景的需求,世界需要异构、云边端协同且无处不在的多样性计算。未来十年是计算架构创新的黄金十年,多样性的计算架构创新需要每一位开发者参与。
硬件开放 软件开源是华为构建计算产业生态的路径,目前仍在深化。
2019年华为全联接大会期间,当时还是华为cloud&ai产品与服务总裁的侯金龙发布华为计算产业战略,他表示,华为以鲲鹏和昇腾作为根基,打造“一云两翼双引擎”的计算产业布局。
“一云两翼双引擎”中的“一云”是指华为云,两翼是指华为的智能计算业务和智能数据与存储业务,双引擎则是指华为的围绕“鲲鹏”与“昇腾”打造的两个基础芯片族。
本次开发者大会大会上,侯金龙更新了半年来的进展:
硬件开放:华为聚焦做好处理器、板卡和主板等,使能云顶集团官方网站入口的合作伙伴优先发展自有品牌的计算产品整机。目前全球已经有11家整机厂商基于鲲鹏主板推出自有品牌的服务器及pc产品。
软件开源:2019年12月31日,openeuler社区正式上线。今天,openeuler 20.03 lts版本也正式上线,麒麟软件、普华基础软件、统信软件、中科院软件所宣布发布基于openeuler的商用版本操作系统。
使能云顶集团官方网站入口的合作伙伴:截至目前,华为与产业伙伴联合成立了15个鲲鹏生态创新中心,与600多家的isv伙伴推出了超过1500个通过鲲鹏技术认证的产品和yd2333云顶电子游戏的解决方案,广泛应用于金融、政府与公共事业、运营商、能源等行业。
侯金龙表示,“开发者是改变世界的重要力量,也是企业创新的引擎和产业生态的灵魂。华为去年发布了沃土计划2.0,计划5年内发展500万开发者,目前华为云开发者已经增长到160万。“
cloudide开发环境服务、鲲鹏加速库和开发者社区
为了让每一位开发者用上并用好鲲鹏,华为为开发者打造了“3个1”,即1个云上开发平台,1套开发工具,和1个开发者社区,本次则进一步更新:
cloudide:华为云devcloud为开发者提供全流程的软件开发工具,把华为公司30年的软件开发经验开放给开发者,提供可视化、可定制的自动交付流水线,让软件开发简单高效,cloudide是华为云devcloud开发平台组件之一,轻量化基于web的集成开发环境服务,支持鲲鹏原生和多语言,打通了开发态和运行态。
目前,已有超过40万用户在devcloud上开发了超过50万个项目。2020年,cloudide对所有鲲鹏实例全年免费。
鲲鹏加速库:鲲鹏加速库分为基础,压缩,加解密,存储,多媒体五大类,应用开发者可以在代码修改量不到1%的情况下,将性能提升大于10%甚至在加解密等场景下将性能提升超过100%。华为表示,后续还将提供更多的加速库,帮助开发者持续提升开发及迁移效率。
去年华为全联接大会,鲲鹏开发套件的编译器、分析扫描工具、代码迁移工具和性能调优工具已经发布,鲲鹏加速库则是开发套件的新成员。
鲲鹏开发者社区:汇聚集了全栈软硬件知识、鲲鹏产业资讯、政策发布、认证查询等信息,并提供全天候7x24h的专家在线服务。鲲鹏开发者社区的目标是打造以开发者为中心的一站式知识共享平台,覆盖“学、练、训、考”整个人才培养过程。
此外,针对开发者在学习、训练、构建、社交等阶段的不同需求,华为针对性提供相应的资源政策与活动,并优化了流程。包括与50多家高校开展鲲鹏相关的教学与科研合作;发布了24类鲲鹏相关的职业认证;此前发布的沃土计划2.0,五年投入15亿美金,所有激励细则都已经上线,比如初创企业,最高可获得75万人民币的云券。
同时华为宣布为在校大学生提供实习机会:2020年,华为云与计算bg面向全球招收2000名实习生,同时开放200个挑战性课题,欢迎全球的开发者参与,有机会拿到“天才少年”的offer。
两大开发者大赛也正式启动,分别是面向高校的“2020年华为软件精英挑战赛”和面向企业开发者的华为开发者大赛2020(cloud)秋季赛。
为何arm是计算的新时代?
华为芯片和硬件战略fellow 艾伟
华为芯片和硬件战略fellow 艾伟表示,算力格局正在加速转换,20年前,x86提供的算力占总算力的70%,arm仅占5%,如今,arm提供了82%的算力,x86仅为16%。其中很关键的原因是,arm算力增长的速度是x86算力增长速度的5倍。
因此,艾伟认为,计算迎来了新的时代。
新的计算时代需要新的工具去突破瓶颈,延续摩尔定律。华为所做的,就是通过多核并行让性能再次提速。具体而言,鲲鹏916使用了32核的2.4ghz主频的arm cortex a72,到了鲲鹏920,核心数量翻倍,主频也提高到2.6ghz,并且采用的是华为自研核心,实现了性能业界领先。
与多核高性能处理能力匹配的还有先进的接口标准,根据官方的说法,华为鲲鹏920是第一个采用8通道ddr4的处理器,也是第一个采用pcie 4.0的处理器。
硬件之上,还需要算力传递的桥梁软件。根据艾伟给出的数据,arm服务器软件生态的数量从2015年到现在有40倍的增加,达到了2200多家。历经了孵化、加速、繁荣的阶段。
艾伟认为,在云 ai 5g的时代,端边云协同成为了现实,也有了更多的机会。特别是,端边云都是全arm部署的环境,可以提升开发效率、降低开发负担,还提供了多场景的工作机会。 评论 by ligb on 2020.04.27:
cis发展方向是slam-fpga-deep learning-ai。堆叠技术从功能进化观点看是一种模仿大脑的芯片工艺,与动物头部结构技术近似。cis是眼睛,金属互联是互联神经,fpga支撑视觉神经网络、深度学习dl/cnn和ai,相当于大脑神经网络。当进化完成后,fpga变成asic。由于进化不断进行,所以很可能fpga会一直占据最先进算法的ai进化市场,asic会因为低功耗占据成熟算法市场。
未来半导体市场可能变成slam-fpga-deep learning-ai堆叠芯片制造厂竞争,本质是ai大脑进化竞争。
http://news.eeworld.com.cn/mems/ic495474.html
cmos传感器的发展—叠加和互联技术
2020-04-26来源: eeworld关键字:cmos传感器
上一篇我们介绍了阻碍cmos传感器一大主要因素——像素间距,其实它只是影响图像好坏的众多因素之一,还有更多的技术难题摆在我们面前。
叠加和互联
除了像素缩放,cmos图像传感器正在进行其他创新,如芯片堆叠。供应商也在使用不同的互连技术,如tsv(硅通孔技术)封装技术、混合键合和pixel-to-pixel。
多年来,包括像素阵列和逻辑电路在内的图像传感器都在同一个芯片上。最大的变化发生在2012年,当时索尼推出了一款两模堆叠的图像传感器。芯片堆叠可以使供应商将传感器和处理功能拆分到不同的芯片上。这允许更多的功能在传感器,同时也减少了模具尺寸。
为此,索尼开发了一种基于90nm工艺的像素阵列芯片。该芯片被堆叠在一个单独的65nm图像信号处理器(isp)芯片上,它提供处理功能。然后将两个模具连接起来。
最终,其他厂商也转向了类似的堆叠方法。一般来说,顶部像素阵列模具是基于成熟节点的。底部isp模具的工艺范围为65nm、40nm和28nm。14nm finfet技术正在研发中。
与此同时,在2018年,三星和索尼开发了三层设备。在索尼cmos图像传感器系列的一个版本中,一个dram单元被夹在图像传感器和逻辑芯片之间。嵌入式dram支持更快的数据读取。
除了芯片堆叠,供应商也在开发不同的互连方案,将一个模具连接到另一个。最初,omnivision、三星和索尼使用的是tsv,这是一种微小的、类似于通道的电气互连。
2016年,索尼转向了一种名为铜混合键合(copper hybrid bonding)的互联技术。三星仍然在tsv领域精进,而omnivision同时在做tsv和混合绑定。
在混合键合中,模具采用铜-铜互连。为此,逻辑晶片和像素阵列晶片在一个晶圆厂加工。两个晶圆片通过介电间的键合连接,然后是金属间连接。
tsv和混合键合都能实现良好的间距。lam的haynes介绍:“关于cmos图像传感器像素和逻辑晶片的堆叠,tsv集成和混合键合可能会继续与堆叠的bsi共存,但随着多堆叠bsi传感器变得越来越普遍,tsv集成将变得越来越重要。”
还有其他可能的趋势。kla高级营销总监steve hiebert表示:“在未来,我们希望看到两个与cmos图像传感器芯片堆叠相关的趋势。第一个是进一步缩小间距,以实现更高的芯片间互连密度。第二种是增加三种或更多设备的部署。”
下一件大事是像素间的互联。xperi正在开发一种名为“3d混合bsi”的技术,用于像素级集成。索尼和omnivision已经展示了这项技术。
xperi产品营销高级总监abul nuruzzaman:“它会使更多的互联成为可能,它允许传感器的每个像素与相关的a/d转换器之间的像素级互连,而且对所有像素进行并行a/d转换。该连接提供了堆叠像素和逻辑层之间的高密度电互连,允许实现与有效百万像素数量一样多的a/d转换器。混合键合也可用于将内存与专用内存叠加到每个像素上。”
这种结构支持大规模的并行信号传输,使得高速读取和写入图像传感器的所有像素数据成为可能。nuruzzaman:“它使全局快门具有缩放像素功能,可以为自动驾驶汽车、医学成像和高端摄影等各种关键时间应用提供实时、高分辨率成像。”
结论
显然,cmos图像传感器是个动态的市场。但在covid19爆发的情况下,2020年对供应商来说将是艰难的一年。
尽管如此,市场上仍有一波创新浪潮。ic insights的lineback表示:“嵌入式cmos图像传感器和摄像头正在越来越多的应用于安全、基于视觉的用户界面和识别、物联网、自动驾驶汽车和无人机等系统中。”
延伸阅读——像素真的越高越好吗?底大一级压死人
在市场竞争如火如荼同时,智能手机厂商的“像素大战”不断升级。2019年初,华为、小米抢发4800 万像素摄像头手机;年中,vivo、oppo、三星、红米等争先恐后发布6400 万像素手机;如今,继联想之后,小米在三星的加持下,一亿像素手机也实现了量产上市。
目前,手机厂商正利用ai算法将夜拍、防抖、虚化、变焦等一些在相机上的功能逐一攻克并应用在智能手机上,潜望式、tof、超广角、长焦镜头也随之在手机上出现。由此,围绕手机和相机拍照孰优孰劣的争逐渐成为焦点。那么,手机拍照真的能取代相机乃至单反吗?
页:
[1]