首页 时尚 娱乐 财经 体育 游戏 社会 科技 教育

体育

旗下栏目:

经过优化的设计比前代Pascal架构能效高50%

来源:未知 作者:admin 人气: 发布时间:2019-08-10
摘要:在ASIC方面,中国中科院计算所孵化好市场化的寒武纪公司寒武纪开发出了一系列产品,在芯片面积控制和性能功耗比上具有非常出色的表现。而在学术成果斐然:在2014年2016年横扫体系结构学术圈,Diannao(电脑)是ASPLOS14最佳论文(亚洲第一次);DaDiannao(

  在ASIC方面,中国中科院计算所孵化好市场化的寒武纪公司寒武纪开发出了一系列产品,在芯片面积控制和性能功耗比上具有非常出色的表现。而在学术成果斐然:在2014年2016年横扫体系结构学术圈,Diannao(电脑)是ASPLOS14最佳论文(亚洲第一次);DaDiannao(大电脑)是MICRO14最佳论文(美国以外国家的第一次);PuDiannao(普电脑)、ShiDiannao(视电脑)、还有指令集Cambricon等后继工作都连中ASPLOS、ISCA。不过,ASIC也存在开发周期比较长的遗憾,这对寒武纪在人工智能芯片的短期商业竞争中非常不利,特别是在中国半导体工业原本就落后于西方的情况下。最后要说的是谷歌的TPU,谷歌TPU其实是传统脉动阵列机的结构,MIT于2016年前后发表的Eyeriss也是类似的架构,必须指出的是,脉动阵列架构是非常老的技术,同时也是非常经典的技术。早在上世纪80年代初,中科院计算所的夏培肃院士和李国杰院士就曾将脉动阵列架构用于石油勘探计算所曾经研发过的石油勘探专用机就是采用了脉动阵列架构。从实际运行性能表现上看,TPU虽然可能在面对退化情形的卷积上也会遇到困难,但做卷积神经网路(CNN)时总体效果还是不错,但做其他类型的神经网络运算,可能效率不是那么高,通用性不是那么的好。例如在语音识别和自然语言理解中常用的长短期记忆网络(LSTM)上面,TPU只有4%左右的效率。

  QA收集器:通过和Turkers对话来收集问题和答案,给定上下文建立一个QA数据集的代理。

  在一个地方可以收集所有重要的对话任务,这还是第一次。ParlAI为研究人员提供的这个场所不仅使这些任务单独地更容易迭代,也使得可以轻松地使用所有的数据来训练机器人,并通过那些技能来对机器人评估。研究员通过检查存放处的代码,共享他们的AI学习代理,直接复制对方的实验结果,来进行彼此工作之上的研究,共同推进这个领域前进。最后,Mechanical Turk的整合意味着人类可以很容易地投入到与机器人交谈的循环之中,以帮助训练和评估他们。人类之间的对话对制造可以和人类交谈的机器人也很有必要。

  制造聊天机器人,人机对话是训练过程中很重要的一部分。这就是为什么ParlAI支持和Mechanical Turk 整合来数据收集,训练和评估。这也使得研究小组的Turk实验可以对比,这在以前是困难的。在ParlAI中,Human Turkers也可视为代理。他们可以轻松地与机器人交谈,以帮助训练和评估他们。随后,人-人 ,人-机 或多人和机器人聊天都可以在标准框架内进行交互。在切换所需的角色过程中,代理不用更改代码。这是因为Turkers可以通过同一接口的印刷版接收和发送。

  ZeniMax上周五在达拉斯联邦法院提起诉讼,指控卡马克收买了马特胡珀(Matt Hooper),后者曾效力于ID软件,现在就职于Oculus,两人下班后在ID软件公司办公室讨论,准备在Oculus实施移动虚拟进攻计划。

  就产品定位来说,Tesla V100性能超强,拿来类比的话是一台超级计算机,而在很多场景下,其实用不到性能这么强,价格如此昂贵的产品。对于普罗大众和大多数应用场景来说,性能够用、功耗低且廉价的产品才是最好的选择,就像普通消费者需要的是智能手机和PC,而不是超级计算机。比如将来智能手机里如果要集成针对深度学习的模块,英伟达的产品显然是不合适的。在这种场景下,开发专门针对嵌入式平台的处理器IP更加符合市场需求。

  虽然TeslaV100在性能上无与伦比,而且在一些领域颇具市场潜力,但还是存在不少缺点的。比如芯片面积过大高达815平方毫米,而过大的芯片面积,加上英伟达在该款芯片上巨额的研发投入(黄仁勋称英伟达花了30亿美元打造这款芯片),直接导致Tesla V100的价格异常昂贵,售价高达14.9万美元。如此高的售价会让很多用户望而却步。

  上周,英伟达在加州举行了2017年的GPU技术大会(GTC2017)。在大会上,英伟达CEO黄仁勋发布了全新力作NVIDIA Tesla V100。根据英伟达官方介绍,Tesla V100采用了全新架构Volta,不仅会有更强的性能,还增加了TensorCore用以专门针对深度学习。在发布会后,英伟达的股价也随之走高。那么英伟达能凭借Tesla V100强悍的性能在深度学习领域力压群雄吗?

  根据英伟达官方介绍,TeslaV100采用台积电12nm FinFET制造工艺,供集成了210亿个晶体管,芯片面积达815平方毫米。英伟达为了针对深度学习,专门进行了优化,经过优化的设计比前代Pascal架构能效高50%。而且新的 Tensor Core是专门为深度学习设计的,为浮点运算速度带来了 12 倍的提升TeslaV100增加了TensorCore,Tensor单元本质上是把运算器做得更密集,以这种方式获取更强性能。此外,TeslaV100还拥有更大的带宽和更低的延迟,半精度浮点乘混合单精度浮点加法也非常适合深度学习训练。分分彩长龙概率

  全球知名游戏发行商ZeniMax Media没有停止有关虚拟现实技术的相关诉讼。

  由于人工智能的迅速发展,诸多企业对与高性能深度学习处理器的需求也与日俱增:

  百度2016年打造的DeepSpeech2AI需要每秒20百亿亿次浮点运算的处理能力;

  2014年,ZeniMax曾起诉Oculus的创始人帕尔默洛基(Palmer Luckey)非法挪用ZeniMax有关虚拟现实(VR)技术的商业秘密。卡马克是ID软件的联合创始人,该游戏开发工作室彻底革新了第一人称射击游戏。ZeniMax在2009年收购了ID软件,2013年8月,卡马克离开ZeniMax,加入Oculus担任首席技术官。

  自AlphaGo与韩国棋手李世石大战之后,深度学习、人工智能这些概念立马火了,不仅成为资本的宠儿,各色各样的深度学习处理器纷纷涌现出来,各家IC设计公司推出了各自CPU、GPU、FPGA、DSP、ASIC等方案。

  简而言之,就是运算器堆的更多,矩阵乘法运算能力更强,性能得道大幅提升,Tesla V100双精浮点运算性能高达7.5TFlops,相比之下,Intel用于深度学习的KnightsMill双精浮点性能为3TFlops。

  最后就是功耗的问题,英伟达的终端低功耗做得不够好。必须说明的是,台积电的12nm工艺其实是16nm工艺的改良版本,是针对三星玩14nm命名游戏的反击。因此,台积电的12nm工艺到底对功耗控制有多大实际效果还是等产品上市后才能见分晓了。

  英伟达的Tesla V100的市场定位类似于核弹,但真正需要核弹的场景其实相对不多,而且客户也只能是谷歌、微软、百度这些国际巨头。正如核弹仅被少数国家掌握,而且在国际冲突和局部战争中鲜有使用,AK47和RPG是才是被最广泛使用的武器类似,英伟达的这种市场定位,会使其失去非常广阔的嵌入式设备市场。

  沧州中国农业银行网点电线年常德市公积金贷款逾期率为0.013‰ 达3年来最低水平

  在FPGA上,阿尔特拉推出的用于人工智能的FPGA,双精浮点性能为1.5TFlops,虽然双精浮点性能只有 Xeon Phi 众核芯片的一半,但性能功耗比却高达50GFlops/W,如果人工智能硬件选择FPGA,那么不仅对Xeon Phi 众核芯片在性能功耗比上有明显优势,对英伟达的GPGPU也占据优势地位。而更高的性能功耗比就意味着在运营和维护中能够节省电费。FPGA虽然会在新兴领域取得一定成绩,但却缺乏性价比的问题,而且在新兴领域发展壮大后容易被专用芯片所取代。不过,就目前来说,FPGA也是深度学习处理器的一个选择。

  第一版发布的工具栏里包含工具代理,像简单的IR基带,同时还有两个完整神经网络案例:一个端到端的存储网络,在Lua Torch 中执行,还有一个是长短时记忆模型DrQA, 是在Py Torch 中执行,在SQuAD数据集和其他数据集之间有一个强大的效果。我们期待在未来的版本中添加一些新的任务和代理。

  新浪科技讯 北京时间5月16日下午消息,继起诉Facebook旗下的Oculus公司并赢得5亿美元后,ZeniMax又将矛头指向三星。

  ZeniMax认为三星应该已经知道该公司曾在2014年起诉Oculus,但继续利用ZeniMax诉讼中所提到的全部知识研发Gear VR,而且没有从ZeniMax公司获得任何使用其版权或其他机密信息的权利或许可。

  模型评估器:基于机器人在给定任务中的性能表现,从Turkers中收集评级的代理。

  对于AI来说,解决对话问题仍然是一个长期的挑战,对于这一目标的任何进展都有可能对我们今天所制造的产品带来短期利益,任何技术的进步都可能对其他行业领域带来好处。ParlAI是一个平台,希望将做AI代理执行对话框的研究人员聚到一起共同推动对话研究达到世界最先进水平。

  betway. app总而言之,就深度学习处理器而言,已然进入战国时代,而且各家的产品都有可能在这个广阔的市场中找到自己的定位和细分市场,在这种情形下,英伟达想凭借Tesla V100一统江山显然是不切合实际的。在战国时代,相对于技术上的片面追求极致性能,而忽视成本、功耗、价格,如何开拓更多细分市场,更好的商业化才是在大争之世的当务之急。

  第二,国服现在和韩服的平衡性调整,应该是相对来说有一些区别,在韩服更新的基础上,我们要看看在中国的玩家的活跃情况怎么样,覆盖的情况怎么样,综合的因素来考虑。

  因此,英伟达的TeslaV100作为数据中心GPU是非常具有潜力的,不仅可以满足训练的需求,还可以放在后台提供相关服务。

  ZeniMax的母公司曾推出过《毁灭战士》、《雷神之锤》、《辐射》等名噪一时的游戏,近期,ZeniMax对三星公司的Gear VR头戴式显示器提起诉讼。此前,该公司刚刚赢得对Facebook旗下Oculus的判决,获赔5亿美元,此番又指控三星公司凭借由ZeniMax研发、被Oculus公司首席技术官约翰卡马克(John Carmack)盗用的技术不当获利。

  就CPU来说,最典型的就是Intel的Xeon Phi。Intel的众核芯片双精浮点性能为3 TFlops,性能功耗比为12 GFlops/W。虽然Intel宣称:四片 Knights Landing Xeon Phi芯片比四片 GPU要快 2.3 倍、使用Intel优化版的Caffe深度学习框架时,Xeon Phi芯片要比标准 Caffe 实现快30倍。但目前来说,还是英伟达的GPU更胜一筹。除了Intel之外,中国自主设计的申威26010也是一个潜在的选手,在人工智能领域也有应用的潜力,百度还为此与申威有过接触。

  在DSP上,国内外还有不少单位或公司也选择用传统SIMD/DSP架构适配神经网络。比如中星微的星光智能一号、CEVA公司的XM4处理器、Cadence公司的Tensilica Vision P5处理器、Synopsys公司的EV处理器等。这些处理器本质上都是将传统的面向数字信号处理的DSP处理器架构用于处理神经网络,主要在运算器方面作了相应修改,例如低位宽和超越函数。这种做法的优势在于可以充分利用现有的成熟技术,但缺点也很明显,就是在应用领域上有一定局限性。大多用于卷积神经网(CNN),而对循环神经网络(RNN)和长短期记忆网络(LSTM)等处理语音和自然语言的网络则无能为力。换言之,就是这种DSP主要用于机器视觉领域,可能难以应用到语音识别、文本处理和自然语言理解等领域。虽然采用DSP作为人工智能硬件存在一定不足。不过,采用现有比较成熟技术应用于人工智能细分市场的做法在商业上还是有一定潜力的。

责任编辑:admin

最火资讯

| 时尚 | 娱乐 | 财经 | 体育 | 游戏 | 社会 | 科技 | 教育