GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也被干趴! LLM若想高速推理,现如今,连GPU都无法满足了?曾造出世界最大芯片公司Cerebras,刚刚发布了全球最快的AI推理架构——CerebrasInference。运行Llama3.18B时,它能以1800tok 英伟达H100 2024年09月03日 129 点赞 110 评论 93 浏览