找到相关新闻1篇

比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了

本文探索了 Monarch Mixer (M2) ,这是一种在序列长度和模型维度上都是次二次的新架构,并且在现代加速器上具有很高的硬件效率...

机器之心Pro 2023-10-29 12:26:16

1
我要反馈