State space layers based on hyperbolic partial differential equations

 

Authors:Takaharu Yaguchi

Affiliation:Department of Mathematics, Graduate School of Science, Kobe University

Abstract:大規模言語モデルなどで利用されているTransformerは,入力系列の長さが長くなると計算量が大きくなりすぎることが知られている.そこで,状態空間モデルをニューラルネットワークの層として利用する方法が注目されている.本研究では,既存の状態空間モデルが双曲型偏微分方程式を離散化したものと解釈できることを示し,実際のタスクにそのようなモデルが適用可能であることを示した.

 




Posted : March 31,2025