地表最快言模型?果新模型FS-DFM 文本生成速度提升128倍
果公司(Apple)研究人在俄亥俄州立大的合作研究中,表了一款名 「少步散流匹配」(Few-Step Discrete Flow-Matching, FS-DFM)的新型言模型。模型在文本生成方面展出革命性展,其作速度最高可比同模型快上128倍,同持高品。
果公司(Apple)研究人在俄亥俄州立大的合作研究中,表了一款名 「少步散流匹配」(Few-Step Discrete Flow-Matching, FS-DFM)的新型言模型。模型在文本生成方面展出革命性展,其作速度最高可比同模型快上128倍,同持高品。
[caption id="attachment_195325" align="alignnone" width="693"]
“ FS-DFM:使用少步散言模型快速地生成文本”的研究中,自果公司和俄亥俄州立大的研究人提出了一名少步散流匹配(FS-DFM)的新模型,行更大、更的更新,而不「超出」期文字。(/AI生成)[/caption]
的言模型(如 ChatGPT 所使用的 LLM)於自模型(Autoregressive Models),必依序一元(token)一元地生成文本。之相的散模型(Diffusion Models)然能平行生成多元,但往往需要百甚至上千次的代修正才能生最果。
延伸:
年底潮!果副推文藏彩蛋、告「怪」MacBook Pro
告 Plus!果串流服正式更名「Apple TV」解名混
核心技
名《FS-DFM:使用少步散言模型快速的文本生成》的研究指出,FS-DFM 模型需八次快速修正,便能生成需要超一千步的散模型品相的完整篇段落。研究人用了精巧的三步方法成此一突破:
模型:
使其能不同次的修正算。
引入指:
使用一引性的「教模型」(Teacher Model),助 FS-DFM 在每次迭代行更大、更精的更新,同避免文本「度修正」。
迭代化:
整每次迭代的工作方式,使模型能以更少且更定的步到最果。
卓越的效能表
在的文本品衡量指上,FS-DFM 的表於有大型散模型。困惑度(Perplexity)是用於衡量文本自然度和度的指,分越低代表文本越流自然;熵(Entropy)衡量模型每的信心,度的熵值能保文本既不重,也不 incoherence。
高 70 的 Dream 散模型和 80 的 LLaDA 散模型相比,模有 17 、13 甚至 1.7 的 FS-DFM ,在所有迭代次下,均能持到更低的困惑度,保持更定的熵值。
研究人表示,於方法所展的卓越成果,以及目前似模型研究的缺乏,他「布程式和模型查,以促重性一步的研究」。界期,技的源加速高效能文本生成域的展。相施技探,可表於 arXiv 上的完整文。
篇文章 地表最快言模型?果新模型FS-DFM 文本生成速度提升128倍 最早出於 科技-掌握科技新、科技最新。
- 者:Mily
- 更多科技新 »