Llama 2 可以在本地 Mac 运行了

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 810 天前的主题，其中的信息可能已经有所发展或是发生改变。

试了一下，可以玩玩。如果可以针对中文再训练一下，效果估计会更好了。以商用后，真的造福人类：

https://www.bilibili.com/video/BV1HX4y1J76P/

llama

Mac

造福

可以

27 条回复 2023-08-09 23:21:40 +08:00

murmur

2023-07-23 09:31:12 +08:00

大语言最重要的是上下文，这才是堆硬件的意义，没有上下文的大语言还比不上 google ，不支持中文，上下文几乎没有，似乎还不如 chatglm 12g 的表现，而且你这资源都占了 40g 了

3dward

2023-07-23 09:41:51 +08:00 via Android

@murmur 支持上下文，中文也有支持只是不太好。具体我也不是很懂，只是本地做了个实验

locoz

2023-07-23 10:09:54 +08:00

实测 70B 版本干活的水平也就比之前稍微好点，跟 GPT4 还是差太多了，依然是只有聊天、知识库问答之类的简单场景适合用，还是处于玩具的水平。在这前提下能不能运行到本地设备的意义都不大了，缺乏实用性。

Solix

2023-07-23 10:18:13 +08:00 via iPhone

试下这个 https://huggingface.co/spaces/LinkSoul/Chinese-Llama-2-7b

046569

2023-07-23 10:37:03 +08:00

@locoz
方便分享测试数据么?
什么设备上测的?显存占用和速度( token/s )如何?
想升级设备.

locoz

2023-07-23 12:34:40 +08:00

@046569 #5 直接在 huggingface 上测的，资源占用情况不清楚，你可以租云算力跑一下试试

Jirajine

2023-07-23 13:31:49 +08:00

效果差就本地运行意义不大？本地运行最大的意义是可以自由使用，使用量、隐私数据、绕过法律道德伦理审查。

lingo34

2023-07-23 16:47:56 +08:00 via Android

不只可以在本地 mac 运行，连把道德枷锁去了的 uncensored 版都出来了。
这些家伙是真的快。

046569

2023-07-23 16:55:18 +08:00

@locoz
云计算参考意义不大,那些服务器个人购买还是太贵了.我想放在本地运行.感谢回复.

再蹲一会看看有没有类似的数据.

locoz

2023-07-24 00:19:50 +08:00

@046569 #8 就算你不考虑用服务器+专业卡，那些服务商里也有租消费级硬件的，国内这块市场很成熟了，主流选择随便一搜就能找到

046569

2023-07-24 10:03:33 +08:00

@locoz
算力云这些我也用过.之前炼丹就是在上面跑的.主打性价比.
但这些方案不太适合个人 **本地** 推理.

我调查过相关方案:

1. 3090 * 8 + NVLink ,保修堪忧,价格适中;
2. 4090 * 8 + 魔改 NVLink,淘宝有商家在做.可得到最高的推理性能.最贵.
3. Mac Studio 192G,大显存.最便宜但慢.

如果预算不足就只能选 Mac 了...

wanghui22718

2023-07-24 10:15:13 +08:00

@046569 4090 nvlink ？ tb 没找到相关信息，求指教，感谢

locoz

2023-07-24 11:38:44 +08:00

@046569 #10 你似乎理解错了什么，我的意思是你如果想知道显存占用和速度( token/s )如何，完全可以租云算力自己测试，想用什么卡就租什么卡。

另外就目前这玩具水平来说，个人场景下的本地推理属实有点伪需求...不过你开心就好。

locoz

2023-07-24 11:39:48 +08:00

@046569 #10你说的 4090+魔改 NVLink 指的具体是什么样的操作？我也没搜到相关的商家

ShadowPower

2023-07-24 12:02:50 +08:00

本地模型目前还是不实用。我平时主要用来生成代码和重构代码，还有翻译大量文本。
只有 ChatGPT 3.5 和 Claude 达到了能用的程度。

而且不少代码也是一次性使用/开源使用，完全不会涉及个人信息……
所以那两家免费服务已经完全满足需求了。

公司里会用开源模型来做一些自然语言处理任务。不过硬件也不需要自己操心，用的 NVIDIA 的专业卡……

046569

2023-07-24 14:33:15 +08:00

@locoz
问题是五万以内预算,兼顾大显存与保修,除了 Mac 就是 4090 * 2( 捡垃圾 3090 * 3 ).
不想采用 NVIDIA 的方案一是显存较小( 44G VS 192G ),需要拆分模型;二是作为一个臭打游戏的来说,老黄的吃相,影响食欲.
所以我更期待看到有关 Mac 的测试,似乎没看到各家的算力市场中有提供.如有请告知.根据我目前的测试,这里是有些坑的.多看看可以避坑.

大模型本地部署是有着很强的优势的,比如:

1. 不会因为大公司的模型一更新,你学会的方法就不能用了.
2. 可以进行训练微调,获取某个领域的专业技能.这点可能随着技术发展会被湮没.
3. 可以离线部署,不会泄密.
4. 对齐导致的精度下降等等.

简单的说,本地部署 VS 大公司产品可以理解成 NAS 和公有云网盘之争.私人网盘无论稳定性还是功能性都远远不如公有云,但很多人依然选择自建.我相信每个掏出真金白银的人都有充足的理由选择本地部署.从这个意义上说, Mac Studio 更适合小型工作室或者个人开发者. 不是所有的开发者都能拿出 A100 * 32,但他们仍然应该有资格入场,这是一种平等.

科技的进步如果让生产力垄断在少数公司手里,而不是让每个人变的更强大,这是何等悲哀的景象.

依我看:
用个人用户体验去判断某个行业的应用前景,未免武断了.至少也应该使用数据集进行测试, zero shot 能否满足需求? few shot 呢?Lora 表现如何?
现阶段,重视模型的使用胜于挑刺.采用更 open 的眼光看待新事物,保持对世界的好奇心,可以证明我还没老.

@wanghui22718
店铺叫开源宇宙 GPU 服务器工厂.

PS: 本人与该店铺无任何利益相关.

locoz

2023-07-24 22:22:02 +08:00

@046569 #15
1 、显卡这种东西基本就不存在损坏问题，纠结保修除了减少可选项以外毫无意义。我服务器上没改散热的 3090 之前闲着的时候就一直在挖矿，直到 ETH2.0 之后才停，挖矿期间显存长期保持 110 度拉满，比矿场环境还恶劣，然而到现在依然在稳定运行。

2 、拆分模型带来的性能损失也没有用图大显存而用苹果芯片带来的多，NVIDIA GPU 的方案依然是最优解。

3 、苹果芯片目前的能力过弱，显然不会有人正经用，更不会成为主流，怎么可能会有人拿出来做出租的生意...想找到基于苹果设备的测试案例就更是海底捞针了。

4 、大公司的模型再怎么更新，也依然可以通过 Prompt 引导学会特定方法，甚至是遵循复杂的规则。这种事情对于当下的大模型而言都并不是什么问题，在未来随着 Token 上限的提高，就更不会是问题了。

5 、随着模型被喂的数据越来越多，微调的需求只会越来越少。而且现在的 GPT4 都已经能通过 Prompt 引导做到训练数据中大概率没有的事了（正常让它说都完全说不出正确信息的专业领域），除了信息量大且与其他领域没有共通点的情况以外，只要 Token 够用就不需要微调。

6 、担心泄密的只会是企业级场景，信息量大、使用人数多无法面面俱到；个人场景下不存在这个问题，只需要做个内容替换处理就能解决。

7 、实测再怎么精度下降也比开源模型强，完全没法比...换句话来说，如果开源模型有能力做到与商业模型（如当下的 GPT4 ）同等的水平，那做出这个开源模型的厂商为什么不拿去赚钱？用爱发不了电啊。

8 、目前的大模型市场根本就不是私有云（ NAS ）跟公有云的情况，你这个例子是错误的。之所以私有云能始终占有一席之地，本质原因是：在自建的情况下，只要花了足够多的钱就能在自己的一亩三分地上得到足够好的体验，而用公有云要做到同样好的体验需要花费远超自建数倍甚至数十倍、数百倍的成本才能做到。

现在的开源模型在基本的能力上就完全没法跟商业模型比，商业模型已经跨过了“可用”的门槛，开源模型还处于上一阶段的水平，只是部分优化过的样例看起来还行而已，实际一上强度就拉稀。在这种情况下，你花再多的钱也达不到足够好的体验，都没有可比性。

9 、小工作室、个人开发者做产品要追求速度（除非不打算活了），Mac 更不可能作为可选项，无论是买二手卡还是云服务，都比用 Mac 实际。更何况小工作室、个人开发者程度的需求，通过设计 Prompt 就能解决，基于商用模型做的效果和效率只会更好。

10 、在需要砸钱发展的领域，没钱的公司本来就不配参与，被少数公司垄断是非常正常的现象，这就是现实。而少数公司只要想赚钱，最后自然而然地就会普惠大众，自然也就会让每个人变得更强大，不存在悲哀。（基于 OpenAI 的接口出来的各种套皮服务就是很典型的例子）

11 、行业的应用前景跟个人场景毫无关系，而且企业级的场景在大语言模型能力不足的情况下，也只会将其用于合适的简单应用，或者使用其他专用模型代替。

12 、不需要加入数据集进行测试，基底模型的能力不行就是不行，这是我实际体验了各路开源模型后得出的结论。LLaMA 在这几个月里被搞出来的微调版本这么多，个个都是动不动就被人吹成能追上 GPT3.5 甚至 GPT4 的水平，甚至还有自己在文章里就吹能部分达到 GPT4 水平的，但又有哪个能真的达到？都是一上强度立马拉稀。

13 、我不清楚你是什么情况，但我是在 ChatGPT （ GPT3.5 ）刚出来的时候就已经将其融入到了日常的工作和生活中实际使用，在 GPT4 出来之后更是进一步做了很多自用的、包含复杂逻辑的省事工具，也用其解决了很多麻烦事，并且在 OpenAI 大规模封号后也测试过了各路开源模型，家里的机柜更是早在 ChatGPT 出来前就预留了 GPU 服务器的位置。我觉得我应该已经比除了本身就在 AI 行业内的人以外的绝大多数人都重视模型的使用、用足够 Open 的眼光看待新事物了，完全有资格挑刺。

14 、你似乎又理解错了什么，这家名为“开源宇宙 GPU 服务器工厂”的淘宝店并没有所谓的“魔改 NVLink”，也并没有宣称自己有所谓的“魔改 NVLink”，只是个卖常规多卡 GPU 服务器的商家而已。不过他们的定制服务器机箱倒是有点意思，提供了一种非品牌服务器的机架式多卡方案。

046569

2023-07-25 11:12:45 +08:00

@locoz
1. 我坏了两块显卡.一块换新,另一块还杳无音信.所以我关注保修.电商的返修率也能说明问题.
2. 在不超过预算的前提下,如何为客户组装能同时跑两个甚至三个 70B 模型的全新英伟达硬件?有配置推荐么?
3. 客户是十几人的小律所,接案律师疲于奔命,想利用 AI 快速筛选难以胜诉的官司.出于合规性要求,必须离线部署.没办法选择商业闭源模型.即便是开源模型在很多领域无法与闭源相媲美,但只要能胜任工作,我觉得就是好模型.类似的,还有医院使用的心电图 AI ,可筛出极早期异常 Q 波,也需要本地部署.
4. 现阶段,依托 openAI 的国内公司,都不合法.很多公司应该也都收到了通知:禁止设立 openAI 与 chatGPT 的镜像站.
5. 个人考虑隐私选择本地不是很正常的需求么.换句话说,我自己开心 YY 一下存本地不是正好.出个新模型测试一下,本地跑跑也很方便呀.
6. 你实际的体验是如何体验的?测试环境和测试方法是什么?又是如何评分的?与目前的测试集相比,有哪些优势?不能因为个人喜好,就推翻行业内的通行做法吧?
7. 你做的很多自用的、包含复杂逻辑的省事工具,解决了什么问题,又是如何解决的?能举个例子便于理解吗?
8. 店铺是朋友推荐,我并未亲自查看,如果误导他人,并非出自本意,深感抱歉.

jjxtrotter

2023-07-25 11:59:04 +08:00

这个视频 128G 内存 mac studio

locoz

2023-07-25 14:15:52 +08:00

@046569 #17
1 、个体现象说明不了什么，我认识的几个专业挖矿的，小量级的也都是至少几十张卡的水平，还有个矿老板级别那种在仓库里摆了几货架挖的，并且也都是新卡老卡都有，就没见哪个说卡坏了的。如果那么容易坏，那他们这个数量级怎么说都得出点坏的，但现实是根本没有。

2 、又要“全新”、又要高配、又要便宜，梦里啥都有，建议去梦里找。

3 、你说的这两种情况都是专用模型就能解决的事情，以往又不是没有做这种事的，哪个非要在通用大模型基础上做的了...而且像律师这种场景，把难以胜诉的官司的特点列举出来，用 Prompt 也能解决，合规问题应该也可以通过脱敏解决，实在不行也可以先用本地小模型提取关键信息再做处理。单纯这种程度的需求，想绕过离线部署有太多方法了。

4 、禁止设立镜像站跟使用服务并没有什么关系，自己内部使用是没问题的，两种情况的性质不同。

5 、“我自己开心 YY 一下存本地不是正好.出个新模型测试一下,本地跑跑也很方便呀.”这叫玩，不是实际需求，不存在可持续性。而且隐私问题前面已经说过了，个人场景下不存在这问题，又不是文件存储需求那种无法避免需要提供完整数据，且只要对数据进行处理就会影响体验的情况。

6 、很简单，直接把 GPT4 能正常输出的、具有复杂逻辑的要求丢给不同的模型，由于内容高度定制化，基本不存在同样的训练数据，可以有效测试出模型最基本的意图理解、逻辑、泛化等能力。

然而事实上现在的开源模型在我测试时，绝大多数情况都无法进入评分的阶段，直接就可以 0 分出局，都是要么胡言乱语、要么无视要求、要么自创要求、要么输出了一堆空话之类的情况。说白了就是只要不简化要求就根本做不到正常输出，而简化了要求又没有必要用 AI 来解决了，所以自然就只存在“可用”和“不可用”两个档次，不存在评分也不需要评分，再怎么评也都是不可用。

少数几个要求由于输入内容和输出要求的规律都比较常规（比如在具有复杂数据内容的情况下，将常规数据结构转成另一种常规数据结构），所以部分模型（如 Guanaco ）在明显针对性训练过的情况下还能输出基本符合期望的结果。但这部分模型如果一上强度（比如处理自定义数据结构的数据），依然是无法正常输出，典型的情况是样例贴脸上了都不会遵循着写，莫名其妙按着自己的格式在输出。

locoz

2023-07-25 14:21:46 +08:00

@046569 #17
6/7 、举一个我认为很典型、很能体现模型基本能力的例子：

我前段时间在一个 Ceph 集群的 MDS 完全无法正常工作的情况下，研究 CephFS 存在 metadata 池中的文件元数据。由于 Ceph 是完全自定义的数据结构，从池中导出来的内容中几乎没有明文文本，想要在没有源代码的情况下分析数据内容（懒得找），就得靠找规律切出每条数据后，结合已知的其他外部信息结合分析，这属于典型的黑盒逆向。

而 GPT4 能做到什么程度？

在我通过人工判断快速确定了文件元数据所在的位置后，随手复制一大段 16 进制状态的数据丢进去，告诉它这应该是一个自定义的数据结构，其中可能包含了多个文件的元数据，要求它分析数据结构、找出规律。然后 GPT4 不仅找出了规律，逐个列出了切出来的单条数据，还大致判断出了每条数据中可能包含了哪些信息、字段可能的格式是什么样。并且在我没有要求的情况下，还将其中包含的少数明文文本内容（为 16 进制状态，混在那一大段数据中）也处理成了明文进行描述。

而在我根据规律切出数据，再补充上当时能匹配上的一些文件的元数据信息之后，GPT4 几乎给出了准确的数据结构定义，除了提供的样例数据中没有的情况和一些可能是数据丢失或是其他数据结构的情况导致异常以外，直接基于这份数据结构的定义暴力解析出大致的元数据是完全没问题的。

事实上对 Ceph 的数据结构分析也不仅是 CephFS 的 metadata ，其他的数据我也尝试这么逆向分析过，包括后续的根据分析结果编写处理代码在内，整个流程中 GPT4 都给我省了相当多的事。这个水平，市面上的其他同类模型就没有一个能打的，包括 Claude 、PaLM 这种评测排行仅次 GPT4 的商业模型在内。

lianxin255

2023-07-26 11:33:57 +08:00

@046569 b 站有个 up 用 m2 Ultra 的简单测试，你可以看看。链接附上： https://m.bilibili.com/video/BV1fh4y1M7DX?ts=1690342397&spmid=333.401.click.desc_more&h5_buvid=6393792F-E382-DEA2-AB13-854D2B9785F127256infoc&unique_k=EkNsJ8v&bsource=share_source_weixinchat&openid=o7omF0SUs2y0-EVJROIK09gqWhYs&wxfid=&page=0

046569

2023-07-26 14:33:31 +08:00

@jjxtrotter
@lianxin255
我之前关注了林亦 LYi,所以第一时间就看到了.然而他在视频中的说法是有误导性的.我求证了 Apple 工程部,截至目前尚未回复具体数据,说是要等待测试结果.

cheneydog

2023-08-09 15:11:39 +08:00

@locoz

关注你！
感觉你对 AI 应用非常深入了。有没有技术博客、开源项目分享，我也在学习这个方向。

locoz

2023-08-09 21:55:46 +08:00

@cheneydog #23 没有，我看的东西比较零散，没有特意关注某个或某些博客之类的。而且其实前面的很多内容实际不属于 AI 领域的范畴，AI 领域或者说是大语言模型领域的也都是自己尝试一下就能得到的知识，自己多深入用用就好了。

locoz

2023-08-09 22:00:17 +08:00

@046569 #22 B 站站长 bishi 前段时间使用 192G 版本的 M2U 做了测试，你可以参考一下：“llama 70B ，没有 4bit ，思考的时候吃掉 140G ，速度和高峰期用 gpt4 没太多区别”

有一说一，和之前说过的一样，没有实用价值。推理时 140G 统一内存占用，意味着多人使用顶不住；速度和高峰期的 GPT4 差不多，意味着速度已经慢到基本没法用了。

046569

2023-08-09 23:21:40 +08:00

@locoz
简单估算模型规模 * 2 就是无量化的显存占用.
速度不容易估算出来.所以这个数据更有价值一些.好在过了这么多天,网上已经有很多测试视频了.
多人使用肯定要量化的.慢点总比用不了要好.