V2EX smalltong02 的所有回复第 1 页 / 共 4 页

@Aka114514

是的，其实我是调用了 takepicture 功能获取的图像数据，这样省了转换的编码，其实如果获取原始的 pcm 数据流就没这个问题了。我下个版本会进行修复，好像有些国家或地区，在调用拍照的时候必须开启快门声音，为了避免偷拍什么的。请问您的手机是苹果手机还是 ipad? 我的苹果手机没有快门的声音。

320 天前

回复了 smalltong02 创建的主题程序员我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP 中

请问大家试用过之后有什么反馈吗？

我提供自己的一个测试案例，我复现过 Google 演示中一个非常厉害的功能，我在桌子上放了一个 PC 的头戴式耳机，然后在提问过程中，手机摄像头移动时扫到过这个耳机，在又经过一些问答之后并且摄像头并没有对准桌子和耳机的情况下，我询问是否有看到我的耳机在什么地方，Gemini 2.0 回答耳机在桌子上。

2024-06-19 00:30:00 +08:00

回复了 smalltong02 创建的主题程序员对 Qwen 2 模型代理能力的完整测试

@wwvvance
我使用我自己的开源项目支持的 Qwen 函数调用： https://github.com/smalltong02/keras-llm-robot

2024-06-19 00:28:48 +08:00

回复了 smalltong02 创建的主题程序员对 Qwen 2 模型代理能力的完整测试

@wwvvance

对于原生支持 Function Call 的模型，比如 OpenAI ，Gemini 和 Kimi 等，我都使用它们提供的接口来进行函数调用。对于不支持函数调用的模型，我使用预置的提示词技术来实现的函数调用功能。Baidu 和 Qwen 的模型原生是支持这个功能的，但是因为需要安装其它的库有点冲突，所以暂时把它们当成不支持来对待的。

2024-06-15 11:34:45 +08:00

回复了 panlatent 创建的主题分享创造来推荐推荐自己的开源项目和经验吧

[Keras-llm-robot]( https://github.com/smalltong02/keras-llm-robot) 是一个基于 Langchain 的大语言模型项目，支持各种外部工具的调用，比较偏向于模型的 C 端落地项目，工具包括：代码解释器，知识库，搜索引擎，函数调用和工具箱，可惜同类产品太多，一直不火。

2024-06-10 01:26:43 +08:00

回复了 smalltong02 创建的主题程序员对 Qwen 2 模型代理能力的完整测试

@kneo

不知道您的测试主要关注哪方面，方便共享吗？我也可以合并到我的测试集中，并在本机上尝试一下。

2024-06-10 01:25:11 +08:00

回复了 smalltong02 创建的主题程序员对 Qwen 2 模型代理能力的完整测试

@kenvix

您可以再尝试调整一下 Prompt ，看看效果是否会好一些。实在不行就整理数据并做微调吧。

2024-06-10 01:23:34 +08:00

回复了 smalltong02 创建的主题程序员对 Qwen 2 模型代理能力的完整测试

@mightybruce

您要自己测试的话，需要在 Google Cloud Platform 上注册自己的账号，并且生成 OAuth 2.0 的凭证，下载 Json 格式的 Token 之后再导入到 WebUI 中就可以使用了。

2024-06-10 01:20:29 +08:00

回复了 smalltong02 创建的主题程序员对 Qwen 2 模型代理能力的完整测试

@crackidz

是的，毕竟各家的大模型，训练数据还是不一样的，训练的侧重点也有区别。

2024-06-10 01:19:02 +08:00

回复了 smalltong02 创建的主题程序员对 Qwen 2 模型代理能力的完整测试

@Znemo

可能您在测试的时候，侧重于逻辑推理和语言生成方面。我的测试更注重的是和各种工具配合使用，测试方向不太一样就会有不一样的效果。

2024-06-10 01:17:18 +08:00

回复了 smalltong02 创建的主题程序员对 Qwen 2 模型代理能力的完整测试

@yankebupt

条件有限，手上只有一块 4090 ，70B 的跑起来太慢啦。速度快是因为使用了 2 倍的播放速度，Youtube 上视频太长太拖拉就没人看啦。

2024-06-10 01:15:30 +08:00

回复了 smalltong02 创建的主题程序员对 Qwen 2 模型代理能力的完整测试

@ogli324

好的，下次整起来。

2024-06-10 01:14:53 +08:00

回复了 smalltong02 创建的主题程序员对 Qwen 2 模型代理能力的完整测试

@freshgoose
测试使用的是我自己的开源项目： https://github.com/smalltong02/keras-llm-robot

2024-05-17 09:58:07 +08:00

回复了 teli 创建的主题程序员瞎扯大模型，文心一言和 kimi，应该押注哪一个？

我蛮喜欢 Qwen 和 YI 模型的，它们为开源社区做出了很大贡献。

2024-05-15 13:30:04 +08:00

回复了 fushall 创建的主题 Local LLM 请教各位，开源的 AI 模型需要什么样配置的机器？比如图像类啊大语言模型啊语音类啊都想玩玩

如果你想自己研究的话，还是建议要搞一块 4090 。这样 34B-4bit(GPTQ)，13B-8bit(GPTQ)和 7B-16bit ，都可以无压力的使用 GPU 加载并推理。如果想玩更大的模型，比如 70B 的模型，那么建议把内存也升到至少 64G 。这样可以使用 CPU 和内存加载 70B-4bit 量化的 GGUF 格式。

此外给你推荐一下我的开源项目，比较符合你的需求，这一个项目支持很多的本地和在线模型，少量图像模型和语音模型：
图像模型支持：OpenDalleV1.1 ，ProteusV0.2 ，SDXL-Lightning ，GhostXL 等
音乐模型支持：facebook musicgen 系列
语音输入输出支持：whisper ，OpenAI 和 Azure 在线语音
https://github.com/smalltong02/keras-llm-robot

如果你想使用知名的开源项目，那么我推荐
LM Studio - 安装简单，可以只使用 CPU+内存做推理。缺点是只支持 GGUF 格式。
Ollama - 同上，缺点在多一个没有漂亮的 GUI 。
text-generation-webui - 这是最知名的项目，几乎所有格式都支持。

1 2 3 4