一道三年级数学题把大模型难住了,不是说数学推理都很厉害吗 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
goodryb
V2EX    程序员

一道三年级数学题把大模型难住了,不是说数学推理都很厉害吗

  •  
  •   goodryb 2 天前 4035 次点击
    昨晚辅导儿子作业,本来想秀一下大模型,结果翻车了

    原题目是:一笔画(隐含意思是不能走回头路),从红色位置开始 经过图形中的每个方块,其中灰色的方块不能经过




    试了下 qwen 、豆包、gemini 都没做出来,其中 qwen 一直深度思考,豆包给的答案是错误的,gemini 说这个题目无解,但确实是有正确答案的


    是题目太刁钻还是我使用的方法不对,或者说是没找到最厉害的大模型
    56 条回复    2025-10-31 09:21:59 +08:00
    Cruzz
        1
    Cruzz  
       2 天前
    可以一笔走完,终点会落在 **(1,7)**。
    按下面顺序从红点 **(5,2)** 出发依次经过所有白格(仅四向移动),灰格均避开:

    1. (5,2) → (4,2) → (3,2) → (3,1) → (2,1) → (1,1) → (1,2) → (2,2) → (2,3) → (1,3)
    2. (1,4) → (1,5) → (2,5) → (2,4) → (3,4) → (3,3) → (4,3) → (5,3) → (5,4) → (5,5)
    3. (5,6) → (5,7) → (5,8) → (4,8) → (3,8) → (3,7) → (4,7) → (4,6) → (4,5) → (3,5)
    4. (3,6) → (2,6) → (2,7) → **(1,7)**

    对应方向序列( U 上/D 下/L 左/R 右):
    **U U L U U R D R U R R D L D L D D R R R R R U U L D L L U R U R U**

    这样能恰好覆盖所有可走格且不重复经过。

    gpt5 给的答案,不知道对不对,还有,你给他的坐标对不对,只喂一张图,他有可能识别的有问题,gpt 会问你他识别的图是否是正确的,补充下坐标就行了,怎么问大模型也是个技术活。
    JConlee
        2
    JConlee  
       2 天前
    类比人的话,不能让人/大模型空想,需要给他们纸笔/tools (function calling)。最简单的 function 比如写代码尝试。
    goodryb
        3
    goodryb  
    OP
       2 天前
    @Cruzz 我提问的时候特意把图形转化成坐标,就怕它识别有问题 [有一个 8*5 的二维坐标,起始坐标是( 0 ,0 ),最大坐标是( 7 ,4 ),现在需要从( 1 ,0 )作为起点,找到一条路径,经过这个坐标中的所有点,其中( 0 ,0 )( 0 ,1 )( 3 ,1 )( 5 ,4 )( 7 ,3 )( 7 ,4 ) 这些点不能经过,请给出合适的路径,不能重复经过相同的点,每次移动的两个点必须是相邻的] ,但结果如我上面所说
    vivisidea
        4
    vivisidea  
       2 天前
    这种问题,感觉更适合让大模型写代码来解决

    有一个 8*5 的二维坐标,起始坐标是( 0 ,0 ),最大坐标是( 7 ,4 ),现在需要从( 1 ,0 )作为起点,找到一条路径,经过这个坐标中的所有点,其中( 0 ,0 )( 0 ,1 )( 3 ,1 )( 5 ,4 )( 7 ,3 )( 7 ,4 ) 这些点不能经过,请用 python 代码求解这个问题

    ```
    /usr/bin/python /home/vivi/Desktop/run.py
    正在计算路径,请稍候...

    成功找到一条满足条件的路径,共 34 个点:
    (1, 0) (1, 1) (1, 2) (0, 2) (0, 3) (0, 4) (1, 4) (1, 3) (2, 3) (2, 4)
    (3, 4) (4, 4) (4, 3) (3, 3) (3, 2) (2, 2) (2, 1) (2, 0) (3, 0) (4, 0)
    (5, 0) (6, 0) (7, 0) (7, 1) (7, 2) (6, 2) (6, 1) (5, 1) (4, 1) (4, 2)
    (5, 2) (5, 3) (6, 3) (6, 4)
    ```

    结果没验证,但看代码是递归回溯的,应该不会错 :)
    nickwzy129
        5
    nickwzy129  
       2 天前
    GPT:
    可以。满足“从 (1,0) 出发、只走相邻格、不走禁用点、覆盖其余全部点且不重复”的一条路径如下(共 34 个点):

    (1,0) → (1,1) → (1,2) → (0,2) → (0,3) → (0,4) → (1,4) → (1,3) → (2,3) → (2,4) → (3,4) → (4,4) → (4,3) → (3,3) → (3,2) → (2,2) → (2,1) → (2,0) → (3,0) → (4,0) → (5,0) → (6,0) → (7,0) → (7,1) → (7,2) → (6,2) → (6,1) → (5,1) → (4,1) → (4,2) → (5,2) → (5,3) → (6,3) → (6,4)

    说明:
    禁用点 {(0,0),(0,1),(3,1),(5,4),(7,3),(7,4)} 未被经过。
    每一步均为四邻(上下左右)相邻移动。
    覆盖了 8×5 网格中除禁用点外的全部 34 个可用坐标,各点仅经过一次。
    HappyFox
        6
    HappyFox  
       2 天前
    使用方法问题,刚试了试,引导得当的情况下豆包极速版和 claude4.5 都能做出来
    TLND:别把 AI 当预言机,当成手下刚入职的实习生,一步一步带
    1 、如果希望解决问题、应该给出你希望的解决方向和预期结果格式。和上班一样,只给题目不给要求、拿到的永远是“努力”但不一定有用的结果。
    2 、如果希望辅导作业,建议结合课本内容和孩子的知识储备,不然 AI 直接上 DFS 那太欺负小朋友了。

    提示句可参考这个版本,在豆包不开思考的情况下就可以给出结果
    请帮我写一个代码解决以下问题
    有一个 8*5 的二维坐标,起始坐标是( 0 ,0 ),最大坐标是( 7 ,4 ),现在需要从( 1 ,0 )作为起点,找到一条路径,经过这个坐标中的所有点,其中( 0 ,0 )( 0 ,1 )( 3 ,1 )( 5 ,4 )( 7 ,3 )( 7 ,4 ) 这些点不能经过,请给出合适的路径,不能重复经过相同的点,每次移动的两个点必须是相邻的
    注意
    1 、代码编写后应检查是否有语法问题
    2 、需要写测试用例验证输出路线是否符合题目要求,输出步数、路径
    coefu
        7
    coefu  
       2 天前   10
    上面的各种问题转换+提示词,真 “人工”智能。
    shihira
        8
    shihira  
       2 天前
    @coefu 对,就差直接喂答案了
    coefu
        9
    coefu  
       2 天前
    @shihira 现在所追求的通用 AGI ,就是有别于 80 年代失败的专家系统,如果每个问题都要提问者自己反刍给 LLM ,还有什么值得吹的。,本质上来说和 80 年代的专家系统,只是更更更高级一点罢了。
    cambria
        10
    cambria  
       2 天前   2
    没感觉有什么困难,上传图片直接问就行。


    prompt:

    [图片]这张图片是由红白灰三种颜色组成的,如果从红色开始,只能将相邻的白色格子涂成红色,一个格子不能涂两遍,如何将整个图片中的白色格子都涂成红色?


    GPT5:

    可以,把它当成“从红色出发的哈密顿路径”问题来走就行(只走上下左右、每个白格只进一次)。
    按下面的移动序列即可把所有白格一次性全部涂红( U=上,D=下,L=左,R=右;起点是底行第 2 列那一格的红色):

    U2, L1, U2, R1, D1, R1, U1, R2, D1, L1, D1, L1, D2, R5, U2, L1, D1, L2, U1, R1, U1, R1, U1

    也可以写成一串:
    UULUURDRURRDLDLDDRRRRRUULDLLURURU

    照此顺序走,能覆盖所有白格且不走回头路。
    nakun233
        11
    nakun233  
       2 天前
    图片有问题,直接给图 gemini 会识别出 5x7 的格子导致没给出答案
    burnsby
        12
    burnsby  
       2 天前
    我很好奇,三年级有这种数学题吗
    Gilfoyle26
        13
    Gilfoyle26  
       2 天前
    《一个知名的数学教授,居然连高中的数学题都做不出来,真是白当教授了》
    NessajCN
        14
    NessajCN  
       2 天前   2
    谁告诉你大模型数学厉害的?
    从原理上来讲大模型就是不会数学的,因为它是文本匹配
    所有的编程或数学能力都不是单纯的大模型能力而是配合其他的计算或编码工具
    早版本的大模型甚至 3 的 3 次方都不会算
    idragonet
        15
    idragonet  
       2 天前
    是的,大模型数学能力很差的,经常给小学题 AI 做错,
    fortytwo
        16
    fortytwo  
       2 天前
    大模型不适合直接解答此类包含高维的数据问题。需要借助工具降维处理。
    有两点:
    1 、应该让他编写解答问题的方法即计算代码,而不是让他自己直接计算,概率模型无法做到 100%预测正确,只能趋近。2 、输入的问题需要精确,这个图如果转为二维序列,能够推导解答代码也是很容易的。
    donaldturinglee
        17
    donaldturinglee  
       2 天前
    你把图喂给 AI ,如果是图你要做寻路,你得把入口和出口给它标出来,这样就大概率能做出来
    abelmakihara
        18
    abelmakihara  
       2 天前
    @coefu #9 写代码一样的 复杂一点点的就需要一步步拆
    最后累死累活半天反复 review ai 的代码..
    goodryb
        19
    goodryb  
    OP
       2 天前
    @burnsby 有的兄弟,你搜下一笔画就知道了,这个题就是设置了一些不可经过的点,稍微有点难度
    goodryb
        20
    goodryb  
    OP
       2 天前
    @coefu #7 确实,我以为经过近几年的发展已经能直接对话了,没想到还是要有人工,然后才能智能
    FlyaiF
        21
    FlyaiF  
    PRO
       2 天前   1
    图片没解析出来,然后我用 ascii 解出来了,最后让生成图片也符合要求,用的 gpt-5
    FlyaiF
        22
    FlyaiF  
    PRO
       2 天前   1
    bikeread2008
        23
    bikeread2008  
       2 天前
    claude code 一把出,输入图片和原始题目,自己写了个 python 脚本,大概瞄了一眼说是什么哈密尔路径?然后就把输出路径用数字标注出来了
    goodryb
        24
    goodryb  
    OP
       2 天前
    @donaldturinglee 入口或者说起点是明确的,路径和出口都要自己找
    deplives
        26
    deplives  
       2 天前

    gpt5 thinking 回答的没有问题
    MAYE4040
        27
    MAYE4040  
       2 天前 via Android   1
    这个对于强化学习模型(类似 alpha 狗)来说属于很简单的
    Tink
        28
    Tink  
    PRO
       2 天前
    动态规划问题
    ddddd0
        29
    ddddd0  
       1 天前 via iPhone
    https://chatgpt.com/share/6901b398-6fe4-8001-b251-feecda6d59a6

    免费版的 chat gpt

    我只是把你的帖子正文里的图片和描述粘贴给他

    5 分钟不到一次成功
    FarAhead
        30
    FarAhead  
       1 天前
    @coefu #9 汽车也不就是马车换了个动力,也只是高级了一点罢了
    tr>
    lepig
        31
    lepig  
       1 天前
    有点意思。 不过我更想知道的是,这个题是想考察三年级学生的什么能力
    lesterchen
        32
    lesterchen  
       1 天前
    之前 qq 飞车有一个活动,M*N 的矩阵.你点亮一个点,这个点周围的点也会被点亮或熄灭.目标是点亮所有的点.好几个题目都试了.AI 给的答案都是错的.搞得我只能自己想.
    coefu
        33
    coefu  
       1 天前
    @FarAhead 类比水平有待提高。汽车马车是陆地交通工具,但是当前主流定义的 AGI 的追求所对应的是虫洞瞬间穿梭。你觉得汽车能达到吗?你把汽车设计到超声速贴地飞行,也还差的远。
    ljl024
        34
    ljl024  
       1 天前
    目前阶段还不是强项吧

    https://ai.google.dev/gemini-api/docs/prompting-strategies?hl=zh-cn#things-to-avoid
    >需要避免的事项
    >- 避免依赖模型来生成事实信息。
    >- 对于数学和逻辑问题请谨慎使用。
    autozzz
        35
    autozzz  
       1 天前
    把 op 的回答复制给 gork,gork 也可以,结构也是对的,思考过程的代码:

    import itertools

    # Define the grid
    rows = 5 # 0 to 4
    cols = 8 # 0 to 7
    all_points = [(x, y) for x in range(cols) for y in range(rows)]

    # Forbidden points
    forbidden = {(0,0), (0,1), (3,1), (5,4), (7,3), (7,4)}
    valid_points = [p for p in all_points if p not in forbidden]
    num_valid = len(valid_points)
    print(f"Number of valid points: {num_valid}")

    # Function to get neighbors
    def neighbors(point):
    x, y = point
    cand = [(x+1,y), (x-1,y), (x,y+1), (x,y-1)]
    return [p for p in cand if 0 <= p[0] < cols and 0 <= p[1] < rows and p in valid_points]

    # Build adjacency list
    adj = {p: neighbors(p) for p in valid_points}

    # Backtracking to find Hamiltonian path starting from (1,0)
    start = (1, 0)

    def dfs(current, visited, path):
    if len(path) == num_valid:
    return path
    for neigh in adj[current]:
    if neigh not in visited:
    visited.add(neigh)
    path.append(neigh)
    result = dfs(neigh, visited, path)
    if result:
    return result
    path.pop()
    visited.remove(neigh)
    return None

    # Run the search
    visited = set([start])
    path = [start]
    result = dfs(start, visited, path)
    if result:
    print("Path found:")
    for p in result:
    print(p)
    else:
    print("No path found")
    PeterKim
        36
    PeterKim  
       1 天前
    各位认真的吗?这是三年级的题目啊?总不能让一个小学三年级的学生对着 AI 写提示词和看各种坐标和英文字幕组成的答案吧?不能因为你们是程序员就理所应当觉得所有人都要懂吧?从这个角度出发,目前的 AI 对于各个年龄段的普通人来说不就是聊胜于无吗?

    明明是一道三年级的题目,没有一个人是试图站在一个小学三年级的学生视角下去解决问题,不知道这算不算程序员的一种“自以为是”。
    Feeli
        37
    Feeli  
       1 天前
    @PeterKim 确实 把我看愣了
    dxppp
        38
    dxppp  
       1 天前
    什么图论
    GoodRui
        39
    GoodRui  
       1 天前
    仔细看楼主的图,最右侧是无线条的,如果楼主发的就是原图,那我觉得应该是图片有问题,导致大部分模型识图就出现问题。
    fredweili
        40
    fredweili  
       1 天前
    多模态的的问题,或者描述不够丰富清晰
    MelodYi
        41
    MelodYi  
       1 天前
    题目有些歧义。你说的一笔画,是说路径不重复就行,还是必须格子也不能二次通过?
    goodryb
        42
    goodryb  
    OP
       1 天前
    @GoodRui 我自己画的,截图的时候估计漏掉最右边的线条了
    goodryb
        43
    goodryb  
    OP
       1 天前
    @MelodYi 这不是一个意思吗,一笔画就是不能重复走已经走过的路
    MelodYi
        44
    MelodYi  
       1 天前
    @goodryb
    不一样,一笔画指,线路全覆盖,且线路不能重复,但是点可以重复经过。
    但是像 22 楼的答案,是连点都不重复经过的版本。需要把起止点以外的点的变都变成恰好 2 条。

    这种是一个仅路径不重复的版本。更符合学生认知里的“一笔画”的概念
    https://imgur.com/a/ePGd3cM
    MelodYi
        45
    MelodYi  
       1 天前
    @PeterKim 按大人更准确理解的、不会歧义的说法,就是"削减边的数量,直到恰好两个点的边数量为奇数、其余点的边的数量为偶数",小学生解这个题也是这个思路,只是措辞不一样。
    goodryb
        46
    goodryb  
    OP
       1 天前
    @MelodYi #44 这是方块呀,你从同一个方块上面过 2 次那这个题目还有什么意义,照你这么理解,我是不是还能斜着走。 上面几位已经用 gpt5 给出答案了,结果就是这样
    NerbraskaGuy
        47
    NerbraskaGuy  
       1 天前
    qwen3-max 试了两遍都是错误答案,看了下推导过程,貌似是把图片里面灰色格子的坐标识别错了,感觉图片识别有点拉。
    NerbraskaGuy
        48
    NerbraskaGuy  
       1 天前
    或者像楼上说的,换个图片可能可以回答正确
    luzemin
        49
    luzemin  
       1 天前
    测试了好几个 AI ,发现不是能不能解题的问题,而是把这个图给了之后,压根“看不懂”,题目都看不懂,那别提解题了。

    1. 行数 和 列数,没整明白
    2. 灰色区域在哪,没整明白
    3. 红色在哪,也没整明白

    错误的“理解”必然对应着错误的输出
    f11st1
        50
    f11st1  
       23 小时 53 分钟前
    感觉你可以看我做的迷宫对比
    https://linux.do/t/topic/1096248
    Alias4ck
        51
    Alias4ck  
       22 小时 33 分钟前
    在我看来这不就是一个 DSL
    你用符号语言描述可能一下就有答案了
    毕竟数学家解释这类问题也是用符号语言的
    而且这题背后是图论的哈密顿路径,3 年级学不到图论吧
    shyangs
        52
    shyangs  
       20 小时 17 分钟前
    @Alias4ck

    定自然, 要先集合?

    小生不就不玩 A4 上的走迷了?
    Alias4ck
        53
    Alias4ck  
       20 小时 4 分钟前
    @shyangs 确实,现在小学生要学的太多了, 精英教育是这样的
    charles0
        54
    charles0  
       5 小时 8 分钟前 via iPhone
    大模型数学能力很强,可以解决 IMO 级别的题目,但它图像识别能力(多模态)还不如小学生啊,而且没有“草稿纸”
    charles0
        55
    charles0  
       5 小时 7 分钟前 via iPhone   1
    @charles0 这里的一个关键在于草稿纸,如果是一个普通的小学生解决这道题,他很可能会拿个铅笔在图上画一画,而只是思考,这个非常关键,你需要设计一个合理的工具才能让大模型有这个能力
    charles0
        56
    charles0  
       5 小时 6 分钟前 via iPhone
    @charles0 只是思考却不能打草稿是很痛苦的,现在大模型解决这道题就是这样
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5564 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 06:28 PVG 14:28 LAX 23:28 JFK 02:28
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86