双拼的邪路,致打算学习双拼的朋友 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
2NUT
V2EX    输入法

双拼的邪路,致打算学习双拼的朋友

  •  
  •   2NUT 2022-11-06 16:35:48 +08:00 5022 次点击
    这是一个创建于 1141 天前的主题,其中的信息可能已经有所发展或是发生改变。
    周末检索了下 输入法的方案。 有些思考。中文输入法无非 形码输入(按照汉字 字型编码,如仓颉、五笔、郑码、徐码等)、音码输入(按照汉字读音编码,如全拼、双拼、注音等)。



    从文化角度说,虽然汉字拉丁化方案建国时已经大讨论过了,但本质上 按照 音表汉字还是违背了汉字表意的本质,丢失了中华文化的内涵。所以 音码输入是最广泛应用的汉字电脑输入方案,完美解决汉字输入问题的同时,其实略有遗憾。



    从信息流的角度来说,音码无疑是最优的方案编码,如下音码天生少一个从读音到字形的 [转码] 环节。*减少大脑负担。因为汉语拼音(港台 w 注音)已经事先通过义务教育解决了音码编码问题,且汉语拼音更是直接采用拉丁字母,天然适配键盘,连注音需要将注音符号映射到 26 个字母键盘按键地学习过程都不需要。无疑,音码方案,尤其是拼音输入方案可以说一点门槛没有。而形码需要重新学习 1. 字根背诵 2. 字根与 26 字母映射关系 3.拆字规则背诵、持续练习,这个过程可谓是学习曲线极其陡峭以至于早期需要由打字培训班这种事物。而且天生形码需要由音转形的过程,早期实践过程记不得字根、不熟练不会拆字、拆完了也卡顿才能找打对应按键,大脑负担极大。

    形码: 思维--内语--音-->形---形码--> 按键-->选字-->上屏显示
    音码: 思维--内语--音-->音码--> 按键-->选字-->上屏显示

    那为什么五笔等形码输入熟练后比音码输入速度高呢,无非是伟大的人脑直接将内语到编码输出的环节一一映射了,不需要再显式地进行中间态编码转换,所以音码还是形码熟练后其实都是 直接从 内语到输出编码。当然 五笔因为编码详尽,重码低,在 按键-->选字-->上屏显示 上有一定优势。



    抛开学习成本问题,再来看输入效率问题。

    音码方案中,从输入效率角度说,全拼输入有两个缺陷,编码过长(全部汉字读音需要输入)、重码过高。 吸取 注音输入的优点,发展出了双拼输入法,但依然存在重码高的问题。这时候 [邪路] 出现了,双拼输入方案纷纷开始采用加形码的方式降低重码率,音形双修是为邪路! 这简直似乎倒行逆施,本身能够由机器通过词库匹配、甚至深度学习如 bert 模型预测的东西,直接加码让大脑去解决,可以说是技术架构路线选择失败的典型。音码方案中全拼输入法相比注音确实击键多了,双拼的出现是一个进步,而双拼音形的出现是个大退步。使用电脑的目的是解放人脑,没见过给大脑加担子的。这是典型的 [ XY 问题] :

    X 问题: 拼音重码率多,我需要避免重码问题带来的增加击键次数增加和选择的成本
    Y 解决方案: 我给你再增加码长,和新的编码规则,你去学吧,直接减少重码。
    再问:其实我只需要减少重码下的击键次数呀...

    这非常类似 张益唐 最近评价 西格尔零点问题的思路 [我一开始想解决这个问题,想找到西格尔零点这根针,搜遍了整个海底,最后我发现找不到这根针其实也能解决问题] 。音码方案未来一定会进一步通过程序框架本身解决重码选择的问题,而不是再增加学习成本和大脑负担去增加形码辅码。


    玩笑:本人打算研发一款 HASH 输入法,均匀将 unicode 字符映射到 26 个字母;支持所有语言,码长不同语言不定,尽情期待
    第 1 条附言    2022-11-06 18:34:10 +08:00
    输入法评价模型:

    形码: 思维---(大脑额叶)--->内语语音---(语言听、写)-->字形---(字根与拆字)--->形码---(键盘布局映射)--->按键(时序或并击)-->选字(确认或翻页)-->上屏显示

    音码: 思维---(大脑额叶)--->内语语音---(拼音或注音)--->音码---(键盘布局映射)--->按键(时序或并击)-->选字(确认或翻页)-->上屏显示
    第 2 条附言    2023-09-14 18:02:41 +08:00
    形码: 表达需求--->意识(大脑)--->内语语音---(听写识字)--->字形---(拆字)--->字根序列--->形码---(键盘布局映射)--->按键(时序或并击)-->选字(确认或翻页)-->上屏显示

    音码: 表达需求--->意识(大脑)--->内语语音---(拼读编码)--->音形---(拼音)--->字母序列--->音码---(键盘布局映射)--->按键(时序或并击)-->选字(确认或翻页)-->上屏显示
    第 3 条附言    2023-09-14 18:51:55 +08:00
    零几年,在手机上学会的 笔画输入法,9 宫格,5 个笔画,会写字,就会打字,门槛甚至比拼音输入法还低(考虑方言区很多人拼音并不标准)。所谓 大道至简,虽然效率不算高,但完全可以说解决了初期汉字输入的问题。
    很奇怪,也没人往电脑上推广,只是因为电脑键盘按键多么?

    九几年其实有机会学会五笔的,当时买了小霸王学习机,附带了五笔的教程,没看懂,遂放弃。

    回过来看,汉字编码输入无非是这个过程:

    形码: 表达需求--->意识(大脑)--->内语语音---(听写识字)--->字形---(拆字)--->字根序列--->形码---(键盘布局映射)--->按键(时序或并击)-->选字(确认或翻页)-->上屏显示

    音码: 表达需求--->意识(大脑)--->内语语音---(拼读编码)--->音形---(拼音)--->字母序列--->音码---(键盘布局映射)--->按键(时序或并击)-->选字(确认或翻页)-->上屏显示

    编码最终熟练后都会直接省略 内语语音 --> 音/形 编码的中间过程,形成直接映射,殊途同归。

    但是在初期学习和熟悉阶段,毫无疑问,难度上:
    1 ) 听写识字(听 -> 写,音->形状) > 拼读, 基于一般人会拼读,会写字的前提,形码复杂度要上两个层级;尤其是现在人会写的字更少了。
    2 ) 编码规则 拆字 >>>> 拼音,拆字是需要另外学习和无法规律化的规则,难度很高,而拼音是小学生都会,即使不会,难度也很低(元素更少,更加规律)。
    3 ) 编码到键盘映射,形码 >>> 音码,字母在键盘哪个位置是规范化好的,一个按键对应一个字母,而字根在哪个位置又是一套复杂的映射,一个按键对应多个字根。难度不在一个层级上。

    那形码这么难有什么好处呢?
    1 ) 重码少(因为字根多呀,字根组合就多,能唯一定位某个汉字),编码输入后,不会有很多候选字,从而减少选字的几率。但意味着记忆负担。
    2 ) 击键少(还是字根多,所以码长短,某个汉字拆分到的字根个数少),大字根多了就会影响编码覆盖率,所以一般都是小字根,需要记忆字根拆解规则。
    3 ) 节奏稳定 (取决于键盘映射 和 编码),全码的码长固定,打字有节奏感。

    对应拼音输入法的缺点:
    1 ) 重码多(音形输入法的天生缺陷,汉字本身同音字就多,除非通过概率模型(联想预测)否则无法通过音码方案自己解决)
    2 ) 击键多(拼音的音元相比形码少很多,类似大字根,但是辅音等还是拆解为字母输入,导致码长很长...)
    3 ) 节奏不定 (拼音的长度不定,因为本身复用的拼音规则和键盘字母位置,没有优化设计)

    对应出现了双拼,解决了全拼输入法的编码码长过长的问题(本身)。

    对于一个通用输入法,可以提炼出以下评价维度:
    字根数量、字根的细化度(大字根、小字根)、编码规则、码长、键盘寻址时间
    32 条回复    2025-03-11 09:09:12 +08:00
    2NUT
        1
    2NUT  
    OP
       2022-11-06 16:54:58 +08:00
    但有思考,作为程序辅助判断减少选词的机制,是拐杖 但对于语言的自由性来说也是枷锁。 但作为输入法工程产品应该不思考这个层次的问题了。
    2NUT
        2
    2NUT  
    OP
       2022-11-06 16:55:46 +08:00
    脱水版: 音形码方案是邪路,不值得。
    GlobalNPC
        3
    GlobalNPC  
       2022-11-06 16:59:01 +08:00
    熟练之后 打字没有思考过程,直接肌肉记忆来输入的
    mofe
        4
    mofe  
       2022-11-06 18:08:36 +08:00 via iPhone
    几乎没人学双拼用形码吧
    jarence
        5
    jarence  
       2022-11-06 18:39:50 +08:00   1
    我八月开始尝试双拼的,现在用着感觉挺好。和三楼说的一样,现在是靠肌肉记忆输入。而且和英文输入不会有矛盾。但也有缺点:纠错功能几乎没有,对不分平翘舌前后鼻音的四川人来说增加了一点负担。
    SuperMild
        6
    SuperMild  
       2022-11-06 18:47:30 +08:00
    这个其实是大多数人的自然选择,双拼本来就是小众。
    IvanLi127
        7
    IvanLi127  
       2022-11-06 18:48:20 +08:00 via Android   6
    @mofe 对不起,我在用小鹤音形。2 音 2 形
    mofe
        8
    mofe  
       2022-11-06 18:52:07 +08:00 via iPhone   22
    @IvanLi127 我想做一个小调查,

    用双拼不用形码的给我点个
    用双拼用形码的给楼上点个
    lekai63
        9
    lekai63  
       2022-11-06 19:09:29 +08:00 via iPhone
    用双拼 不用形码。
    已点赞 @mofe
    sheeta
        10
    sheeta  
       2022-11-06 19:16:43 +08:00
    @mofe 用形码主要的作用是一键上屏,不用选词,打完就上屏了
    Vitta
        11
    Vitta  
       
    我先用的小鹤音形再用的键道 6 ,全是音形码
    Jooooooooo
        12
    Jooooooooo  
       2022-11-06 19:35:42 +08:00
    双拼都是肌肉记忆. 打的少的音速度会慢很多.
    clrss
        13
    clrss  
       2022-11-06 19:38:52 +08:00
    15 年双拼用户, 不用形码.

    问一下形码和普通双拼有冲突吗? 比如日常只用声码, 碰到半天没找着的字, 按快捷键进入形码状态一键上屏, 可以吗?
    songer
        14
    songer  
       2022-11-06 19:41:19 +08:00
    全拼或者双拼打比较少用的字的时候,很依赖词组,打词组然后删掉一个。而音形可以准确打出单字,仅此而已,缺点就是只会读或者只会写的时候,卒

    最开始选择音形是发现自己提笔忘字,本想着拆字时候可以回忆一下,结果熟练以后全是肌肉记忆,卒
    4BVL25L90W260T9U
        15
    4BVL25L90W260T9U  
       2022-11-06 19:43:57 +08:00
    把「敬请期待」写成「尽情期待」的人,应该汉语水平不高吧。
    2NUT
        16
    2NUT  
    OP
       2022-11-06 19:47:23 +08:00
    @ospider #15 警察叔叔好,今天我真的没带钱,能下次给么
    wu67
        17
    wu67  
       2022-11-06 20:05:50 +08:00   2
    从文化角度, 自汉字简化推行那刻开始, 就把文化抛弃了, 象形音形字有些被砍得完全面目全非, 为了书写方便强行抛弃了

    至于什么信息流, 其实双拼的上手难度和输入效率的折中, 使得综合水平完胜大部分输入, 输入法只是工具, 在足够轻松的情况下提升效率即使王道, 无脑增加学习难度只为提高输入效率才叫邪道(五笔)

    至于重码加形啥的...我宁愿敲词组删一个...
    sinxccc
        18
    sinxccc  
       2022-11-06 21:21:17 +08:00   1
    @wu67 这个锅得从隶变开始,简体字不背…
    sinxccc
        19
    sinxccc  
       2022-11-06 21:30:58 +08:00
    形码的话,字根的抽象是一层额外的生造。只要是形码,不管标榜自己有多科学多自然,学习者始终躲不过背诵字根和拆字规则这一步。而且各家的抽象多少都有缺陷,五笔的无理码、仓颉的砍笔画和过冗长的编码、郑码的倒数第二码和强笔顺依赖,这也是各个方案的拥护者从古吵到今的源头…

    但历史事实就是能活到现在的形码,不管哪个都摆脱不了字根这一层,不知道还有没可能存在其他的方案。
    luomu24
        20
    luomu24  
       2022-11-06 21:54:16 +08:00
    一直有个疑问,我五笔从初高中起打了快十年,但是越打越忘,不知道是不是正常的。
    celisee
        21
    celisee  
       2022-11-06 21:58:45 +08:00 via iPhone
    从双拼无形 转到双拼音形 我看很行
    tankb52
        22
    tankb52  
       2022-11-06 22:05:03 +08:00
    @luomu24
    正常的吧,我也有,我觉得是精力不如以前了。

    不过我学过五笔,小鹤双拼,小鹤音形,现在用的是两笔,都差不多。
    mofe
        23
    mofe  
       2022-11-06 22:26:16 +08:00 via iPhone
    @luomu24 你手机电脑都是五笔吗?
    SuperMild
        24
    SuperMild  
       2022-11-06 22:42:54 +08:00
    @sinxccc 有笔画打字法,就是一笔一笔地打,如果配合 AI 分析上下文,每个字打前几笔就猜出是什么字,这应该是能做到的。
    deorth
        25
    deorth  
       2022-11-07 00:18:23 +08:00 via Android
    我打五笔久了有一个问题:没有肌肉记忆的字因为提笔忘字+拆分出错,大半天都打不出来
    2NUT
        26
    2NUT  
    OP
       2022-11-07 00:27:06 +08:00
    @deorth #25 五笔字根太复杂了,后面衍生的蓝宝石 虎码 更复杂,看一眼字根退却。
    2NUT
        27
    2NUT  
    OP
       2022-11-07 01:10:51 +08:00
    @luomu24 #20 说到底 字形输入法 就不是普通人付出普通学习成本 能轻易掌握的; 从软件设计角度看, 字形输入除了带有企业文化的执着外,根本不是一个好的设计方案。看看 字形输入方案 86 五笔 和他的同侪后辈们的 字根表,直接劝退。

    ![wubi86.png]( https://s2.loli.net/2022/11/07/iGS7J231bxWDsRh.png)

    ![xuma.jpg]( https://s2.loli.net/2022/11/07/SFgUPw5kDpI3KNu.jpg)

    ![虎码字根图.jpg]( https://s2.loli.net/2022/11/07/aAhiE9ZVlpDWfgo.jpg)

    ![Zhengma.jpg]( https://s2.loli.net/2022/11/07/5rkex9GfYvwcAMW.jpg)

    ![sanren.jpeg]( https://s2.loli.net/2022/11/07/zKisfBIcQGtl4Vd.jpg)
    2NUT
        28
    2NUT  
    OP
       2022-11-07 02:28:53 +08:00
    @tankb52 #22 二笔是 比 五笔大字根等更科学的形码方案;
    zhandouji
        29
    zhandouji  
       2022-11-07 07:16:43 +08:00 via Android
    世界上最开始的是象形文字,后来绝大部分国家用了拼音文字。所以我们的汉字最牛逼了。悄悄说一下,内语靠的也还是发音,发音动作,发音动作在脑中的内化。最后提一个事实,一百年前我国大部分人是文盲不识字,但是会说话,会用语音交流。从古至今的中国人靠象形文字还是语音呢?小孩先学音还是先学字形呢
    deorth
        30
    deorth  
       2022-11-07 13:46:58 +08:00 via Android   1
    @2NUT 根本不是记字根的问题,我背字根就花了一周时间,一天一个区,周末复习一下。五笔所谓快是建立在肌肉记忆上的,如果你打字还需要回想字形+拆分,那根本不比拼音快多少。到最后你就是一个人形码表翻译器。所谓的字根和拆分方法,只是为了降低码表记忆的门槛而存在的。如果你执意要比较各种编码方式的优劣的话,最好真正学习了再来谈,而不是我看一眼 balabala
    luomu24
        31
    luomu24  
       2022-11-07 23:09:37 +08:00
    @mofe #23 手机拼音,电脑五笔。
    caonimaccc
        32
    caonimaccc  
       285 天前
    @wu67 汉字没有简化,只有演化,一个命名上的误导,就让很多没有独立思考的人跟风人云亦云,实际根本不懂汉字的本质,就在这信口雌黄,简直让人笑掉大牙,这么说吧,汉字自古以来,从 a→b→c→d→e 演化,变得越来越简洁流畅优美,但有人突然就抱着其中的 c 说,你们 d 和 e 都是异端,没有文化,祖宗之法万万不可变,真是荒谬。其实我直说吧,汉字现代所谓的“简化”可是光头先开始的,如果后来不是为了政治上对抗中国的原因,现在全世界华人圈用的都是相同文字,如果当年情况相反,我们没有选择推行新字体,不难想象你这类人肯定也会相信蛙的 propaganda ,说什么:“繁体字是故步自封,我们台湾的简体字代表科学进步,” 翻来覆去的,一点可怜的政治话术罢了,记住,从语言学的角度讲,汉字从来不“简”,更原始落后的“繁体”也从来不正,最正规的最承载文化的中文就是当下代表中国的这个政治实体的官方书写文字,其他的都是错误,谢谢(更遑论连中国几千年文化都开始抛弃的卖祖求荣的蛙岛了,一群连中国历史人物都不认识的文盲,居然还自称“正体中文”,真是沐猴而冠,荒谬绝伦)
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1456 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 16:26 PVG 00:26 LAX 08:26 JFK 11:26
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86