我做了一个能“演戏”的 AI 阅读器,支持多角色情感配音 + 自动生成人物关系图,求 V 友狠喷/建议 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
vinxu
V2EX    分享创造

我做了一个能“演戏”的 AI 阅读器,支持多角色情感配音 + 自动生成人物关系图,求 V 友狠喷/建议

  •  
  •   vinxu 12 天前 980 次点击

    Hi V2EX 的朋友们,

    我是 CastReader 的独立开发者。今天想向大家介绍一下我最近折腾的一个产品,顺便求一波内测反馈。

    1. 为什么做这个?(The Why) 我自己是个重度播客和有声书用户,但一直有个痛点:现有的 TTS (文本转语音)工具要么声音太机械(听久了想睡),要么就是单纯的“朗读”,没有任何画面感。 特别是读一些大部头小说(比如《三体》或《冰与火之歌》)或者复杂的 PDF 文档时,听着听着就容易走神,而且经常搞不清“这句话是谁说的”或者“这人是谁”。

    于是我就想:能不能用 LLM 把书“重构”一下,让它不仅能被“听”,还能被“看”?

    1. CastReader 是什么?(The What) 简单来说,它是一个可视化的 AI 阅读器。 网址: https://castreader.ai (无需绑卡,Web 端直接可用)

    它和传统 TTS 的区别在于:

    它是“演”出来的: 不是单纯的音频流,而是会生成带有动画人物的视频。你可以看到角色在屏幕上对口型“说话”,增强沉浸感。

    智能分角 (Speaker Diarization): 利用 LLM 分析上下文,识别当前是谁在说话,并自动分配符合人设的声音(比如给反派分配低沉的嗓音,给主角分配激昂的嗓音)。

    自动人物关系图 (Entity Extraction): (这是我个人最喜欢的功能) 读长篇小说时,AI 会实时分析并生成人物关系图谱。再也不用担心读到一半忘记“这人是谁的二大爷”了。

    1. 技术实现 (The How)目前后端主要用了 [Python/Next.js]主要还是用 vibe coding ,通过 LLM 做文本的语义分析和实体提取,然后对接了 kokoro 的语音生成的 pipeline ,最后通过 banana pro 渲染动画层。 目前的难点主要在于由文字转动画的口型同步率,还在持续优化中。

    2. 现状与不足 目前产品还是 MVP 阶段:

    动画的流畅度可能还不够完美。

    有时候 LLM 对情绪的判断会有点偏差。

    目前主要支持 PDF 和 EPUB 。

    非常期待大家的反馈,无论是由于 Bug 还是对功能的吐槽,我都照单全收! 感谢!

    2 条回复    2025-12-03 16:51:21 +08:00
    greatghoul
        1
    greatghoul  
       12 天前
    看起来很酷,之前在番茄小说体验过类似的。
    pheyer
        2
    pheyer  
       11 天前
    有点意思,支持英语小说吗?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3290 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 04:50 PVG 12:50 LAX 20:50 JFK 23:50
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86