智能助手网
标签聚合 一个

/tag/一个

linux.do · 2026-04-18 17:46:34+08:00 · tech

最近半年一直在折腾一个项目——用 AI 自动生成短视频。起因是身边做小生意的朋友总问我能不能帮忙剪视频发抖音,我想这事儿应该能自动化,就开始做了。 分享一下技术方案和踩过的坑,希望对有类似想法的朋友有参考价值。 整体架构 用户上传素材 + 输入文案 ↓ TTS 语音合成(MiniMax / 火山引擎) ↓ 根据语音时长自动分配素材时间轴 ↓ 云端渲染(转场、字幕、BGM) ↓ 成品视频 后端 FastAPI + MySQL,前端 Vue 3,视频渲染走云端 API,手机端用 Capacitor 套了个壳。一个人全栈,没有团队。 几个有意思的技术点 1. TTS 选型 试了一圈,最后主力用 MiniMax speech-2.8-hd,中文多音字准确率目前最好。火山引擎作为补充,主要是剪映生态的独有音色(奶气萌娃、广告解说这种)。Azure 的中文效果一般,Fish Audio 没深入测。 踩坑:TTS 返回的音频时长和文字长度不是线性关系,语气词、停顿都会影响。批量生成时如果对时长有严格要求,需要做重试机制。 2. 素材自动分配 这块逻辑最复杂。用户上传 N 个素材(视频+图片混合),系统要自动决定每个素材展示多久、从视频的哪个位置截取。 几个关键决策: 视频从中间 70% 区域截取(跳过开头 20% 和结尾 10%),因为大部分手机拍的视频开头都是晃动的 图片展示时长根据总时长动态计算,保证每张都出现,最少 1 秒/张 批量生成时用发牌算法分配素材,保证每条视频的封面帧不同 3. 批量生成去重 做矩阵号的核心需求是"一组素材生成几十条不重复的视频"。去重策略: AI 扩写多组文案时分配不同的切入角度(预定义了 30 个角度) 每条视频的素材起始偏移不同 视频截取位置随机化 第一个 clip 强制用不同素材保证封面不同 4. 浮点精度问题 这个坑最隐蔽。视频时间轴用浮点数计算,多个 clip 拼接时 accumulated 会漂移,导致素材重叠或出现缝隙。解决方案是每次用 round 后的值更新 accumulated: cs = round(clip_start, 1) ce = round(clip_end, 1) accumulated += (ce - cs) # 不是 accumulated += clip_dur 5. 实时语音输入 加了个语音输入功能,用户对着手机说文案直接转文字。技术上是浏览器 AudioContext 采集 PCM → WebSocket 传到后端 → 转发到阿里云 paraformer-realtime-v2。 踩坑:中间结果和最终结果的拼接如果处理不好会闪烁,最后用了"快照 + 增量"的方案解决。 技术栈汇总 层 技术 前端 Vue 3 + Vite + Capacitor 后端 Python 3.13 + FastAPI + SQLAlchemy 数据库 MySQL 8 存储 阿里云 OSS + CDN AI 文案 通义千问 TTS 火山引擎 语音识别 阿里云 paraformer-realtime-v2 目前自己和几个朋友在用,做餐饮和服装的,反馈还行。有兴趣的可以体验一下: https://zj.xinghepay.com ,Android 也有 APK https://media.xinghepay.com/xinghe/app/xhzj.apk 技术上有什么想聊的欢迎评论区交流,特别是视频处理和 TTS 这块,踩的坑比较多,能聊的也多 5 个帖子 - 4 位参与者 阅读完整话题

linux.do · 2026-04-18 17:45:24+08:00 · tech

之前的账号3h就没了,这次准备再新开一个,再次尝试一下! 目前准备: 静态LSP(美国加州) 住宅IP代理的指纹 浏览器 Claude账号注册用的是Gmail(新号)已养号3天 支付使用Visa虚拟卡 使用准备: 养号阶段——Web端对话 测试阶段——开通后先使用2天Web 使用阶段——没问题后,迁移至ClaudeCode(Linux服务器部署),同时我会删除原有的.claude文件夹(之前的残留) 这个帖子用来记录使用日志记录,欢迎各位佬友讨论! 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-18 17:07:12+08:00 · tech

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 文枢(Docentra)基于 React + Vite + Electron + Zustand 构建,提供本地优先的桌面表格体验,并集成 AI 助手、Excel 导入导出、公式计算、筛选排序、查找替换等能力。 简单来说,就是可自定义api的excel表格编辑器,不支持工具调用的api也可以通过本软件的“工具注入”功能让模型可进行使用,目前已支持openai、anthropic、ollama接口 项目地址: GitHub - Kiowx/docentra: 文枢,一个智能多功能一体化工作台,可通过ai对话进行修改表格,同时提供可视化表格界面 · GitHub 下载地址: Releases · Kiowx/docentra · GitHub 3 个帖子 - 2 位参与者 阅读完整话题

linux.do · 2026-04-18 16:58:03+08:00 · tech

参考豆包专家的资料整的 英文提示词通用: transform this anime character into a realistic human, maintain exact hairstyle, hair color, eye color, facial proportions and expression, natural skin pores, detailed eyes and lips, even studio lighting, clear facial contours 多图的话,把this改成these ,Character后面加个s 删掉into后面的a 不然傻傻的豆包可能就帮你把所有图片融合起来,生成一张图片了() 直接看看豆包5.0效果吧,我不是很喜欢,但是某些AI形象创建必须要真实人脸 把二次元的头部比例复刻到这里还是很奇怪喵 3 个帖子 - 3 位参与者 阅读完整话题

linux.do · 2026-04-18 16:34:54+08:00 · tech

这两天看到一些佬发的一些比较贵的抽奖(差不多超过一百块)很快就被人举报封锁了,就我想知道是社区本身不提倡这样的行为所以被管理员暗封了还是因为有些人不让更多人抽进行的恶意举报,如果是前者,我好像没找到相关禁止的声明,也可能是我眼笨,各位可以给我引个路,如果是始皇忘写了,我觉得还是补上好吧,如果是后者,那这个现象真的不用管管吗?那些帖子被封锁后的奖品是正常按已经有的人的帖子发的还是说作废(我不知道,但我希望是后者),老实说,我不知道始皇对于抽奖的定义是什么,我自己主观决定它本应该是为了增进社区友好氛围和互帮互助的一种方式,如果这这种行为被用这么低劣的手段影响,那影响的觉得不只是我们这些抽不了奖的小友,还会对社区本身的风尚和名誉造成一定打击,事实上这种现象我觉得应该搞多一点人工审核就不会出现的,或者说是在无力管理也没有功夫去弄一个更合理的官方抽奖,可以直接禁止对这种过于贵重物品的抽取(不过其实哪怕是1块钱的东西也可能会造成这种现象)。现在社区人变的这么多,不可能人人都是品德高尚之人,对于抽奖这种涉及到钱的,还是希望始皇能够好好管理,不然必定对社区造成很大音响。 以上都是个人主观的观点,肯定有偏颇之处,大家客观看待 3 个帖子 - 3 位参与者 阅读完整话题

linux.do · 2026-04-18 16:21:24+08:00 · tech

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 事情的起因是,最近想玩一玩胶片摄影,但是奈何 Android 没有很好的测光软件,索性自己就vibe了一个,现已开源: https://github.com/JessieChan0730/com.lamameter.pro 目前 v1.1.0 版本已经实现了最基本的测光功能,接下来计划实现下面几个功能: 白平衡检测 估焦测距 分区曝光 目前部分界面的设计: 求求佬友们给给建议(无论是功能、UI还是BUG都可以) 。如果有佬友喜欢这个项目,觉得这个项目还不错的话,也可以帮忙提提issue或者点一点star​ 。感谢各位佬友的支持啦! 2 个帖子 - 2 位参与者 阅读完整话题

linux.do · 2026-04-18 16:15:57+08:00 · tech

无论是在vscode的插件中使用,还是各种版本的gui中,都有一个通病 那就是: 可能ai还在回复,还在执行,因为时间比较长,或者是网络有延迟,或者是输出的信息让gui工具以为这就是最终的回复结果了,然后就戛然而止 即使他说接下来执行什么什么,但是界面中就是已经停止了, 看图: 这个是我使用的是vscode中的插件,昨天感觉很顺滑,今天更新了一下,然后又开始了 其他的gui工具有同样的通病,还是老老实实回到cli吧 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-18 15:48:47+08:00 · tech

由于对长期任务的各层级 AGENTS.md 有优化需求,我前期用codex做了一次调研。根据调研结果建立了这个skill的框架,然后用较完整的技能优化和评测的工作流,做了技能测试和改进,包括脚本调用codex-cli模拟真实仓库环境中,用skill和不用skill的测试。 目前技能已经能初步使用。大家如果在使用中遇到问题也可以自行优化一下,可以在帖子里分享给大家。 完全可以使用一下这个技能,让ai从完整记忆(比如说codex的memory全文,而不是rg搜索一部分记忆)中判断那些规则需要沉淀到全局AGETNS.md里,试试效果。 技能如下 agents-md-improver.zip (86.7 KB) 更完整的介绍留给codex帮我总结 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-18 15:35:09+08:00 · tech

今天我使用CC时,突然脑袋一热,寻思更新一下软件包,不过坏了事儿了,我使用claude指令的时候却突然显示找不到指令了,经过我一上午的摸索,发现居然是node的问题 那我们应该如何解决这个问题呢 我们只需要删掉旧版的cc npm uninstall -g @anthropic-ai /claude-code ,然后使用 npm install -g @anthropic-ai /claude-code 重新安装即可 或者 切换node版本到你之前使用的版本即可 希望此篇文章能帮到你解决问题,感谢你的阅读 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-18 15:29:32+08:00 · tech

大家好,最近在折腾一个具身智能比赛 ManipArena,想来求点建议,也看看有没有佬友愿意一起研究。 我现在研一,对具身智能挺感兴趣,但相关背景还比较弱,很多东西都在边做边补。暑假想找一段具身方向的实习,所以也有点焦虑简历上项目不够,想趁这段时间认真做一个能拿得出手的东西。 目前是在做一个具身智能比赛叫ManipArena,我选了 pi0.5 / OpenPI 这条线做 baseline,正在一点点把训练、推理、评测和比赛接口这些链路接起来。后面也打算继续做 LoRA 微调、baseline 对比,以及看看能不能做一些闭环评测。 不过我现在也有一些困惑: 像我这种基础一般的新人,做 ManipArena 这种比赛值不值得投入? 如果目标是找暑假实习,这类项目应该做到什么程度才比较有说服力? 应该优先把整个 pipeline 跑通,还是尽量做一点自己的改进? 有没有人也在看具身、机器人 policy、VLA、OpenPI 这些方向,愿意一起交流或者组队? 如果有前辈愿意提点一下方向、资料或者避坑建议,我会非常感谢。 如果有朋友正好也在做类似的东西,也欢迎直接回帖或者私信我,一起研究。 5 个帖子 - 4 位参与者 阅读完整话题