智能助手网
标签聚合 说话

/tag/说话

linux.do · 2026-04-18 15:12:59+08:00 · tech

最终搞定了,记录一下。 在 Home Assistant(简称HA)里安装 xiaomi-miot 插件后。 设置 → 设备与服务 → 搜索 Xiaomi Miot 在设备列表里找到你要控制的音箱,我有2个小爱音箱,其中 小米小爱音箱 Pro ,在 Miot 里叫做 Mi AI Speaker Pro,设备型号 xiaomi.wifispeaker.lx06 小米智能音箱 Pro ,在 Miot 里叫做 Xiaomi Smart Speaker Pro,设备型号 xiaomi.wifispeaker.oh2p 点击进入设备控制页面后,可以发现有很多控制功能,比如【播放文本】和【执行文本指令】。 点击“播放文本”功能前面的图标,再点击右上角的设置图标 即可看到这个功能的【实体标识符】,我理解就是一个 function id 有了这个,再配合 HA 生成的长期 token,就能写脚本控制小爱音箱说话了。 这是龙虾给我写的代码,测试通过。 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-17 09:02:04+08:00 · tech

我在体验了gpt的个性化设置后,然后搬到api提示词内也发现没有不像人,而且使用体验挺好的,gpt会员二手市场价格对比其他家感觉挺好的,个人不写代码日常使用还是回归ChatGPT了 基本风格和语调 高效务实 降低亲和度 更专业,事实性更强 提高热情度 更加活力充沛 少用标题和列表 更多段落文本,而非列表结构 增加表情符号 使用更多表情符号 结尾不要反问用户,不要一句话这种形式。简单阐述关键点即可。 2 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-17 01:55:05+08:00 · tech

以前没怎么见过claude 模型会这么说话的,而且出现了很多次中文乱码的情况。以前的claude语气像个工程师,现在这个很难评 opus4.7: opus4.6: 下面的我个人感觉舒服多了,由于是直接重新生成的对话, 面读 这个词不确定是聊天记录污染还是opsu4.6也有这个问题 opsu4.7自己总结的自己说的话难以听懂的问题: 从"话少"变成"话多" 从"话多"中,进一步是"多出来的话在表演姿态而非传达信息" 而表演姿态这件事本身,在任何专业语境下都会摧毁可信度 —— 因为专业信任建立在"我说的每句话都有用"这个默认契约上,一旦有句子明显没用,读的人就会开始怀疑其他句子是不是也在注水 25 个帖子 - 13 位参与者 阅读完整话题

www.ithome.com · 2026-04-16 20:12:12+08:00 · tech

IT之家 4 月 16 日消息,今天上午,小米创办人、董事长兼 CEO 雷军宣布,明天(4 月 17 日)早上六点半, 将直播新一代小米 SU7 从北京到上海的长途续航测试 ,雷军本人全程参加并全程直播,大约十五个小时。 有网友担心此次直播后会引来一堆黑稿。对此,雷军回应称:“ 咋办呢?不能因为有黑稿,我们就不说话了? ” 据IT之家今日早些时候报道,小米汽车副总裁李肖爽针小黑子已经提前做了预判走位。他表示:“ 雷总不开车 ,要不太累了。我们同事轮流开车,安全是第一位的。”

linux.do · 2026-04-16 09:13:08+08:00 · tech

谷歌发布新一代文本转语音模型 Gemini 3.1 Flash TTS,核心卖点不是「更像真人」,而是开发者可以精确控制 AI 语音的风格、语速和情绪表达。模型已通过 Gemini API、Google AI Studio(开发者预览)、Vertex AI(企业预览)和 Google Vids(Workspace 用户)上线。 这套控制能力的关键是「audio tags」(音频标签):开发者在输入文本中嵌入自然语言指令,就能调整 AI 语音的语调、节奏和口音,甚至在一句话中间切换表达风格。谷歌在 Google AI Studio 中提供了一套「导演椅」式的配置界面,包含三层控制: 1. 场景指导:设定环境和对话指令,让角色在多轮对话中保持一致性格 2. 角色级调参:为每个角色分配独立的音频配置,单独控制语速、语调和口音 3. 一键导出:调好的参数可直接导出为 Gemini API 代码,在不同项目和平台上复用 在第三方评测机构 Artificial Analysis 的 TTS 排行榜上,Gemini 3.1 Flash TTS 以 1211 分的 Elo 评分登顶,该排行榜基于数千次人类盲听偏好测试。Artificial Analysis 同时将其列入「最具吸引力象限」,即语音质量高且成本低。模型支持 70 多种语言和原生多角色对话,所有生成音频均内嵌 SynthID 水印用于 AI 内容识别。 对开发者来说,这意味着 TTS 从一个「把文字读出来」的工具变成了一个可编程的语音表演引擎。过去要做有情感的 AI 语音,要么靠后期处理,要么靠 SSML 标记语言逐字标注,现在用一句自然语言就能搞定。结合一键导出功能,同一套语音风格可以跨产品线复用,这对需要统一品牌声音的企业尤其实用。 Google – 15 Apr 26 Gemini 3.1 Flash TTS: the next generation of expressive AI speech Gemini 3.1 Flash TTS is now available across Google products. 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-15 17:11:55+08:00 · tech

mbti群说话整体上有小红书的文风,技术群说话整体上偏向知乎的文风,mbti群里面分享小红书的内容的人多,技术群里面分享知乎的内容的人多,同时小红书里面讨论技术的人文风也偏向知乎 同时我发现qq群里面文风和是否使用二次元头像似乎也有一些关系,不过和小红书文风还是知乎文风似乎关系不大 L站和B站文风似乎都偏向知乎一点,不过和知乎有一些差异,L站和B站似乎也有一些差异 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-15 10:55:06+08:00 · tech

没人觉得 gpt5.4 说话很啰嗦吗 搞七捻三 网页版的 gpt5.4 thinking 没人觉得很啰嗦吗 看他的回复全是 1,2……20,每次都是一堆点,几句话反复讲 用 cherry studio 里面的 api 也是这样 现在切回 5.2 聊天了 可是为什么好像没人提到这一点 补充: 可以尝试在个性化里面调整一下,但是作用不大 [image] 从此贴继续讨论 打算体验一下国产的几个大模型 APP(桌面版) 分别有: 千问:支持 qwen3.5 plus(后面可能还有 max),应用简洁 豆包:专家模式还可以,但是应用有点臃肿了 元宝:主要用 ds3.2,模型有点落后 不知道各位佬友怎么看,国内的几个大模型和对应的应用,谁日常用最舒服? 2 个帖子 - 2 位参与者 阅读完整话题

linux.do · 2026-04-14 08:39:03+08:00 · tech

老人都会说小孩子有说话早的有说话晚的是正常的,但是家长不要忽视这点, 在相应的年纪语言能力不达标 要早点去看行为发育课,规避听力/语言的问题。 国家对孩子语言发育迟缓是有补贴的,在三甲医院做好评估和诊断,真的落后的话可以去户籍地残联申请补贴,然后去当地定点机构进行行为发育1对1辅导,基本都能报销(不报销每个月估计大几千)。 ——以上感慨来自诊断语言发育落后1岁,昨天从市里去县里赶来赶去弄了一下午的老父亲 20 个帖子 - 9 位参与者 阅读完整话题