智能助手网
标签聚合 到底

/tag/到底

linux.do · 2026-04-18 21:21:43+08:00 · tech

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下全是我自己手搓,没有ai味(我用最真实、最不绕、最直接的方式跟你讲 hhhhh),放心品尝 很多人以为 Skill 迭代最难的是"怎么改"。 但我越来越强烈地觉得,真正难的其实不是改,而是: 你改完之后,根本不知道它到底有没有真的变好。 补描述、调 prompt、加例子、补边界、改结构。 Skill 看起来越来越完整,文档越来越像样,语气越来越专业。 但问题是: 看起来更完整,不等于真的更强。 skill的实际行为未必更稳定,边界未必更清晰,失败处理也未必更好。 所以很多 Skill 维护最别扭的地方,其实不是"不会写",而是你明明已经改了很多轮,却还是说不清: 上一次改动,到底有没有真正产生作用。 我后来专门跑了 100 个高下载 Skill,发现问题并不是"不能用" (是的,烧我自己的token)结果最有意思的地方,不是烂 Skill 特别多。恰恰相反,大多数 skill 其实都能用: 70 个通过 29 个在 caution 区间 1 个 fail 平均分 73.8 真正的问题不是:大多数 Skill 完全不能用。 而是 很多 Skill 停在一个很尴尬的状态:能用,但不容易被继续有效优化。 你一旦想认真往上修,就会发现问题不少,但很难判断到底该先修哪一块。 也就是说,难点不是"没法写",而是 没有诊断,所以不知道怎么有效地继续改。 更关键的是,这种"不对劲"还不是随机的。 我看到的弱点主要集中在几个地方: Trigger quality 平均 6.2 Functional quality 平均 6.6 大约 80% 缺少 not_for 边界 大约 60% 的 D4 弱项 Skill 缺少像样的 error recovery guidance 还有接近 40% 更像"写给人看的说明书",而不是"写给模型执行的操作说明" 这里翻译成人话就是: 很多 Skill 不是坏在"完全不能用",而是坏在几个特别重复的地方:不会划边界,不会处理失败,也没有把行为写得足够可执行。 所以我后来做了 SkillCompass 我想解决的,不是"怎么把 Skill 写得更长、更完整",而是另一件更关键的事: 在你动手优化之前,先看清问题到底在哪;在你改完之后,再验证这次修改有没有真的产生提升。 所以对我来说,SkillCompass 不是一个"给 Skill 打个分"的工具而已。 它更像一个给 Skill 迭代提供方向感的东西: 现在最弱的是哪一维 下一步该先修哪里 这轮修改有没有真的带来提升 有没有把别的地方一起改坏 【这里插一句compass 这个名字,指南针🧭,其实也是这个意思。不是替你做决定,而是先帮你定位方向。 】 所以它背后的设计原则也很简单: 本地优先 :所有数据都留在本机,除非你明确要求,否则不会主动发起网络请求 默认只读 :评估和报告默认不改文件,improve、merge、rollback 这类写入操作都要明确开启 被动追踪,主动决策 :Hooks 会收集使用数据,但系统只给建议,不会自动替你执行 双通道交互 :既支持键盘选择,也支持自然语言查询,两种方式始终都可用 同时我把评估分成了6个维度;把判定标准分成3档 它不是在帮你"多改一点",而是在帮你把迭代变成一个可验证的流程 与其盲目地"再多写一点",不如把 Skill 迭代拆成一个更清晰的 workflow。下面拿agile-product-owner作为一个例子展开讲讲: 1)先诊断 不要一上来就改。先看清楚最弱的是哪一维。 很多时候你以为问题在 wording,实际可能卡在 trigger、边界、失败处理,或者执行指令根本不够可操作。 先把最弱项找出来,后面的修改才不是瞎试。 接着它出一个初步的报告,包含维度1-3,后面会有一个完整的全方位维度1-6的测评报告(看下图): 2)再看单项到底在说什么 我觉得这一步特别重要。 因为很多人一看到分数,会下意识觉得"哦,这项低,那我去多写一点"。 但 SkillCompass 真正有价值的地方,不是只给分,而是会把某个维度为什么高、为什么不满分、它到底在判断什么,说得更清楚。 比如拿 D6 = Uniqueness(独特性 / 不容易被替代) 来说,它看的不是"你这段话写得顺不顺",而是在看: 这个 skill 是不是真的有独立价值 有没有明显重复品 跟相似 skill 重合度高不高 是不是一句普通 prompt 就能替代 它是不是很快就会过时 这里个skill的这一维最后给到 8 分,不是说它不好,而是说:它已经有明确领域专属性,也不太容易被普通 prompt 替代,但还没有强到"极其不可替代"的程度。 3)定点修复,而不是整份 Skill 重写 找到弱项之后,不是整份 skill 重写一遍。 而是只修最该修的那一块。所以我们把弱项加强,不好的修正,但不污染上下文 **这里要敲重点!!!**它做了那段分数解释,并且新版分更高的同时也没有把别的地方改坏,因为修改目标清楚,而且不会为了补一个问题,把别的地方一起搅乱。 此时,SkillCompass 已经完成这轮评估/优化结果的写入(提升了 D5),没有出现回归,然后把新的评估记录和最新扫描时间写进本地文件。 4)改完再验证,千万不要靠感觉收工 改完不能靠"看起来更完整了"就结束。要重新验证这次修改到底有没有带来真实提升。 分数有没有上去,解释有没有更扎实,别的维度有没有被改坏,这些都得重新看。 (((兄弟们,有效的优化才叫"迭代",不然就是屎上雕花。))) 5)再找下一个瓶颈 一个问题修完,不代表 skill 就完成了。 通常是这个瓶颈被拿掉之后,下一个瓶颈才会浮出来。 所以真正有效的迭代,不是一次性改到完美,而是持续地: 诊断问题 → 定向修复 → 验证提升 → 找到下一个瓶颈 这也是我现在更认同的一种 Skill 迭代方式:不是凭感觉打磨,而是把迭代变成一个更可验证的 workflow。 适合什么人,不适合什么人 适合: 任何在维护 agent skills,并且希望质量能够被量化的人 想要有明确改进方向的开发者—不是靠猜,而是清楚知道下一步该修哪个维度 需要质量门槛的团队—任何会改动 skill 的工具,都可以在改动后自动接受评估 安装了很多 skills、想看清哪些真的在用、哪些已经陈旧、哪些存在风险的用户 不适合: 通用代码审查或运行时调试 从零创建新 skill(这个更适合用 skill-creator) 评估非 skill 类型的文件 项目在这里: github.com GitHub - Evol-ai/SkillCompass: Evaluate agent skill quality. Find the weakest… 有兴趣的佬欢迎去 GitHub 点个 star 支持一下。 如果你手上也有自己的 SKILL.md,欢迎直接贴出来,我这边也可以顺手用 SkillCompass 帮你跑一遍测评。 有问题也欢迎一起聊,也可以 fork 回去自己改着玩 2 个帖子 - 2 位参与者 阅读完整话题

linux.do · 2026-04-18 14:29:54+08:00 · tech

如题, 我是wsl+ollama, 试了一个qwen3.5 2b 4b 9b, 都贼拉难用, 我就问他 1+1=? , 一直搁那吐字, 思考, 我记得以前2023年的ChatGLM没这么难用的啊, glm问他是谁他都正常吐字就完事了, qwen一直搁那思考自己是阿里巴巴开发的, 中文思考完了换英文, 半天不吐字, 介绍完自己, 又介绍阿里巴巴, 难用得要命了 13 个帖子 - 10 位参与者 阅读完整话题

linux.do · 2026-04-18 11:51:58+08:00 · tech

先说说使用环境:自己的单个GPT PRO账号------CPA转接(这里主要是为了统一代理,不用每个机器装一个代理)------Axonhub(因为还有其他模型,一起管理)------opencode+OMO 在两台开发机上都发现同样的问题(不同的OC版本,一个1.3.17,一个1.4.8):经常出现如图所示的报错,尤其感觉是写入长文本或者一条回复比较长报错概率会更大,非常影响开发。 我又分析了一下请求,似乎是思考/输出太长,openai先返回了一个空响应,但是在OC侧被错误处理了? 请各位大师帮忙看看! 我逐步审视: Axonhub接收到的相应如下: { id: "resp_0cc95817ee988d150169e25f7278ec8199a1176c6b7dafb37b" model: "gpt-5.4" object: "response" output[ ] status: "in_progress" created_at: 1776443251 } OC显示报错文本如下: Type validation failed: Value: {"error":{"code":"internal_server_error","message":"unexpected EOF","type":""}}. Error message: [ { "code": "invalid_union", "errors": [ [ { "code": "invalid_value", "values": [ "response.output_text.delta" ], "path": [ "type" ], "message": "Invalid input: expected \"response.output_text.delta\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "delta" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.completed", "response.incomplete" ], "path": [ "type" ], "message": "Invalid option: expected one of \"response.completed\"|\"response.incomplete\"" }, { "expected": "object", "code": "invalid_type", "path": [ "response" ], "message": "Invalid input: expected object, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.failed" ], "path": [ "type" ], "message": "Invalid input: expected \"response.failed\"" }, { "expected": "object", "code": "invalid_type", "path": [ "response" ], "message": "Invalid input: expected object, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.created" ], "path": [ "type" ], "message": "Invalid input: expected \"response.created\"" }, { "expected": "object", "code": "invalid_type", "path": [ "response" ], "message": "Invalid input: expected object, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.output_item.added" ], "path": [ "type" ], "message": "Invalid input: expected \"response.output_item.added\"" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "code": "invalid_type", "expected": "object", "path": [ "item" ], "message": "Invalid input: expected object, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.output_item.done" ], "path": [ "type" ], "message": "Invalid input: expected \"response.output_item.done\"" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "code": "invalid_type", "expected": "object", "path": [ "item" ], "message": "Invalid input: expected object, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.function_call_arguments.delta" ], "path": [ "type" ], "message": "Invalid input: expected \"response.function_call_arguments.delta\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "delta" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.custom_tool_call_input.delta" ], "path": [ "type" ], "message": "Invalid input: expected \"response.custom_tool_call_input.delta\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "delta" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.image_generation_call.partial_image" ], "path": [ "type" ], "message": "Invalid input: expected \"response.image_generation_call.partial_image\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "partial_image_b64" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.code_interpreter_call_code.delta" ], "path": [ "type" ], "message": "Invalid input: expected \"response.code_interpreter_call_code.delta\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "delta" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.code_interpreter_call_code.done" ], "path": [ "type" ], "message": "Invalid input: expected \"response.code_interpreter_call_code.done\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "code" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.output_text.annotation.added" ], "path": [ "type" ], "message": "Invalid input: expected \"response.output_text.annotation.added\"" }, { "code": "invalid_type", "expected": "object", "path": [ "annotation" ], "message": "Invalid input: expected object, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.reasoning_summary_part.added" ], "path": [ "type" ], "message": "Invalid input: expected \"response.reasoning_summary_part.added\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "summary_index" ], "message": "Invalid input: expected number, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.reasoning_summary_text.delta" ], "path": [ "type" ], "message": "Invalid input: expected \"response.reasoning_summary_text.delta\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "summary_index" ], "message": "Invalid input: expected number, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "delta" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.reasoning_summary_part.done" ], "path": [ "type" ], "message": "Invalid input: expected \"response.reasoning_summary_part.done\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "summary_index" ], "message": "Invalid input: expected number, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.apply_patch_call_operation_diff.delta" ], "path": [ "type" ], "message": "Invalid input: expected \"response.apply_patch_call_operation_diff.delta\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "delta" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "response.apply_patch_call_operation_diff.done" ], "path": [ "type" ], "message": "Invalid input: expected \"response.apply_patch_call_operation_diff.done\"" }, { "expected": "string", "code": "invalid_type", "path": [ "item_id" ], "message": "Invalid input: expected string, received undefined" }, { "expected": "number", "code": "invalid_type", "path": [ "output_index" ], "message": "Invalid input: expected number, received undefined" }, { "expected": "string", "code": "invalid_type", "path": [ "diff" ], "message": "Invalid input: expected string, received undefined" } ], [ { "code": "invalid_value", "values": [ "error" ], "path": [ "type" ], "message": "Invalid input: expected \"error\"" }, { "expected": "number", "code": "invalid_type", "path": [ "sequence_number" ], "message": "Invalid input: expected number, received undefined" } ], [ { "expected": "string", "code": "invalid_type", "path": [ "type" ], "message": "Invalid input: expected string, received undefined" } ] ], "path": [], "message": "Invalid input" } ] 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-18 00:28:50+08:00 · tech

以下为我个人体验,成功率从高到底: 谷歌别名邮箱、qq邮箱我自己的邮箱都注册完了,成功率100% 163邮箱我只注册了一个,也成功了,不确定是否是个例 2925邮箱今天试了好多回,成功率在60% 70%左右。 duckduckgo邮箱,一两周之前是成功率100%,现在貌似全都会跳add phone 我之前薅羊毛20块买的.com域名,整了个域名邮箱,一个都没成功,成功率0% 没提到的都是我没用过的,比如hotmail邮箱,听说现在也不行了? 7 个帖子 - 4 位参与者 阅读完整话题

www.ithome.com · 2026-04-17 21:45:29+08:00 · tech

IT之家 4 月 17 日消息,国家市场监督管理总局今日向美团下发了《行政处罚决定书》,认定平台未依法履行资质审核义务。 美团随后回应称,将按照食品安全监管要求落实整改措施,并在各级监管部门指导下,重点打击餐饮转单、利用虚假资质上线等违法违规行为及黑灰产产业链。 同日,美团发布“放心外卖”十大举措,宣布全面升级外卖食品安全治理体系,围绕“商家准入、透明经营、多方共治”三个环节推进。 在商家准入方面,美团已与全国 20 余个省市对接许可证数据接口,实现商家证照与监管部门数据库 100% 穿透式对接验真。 自 2026 年 5 月起,全国餐饮商家在平台上线 30 日内,须提交完整、连续、带定位的“一镜到底”门店视频,平台将结合线下巡检与大众点评消费者实拍进行交叉验证 。针对已上线商家,美团将重点核验门店地址真实性与现场环境卫生,对高风险商家开启自检、平台巡检、AI 巡检、第三方飞检四道核验程序。 在透明经营方面,美团继续扩大“明厨亮灶”覆盖范围, 目前已有超过 40 万商家开通后厨直播 ,并为中小商家提供专项支持,鼓励其通过“食安日记”等功能展示后厨信息。平台为商家建立“食安透明橱窗”,向消费者标注堂食、明厨亮灶等食安信息,食安相册功能覆盖全量商家。同时,美团升级食品安全 AI 大模型“星眸”,当前日均后厨巡检超过 1400 万次, 升级后虚假门头图、虚假环境图识别功能将覆盖全部商家 。 在多方共治方面,美团推出多项举措。骑手“食安随手拍”已覆盖全国,鼓励骑手在日常配送中发现食安线索,平台对提供有效线索的骑手给予专项奖励。“小美评审团 · 食安评审官”机制已覆盖全国超 90 个城市,邀请消费者参与食安标准讨论和线下门店巡检。 此外, 美团将上线全国首个“食安政企共治平台”,每日主动上报并滚动更新食安线索 ,监管部门可在线查询骑手上报、消费者评价、平台巡检等多源信息,支持在线协查和治理下线。针对伪造证照、协助违规上线、一店多开、违规转单等黑灰产行为,美团将依托智能大模型主动预警,与公安机关建立常态化线索移送和联合打击机制,并联合多家电商及内容平台协同治理。 IT 之家小伙伴记得用 最会买点外卖 ,享受折扣价的同时还可以获得返利,单单都能省钱! 相关阅读: 《 共处罚没款 35.97 亿元!拼多多、美团、京东、淘宝闪购、抖音、淘宝、天猫涉“幽灵外卖”系列案被处罚 》 《 严禁自动化高频抢票:携程、同程、去哪儿、飞猪、美团、智行、高铁管家被约谈 》 《 市场监管总局要求美团、京东、淘宝闪购三大外卖平台 6 月 1 日前完成外卖食品安全整改 》

linux.do · 2026-04-17 16:22:38+08:00 · tech

今日奥特曼大胜,A/大败 搞七捻三 A/到底是啥啊?这个在哪里玩呀。。。。。 这个话题就从这里开始吧,L站是著名的AI 剧透 学习论坛,但是我作为一个三级号,竟然对于很多基础知识一窍不通,比如什么cc switch、什么凹凸曼、什么中转站是如何练成的、什么蹬完了,啥的,只要是你知道的,我来者不拒,今天,让各位佬友人人献出一点光,用你们的AI知识助我破鼎 2 个帖子 - 2 位参与者 阅读完整话题