智能助手网
标签聚合 结果

/tag/结果

linux.do · 2026-04-18 19:53:39+08:00 · tech

介绍:一个能基于vmware自动创建实验环境,检测代码执行结果的Linux教学平台。 初衷 六七年运维运维老人了,深知linux学习过程过于枯燥,因此想着做一个教程实验一体的一个小软件。网络上教程和实际操作大多数是分离的,环境不一,资料不全,关键步骤是否执行成功也无法得知,导致进展不下去。 很多伙伴不是没有学习的动力,是学习前的准备工作太多了,就像一个学习炒菜的人,如果需要出门买菜、砍价、洗菜,浪费太多的时间在前置工作上,做这个软件的目的,是让你先把时间花在炒菜上面,前置步骤可以后面慢慢学。 你需要做什么,把vmware软件安装好,ova文件准备好,导入下实验文件,就可以开始学习了。(说明书都有教程) linux教程方面,属红帽最为知名,因此配套课程以红帽作为编写模板,对其进行必要的补充和修改,学不会就真是我写的有问题了,无AI,放心食用。 核心辅助:针对关键步骤做了检测判断,可以辅助你查看命令是否执行成功。 环境重置:一键重置实验环境,新手要的是先成功,而不是排错。能力不足时,重新开始会更好,排错是等你学会后,再来折腾。 虚拟机资源调度:如果你平日里经常折腾vm,需要创建集群环境之类的,软件也支持自定义资源,直接帮你创建好虚拟机,不需要你手动点开vm,一台台创建操作。 软件介绍 课程导入 软件依赖于实验手册,导入实验手册后就能看得到课程,具体操作在说明中有写。 实验区域 左侧功能菜单,中间实验手册,右侧ssh资源,ssh资源基于vmare自行创建,自动连接实验手册对应的虚拟机资源。 环境重置 环境弄坏了,点击左侧"环境重置即可",基于快照机制,10秒崭新如初。中间实验手册,目前展示的内容基于红帽编写,(累啊)纯手工制作,右侧是实验手册对应的ssh资源。 实验步骤检测 实验手册针对当前必要的步骤进行检测,辅助确认命令有效执行。 未通过: 通过: 实验文件一键导入 如果实验手册绑定文件(任意类型),支持一键导入,避免实验中缺失素材。 资源自定义 除了实验手册定义的资源,可自行定义虚拟机。 在首页中新建课程,课程中新建目录,然后即可创建实验,在实验中,可自行添加实验资源。 假设说你需要弄个集群,可根据个人需要创建虚拟机,只要你本地资源足够就行。 此处演示创建三台虚拟机。 虚拟机管理 可自行管理课程所创建的虚拟机。 其他介绍在说明数中,可前往查看。 软件下载安装 github限制100M的软件,目前暂时放到百度网盘,有其他更好的佬可以告知下。 链接: 百度网盘 请输入提取码 提取码: p8mh 课程资料也在网盘中,一起下载即可。 双击"LabBox-1.0.0-Portable.exe"直接运行,免安装。 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-18 10:36:02+08:00 · tech

今天试着用了一下brave,感觉启动速度确实很快,而且同步链同步速度也很快,就是有个问题 我点击搜索结果后标签页是在当前页覆盖打开的,在用brave的佬们都是怎么解决的 https://search.brave.com/settings 说是在这里设置,但是我设置好了之后还是一样 而且我发现和搜索引擎也有关系, 百度 和 Bing 点击结果都是新标签页打开, 谷歌 和 duckduckgo 都是在当前页覆盖打开了 5 个帖子 - 2 位参与者 阅读完整话题

linux.do · 2026-04-17 21:02:25+08:00 · tech

八个模型评测测试报告 1). 测试概述 本次测试针对以下八个模型进行了统一条件下的对比评测: Gemma-4-31B-IT-Uncensored SuperGemma4-26B-Uncensored Gemma 4 - 26B A4B x Claude Opus 4.6 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled SuperGemma4-26B-Abliterated-Multimodal Gemma-4-31B-IT-Claude-Opus Qwen3.6-35B-A3B-Uncensored 我下载的都是Q4_K_M量化版 2).电脑硬件参数 硬件类型 型号/规格 显卡 NVIDIA GeForce RTX 4090 内存 64GB DDR5 CPU Intel Core i9-13900K 测试目标是从 逻辑推理能力、代码生成能力、响应速度、运行稳定性 四个维度,评估八个模型在实际使用场景中的综合表现。 2. 测试方法与统一设置 为保证横向比较公平,本次评测使用了完全一致的测试方式和参数设置。 2.1 统一参数 temperature:0.0 top_p:1.0 每题采样次数:1 不使用 LLM 裁判 逻辑题采用 exact match 评分 代码题采用程序执行与测试通过率评分 2.2 测试集规模 GSM8K:20 题 BBH:20 题 HumanEval+:10 题 MBPP+:10 题 2.3 评分公式 逻辑分 = (GSM8K + BBH) / 2 代码分 = (HumanEval+ + MBPP+) / 2 总分 = (逻辑分 + 代码分) / 2 3. 总体结果汇总 排名 模型 逻辑分 代码分 总分 平均时延 执行失败率 1 Gemma-4-31B-IT-Uncensored 0.9500 1.0000 0.9750 17.64s 0.00 2 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 0.8500 1.0000 0.9250 38.25s 0.00 3 SuperGemma4-26B-Uncensored 0.8750 0.9500 0.9125 4.90s 0.05 3 Qwen3.6-35B-A3B-Uncensored 0.8750 0.9500 0.9125 100.35s 0.05 5 Gemma-4-31B-IT-Claude-Opus 0.8500 0.9000 0.8750 69.27s 0.10 6 Gemma 4 - 26B A4B x Claude Opus 4.6 0.7750 0.9500 0.8625 18.49s 0.05 7 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.6000 1.0000 0.8000 58.25s 0.00 8 SuperGemma4-26B-Abliterated-Multimodal 0.7250 0.5000 0.6125 8.04s 0.50 4. 单模型详细测试结果 4.1 Gemma-4-31B-IT-Uncensored 4.1.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 21.24s - BBH 19 / 20 0.95 29.62s - HumanEval+ 10 / 10 1.00 15.36s 0.00 MBPP+ 10 / 10 1.00 4.35s 0.00 4.1.2 表现分析 以 0.9750 总分断层登顶 ,是八个模型中综合实力最强的。 逻辑能力极强,GSM8K 和 BBH 均达到 0.95。BBH 0.95 远超第二名 SuperGemma4 的 0.80。 代码能力满分 ,HumanEval+ 和 MBPP+ 全部通过。 执行失败率为 0 ,稳定性最佳之一。 速度适中(17.64s),与 Gemma4-26B 接近。 该模型是本次评测中唯一一个在 逻辑、代码、稳定性三个维度均无短板 的模型。 4.1.3 结论 Gemma-4-31B-IT-Uncensored 是本次测试中 综合实力最强、无明显短板 的模型。是当前最值得推荐的全能型首选模型。 4.2 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 4.2.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 20 / 20 1.00 45.08s - BBH 14 / 20 0.70 32.16s - HumanEval+ 10 / 10 1.00 43.15s 0.00 MBPP+ 10 / 10 1.00 32.62s 0.00 4.2.2 表现分析 GSM8K 取得满分,数学推理能力是八个模型中最强的之一。 代码能力满分,稳定性优秀。 BBH 0.70,复杂逻辑推理能力明显增强。 平均时延 38.25 秒。 4.2.3 结论 Qwen3.5-27B 是 代码能力极强、数学推理极强、综合表现显著提升 的模型,最新重测后已升至综合第二。 4.3 SuperGemma4-26B-Uncensored 4.3.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 3.09s - BBH 16 / 20 0.80 14.34s - HumanEval+ 10 / 10 1.00 1.44s 0.00 MBPP+ 9 / 10 0.90 0.75s 0.10 4.3.2 表现分析 总分 0.9125 并列第三,逻辑能力仅次于 Gemma-4-31B。 速度是最大亮点 ,平均时延仅 4.90 秒,是所有模型中最快的。 代码能力很强,HumanEval+ 满分,MBPP+ 仅丢 1 题。 存在少量执行失败(0.05)。 4.3.3 结论 SuperGemma4-26B-Uncensored 是 速度最快 + 综合并列第三 的模型。如果极度看重响应速度,它是最佳选择。 4.4 Qwen3.6-35B-A3B-Uncensored 4.4.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 92.47s - BBH 16 / 20 0.80 143.65s - HumanEval+ 10 / 10 1.00 93.43s 0.00 MBPP+ 9 / 10 0.90 71.86s 0.10 4.4.2 表现分析 总分 0.9125,与 SuperGemma4-26B-Uncensored 并列第三。 逻辑分 0.875,GSM8K 0.95、BBH 0.80,逻辑能力很强,与 SuperGemma4 持平。 代码分 0.95,HumanEval+ 满分,MBPP+ 少失 1 题。 执行失败率仅 0.05,稳定性良好。 但平均时延高达 100.35s,是所有模型中最慢的 ,是其最大短板。 4.4.3 结论 Qwen3.6-35B-A3B-Uncensored 是一个 质量高但速度极慢 的模型。综合得分与 SuperGemma4 并列,但时延是其 20 倍。适合不在意响应速度、追求输出质量的场景。 4.5 Gemma-4-31B-IT-Claude-Opus 4.5.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 17 / 20 0.85 85.28s - BBH 17 / 20 0.85 78.65s - HumanEval+ 8 / 10 0.80 71.41s 0.20 MBPP+ 10 / 10 1.00 41.74s 0.00 4.5.2 表现分析 总分 0.8750,综合第五。 逻辑比较稳,GSM8K 和 BBH 都到 0.85。 代码能力较强,MBPP+ 满分,HumanEval+ 有 0.80。 速度偏慢(69.27s),执行失败率 0.10。 4.5.3 结论 Gemma-4-31B-IT-Claude-Opus 是一个 逻辑稳健、代码较强但速度偏慢 的模型。 4.6 Gemma 4 - 26B A4B x Claude Opus 4.6 4.6.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 18.38s - BBH 13 / 20 0.65 20.64s - HumanEval+ 9 / 10 0.90 18.73s 0.10 MBPP+ 10 / 10 1.00 16.20s 0.00 4.6.2 表现分析 综合均衡,逻辑和代码都较强。 速度适中(18.49s)。 存在一定执行失败率(0.05)。 4.6.3 结论 Gemma 4 - 26B A4B x Claude Opus 4.6 是一个 均衡且响应较快 的模型。 4.7 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 4.7.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 26.57s - BBH 6 / 20 0.30 33.21s - HumanEval+ 10 / 10 1.00 129.31s 0.00 MBPP+ 10 / 10 1.00 43.93s 0.00 4.7.2 表现分析 代码能力满分。 BBH 仅 0.30,逻辑短板明显。 稳定性良好。 4.7.3 结论 Qwen3-Coder-Next 是一个 偏代码导向 的模型,不推荐作为综合主力。 4.8 SuperGemma4-26B-Abliterated-Multimodal 4.8.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 5.95s - BBH 11 / 20 0.55 21.35s - HumanEval+ 1 / 10 0.10 2.37s 0.90 MBPP+ 9 / 10 0.90 2.47s 0.10 4.8.2 表现分析 HumanEval+ 几乎全军覆没 ,仅通过 1 题(0.10),执行失败率高达 90%。经三次评测结果高度一致,确认为系统性问题。 代码分仅 0.500,是八个模型中断层最低的(第二低为 Gemma-4-31B-IT-Claude-Opus 的 0.900)。 逻辑能力中规中矩,GSM8K 0.90 尚可,BBH 0.55 一般。 MBPP+ 得分 0.90,说明简单代码任务能处理,但复杂函数级代码生成存在严重缺陷。 速度较快(8.04s),但速度无法弥补代码质量的致命缺陷。 总执行失败率 0.50 ,是所有模型中最差的,远高于第二名的 0.10。 4.8.3 结论 SuperGemma4-26B-Abliterated-Multimodal 是本次测试中 表现最差 的模型。HumanEval+ 代码生成存在系统性缺陷,执行失败率极高, 不推荐在任何需要代码能力的场景中使用 。 5. 横向对比分析 5.1 逻辑能力对比 模型 GSM8K BBH 逻辑分 Gemma-4-31B-IT-Uncensored 0.95 0.95 0.950 SuperGemma4-26B-Uncensored 0.95 0.80 0.875 Qwen3.6-35B-A3B-Uncensored 0.95 0.80 0.875 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 1.00 0.70 0.850 Gemma-4-31B-IT-Claude-Opus 0.85 0.85 0.850 Gemma 4 - 26B A4B x Claude Opus 4.6 0.90 0.65 0.775 SuperGemma4-26B-Abliterated-Multimodal 0.90 0.55 0.725 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.90 0.30 0.600 分析: Gemma-4-31B-IT-Uncensored 逻辑能力断层领先(0.950)。 SuperGemma4-Uncensored 与 Qwen3.6-35B 并列逻辑第二(0.875)。 Qwen3.5-27B 和 Gemma-4-31B-IT-Claude-Opus 紧随其后(0.850)。 Qwen3-Coder-Next BBH 仅 0.30,逻辑短板最明显。 5.2 代码能力对比 模型 HumanEval+ MBPP+ 代码分 Gemma-4-31B-IT-Uncensored 1.00 1.00 1.000 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 1.00 1.00 1.000 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 1.00 1.00 1.000 SuperGemma4-26B-Uncensored 1.00 0.90 0.950 Qwen3.6-35B-A3B-Uncensored 1.00 0.90 0.950 Gemma 4 - 26B A4B x Claude Opus 4.6 0.90 1.00 0.950 Gemma-4-31B-IT-Claude-Opus 0.80 1.00 0.900 SuperGemma4-26B-Abliterated-Multimodal 0.10 0.90 0.500 分析: 前六个模型代码能力均在 0.95 以上。 Gemma-4-31B-IT-Claude-Opus 代码分 0.90,略低但依然可用。 abliterated-multimodal 的 HumanEval+ 仅 0.10,代码分 0.500 断层垫底。 5.3 速度对比 模型 平均时延 SuperGemma4-26B-Uncensored 4.90s SuperGemma4-26B-Abliterated-Multimodal 8.04s Gemma-4-31B-IT-Uncensored 17.64s Gemma 4 - 26B A4B x Claude Opus 4.6 18.49s Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 38.25s Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 58.25s Gemma-4-31B-IT-Claude-Opus 69.27s Qwen3.6-35B-A3B-Uncensored 100.35s 分析: SuperGemma4-26B-Uncensored 速度最快,仅 4.90s。 Qwen3.6-35B-A3B-Uncensored 速度最慢(100.35s),是其最大短板。 abliterated-multimodal 速度排第二(8.04s),但速度快不能弥补代码质量缺陷。 5.4 稳定性对比 模型 执行失败率 Gemma-4-31B-IT-Uncensored 0.00 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 0.00 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.00 SuperGemma4-26B-Uncensored 0.05 Qwen3.6-35B-A3B-Uncensored 0.05 Gemma 4 - 26B A4B x Claude Opus 4.6 0.05 Gemma-4-31B-IT-Claude-Opus 0.10 SuperGemma4-26B-Abliterated-Multimodal 0.50 分析: abliterated-multimodal 执行失败率 0.50,远超其他所有模型,稳定性极差。 6. 关键结论 6.1 综合排名 Gemma-4-31B-IT-Uncensored (总分 0.9750,断层第一,逻辑碾压 + 代码满分 + 零失败) Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 (总分 0.9250,综合第二,逻辑与代码都接近满分) SuperGemma4-26B-Uncensored (总分 0.9125,综合并列第三,但速度最快) Qwen3.6-35B-A3B-Uncensored (总分 0.9125,综合并列第三,质量高但速度最慢) Gemma-4-31B-IT-Claude-Opus(0.8750) Gemma 4 - 26B A4B x Claude Opus 4.6(0.8625) Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled(0.8000) SuperGemma4-26B-Abliterated-Multimodal(0.6125,不推荐) 6.2 场景化推荐 追求综合最强、全面无短板 推荐: Gemma-4-31B-IT-Uncensored 原因: 总分 0.9750,断层第一 逻辑 0.950(BBH 0.95,碾压全场) 代码满分 执行失败率为 0 速度适中(17.64s) 追求极致速度 + 综合较强 推荐: SuperGemma4-26B-Uncensored 原因: 总分并列第三(0.9125) 速度极快(4.90s),是所有模型中最快的 逻辑和代码都很强 更重视代码生成、数学能力与稳定性 推荐: Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 原因: GSM8K 满分(八者中唯一) 代码项满分 执行失败率为 0 质量优先、不在意速度 推荐: Qwen3.6-35B-A3B-Uncensored 原因: 逻辑 0.875、代码 0.95,质量很高 与 SuperGemma4-26B-Uncensored 同分(0.9125) 但时延 100.35s,速度是所有模型中最慢的 不推荐 SuperGemma4-26B-Abliterated-Multimodal 原因: HumanEval+ 执行失败率高达 90%,代码分仅 0.50 总执行失败率 0.50,稳定性极差 总分 0.6125,断层垫底 虽然速度较快,但代码生成质量不合格,不适合任何需要代码能力的场景 7. 最终总结 本次测试显示,八个模型在"逻辑、代码、速度、稳定性"四个维度上表现差异显著。 Gemma-4-31B-IT-Uncensored :综合实力断层第一,逻辑碾压全场,代码满分,零失败,是当前最值得推荐的全能型首选模型。 Qwen3.5-27B :综合第二,代码满分、数学满分,逻辑与速度都有明显提升。 SuperGemma4-26B-Uncensored :综合并列第三,速度极快(4.90s),适合对交互效率要求极高的场景。 Qwen3.6-35B-A3B-Uncensored :综合并列第三,质量极高,但速度是所有模型中最慢的(100.35s),适合不在意速度的场景。 Gemma-4-31B-IT-Claude-Opus :综合第五,逻辑稳健、代码较强,但速度偏慢。 Gemma 4 - 26B A4B x Claude Opus 4.6 :综合均衡,速度较快,适合作为通用助手。 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled :代码能力强,但逻辑短板明显,更适合作为偏代码专用模型。 SuperGemma4-26B-Abliterated-Multimodal :代码生成存在系统性缺陷,执行失败率极高, 不推荐使用 。 如果从实际落地角度只选一个模型,优先推荐 Gemma-4-31B-IT-Uncensored ;如果极度看重速度,则 SuperGemma4-26B-Uncensored 是最佳选择。 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-17 20:08:49+08:00 · tech

详述: 环境:wsl,官方脚本安装2.1.112版本,cc-switch接入站内公益站api 背景:折腾了一天半了,所有插件删了重装没用、所有hooks删了重装没用、cc删了重装也没用。让codex和Gemini修了半天没找到原因(codex认为是api的问题,但cc-switch里试验过any的opus也一样是只生成第一个动作的结果就直接中断结束对话。gemini认为是settings里的一些环境变量因为版本更新需要添加新的条目,但加了他说的变量也没用)。 原因:本人有论文写作需求,急需cc辅助。写到一半看到官方changelog的新增功能被蛊惑了,手贱更新了,结果现在用不了了。 以下附带目前的settings: { "respectGitignore": true, "cleanupPeriodDays": 720, "env": { "ANTHROPIC_AUTH_TOKEN": "PROXY_MANAGED", "ANTHROPIC_BASE_URL": "http://127.0.0.1:15721", "ALL_PROXY": "socks5://127.0.0.1:7897", "HTTP_PROXY": "http://127.0.0.1:7897", "HTTPS_PROXY": "http://127.0.0.1:7897", "NO_PROXY": "localhost,127.0.0.1,::1", "http_proxy": "http://127.0.0.1:7897", "all_proxy": "socks5://127.0.0.1:7897", "no_proxy": "localhost,127.0.0.1,::1", "https_proxy": "http://127.0.0.1:7897", "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1", "CLAUDE_CODE_ATTRIBUTION_HEADER": "0", "DISABLE_INSTALLATION_CHECKS": "1", "CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1", "DISABLE_AUTOUPDATER": "1", "ENABLE_TOOL_SEARCH": "1" }, "permissions": { "allow": [ "*" ], "defaultMode": "bypassPermissions" }, "model": "opus[1M]", "hooks": { }, "enabledPlugins": { }, "language": "简体中文", "alwaysThinkingEnabled": true, "effortLevel": "high", "autoDreamEnabled": true, "skipDangerousModePermissionPrompt": true } 3 个帖子 - 2 位参与者 阅读完整话题