AI Coding 助手评测方法论：如何做可复现的基准测试

发布于 2026-03-13 13:3992 次阅读0 条评论

文章摘要展开

避免主观印象，建立任务集、评分标准和复现实验流程，让评测可比较、可追踪。本项目就是一个测试案例，全部代码都以AI coding来实现，以测试个人开放能到什么程度。

本次目标是构建一套稳定、可迭代的 AI Coding 开发项目经验。

目前的效果是满足预期。

主力工具：Vscode+copilot

发现的问题：

1.当额度快满的时候，解决复杂问题的能力能感觉到下降

经验：

在一个较为复杂的项目，对功能的增加需要有技巧，定位要准确，问题的描述要准确，给模型一定的自主性。

项目计划书+单元测试的经验非常好用，一定程度上保持了项目的稳定性。

💬 0

评论加载中...