不是"我们觉得好就好"——每一分都有公式,每一条规则都可以审查
AgentRisk 的评分体系回答一个问题:一个 AI Agent 是否值得信任?
我们不认为"信任"可以被单一数字完全概括。但我们相信,信任可以被拆解为可观察、可验证、可复现的维度——而每个维度都可以被独立评估和改进。
AgentRisk 从以下六个维度评估每个 Agent 的信任水平:
{DIM_TABLE}核心问题:这个 Agent 是它声称的那个东西吗?
评估内容:
加分项:域名与组织匹配、有公开 demo、第三方评测背书
扣分项:无法验证开发者身份、声称的能力无实证、多平台描述矛盾
核心问题:这个 Agent 说的和做的是同一件事吗?
评估内容:
加分项:长期稳定运行、变更记录透明、版本管理规范
扣分项:核心功能频繁变更且无说明、宣传与实际能力差距大
核心问题:你能看清楚这个 Agent 是怎么运作的吗?
评估内容:
加分项:开源、有详细文档、主动标注局限性、定价页清晰
扣分项:闭源且无说明、数据来源不明、隐藏收费、声称"万能"
核心问题:这个 Agent 的团队还在认真维护它吗?
评估内容:
加分项:近期有提交、Issue 响应及时、有路线图
扣分项:长期无更新、Issue 无人回应、项目标记为 archived
核心问题:如果你不满意,你能走吗?
评估内容:
加分项:支持数据导出、有标准 API、切换成本低
扣分项:数据无法导出、专有格式锁定、无退出通道
核心问题:你能找到这个 Agent 的完整信息吗?
评估内容:
每个维度评分范围:0.0 - 5.0
综合信任分(trust_score/overall_score)范围:0.0 - 5.0
AgentRisk 只采集公开可获取的信息:
当前覆盖 49个 数据源,收录 1,094,133个 Agent(截至 2026-05-31)。
我们不采集:私有 API 数据、用户隐私信息、需登录才能访问的内容。
当一个 Agent 的某些维度缺少足够可观测信号时:
当前约 50% 的评分记录为 estimated(反映数据覆盖现状,而非 Agent 可信度)。
这份方法论是 v0.1,以下是我们在当前阶段已知的局限性:
我们目前在 49个 数据源上追踪 Agent 信息,远未覆盖所有 AI Agent。未被收录不代表不信任,只是尚未发现。如果你使用的 Agent 不在我们的数据库中,可以通过提交页面告诉我们。
数据采集存在延迟。当 Agent 被更新、下架或修改后,评分可能需要 24-72 小时 才能反映最新状态。评分反映的是最近一次采集时的快照,不一定是实时状况。
当前六维权重(Base 60% / Bonus 40%,各维均分)基于我们的专业判断,尚未经过大规模实证校准。随着数据积累,我们可能会调整个别维度的权重。欢迎在反馈中挑战我们的权重选择。
当前评分分布如下:
{DISTRIBUTION_INFO}约 55.8% 的 Agent 评分在 1.0 以下,高分段稀疏。这可能是评分逻辑需要调整的信号(区分度不足),也可能是数据质量的真实反映——大量 Web3 Agent 缺乏足够的可观测信任信号。我们还在研究如何改进区分度。
AgentRisk 不是安全审计工具。高分不等于安全,低分不等于危险。我们评估的是"可验证的信任信号",不是技术安全性。如果发现 Agent 存在安全漏洞或恶意行为,请通过其他渠道报告。
| 版本 | 日期 | 变更 |
|---|---|---|
| v0.1 | 2026-05-31 | 初始公开版——六维框架定义、评分机制公开、诚实披露局限性、公开征集反馈 |
这份方法论是 v0.1,意味着我们预期它不完善。如果你发现:
请告诉我们。每一个认真的质疑都是方法论改进的输入。