长程轨迹分析平台

Long-Insight

分解、评估、可视化超长 Agent 轨迹。 专为跨越数百轮次、百万级 Token 的轨迹而生 — 人工审阅已不再可能。

400+
轮次 / 轨迹
1M+
Token 分析量
8
步骤类别
向下滚动查看演示
Demo 01 · Sonnet 4.5 · SWE-bench 轨迹 · 12月11日
Demo 02 · Sonnet 4.5 · SWE-bench 轨迹 · 12月15日
还有 3 个轨迹 DAG 可供探索
架构

三阶段流水线

原始轨迹依次经过分解、评估和可视化三个阶段 — 将不透明的百万 Token 日志转化为结构化、可解释的 DAG。

🔬
分析器
步骤分解 · DAG 构建
📊
评估器
难度评分 · 反模式检测
🎯
可视化器
交互式 DAG · HTML 输出
Stage 01

轨迹步骤分解器

逐 turn 读取 400+ 轮次的原始轨迹,调用 LLM 判断每个 turn 是"新步骤"还是"续写", 最终构建一棵带有父子依赖关系的有向无环图(DAG)。每个步骤包含类型分类、标题摘要和因果叙述。

输入 JSONL 轨迹文件(messages 数组)
输出 步骤 DAG(JSON,含 parent_ids 依赖)
分类体系 8 类:任务理解 / 项目探索 / 环境准备 / 代码实现 / 测试验证 / 问题调试 / 文档记录 / 总结规划
DAG 结构 单根节点,支持多父节点(Fan-in 汇聚),支持回溯剪枝(Backtrace)
断点续跑 自动检测已分析进度,中断后从最后一个 step 继续
结构化输出 Anthropic JSON Schema / OpenAI 兼容 JSON 解析,带校验重试
Stage 02

两阶段质量评估器

先对任务本身的难度进行客观评分,再对 Agent 的执行轨迹进行质量评估。 内置 8 种反模式检测器,精准定位轨迹中的"玻璃碴" — 那些会污染训练数据的坏模式。

阶段一 任务难度评分(0–10):问题复杂度 / 修复难度 / 描述清晰度 / 项目规模 / 解决成本
阶段二 提升潜力评分(0–10):9 维度评估,分数越高质量越好
反模式检测 测试回避 / 验证缺失 / 重复循环 / 无效探索 / 忽略报错 / 冗余推理 / 中途偏离 / 后期浪费
压缩引擎 自动压缩 1M+ Token 轨迹至 LLM 可处理范围,压缩率 58.5%,核心内容无损
并发能力 ThreadPoolExecutor,默认 32 线程并发评分
实际规模 已评分 12,839 条 Sonnet 4.5 轨迹,成本 ~1 元/条
Stage 03

交互式 DAG 可视化器

将步骤分析 JSON 渲染为单文件交互式 HTML 页面。所有数据内联,无需后端, 可直接通过浏览器打开分享。支持 100+ 节点的大型 DAG 流畅渲染。

输出 单文件 HTML(数据内联,零依赖,可离线查看)
布局算法 Barycenter 启发式算法,8 轮迭代优化节点位置
交互 拖拽平移 / 滚轮缩放 / 节点拖动 / 点击展开详情面板
过滤搜索 按步骤类型筛选 / 关键词全文搜索 / 高亮路径追踪
色彩编码 8 种步骤类型对应不同颜色,跨层连接自动偏移避免重叠
自适应 节点间距随图规模自动调整(200–260px 层间距,70–85px 节点间距)
快速开始

3 条命令即可上手

安装、配置、运行完整分析流水线。

终端
# 安装
git clone https://github.com/YuyaoGe/Long_Insight.git
cd Long_Insight && pip install -e .

# 配置 API 密钥
export OPENAI_API_KEY="your-key"

# 运行完整流水线
long-insight pipeline trajectory.jsonl --output-dir output/
分步命令
# 将轨迹分解为步骤 DAG
long-insight analyze trajectory.jsonl -o steps.json --max-turns 500

# 评估轨迹质量
long-insight evaluate trajectory.jsonl --chart --sample 50

# 生成交互式 DAG 可视化
long-insight visualize steps.json -o visualization.html