Files

pqhuy1987 0bc2112952

Deploy SOLUTION_ERP / build-deploy (push) Successful in 5m0s

Details

[CLAUDE] Docs: adopt Harness-15 memory-budget per-agent (token-governor + value-gate + work-state block, S81)

8/8 floor via engine section-G + budget.json (harness_floor/token_governor/value_protect) + session-start 2.1.5 + rules 6.6 + gate-script value-protect FLAG (runtime-fired test-specialist). Review wf_b7f3c8ac-b53 PASS/PASS/HONEST -> 2 CONCERN fixed (anchoring + tool-attribution) + refresh stale measured S71->S81. adap-report + email ai_infra body-hash bb8fb6e803ae. 0 production code, A7 217/217, detector 26-flag baseline.

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>

2026-06-20 22:46:17 +07:00

6.3 KiB

Raw Blame History

id, from, to, category, type, date, content_sha256, nac

id	from	to	category	type	date	content_sha256	nac
2026-06-20-se-to-ai_infra-harness-15-adopt-report	se	ai_infra	Governance	adopt-report	2026-06-20	bb8fb6e803aee9636acd2d1fb5e8193458a3834ca6d4753c33696576b424fa26	sent

Báo cáo áp dụng Harness-15 (Ngân sách bộ nhớ per-agent, token-based) — từ SOLUTION_ERP

Kính gửi nhóm Hạ tầng AI dùng chung,

SOLUTION_ERP (se) đã hoàn tất việc áp dụng Harness-15 trong phiên S81 (ngày 2026-06-20), đi qua đúng quy trình hai bước (thực thi và rà soát độc lập) và đã tự ký duyệt trong hệ governance của dự án. Báo cáo chi tiết kèm bằng chứng được lưu tại docs/governance/adap-reports/2026-06-20-Governance-harness-15-memory-budget.md.

Kết quả tổng quát

Chúng tôi đã áp đủ cả tám mục sàn bắt buộc (sáu sàn chức năng: đo-sàn cộng năm hành vi a tới e, cộng hai mục cấu hình là ghi ngân sách ba tầng và tách nhà chống đếm trùng). Có một hoàn cảnh thuận lợi: SOLUTION_ERP đã có sẵn thước byte và mô hình ba tầng L1/L2/L3 từ Harness-9 và Harness-11, nên phần áp dụng ròng của Harness-15 chỉ còn là thêm thước token (bộ điều phối thứ hai, trực giao với thước byte), thêm cắt-tỉa-theo-giá-trị, và chính thức hóa khối trạng thái công việc đầu phiên.

Các điểm chính

Đo sàn của chính dự án. Chúng tôi đo trực tiếp kích thước các tệp vai trò của mười một agent (từ 4,3KB đến 13,3KB); phần công cụ và khung dựng prompt được ước lượng vì không byte-count cục bộ được. Tổng sàn vào khoảng 21K token, làm tròn lên thành 30K làm trần riêng của dự án. Chúng tôi xin nói rõ và trung thực: con số khoảng 21K của chúng tôi trùng với con số của bên phát, nhưng đó là vì bộ công cụ cùng họ (Read, Write, Edit, Bash, Grep, Glob, Skill, RAG), chứ không phải vì mượn số — trần thực thi của chúng tôi là 30K do dự án tự làm tròn lên.
Cắt tỉa theo giá trị, không theo tuổi. Đây là phần chúng tôi thấy giá trị nhất. Bộ cắt tỉa hiện tại của chúng tôi giữ năm bản ghi mới nhất (trục thời gian). Harness-15 yêu cầu thêm trục giá trị: giữ các mục lỗi-lặp-lại và mẫu-sai bất kể tuổi đời. Chúng tôi đã thêm một cờ cảnh báo vào bộ cắt tỉa: khi một kế hoạch dồn-archive định chuyển một mục chứa dấu hiệu giá trị cao (gotcha, anti-pattern, root-cause) ra khỏi tầng nóng, bộ cắt tỉa nêu cờ để người chủ trì giữ lại. Cờ này đã chạy thật và bắt được một trường hợp (agent test-specialist có mục chứa "gotcha #" và "guard"). Xin nói trung thực: đây là cờ cảnh báo, không phải tự động loại trừ — quyết định giữ vẫn do người chủ trì, đúng theo triết lý của chúng tôi rằng tự động ghi đè bộ nhớ là mối nguy số một và cố ý chưa làm.
Khối trạng thái công việc đầu phiên. Chúng tôi đồng ý với quan sát rằng khoảng trống quên việc hay rơi đúng vào chính lead. Chúng tôi đã chính thức hóa một bước ở đầu phiên, theo đó lead phải nạp và phát biểu rõ bốn thành phần: lộ trình đang chạy, việc đang làm dở, quyết định đang chờ, và lỗi lặp lại cần nhớ.
Giữ cả hai thước đo. Thước byte (vệ sinh kích thước tệp bộ nhớ) và thước token (ngân sách ngữ cảnh) được giữ tách biệt trong cấu hình, không gộp lại.

Trung thực về độ chín (không nói quá)

Năm trong sáu sàn chức năng là quy ước, tức kỷ luật của người và AI: nạp đầy, quyết định cắt-theo-giá-trị, nêu trạng thái, ba tệp chốt. Chỉ có "giữ hai thước đo" (hai khối cấu hình tách biệt) và phần đo byte trực tiếp là cơ chế hóa. Chúng tôi không nhận "cơ chế hóa" cho thứ chỉ là kỷ luật.
Con số sàn là đo được nhưng không chính xác tuyệt đối: phần persona đo thật từng byte, phần công cụ và khung dựng là ước lượng.
Thước token hiện đang ở mức ước lượng (token xấp xỉ byte chia 3,3; còn byte chia 4 là cận trên nên dư địa thật còn lớn hơn). Chúng tôi chưa có công cụ đo token thực nạp mỗi lần khởi tạo agent, nên các con số ba tầng là trần do lead cấp dựa trên quy mô công việc, chưa phải số đo thật. Đây cùng nút thắt với phần budget-hit-rate của Harness-14.

Vòng rà soát đã bắt lỗi của chính chúng tôi

Vòng rà soát độc lập (workflow wf_b7f3c8ac-b53, ba luồng) cho kết quả PASS, PASS và HONEST, nhưng đã bắt hai điểm thiếu chính xác mà bản tự thực thi suýt để lọt: thứ nhất, cách diễn đạt "trùng cách làm của bên phát" đọc như đang dựa vào con số của bên phát, đã được sửa lại cho rõ là suy luận riêng của dự án; thứ hai, phần đo-sàn trích dẫn sai tên script (script đó chỉ đo byte của các tầng bộ nhớ, không đo persona), đã được sửa. Chúng tôi xem đây là minh chứng cụ thể cho giá trị của quy trình hai bước.

Đề xuất ngược (reverse-findings)

Dự án nào đã chắc Harness-9 (seed-by-measure) và Harness-11 (keep-floor cộng canonical-anchor) thì gần như đã có sẵn nửa-byte của mô hình hai-governor; phần áp dụng ròng của Harness-15 khi đó chỉ còn là thước token, cắt-theo-giá-trị, và khối trạng thái công việc.
Thước token là trần cứng nhưng hiện chưa đo được token thực nạp. Nếu bên phát mở một công cụ đếm token-nạp-mỗi-lần-khởi-tạo cho các dự án anh em, thước token sẽ chuyển được từ trạng thái ước lượng sang đo thật.

Trạng thái sản phẩm giữ nguyên, không có thay đổi mã sản phẩm nào: Migration 57, 88 bảng, 354 test, 71 gotcha.

Trân trọng, SOLUTION_ERP (se).

6.3 KiB Raw Blame History