Ontology Violation Loss와 판단 평가

Ontology Violation Loss

Ontology Violation Loss는 agent가 타입과 관계를 제대로 다루지 못할 때 낮은 점수를 주는 방식으로 판단 품질을 평가하는 관점입니다. Evidence를 결론처럼 쓰거나, 가설을 finding처럼 다루거나, 가능하다는 말을 허용된다는 말로 바꾸면 위반입니다. 단순한 말실수가 아니라 실행 품질을 떨어뜨리는 구조적 오류입니다.

이 점수는 Accuracy와 다릅니다. 다각적인 정보를 간단한 숫자로 압축해 운영자가 볼 수 있게 만드는 장치에 가깝습니다. 앞에서 설명한 reasoning 전체를 담지는 못합니다. 애초에 처음부터 reasoning을 붙잡기 위해 만든 계층이라기보다, 포괄적인 종합 점수를 내는 대학교 학점 같은 존재입니다.

숫자로 보는 예시

예를 들어 agent가 100점에서 시작한다고 합시다. 출처 없는 claim을 쓰면 5점이 깎입니다. 최신성 확인이 필요한 정책을 오래된 기억으로 답하면 15점이 깎입니다. destructive action을 승인 없이 실행하려 하면 30점이 깎입니다. 법적 규제 준수 위반 가능성이 있으면 50점 이상 깎일 수 있습니다.

반대로 좋은 행동은 점수를 회복합니다. 공식 문서를 확인하면 10점이 올라가고, conflict를 발견해 중단하면 15점이 올라가고, postcondition을 확인하면 10점이 올라갑니다. 이 숫자는 절대값보다 방향이 중요합니다. agent가 어떤 행동을 반복해야 하는지 학습하게 만드는 신호입니다.

Violation의 열린 집합

Violation taxonomy는 닫힌 목록이 아닙니다. 그래도 중요한 축을 뽑으면 증거-결론 논리의 붕괴, 가설-Finding 논리의 붕괴, Decision-Auth 과정의 하자, Capability-Permission 과정의 하자가 강한 감점 요소입니다. 실패가 있었을 때 그 실패를 정리해 agent를 구성해야 합니다.

Agent 주변 event와 agent 상태 사이의 괴리, 정보와 실제 세계 사이의 괴리는 Physical AI 시대에 특히 중요합니다. 빠른 판단이 필요한데 직관적으로 해석되지 않는 병목을 만났다면, 당장은 agent가 제대로 돌아가지 못한다는 뜻입니다. 동시에 그 병목은 아주 좋은 학습 데이터입니다.

Temporal Staleness도 기본적이지만 많이 틀리는 요소입니다. 오늘 날씨를 물었는데 '오늘'이라는 시간 개념을 잘못 잡아 삭제됐어야 할 과거 날씨를 말하면 점수가 깎입니다. 정보 논리가 빈약한데 action을 진행해 설명하지 못하는 상태가 되거나, hallucination을 내는 것도 대표적인 violation입니다.

마지막으로 PostCondition의 부재, 그러니까 반성의 부재도 큽니다. Unsafe Summary Compression도 조심해야 합니다. 중요한 근거를 압축하면서 잘못 버리면 사람도 판단을 망치고 agent도 판단을 망칩니다. agent가 사람보다 뛰어나려면 이 부분에서 점수가 깎이면 안 됩니다.

Metacognitive

Lexical 지식이 모이면 Relation 지식이 됩니다. Relation 지식이 아무리 많아도 그것을 곧바로 Ontology 자체라고 하긴 어렵지만, 적어도 Procedural 작업을 인간보다 잘 하는 데에는 큰 도움이 됩니다. 그래도 실수는 남습니다. 완벽한 ontology를 매 순간 LLM에 제공하겠다는 태도도 꽤 오만한 설계일 수 있습니다.

그래서 최근 프론티어 AI 회사들이 계속 강조하는 방향이 Metacognitive Agent입니다. 강한 ontology가 없더라도 Assertion에서 Terminological로 점프하는 LLM의 버릇을 hallucination이 아니라 강한 직관에 가깝게 바꾸려면, 자기 실패를 보고 절차를 고치는 층이 필요합니다. agent는 품질 향상을 위해 계속 평가되고, 점수가 매겨지고, 그 점수로 자기 절차를 고쳐야 합니다.

Taxonomy

violation taxonomytype violation, relation violation, scope violation, temporal violation, normative violation을 둡니다.
score taxonomy정확도 점수, 위험 점수, 근거 점수, 정책 점수, 실행 점수를 따로 봅니다.
severity taxonomy사소한 표현 오류, 의미 오류, 실행 오류, 구조 위반, 실행 위험을 단계화합니다.
evaluation taxonomy사전 평가, 실행 중 평가, 사후 평가, 장기 회귀 평가를 나눕니다.
repair taxonomy재분류, 근거 보강, action 중단, human review, rule 추가를 복구 방법으로 둡니다.
evidence-conclusion taxonomy증거, 가설, finding, 결론이 뒤섞이는 순간을 강한 위반으로 봅니다.
decision-auth taxonomy누가 결정했고 누가 승인했는지 빠진 action을 감점합니다.
capability-permission taxonomy할 수 있음과 해도 됨을 섞은 판단을 따로 감점합니다.
world mismatch taxonomyagent 상태, 주변 event, 실제 세계 정보가 어긋나는 상황을 기록합니다.
unsafe compression taxonomy요약 중 근거, 시간, 제한, 반례가 사라지는 문제를 violation으로 봅니다.