모델 파라미터 (성능 조절)
모델이 참고하는 과거 음향 특징의 최대 프레임 수. 줄이면 추론이 빨라지지만 문맥이 짧아져 정확도 하락 (1프레임 = 80ms)
화자 임베딩 캐시의 최대 프레임 수. 늘리면 화자 구분이 정확해지지만 연산 시간 급증
한 번에 처리할 프레임 수. 값 x 80ms = 한 번의 처리 단위 시간
화자 캐시를 갱신하는 간격 (단위: 청크). 갱신 시 추론 시간이 일시적으로 증가.
⚠️ NeMo streaming sortformer 내부 구조상 실제 동작 최댓값은 FIFO 길이 + 청크 길이로 제한됨 (그 이상으로 설정해도 FIFO가 가득 차면 강제 갱신됨)