Sortformer 실시간 화자 분리

화자 분리 로그

시작 버튼을 눌러 마이크를 활성화하세요

단어별 타임스탬프 표시

짧은 화자 전환 무시

1.0초

모델 파라미터 (성능 조절)

FIFO 길이

38 (3.0초)

모델이 참고하는 과거 음향 특징의 최대 프레임 수. 줄이면 추론이 빨라지지만 문맥이 짧아져 정확도 하락 (1프레임 = 80ms)

화자 캐시 길이

38 (3.0초)

화자 임베딩 캐시의 최대 프레임 수. 늘리면 화자 구분이 정확해지지만 연산 시간 급증

청크 길이

6 (480ms)

한 번에 처리할 프레임 수. 값 x 80ms = 한 번의 처리 단위 시간

캐시 갱신 주기

144 (≈69초)

화자 캐시를 갱신하는 간격 (단위: 청크). 갱신 시 추론 시간이 일시적으로 증가.
⚠️ NeMo streaming sortformer 내부 구조상 실제 동작 최댓값은 FIFO 길이 + 청크 길이로 제한됨 (그 이상으로 설정해도 FIFO가 가득 차면 강제 갱신됨)