<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Benchmarking on 노준탁 — AI 노트</title>
    <link>https://ai.klavierhye.cc/ko/tags/benchmarking/</link>
    <description>Recent content in Benchmarking on 노준탁 — AI 노트</description>
    <generator>Hugo -- 0.147.7</generator>
    <language>ko</language>
    <lastBuildDate>Thu, 19 Feb 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://ai.klavierhye.cc/ko/tags/benchmarking/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Fine-Tuning이 진짜 효과가 있었나? Whisper 한국어 STT Evaluation과 Benchmarking</title>
      <link>https://ai.klavierhye.cc/ko/posts/whisper-evaluation/</link>
      <pubDate>Thu, 19 Feb 2026 00:00:00 +0000</pubDate>
      <guid>https://ai.klavierhye.cc/ko/posts/whisper-evaluation/</guid>
      <description>&lt;p&gt;&lt;em&gt;이 글은 한국어 STT를 위한 Whisper fine-tuning 3부작 중 &lt;strong&gt;3부&lt;/strong&gt;다: Preprocessing → Training → &lt;strong&gt;Evaluation&lt;/strong&gt;. 여기서는 fine-tuning한 모델이 정말 나아졌는지, 얼마나 나아졌는지를 측정한다. &lt;a href=&#34;https://ai.klavierhye.cc/ko/posts/whisper-preprocessing/&#34;&gt;1부&lt;/a&gt;는 전처리, &lt;a href=&#34;https://ai.klavierhye.cc/ko/posts/whisper-training/&#34;&gt;2부&lt;/a&gt;는 학습을 다뤘다.&lt;/em&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;학습이 끝난 모델은 그냥 디스크에 있는 checkpoint일 뿐이다. Training loss curve가 내려가는 걸 보고 기분이 좋을 수는 있지만, held-out data에 실제로 돌려서 CER, WER, category별 성능을 측정하기 전까지는 fine-tuning이 효과가 있었는지, 특정 도메인에서 오히려 망가졌는지, base model 대비 얼마나 좋아졌는지 알 수 없다.&lt;/p&gt;
&lt;p&gt;이 글에서는 두 가지 script를 다룬다: &lt;strong&gt;단일 모델 evaluation&lt;/strong&gt;용 스크립트와, &lt;strong&gt;여러 모델을 category별로 비교하는 benchmarking&lt;/strong&gt; 스크립트. 엔지니어링 측면에서는 수천 개 audio sample, multi-GPU, 여러 model checkpoint를 I/O bottleneck이나 메모리 문제 없이 효율적으로 처리하는 데 초점을 맞췄다.&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
