<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Training on 노준탁 — AI 노트</title>
    <link>https://ai.klavierhye.cc/ko/tags/training/</link>
    <description>Recent content in Training on 노준탁 — AI 노트</description>
    <generator>Hugo -- 0.147.7</generator>
    <language>ko</language>
    <lastBuildDate>Sun, 15 Feb 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://ai.klavierhye.cc/ko/tags/training/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Precomputed Feature로 Whisper 학습하기: 한국어 STT Full Fine-Tune</title>
      <link>https://ai.klavierhye.cc/ko/posts/whisper-training/</link>
      <pubDate>Sun, 15 Feb 2026 00:00:00 +0000</pubDate>
      <guid>https://ai.klavierhye.cc/ko/posts/whisper-training/</guid>
      <description>&lt;p&gt;&lt;em&gt;이 글은 한국어 STT를 위한 Whisper fine-tuning 3부작 중 &lt;strong&gt;2부&lt;/strong&gt;다: Preprocessing → &lt;strong&gt;Training&lt;/strong&gt; → Evaluation. 여기서는 전처리된 dataset을 불러와 학습 루프를 돌린다. 1부는 전처리, 3부는 evaluation/benchmarking을 다룰 예정이다.&lt;/em&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;Mel spectrogram과 tokenized label을 디스크에 저장해 두었다면, 다음은 이걸 training loop에 넣고 모델을 최적화하는 일이다. 말만 하면 간단한데, 막상 선택지가 쏟아진다. Full fine-tuning 할까 LoRA 할까? Learning rate랑 batch size는? Encoder-decoder에서 길이 다른 sequence는 어떻게 padding 하고, GPU 메모리를 낭비하지 않으면서 터지지 않게 할까? 이 글에서는 한국어 통화 음성에 대해 Whisper large-v3를 학습시킬 때 쓰는 training 설정과, 그 뒤에 있는 공학적 선택(trade-off)을 정리한다.&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
