<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Preprocessing on 노준탁 — AI 노트</title>
    <link>https://ai.klavierhye.cc/ko/tags/preprocessing/</link>
    <description>Recent content in Preprocessing on 노준탁 — AI 노트</description>
    <generator>Hugo -- 0.147.7</generator>
    <language>ko</language>
    <lastBuildDate>Wed, 11 Feb 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://ai.klavierhye.cc/ko/tags/preprocessing/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Mel Spectrogram을 매번 다시 계산하지 마라: Whisper Fine-tuning 전 데이터 전처리</title>
      <link>https://ai.klavierhye.cc/ko/posts/whisper-preprocessing/</link>
      <pubDate>Wed, 11 Feb 2026 00:00:00 +0000</pubDate>
      <guid>https://ai.klavierhye.cc/ko/posts/whisper-preprocessing/</guid>
      <description>&lt;p&gt;&lt;em&gt;이 글은 한국어 STT를 위한 Whisper fine-tuning 3부작 중 &lt;strong&gt;1부&lt;/strong&gt;다: &lt;strong&gt;Preprocessing&lt;/strong&gt; → Training → Evaluation. 이번 글에서는 data preprocessing pipeline을 소개한다. 2부와 3부에서는 각각 training loop과 evaluation/benchmarking을 다룰 예정이다.&lt;/em&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;OpenAI의 오픈소스 STT 모델인 Whisper를 파인튜닝하는 과정에서 생각지 못했던 난관에 봉착했다. learning rate를 바꾸든, batch size를 키우든, 아니면 그냥 GPU가 OOM으로 터지든 — 학습을 돌릴 때마다 수십 시간을 원본 오디오 파일 처리에 쓰는 것이다. WAV 파일 로드, 16 kHz로 sample rate 변경, mel spectrogram 계산, 텍스트 tokenization로 구성된 이 전처리 과정은 매번 동일하다. 데이터는 전혀 바뀌지 않는데, 매번 데이터 준비에 드는 시간과 비용을 전부 지불하고 있었던 거다. (남몰래 줄줄 새는 EC2 대여료&amp;hellip;)&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
