#ifdef WHISPER_COMMON_FFMPEG #include #include #include #include extern "C" { #include #include #include } // Write a minimal WAV header into the output buffer. // Returns the number of bytes written (44 for a standard PCM WAV header). static size_t wav_header_write(uint8_t * buf, int num_channels, int sample_rate, int bits_per_sample, uint32_t data_size) { // RIFF header memcpy(buf, "RIFF", 4); uint32_t chunk_size = 36 + data_size; memcpy(buf + 4, &chunk_size, 4); memcpy(buf + 8, "WAVE", 4); // fmt subchunk memcpy(buf + 12, "fmt ", 4); uint32_t subchunk1_size = 16; memcpy(buf + 16, &subchunk1_size, 4); uint16_t audio_format = 1; // PCM memcpy(buf + 20, &audio_format, 2); memcpy(buf + 22, &num_channels, 2); memcpy(buf + 24, &sample_rate, 4); int bytes_per_sample = (bits_per_sample / 8) * num_channels; int byte_rate = sample_rate * bytes_per_sample; memcpy(buf + 28, &byte_rate, 4); memcpy(buf + 32, &bytes_per_sample, 2); memcpy(buf + 34, &bits_per_sample, 2); // data subchunk memcpy(buf + 36, "data", 4); memcpy(buf + 40, &data_size, 4); return 44; } bool ffmpeg_decode_audio(const std::string & ifname, std::vector & wav_data, int out_sample_rate) { { const char * verbose = getenv("WHISPER_COMMON_FFMPEG_VERBOSE"); if (verbose && strcmp(verbose, "2") == 0) { av_log_set_level(AV_LOG_DEBUG); } else if (verbose && strcmp(verbose, "1") == 0) { av_log_set_level(AV_LOG_VERBOSE); } else { av_log_set_level(AV_LOG_WARNING); } } AVFormatContext * fmt_ctx = nullptr; if (avformat_open_input(&fmt_ctx, ifname.c_str(), nullptr, nullptr) != 0) { fprintf(stderr, "error: failed to open input file '%s'\n", ifname.c_str()); return true; } if (avformat_find_stream_info(fmt_ctx, nullptr) < 0) { fprintf(stderr, "error: failed to find stream information\n"); avformat_close_input(&fmt_ctx); return true; } // Find the first audio stream int audio_stream_idx = -1; for (unsigned int i = 0; i < fmt_ctx->nb_streams; i++) { if (fmt_ctx->streams[i]->codecpar->codec_type == AVMEDIA_TYPE_AUDIO) { audio_stream_idx = i; break; } } if (audio_stream_idx == -1) { fprintf(stderr, "error: failed to find an audio stream in '%s'\n", ifname.c_str()); avformat_close_input(&fmt_ctx); return true; } AVStream * audio_stream = fmt_ctx->streams[audio_stream_idx]; // Open the decoder const AVCodec * codec = avcodec_find_decoder(audio_stream->codecpar->codec_id); if (!codec) { fprintf(stderr, "error: failed to find decoder for codec id %d\n", audio_stream->codecpar->codec_id); avformat_close_input(&fmt_ctx); return true; } AVCodecContext * codec_ctx = avcodec_alloc_context3(codec); if (!codec_ctx) { fprintf(stderr, "error: failed to allocate codec context\n"); avformat_close_input(&fmt_ctx); return true; } if (avcodec_parameters_to_context(codec_ctx, audio_stream->codecpar) < 0) { fprintf(stderr, "error: failed to copy codec parameters to context\n"); avcodec_free_context(&codec_ctx); avformat_close_input(&fmt_ctx); return true; } if (avcodec_open2(codec_ctx, codec, nullptr) < 0) { fprintf(stderr, "error: failed to open codec\n"); avcodec_free_context(&codec_ctx); avformat_close_input(&fmt_ctx); return true; } // Setup resampler: convert to 16-bit signed PCM, mono, 16000 Hz const enum AVSampleFormat out_sample_fmt = AV_SAMPLE_FMT_S16; AVChannelLayout out_ch_layout = AV_CHANNEL_LAYOUT_MONO; SwrContext * swr_ctx = nullptr; if (swr_alloc_set_opts2(&swr_ctx, &out_ch_layout, out_sample_fmt, out_sample_rate, &codec_ctx->ch_layout, codec_ctx->sample_fmt, codec_ctx->sample_rate, 0, nullptr) < 0) { fprintf(stderr, "error: failed to allocate swr context\n"); avcodec_free_context(&codec_ctx); avformat_close_input(&fmt_ctx); return true; } if (swr_init(swr_ctx) < 0) { fprintf(stderr, "error: failed to initialize swr context\n"); swr_free(&swr_ctx); avcodec_free_context(&codec_ctx); avformat_close_input(&fmt_ctx); return true; } // Decode and resample AVPacket * packet = av_packet_alloc(); AVFrame * frame = av_frame_alloc(); // Buffer to collect resampled output std::vector pcm_data; // Max output samples per swr_convert call const int max_out_samples = 16 * 1024; std::vector out_buffer(max_out_samples); while (av_read_frame(fmt_ctx, packet) >= 0) { if (packet->stream_index != audio_stream_idx) { av_packet_unref(packet); continue; } int ret = avcodec_send_packet(codec_ctx, packet); av_packet_unref(packet); if (ret < 0) { continue; } while (ret >= 0) { ret = avcodec_receive_frame(codec_ctx, frame); if (ret == AVERROR(EAGAIN) || ret == AVERROR_EOF) { break; } if (ret < 0) { break; } // Resample int out_samples = av_rescale_rnd(swr_get_delay(swr_ctx, out_sample_rate) + frame->nb_samples, out_sample_rate, out_sample_rate, AV_ROUND_UP); if (out_samples > (int)out_buffer.size()) { out_buffer.resize(out_samples); } const uint8_t * in_data[16] = {0}; for (int p = 0; p < (int)codec_ctx->ch_layout.nb_channels && p < 16; p++) { in_data[p] = frame->data[p]; } uint8_t * out_data[16] = {0}; out_data[0] = (uint8_t *)out_buffer.data(); int got_samples = swr_convert(swr_ctx, out_data, out_samples, in_data, frame->nb_samples); if (got_samples > 0) { pcm_data.insert(pcm_data.end(), out_buffer.begin(), out_buffer.begin() + got_samples); } } } // Flush the decoder avcodec_send_packet(codec_ctx, nullptr); while (avcodec_receive_frame(codec_ctx, frame) >= 0) { int out_samples = av_rescale_rnd(swr_get_delay(swr_ctx, out_sample_rate) + frame->nb_samples, out_sample_rate, out_sample_rate, AV_ROUND_UP); if (out_samples > (int)out_buffer.size()) { out_buffer.resize(out_samples); } const uint8_t * in_data[16] = {0}; for (int p = 0; p < (int)codec_ctx->ch_layout.nb_channels && p < 16; p++) { in_data[p] = frame->data[p]; } uint8_t * out_data[16] = {0}; out_data[0] = (uint8_t *)out_buffer.data(); int got_samples = swr_convert(swr_ctx, out_data, out_samples, in_data, frame->nb_samples); if (got_samples > 0) { pcm_data.insert(pcm_data.end(), out_buffer.begin(), out_buffer.begin() + got_samples); } } // Flush the resampler uint8_t * out_data[16] = {0}; out_data[0] = (uint8_t *)out_buffer.data(); int flush_samples = swr_convert(swr_ctx, out_data, max_out_samples, nullptr, 0); if (flush_samples > 0) { pcm_data.insert(pcm_data.end(), out_buffer.begin(), out_buffer.begin() + flush_samples); } // Build WAV output uint32_t data_size = pcm_data.size() * sizeof(int16_t); wav_data.resize(44 + data_size); wav_header_write(wav_data.data(), 1, out_sample_rate, 16, data_size); memcpy(wav_data.data() + 44, pcm_data.data(), data_size); // Cleanup av_frame_free(&frame); av_packet_free(&packet); swr_free(&swr_ctx); avcodec_free_context(&codec_ctx); avformat_close_input(&fmt_ctx); return false; // success } #endif // WHISPER_COMMON_FFMPEG