install ubuntu 24 dependencies

sudo apt-get install portaudio19-dev

Подготовка русскоязычной модели Canary ASR

В этом документе описаны шаги по подготовке и обучению модели распознавания речи для русского языка на базе архитектуры Canary.

Шаг 1: Подготовка датасета

Выполните скрипт для скачивания датасета и обработки речевых данных:

python scripts/datasets/common_voice_21.py
python scripts/datasets/rulibrispeech.py

Объединение датасетов Этот скрипт подготовит необходимые манифесты и аудиофайлы для последующего обучения.

python scripts/datasets/compare_datasets.py

Шаг 2: Создание русского токенизатора

Если у вас еще нет токенизатора для русского языка, необходимо его создать: Мы используем стандартный алгоритм побайтового кодирования (Byte-pair encoding) со словарями размером 128, 512 и 1024 токенов. Мы обнаружили, что словарь из 128 токенов лучше всего работает для относительно небольшого набора данных на Esperanto (примерно 250 часов). Для более крупных наборов данных можно получить лучшие результаты с большим размером словаря (512–1024 BPE-токенов).

# Предварительная обработка текстового корпуса
python scripts/corpus_creator.py

# Создание BPE-токенизатора
python scripts/process_asr_text_tokenizer.py \
  --data_file=corpus/russian_corpus.txt \
  --vocab_size=512 \
  --data_root=./tokenizers_ru \
  --tokenizer="spe" \
  --spe_type=bpe \
  --spe_character_coverage=1.0 \
  --no_lower_case \
  --log

Закинуть токенизатор в canary_flash_tokenizers

После выполнения этих шагов можно переходить к настройке и запуску процесса обучения модели. Описано в RUN.md

Name		Name	Last commit message	Last commit date
Latest commit History 54 Commits
callbacks		callbacks
canary_flash_tokenizers		canary_flash_tokenizers
configs		configs
dataset_downloader		dataset_downloader
entrypoint		entrypoint
metrics		metrics
models		models
scripts		scripts
tests		tests
utils		utils
.envdefault		.envdefault
README.md		README.md
RUN.md		RUN.md
main.py		main.py
pyproject.toml		pyproject.toml
train.py		train.py
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

install ubuntu 24 dependencies

Подготовка русскоязычной модели Canary ASR

Шаг 1: Подготовка датасета

Шаг 2: Создание русского токенизатора

Закинуть токенизатор в canary_flash_tokenizers

About

Uh oh!

Releases

Packages

Uh oh!

Languages

sh1man999/canary_180m_flash_ru

Folders and files

Latest commit

History

Repository files navigation

install ubuntu 24 dependencies

Подготовка русскоязычной модели Canary ASR

Шаг 1: Подготовка датасета

Шаг 2: Создание русского токенизатора

Закинуть токенизатор в canary_flash_tokenizers

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages