Files
ebook2audiobook/readme/README_SWE.md
Urban1984 19db047640 Add files via upload
I have added a Swedish README.md
2025-01-04 22:21:57 +01:00

24 KiB

📚 ebook2audiobook

CPU/GPU-omvandlare frÄn eBöcker till ljudböcker med kapitel och metadata
anvÀnder Calibre, ffmpeg, XTTSv2, Fairseq och mer. Stöder röstkloning och 1124 sprÄk!

[!VIKTIGT] Detta verktyg Àr avsett för anvÀndning med icke-DRM-skyddade, lagligt förvÀrvade eBöcker endast.
Författarna ansvarar inte för missbruk av denna programvara eller nÄgra resulterande juridiska konsekvenser.
AnvÀnd detta verktyg ansvarsfullt och i enlighet med alla tillÀmpliga lagar.

Discord

Ny v2.0 Web GUI Interface!

demo_web_gui

Klicka för att se bilder av Web GUI GUI SkÀrm 1 GUI SkÀrm 2 GUI SkÀrm 3

README.md

InnehÄllsförteckning

Funktioner

  • 📖 Konverterar eBöcker till textformat med Calibre.
  • 📚 Delar upp eBoken i kapitel för organiserat ljud.
  • đŸŽ™ïž Högkvalitativ text-till-tal med Coqui XTTSv2 och Fairseq.
  • đŸ—Łïž Valfri röstkloning med din egen röstfil.
  • 🌍 Stöder 1107 sprĂ„k (Engelska som standard). Lista över Stödda sprĂ„k
  • đŸ–„ïž Designad för att köras med 4GB RAM.

Huggingface space demo

Hugging Face

  • Huggingface space körs pĂ„ gratis CPU-nivĂ„ sĂ„ förvĂ€nta dig vĂ€ldigt lĂ„ngsamt eller timeout lol, ge det bara inte jĂ€ttestora filer Ă€r allt
  • BĂ€st att duplicera space eller köra lokalt.

Gratis Google Colab

Gratis Google Colab

Stödda SprÄk

  • Arabiska (ara)
  • Kinesiska (zho)
  • Tjeckiska (ces)
  • HollĂ€ndska (nld)
  • Engelska (eng)
  • Franska (fra)
  • Tyska (deu)
  • Hindi (hin)
  • Ungerska (hun)
  • Italienska (ita)
  • Japanska (jpn)
  • Koreanska (kor)
  • Polska (pol)
  • Portugisiska (por)
  • Ryska (rus)
  • Spanska (spa)
  • Turkiska (tur)
  • Vietnamesiska (vie)
  • ** + 1107 sprĂ„k via Fairseq**

Krav

  • 4GB RAM
  • Virtualisering aktiverad om du kör pĂ„ Windows (endast Docker)

Installationsinstruktioner

  1. Klona repot
git clone https://github.com/DrewThomasson/ebook2audiobook.git

Ange sprÄkkoden nÀr du kör skriptet i mode.

Starta Gradio Web Interface

  1. Kör ebook2audiobook:

    • Linux/MacOS:
      ./ebook2audiobook.sh  # Kör startskript
      
    • Windows
      .\ebook2audiobook.cmd  # Kör startskript
      
  2. Öppna Webbappen: Klicka pĂ„ URL:en som visas i terminalen för att komma Ă„t webbappen och konvertera eBöcker.

  3. För Offentlig LÀnk: LÀgg till --share i slutet som detta: python app.py --share

  • [För Fler Parametrar]: anvĂ€nd --help parametern som detta python app.py --help

GrundlÀggande AnvÀndning

  • Linux/MacOS:

    ./ebook2audiobook.sh  -- --ebook <path_to_ebook_file> --voice [path_to_voice_file] --language [language_code]
    
  • Windows

    .\ebook2audiobook.cmd  -- --ebook <path_to_ebook_file> --voice [path_to_voice_file] --language [language_code]
    
  • <path_to_ebook_file>: SökvĂ€g till din eBok-fil.

  • [path_to_voice_file]: Valfritt för röstkloning.

  • [language_code]: Valfritt för att specificera ISO-639-3 3+ bokstĂ€ver sprĂ„kkod (standard Ă€r eng). ISO-639-1 2 bokstĂ€ver kod stöds ocksĂ„

  • [För Fler Parametrar]: anvĂ€nd --help parametern som detta python app.py --help

Anpassad XTTS Modell AnvÀndning

  • Linux/MacOS:

    ./ebook2audiobook.sh  -- --ebook <ebook_file_path> --voice <target_voice_file_path> --language <language> --custom_model <custom_model_path> --custom_config <custom_config_path> --custom_vocab <custom_vocab_path>
    
  • Windows

    .\ebook2audiobook.cmd  -- --ebook <ebook_file_path> --voice <target_voice_file_path> --language <language> --custom_model <custom_model_path> --custom_config <custom_config_path> --custom_vocab <custom_vocab_path>
    
  • <ebook_file_path>: SökvĂ€g till din eBok-fil.

  • <target_voice_file_path>: Valfritt för röstkloning.

  • : Valfritt för att specificera sprĂ„k.

  • <custom_model_path>: SökvĂ€g till model.pth.

  • <custom_config_path>: SökvĂ€g till config.json.

  • <custom_vocab_path>: SökvĂ€g till vocab.json.

  • [För Fler Parametrar]: anvĂ€nd --help parametern som detta python app.py --help

För Detaljerad Guide med lista över alla Parametrar att anvÀnda

  • Linux/MacOS:
    ./ebook2audiobook.sh  --help
    
  • Windows
    .\ebook2audiobook.cmd  --help
    

  • Detta kommer att visa följande:
usage: app.py [-h] [--script_mode SCRIPT_MODE] [--share] [-- []]
              [--session SESSION] [--ebook EBOOK] [--ebooks_dir [EBOOKS_DIR]]
              [--voice VOICE] [--language LANGUAGE] [--device {cpu,gpu}]
              [--custom_model CUSTOM_MODEL] [--temperature TEMPERATURE]
              [--length_penalty LENGTH_PENALTY]
              [--repetition_penalty REPETITION_PENALTY] [--top_k TOP_K] [--top_p TOP_P]
              [--speed SPEED] [--enable_text_splitting] [--fine_tuned FINE_TUNED]
              [--version]

Konvertera eBöcker till Ljudböcker med hjÀlp av en Text-till-Tal-modell. Du kan antingen starta Gradio-grÀnssnittet eller köra skriptet i  mode för direkt konvertering.

options:
  -h, --help            visa detta hjÀlpmeddelande och avsluta
  --script_mode SCRIPT_MODE
                        Tvinga skriptet att köra i NATIVE eller DOCKER_UTILS
  --share               Aktivera en offentlig delbar Gradio-lÀnk. Standard Àr False.
  -- []
                        Kör i  mode. Standard till True om flaggan Àr nÀrvarande utan ett vÀrde, False annars.
  --session SESSION     Session för att Äteransluta vid avbrott ( mode endast)
  --ebook EBOOK         SökvÀg till eBok-filen för konvertering. Obligatorisk i  mode.
  --ebooks_dir [EBOOKS_DIR]
                        SökvÀg till katalogen som innehÄller eBöcker för batchkonvertering. Standard till "ebooks" om "default" anges.
  --voice VOICE         SökvÀg till mÄl röstfil för TTS. Valfritt, mÄste vara 24khz för XTTS och 16khz för fairseq-modeller, anvÀnder en standardröst om inget anges.
  --language LANGUAGE   SprĂ„k för ljudboksomvandlingen. Alternativ: eng, zho, spa, fra, por, rus, ind, hin, ben, yor, ara, jav, jpn, kor, deu, ita, fas, tam, tel, tur, pol, hun, nld, zzzz, abi, ace, aca, acn, acr, ach, acu, guq, ade, adj, agd, agx, agn, aha, aka, knj, ake, aeu, ahk, bss, alj, sqi, alt, alp, alz, kab, amk, mmg, amh, ami, azg, agg, boj, cko, any, arl, atq, luc, hyw, apr, aia, msy, cni, cjo, cpu, cpb, asm, asa, teo, ati, djk, ava, avn, avu, awb, kwi, awa, agr, agu, ayr, ayo, abp, blx, sgb, azj-script_cyrillic, azj-script_latin, azb, bba, bhz, bvc, bfy, bgq, bdq, bdh, bqi, bjw, blz, ban, bcc-script_latin, bcc-script_arabic, bam, ptu, bcw, bqj, bno, bbb, bfa, bjz, bak, eus, bsq, akb, btd, btx, bts, bbc, bvz, bjv, bep, bkv, bzj, bem, bng, bom, btt, bha, bgw, bht, beh, sne, ubl, bcl, bim, bkd, bjr, bfo, biv, bib, bis, bzi, bqp, bpr, bps, bwq, bdv, bqc, bus, bnp, bmq, bdg, boa, ksr, bor, bru, box, bzh, bgt, sab, bul, bwu, bmv, mya, tte, cjp, cbv, kaq, cot, cbc, car, cat, ceb, cme, cbi, ceg, cly, cya, che, hne, nya, dig, dug, bgr, cek, cfm, cnh, hlt, mwq, ctd, tcz, zyp, cco, cnl, cle, chz, cpa, cso, cnt, cuc, hak, nan, xnj, cap, cax, ctg, ctu, chf, cce, crt, crq, cac-dialect_sansebastiĂĄncoatĂĄn, cac-dialect_sanmateoixtatĂĄn, ckt, ncu, cdj, chv, caa, asg, con, crn, cok, crk-script_latin, crk-script_syllabics, crh, hrv, cui, ces, dan, dsh, dbq, dga, dgi, dgk, dnj-dialect_gweetaawueast, dnj-dialect_blowowest, daa, dnt, dnw, dar, tcc, dwr, ded, mzw, ntr, ddn, des, dso, nfa, dhi, gud, did, mhu, dip, dik, tbz, dts, dos, dgo, mvp, jen, dzo, idd, eka, cto, emp, enx, sja, myv, mcq, ese, evn, eza, ewe, fal, fao, far, fij, fin, fon, frd, ful, flr, gau, gbk, gag-script_cyrillic, gag-script_latin, gbi, gmv, lug, pwg, gbm, cab, grt, krs, gso, nlg, gej, gri, kik, acd, glk, gof-script_latin, gog, gkn, wsg, gjn, gqr, gor, gux, gbo, ell, grc, guh, gub, grn, gyr, guo, gde, guj, gvl, guk, rub, dah, gwr, gwi, hat, hlb, amf, hag, hnn, bgc, had, hau, hwc, hvn, hay, xed, heb, heh, hil, hif, hns, hoc, hoy, hus-dialect_westernpotosino, hus-dialect_centralveracruz, huv, hui, hap, iba, isl, dbj, ifa, ifb, ifu, ifk, ife, ign, ikk, iqw, ilb, ilo, imo, inb, ipi, irk, icr, itv, itl, atg, ixl-dialect_sanjuancotzal, ixl-dialect_sangasparchajul, ixl-dialect_santamarianebaj, nca, izr, izz, jac, jam, jvn, kac, dyo, csk, adh, jun, jbu, dyu, bex, juy, gna, urb, kbp, cwa, dtp, kbr, cgc, kki, kzf, lew, cbr, kkj, keo, kqe, kak, kyb, knb, kmd, kml, ify, xal, kbq, kay, ktb, hig, gam, cbu, xnr, kmu, kne, kan, kby, pam, cak-dialect_santamarĂ­adejesĂșs, cak-dialect_southcentral, cak-dialect_yepocapa, cak-dialect_western, cak-dialect_santodomingoxenacoj, cak-dialect_central, xrb, krc, kaa, krl, pww, xsm, cbs, pss, kxf, kyz, kyu, txu, kaz, ndp, kbo, kyq, ken, ker, xte, kyg, kjh, kca, khm, kxm, kjg, nyf, kij, kia, kqr, kqp, krj, zga, kin, pkb, geb, gil, kje, kss, thk, klu, kyo, kog, kfb, kpv, bbo, xon, kma, kno, kxc, ozm, kqy, coe, kpq, kpy, kyf, kff-script_telugu, kri, rop, ktj, ted, krr, kdt, kez, cul, kle, kdi, kue, kum, kvn, cuk, kdn, xuo, key, kpz, knk, kmr-script_latin, kmr-script_arabic, kmr-script_cyrillic, xua, kru, kus, kub, kdc, kxv, blh, cwt, kwd, tnk, kwf, cwe, kyc, tye, kir, quc-dialect_north, quc-dialect_east, quc-dialect_central, lac, lsi, lbj, lhu, las, lam, lns, ljp, laj, lao, lat, lav, law, lcp, lzz, lln, lef, acf, lww, mhx, eip, lia, lif, onb, lis, loq, lob, yaz, lok, llg, ycl, lom, ngl, lon, lex, lgg, ruf, dop, lnd, ndy, lwo, lee, mev, mfz, jmc, myy, mbc, mda, mad, mag, ayz, mai, mca, mcp, mak, vmw, mgh, kde, mlg, zlm, pse, mkn, xmm, mal, xdy, div, mdy, mup, mam-dialect_central, mam-dialect_northern, mam-dialect_southern, mam-dialect_western, mqj, mcu, mzk, maw, mjl, mnk, mge, mbh, knf, mjv, mbt, obo, mbb, mzj, sjm, mrw, mar, mpg, mhr, enb, mah, myx, klv, mfh, met, mcb, mop, yua, mfy, maz, vmy, maq, mzi, maj, maa-dialect_sanantonio, maa-dialect_sanjerĂłnimo, mhy, mhi, zmz, myb, gai, mqb, mbu, med, men, mee, mwv, meq, zim, mgo, mej, mpp, min, gum, mpx, mco, mxq, pxm, mto, mim, xta, mbz, mip, mib, miy, mih, miz, xtd, mxt, xtm, mxv, xtn, mie, mil, mio, mdv, mza, mit, mxb, mpm, soy, cmo-script_latin, cmo-script_khmer, mfq, old, mfk, mif, mkl, mox, myl, mqf, mnw, mon, mog, mfe, mor, mqn, mgd, mtj, cmr, mtd, bmr, moz, mzm, mnb, mnf, unr, fmu, mur, tih, muv, muy, sur, moa, wmw, tnr, miq, mos, muh, nas, mbj, nfr, kfw, nst, nag, nch, nhe, ngu, azz, nhx, ncl, nhy, ncj, nsu, npl, nuz, nhw, nhi, nlc, nab, gld, nnb, npy, pbb, ntm, nmz, naw, nxq, ndj, ndz, ndv, new, nij, sba, gng, nga, nnq, ngp, gym, kdj, nia, nim, nin, nko, nog, lem, not, nhu, nob, bud, nus, yas, nnw, nwb, nyy, nyn, rim, lid, nuj, nyo, nzi, ann, ory, ojb-script_latin, ojb-script_syllabics, oku, bsc, bdu, orm, ury, oss, ote, otq, stn, sig, kfx, bfz, sey, pao, pau, pce, plw, pmf, pag, pap, prf, pab, pbi, pbc, pad, ata, pez, peg, pcm, pis, pny, pir, pjt, poy, pps, pls, poi, poh-dialect_eastern, poh-dialect_western, prt, pui, pan, tsz, suv, lme, quy, qvc, quz, qve, qub, qvh, qwh, qvw, quf, qvm, qul, qvn, qxn, qxh, qvs, quh, qxo, qxr, qvo, qvz, qxl, quw, kjb, kek, rah, rjs, rai, lje, rnl, rkt, rap, yea, raw, rej, rel, ril, iri, rgu, rhg, rmc-script_latin, rmc-script_cyrillic, rmo, rmy-script_latin, rmy-script_cyrillic, ron, rol, cla, rng, rug, run, lsm, spy, sck, saj, sch, sml, xsb, sbl, saq, sbd, smo, rav, sxn, sag, sbp, xsu, srm, sas, apb, sgw, tvw, lip, slu, snw, sea, sza, seh, crs, ksb, shn, sho, mcd, cbt, xsr, shk, shp, sna, cjs, jiv, snp, sya, sid, snn, sri, srx, sil, sld, akp, xog, som, bmu, khq, ses, mnx, srn, sxb, suc, tgo, suk, sun, suz, sgj, sus, swh, swe, syl, dyi, myk, spp, tap, tby, tna, shi, klw, tgl, tbk, tgj, blt, tbg, omw, tgk, tdj, tbc, tlj, tly, ttq-script_tifinagh, taj, taq, tpm, tgp, tnn, tac, rif-script_latin, rif-script_arabic, tat, tav, twb, tbl, kps, twe, ttc, kdh, tes, tex, tee, tpp, tpt, stp, tfr, twu, ter, tew, tha, nod, thl, tem, adx, bod, khg, tca, tir, txq, tik, dgr, tob, tmf, tng, tlb, ood, tpi, jic, lbw, txa, tom, toh, tnt, sda, tcs, toc, tos, neb, trn, trs, trc, tri, cof, tkr, kdl, cas, tso, tuo, iou, tmc, tuf, tuk-script_latin, tuk-script_arabic, bov, tue, kcg, tzh-dialect_bachajĂłn, tzh-dialect_tenejapa, tzo-dialect_chenalhĂł, tzo-dialect_chamula, tzj-dialect_western, tzj-dialect_eastern, aoz, udm, udu, ukr, ppk, ubu, urk, ura, urt, urd-script_devanagari, urd-script_arabic, urd-script_latin, upv, usp, uig-script_arabic, uig-script_cyrillic, uzb-script_cyrillic, vag, bav, vid, vie, vif, vun, vut, prk, wwa, rro, bao, waw, lgl, wlx, cou, hub, gvc, mfi, wap, wba, war, way, guc, cym, kvw, tnp, hto, huu, wal-script_latin, wal-script_ethiopic, wlo, noa, wob, kao, xer, yad, yka, sah, yba, yli, nlk, yal, yam, yat, jmd, tao, yaa, ame, guu, yao, yre, yva, ybb, pib, byr, pil, ycn, ess, yuz, atb, zne, zaq, zpo, zad, zpc, zca, zpg, zai, zpl, zam, zaw, zpm, zac, zao, ztq, zar, zpt, zpi, zas, zaa, zpz, zab, zpu, zae, zty, zav, zza, zyb, ziw, zos, gnd. Standard Ă€r Engelska (eng).
  --device {cpu,gpu}    Typ av processorenhet för ljudboksomvandlingen. Om inte specificerat: kontrollera först om GPU Àr tillgÀnglig, annars vÀljs CPU.
  --custom_model CUSTOM_MODEL
                        SökvÀg till den anpassade modellen (.zip-fil som innehÄller ['config.json', 'vocab.json', 'model.pth', 'ref.wav']). Obligatorisk om du anvÀnder en anpassad modell.
  --temperature TEMPERATURE
                        Temperatur för modellen. Standard Àr 0.65. Högre temperaturer leder till mer kreativa utgÄngar.
  --length_penalty LENGTH_PENALTY
                        En lÀngdförstÀrkningspenalty som appliceras pÄ den autoregressiva dekodern. Standard Àr 1.0. Inte applicerad pÄ anpassade modeller.
  --repetition_penalty REPETITION_PENALTY
                        En penalty som förhindrar den autoregressiva dekodern frÄn att upprepa sig sjÀlv. Standard Àr 2.5
  --top_k TOP_K         Top-k sampling. LÀgre vÀrden betyder mer sannolika utgÄngar och ökad ljudgenereringshastighet. Standard Àr 50
  --top_p TOP_P         Top-p sampling. LÀgre vÀrden betyder mer sannolika utgÄngar och ökad ljudgenereringshastighet. Standard Àr 0.8
  --speed SPEED         Hastighetsfaktor för talgenereringen. Standard Àr 1.0
  --enable_text_splitting
                        Aktivera delning av text i meningar. Standard Àr False.
  --fine_tuned FINE_TUNED
                        Namn pÄ den finjusterade modellen. Valfritt, anvÀnder standardmodellen enligt TTS-motorn och sprÄk.
  --version             Visa versionen av skriptet och avsluta

Exempel pÄ anvÀndning:    
Windows:
    :
    ebook2audiobook.cmd -- --ebook 'path_to_ebook'
    Grafiskt GrÀnssnitt:
    ebook2audiobook.cmd
Linux/Mac:
    :
    ./ebook2audiobook.sh -- --ebook 'path_to_ebook'
    Grafiskt GrÀnssnitt:
    ./ebook2audiobook.sh


AnvÀnda Docker

Du kan ocksÄ anvÀnda Docker för att köra eBok till Ljudboksomvandlaren. Denna metod sÀkerstÀller konsistens över olika miljöer och förenklar installationen.

Köra Docker-containern

För att köra Docker-containern och starta Gradio-grÀnssnittet, anvÀnd följande kommando:

-Kör endast med CPU

docker run -it --rm -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py

-Kör med GPU-acceleration (endast Nvidia grafikkort)

docker run -it --rm --gpus all -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py

Bygga Docker-containern

  • Du kan bygga Docker-avbildningen med kommandot: '''powershell docker build --platform linux/amd64 -t athomasson2/ebook2audiobook . '''

Detta kommando kommer att starta Gradio-grÀnssnittet pÄ port 7860 (localhost:7860).

  • För fler alternativ som att köra Docker i mode eller göra Gradio-lĂ€nken offentlig, lĂ€gg till --help parametern efter app.py i Docker startkommandot.

Docker Container Filplatser

Alla ebook2audiobooks kommer att ha baskatalogen /home/user/app/ Exempel: tmp = /home/user/app/tmp audiobooks = /home/user/app/audiobooks

Docker Headless Guide

Först gör en docker pull av den senaste versionen med

docker pull athomasson2/ebook2audiobook
  • Innan du gör detta behöver du skapa en katalog som heter "input-folder" i din nuvarande katalog som kommer att lĂ€nkas. Detta Ă€r dĂ€r du kan lĂ€gga dina indatafiler sĂ„ att Docker-avbildningen kan se dem
mkdir input-folder && mkdir Audiobooks
  • I kommandot nedan, byt ut YOUR_INPUT_FILE.TXT med namnet pĂ„ din indatafil
docker run -it --rm \
    -v $(pwd)/input-folder:/home/user/app/input_folder \
    -v $(pwd)/audiobooks:/home/user/app/audiobooks \
    --platform linux/amd64 \
    athomasson2/ebook2audiobook \
    python app.py --headless --ebook /input_folder/YOUR_INPUT_FILE.TXT
  • Och det borde vara allt!

  • De genererade Ljudböckerna kommer att finnas i Audiobook-katalogen som ocksĂ„ kommer att finnas i din lokala katalog dĂ€r du körde detta Docker-kommando.

För att fÄ hjÀlpkommandot för de andra parametrarna detta program har kan du köra detta

docker run -it --rm \
    --platform linux/amd64 \
    athomasson2/ebook2audiobook \
    python app.py --help

och det kommer att visa detta

Help command output

Docker Compose

Detta projekt anvÀnder Docker Compose för att köras lokalt. Du kan aktivera eller inaktivera GPU-stöd genom att sÀtta antingen *gpu-enabled eller *gpu-disabled i docker-compose.yml

Steg för att Köra

  1. Klon Repositoriet (om du inte redan har gjort det):

    git clone https://github.com/DrewThomasson/ebook2audiobook.git
    cd ebook2audiobook
    
  2. StÀll in GPU-stöd (inaktiverat som standard) För att aktivera GPU-stöd, Àndra docker-compose.yml och Àndra *gpu-disabled till *gpu-enabled

  3. Starta tjÀnsten:

    docker-compose up -d
    
  4. Åtkomst till tjĂ€nsten: TjĂ€nsten kommer att vara tillgĂ€nglig pĂ„ http://localhost:7860.

Ny v2.0 Docker Web GUI Interface!

demo_web_gui

Klicka för att se bilder av Web GUI GUI SkÀrm 1 GUI SkÀrm 2 GUI SkÀrm 3

Hyra en GPU

Har du inte hÄrdvaran för att köra det eller vill du hyra en GPU?

Du kan duplicera Huggingface-space och hyra en GPU för cirka $0.40 per timme

Huggingface Space Demo

Eller sÄ kan du prova att anvÀnda Google Colab gratis!

(Vara medveten om att den kommer att timeouta efter ett tag om du inte aktivt arbetar med Google Colab) Gratis Google Colab

Finjusterade TTS-modeller

Du kan finjustera din egen XTTS-modell enkelt med detta repo xtts-finetune-webui

Om du vill hyra en GPU enkelt kan du ocksÄ duplicera denna Huggingface xtts-finetune-webui-space

Ett space du kan anvÀnda för att enkelt de-noisera trÀningsdata ocksÄ denoise-huggingface-space

Finjusterad TTS Samling

För att hitta vÄr samling av redan finjusterade TTS-modeller, besök denna Hugging Face-lÀnk För en XTTS anpassad modell behövs Àven ett referensljudklipp av rösten:

Demos

Regnig dag röst

https://github.com/user-attachments/assets/8486603c-38b1-43ce-9639-73757dfb1031

David Attenborough röst

https://github.com/user-attachments/assets/47c846a7-9e51-4eb9-844a-7460402a20a8

Stödda eBoksformat

  • .epub, .pdf, .mobi, .txt, .html, .rtf, .chm, .lit, .pdb, .fb2, .odt, .cbr, .cbz, .prc, .lrf, .pml, .snb, .cbc, .rb, .tcr
  • BĂ€sta resultat: .epub eller .mobi för automatisk kapiteldetektion

Utdata

  • Skapar en .m4b-fil med metadata och kapitel.
  • Exempelutdata: Exempel

Vanliga Problem:

  • "Det Ă€r lĂ„ngsamt!" - Endast pĂ„ CPU Ă€r detta vĂ€ldigt lĂ„ngsamt, och du kan bara fĂ„ hastighetsökningar genom en NVIDIA GPU. Diskussion om detta För snabbare flersprĂ„kig generering skulle jag föreslĂ„ mitt andra projekt som anvĂ€nder piper-tts istĂ€llet (Det har dock inte nollskotts röstkloning, och har Siri-kvalitetsröster, men det Ă€r mycket snabbare pĂ„ CPU.)
  • "Jag har beroendeproblem" - AnvĂ€nd bara Docker, det Ă€r helt sjĂ€lvstĂ€ndigt och har ett headless-lĂ€ge, lĂ€gg till -h parametern efter app.py i Docker run-kommandot för mer information.
  • "Jag fĂ„r ett avklippt ljudproblem!" - VAR GOD SKAPA ETT ÄRANDE AVDETTA, Jag talar inte varje sprĂ„k och jag behöver rĂ„d frĂ„n varje person för att finjustera min meningsdelningsfunktion pĂ„ andra sprĂ„k.😊

Vad jag behöver hjĂ€lp med! 🙌

FullstÀndig lista över saker kan hittas hÀr

  • All hjĂ€lp frĂ„n personer som talar nĂ„got av de stödda sprĂ„ken för att hjĂ€lpa till med korrekta meningsdelningsmetoder
  • Möjligtvis skapa readme-guider för flera sprĂ„k (För att det enda sprĂ„ket jag kan Ă€r Engelska 😔)

SĂ€rskilt Tack

Äldre V1.0

Du kan se koden hÀr.

GÄ med i VÄr Discord-server!

Discord