DVB -tekstityksen (ainakin YLE:n kanavat) erottelu TS -tallenteesta.

Viestiketju Muuta keskustelua kotiteatterista -osiossa. Ketjun avasi muppis 29.11.2008.

  1. muppis

    muppis Regular member

    Liittynyt:
    13.07.2007
    Viestejä:
    224
    Kiitokset:
    4
    Pisteet:
    28
    Kohnasin nettiä ympäriinsä ja yritin etsiä ohjelmaa, joka tekisi tuon. Ja näinhän siinä kävi, että päädyin omaan viritelmään. Näin se menee:

    Tarvittavat ohjelmat:
    ProjectX
    DVDSupDecode
    SubRip

    1) ProjectX ojennukseen.
    PreSettings -valikosta Subtitle -välilehti ja sieltä tärkein kohta
    simulate DVB Subpictures IRD color model: YLE
    Tämän jälkeen ohjelma suljetaan ja aletaan muokkaan värikarttaa kohdalleen. Se löytyy tiedostosta colours.tbl, ja sieltä kohta table=YLE
    Itselläni se on seuraavan mallinen:

    table=YLE
    model=16
    0=0
    1=FF000000
    2=FF000000
    3=FF000000
    4=FF000000
    5=FF000000
    6=FF000000
    7=FF000000
    8=FF000000
    9=FF000000
    10=FF000000
    11=FF000000
    12=FF000000
    13=FF000000
    14=FFFFFFFF
    15=FFFFFFFF

    Tallenna tiedosto ja korvaa se myös .jar -pakettiin (.jar on uudelleennimetty .zip, jos et vielä tiennyt). Jos käytät valmiiksi .exe -tiedostoksi käännettyä ProjectX -pakettia, niin voinet jättää tiedoston samaan kansioon kuin .exe on (en tiedä toimiiko, itse käytän java -pakettia).

    2) DVDSupDecode
    Ohjelma on hyvin simppeli toiminen ja ei tarvi erillisiä asetuksia.
    Tämä ohje olettaa, että se löytyy jostain ettei tarvitse polkua määritellä ajettaessa (Itsellä ProjectX:n kanssa samassa kansiossa).

    3)SubRip
    Varsinaisen asennuksen kanssa ei niin väliä, mutta tämä ohjelma tekee hommasta puoliautomaattisen. Siitä myöhemmin.

    Sitten se tuunaus, eli varsinainen scripti. Luo mieleiseesi paikkaan uusi tekstitiedosto, muuta pääte .txt :stä joko .bat tai .cmd -päätteeksi ja lykkää sinne sisälle seuraava:

    @echo off
    title Tekstityksien purkaminen...
    echo Valmistellaan purkamista...
    REM !!!
    REM Huomaa tässä kohtaa, että ProjectX ja DVDSupDecode todella löytyy
    REM määriteltystä kansiosta!
    REM !!!
    subst P: "C:\Program Files\ProjectX"

    set org_path=%Path%
    SET Path=%Path%;P:\
    echo Erotellaan tekstitystieto..
    title Project X - "%~nx1"
    REM Seuraavaa riviä tarvitsee muokata tai Project X:n jar -paketti nimetä uudelleen
    start /wait "Project X" java -jar P:\ProjectX.jar -ini P:\X.ini -demux %1

    echo Puretaan tekstitystieto..
    title DVDSupDecode - "%~n1.sup"
    DVDSupDecode -bitmap "%~dpn1.sup"
    for %%i in (02 03 04 05) do if exist "%~dpn1-%%i.sup" DVDSupDecode -bitmap "%~dpn1-%%i.sup"
    REM !!!
    REM Tässä sama huomio kuin edellisessä.
    REM !!!
    pushd "c:\program files\subrip"

    title SubRip - %~n1.txt
    echo Ajetaan OCR..
    start /wait SubRip
    popd
    title Tekstityksien purkaminen...
    c:
    set Path=%org_path%
    subst P: /D
    del "%~dpn1*.bmp"
    del "%~dpn1*.txt"
    del "%~dpn1.m2v"
    del "%~dpn1*.mp2"
    del "%~dpn1*.sup*"


    Scripti kiltisti odottelee, että SubRipin käyttö lopetetaan, koska ajonaikaiset tiedostot poistetaan ja tällöin SubRip ei enää toimisi.

    The Catch, eli SubRip

    SubRip omaa hyvin OCR:n, mutta mikään ei ole täydellinen. Eli SubRip ei osaa tulkata bittikarttoja .srt -tiedostoksi ilman apua. Se taas menee näin:
    1) Ladataan merkkikartta (jos se on, voin lahjoittaa omani)
    Characters Matrix -> Open Characters Matrix File -> ja valitaan oikea tiedosto (Itelläni loogisesti suomi.sum)

    2) File -> Open Image Sequence -> paikallistetaan DVDSupDecoden luoma .txt -tiedosto, löytyy todennäköisesti samasta kansiosta kuin käsiteltävä TS -tiedostokin.

    3) SubRipin OCR tekee hetken työtään ja kyselee tyhmiä, jos ei osaa tulkata kirjainta (yleisesti vikana siirtovirheen aiheuttama pikselimössö). Luonnollisesti kannattaa ensin katsoa, että onko kirjaimesta jäänyt jotain pois ennen kuin kerrot mikä merkki on kyseessä. (Tähän kohtaan olisi tarpeen parempi opas SubRipin käytöstä..)

    4) Tulkattu teksti tarvii tallentaa ennen SubRipin sulkemista, mutta ohjelma muistaa varotella jos tekstiä tai uutta/muuttunutta merkkikarttaa ei ole tallennettu.


    Muuta vinkki vikoihin:
    Jos SubRip ei löydä tekstejä bittikartoista, vika on ProjectX:n värikartassa (eli colours.tbl -tiedostoa säätämään).

    Jos Image Sequense -tiedostoa ei löydy, eikä myöskään .sup -tiedostoa, niin joko tallenteessa ei ole dvb -tekstitystä tai ProjectX viilas sinua silmään (Minullekin käy vielä näin).

    Jos kysymyksiä, niin paiskokaa viesteillä. Vastaan kun ehdin.
     
  2.  
  3. arskaxx

    arskaxx Active member

    Liittynyt:
    14.07.2004
    Viestejä:
    1,056
    Kiitokset:
    0
    Pisteet:
    66
    Miksi noin monimutkainen viritys ???

    Minä demuxaan ProjectX:llä (myös Ylen tekstityksen) ja authoroin DVD:n yleensä ReJig ohjelmalla, poltan levylle ja se on siinä ;)

    Ei minulla ainakaan ole tarvetta noille DVDSupDecode ja SubRip ohjelmille ?
     
  4. muppis

    muppis Regular member

    Liittynyt:
    13.07.2007
    Viestejä:
    224
    Kiitokset:
    4
    Pisteet:
    28
    Tuo onkin sitä varten jos haluaa pakata tallenukset johonkin muuhun kuin DVD muotoon. Itse käytän AutoGK:ta tähän touhuun ja se ei tunnista DVB -tekstejä oikein.
     
  5. arskaxx

    arskaxx Active member

    Liittynyt:
    14.07.2004
    Viestejä:
    1,056
    Kiitokset:
    0
    Pisteet:
    66
    Eikö sitten kannattaisi hyödyntää Ylen teksti-tv tekstitystä, koska ProjectX osaa tehdä niistä .srt muotoisia ja .srt näkyy kelpaavan AutoGK:lle ?
     
  6. muppis

    muppis Regular member

    Liittynyt:
    13.07.2007
    Viestejä:
    224
    Kiitokset:
    4
    Pisteet:
    28
    Ei onnistu, koska teksti-tv -tekstitystä ei lähetetä FST eikä Teema -kanavilla.
    EDIT: Ja kuka sano, että tuota scriptiä voi käyttää pelkästään YLE:n kanaville, eiköhän tuo toimi kaikilla DVB -tekstiä käyttävillä, joista ProjectX osaa tehdä sup -tiedoston.
     
    Viimeksi muokattu: 29.11.2008
  7. arskaxx

    arskaxx Active member

    Liittynyt:
    14.07.2004
    Viestejä:
    1,056
    Kiitokset:
    0
    Pisteet:
    66
    Mistä tuollainen tieto on peräisin ? Minun digiboxillani Yle teeman tekstit löytyy sivulta 453 ja FST:n sivulta 771.

    Mutta turha tästä on enempää vääntää kättä. Pääasia, että homma toimii, eikö :)
     
  8. muppis

    muppis Regular member

    Liittynyt:
    13.07.2007
    Viestejä:
    224
    Kiitokset:
    4
    Pisteet:
    28
    Hömm.. YLEn asiakaspalvelusta sitä kysyin.
    Ärr.. No niin vain näkyy, ketkut valehtelivat. Eikä tietenkää ole enää sitä sähköpostia tallessa.
     
  9. muppis

    muppis Regular member

    Liittynyt:
    13.07.2007
    Viestejä:
    224
    Kiitokset:
    4
    Pisteet:
    28
    Muistelin sitä saamaani sähköpostia, kun mainitsin, että digiboksini ei osaa DVB -tekstitystä vaan käytän tekstitv -tekstiä, niin vastaus oli jotensakin näin: FST -kanavalla ei lähetetä tekstitv -tekstitystä, joten eikö olisi aika hankkia uudempi digiboksi?
    Että nyt pistää vihaksi. Mutta takaisin asiaan, voihan tuota scriptiä tosiaan käyttää muihinkin kanaviin ja sain sitä hieman tuunattua, että osaa purkaa paremmin useamman tekstitystiedon kerralla.
    Tässäpä se:

    @echo off
    title Tekstityksien purkaminen...
    echo Valmistellaan purkamista...
    subst P: "C:\Program Files\ProjectX"
    set org_path=%Path%
    SET Path=%Path%;P:\
    echo Erotellaan tekstitystieto..
    title Project X - "%~nx1"
    start /wait "Project X" java -jar P:\ProjectX.jar -ini P:\X.ini -demux %1
    echo Puretaan tekstitystieto..
    title DVDSupDecode - "%~n1.sup"
    DVDSupDecode -bitmap "%~dpn1.sup"
    for %%i in ("%~dpn1*.sup") do DVDSupDecode -bitmap "%%i"
    pushd "c:\program files\subrip"
    title SubRip - %~n1.txt
    echo Ajetaan OCR..
    start /wait SubRip
    popd
    title Tekstityksien purkaminen...
    c:
    set Path=%org_path%
    subst P: /D
    del "%~dpn1*.bmp"
    del "%~dpn1*.txt"
    del "%~dpn1.m2v"
    del "%~dpn1*.mp2"
    del "%~dpn1*.sup*"

     
  10. pentsu

    pentsu Active member

    Liittynyt:
    07.03.2008
    Viestejä:
    1,388
    Kiitokset:
    24
    Pisteet:
    68
    Onko tuo tarjous vielä voimassa?
     
  11. muppis

    muppis Regular member

    Liittynyt:
    13.07.2007
    Viestejä:
    224
    Kiitokset:
    4
    Pisteet:
    28
    Ei valitettavasti ole. En saanut sitä talteen, kun kiintolevy otti ja hajos.
     
  12. pentsu

    pentsu Active member

    Liittynyt:
    07.03.2008
    Viestejä:
    1,388
    Kiitokset:
    24
    Pisteet:
    68
    Okei, kiitos kuitenkin hyvistä neuvoista.

    Koitan jatkaa taistelua tuon oman character matrixin kanssa. Ei vaan meinaa luonnistua. Kyseessä MTV3 faktan tekstit. Ainoa syy miksi tarvitsen .srt tekstit, on tekstien uudelleen ajastus. Onko tietoa miten tuo ajoitus saadaan .sup teksteissä kohdilleen?. Yritän tehdä tuosta avin kiinni poltetuilla teksteillä (auto gk:lla).
     
  13. vinikka

    vinikka Regular member

    Liittynyt:
    04.05.2008
    Viestejä:
    313
    Kiitokset:
    1
    Pisteet:
    28
    Käytä time adjusteria niiden ajoittamiseen. Mutta alusta projektx:llä sup tekstit ensin irti ja Dvdsub edit softalla srt muotoon ja mikä parasta tuota ohjelmaa ei tavitse opettaa kirjainten suhteen. ja softan löytdät http://download.videohelp.com/DVDSubEdit/ Ylen 1 ja 2 kanavillahan on suoraan teletext tekstit ne saa purettua suoraan srt:ksi projetx:llä ja ihan oikiassa ajassa ko purkaa kaikki mitä siitä saa ulos ja poistaa sitten tarpeettomat. Mutta tuo DVDsubedit on loistava ohjelma.
     
  14. pentsu

    pentsu Active member

    Liittynyt:
    07.03.2008
    Viestejä:
    1,388
    Kiitokset:
    24
    Pisteet:
    68
    Kiitos hyvistä vinkeistä! DVDsubedit toimii paljon paremmin kuin subrip, noin pikaisesti kokeiltuna. Jotkut merkit tuokin kuitenkin tulkitsee väärin, mutta yritän selvitä tuosta word:n etsi ja korvaa toiminnolla. Muuten toki käyttäisin noita tekstitv:n tekstejä, mutta MTV3 faktalla niitä ei tietääkseni ole?

    Tästä kuitenkin päästiin uuteen ongelmaan. Tutumpi ohjelma mulla tekstien säätämiseen on subtitle workshop. Jouduin kuitenkin vaihtamaan koneeseeni keväällä uuden windowsin (xp), ehkä hieman epävirallisen sellaisen, ja nyt subtitleworkshop ei näytä videota ollenkaan. Kodekkina mulla ffdshow, joka aikaisemman windowsin kanssa toimi moitteetta.

    Nykyinen windows on joku epämääräinen black xp, jossa näitä outoja teemoja, joista en pääse eroon, En siis oikein tiedä miten ne poistetaan. Voisiko noilla teemoilla olla vaikutusta asiaan? Jostain sellainen osui silmiin.

    Olisiko mitään hyviä ideoita?
     
  15. muppis

    muppis Regular member

    Liittynyt:
    13.07.2007
    Viestejä:
    224
    Kiitokset:
    4
    Pisteet:
    28
    Tämä on vähän nyt offtopicia jo, mutta itsekin tuota black xp:tä kokeilin ja totesin, että jos yhdelle hyvä niin toiselle on ihan P!
     
  16. teme565

    teme565 Active member

    Liittynyt:
    10.05.2002
    Viestejä:
    3,306
    Kiitokset:
    0
    Pisteet:
    66
    Sellainen täsmennys, että uusimmasta ProjectX:stä on mahdollista exportata nuo DVB-tekstit myös sub/idx-muotoon, jotka saa sitten Subripillä luettua tekstimuotoon. Normaaliasetuksilla Subrip ei saa noista selvää, mutta kun ottaa Subripin asetuksista rastin pois kohdasta "use IDX's file offsets" tai joku tuollainen. Itse tappelin hieman ihmetellessäni, miksei subrip saa teksteistä selvää ja kun tuon rastin hoksasi ottaa pois niin ei mitään ongelmaa.
     
    Viimeksi muokattu: 24.07.2009
  17. pentsu

    pentsu Active member

    Liittynyt:
    07.03.2008
    Viestejä:
    1,388
    Kiitokset:
    24
    Pisteet:
    68
    Hienoa! Helpottaa huomattavasti. Ajoin nimittäin sup tekstit ifoedit in läpi, jonka jälkeen sain subrip in ymmärtämään niitä. Kiitos!
     

Jaa tämä sivu