Direct speech-to-speech translation (S2ST) aims to convert speech from one language into another, and has demonstrated significant progress to date. Despite the recent success, current S2ST models still suffer from distinct degradation in noisy environments and fail to translate visual speech (i.e., the movement of lips and teeth). In this work, we present AV-TranSpeech, the first audio-visual speech-to-speech (AV-S2ST) translation model without relying on intermediate text. AV-TranSpeech complements the audio stream with visual information to promote system robustness and opens up a host of practical applications: dictation or dubbing archival films. To mitigate the data scarcity with limited parallel AV-S2ST data, we 1) explore self-supervised pre-training with unlabeled audio-visual data to learn contextual representation, and 2) introduce cross-modal distillation with S2ST models trained on the audio-only corpus to further reduce the requirements of visual data. Experimental results on two language pairs demonstrate that AV-TranSpeech outperforms audio-only models under all settings regardless of the type of noise. With low-resource audio-visual data (10h, 30h), cross-modal distillation yields an improvement of 7.6 BLEU on average compared with baselines. Audio samples are available at https://AV-TranSpeech.github.io/
Ground truth | Predictions | ||||
---|---|---|---|---|---|
Source Video | Target Audio | Audio-Visual (AV) | Audio (A) | Visual (V) | |
Sample 1: | |||||
Reference: | i was the first non family investor in amazon | fui el primer inversor no familiar en amazon | |||
ASR: | fue el primer inversor familiar en amazon | fue el primer inversor familiar no runda en amazonas | fue el primer investigador del cáncer de familia en absoluto | ||
Sample 2: | |||||
Reference: | science fiction is one of the greatest and most effective forms of political writing | la ciencia ficción es una de las formas más grandes y efectivas de escritura política | |||
ASR: | la ciencia ficción es una de las formas más grandes y efectivas de escritura política | la ciencia ficción es una de las formas más grandes y efectivas de la escritura política | la visión de la escala es una de las formas y más efectivas y efectivas de la escritura política | ||
Sample 3: | |||||
Reference: | and then i thought there's got to be a better way | y luego pensé que tenía que haber una mejor manera | |||
ASR: | y luego pensé que tenía que haber una mejor manera | y luego pensé que tiene que ver una mejor manera | que pensé que tiene que ser una mejor manera |
Ground truth | Predictions | ||||
---|---|---|---|---|---|
Source Video | Target Audio | Audio-Visual (AV) | Audio (A) | Visual (V) | |
Sample 1: | |||||
Reference: | i was the first non family investor in amazon | j’ai été le premier investisseur non familial sur amazon | |||
ASR: | jétais le premier investisseur non familial amazonie | jétais le premier investisseur non familial en amazone | jai été le premier investisseurs non investisseur non familial en absant | ||
Sample 2: | |||||
Reference: | and the soldier on the front tank said we have unconditional orders to destroy this | et le soldat sur le char de front a dit que nous avions des ordres inconditionnels pour détruire cela | |||
ASR: | le soldat sur le premier réservant a dit que nous avons des ordres inconditionnels pour détruire cela | le soldat sur le premier ban a dit que nous avons des ordres non conditionnels pour détruire cela | le soldat a dit que nous avons des ordres conditionnels à détruit pour détruire ce | ||
Sample 3: | |||||
Reference: | we met men where they were at and we built a program | nous avons rencontré des hommes là où ils étaient et nous avons construit un programme | |||
ASR: | nous avons rencontré des hommes où ils étaient et nous avons construit un programme | nous avons rencontré des hommes où ils étaient atés et nous avons construit un programme | nous avons rencontré des hommes lorsquils sétaient agis et que nous avons construit un programme | ||
Sample 4: | |||||
Reference: | so since then i've been the bridge and a lot of people have walked over me | donc, depuis lors, je suis le pont et beaucoup de gens m’ont marché dessus | |||
ASR: | donc depuis je suis le pont et beaucoup de gens sont marché | donc depuis lors je suis dans le pont et beaucoup de gens montent en franchis | elle m'a donc donné une image beaucoup de gens au-dessus de moi |
Ground truth | Predictions | |||||
---|---|---|---|---|---|---|
10h | 30h | |||||
Source: Audio-Visual (AV) | Target Audio | / | w / Covost | / | w / Covost | |
Sample 1: | ||||||
Reference: | i was the first non family investor in amazon | fui el primer inversor no familiar en amazon | ||||
ASR: | estaba el primera camino primera investigación | fue el primer investigación nofamiliar en amazonda | estaba el primer nada familiar por enamosmazona | fue el primer investigador de investigación de familia en amazón | ||
Source: Visual (V) | Target Audio | / | w / Covost | / | w / Covost | |
Sample 1: | ||||||
Reference: | i was the first non family investor in amazon | fui el primer inversor no familiar en amazon | ||||
ASR: | estaba primera vez que la primera vez conversación de nuevo | yo era con primeramente familiar y el final | yo era la primera familia en cámara | era el primer persona sastre en namero de la zona | ||
10h | 30h | |||||
Source: Audio-Visual (AV) | Target Audio | / | w / Covost | / | w / Covost | |
Sample 2: | ||||||
Reference: | science fiction is one of the greatest and most effective forms of political writing | la ciencia ficción es una de las formas más grandes y efectivas de escritura política | ||||
ASR: | la ciencia es una de las bactivas es uno de los mayores acectivas y el colectivo | la científica es una de las mayores formas y más efectivas de la escritura política | la ciencia -ficción es uno de los más efectivos y más efectivos del derecho político | la científica es una de las mayores más grandes y más efectivas de la escritura política | ||
Source: Visual (V) | Target Audio | / | w / Covost | / | w / Covost | |
Sample 2: | ||||||
Reference: | science fiction is one of the greatest and most effective forms of political writing | la ciencia ficción es una de las formas más grandes y efectivas de escritura política | ||||
ASR: | la investigación es una de las formas cuando las personas anfectadas por la declinada política | la mayoría de las visiones es una de las formas más efectivas de la forma más lítica | la mayoría de las formas es una de las mayores y más efectivas formas políticas | la escarta es uno de los mayores mejores efectivos y más forma de la política política | ||
10h | 30h | |||||
Source: Audio-Visual (AV) | Target Audio | / | w / Covost | / | w / Covost | |
Sample 3: | ||||||
Reference: | and then i thought there's got to be a better way | y luego pensé que tenía que haber una mejor manera | ||||
ASR: | y luego pensé que ver una pensamiento mejor con un camino | y luego pensar que tiene que haber una forma mejor | y luego pensé que esto conseguir una mejor manera | y luego pensé que esto tiene que ver una forma mejor | ||
Source: Visual (V) | Target Audio | / | w / Covost | / | w / Covost | |
Sample 3: | ||||||
Reference: | and then i thought there's got to be a better way | y luego pensé que tenía que haber una mejor manera | ||||
ASR: | entonces pensado que este pensar mejor para mejor con la mejor | pensé que esto es en mejor mejor manera | que pensé que tengo una mejor manera | que pensé que esto se puede ser de mejor manera |
Ground truth | Predictions | |||||
---|---|---|---|---|---|---|
10h | 30h | |||||
Source: Audio-Visual (AV) | Target Audio | / | w / Covost | / | w / Covost | |
Sample 1: | ||||||
Reference: | i was the first non family investor in amazon | j’ai été le premier investisseur non familial sur amazon | ||||
ASR: | jétais la première commandeant famille avancer | jétais le premier investisseur de no famille dans la mazonda | j'étais la première famille de nantcité osama uniso | jétais le premier investisseur de nos famille dans la mazonda | ||
Source: Visual (V) | Target Audio | / | w / Covost | / | w / Covost | |
Sample 1: | ||||||
Reference: | i was the first non family investor in amazon | j’ai été le premier investisseur non familial sur amazon | ||||
ASR: | jai été la première are calcul tant de familles pandes cepte année | jétais la première famille nobai et investon le détruit | jai été la première fois de travaill environnement | jétais la première fois de la première fois de distance | ||
10h | 30h | |||||
Source: Audio-Visual (AV) | Target Audio | / | w / Covost | / | w / Covost | |
Sample 2: | ||||||
Reference: | and the soldier on the front tank said we have unconditional orders to destroy this | et le soldat sur le char de front a dit que nous avions des ordres inconditionnels pour détruire cela | ||||
ASR: | ils sont didevance hauteor nous avons dit que nous avons des contanus de sommets à distributer à ce jeu | le soldat sur le cart davant a dit que nous avons des andres sans conditionnels de détruire cela | le frontelorlesodar dit nous avons des organisations conditionnelles pour des trécors | le soldat de lavant a dit que nous avons des ordres sans conditionnels de détruire cela | ||
Source: Visual (V) | Target Audio | / | w / Covost | / | w / Covost | |
Sample 2: | ||||||
Reference: | and the soldier on the front tank said we have unconditional orders to destroy this | et le soldat sur le char de front a dit que nous avions des ordres inconditionnels pour détruire cela | ||||
ASR: | les solinats ont des bruits quesiècle et avec un programme | le repréjaune occupé nous avons décidé de lensemle détruit pour détruire cela | la sociale et dit que nous disons que nous avons dit que nous di continuer cette histoire | la solution au début de la dernière solution net déconomer que nous avons décidé de distréminer cet endoi | ||
10h | 30h | |||||
Source: Audio-Visual (AV) | Target Audio | / | w / Covost | / | w / Covost | |
Sample 3: | ||||||
Reference: | we met men where they were at and we built a program | nous avons rencontré des hommes là où ils étaient et nous avons construit un programme | ||||
ASR: | nous avons mantnamps arrivé où nous avons construit le programme | nous avons rencontré des hommes oisont alés et que nous construirens un programme | nous avons rencontré ou nous avons construit un programme et nous avons construit de la programme | nous avons rencontré des homes ruseta et nous construit un programme | ||
Source: Visual (V) | Target Audio | / | w / Covost | / | w / Covost | |
Sample 3: | ||||||
Reference: | we met men where they were at and we built a program | nous avons rencontré des hommes là où ils étaient et nous avons construit un programme | ||||
ASR: | nous avons alle en même un temps que ce soit les programmes et que construire le programme | nous avons matoment de la mémoie où ils étaient enconstruits partoment | nous avons maintenant que nous avons à construite un programme et que nous avons commencé | nous avons maintenant que lorsque nous étions deu programme et nous avons été un programme |