De staat van Linux spraakherkenning

Ik besteed veel tijd aan het onderzoeken van artikelen en vaak denk ik na over het onderwerp van een artikel terwijl ik loop naar het treinstation of overal in het algemeen.

Op een avond tijdens het lopen van de 1,5 mijl naar het station van mijn werk dacht ik "zou het niet goed zijn als ik kon opnemen wat ik wilde zeggen en het vervolgens automatisch naar een tekstbestand zou laten overschrijven dat ik later zou kunnen bewerken en opmaken" .

Ik heb vele uren besteed aan het bekijken van de verschillende beschikbare opties voor spraakherkenning en dicteren, waaronder het rechtstreeks opnemen met een microfoon met dicteersoftware in Linux, het opnemen van het bestand naar MP3- of WAV-formaat en het converteren via de opdrachtregel, evenals het gebruik van Chrome en Android-applicaties.

Dit artikel benadrukt mijn bevindingen na dagen van dwangarbeid.

Linux opties

Zoeken naar dicteer- en spraakherkenningssoftware in Linux is niet zo eenvoudig als het zou kunnen zijn en de beschikbare opties zijn niet zo slim.

Deze Wikipedia-pagina bevat een lijst met mogelijke opties, waaronder CMU Sphinx, Julius en Simon.

Ik gebruik SparkyLinux momenteel op basis van Debian Testing en ik kan je vertellen dat het enige spraakherkenningspakket dat beschikbaar is in de repositories Sphinx is.

De oorspronkelijke Linux-programma's die ik uiteindelijk probeerde waren PocketSphinx, waarmee ik WAV-bestanden naar tekst converteerde en Freespeech-VR, een python-toepassing waarmee je rechtstreeks vanuit een microfoon kunt opnemen.

Ik heb ook een aantal Chrome-apps geprobeerd, waaronder VoiceNote II en Dictanote.

Eindelijk probeerde ik de Android-apps "Dicteren en e-mailen" en "Praten en praten dicteren".

Freespeech-VR

Freespeech-VR is niet beschikbaar in de standaard repositories. Ik heb de bestanden vanaf hier gedownload.

Na het downloaden en extraheren van de inhoud van het zip-bestand opende ik een terminal en navigeerde ik naar de map waar de bestanden werden uitgepakt. Ik typte de volgende opdracht om freespeech-vr te openen.

sudo python freespeech-vr

Ik heb een koptelefoon met een redelijk goede microfoon en een vrij duidelijk zuidelijk Engels accent.

De volgende tekst verscheen in het freespeech-vr venster:

Welkom bij de unit-dogs van uitkomst Today Zorg voor het beheer van de tests Een test voor het gebruik van een bericht op het systeem Toespraak I De één was alleen in een hoop op blijven en de middelen van één kip golden als systeem De Ea wanneer ik mijn naam de volgende ofch noem telefoon Dit bestand Binnenkort genoeg een telefoongesprekken met Hands-Space de sfinx Gaan Dat is geen telefoon zal worden gedeeld Een getraind en en gereedschap Gebruik spreken Als je klaar bent Zeg Een gebruikt bestand Laatste a verhaal A En met behulp van een door de Wanneer het is erg hoe succes Deze Linux was zoals Vermijd je is

Ik zou nu willen zeggen dat dit niet de website van Unit Of Dogs is en dat ik op geen enkel moment iets heb gezegd over gouden kippen. Ik probeerde eigenlijk het proces van het gebruik van stemherkenningssoftware te beschrijven.

Ik heb de software een paar keer geprobeerd, inclusief een variërende toonhoogte en snelheid, maar de nauwkeurigheid was slecht.

PocketSphinx

PocketSphinx kan een WAV-bestand nemen en het naar tekst converteren via de opdrachtregel. PocketSphinx is beschikbaar via de Debian-repositories en zou beschikbaar moeten zijn voor de meeste distributies.

Het belangrijkste probleem dat ik met PocketSphinx heb aangetroffen, is dat je vrijwel een diploma nodig hebt in de concepten spraakherkenning, taalbestanden, woordenboeken en hoe je het systeem traint.

Na het installeren van PocketSphinx moet je naar de CMU Sphinx-website gaan en zoveel mogelijk informatie lezen. U moet ook het volgende modelbestand downloaden.

Amerikaans Engels generiek taalmodel

(Als u geen moedertaalspreker bent, kiest u het taalmodel dat bij u past).

De documentatie voor PocketSphinx en Sphinx is in het algemeen moeilijk te begrijpen voor de leek, maar uit wat ik kon opmaken, worden woordenboekbestanden gebruikt om een lijst met mogelijke woorden te geven en taalmodellen hebben een lijst met mogelijke uitspraken.

Om PocketSphinx te testen gebruikte ik een opname van mijn eigen stem, een fragment van Al Pacino in "The Devils Advocate" en een fragment van "Morgan Freeman". Het doel hiervan was om verschillende stemmen te proberen en voor mij is er niemand die een verhaal zo duidelijk kan vertellen als Morgan Freeman en niemand levert een regel als Al Pacino.

Om PocketSphinx te laten werken, heeft het een WAV-bestand nodig en het moet een bepaald formaat hebben. Als het bestand de MP3-indeling heeft, gebruikt u de opdracht ffmpeg om deze in WAV-indeling te converteren:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Om PocketSphinx uit te voeren, gebruikt u de volgende opdracht:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous neemt een WAV-bestand en converteert het naar tekst.

In de opdracht hierboven wordt pocketsphinx verteld om een woordenboekbestand genaamd "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" te gebruiken met het taalmodel "cmusphinx-5.0-en-us.lm". Het bestand dat wordt geconverteerd naar tekst wordt voice2.wav genoemd (een opname die ik met mijn stem heb gemaakt). Ten slotte plaatst de 2> alle uitgebreide uitvoer die u niet noodzakelijkerwijs nodig hebt in een bestand met de naam voice2.log. De werkelijke resultaten van de test worden weergegeven in het terminalvenster.

De resultaten met mijn stem zijn als volgt:

welkom bij de volgende over goed nee deze week onderwerp over welke software voor herkenning in een minuut

De resultaten zijn niet zo afschuwelijk als met freespeech-vr maar nog steeds niet echt bruikbaar. Ik probeerde toen PocketSphinx met Al Pacino te gebruiken maar dit leverde helemaal geen resultaten op.

Uiteindelijk probeerde ik de stem van Morgan Freeman uit de film "Bruce Almighty" te gebruiken en hier zijn de resultaten:

000000000: we komen met haar000000001: zijn allemaal zo moeilijk ja de dag dat dit nu is Dit is het meest dat we hebben meegemaakt ik ben een deel van de hete000000002: in de lift wie de sleutel is uit een beetje honkbal of weet wat te doen in het leven000000003: wat zijn degenen die zullen herstellen000000004: ze hebben het niet geschreven000000005: ze hebben gelijk op mij000000006: je moet regels zijn000000007: ik verwachtte je al000000008: en hij leerde hier dat het een illustratie was van het moordende kerstfeest000000009: het blijkt een manier om te schrijven o. ezel ik dacht dat weinigen er altijd een dragen000000010: zoals het probleem verenigd zal hij niet het goede geven ik ben de geschatte op dat moment dat we niet alles waarvan je denkt dat ik in de wereld zal huizen zullen hebben en dat heb ik gezien000000011: een vader die het heeft000000012: wat veel hierover000000013: geeft dat000000014: alles voor degenen die niet voor veel vallen000000015: precies in de herfst000000016: houd even vast alleen voor mij000000017: het is ongelukkig als ik ook denk dat ze een zullen hebben dat het dat alles zal zijn dat getrouwd is op een was nee we doen ik hou van het anders dan de manier

Mijn test kan nauwelijks als wetenschappelijk worden beschouwd en de ontwikkelaars van PocketSphinx kunnen verklaren dat ik de software niet correct gebruik. Er is ook een techniek die stemtraining wordt genoemd en die kan worden gebruikt om betere woordenboeken en taalbestanden te maken.

Mijn overheersende mening is echter dat het gewoon te moeilijk is voor standaard dagelijks gebruik.

VoiceNote II

VoiceNote II is een Chrome-app die de Google Voice Recalling-API gebruikt.

Als u de Chrome- of Chromium-browser gebruikt, kunt u VoiceNote II installeren via de Web Store.

De pictogrammen op VoiceNote II zijn op een vreemde manier ingedeeld, omdat je de taal onderaan het venster moet instellen en de knop Bewerken ook onderaan, maar de opnameknop staat rechtsboven.

Het eerste dat u hoeft te doen is een taal selecteren en dit kan worden bereikt door op het wereldpictogram te klikken.

Om te beginnen met opnemen, klikt u op het microfoonpictogram en begint u in uw microfoon te spreken. Voor het beste resultaat vond ik dat langzaam spreken de sleutel was, zodat de software de kans kreeg om bij te blijven.

De resultaten waren niet geweldig, zoals hieronder te zien is:

Hallo en welkom om verbinding te maken. Go-Travels.com hedendaagse artikelen over conversie van spraak naar tekst dunelm farrell recessie 2008 als conversies en het zei goed ondersteund de beste manier waarop ik voice-tekst add-on vond om 2014debian of rpm-pakket te tonen open het stemtype naar spraak naar tekst open het als je wilt kiezen vs koos in edinburgh frans duits krijg je de tijd in united kingdomstart at sea microphonewhat je klaar bent met het schrijven van je tekst als een tekstbestand naar zijn succes nou dat is heel standaard engels accent uit ten zuiden van engeland best want het maar ik ga naar de textvia deze torrentalong met het eigenlijke document en je kunt zien voor de fouten die je maken voor luistervrienden

Dictanote

Dictanote is een andere Chrome-app die voor dicteerdoeleinden kan worden gebruikt en die meer intuïtief overkwam, maar de resultaten waren niet beter dan VoiceNote II.

Ik heb alleen de demoversie van Dictanote gebruikt, waardoor je geen nieuwe documenten kunt maken, maar je kunt over tekst praten die al in de editor staat. Ik kon de stemherkenning testen, maar de resultaten waren niet beter dan VoiceNote II en daarom heb ik me niet aangemeld voor de pro-versie.

Dicteren en e-mail

"Dicteren en e-mailen" is een Android-applicatie die de native Google spraakherkennings-API gebruikt.

De resultaten van "Dicteren en Mail" waren veel beter dan elk ander programma dat tot nu toe werd geprobeerd.

hallo welkom bij Linux lifewire., vandaag hebben we het over het converteren van geluid naar tekst

De truc met "Dictation and Mail" is om langzaam te spreken en zo goed mogelijk uitspraak te doen met een even accent.

Nadat u klaar bent met praten, kunt u de resultaten naar uzelf e-mailen.

Praten en praten dicteren

De andere Android-applicatie die ik probeerde was "Talk And Talk Dictation".

De interface voor deze app was de beste van het stel en de spraakherkenning werkte heel goed. Na het opnemen van het dictaat kon ik de resultaten op verschillende manieren delen, ook via e-mail.

welkom bij linux Go-Travels.com vandaag hebben we het over het converteren van spraak naar tekst

Zoals je kunt zien is de bovenstaande tekst ongeveer zo duidelijk als je kunt verwachten te krijgen. Langzaam praten is de sleutel.

Samenvatting

Native Linux heeft nog een andere weg te gaan met betrekking tot stemherkenning en specifiek dicteren. Sommige apps maken gebruik van de Google Voice API, maar ze worden nog niet vermeld in repositories.

ChromeOS-applicaties zijn een beetje beter, maar verreweg de beste resultaten werden behaald met mijn Android-telefoon. Misschien heeft de telefoon een betere microfoon en daarom biedt de spraakherkenningssoftware een betere kans op conversie.

Om spraakherkenning echt bruikbaar te maken, moet het intuïtiever zijn en is minder installatie vereist. U zou niet met taalmodellen en woordenboeken moeten rommelen om het begrijpelijk te maken.

Ik waardeer echter dat de hele kunst van spraakherkenning zeer uitdagend is omdat iedereen een andere stem heeft en er zijn zoveel dialecten van regio tot regio in één land, zonder zich zorgen te maken over de honderden talen die over de hele wereld worden gebruikt.

Mijn analyse is daarom dat spraakherkenningssoftware nog steeds aan de gang is.