În anii 90 ai secolului trecut, filmul „Înapoi în viitor” a fost foarte popular, așa că în a doua parte a existat o scenă în care Martin McFly intră într-o cameră, pornește televizorul și schimbă canale folosind doar vocea și nimic. altfel. La un moment dat, astfel de manipulări li s-au părut oamenilor ceva fantastic și imposibil. Cu toate acestea, în zilele noastre acestea sunt lucruri destul de obișnuite. Dar dezvoltarea acestei industrii a fost destul de dificilă. A fost nevoie de zeci de ani și de sute de mii de dolari de investiții. Acest articol este dedicat istoriei dezvoltării sistemelor de recunoaștere a vorbirii.

1952poate fi considerat oficial anul nașterii sistemelor de recunoaștere a vorbirii. Motivul pentru aceasta este compania americană Bell Laboratories, un cercetător important în domeniul computerelor și sistemelor electronice. Anul acesta, această organizație și-a prezentat ideea, numită sistemul Audrey. Sincer vorbind, Audrey nu avea nici măcar un vocabular în sensul obișnuit, opera doar cu numere. Dar asta nu este tot. Sistemul avea o serie de limitări, nerespectarea acestora a redus precizia lui Audrey la 60-70 la sută. Dacă totul a fost făcut conform cerințelor, precizia este de aproximativ 90%.

Principalele restricții ale muncii lui Audrey:

  • Omul care dicta trebuie să fie un bărbat
  • Această persoană ar fi trebuit să lucreze cu sistemul înainte
  • Pauza dintre cuvinte ar trebui să fie de aproximativ 350 de milisecunde

În realitățile moderne, acesta nu este deloc un indicator. Cu toate acestea, a fost făcut un pas mare către înțelegerea automată a vocii umane.

În 1962a avut loc o altă dată semnificativă în dezvoltarea sistemelor de recunoaștere a vorbirii. S-a întâmplat la Seattle, la Târgul Mondial. Computerul Shoebox a fost prezentat de IBM. Acest aparat putea recunoaște șaisprezece cuvinte în limba engleză. Nu este greu de observat că tranzițiaa durat zece ani întregi de la număr la lucru.

sistemelor

Lucrul pe un computer IBM Shoebox

În a doua jumătate a anilor 60în laboratoarele din SUA, Marea Britanie, Japonia și URSS au fost efectuate experimente privind dezvoltarea sistemelor de recunoaștere a vorbirii capabile să recunoască sunetele rostite separat. Încet, dar sigur, tehnologiile s-au îmbunătățit treptat.

În 1971tehnologia promițătoare a atras atenția armatei americane. Ministerul Apărării a alocat fonduri pentru cercetarea și dezvoltarea sistemelor de recunoaștere a vorbirii. În final, produsul final trebuia să recunoască cel puțin o mie de cuvinte și să înțeleagă un discurs coerent, adică un vorbire fără pauze bine definite între cuvinte.

În 1972, a apărut primul software pentru sisteme de recunoaștere a vorbirii și a fost pus pe bază comercială. Era un program Vip-100, putea recunoaște câteva sute de cuvinte, dar nu exista suport pentru vorbirea conectată. Și aceleași probleme ca în produsele similare anterioare, pregătirea preliminară a sistemului”, adică dictarea cuvintelor.

Până în 1976, au fost dezvoltate șase sisteme care, într-o măsură sau alta, îndeplineau criteriile necesare. Cel mai de succes, poate, a fost „harpia” dezvoltată de centrul de cercetare de la Universitatea Carnegie Mellon. Patru secunde de propuneri elaborate în cinci minute, plus tot același „antrenament”, nu pot fi numite un rezultat bun. Dar avea un vocabular de 1011 cuvinte, înțelegea un discurs coerent și avea un algoritm eficient pentru găsirea construcțiilor corecte. Toate aceste calități au lăsat mult în urmă toți predecesorii săi și au făcut din acest program unul dintre cele mai bune din timpul său.

În anii 1980a existat o dezvoltare rapidă a sistemelor de recunoaștere a vorbirii. Companiile americane Bell Laboratories și IBM acționează ca flagship-uri. Prezentarea altora noiabordări și tehnologii în dezvoltarea acestor sisteme, a fost posibilă creșterea vocabularului lor la câteva mii de cuvinte. IBM și-a concentrat cercetările pe N-grame (secvențe continue de N elemente ale unui text sau limbă dat) și sisteme dependente de vorbitor, cu alte cuvinte, antrenate. În timp ce Bell Laboratories s-a angajat în dezvoltarea de sisteme capabile să lucreze cu dispersie acustică, accente și nu necesită pregătire prealabilă.

Unul dintre rolurile principale în dezvoltarea acestor sisteme în anii 80 a fost jucat de așa-numita metodă statistică. Esența acestei metode a fost recunoașterea parametrilor necunoscuți pe baza celor dați. Mai simplu spus, sistemele de recunoaștere a vorbirii sunt învățate să recunoască contextul la cel mai primitiv nivel și să recunoască cuvinte pe baza datelor incomplete cauzate de zgomot, accent etc.

În această perioadă, încercarea de a utiliza rețele neuronale artificiale pentru recunoașterea vorbirii s-a încheiat cu un eșec imens. Oferte comerciale precum text-to-speech Kurzweil apar. Dar toți erau foarte incomod de a lucra cu și nu acceptau decât dictarea.

În 1987, a fost lansat primul produs comercial pentru publicul larg cu funcție de recunoaștere a vorbirii. Era o păpușă cu funcția de a recunoaște vorbirea copiilor pe baza antrenamentului. În plus, ea ar putea reacționa la evenimente simple care i se întâmplă, fie că este vorba de expunere la lumină sau întuneric, și chiar „să citească” cărți speciale din platou, folosind senzori de pe degete.

vorbirii

Primul produs comercial capabil să recunoască vorbirea este Julie Talking Doll

În 1990este lansat programul Dragon Dictate - primul program comercial de acest gen pentru utilizatorii obișnuiți. Pentru calități foarte modeste, încă disponibile dictare și nu cele mai bune comoditatemunca, un utilizator obișnuit a trebuit să plătească nouă mii de dolari, sincer, o sumă destul de semnificativă nu numai pentru acea perioadă, ci și pentru a noastră.

În 1996a apărut VAL de la BellSouth - primul portal de voce. Acest sistem a fost conceput pentru a procesa întrebări telefonice, standuri de informații din marile centre comerciale etc. A căutat informații pentru cumpărători și abonați pe baza cererilor, serviciilor și mărcilor comerciale specificate.

În 1997a fost lansată o nouă versiune îmbunătățită a programului Dragon - NaturallySpeaking. Acest program a fost deja capabil să recunoască vorbirea normală. Cam o sută de cuvinte pe minut. Și este valoros, a scăzut la 695 de dolari, ceea ce nu s-a putut abține decât vă rog!

Logo-ul programului Dragon este NaturallySpeaking

În 2001Microsoft lansează sistemul său de recunoaștere a vorbirii. Ea a lucrat cu Office XP, la acea vreme cea mai avansată versiune a suitei de birou. În ciuda deficiențelor sale (prezența „antrenamentului”, reconfigurarea cu o variabilă a spațiului de lucru sau pronunția neclară), acest program a devenit cu adevărat popular.

În 2002Google lansează, deși în modul de testare, Căutare vocală, concepută pentru căutări vocale pe Internet. Dar această evoluție a trebuit să fie anulată imediat. Cert este că, pentru a efectua această căutare, trebuie să apelați un număr special, ceea ce a fost foarte incomod. Dar Google nu a renunțat și a continuat dezvoltarea în această direcție.

În 2005este lansat primul sistem de operare cu funcție de recunoaștere a vorbirii. Pionierul a fost Mac OS X Tiger. Cu toate acestea, trebuie menționat că dezvoltări similare au fost și în Windows 95, dar a existat mai mult o versiune de testare decât un produs cu drepturi depline. VoiceOver nu era capabil doar de recunoaștere a vorbirii, ci easintetizator Acest program poate citi conținutul documentelor text, mail și pagini web. Un mare plus a fost că era independent de difuzor și chiar funcționa cu mai mulți utilizatori în același timp.

Interfață VoiceOver

În 2006nedorind să rămână în urma eternului său concurent Apple, Microsoft lansează un sistem de operare cu suport complet pentru funcția de recunoaștere a vorbirii din Windows Vista.

În 2009este lansată aplicația de căutare vocală de la Google pentru iPhone. Activitatea acestei aplicații se bazează pe calculele supercomputerelor sale. Aceste calcule au făcut posibilă efectuarea unei analize a datelor la scară largă a căutării potrivirilor între un număr mare de solicitări vocale ale utilizatorilor și cuvintele acestora. Această procedură a contribuit la creșterea și îmbunătățirea rapidă a sistemului.

Căutarea vocală se impune treptat ca cea mai populară aplicație de la Google pentru dispozitive mobile. Urmează o versiune pentru Android.

Căutare vocală pe smartphone-urile iPhone

În 2011Google a luat în considerare greșelile din ultimii ani, care au dus la caracteristica de recunoaștere a vocii în browserul Chrome. Apelurile inutile și alte neplăceri au fost eliminate. Astăzi, baza de date conține aproximativ 230 de miliarde de cuvinte în multe limbi ale lumii.

Siri a apărut pentru prima dată pe smartphone-urile iPhone 4S

Și la final, fără a subestima data pivot și epocală din istoria dezvoltării sistemelor de recunoaștere a vorbirii. 14 octombrie 2011Apple începe vânzările în masă ale iPhone 4S cu Siri instalat. Acest program nu recunoaște doar vorbirea, ci acționează ca un asistent virtual personal capabil să proceseze limbajul natural, să răspundă la întrebări și să ofere recomandări. Ceea ce este remarcabil la ea este că nu estefolosește programe standard și există o comunicare activă între utilizator și dispozitiv. Poate chiar să răspundă la întrebări curioase sau stupide cu glume. Până în prezent, acest program acceptă limbile engleză, franceză și germană.