andrea arcella, agostino di scipio: "waveshaping and distortion synthesis, from licklider...

WAVESHAPING AND DISTORTION SYNTHESIS, FROM LICKLIDER (1946)

TO CURRENT PERSPECTIVES

Andrea Arcella Agostino di ScipioConservatorio S.Pietro a Majella -

[email protected]

Conservatorio S.Pietro a Majella – Napoli

[email protected]

ABSTRACT(English)Along the history of electronic (analog and digital sound synthesis and transformation, time and again various"waveshaping" approaches have surfaced. In this paper we survey some of them, and offer insight into what could be seen, in retrospect, as the earliest ever thorough treatment of waveshaping (the application of nonlineartransfer functions to an input signal), pursued in the later 1940's by J.C.R.Licklider in the context of investiga-tionson speech intelligibility.Based on this survey, further work may eventually bear on the different cognitive potentials opened up for musical purposes by the different methods and perspect-ives. In general, older and newer methodsfor the electronic generation of sound reflect differences not only in the technical and theoretical frame, but alsoin underlying sound representation premises, that is, dif-ferent ideas of what sound is and means for human be-ings and how it is or can be creatively dealt with. Such kind of discussion, in our opinion, is of the highest relev-ance in studies in the history of sound synthesis, and rep-resents a subject matter of interest in sound studies at large.

ABSTRACT (Italiano)

Nella storia della sintesi e della trasformazione del suo-no, sia nel dominio analogico che digitale, vi sono stati diversi approcci alla sintesi di tipo “waveshaping” (sinte-si per distorsione non lineare). In questo articolo viene fatto un excursus storico di questi approcci confrontan-doli con la più antica trattazione della distorsione non li-neare (da ora DNL) applicata all'audio nota in letteratu-ra: un seminario di J.C.R.Licklider [21] sugli effetti della DNL applicata al parlato. Si ritiene di particolare inte-resse il documento di Licklider per due motivi: il primo di tipo storico, in quanto questo intervento è probabil-mente il primo in letteratura in cui si affronta in modo esteso la DNL1 applicata a segnali audio; il secondo è che l'approccio di Licklider alla variazione di intelligibi-

1 Più precisamente intendiamo il primo in cui venga utilizzato il fra-mework concettuale della DNL e non approcci diversi usati talvolta con fini analoghi, come ad esempio il vocoder.

lità del parlato in funzione della distorsione può aprire nuove prospettive alle ricerche di tipo artistico con parti-colare riferimento alle istallazioni sonore di tipo interat -tivo.

1. INTRODUZIONELa distorsione non lineare (DNL) può essere intesa come una tecnica per operare modifiche su un segnale in in-gresso oppure, mettendosi in una prospettiva speculare, per studiare gli effetti che segnali esterni possono avere sul segnale in oggetto nel caso in cui questi ultimi siano rappresentabili come funzioni distorcenti. I modelli che si basano sulla DNL nella teoria dei segnali sono stati proposti già prima della seconda guerra mondiale nel-l'ambito degli studi sulla teoria dell'informazione e sulle telecomunicazioni.

2. SEGNALI SOTTOPOSTI A FUNZIONI DISTORCENTI

Figure 1. Schema a blocchi della DNL

Copyright: © 2010 Last name et al. This is an open-access article distributed under the terms of the Creative Commons Attribution License 3.0 Unported, which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited.

http://creativecommons.org/licenses/by/3.0/

http://creativecommons.org/licenses/by/3.0/

L'idea base della DNL è quella di applicare una funzio-ne detta distorcente, ovvero un operatore, al dominio di un'altra funzione in ingresso (Fig. 1)

Un esempio tipico di DNL è quello di un amplificatore la cui funzione di trasferimento non è lineare lungo tutto il range delle ampiezze possibili per il segnale in ingres-so (Fig.2).

Figure 2. Funzione di trasferimento lineare non lineare [24]

È evidente che il segnale risultante da distorsioni non li-neari produce segnali con un contenuto armonico diverso (generalmente più ricco) da quello presente nel segnale originario. Possiamo quindi desumere che la modifica operata sull'ampiezza del segnale induce una modifica sul contenuto in frequenza. Da un punto di vista analiti-co possiamo definire questo processo come un operatore distorcente f() applicato ad un segnale in ingresso x(t). Tale operatore può essere applicato al dominio o al codo-minio della funzione ovvero f()=x(f(t)) oppure f()=f(x(t)).

In linea di principio possiamo applicare qualunque ope-ratore, ad esempio la derivata f(x(t))=dx(t)/dt, oppure sperimentare con operatori che non hanno una definizio-ne analitica disegnando arbitrariamente la funzione.

3. LA DNL NELL'INFORMATICA MUSICALE

La DNL è stata applicata ai segnali audio in anni succes-sivi rispetto alla sua formulazione nell'ambito della teo-ria dei segnali. Riferendoci in particolare all'utilizzo del-la DNL applicata alla sintesi del suono la prima notizia documentata è riferita all'uso che ne fa Risset nel 1969; nell'esempio 150 (Fig.3) del Catalog of Computer Syn-thesized Sound [24] c'è la descrizione di uno strumento (clarinetto) in cui l'onda seno è sottoposta ad una "fun-zione di trasferimento non lineare" ed il controllo di am-piezza del seno "determina l'ammontare di distorsione effettuata sul seno". Risset evidentemente usa il concetto di DNL ma non pubblica al riguardo articoli che diano

presupposti teorici per l'uso della DNL come tecnica di sintesi.

Figure 3. Strumento 150 del Catalog of Computer Synthesized Sound [25]

Bisogna ricordare che l'utilizzo empirico di tecniche ri-conducibili al framework concettuale della DNL erano già in uso per la sintesi del suono anche se non esisteva (o meglio non era nota) una sistemazione teorica genera-le. Una tecnica chiaramente riconducibile al concetto di DNL è la sintesi FM [1] introdotta da Chowning nella seconda metà degli anni '60; a posteriori possiamo inter-pretare la funzione modulante come un operatore appli-cato alla funzione portante secondo lo schema tipico del-la DNL. Questa interpretazione della FM come un caso particolare di DNL è però venuto solo più tardi, da quan-do si è pervenuti ad un assetto teorico della DNL forma-lizzato in modo chiaro.

Tra i requisiti tipici di qualunque tecnica di sintesi del suono vi è quello di fornire risultati in qualche misura prevedibili. La formalizzazione classica della FM ha por-tato alla definizione di pochi parametri (indici di modu-lazione, etc) disponibili direttamente come parametri di controllo del suono nella fase di sintesi. Questo ha deter-minato il successo della FM come tecnica di generazione sonora. Nel caso più generale della DNL il risultato è ar -rivato più tardi, condizionato non solo da problemi di or-dine concettuale e analitico ma anche dalle trasformazio-ni tecnologiche in atto negli anni '70 con il passaggio dall'analogico al digitale e l'introduzione sempre più massiccia dei computer. Nella prima metà degli anni '70 Suen [2], Schaefer [3] e altri danno una prima sistema-zione analitica della DNL con applicazioni nel dominio analogico. Il problema dell'uso a fini musicali della DNL è quello di trovare una classe di funzioni distorcenti il cui risultato nell'applicazione alla sintesi del suono pre-

vedibile. Dalla teoria matematica delle approssimazioni lineari abbiamo ereditato la possibilità di costruire gran-di classi di funzioni partendo da combinazioni lineari di funzioni trigonometriche o polinomiali. Utilizzando que-sta classe di funzioni come dominio dell'operatore è noto analiticamente il codominio e si può quindi prevedere deterministicamente anche il risultato sonoro della DNL. Il problema che si pone nel dominio analogico è che la progettazione elettronica necessaria per implementare un generico operatore non è per niente semplice, salvo che in alcuni casi notevoli come il clipping, la derivazione o l'integrazione. Questo forse è stato il principale limite allo sviluppo di una teoria generale della DNL negli anni precedenti. Il dominio digitale invece ci da la possibilità di generare operatori distorcenti comunque complessi in modo relativamente semplice ma impone un problema importante assente nel dominio analogico. I segnali ge-nerati applicando un generico operatore infatti sono in generale a banda non limitata. Questo è un problema nel dominio digitale in quanto da luogo al fenomeno dell'a-liasing e quindi pone un freno all'uso generale della DNL come tecnica di sintesi. A questo problema hanno posto rimedio Arfib[4] e Le-brun [5] che in due ricerche indipendenti pubblicate nel 1979 hanno indicato il modo di ottenere segnali a banda limitata dalla DNL. La classe di funzioni distorcenti pro-poste sono quelle ottenibili dai polinomi di Chebishev di primo tipo della forma T k x dove k rappresenta l'ordine del polinomio e x è una sinusoide:

T 1x =x (1)

T 2 x=2x−1 (2)..

T n1 x=2xTn x−T n−1x (3)

Tali polinomi si ottengono quindi da una relazione ricor-siva. La proprietà interessante di questi polinomi è che quando una funzione coseno in ingresso x(t) viene sotto-posta ad una funzione distorcente T k x il segnale risultante è una sinusoide con frequenza pari alla k-esi-ma armonica del coseno in ingresso. Quindi dato che ciascun polinomio è in grado di generare un'armonica ben definita possiamo usare combinazioni lineari pesate di polinomi per creare combinazioni spettrali prevedibili e a banda limitata.In generale quindi la funzione distorcente con n termini polinomiali sarà del tipo

f x =h0

2∑

K=i

n

hk T k x (4)

Se alla funzione in ingresso viene applicato un inviluppo temporale dinamico otterremo uno spettro dinamico ana-logamente a ciò che avviene con la variazione dell'indice

di modulazione della FM. Ricordiamo infatti che una va-riazione di ampiezza del segnale di ingresso determina una variazione nello spettro del segnale di uscita. In rife-rimento alla Fig.1 il coefficiente ά, che rappresenta l'am-piezza del segnale di ingresso può essere una funzione che varia nel tempo, ad esempio l'inviluppo indicato.In anni successivi la letteratura si è arricchita di nuovi contributi tesi ad ottimizzare gli algoritmi per la sintesi DNL ed a trovare nuove soluzioni di applicazione nel va-sto mondo dei Virtual Istruments [17] [18]. Un altra di-rezione di ricerca ha utilizzato la DNL come motore di sintesi per strumenti “gesture controlled” [15]. Dal punto di vista della generazione sonora la DNL è stata spesso indicata come particolarmente adatta per la creazione di texture sonore [13] [14]. Infine la ricerca di Di Scipio [10] [11] [12] conduce verso un ulteriore processo di ge-neralizzazione della DNL riconducendola all'interno del framework più generale delle funzioni non lineari itera-te, di cui la DNL rappresenta il caso particolare di IFS di grado zero (ovvero senza iterazioni).

4. UN CONTRIBUTO STORICO: IL TALK DI J.C.R.LICKLIDER

4.1 Il framework concettuale della DNL in Licklider

In un talk del 1950 alla Macy Conference [21] Licklider esamina gli effetti del rumore sull'intelligibilità del par-lato. Ciò che risulta interessante ai fini storici per coloro che si occupano di suono sono le rappresentazioni del-l'interazione tra segnale e rumore che lo scienziato pro-pone. Lo scienziato effettua una disamina delle tipologie di rumore che possono compromettere il parlato. Nella prima parte del testo Licklider offre una panoramica dei rumori che si possono modellare come una funzione di-storcente applicata al dominio del parlato, il cui caso più semplice è una dilatazione o una compressione dell'asse temporale corrispondente ad una riproduzione rallentata o accelerata della registrazione audio. Nel seguito vengo-no affrontate le distorsioni applicate al codominio della funzione utilizzando il framework della DNL come lo abbiamo precedentemente illustrato. Le figure incluse nel suo articolo sono particolarmente indicative (Fig.4) (Fig.5) (Fig.6). Prima di entrare nel merito dell'intelligi-bilità del parlato, Licklider si sofferma su una meticolosa analisi degli effetti della distorsione armonica usando come segnali di test onde sinusoidali; su tali segnali ap-plica varie funzioni distorcenti tra cui il peak clipping simmetrico, il clipping centrale, la derivazione e l'inte-grazione (Fig.6). La scelta di questo tipo di funzioni non deve stupire, infatti non solo sono rappresentative di una serie di disturbi delle comunicazioni ma sono anche par-ticolarmente semplici da riprodurre in laboratorio me-diante l'elettronica analogica a componenti discreti. L'in-teresse storico dell'articolo risiede nel fatto che Licklider utilizza il framework concettuale della DNL applicato ad un segnale audio con venti anni di anticipo rispetto al suo utilizzo nell'informatica musicale e con quasi qua-rant'anni di anticipo rispetto alla sua formalizzazione de-finitiva in questo ambito. Inoltre osserviamo che durante il dibattito seguito all'esposizione degli argomenti princi-pali del talk alcuni uditori fanno esplicito riferimento a possibili utilizzi musicali della DNL. Dato il contesto della conferenza e l'assenza di compositori tra gli uditori la questione viene rapidamente abbandonata ma ritenia-mo che anche solo questi cenni indichino l'articolo di Licklider come un antecedente storico importante.

4.2 Approcci sistemici per suoni e parlato

L'altro punto focale dell'articolo di Licklider è appunto lo studio dell'intelligibilità del parlato. Siamo perfettamente consapevoli che gli studi sul parlato (analisi, sintesi, ri-conoscimento,etc.) hanno una storia che, pur procedendo parallelamente a quella dell'informatica musicale, è di-versa. E' diversa soprattutto la finalità di tali studi che non sono rivolti alla produzione musicale.

Ciò che invece ci sembra interessante nell'articolo di Lic-klider è l'approccio di tipo sistemico delle sue ricerche, che ricordiamo essere inserite in un filone culturale più generale da cui è emerso il pensiero di Bateson. Questo fatto è ben evidente sia nel modo in cui Licklider presen-ta la sua ricerca sia nel dibattito che segue il talk.

Figure 4. Effetto del peak clipping simmetrico applica-to ad una sinusoide.

Figure 5. Effetto di varie funzioni distorcenti e di loro combinazioni rispettivamente su una sinusoide (colonna a sinistra) e sul segnale parlato (colonna di destra)

Tale approccio ricongiunge i due territori di ricerca (par-lato e musica) in un nuovo campo di esplorazione delle arti del suono a partire dall'interesse sempre crescente verso il rapporto sistemico che unisce i soundscape natu-rali e/o urbani con l'ascoltatore fino alla realizzazione di istallazioni sonore interattive in cui il parlato gioca un ruolo di primo piano. In questi contesti, con finalità di-chiaratamente artistiche, il rapporto tra segno e signifi-cato coinvolge tanto il gesto sonoro verbale quanto quel-lo non verbale.

5. CONCLUSIONIQuesto lavoro ha indicato la necessità di espandere la ri -cognizione storica di alcuni aspetti della sintesi del suo-no con particolare riferimento alla Distorsione non Li-neare. Si indica l'articolo di J.C.R.Licklider come un la-voro seminale a tal proposito. Si evidenzia inoltre un rin-novato interesse verso l'approccio sistemico alla produ-zione sonora già presente nel testo citato.

Figure 6. Effetto del peak clipping sul parlato. (A) con parola non distorta. (B) con peak clipping di 6 dB e suc-cessiva normalizzazione. (C) con clipping ancora mag-giore

6. REFERENCES

[1] J. Chowning, The Synthesis of Complex Audio Spectra by Means of Frequency Modulation, in “Journal of the Audio Engineering Society”, Vol. XXI, No. 7, Sept. ’73, New York, NY, 1973.

[2] C.Y. Suen (1970), "Derivation of harmonic equations in non linear circuits", J. of the Audio Eng. Soc., Vol.18(6):675-676.

[3] Schaefer, R. A. 1970. “Electronic Musical Tone Production by Nonlinear Waveshaping.” Journal of the Audio Engineering Society 18(6):675-676.

[4] Arfib, D. ”Digital synthesis of complex spectra by means of multiplication of nonlinear distorted sine waves”, Journal of the AES, 27(10), 1979.

[5] LeBrun, . ”Digital waveshaping synthesis”, Journal of the AES, 27(4), 1979.

[6] Beauchamp, J. ”Brass tone synthesis by spectrum evolution matching with nonlinear functions”, Computer Music Journal, 3(2), 1979.

[7] Risset, J.C. An introductory catalog of computer synthesized sounds. Bell Telephone Laboratories, 1969.

[8] Schaefer, R. ”Electronic musical tone production by nonlinear waveshaping”, Journal of the AES, 18(4), 1970.

[9] Roads, C. ”A tutorial on nonlinear distortion or waveshaping synthesis”, in Foundations of computer music (C.Roads and J.Strawn eds.). MIT Press, 1985. [Originally appeared in Computer Music Journal 3(2), 1979.]

[10] Di Scipio, A. and Prignano, I. ”Synthesis by Functional Iterations. A Revitalization of Nonstandard Synthesis", Journal of New Music Research, 25(1), 1996.

[11] Di Scipio, A. ”Iterated nonlinear functions as a sound generating engine”, Leonardo, 34(2), 2001

[12] Di Scipio, A. ”Synthesis of environmental sound textures by iterated non linear functions and its ecological relevance to perceptual modeling”, Journal of New Music Research, 32(2), 2002.

[13] Filatriau, J.J. Réalisation d’un instrument de synthèse de textures sonores en temps réel, DEA Université Aix Marseille II, 2004

[14] Recht, B. and Whitman, B. ”Musically expressive sound textures from generalized audio”, Proc. Int'l Conference on Digital Audio Effects (DAFx03), 2003.

[15] Filatriau, J.J. And Arfib, D. ”Instrumental gestures and sonic textures”, Proceedings of the Sound and Music Computing Conference, 2005.

[16] Filatriau, J.J., Arfib, D., Glowinski, D. and Volpe, G. ”Virtual objects as mediation between sonic textures and interactive gestures”, Proceedings of the Int'l Computer Music Conference, 2007

[17] Lazzarini, V. and Timoney, J. ”New Perspectives on Distortion Synthesis for Virtual Analog Oscillators”, Computer Music Journal, 34(1), 2010.

[18] Smith, J. O. “Physical Audio Signal Processing for Virtual Musical Instruments and Audio Effects”. Available online at ccrma.stanford.edu/~jos/pasp, 2008.

[19] [18] Licklider, J.C.R., “Effects of amplitude distortion on the intelligibility of speech“, Journal of the ASA, 18, 1946.

[20] Licklider, J.C.R. And Pollack, I., “Effects of differentiation, integration, and infinite peak clipping upon the intelligibility of speech“, Journal of the ASA, 20, 1948.

[21] Licklider, J.C.R. “The manner in which and extent to which speech can be distorted and remain intelligible“, Transactions of the 7th Conference on Cybernetics Circular Causal and Feedback Mechanisms in Biological and Social Systems (H.von Foerster ed.), J.Macy Foundation, 1950.

[Reprinted in Cybernetic The Macy Conferences 1946 – 1953 (C.Pias ed.), Diaphanes, 2003].

[22] Licklider, J.C.R. “Man computer symbiosis“, IRE Transactions on Human Factors, 1960.

[23] Licklider, J.C.R. “The computer as a communication device“, Science and Technology, April 1968.

[24] Amsterdam Catalog of Csound Computer Instrument ( Website) http://www.music.buffalo.edu/hiller/accci/

[25] “Un' introduzione all'Informatica Musicale e ai suoi aspetti in ambito didattico” (Website) http://www.fisica.unina.it/mfa/acust/materiale%20sito/Sistemi%20di%20sintesi/index6.htm

http://www.music.buffalo.edu/hiller/accci/

andrea arcella, agostino di scipio: "waveshaping and distortion synthesis, from licklider...

Documents

luso della dnl

dnl quello

blocchi della dnl copyright

cui funzione

lidea base della dnl

tipo waveshaping sintesi

lineare dnl pu essere

operatori che