LA GESTIONE ELETTRONICA DI TESTI IN GRECO ANTICO
DOPO L’INTRODUZIONE DEL NUOVO STANDARD “UNICODE”

 

Brevi note a cura di Edoardo Scarpanti

aggiornate al giugno 2005

 

 

Contenuti del presente documento:

 

 

1.     Premessa

 

2.     La gestione di testi in greco antico prima della “rivoluzione Unicode”

 

3.     Che cos’è lo standard Unicode

 

4.     Inserimento, trattamento e condivisione di testi in greco antico dopo l’introduzione dello standard Unicode. Con una postilla: le scritture dell’Egeo

 

5.     Prospettive di sviluppo nell’uso di Unicode da parte dei linguisti

 

6.     Risorse reperibili in Internet

 

7.     Brevi indicazioni bibliografiche

 

 


0. Premessa

 

I primi punti del presente documento non illustrano direttamente le indicazioni pratiche per l’inserimento di testi in greco antico in un programma di videoscrittura, ma ne ricostruiscono piuttosto il recente sviluppo “storico” (punto 1) e le caratteristiche tecniche (punto 2), perciò chi fosse interessato soltanto ad un’applicazione pratica potrà utilmente ometterne la lettura e fare subito riferimento, invece, al punto 3 (Inserimento, trattamento e condivisione di testi in greco antico dopo l’introduzione dello standard Unicode) e al punto 5 (Risorse reperibili in Internet).

 

1. La gestione di testi in greco antico prima della “rivoluzione Unicode”

 

Come ben sa chi si è trovato nella necessità di dover inserire testi in greco antico in documenti creati con il proprio elaboratore, la gestione dei caratteri di questa lingua all’interno dei più diffusi programmi di videoscrittura è sempre stata piuttosto difficoltosa. Nei confronti di tale problema, sono state proposte numerose e svariate soluzioni, talvolta anche pregevoli, che hanno portato nel tempo all’adozione di molti diversi sistemi di codifica e di trattamento dei testi greci, che presentavano però tutti alcuni limiti fondamentali:

 

1) nessun sistema (o quasi) era compatibile con gli altri, impedendo così in buona parte gli scambi di materiale tra studiosi che utilizzassero sistemi differenti e rendendone allo stesso tempo particolarmente difficoltosa, o parzialmente inutile, la pubblicazione e la condivisione in Internet su pagine Web;

 

2) molti sistemi di scrittura non erano più utilizzabili dopo il passaggio, da parte dell’utente, ad un sistema operativo più evoluto (ad esempio, passando da MS-DOS a Windows 3.1x,  Windows 95, 98, 2000 / NT, XP ecc.) o, semplicemente, ad un nuovo programma di videoscrittura (come Word 95, 2000, ecc.); in tali circostanze, inoltre, i testi faticosamente elaborati in greco antico venivano spesso perduti per sempre;

 

3) alcuni sistemi presentavano un funzionamento estremamente macchinoso e di faticoso apprendimento, che inoltre, una volta acquisito dall’utente, poteva essere utilizzato solo ed esclusivamente per quel singolo sistema.

 

Il motivo di questa caotica situazione era piuttosto semplice: come è noto, qualsiasi carattere utilizzato in un documento di testo creato con un programma di videoscrittura (ad esempio Word 95) viene “visto” dall’utente sullo schermo nella forma che esso assumerà anche al momento della stampa e che è riportata sulla tastiera, la forma cioè leggibile, mentre viene “visto” e trattato dall’elaboratore non come un carattere alfabetico, ma come un numero. Così, ad esempio, il carattere “A” (la prima lettera dell’alfabeto latino, maiuscola) viene effettivamente visualizzato sullo schermo del computer ed eventualmente stampato come “A”, ma viene allo stesso tempo trattato dall’elaboratore (e dunque anche memorizzato) come “01000001” (numero binario che corrisponde al più familiare numero decimale “65”). Dunque, il carattere “65” è “A”, il “66” è “B”, e così via (il “64” è il celebre “@”), ma fino a dove? Il computer, sino ad oggi, ha utilizzato questo standard, chiamato “ASCII esteso” (nella versione “ISO-8859-1” per le lingue occidentali), che assegnava infatti ad ogni carattere visibile sullo schermo un numero binario di otto cifre totali di lunghezza (come appunto il nostro “01000001”, decimale “65”, cioè “A”). Questo rendeva possibile l’elaborazione di un massimo di 256 numeri binari diversi composti dalle otto cifre a disposizione (da 00000000 sino a 11111111), e dunque di un massimo di 256 diversi caratteri alfabetici ad essi corrispondenti. Una singola cifra di un numero binario è detta, in termini informatici, bit, e dunque lo standard “ASCII esteso” che ho qui riassunto era uno standard che utilizzava delle cifre di 8 bit (che, a loro volta, corrispondono ad un byte), e dunque, in termini informatici, esso era uno “standard a 8 bit”.

 

In realtà, 256 caratteri sono pochissimi: una volta inclusi i caratteri dell’alfabeto latino (maiuscoli, minuscoli, accentati, con diacritici, ecc.), le cifre arabe, i segni di interpunzione, gli operatori matematici, i segni di valuta e molti altri ancora, di fatto non restava spazio per altri caratteri. Per quanto ci interessa, in particolare, i caratteri dell’alfabeto greco antico avrebbero richiesto invece molto spazio: non era infatti necessario prevedere solo, ad esempio, un singolo carattere per la lettera alfa, ma anche un’alfa con spirito aspro, una con spirito dolce, una con spirito dolce e accento acuto, una uguale ma con accento circonflesso, e via dicendo. La soluzione, conseguentemente, fu quella di creare speciali set di caratteri (speciali font, dunque), diversi da quelli normalmente usati per la scrittura delle lingue occidentali (come erano i noti font “Times New Roman”, “Arial”, “Courier New”, eccetera), ma al contrario appositamente studiati per contenere, al posto dell’alfabeto latino (e dunque sostituendone tutti i caratteri), le lettere dell’alfabeto greco antico e, oltre a queste, tutti gli opportuni segni diacritici (accenti, spiriti, dieresi, ecc.) variamente combinati con esse. L’utente doveva, perciò, utilizzare per i testi in greco esclusivamente tali speciali font, come “Greek”, “Sgreek”, “Athenian”, “Korinthus” ecc. A questo punto, risulta piuttosto semplice illustrare la più importante differenza fra il vecchio standard “ASCII esteso” ed il nuovo “Unicode”.

 

Chi creava questi speciali font per il greco classico assegnava, come si è visto, alle 256 posizioni dello standard “ASCII esteso” i caratteri greci, gli accenti e gli spiriti opportuni, al posto delle lettere occidentali: purtroppo, però, chi disegnava nuovi font non teneva in nessuna considerazione, in genere, i font già esistenti, cosicché ogni nuovo font assegnava posizioni differenti ed apparentemente casuali (dunque codici ASCII differenti, fra le 256 possibilità) ai medesimi caratteri (lettere, spiriti o accenti), con le prevedibili conseguenze di reciproca incompatibilità fra i vari sistemi di scrittura. Anche minime differenze di attribuzione e piccoli spostamenti delle corrispondenze tra numero e carattere rendevano, di fatto, i diversi font fra loro assolutamente incompatibili.

 

I numerosi font ASCII studiati per il greco classico hanno avuto talvolta vita breve e scarsa diffusione, talaltra invece si sono diffusi piuttosto largamente, come nel caso di “Greek”, “Sgreek”, “Greek Old Face”, “Athenian”, “Araxnion”, “Platone2”, “Korinthus” e di pochi altri. Ovviamente, le comuni tastiere europee non permettevano l’inserimento immediato dei caratteri variamente accentati con la pressione di un semplice tasto. Un sistema molto semplice, che ha avuto molto successo ed è ancora molto diffuso anche in importanti raccolte di testi greci su Internet (come ad es. il Thesaurus Linguae Graecae), è il cosiddetto Beta Code. Tale sistema prevede che gli accenti e gli spiriti vengano aggiunti dopo la vocale interessata semplicemente digitando i seguenti tasti:

 

/        accento acuto                                (        spirito aspro

\        accento grave                                )        spirito dolce

=      accento circonflesso                      |         iota sottoscritto

 

Così, ad esempio, la parola  viene digitata come “a)/nqrwpoj”. Ovviamente, la parola è visualizzata correttamente in caratteri greci solo se si possiede e si sta utilizzando in quel momento un font creato per Beta Code, come era il popolare font “Sgreek” (che oggi però funziona con difficoltà con Word 2000) o come il nuovo “SP-Ionic” (che ugualmente presenta gravi problemi di visualizzazione con i più recenti programmi di videoscrittura). Anche chi non disponeva di tali font poteva, comunque, individuare dai semplici caratteri latini la parola greca corrispondente, una volta imparate le debite corrispondenze.

 

Furono poi introdotti e commercializzati anche alcuni piccoli programmi, da installare sul proprio computer e da avviare dopo l’apertura del programma di videoscrittura, che permettevano l’inserimento delle lettere accentate con delle semplici (o meno semplici) combinazioni di tasti anche diverse da quelle di Beta Code. Tali programmi (in genere si trattava di “macro” per Word) erano, necessariamente, differenti e non compatibili fra di loro, ed in genere ogni programma funzionava solo con il font insieme al quale era stato commercializzato. Il più celebre fra questi programmi fu, probabilmente, “Wingreek”, sostituito in seguito da “Son of Wingreek” (esso funzionava, tra gli altri, con i font “Greek Old Face”, “Greek”, “Korinthus”, “Milan”, ecc.). Tra gli altri programmi concorrenti, si può ancora ricordare “Greek Keys” (font “Attika”, “Athenian”, “Kadmos”, “Xanthippe”), di cui esiste la versione aggiornata “Greek Keys 2002”. Il popolare font “Sgreek”, invece, non necessitava di nessun particolare programma, dato che funzionava semplicemente con la combinazione di tasti dello standard Beta Code, pur con qualche piccola differenza.

 

Come è ovvio, esisteva poi un’ultima soluzione, piuttosto drastica: la semplice trascrizione del testo originale greco nei caratteri dell’alfabeto latino di un normale font occidentale. Anche in questo caso, tuttavia, si presentavano numerose difficoltà, per la mancanza sulle tastiere occidentali di segni diacritici che permettessero di distinguere opportunamente vocali lunghe e brevi, spiriti e accenti. Ancora una volta furono proposti numerosi sistemi, nuovamente incompatibili fra di loro, in base ai quali si riportano qui di seguito alcuni esempi della trascrizione della parola :

 

trascrizione semplice, senza accenti                                     anthro^pos  ovvero   anthro=pos

trascrizione con accenti                                                     ánthro=pos

trascrizione Beta Code con font a caratteri latini                   a)/nqrwpoj

 

Tutte le difficoltà sino a qui evidenziate sono oggi definitivamente superate grazie all’introduzione di un nuovo standard, che sostituisce il vecchio “ASCII esteso”, conosciuto come “Unicode”.

 

2. Che cos’è lo standard Unicode

 

La rivoluzione operata dal nuovo standard Unicode è tanto semplice quanto importante: ogni carattere alfabetico non viene più associato dal computer ad un numero binario di otto cifre binarie totali (otto bit, da 00000000 a 11111111 con solo 256 possibili caratteri come avveniva nello standard ASCII), ma viene fatto corrispondere ad un numero binario molto più esteso. Lo standard Unicode può essere definito come un “sistema aperto”, dato che il numero totale delle cifre binarie che esso utilizza può essere continuamente aumentato nelle nuove versioni che vengono periodicamente pubblicate: così, se inizialmente lo standard considerava numeri di 16 cifre binarie con più di 35.000 posizioni per caratteri diversi (già con un enorme salto in avanti rispetto allo standard ASCII a 8 cifre binarie), le nuove versioni successivamente elaborate possono utilizzare 32 cifre ed oltre, con la possibilità teorica di individuare svariate centinaia di migliaia di differenti caratteri, sufficienti (anzi sovrabbondanti) a contenere tutti i sistemi di scrittura, moderni o antichi, oggi conosciuti. Ogni carattere è individuato da un numero, che ovviamente non viene visualizzato come binario (32 cifre di seguito sarebbero un po’ scomode…) o decimale, ma come una cifra esadecimale, dunque molto sintetica. Per utilizzare lo stesso esempio che ho citato in precedenza, il carattere “A” dell’alfabeto latino, che veniva indicato dal precedente standard ASCII con il numero “65”, viene indicato nel nuovo standard Unicode con il numero “41” (nei numeri esadecimali compaiono, ovviamente, non solo le cifre arabe, ma anche le prime sei lettere dell’alfabeto latino: così, ad esempio, il carattere “j” corrisponde al numero “6A”).

 

Per quanto riguarda il greco antico, il nuovo standard Unicode può finalmente riservare ai caratteri di questa lingua un ampio spazio, specificamente ad essi destinato, permettendoci dunque di individuare un singolo numero che contraddistingue universalmente e senza ambiguità ogni differente combinazione di un carattere greco con i propri accenti e segni diacritici, rendendone finalmente possibile lo scambio fra tutti i sistemi operativi e fra tutti i programmi di videoscrittura del mondo. Così, ad esempio, il carattere  (alfa minuscola con spirito dolce ed accento acuto) corrisponde, in tutti i sistemi operativi compatibili con Unicode, allo stesso numero (esadecimale) “1F04”. L’utente, di conseguenza, può scegliere di utilizzare per il testo greco i programmi di videoscrittura, i sistemi di ausilio alla digitazione ed i font che egli preferisce, o persino di crearne di proprio gusto, senza problemi di passaggio da un computer all’altro. In più, il nuovo standard non sostituisce il vecchio ASCII e i nuovi font creati per Unicode mantengono nelle prime 256 posizioni tutti i caratteri occidentali che erano previsti nello standard precedente e l’utente, in questo modo, è libero di utilizzare nel medesimo documento font vecchi e nuovi, alternandoli senza problemi.

 

Tutto ciò ha permesso di risolvere definitivamente tutti gli ostacoli precedentemente evidenziati per l’inserimento di testi in greco antico nel vecchio standard “ASCII esteso”. Infatti oggi:

 

1) lo standard Unicode permette di creare testi perfettamente compatibili con tutti i sistemi operativi ora prodotti, con la possibilità di condividere i propri documenti senza alcun problema tramite supporto magnetico, posta elettronica o ancora mediante la pubblicazione su Internet in pagine Web;

 

2) il passaggio da parte dell’utente ad un nuovo sistema operativo non creerà in futuro alcun problema, così come l’adozione di un diverso programma di videoscrittura ed anche il passaggio a qualunque nuovo font, poiché tutti saranno compatibili con Unicode;

 

3) i sistemi (programmi) ideati per inserire i caratteri greci muniti di diacritici utilizzando le normali tastiere resteranno, necessariamente, alquanto macchinosi, ma finalmente i testi greci così faticosamente prodotti saranno perfettamente compatibili con i testi prodotti con altri sistemi di digitazione.

 

E’ stato creato anche uno speciale font che comprende tutti i caratteri, decine di migliaia, previsti oggi dalla versione più recente dello standard Unicode: è il font “Arial Unicode MS”. Tale set di caratteri, ovviamente, occupa un certo spazio in memoria e potrebbe rendere l’utilizzo dei programmi di videoscrittura leggermente più lento negli elaboratori più vecchi e meno potenti. Il ricorso a questo font, comunque, non è necessario a chi non abbia l’immediata necessità di scrivere un documento che contenga contemporaneamente tutti i sistemi di scrittura delle lingue oggi note… è ovviamente molto più semplice utilizzare singoli font, molto più contenuti nelle dimensioni, che siano studiati per le esigenze di singole lingue: così, per le lingue occidentali si continua normalmente ad usare le versioni aggiornate e allargate, compatibili con Unicode, di popolari font come “Times New Roman”, “Arial”, “Courier New” eccetera. Per le esigenze dei grecisti sono già stati prodotti e commercializzati (o distribuiti gratuitamente) diversi font specifici, sempre compatibili con Unicode, che contengono sia i caratteri latini sia i caratteri greci nelle loro varie combinazioni, come “Palatino Linotype”, “Gentium”, “Vusillus Old Face”, “Vusillus”, “Cardo”, “Titus Bistream Unicode”, “Athena”, “Code 2000” ad altri ancora. La resa grafica di questi font è naturalmente diversa, come si evince da alcuni esempi qui di seguito riportati, ma la loro reciproca compatibilità è assicurata:

 

 

Fra i piccoli programmi che permettono l’inserimento dei caratteri greci dotati di diacritici utilizzando la normale tastiera occidentale e che funzionano con il nuovo standard Unicode, segnalo qui “Antioch”, sinora il migliore, “Keyman”, e “Ukeys for Word”. I vecchi programmi, come “Son of Wingreek”, che utilizzavano lo standard “ASCII esteso”, ovviamente non sono più utilizzabili con il nuovo standard e si prevede che non ne verranno pubblicate in futuro versioni aggiornate che funzionino con i nuovi sistemi operativi.

 

Ovviamente, ogni carattere di un font Unicode può essere inserito in un testo anche singolarmente, ad esempio utilizzando la funzione “inserisci simbolo” di Word oppure copiando un carattere dall’applicazione “Mappa Caratteri”. Visualizzando l’intera griglia dei caratteri contenuti in un font, si noterà comunque come i caratteri dell’alfabeto greco privi di accenti si trovino nel gruppo denominato Basic Greek (“Greco di base” nelle versioni italiane, codici Unicode da 0370 a 03FF), mentre gli stessi caratteri in combinazione con i propri accenti e segni diacritici sono collocati nell’area Greek Extended (“Greco esteso”, codici Unicode da 1F00 a 1FEE). Ciò è dovuto ad un ripensamento avvenuto nel corso dell’elaborazione dello standard Unicode. Nella versione 1, infatti, compariva soltanto l’area Basic Greek ed i segni di accento dovevano essere inseriti dopo la digitazione del carattere vocalico, al quale venivano automaticamente sovrapposti dal programma di videoscrittura (sistema noto come Normalization Form D), prelevandoli dal gruppo denominato Combinig Diacriticals (“Segni diacritici di combinazione”): come risultato, i caratteri complessi erano gestiti dal computer come se si trattasse della sequenza di due o più caratteri; così, ad esempio, il segno  era memorizzato come una sequenza di tre segni, cioè alfa, spirito dolce e accento acuto. Tale complesso sistema, in seguito, fu abbandonato a partire dalla versione 2 di Unicode, preferendo invece adottare, come si è visto, caratteri già pre-composti dalla vocale e dagli appropriati segni diacritici (Normalization Form C), cosicché il segno  è trattato come un singolo carattere (codice 1F04). Oggi, di fatto, sarebbe possibile utilizzare entrambi i sistemi, sebbene il vecchio sistema dei “Segni diacritici di combinazione” sia fortemente scoraggiato dalle più importanti istituzioni che hanno adottato lo standard Unicode.

 

 

3. Inserimento, trattamento e condivisione di testi in greco antico

dopo l’introduzione dello standard Unicode. Con una postilla: le scritture dell’Egeo

 

L’utente che desiderasse creare e gestire documenti in greco antico utilizzando le potenzialità offerte dal nuovo standard Unicode deve, anzitutto, assicurarsi di possedere un sistema operativo e programmi che permettano di utilizzare tale standard. Nell’elenco che segue compaiono i sistemi operativi e i programmi compatibili con Unicode, citati nella prima versione cronologicamente compatibile; tutte le versioni successive e più aggiornate sono, ovviamente, compatibili, mentre tutto quanto è stato prodotto in precedenza è, purtroppo, non compatibile (parzialmente o in tutto) con il nuovo standard:

 

1) per i computer basati su Windows, la compatibilità inizia con: il sistemi operativi Windows 95 (con difficoltà), Windows 98, 2000, NT, ME e XP; i programmi di videoscrittura Word 97 e Word 2000, 2003 etc.; i browser per Internet Netscape 4.5 e Internet Explorer 4.0;

 

2) per i computer basati su Macintosh, la compatibilità inizia con: i sistemi operativi OS X; i browser per Internet OmniWeb 4.0 e Mozilla 0.9.6; i programmi di videoscrittura SUE, Pepper, Mellel, Nisus, TextEdit, mentre sembra che la versione di Word per Mac per ora presenti problemi nella gestione di Unicode.

 

3) tra gli altri sistemi, sono compatibili le versioni più aggiornate di Linux (da 2.2.x in poi) e di Unix.

 

In secondo luogo, l’utente deve possedere almeno un font, compatibile con Unicode, che comprenda i caratteri greci con tutte le possibili combinazioni di diacritici. Come ho già notato, i font oggi già disponibili sono molti: “Palatino Linotype”, “Vusillus Old Face”, “Vusillus”, “Gentium”, “Cardo”, “Titus Bistream Unicode”, “Athena”, “Code 2000” ad altri ancora (vedi oltre). E’ inoltre possibile utilizzare anche lo speciale font che comprende tutti i caratteri previsti dallo standard Unicode, “Arial Unicode MS”. Per essere utilizzabile, un font deve venire ovviamente installato sul computer in una posizione dove il programma di videoscrittura lo possa automaticamente reperire; così, ad esempio, in un sistema come Windows XP il carattere andrà copiato nella cartella “c:/windows/fonts”. Per inciso, un font è un file che ha estensione “.ttf”, e dunque il font “Cardo” apparirà sul computer come file “cardo.ttf”.

 

Dopo essersi accertati di possedere un sistema operativo compatibile ed un font utilizzabile, il passo successivo consiste nella scelta di un programma che permetta l’inserimento dei segni diacritici sui caratteri greci utilizzando la normale tastiera occidentale: come ho già notato, oggi il migliore programma in commercio è “Antioch”, ma altri ancora sono disponibili. Tali programmi, che devono essere eseguiti dopo l’avviamento del proprio programma di videoscrittura (ad es. “Word”), sono oggi facilmente personalizzabili dall’utente: ad esempio, per inserire un accento acuto su di una vocale, si può scegliere di premere un certo tasto della tastierina alfanumerica che è collocata sulla destra delle normali tastiere; oppure, chi utilizza un computer portatile e dunque sprovvisto di tastierina alfanumerica, può decidere di usare allo stesso scopo il tasto “alt” più il tasto “A”; o ancora, chi era abituato alle combinazioni di tasti dei vecchi programmi come “Wingreek” o “Son of Wingreek” può benissimo continuare ad utilizzarle senza problemi, o ancora scegliere di servirsi dei tasti del sistema Beta Code, e così via. Un secondo programma analogo è “Keyman”, che non presenta le stesse potenzialità di personalizzazione di “Antioch”, ma ha il pregio di funzionare anche sulle tutte le applicazioni diverse da Word. Una differente possibilità, valida solo per le recenti versioni di Windows, consiste nell’utilizzare la tastiera per il greco politonico già inclusa negli strumenti addizionali forniti da questo sistema operativo. La scelta dei tasti per l’inserimento dei segni diacritici è, tuttavia, in questo caso particolarmente infelice e la tastiera risulta di difficile utilizzazione. Per attivare tale funzionalità, l’utente dovrà selezionare (ad es. in Windows XP) “pannello di controllo” > “opzioni internazionali e della lingua” > “lingue” > “installa i file delle lingue con alfabeti non latini”; quindi dallo stesso menù “lingue” > “dettagli” > “aggiungi”, avendo l’accortezza di aggiungere la tastiera per il greco politonico.

 

Si noti, inoltre, che anche l’utente che si trovasse a dover utilizzare un computer con un programma di digitazione non personalizzato da lui, e di cui non conosce il funzionamento, o persino un computer dove non fosse installato alcun programma del genere, potrebbe, in caso di necessità, inserire caratteri greci accentati digitando il loro codice Unicode: in Word 2000, ad esempio, è possibile farlo digitando il codice e premendo dopo di esso il tasto “alt” più il tasto “X”. Così, il codice 1F04 ci darà come risultato il corrispondente carattere greco . Anche nel caso in cui nel computer non sia installato nessun font per il greco antico, il carattere apparirà come un quadratino vuoto al suo interno: esso, tuttavia, verrà ugualmente memorizzato in maniera corretta dall’elaboratore (il quale memorizza i codici, non la forma dei caratteri) e quindi sarà di nuovo visibile una volta che il documento verrà riaperto con il nostro solito computer. Un’altra possibilità di emergenza, più pratica, è quella di inserire i caratteri scegliendoli dalla “Mappa Caratteri” oppure utilizzando la funzione di Word “inserisci > simbolo”, anche in questo caso senza che sia necessario installare programmi particolari.

 

I testi in greco antico così creati saranno facilmente condivisibili con altri utenti, purché ovviamente essi abbiano già adottato sistemi operativi sufficientemente aggiornati da accettare lo standard Unicode. In particolare, le potenzialità della condivisione di testi greci in Internet saranno notevolmente ampliate: i testi potranno, infatti, essere facilmente scaricati da siti Web e scambiati per posta elettronica. Per quanto riguarda, comunque, i browser per Internet (come “Internet Explorer”, “Netscape” ecc.), allo scopo di visualizzare pagine create con lo standard Unicode è necessario talvolta indicare al programma di applicare l’opportuno sistema di codifica. In poche parole, il computer non sempre “sa” con quale standard è stato creato il testo di una pagina Web e normalmente è regolato per aprire pagine create con lo standard “ASCII”. Nelle recenti versioni di Internet Explorer, ad esempio, si dovrà utilizzare il menù “visualizza > codifica > Unicode”. Se anche in questo caso il testo greco non si visualizza correttamente, si dovrà indicare ad Internet Explorer di usare un font di caratteri che funzioni a tale scopo, come “Cardo” o “Palatino”, aprendo il menù “strumenti > opzioni internet > generale > caratteri”.

 

Quanto si è scritto sin qui vale, dunque, per il greco alfabetico. Un discorso a parte, più complesso, va fatto invece per le scritture sillabiche dell’Egeo. Esiste anzitutto, ovviamente, la possibilità di utilizzare per tali scritture semplicemente normali font ad esse dedicati che si servano ancora dello standard ASCII (a 256 caratteri), come ad esempio il recente font “Cypriot” (scaricabile da: http://www.ancientscripts.com), il vecchio “Linear A” e diversi altri: per il momento è ancora questa la soluzione più pratica, ma per comprendere come usufruire in futuro anche per queste scritture delle potenzialità di interscambio offerte da Unicode può essere utile fare alcune precisazioni.

 

Secondo il sistema di codifica Unicode (UTF-32), i codici Unicode a 16 bit (con 65536 combinazioni, dal carattere Unicode 0000 a FFFF) comprendono i caratteri delle lingue occidentali e orientali moderne, compresi il cinese e il giapponese, e di alcune lingue antiche fra cui anche il greco, il copto, il sanscrito etc. (i primi fra questi caratteri rappresentano l’alfabeto latino ed equivalgono esattamente, come si è già visto, al vecchio standard ASCII ad 8 bit, con 256 combinazioni, dal carattere Unicode 0000 a 00FF). Tali gruppi di codici costituiscono il cosiddetto Basic Multilingual Plane (ovvero “piano 0”): tuttavia, con una certa sorpresa da parte degli ideatori di Unicode, si scoprì che queste combinazioni non erano sufficienti e si fu in seguito costretti ad aggiungere una nuova serie di codici, questa volta formati da ben 32 bit (con centinaia di migliaia di posizioni possibili), per contenere ulteriori scritture orientali, sistemi di scrittura antichi fra cui l’etrusco e i sillabari dell’Egeo e tutte le aggiunte future; poiché inizialmente non si sospettava affatto di dover utilizzare tale area a 32 bit e la prospettiva di andare oltre il Basic Multilingual Plane sembrava lontanissima, significativamente si diede ad essa il nome informale di Astral Plane (ufficialmente Supplementary Multilingual Plane, o “piano 1”). Tale area supplementare comprende lo spazio, tra gli altri, per:

 

lineare B, sillabario (88 caratteri)             codici Unicode 10000-1007F

lineare B, ideogrammi (123 car.)             codici Unicode 10080-100FF

cifre egee (57 car.)                                 codici Unicode 10100-1013F

sillabario cipriota classico (55 car.)         codici Unicode 10800-1083F

 

A questi set di caratteri si aggiungono per ora i segni per ugaritico, gotico, scritture italiche, notazione musicale bizantina etc., mentre è in progetto, tra tanti, l’inserimento di lineare A, geroglifico cretese e ciprominoico. L’innovazione è (forse troppo) recente; la compatibilità con il piano supplementare è prevista solo a partire dai sistemi operativi Windows 2000/XP e Mac OS 10.2 e non è ancora possibile con diffusi programmi di videoscrittura come Word 2000 e successivi. In ambiente Windows, alcuni possibili sostituti in questo senso fortunatamente esistono: anzi tutto SC Unipad, un editor per ambiente Unicode, che permette di usare senza problemi tutti i caratteri del piano supplementare, comprese le scritture egee (SC Unipad non utilizza i normali font e comunque non permette una formattazione della pagina); analogamente, il piano supplementare può essere gestito anche dall’applicazione WordPad, già inclusa in tutte le versioni di Windows, che rispetto a SC Unipad permette di gestire una seppur semplice formattazione della pagina e di salvare i file in formato RTF: in tal modo, tra l’altro, è possibile anche recuperare successivamente tali file inserendoli in Word e aggirando così le limitazioni appena esposte a cui è soggetto il popolare word-processor; ovviamente, con WordPad rimane la necessità di trovare un font adatto (per ora i font disponibili non includono i caratteri ciprioti). Per quanto riguarda Mac, sembra che si possano utilizzare soltanto i programmi di scrittura TextEdit e SUE, attivando l’utility “Character Palette” (menù “fonts” > “extras”).

 

L’industria del software sino ad oggi ha prodotto soltanto tre font per Windows compatibili con Unicode che includono alcune parti dell’area supplementare; essi sono:

a) “Alphabetum”, che però nella versione 6.2 comprende purtroppo soltanto la parte del piano supplementare dedicata fra l’altro a gotico e ugaritico e non quella delle scritture egee;

b) “Code 2001” (ver. 0.915), che, specificamente dedicato al solo piano supplementare e per ora utilizzabile solo in una versione di prova, comprende i segni del sillabario cipriota, ma collocati temporaneamente nella Supplementary Private Use Area-A (Unicode F0040-F007F): in tale area i caratteri sono prelevabili solo con applicazioni apposite come Babel Map e per di più manca il sillabogramma <ka>. Una nuova versione di prova (0.916) presenta invece notevoli problemi di utilizzo con il sistema operativo Windows XP. 

c) “Penuturesu”, che riporta solo i caratteri sillabici del lineare B.

Il già citato programma SC Unipad, invece, comprende già un proprio font interno che funziona perfettamente con l’intero piano supplementare.

 

 

4. Prospettive di sviluppo nell’uso di Unicode da parte dei linguisti

 

L’adozione del nuovo standard Unicode apre ai linguisti, ed alle applicazioni pratiche della linguistica computazionale in particolare, grandissime prospettive. E’ ora possibile creare, analizzare e condividere testi in qualunque sistema di scrittura conosciuto, antico o moderno. Lo standard comprende tutti i sistemi di scrittura antichi, come i sistemi egiziani (geroglifico, ieratico, demotico ed in svariati stili), semitici, greci, l’alfabeto copto, molti tipi di rune, svariate scritture indiane, ecc. sino ai rongorongo dell’isola di Pasqua; sistemi moderni, tra cui il cinese ed il giapponese e molti altri; ed ancora sistemi artificiali, come l’alfabeto fonetico internazionale (IPA) compresi i suoi periodici aggiornamenti. Tutto ciò, lo ripeto, indipendentemente dal font che si decide di utilizzare e dall’elaboratore che si possiede.

 

In più, lo standard Unicode è un sistema “aperto”: periodicamente, infatti, vengono pubblicate nuove versioni dello standard, che comprendono le nuove sezioni che, di volta in volta, sono state aggiunte. Allo sviluppo di Unicode all'interno dei sistemi operativi Windows non ha fatto ancora sufficientemente seguito, purtroppo, un'analoga diffusione nei sistemi operativi Macintosh. Ciò è particolarmente vero per quanto riguarda i caratteri del greco antico (politonico), ma anche per la semplice gestione dei documenti in greco moderno (monotonico). E' stata recentemente diffusa nel Web anche una petizione (novembre 2003 - marzo 2004), indirizzata ai dirigenti della Apple Computers, perché nelle prossime versioni dei sistemi operativi Macintosh vengano risolte tali gravi lacune:

http://alfebiite.ee.ic.ac.uk/~dkaponis/osxpetition/

Per una discussione sempre aggiornata di questo particolare problema, si può consultare:

http://unicode.helmug.gr/

 

Negli ultimi mesi importanti istituzioni e progetti di ricerca hanno ufficialmente adottato il nuovo standard Unicode: fra questi, vale la pena ricordare pubblicazioni quali il Thesaurus Linguae Grecae e il Lexicon of Greek Personal Names, raccolte di testi on-line come Perseus, centri fra i quali il Summer Institute of Linguistics (SIL) e l’American Philological Association e progetti come Titus dell’Università di Francoforte.

 

 

5. Risorse reperibili in Internet

 

E’ possibile reperire in Internet praticamente tutte le risorse necessarie per scrivere e gestire testi in greco antico con il nuovo standard Unicode. Mi limito a suggerire qualche indicazione di massima, notando però che, nel caso di Internet, i singoli siti possono rapidamente cambiare indirizzo, contenuto o scomparire del tutto e che, conseguentemente, le presenti indicazioni sono da considerarsi realmente valide soltanto al momento in cui sono state scritte.

 

a) Informazioni generali sullo standard Unicode

 

Il sito ufficiale dello standard Unicode, gestito dall’Unicode Consortium, fornisce moltissime informazioni, ivi compresi gli elenchi (charts) di tutti i caratteri dei vari sistemi di scrittura con i relativi codici Unicode, gli aggiornamenti dello standard Unicode (al momento in cui scrivo, l’ultima versione pubblicata è Unicode 4), riferimenti a siti dove si possono scaricare font e programmi di digitazione per il greco, e molto altro ancora:

http://www.unicode.org

 

Alcuni studiosi, o semplici appassionati, hanno steso utili commenti su Unicode e sulle sue potenzialità per i classicisti ed i linguisti. Alcuni si possono consultare, ad esempio, in:

http://faculty.bbc.edu/rdecker/default.htm

http://www.arts.cornell.edu/classics/Faculty/Rusten/unicode/

     review.htm

http://www.mauriziopistone.it/discussioni/classici.html (in italiano)

http://www.alanwood.net/unicode/

http://php.iupui.edu/~cplaneau/Copyright_Requirements/

     Display_Greek_30.html

http://komputilo.org/~crculver/nephelokokkygia/archives/000059.php

 

E’ stato realizzato anche un valido e dettagliato “libro elettronico” sull’utilità di Unicode per lo studio del greco classico con particolare riferimento alla pubblicazione dei testi su Internet, Unicode Polytonic Greek for the World Wide Web, liberamente consultabile al seguente indirizzo:

http://www.stoa.org/unicode/

 

b) nuovi font per il greco antico, compatibili con Unicode

 

Il font “Titus Cyberbit Basic” (o “Titus Bistream Unicode”) è un set di caratteri davvero ottimo, molto ampio, capace di rispondere anche alle esigenze dei semitisti e dei linguisti in genere. E’ stato prodotto dalla Bistream espressamente per il progetto Titus dell’Università di Francoforte, che ne promuove la diffusione gratuita. Esso comprende, oltre al greco politonico, all’ebraico, all’arabo ed a tutti i caratteri dell’alfabeto fonetico IPA, anche i caratteri per numerosi sistemi di scrittura antichi, come il siriaco, l’armeno, l’etiope, il georgiano, l’alfabeto runico e molti altri ancora. Il font Titus Cyberbit Basic” ha il grande pregio di possedere nei caratteri latini una forma grafica molto simile a quella del font più comunemente utilizzato per le scritture occidentali, cioè Times New Roman, pur adoperando uno spazio interlinea leggermente maggiore ed una forma corsiva forse eccessivamente inclinata (ancora più simile a Times New Roman è il font per greco politonico “Galatia SIL”, descritto più sotto). Simili inconvenienti sono superabili, ovviamente, se si utilizza tale carattere per l’intero documento e non solo per le porzioni dove compare il testo in greco antico.

Prelevabile da:

http://titus.fkidg1.uni-frankfurt.de/indexe.htm

Versione testata: 3.0 (1862 kb).

 

Il font “Code 2000”, sviluppato da James Kass, è un ampio set di caratteri contenente molti sistemi di scrittura antichi, disponibile in versione shareware. E’ in via di sviluppo anche il nuovo font per il piano supplementare “Code 2001”, scaricabile per ora soltanto in una ridotta versione “beta” (di prova), gratuitamente.

Prelevabile da:

http://home.att.net/~jameskass/ (per Code 2000)

http://home.att.net/~jameskass/code2001.htm (per Code 2001)

Versioni testate: Code 2000 1.13 (3082 kb); Code 2001 0.915 (113 kb).

 

Il font “Palatino Linotype” è già incluso nel set dei caratteri di Windows 2000 e Windows XP e non è per ora ottenibile separatamente. Per informazioni:

http://www.microsoft.com/typography/default.mspx

Il font è stato sviluppato per Microsoft da una società tedesca specializzata, la Heidelberger Druckmaschinen AG, che ne possiede i diritti di copyright insieme alla Microsoft stessa.

Versione testata: 1.40 (479 kb).

 

Il font “Cardo”, un ottimo set di caratteri Unicode creato da David Perry, comprendeva già nelle versioni iniziali le aree necessarie alla gestione del greco politonico, dell’ebraico biblico, di molti segni speciali e dei caratteri IPA. Nel novembre 2004 è stata creata una nuova versione beta (0.98), che aggiunge rispetto alle precedenti molti segni per la papirologia, la musicologia e l’epigrafia greca e per la prima volta include le porzioni dell’area supplementare relative ad alcune scritture antiche. La pubblicazione della versione definitiva (1.0) è prevista per il febbraio 2005. Il font è liberamente scaricabile da:

http://scholarsfonts.net/cardofnt.html

http://members.telocity.com/~perryd/cardofnt.html

Versioni testate: 0.71 (379 kb); 0.98 (708 kb).

 

Il font “Gentium” comprende una vasta parte dei set di caratteri utili per i classicisti e per i linguisti in generale, ivi compresi ovviamente i caratteri del greco politonico e i caratteri dell’alfabeto fonetico internazionale. Di recente elaborazione, il font avrà probabilmente una buona diffusione fra gli studiosi, essendo nato e poi diffuso in collaborazione con l’autorevole SIL (Summer Institute of Linguistics). Il font viene distribuito insieme con una versione identica (“GentiumAlt”), che però ha il pregio di adottare per l’accento circonflesso greco la forma lunata e non la forma a tilde, caso quasi unico fra i font qui analizzati. "Gentium" e "GentiumAlt", inoltre, sono compatibili anche con i sistemi operativi Macintosh OS X. Un altro set di caratteri sviluppato dal SIL e compatibile anche con i sistemi Macintosh, più limitato nelle dimensioni ed espressamente dedicato al greco antico, è “Galatia SIL”, che comprende caratteri greci di gradevole aspetto e, soprattutto, caratteri latini dal disegno praticamente identico a quello dei caratteri di “Times New Roman”. I tre font sono disponibili gratuitamente presso:

http://scripts.sil.org/

http://www.sil.org/

Versioni testate: Gentium 1.01 (343 kb); Galatia SIL 2.00 (129 kb).

 

Il font “Vusillus Old Face” è incluso nel pacchetto del programma di digitazione “Antioch” (per cui vedi sotto, punto c); la nuova versione “Antioch 2” (dal 2002) comprende invece il font “Vusillus”. Sviluppati da Ralph Hancock, questi font sono disponibili nella versione completa soltanto a pagamento. L’utente registrato può, inoltre, scaricare ulteriori font quali “Garamond Classical”, “GR Times”, “GR Cambridge”, “GR Oxford”, “GR Lucida Sans”, “GR Uncial” ed altri ancora.

Versioni testate: Vusillus Old Face 001.003 (143 kb); Vusillus 1.0 (273 kb).

 

Il font “Athena Unicode” è stato creato per la American Philological Association ed è distribuito gratuitamente:

http://www.greekkeys.cornell.edu/#AthenaUnicode

http://users.ox.ac.uk/~ball0087/download/athena_u3.zip

Versione testata: 1.0 (159 kb); si noti però che tale versione presenta alcuni problemi di visualizzazione con Word 2000.

Una nuova versione dello stesso font è stata invece creata appositamente per Macintosh, e non è compatibile con Windows: si tratta di “New Athena Unicode”, disponibile gratuitamente.

http://ist-socrates.berkeley.edu/~pinax/greekkeys/unicodeMac.html

 

Per quanto riguarda infine l’unico font che sinora comprende tutti i caratteri dello standard Unicode, “Arial Unicode MS”, esso viene già fornito con i pacchetti Office 2000 e Front Page 2000. Si noti, tuttavia, che l’installazione di tale font non è automatica, ma deve essere compiuta manualmente dall’utente in un secondo momento, prelevando l’apposito file dal CD-ROM originale di Windows. L’utilizzo estensivo di “Arial Uniocode MS” è comunque sconsigliato, date le sue notevoli dimensioni, e ad esso si potrà utilmente ricorrere quando i caratteri ricercati non sono reperibili in nessun altro set di caratteri per Unicode. Per informazioni:

http://www.microsoft.com/typography/default.mspx

Versione testata: 1.00 (22730 kb).

 

In generale, molti font Unicode utili per il greco e le lingue classiche, vecchi o nuovi che siano, si possono reperire su Internet. I font citati, in una parte dei casi, si sono rivelati compatibili solo con i sistemi basati su piattaforme Windows. Ulteriori font, non analizzati in queste pagine ed in alcuni casi compatibili anche con altri sistemi operativi, sono ad esempio: “Alkaios” (per Mac e Windows), “Alphabetum”, “Silver Humana”, “Aisa Greek”, “MG Old Times UC Pol”, “Caslon” (anche per Unix), “Monospace”, “Porson”, “CN Arial”, “Fixedsys Excelsior”, “Free Monospaced”, “Free Serif”, “Legendum”, “Lucida Grande” (per Mac) e “Thryomanes” (che però non prevede accenti combinati con le lettere maiuscole), “Everson Mono Unicode” (per Mac). Fra i tanti siti dai quali è possibile scaricare set di caratteri, segnalo in particolare:

http://www.omniglot.com/links/fonts.htm

http://www.unizh.ch/~luciush/diverse/

greekfonts/docs/alkaios.sit (“Alkaios” per Mac)

http://www.geocities.com/timessquare/alley/1557/fonts1.htm

http://www.scholarsfonts.net/

http://www.mauriziopistone.it/discussioni/linguasulweb.html

http://users.ox.ac.uk/~ball0087/

http://www.microsoft.com/typography/default.mspx

http://www.tlg.uci.edu/~opoudjis/unicode/unicode.html

http://www.alanwood.net/unicode/fonts_macosx.html (font per Mac)

http://www.unizh.ch/~luciush/diverse/greekfonts/#unicode

 

Sono state sviluppate anche alcune utili “pagine di test”, allo scopo di permettere all’utente di verificare direttamente la compatibilità del proprio sistema operativo e delle proprie applicazioni con la gestione di testi elettronici elaborati secondo lo standard Unicode, ivi compresi i testi in greco politonico. Fra le pagine di questo tipo, segnalo:

http://www.tlg.uci.edu/help/UnicodeTest.html

 

 

c) programmi per facilitare la digitazione dei caratteri con diacritici

 

----  il programma “Antioch” è commercializzato al prezzo di 50 dollari. Il pacchetto, scaricabile da Internet, comprende il font greco “Vusillus Old Face”, un font per l’alfabeto copto, uno per l’alfabeto ebraico ed ancora altre utilità. Purtroppo, il font ebraico nella prima versione del programma non funziona se viene utilizzato con le recenti versioni di Word. Il programma, finché non viene registrato con il pagamento, utilizza soltanto la versione corsiva del font greco e visualizza all’avvio un apposito messaggio che ne richiede la registrazione. E’ in fase di elaborazione una seconda versione del programma “Antioch”, che dovrebbe permettere, tra l’altro, di risolvere i problemi relativi all’uso dei caratteri ebraici con le ultime versioni di Word. Tale versione, sin qui disponibile in un formato provvisorio, comprende il nuovo font “Vusillus”.

Il programma “Antioch” (per Windows) è scaricabile da:

http://www.users.dircon.co.uk/~hancock/antioch.htm

Versioni testate: “Antioch” 1.13.b, “Antioch 2” 2.00.20 (beta).

 

----  il programma “Keyman”, per Windows, shareware:

http://www.tavultesoft.com/keyman

fra le “tastiere” (combinazioni di tasti) già pronte da utilizzarsi con Keyman, si segnalano:

http://members.aol.com/~AtticGreek/ (a cura di Manuel Lopez)

http://scholarsfonts.net/kbdsonly.exe (a cura di David Parry)

 

----  “Polytonistis” della Magenta Software, anche noto come “Accentuator”, shareware, per Windows:

http://www.magenta.gr/en/polytonistis_uc/en_polytonistis_uc.htm

 

----  “Unicode Keys for Word”, ovvero “Ukeys”; di non semplicissimo utilizzo, per Windows:

http://www.myriobiblos.gr/support/unicodekeys4wd.zip (programma:)

 

----  “Multikey”, molto efficiente, freeware, per Windows:

http://www.oeaw.ac.at/kal/multikey/

 

---- “Greek Keys Unicode”, per  Mac:

http://socrates.berkeley.edu/~pinax/unicodeMac.html

 

---- “Gk Unicode Keyboard”, per Mac, che sembrerebbe una versione migliorata del precedente, freeware:

http://www.opoudjis.net/Play/GkUnicode.html

 

---- “Alkaios Keyboard”, per Mac, freeware:

http://www.opoudjis.net/Play/GkUnicode.html

 

 

 

6. Brevi indicazioni bibliografiche

 

 

Balboni, P.

2002  Le sfide di Babele. Insegnare le lingue nelle società complesse, Torino, Utet.

 

Busa, R.

1987  Manuale di informatica linguistica, Milano, Vita e Pensiero.

 

Calvani, A. - Rosso. L.

1994  Informatica per educatori: introduzione all’uso del computer nella formazione umanistica, Roma, Garamond.

 

Colombo, C.

2000  Informatica per umanisti. Teoria e applicazioni, Milano, I.S.U. Università Cattolica.

 

Decker, R. J.

2004  Unicode Resources for the Biblical Studies, <http://faculty.bbc.edu/rdecker/default.htm> 26/01/2004.

 

Di Sparti, A.

2004  Un computer non più calcolatore. Linguistica e informatica, Palermo, Sellerio.

 

Ferrari, G.

1991  Introduzione al Natural Language Processing, Bologna, Calderini.

 

Ferrero, M.

2004  SQL. La guida tascabile al linguaggio di interrogazione dei database, Milano, Apogeo - Feltrinelli.

 

Gigliozzi, G.

1997  Il testo e il computer. Manuale di informatica per gli studi letterari, Milano, Bruno Mondadori, 19972 (19951).

 

Gillam, R.

2002  Unicode Demystified: a Practical Programmer’s Guide to the Encoding Standard, Addison-Wesley.

 

Graham, T.

2000  Unicode: A Primer, Foster City CA., M & T Books - John Wiley & Sons.

 

Hunston, S.

2002  Corpora in Applied Linguistics, Cambridge, Cambridge University Press.

 

Jurafsky, D. - Martin, J.

2000  Speech and language processing. An introduction to natural language processing, computational linguistics, and speech recognition, Upper Saddle River N.J., Prentice Hall.

 

Perry, D. J.

2001  Word Processing in Classical Languages. Latin, Germanic, Greek, <http://members.telocity.com/~perryd> 12/12/2003.

2005  Cutting-edge processing for scholars. Version 8, <http://members.telocity.com/~perryd> 26/05/2005.

 

Rossini Favretti, R. (a c. di)

2000  Linguistica e informatica. Corpora, multimedialità e percorsi di apprendimento, Roma, Bulzoni.

 

Rourke, P. T.

2003  Unicode Polytonic Greek for the World Wide Web. Version 0.9.7, <http://www.stoa.org/unicode/> 20/11/2003.

 

The Unicode Consortium

2000  The Unicode Standard. Version 3.0, Reading MA., Addison-Wesley.

2003  The Unicode Standard. Version 4.0.0, Boston MA., Addison-Wesley.

 

 

------------------------------------

Edoardo Scarpanti

via Sottoriva, 1

46100 Mantova

tel. 3483230058

e-mail: edoardo.scarpanti@tin.it