julien delorme ietr groupe cpr

52
Mercredi 21 Février 2007 Soutenance de thèse de Julien Delorme 1/47 Méthodologie de modélisation et d'exploration d'architecture de réseaux sur puce appliquée aux télécommunications Julien Delorme IETR groupe CPR Soutenance de thèse de doctorat de l’Institut National des Sciences Appliquées de Rennes Projet Européen 4MORE Amphithéâtre Bonnin, INSA de Rennes Mercredi 21 Février 2007

Upload: cynthia-soto

Post on 03-Jan-2016

43 views

Category:

Documents


0 download

DESCRIPTION

Méthodologie de modélisation et d'exploration d'architecture de réseaux sur puce appliquée aux télécommunications. Julien Delorme IETR groupe CPR. Soutenance de thèse de doctorat de l’Institut National des Sciences Appliquées de Rennes Projet Européen 4MORE - PowerPoint PPT Presentation

TRANSCRIPT

Diapositive 1Méthodologie de modélisation et d'exploration d'architecture de réseaux sur puce appliquée aux télécommunications
Julien Delorme
IETR groupe CPR
Soutenance de thèse de doctorat de l’Institut National des Sciences Appliquées de Rennes
Projet Européen 4MORE
Mercredi 21 Février 2007
Les limites de ces médias de communication
Les réseaux sur puce (NoC)
La problématique de mise en œuvre
*/47
Nombre d’applications grandissant
Les contraintes des applications
Besoins en bande passante de plus en plus forts
Flexibilité, faible consommation
Réutilisation de l’existant (IP: Intellectual Property)
Utilisation de médias de communication performants
Augmentation du niveau d’abstraction
Réalisation d’outils de CAO pour l’aide à la conception (Logiciel, Application, Architecture)
Contexte, problématiques
Les limites de ces médias de communication
Les réseaux sur puce (NoC)
La problématique de mise en œuvre
*/47
Les limites de ces médias de communication
Les réseaux sur puce (NoC)
La problématique de mise en œuvre
Bibliothèque d’IP
Principe d’intégration de systèmes complexes sur puce : System On Chip (SoC)
Besoins de méthodes et d’outils de conception adaptés
Besoins des SoC:
Flexibilité
Performances
*/47
Les limites de ces médias de communication
Les réseaux sur puce (NoC)
La problématique de mise en œuvre
IP0
IP2
IP3
IP1
IP4
- Pas de reconfiguration des communications
- Pas de souplesse d’évolution de l’application
Topologie Bus
- Bande passante partagée et limitée
Topologie Bus hiérarchiques
+ Bande passante plus grande pour chaque bus
- Ordonnancement avant placement sur bus
- Latence au niveau du/des pont(s)
*/47
Evolution, adaptation
Niveau architecture
Grande scalabilité
Respect des contraintes de temps réel (bande passante, latence)
Niveau conception
Abstraire le problème en le modélisant
Automatiser les phases d’explorations (coûts en temps et source d’erreurs)
Réduire le temps de conception (Time to market)
Déterminer et maximiser les critères pour aboutir plus rapidement à une solution qui convient
Contexte, problématiques
Les limites de ces médias de communication
Les réseaux sur puce (NoC)
La problématique de mise en œuvre
Solutions pour les futurs SoC
Les réseaux sur puce ou NoC
*/47
Contexte, problématiques
Problématiques des SoC
Les limites de ces médias de communication
Les réseaux sur puce (NoC)
La problématique de mise en œuvre
FLIT : Flow control unIT
Information de contrôle : chemin de routage, taille du paquet, commande,…
32 bits de données
Données utiles
- Structure non entièrement régulière
+ Structure régulière
Les limites de ces médias de communication
Les réseaux sur puce (NoC)
La problématique de mise en œuvre
Topologie en octogone
Topologie en anneau
- Limite de bande passante
QoS en BE (Best Effort) :
QoS en GT (Guaranteed Traffic) :
Ordonnancement
C1
C2
C3
- Latence des communications non prédictible
- Débits non garantis
+ Trafic garanti pour chaque communication (TDMA : Time Division Multiple Access)
- Sous utilisation des bandes passantes des liens de communication du réseau
- Les tables d’ordonnancement augmentent la complexité des routeurs ou des NI
C1
C3
Les limites de ces médias de communication
Les réseaux sur puce (NoC)
La problématique de mise en œuvre
Latence
C1
C2
C3
t
S1
S2
S3
C1
C3
t
*/47
Pas d’arbitrage central
Latence (fonction du nombre de routeurs traversés)
Besoin de règles pour garantir le trafic (contexte GT)
Risque de contention ou de deadlock
Coût matériel plus important comparé à une approche bus
Complexité de mise en œuvre accrue
Pourquoi le NoC devient incontournable ?
Complexité grandissante des schémas d’interconnexion entre les UT
Nécessité de proposer une qualité de service pour les communications
Répondre aux besoins actuels et futurs des SoC :
Flexibilité
Evolutivité
Scalabilité
Les limites de ces médias de communication
Les réseaux sur puce (NoC)
La problématique de mise en œuvre
*/47
L’espace de conception :
Proposition d’un modèle de représentation des blocs de traitement
Outil d’exploration automatisé pour parcourir l’espace de conception
Etendre l’exploration par une émulation sur plate-forme matérielle
Problème d’optimisation :
Approche heuristique pour l’Adéquation Algorithme Architecture
Exploiter au maximum les capacités du NoC
Explorer l’espace de conception pour garantir les contraintes temps réel
Problématiques des SoC
Les limites de ces médias de communication
Les réseaux sur puce (NoC)
La problématique de mise en œuvre
*/47
Nos contributions
Spécifier la couche physique en voie montante et voie descendante
Développer une plate-forme de simulation algorithmique commune
Comparer les performances des techniques de transmission avancées
Réaliser une plate-forme matérielle de développement commune
Enjeux au niveau recherche :
Réalisation d’un démonstrateur employant un média de communication innovant
Proposition de choix pour les futurs standards de radiocommunication 4G
Le projet Européen 4MORE
Les objectifs du projet
Les contraintes du projet
Nos contributions
4MORE
*/47
Nos contributions
Contexte, problématiques
Partenaires: CEA-LETI, France Telecom R&D, Mitsubishi Electric ITE-TCL, IETR, DLR, Univ. Madrid, Inst. Télécom. Portugal, STMicroelectronics, Acorde, Univ. Surrey.
Paramètres et services
Débits
50-100Mbps à 3km/h en environnement intérieur 20Mbps à 60km/h en environnement urbain 10Mbps à 300km/h (train)
Fréquence porteuse
Emission:
Réception:
Valider les choix d’algorithmes du WP1 dans le démonstrateur matériel
Utilisation d’un média de communication innovant :
le NoC FAUST
Nos contributions
?
Modélisation de l’application
Trouver une topologie adaptée
Dimensionnement des ressources matérielles
Nos contributions
Modéliser et caractériser ces unités de traitement
Architecture
Ajuster les paramètres matériels de l’architecture
Etude de l’AAA
Respect des contraintes temps réel de l’application (cadence symbole OFDM)
Contexte d’étude pire cas (quantité de données maximale entre blocs)
Le projet Européen 4MORE
Les objectifs du projet
Les contraintes du projet
Nos contributions
Les limitations de ce flot
Le flot de conception proposé
Les modes automatique et semi-automatique
L’analyse des performances du NoC
*/47
Le NoC FAUST (Flexible Architecture of Unified System for Telecommunication) :
Développé par le CEA LETI de Grenoble
Obtention des codes sources (NDA) dans le cadre du projet
Version en SystemC pour simulation au niveau TLM
Version en VHDL pour implantation sur FPGA et réalisation d’ASIC
Réalisation de l’implantation matérielle
Validation et exploration au niveau SystemC
Contraintes matérielles
Les limitations de ce flot
Le flot de conception proposé
Les modes automatique et semi-automatique
L’analyse des performances du NoC
*/47
Routage : routage par la source
Nombre de canaux virtuels : 2
Topologie : 2D torus
Présentation du NoC FAUST
Les limitations de ce flot
Le flot de conception proposé
Les modes automatique et semi-automatique
L’analyse des performances du NoC
NoC
NoC
Taille des données produites en sortie
*/47
Taille des paquets
Enchainement des configurations
Taille des paquets
Gestion du réseau par le processeur de contrôle
Présentation du NoC FAUST
Les limitations de ce flot
Le flot de conception proposé
Les modes automatique et semi-automatique
L’analyse des performances du NoC
6
NI
7
NI
CPU
NI
9
NI
1
NI
2
NI
3
NI
4
NI
11
NI
12
NI
13
NI
14
NI
16
NI
17
NI
18
NI
19
NI
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
*/47
Les limitations de ce flot
Le flot de conception proposé
Les modes automatique et semi-automatique
L’analyse des performances du NoC
Configuration matérielle du réseau
Configuration logicielle du réseau
Dimensionnement et routage de la matrice non automatique
Contexte multi-composants non pris en charge
Performances des liens des routeurs et des UT
Méthode AAA pour le placement routage
Présentation du NoC FAUST
Les limitations de ce flot
Le flot de conception proposé
Les modes automatique et semi-automatique
L’analyse des performances du NoC
Manque de souplesse de mise en œuvre
Peu de flexibilité dans le flot de conception
Modification de topologie longue et source d’erreurs
*/47
Configuration matérielle
Configuration logicielle
Les limitations de ce flot
Le flot de conception proposé
Les modes automatique et semi-automatique
L’analyse des performances du NoC
Apport de généricité
Apport de généricité
*/47
Conclusions et perspectives
Algorithme de routage du réseau et placement des unités de traitement :
Prise en charge du mode mono-composant
Prise en charge du mode multi-composants
Deux modes de fonctionnement mis en œuvre dans le flot de conception :
Mode automatique : mise en œuvre d’une heuristique d’AAA
Mode semi-automatique: spécifications manuelles de l’application et de l’architecture dans un classeur Excel
Génération de fichiers de contraintes identiques
Génération de fichiers de résultats post simulations :
Latences des données dans les UT
Charges des liens des routeurs
Génération du code VHDL équivalent aux simulations SystemC :
Accélération des simulations par émulation matérielle sur FPGA
Présentation du NoC FAUST
Les limitations de ce flot
Le flot de conception proposé
Les modes automatique et semi-automatique
L’analyse des performances du NoC
*/47
Fichiers de contraintes
Les limitations de ce flot
Le flot de conception proposé
Les modes automatique et semi-automatique
L’analyse des performances du NoC
Application
Architecture
*/47
Conclusions et perspectives
Le mode automatique :
Mise en œuvre d’une heuristique gloutonne dédiée à l’architecture NoC
Travaux basés sur ceux de Jingcao Hu et Radu Marculescu «  Exploiting the Routing Flexibility for Energy/Performance Aware Mapping of Regular NoC Architectures » 2003
R
R
R
R
R
R
R
R
R
Les limitations de ce flot
Le flot de conception proposé
Les modes automatique et semi-automatique
L’analyse des performances du NoC
UT
UT
UT
UT
UT
UT
Application
Exemple:
Présentation du NoC FAUST
Les limitations de ce flot
Le flot de conception proposé
Les modes automatique et semi-automatique
L’analyse des performances du NoC
MACRO de génération de fichiers de contraintes
Spécification des UT + NI
*/47
Algorithme de routage :
Phase 1
Phase 2
Phase 3
Les limitations de ce flot
Le flot de conception proposé
Les modes automatique et semi-automatique
L’analyse des performances du NoC
Composant 1
Composant 2
Composant 3
Composant 1
Réseau fonctionnant à une fréquence 100MHz
Bande passante de 3200Mbit/s
Performance des UT obtenues par l’équation
Où :
To : latence d’émission des données en sortie
Présentation du NoC FAUST
Les limitations de ce flot
Le flot de conception proposé
Les modes automatique et semi-automatique
L’analyse des performances du NoC
*/47
L’étude du contexte multi-composants (démonstrateur final)
Emulation d’un NoC sur plateforme FPGA
*/47
Les deux contextes abordés :
Respect des contraintes temps réel
Les contextes du projet 4MORE
L’étude du contexte mono-composant
L’étude du contexte multi-composants (démonstrateur final)
Emulation d’un NoC sur plateforme FPGA
*/47
Intégration des blocs de traitement dans une seule matrice NoC
Les contextes du projet 4MORE
L’étude du contexte mono-composant
L’étude du contexte multi-composants (démonstrateur final)
Emulation d’un NoC sur plateforme FPGA
Légende :
TX
RX
RAM
Conclusions et perspectives
Choix de topologie : 23 blocs fonctionnels matrice 46 (24 routeurs)
Critères d’exploration :
Chemins de données
Taille des paquets de données et de crédits
Les contextes du projet 4MORE
L’étude du contexte mono-composant
L’étude du contexte multi-composants (démonstrateur final)
Emulation d’un NoC sur plateforme FPGA
*/47
Fréquence > 150 MHz
Taille de paquets variable
L’étude du contexte multi-composants (démonstrateur final)
Emulation d’un NoC sur plateforme FPGA
*/47
Intégration des blocs de traitement dans un contexte multi-composants
Les contextes du projet 4MORE
L’étude du contexte mono-composant
L’étude du contexte multi-composants (démonstrateur final)
Emulation d’un NoC sur plateforme FPGA
*/47
Technologie 0.13µm
CPU : ARM946
L’étude du contexte multi-composants (démonstrateur final)
Emulation d’un NoC sur plateforme FPGA
FAUST: Flexible Architecture of Unified System for Telecommunication
FAUST
FAUST
FPGA
FPGA
Critères d’exploration :
Chemins de données
Fréquence de fonctionnement du NoC
Congestion des I/O
L’étude du contexte multi-composants (démonstrateur final)
Emulation d’un NoC sur plateforme FPGA
*/47
Fréquence > 90MHz
Fréquence > 120 MHz
Taille de paquets fixe à 8 FLIT
Les contextes du projet 4MORE
L’étude du contexte mono-composant
L’étude du contexte multi-composants (démonstrateur final)
Emulation d’un NoC sur plateforme FPGA
*/47
Processeur de contrôle : le MicroBlaze
Modélisation
Identique
MicroBlaze
L’étude du contexte multi-composants (démonstrateur final)
Emulation d’un NoC sur plateforme FPGA
MB
Wrapper
RX
NI
TX/RX
NI
R
R
R
R
TX
NI
*/47
L’étude du contexte multi-composants (démonstrateur final)
Emulation d’un NoC sur plateforme FPGA
MB
Wrapper
BB
NI
AB
NI
R
R
R
R
AA
NI
Echange de paquets de données
*/47
Conclusions et perspectives
Résultat de synthèse : 7000 Slices (Xilinx Virtex4 SX35 : 50% d’occupation)
Outils utilisés : EDK 8.1.02, ISE 8.1.03, Modelsim 6.0d et Chipscope Pro 8.1.02
Fréquence maximale : 60MHz (1920Mb/s)
Validation de l’architecture générique proposée par une implantation
Amélioration du code VHDL pour gagner en surface et en fréquence de fonctionnement
Mettre en œuvre la description XML du flot de conception
Les contextes du projet 4MORE
L’étude du contexte mono-composant
L’étude du contexte multi-composants (démonstrateur final)
Emulation d’un NoC sur plateforme FPGA
TX
TX/RX
RX
MicroBlaze
Fonction
Mise en œuvre d’une heuristique de placement routage
Modèle et architecture générique de représentation des blocs de traitement d’une chaîne algorithmique
Développement d’un outil de CAO intégrant le flot de conception proposé (SystemC et VHDL)
Validation des contributions dans le cadre du projet 4MORE
Validation d’un NoC sur une plate-forme de prototypage (FPGA)
CONCLUSION
*/47
Conclusion
Perspectives
Conclusions et perspectives
A court terme :
Optimiser la taille des FIFO des interfaces réseau (réduction des coûts mémoire)
Optimiser le code VHDL du routeur pour :
réduire le coût en surface
augmenter la fréquence de fonctionnement
Mise en œuvre de la description XML dans le flot de conception proposé
Modélisation en consommation du réseau
Amélioration du mode automatique
Modéliser d’autres applications orientées contrôle (traitement vidéo ou image)
PERSPECTIVES
*/47
Caractéristiques de la plateforme:
Disques SCSI Ultra320
Transfert des résultats de traitement sur support SCSI
Post traitement des données sous Matlab
Virtex II 4000
Gestion de la table des pages
La gestion logicielle :
Gestion du RAID 0 en multitâche
Impact des trois techniques de RAID 0 mises en œuvre (matériel, logiciel et programmé en C)
Impact du nombre de disque durs
DATA
P3
P4
P1
P2
*/47
Inconvénients :
Mémoire table des pages augmente en fonction de la taille des tampons mémoire
Pas d’autres communications sur le bus
géré par le contrôleur SCSI
géré par l’interface logicielle
géré par l’OS
*/47
Conclusions et perspectives
Le mode automatique:
Mise en œuvre d’une heuristique dédiée à l’architecture NoC
Travaux basés sur ceux de Jingcao Hu et Radu Marculescu «  Exploiting the Routing Flexibility for Energy/Performance Aware Mapping of Regular NoC Architectures » 2003
C1
C2
C3
Les limitations de ce flot
Le flot de conception proposé
Les modes automatique et semi-automatique
L’analyse des performances du NoC
APG: Graphe d’application ARG: Graphe d’Architecture
Taille(APG) ≤ Taille(ARG)
C : Ensemble des UT de l’application
T : Ensemble des tuiles de l’architecture avec une connexion UT
B : Bande passante théorique du lien entre routeurs appartenant à T
Algorithme de placement des UT:
6
NI
7
NI
CPU
NI
9
NI
1
NI
2
NI
3
NI
4
NI
11
NI
12
NI
13
NI
14
NI
16
NI
17
NI
18
NI
19
NI
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
c3
c2
c1
th_lien
b
b
b
B
DSP
I/O
MémoireProcesseur
DSP
I/O
MémoireProcesseur
Chargement des
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
o
t
i
T
T
T
T
RF IF 2
RF IF 2
Estimateur de canal MIMO 1
Etalement
CBS
-1
Entrelacement
Validation de l
TOP.res_simu01_1
NI
IP
OP
IP
OP
IPOP
IPOP
IP
OP
Arbitre
OUEST
SUD
NORD
EST
Unitéde
traitement
DATA
SEND
DATA
ACCEPT
DATA
SEND
DATA
ACCEPT
DATA
SEND
DATA
ACCEPT
DATA
SEND
DATA
ACCEPT
DATASENDDATAACCEPTDATASENDDATAACCEPT
DATASEND
DATA
ACCEPTDATASEND
DATA
ACCEPT
DATA
SEND
DATA
ACCEPT
RAM
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR
RRR