banner
Maison / Nouvelles / Prévision à long terme du trafic sur le réseau 5G via la modélisation non
Nouvelles

Prévision à long terme du trafic sur le réseau 5G via la modélisation non

Apr 12, 2023Apr 12, 2023

Ingénierie des communications volume 2, Numéro d'article : 33 (2023) Citer cet article

Détails des métriques

Les réseaux cellulaires 5G ont récemment favorisé un large éventail d'applications émergentes, mais leur popularité a entraîné une croissance du trafic qui dépasse de loin l'expansion du réseau. Cette incompatibilité peut diminuer la qualité du réseau et entraîner de graves problèmes de performances. Pour réduire le risque, les opérateurs ont besoin d'une prévision du trafic à long terme pour réaliser des plans d'expansion du réseau des mois à l'avance. Cependant, l'horizon de prédiction à long terme expose la non-stationnarité des données de série, ce qui détériore les performances des approches existantes. Nous traitons ce problème en développant un modèle d'apprentissage en profondeur, Diviner, qui intègre des processus stationnaires dans une structure hiérarchique bien conçue et modélise des séries temporelles non stationnaires avec des caractéristiques stables à plusieurs échelles. Nous démontrons une amélioration substantielle des performances de Diviner par rapport à l'état actuel de la technique en matière de prévision du trafic réseau 5G avec des prévisions détaillées au niveau des mois pour les ports massifs avec des modèles de flux complexes. Des expériences approfondies présentent en outre son applicabilité à divers scénarios prédictifs sans aucune modification, montrant le potentiel de résoudre des problèmes d'ingénierie plus larges.

La technologie 5G a récemment gagné en popularité dans le monde entier pour sa vitesse de transfert plus rapide, sa bande passante plus large, sa fiabilité et sa sécurité. La technologie 5G peut atteindre une vitesse de pointe théorique 20 fois plus rapide que la 4G avec une latence plus faible, favorisant des applications telles que les jeux en ligne, les services de streaming HD et les vidéoconférences1,2,3. Le développement de la 5G change le monde à un rythme incroyable et favorise les industries émergentes telles que la télémédecine, la conduite autonome et la réalité étendue4,5,6. On estime que ces industries et d'autres multiplient par 1000 le trafic réseau, nécessitant une capacité supplémentaire pour accueillir ces services et applications en pleine croissance7. Néanmoins, les infrastructures 5G, telles que les cartes embarquées et les routeurs, doivent être déployées et gérées avec des considérations de coût strictes8,9. Par conséquent, les opérateurs adoptent souvent une architecture distribuée pour éviter les dispositifs dos à dos massifs et les liens entre les réseaux fragmentés10,11,12,13. Comme le montre la Fig. 1a, le routeur métropolitain émergent est la plaque tournante pour relier les routeurs d'accès urbains, où les services peuvent être accessibles et intégrés efficacement. Cependant, le cycle de construction des appareils 5G nécessite environ trois mois pour planifier, acquérir et déployer. La planification de nouvelles infrastructures nécessite des prévisions précises du trafic réseau des mois à l'avance pour anticiper le moment où l'utilisation de la capacité dépasse le seuil prédéfini, où l'utilisation de la capacité surchargée pourrait finalement entraîner des problèmes de performances. Un autre problème concerne l'excès de ressources causé par la construction d'infrastructures 5G à gros grains. Pour atténuer ces risques, les opérateurs formulent des plans d'expansion du réseau des mois à l'avance avec une prévision du trafic réseau à long terme, ce qui peut faciliter la planification à long terme de la mise à niveau et de la mise à l'échelle de l'infrastructure du réseau et la préparer pour la prochaine période de planification14,15,16,17.

a Nous collectons les données des liens MAR-MER. Le cylindre orange représente les routeurs émergents métropolitains (MER) et le cylindre bleu pâle représente les routeurs d'accès métropolitains (MAR). b L'illustration du processus de transformation 2D → 3D introduit. Plus précisément, étant donné une série chronologique de données de trafic réseau couvrant K jours, nous construisons une matrice de série chronologique \(\widetilde{{{{{{{{\bf{X}}}}}}}}=[{\tilde{{{{{{{{\bf{x}}}}}}}}}_{1}\,\,{\tilde{{{{{{{{\bf{x}}}}}}}}}_{2}\, \,\ldots \,\,{\tilde{{{{{{{\bf{x}}}}}}}}_{K}]\), où chaque \({\tilde{{{{{{{{\bf{x}}}}}}}}}}_{i}\) représente les données de trafic pour une seule journée de longueur T. Le tracé 3D résultant affiche les pas de temps sur chaque jour, les pas de temps quotidiens et le trafic le long de x, y, et les axes z, respectivement, avec le trafic d'entrée normalisé. La ligne bleue dans le tracé 2D et le côté près de l'origine du plan rouge pâle dans le tracé 3D représentent le trafic réseau historique, tandis que la ligne jaunâtre dans le tracé 2D et le côté éloigné de l'origine du plan rouge pâle dans le tracé 3D représentent le futur trafic réseau à prédire. c Le flux de travail global du devin proposé. La ligne continue bleue indique la direction du flux de données. Les blocs d'encodeur et de décodeur de Diviner contiennent tous deux un mécanisme d'attention de filtre de lissage (bloc jaunâtre), un module d'attention de différence (bloc violet pâle), une structure résiduelle (bloc vert pâle) et une couche d'anticipation (bloc gris). Enfin, un générateur de convolution en une étape (bloc magenta) est utilisé pour convertir le décodage dynamique en une procédure de génération de séquence.

Dans l'industrie, une pratique courante consiste à calculer le taux de croissance potentiel du trafic réseau en analysant les données historiques de trafic18. Cependant, cette approche ne permet pas de prédire la demande de nouveaux services et est loin d'être satisfaisante pour les prévisions à long terme. Et des méthodes basées sur les prédictions ont été introduites pour résoudre ce dilemme en explorant les dépendances potentielles impliquées dans le trafic réseau historique, ce qui fournit à la fois une contrainte et une source pour évaluer le volume de trafic futur. Les planificateurs de réseau peuvent exploiter les dépendances pour extrapoler des prévisions de trafic suffisamment longues pour développer des plans d'expansion durables et des stratégies d'atténuation. Le problème clé de cette tâche est d'obtenir une prévision précise du trafic réseau à long terme. Cependant, l'extension directe de l'horizon de prédiction des méthodes existantes est inefficace pour la prévision à long terme car ces méthodes souffrent d'une grave dégénérescence des performances, où l'horizon de prédiction à long terme expose la non-stationnarité des séries temporelles. Cette non-stationnarité inhérente aux données de séries chronologiques du monde réel est causée par des variations temporelles à plusieurs échelles, des perturbations aléatoires et des valeurs aberrantes, qui présentent divers défis. Ceux-ci sont résumés comme suit. (a) Variations temporelles multi-échelles. Les variations à plusieurs échelles (quotidiennes/hebdomadaires/mensuelles/annuelles) tout au long des séries chronologiques à long terme indiquent des modèles latents non stationnaires à plusieurs échelles au sein de la série chronologique, qui doivent être pris en compte de manière exhaustive dans la conception du modèle. La composante saisonnière, par exemple, présente simplement des variations à des échelles particulières. (b) Facteurs aléatoires. Les perturbations aléatoires et les valeurs aberrantes interfèrent avec la découverte de régularités stables, ce qui implique une plus grande robustesse dans les modèles de prédiction. (c) Décalage de la distribution des données. La non-stationnarité de la série chronologique entraîne inévitablement un problème de décalage de l'ensemble de données, la distribution des données d'entrée variant dans le temps. La figure 1b illustre ces défis.

Ensuite, nous passons en revue les lacunes des méthodes existantes concernant la résolution des problèmes de non-stationnarité. Les méthodes de prédiction de séries chronologiques existantes se répartissent généralement en deux catégories, les modèles conventionnels et les modèles d'apprentissage en profondeur. La plupart des modèles conventionnels, tels que ARIMA19,20 et HoltWinters21,22,23,24,25, sont construits avec un aperçu des séries chronologiques mais mis en œuvre de manière linéaire, ce qui pose des problèmes pour la modélisation de séries chronologiques non stationnaires. De plus, ces modèles reposent sur des paramètres réglés manuellement pour s'adapter à la série chronologique, ce qui entrave leur application dans des scénarios de prédiction à grande échelle. Bien que Prophet26 utilise un paramètre modulaire et interprétatif non linéaire pour résoudre ces problèmes, ses modules non linéaires fabriqués à la main ont besoin d'aide pour modéliser facilement des séries chronologiques non stationnaires, dont les modèles complexes rendent inefficace l'intégration de divers facteurs dans des fonctions fabriquées à la main. Ce dilemme stimule le développement de méthodes d'apprentissage en profondeur. Les modèles d'apprentissage en profondeur peuvent utiliser plusieurs couches pour représenter des caractéristiques latentes à un niveau plus élevé et plus abstrait27, ce qui nous permet de reconnaître des modèles latents profonds dans des séries chronologiques non stationnaires. Les réseaux de neurones récurrents (RNN) et les réseaux Transformer sont deux principaux cadres de prévision d'apprentissage en profondeur. Les modèles basés sur RNN28,29,30,31,32,33,34 comportent une boucle de rétroaction qui permet aux modèles de mémoriser des données historiques et de traiter des séquences de longueur variable comme entrées et sorties, qui calcule la dépendance cumulative entre les pas de temps. Néanmoins, une telle modélisation indirecte des dépendances temporelles ne peut pas démêler les informations de différentes échelles dans les données historiques et ne parvient donc pas à saisir les variations multi-échelles dans les séries chronologiques non stationnaires. Les modèles basés sur les transformateurs35,36,37 résolvent ce problème en utilisant un mécanisme global d'auto-attention plutôt que des boucles de rétroaction. Cela améliore la capacité du réseau à capturer des dépendances et des interactions plus longues dans les données de série et apporte ainsi des progrès passionnants dans diverses applications de séries chronologiques38. Pour un traitement plus efficace des séries chronologiques à long terme, certaines études39,40,41 transforment le mécanisme d'auto-attention en une version clairsemée. Cependant, malgré leurs résultats de prévision à long terme prometteurs, la spécialisation des séries temporelles n'est pas prise en compte lors de leur processus de modélisation, où des distributions variables de séries temporelles non stationnaires détériorent leurs performances prédictives. Des recherches récentes tentent d'intégrer la décomposition des séries chronologiques dans les modèles d'apprentissage en profondeur42,43,44,45,46,47. Bien que leurs résultats soient encourageants et apportent des prédictions plus interprétatives et raisonnables, leur décomposition limitée, par exemple, la décomposition tendance-saisonnière, inverse la corrélation entre les composants et présente simplement la variation des séries chronologiques à des échelles particulières.

Dans ce travail, nous intégrons des processus stationnaires profonds dans des réseaux de neurones pour obtenir des prévisions précises à long terme du trafic sur le réseau 5G, où les théories de processus stochastiques peuvent garantir la prédiction d'événements stationnaires48,49,50. Plus précisément, comme le montre la figure 1c, nous développons un modèle d'apprentissage en profondeur, Diviner, qui intègre des processus stationnaires dans une structure hiérarchique bien conçue et modélise des séries temporelles non stationnaires avec des caractéristiques stables à plusieurs échelles. Pour valider l'efficacité, nous recueillons un vaste ensemble de données sur le trafic des ports réseau (NPT) du réseau métropolitain intelligent fournissant des services 5G de China Unicom et comparons le modèle proposé avec de nombreux arts actuels sur plusieurs applications. Nous apportons deux contributions de recherche distinctes à la prévision des séries chronologiques : (1) Nous explorons une voie pour résoudre les défis présentés dans la prévision des séries chronologiques à long terme en modélisant la non-stationnarité dans le paradigme de l'apprentissage en profondeur. Cette ligne est beaucoup plus universelle et efficace que les travaux précédents incorporant la décomposition temporelle pour leur décomposition limitée qui ne présente que la variation temporelle à des échelles particulières. (2) Nous développons un cadre d'apprentissage en profondeur avec une structure hiérarchique bien conçue pour modéliser les régularités stables multi-échelles dans des séries temporelles non stationnaires. Contrairement aux méthodes précédentes utilisant différents modules dans la même couche, nous effectuons une transformation d'échelle dynamique entre différentes couches et modélisons des dépendances temporelles stables dans la couche correspondante. Ce processus stationnaire profond hiérarchique se synchronise avec l'intégration de fonctionnalités en cascade des réseaux de neurones profonds, ce qui nous permet de capturer des régularités complexes contenues dans les historiques à long terme et d'obtenir des prévisions précises du trafic réseau à long terme. Notre expérience démontre que la robustesse et la précision prédictive s'améliorent de manière significative à mesure que nous prenons en compte davantage de facteurs concernant la non-stationnarité, ce qui offre un moyen d'améliorer la capacité de prévision à long terme des méthodes d'apprentissage en profondeur. En outre, nous montrons également que la modélisation de la non-stationnarité peut aider à découvrir des régularités latentes non linéaires dans le trafic réseau et à obtenir une prévision de qualité à long terme du trafic réseau 5G jusqu'à trois mois. De plus, nous étendons notre solution aux domaines du climat, du contrôle, de l'électricité, de l'économie, de l'énergie et des transports, ce qui montre l'applicabilité de cette solution à plusieurs scénarios prédictifs, montrant un potentiel précieux pour résoudre des problèmes d'ingénierie plus larges.

Dans cette section, nous présentons notre modèle d'apprentissage en profondeur proposé, Diviner, qui s'attaque à la non-stationnarité de la prédiction de séries chronologiques à long terme avec des processus stationnaires profonds, qui capture des caractéristiques stables à plusieurs échelles et modélise des régularités stables à plusieurs échelles pour obtenir une prédiction de séries chronologiques à long terme.

Comme le montre la figure 2a, le mécanisme d'attention du filtre de lissage ajuste l'échelle des caractéristiques et permet à Diviner de modéliser des séries chronologiques à partir de différentes échelles et d'accéder aux caractéristiques de variation multi-échelles dans les séries chronologiques non stationnaires. Nous construisons ce composant sur la base de la régression de Nadaraya-Watson51,52, un algorithme classique de régression non paramétrique. Étant donné l'espace d'échantillonnage \(\Omega =\{({x}_{i},{y}_{i})| 1\le i\le n,{x}_{i}\in {\mathbb{R}},{y}_{i}\in {\mathbb{R}}\}\), la taille de la fenêtre h et la fonction noyau K( ⋅ ), la régression de Nadaraya–Watson a l'expression suivante :

où la fonction noyau K( ⋅ ) est soumise à \(\int\nolimits_{-\infty }^{\infty }K(x)dx=1\) et n, x, y désignent respectivement la taille de l'échantillon, la variable indépendante et la variable dépendante.

a Ce panneau affiche le mécanisme d'attention du filtre de lissage, qui consiste à calculer des poids adaptatifs K(ξi, ξj) (bloc orange) et à utiliser une structure auto-masquée (bloc gris avec des lignes en pointillés) pour filtrer les valeurs aberrantes, où ξi désigne la ième période de série temporelle intégrée (bloc jaune). Les poids adaptatifs servent à ajuster l'échelle des caractéristiques de la série d'entrée et à obtenir la période transformée en échelle intégrant hi (bloc rose). b Ce schéma illustre le module attention différence. La transformation matrice-différence (bloc bleu pâle) soustrait les colonnes adjacentes d'une matrice pour obtenir les éléments de requête, de clé et de valeur décalés (ΔQ, ΔK et ΔV). Ensuite, une auto-attention multi-tête autorégressive est effectuée (dans le fond bleu pâle) pour capturer la corrélation des séries chronologiques sur différentes étapes de temps, résultant en \({\widetilde{{{{{{{\bf{V}}}}}}}}}_{s}^{(i)}\) pour la ième tête d'attention. Ici, \({{{{{{\bf{Q}}}}}}}}_{s}^{(i)}\), \({{{{{{{\bf{K}}}}}}}}}_{s}^{(i)}\), \({{{{{{{{\bf{V}}}}}}}}_{s}^{(i)}\) et \({\widetilde{{{ {{{{{\bf{V}}}}}}}}}_{s}^{(i)}\) représentent respectivement la requête, la clé, la valeur et le résultat dans les éléments. le \({{{{{{\rm{SoftMax}}}}}}}}\) est appliqué au produit scalaire mis à l'échelle entre la requête et les vecteurs clés pour obtenir des poids d'attention (le bloc jaune pâle). La formule de la fonction \({{{{{{\rm{SoftMax}}}}}}}}\) est \({{{{{{\rm{SoftMax}}}}}}}}({{{{{{{{\bf{k}}}}}}}}_{i})={e}^{{{{{{{{{\bf{k}}}}}}}}}_{i}}/\mathop{\sum }\nolimits_{j = 1}^{n}{e}^{{{{{{{{{\bf{k}}}}}}}}}_{j}}\), où ki est le ième élément du vecteur d'entrée et n est la longueur du vecteur d'entrée. Enfin, l'opération Matrix-CumSum (bloc orange clair) accumule les caractéristiques décalées à l'aide de l'opération ConCat, et Ws désigne les paramètres d'agrégation apprenables.

The Nadaraya–Watson regression estimates the regression value \(\hat{y}\) using a local weighted average method, where the weight of a sample (xi, yi), \(K(\frac{x-{x}_{i}}{h})/\mathop{\sum }\nolimits_{j = 1}^{n}K(\frac{x-{x}_{j}}{h})\), decays with the distance of xi from x. Par conséquent, l'échantillon primaire (xi, yi) est plus proche des échantillons de son voisinage. Ce processus implique la notion de base de transformation d'échelle, où les échantillons adjacents se rapprochent sur une échelle visuelle plus significative. Inspirés par cette pensée, nous pouvons reformuler la régression de Nadaraya-Watson du point de vue de la transformation d'échelle. Nous l'incorporons dans la structure d'attention pour concevoir une unité d'ajustement d'échelle apprenable. Concrètement, nous introduisons le mécanisme d'attention du filtre de lissage avec une fonction de noyau apprenable et une opération auto-masquée, où le premier réduit (ou amplifie) les variations pour un ajustement adaptatif de l'échelle des caractéristiques, et la lettre élimine les valeurs aberrantes. Pour faciliter la compréhension, nous considérons ici le cas des séries chronologiques 1D, et le cas de grande dimension peut être facilement extrapolé (illustré mathématiquement dans la section "Méthodes"). Étant donné le pas de temps ti, nous estimons sa valeur de régression \({\hat{y}}_{i}\) avec une moyenne pondérée adaptative des valeurs {yt∣t ≠ ti}, \({\hat{y}}_{i}={\sum }_{j\ne i}{\alpha }_{j}{y}_{j}\), où les poids adaptatifs α sont obtenus par une fonction noyau apprenable f. La fenêtre perforée {tj∣tj ≠ ti} de taille n − 1 dénote notre opération auto-masquée, et \(f{({y}_{i},y)}_{{w}_{i}}=exp({w}_{i}{({y}_{i}-y)}^{2})\), \({\alpha }_{i}=f{({y}_{i},y)}_{ {w}_{i}}/{\sum }_{j\ne i}f{({y}_{j},y)}_{{w}_{i}}\). Nos pondérations adaptatives varient avec la variation interne \(\{{({y}_{i}-y)}^{2}| {t}_{i}\ne t\}\) (diminuée ou augmentée), qui ajuste (réduit ou agrandit) la distance des points à chaque pas de temps et réalise une transformation adaptative à l'échelle des caractéristiques. Plus précisément, la variation mineure est encore réduite à une grande échelle de caractéristiques, agrandie à une petite échelle de caractéristiques, et vice versa. Concernant les composantes aléatoires, l'attention globale peut servir de méthode de lissage moyen pour aider à filtrer les petites perturbations. Quant aux valeurs aberrantes, leur grande marge par rapport aux éléments réguliers conduit à des pondérations mineures, ce qui élimine l'interférence des valeurs aberrantes. Surtout lorsque l'échantillon (ti, yi) devient une valeur aberrante, cette structure s'efface. Ainsi, le mécanisme d'attention du filtre de lissage filtre les composants aléatoires et ajuste dynamiquement les échelles des caractéristiques. De cette façon, nous pouvons transformer dynamiquement des séries temporelles non stationnaires selon différentes échelles, ce qui permet d'accéder aux séries temporelles sous des vues globales.

Le module d'attention aux différences calcule les connexions internes entre les caractéristiques décalées stables pour découvrir des régularités stables dans les séries chronologiques non stationnaires et surmonte ainsi l'interférence des distributions inégales. Concrètement, comme le montre la Fig. 2b, ce module inclut les opérations de différence et CumSum aux deux extrémités du mécanisme d'auto-attention35, qui interconnecte le décalage à chaque pas de temps pour capturer les connexions internes dans les séries temporelles non stationnaires. L'opération de différence sépare les décalages des tendances à long terme, où le décalage fait référence à la différence mineure dans les tendances entre des pas de temps adjacents. Considérant que les tendances conduisent la distribution des données à changer au fil du temps, l'opération de différence rend la série chronologique stable et varie autour d'un niveau moyen fixe avec des changements de distribution mineurs. Par la suite, nous utilisons un mécanisme d'auto-attention pour interconnecter les changements, qui capture les dépendances temporelles dans la variation de la série chronologique. Enfin, nous utilisons une opération CumSum pour accumuler des caractéristiques décalées et générer une série temporelle non stationnaire conforme aux régularités découvertes.

Le mécanisme d'attention du filtre de lissage filtre les composants aléatoires et ajuste dynamiquement l'échelle des fonctionnalités. Par la suite, le module d'attention aux différences calcule les connexions internes et capture la régularité stable dans la série chronologique à l'échelle correspondante. En cascade de ces deux modules, un bloc Diviner peut découvrir des régularités stables dans des séries temporelles non stationnaires à une échelle. Ensuite, nous empilons les blocs Diviner dans une structure multicouche pour obtenir des couches de transformation multi-échelles et capturer des caractéristiques stables multi-échelles à partir de séries temporelles non stationnaires. Une telle structure multicouche est organisée dans une architecture codeur-décodeur avec des longueurs d'entrée asymétriques pour une utilisation efficace des données. L'encodeur prend une longue série historique pour intégrer les tendances, et le décodeur reçoit une série temporelle relativement courte. Grâce à l'attention croisée entre l'encodeur et le décodeur, nous pouvons associer les dernières séries chronologiques à des modèles de variation pertinents issus de longues séries historiques et faire des déductions sur les tendances futures, améliorant ainsi l'efficacité des calculs et réduisant les informations historiques redondantes. Le fait est que la dernière série temporelle est plus propice à l'anticipation du futur immédiat que la série temporelle du passé lointain, où la corrélation entre les pas de temps se dégrade généralement avec la longueur de l'intervalle53,54,55,56,57. De plus, nous concevons un générateur pour obtenir des résultats de prédiction en une seule étape afin d'éviter les problèmes d'erreurs cumulatives dynamiques39. Le générateur est construit avec des paramètres de partage CovNet à chaque pas de temps basé sur le générateur de projection linéaire39,58,59, ce qui économise les ressources matérielles. Ces techniques permettent aux méthodes d'apprentissage en profondeur de modéliser des séries chronologiques non stationnaires avec des caractéristiques stables à plusieurs échelles et de produire des résultats de prévision dans un paradigme génératif, qui tente de résoudre les problèmes de prédiction de séries chronologiques à long terme.

Pour valider l'efficacité des techniques proposées, nous recueillons de nombreux NPT auprès de China Unicom. Les ensembles de données NPT incluent des données enregistrées toutes les 15 minutes pendant toute l'année 2021 à partir de trois groupes de ports de trafic de réseau métropolitain du monde réel {NPT-1, NPT-2, NPT-3}, où chaque sous-ensemble de données contient {18, 5, 5} ports, respectivement. Nous les avons répartis chronologiquement avec une proportion de 9: 1 pour la formation et les tests. De plus, nous préparons 16 ports réseau pour la recherche de paramètres. Les principales difficultés résident dans le déplacement explicite de la distribution et de nombreuses valeurs aberrantes. Et cette section développe la comparaison complète de notre modèle avec des modèles basés sur la prédiction et basés sur le taux de croissance dans l'application de la prévision du trafic sur le réseau 5G.

Nous comparons d'abord Diviner à d'autres méthodes basées sur la prédiction de séries chronologiques, nous notons ces modèles de référence comme Baselines-T pour plus de clarté. Les lignes de base-T incluent les modèles traditionnels ARIMA19,20 et Prophet26 ; modèle d'apprentissage automatique classique LSTMa60 ; modèles basés sur l'apprentissage en profondeur Transformer35, Informer39, Autoformer42 et NBeats61. Ces modèles sont nécessaires pour prédire l'ensemble de la série de trafic réseau {1, 3, 7, 14, 30} jours, alignés sur les périodes de prédiction {96, 288, 672, 1344, 2880} à venir dans le tableau 1, et inbits est la fonctionnalité cible. En termes d'évaluation, bien que la précision prédictive MAE, MSE et MASE diminue généralement avec les intervalles de prédiction, le taux de dégradation varie entre les modèles. Par conséquent, nous introduisons un indicateur de vitesse exponentielle pour mesurer le taux de dégradation de la précision. Plus précisément, étant donné les durées [t1, t2] et les erreurs MSE, MAE et MASE correspondantes, nous avons ce qui suit :

où \({\,{{\mbox{dMSE}}}}_{{t}_{1}}^{{t}_{2}},{{{\mbox{dMAE}}}}_{{t}_{1}}^{{t}_{2}},{{{\mbox{dMASE}}}\,}_{{t}_{1}}^{{t}_{2}}\in {\mathbb{R}} \). Concernant les résultats expérimentaux proches entre {NPT-1, NPT-2 et NPT-3}, nous nous concentrons principalement sur le résultat de l'ensemble de données NPT-1, et les résultats expérimentaux sont résumés dans le tableau 1. Bien qu'il existe des quantités de valeurs aberrantes et d'oscillations fréquentes dans l'ensemble de données NPT, Diviner atteint une réduction moyenne de 38,58 % de MSE (0,451 → 0,277) et une réduction moyenne de 20,86 % de MAE (0,465 → 0 .368) basé sur l'art antérieur. En termes d'évolutivité à différentes périodes de prédiction, Diviner a un \({\,{{\mbox{dMSE}}}\,}_{1}^{30}\) (4,014 % → 0,750 %) et \({\,{{\mbox{dMAE}}}\,}_{1}^{30}\) (2,343 % → 0,474 %) beaucoup plus faible que l'art antérieur, qui présente une légère dégradation des performances avec une amélioration substantielle de la robustesse prédictive lorsque l'horizon de prédiction s'allonge. Les taux de dégradation et les performances prédictives de toutes les approches de référence ont été fournis dans le tableau supplémentaire S1 concernant la limitation d'espace.

Les expériences sur NPT-2 et NPT-3 présentées dans les données supplémentaires 1 reproduisent les résultats ci-dessus, où Diviner peut prendre en charge une prévision précise du trafic réseau à long terme et dépasser l'art actuel impliquant précision et robustesse par une large marge. De plus, nous avons les résultats suivants en triant les performances globales (obtenues par les erreurs MASE moyennes) des lignes de base établies avec le framework Transformer : Diviner > Autoformer > Transformer > Informer. Cet ordre s'aligne sur les facteurs non stationnaires pris en compte dans ces modèles et vérifie notre proposition selon laquelle l'incorporation de la non stationnarité favorise les capacités d'adaptation des réseaux de neurones pour modéliser les séries chronologiques, et la modélisation de la non stationnarité multi-échelles dépasse le plafond des capacités de prédiction pour les modèles d'apprentissage en profondeur.

La deuxième expérience compare Diviner à deux autres méthodes industrielles, qui visent à prédire l'utilisation de la capacité des entrées et des sorties avec des taux de croissance historiques. L'expérience partage les mêmes données de trafic de port réseau que dans l'expérience 1, tandis que le rapport de division est modifié chronologiquement à 3: 1 pour un horizon de prédiction plus long. De plus, nous utilisons un long cycle de construction de {30, 60, 90} jours (aligné sur {2880, 5760, 8640} pas de temps) pour garantir la validité de ces méthodes basées sur le taux de croissance pour la loi des grands nombres. Ici, nous définissons d'abord l'utilisation de la capacité mathématiquement :

Étant donné une bande passante fixe \(B\in {\mathbb{R}}\) et le flux de trafic des kèmes cycles de construction \(\widetilde{{{{{{{\bf{X}}}}}}}}}(k)=\left[\begin{array}{cccc}{\tilde{{{{{{{{\bf{x}}}}}}}}}_{kC+1}&{\tilde{{{{{{ {{\bf{x}}}}}}}}}_{kC+2}&...&{\tilde{{{{{{{{\bf{x}}}}}}}}}_{(k+1)C}\end{array}\right]\), \(\widetilde{{{{{{{{\bf{X}}}}}}}}}(k)\in {{\mathbb{R}}}^{T \times C}\), où \({\tilde{{{{{{{{\bf{x}}}}}}}}_{i}\in {{\mathbb{R}}}^{T}\) est un vecteur colonne de longueur T représentant la série chronologique par jour et C désigne le nombre de jours dans un cycle de construction. Ensuite, l'utilisation de la capacité (CU) du kème cycle de construction est définie comme suit :

où \(\,{{\mbox{CU}}}\,(k)\in {\mathbb{R}}\). Comme indiqué dans la définition, l'utilisation de la capacité est directement liée au trafic réseau, de sorte qu'une prédiction précise du trafic réseau conduit à une prédiction de qualité de l'utilisation de la capacité. Nous comparons la méthode prédictive proposée avec deux méthodes prédictives du taux de croissance moyen mobile couramment utilisées dans l'industrie, les méthodes prédictives du taux de croissance moyen mobile additif et multiplicatif. Pour plus de clarté, nous notons la méthode additive comme Baseline-A et la méthode multiplicative comme Baseline-M. Baseline-A calcule un taux de croissance additif avec la différence des cycles de construction adjacents. Compte tenu de l'utilisation des capacités des deux derniers cycles de construction CU(k − 1), CU(k − 2), nous avons :

Baseline-M calcule un taux de croissance multiplicatif avec le quotient des cycles de construction adjacents. Compte tenu de l'utilisation des capacités des deux derniers cycles de construction CU(k − 1), CU(k − 2), nous avons :

Différent des deux lignes de base ci-dessus, nous calculons l'utilisation de la capacité du réseau avec les prévisions de trafic du réseau. Étant donné le trafic réseau des K derniers cycles de construction \(\widetilde{{{{{{{{\bf{X}}}}}}}}=\left[\begin{array}{ccccccc}{\tilde{{{{{{{{\bf{x}}}}}}}}}_{(kK)C+1}&...&{\tilde{{{{{{{{\bf{x}}}}}}}}} }_{(k-K+1)C}&...&{\tilde{{{{{{{{\bf{x}}}}}}}}}_{(k-1)C}&...&{\tilde{{{{{{{{\bf{x}}}}}}}}}_{kC}\end{array}\right]\), nous avons ce qui suit :

Nous résumons les résultats expérimentaux dans le tableau 2. Concernant les résultats expérimentaux proches entre {NPT-1, NPT-2 et NPT-3} présentés dans, nous nous concentrons principalement sur le résultat de l'ensemble de données NPT-1, qui a le plus de ports de trafic réseau. Diviner obtient une réduction substantielle de 31,67 % MAE (0,846 → 0,578) sur les entrées et une réduction de 24,25 % MAE (0,944 → 0,715) sur les sorties par rapport à la Baseline-A. Une explication intuitive est que les méthodes basées sur le taux de croissance extraient des caractéristiques historiques particulières mais manquent d'adaptabilité. Nous remarquons que Baseline-A a une bien meilleure performance de 0,045 × MAE en entrée moyenne et 0,074 × MAE en sortie moyenne par rapport à Baseline-M. Ce résultat suggère que le trafic réseau a tendance à augmenter de manière linéaire plutôt qu'exponentielle. Néanmoins, il reste des variations inhérentes à plusieurs échelles des séries de trafic réseau, de sorte que Diviner dépasse toujours la Baseline-A, ce qui suggère la nécessité d'appliquer des modèles d'apprentissage en profondeur tels que Diviner pour découvrir des régularités latentes non linéaires dans le trafic réseau.

En analysant les résultats de ces deux expériences conjointement, nous présentons que Diviner possède un taux de dégradation relativement faible pour une prédiction de 90 jours, \({\,{{\mbox{dMASE}}}\,}_{1}^{90}=1.034 \%\). En revanche, le taux de dégradation de l'art antérieur s'élève à \({\,{{\mbox{dMASE}}}\,}_{1}^{30}=2,343 \%\) pour un horizon de prédiction trois fois plus court de 30 jours. De plus, compte tenu de divers modèles de trafic réseau dans les ensembles de données fournis (environ 50 ports), la méthode proposée peut traiter une large gamme de séries temporelles non stationnaires, validant son applicabilité sans modification. Ces expériences témoignent du succès de Diviner à fournir des prévisions de trafic réseau de qualité à long terme et à étendre les durées de prédiction efficaces des modèles d'apprentissage en profondeur jusqu'à trois mois.

Nous validons notre méthode sur des ensembles de données de référence pour la météo (WTH), la température du transformateur électrique (ETT), l'électricité (ECL) et l'échange (Exchange). Nous résumons les résultats expérimentaux dans le tableau 3. Nous suivons le protocole standard et les divisons en ensembles de formation, de validation et de test dans l'ordre chronologique avec une proportion de 7:1:2, sauf indication contraire. En raison du manque d'espace, les résultats expérimentaux complets sont présentés dans les données supplémentaires 2.

L'ensemble de données WTH42 enregistre 21 indicateurs météorologiques pour Iéna 2020, y compris la température et l'humidité de l'air, et WetBulbFarenheit est la cible. Ce jeu de données est finement quantifié au niveau 10 min, ce qui signifie qu'il y a 144 pas pour une journée et 4320 pas pour un mois, défiant ainsi la capacité des modèles à traiter de longues séquences. Parmi toutes les lignes de base, NBeats et Informer ont l'erreur la plus faible en termes de métriques MSE et MAE, respectivement. Cependant, nous remarquons un contraste entre ces deux modèles lors de l'extension des durées de prédiction. Informer se dégrade précipitamment lorsque les intervalles de prédiction augmentent de 2016 à 4032 (MAE : 0,417 → 0,853), mais au contraire, NBeats gagne en performance (MAE : 0,635 → 0,434). Nous attribuons cela à un compromis entre la poursuite du contexte et de la texture. Informer a un avantage sur la texture dans le cas à court terme. Néanmoins, il doit capturer la dépendance contextuelle de la série, étant donné que la longueur de la série d'historique d'entrée doit s'étendre au rythme des plages de prédiction et vice versa. Quant à Diviner, il réalise une réduction moyenne remarquable de 29,30 % de MAE (0,488 → 0,345) et une réduction moyenne de 41,54 % de MSE (0,491 → 0,287) sur Informer et NBeats. De plus, Diviner obtient un faible taux de dégradation de \({\,{{\mbox{dMSE}}}\,}_{1}^{30}=0,439 \%\), \({\,{{\mbox{dMAE}}}\,}_{1}^{30}=0,167 \%\) montrant sa capacité à exploiter des informations historiques dans des séries temporelles. Les performances prédictives et les taux de dégradation de toutes les approches de base ont été fournis dans le tableau supplémentaire S2. Notre modèle peut synthétiser le contexte et la texture pour équilibrer les cas à court et à long terme, garantissant sa prédiction précise et robuste à long terme.

L'ensemble de données ETT contient des données sur deux ans avec six caractéristiques de charge de puissance de deux comtés en Chine, et la température de l'huile est notre cible. Son split ratio formation/validation/ensemble de tests est de 12/4/4 mois39. L'ensemble de données ETT est divisé en deux ensembles de données distincts aux niveaux 1 h {ETTh1, ETTh2} et 15 minutes ETTm1. Par conséquent, nous pouvons étudier les performances des modèles sous différentes granularités, où les étapes de prédiction {96, 288, 672} d'ETTm1 s'alignent sur les étapes de prédiction {24, 48, 168} d'ETTh1. Nos expériences montrent que Diviner réalise les meilleures performances dans les deux cas. Bien que dans le cas au niveau horaire, Diviner surpasse les lignes de base avec les MSE et MAE les plus proches d'Autoformer (MSE : 0,110 → 0,082, MAE : 0,247 → 0,216). Lorsque la granularité au niveau de l'heure se transforme en un cas au niveau de la minute, Diviner surpasse Autoformer par une large marge (MSE : 0,092 → 0,064, MAE : 0,239 → 0,194). Les performances prédictives et la granularité changent lorsque la granularité au niveau horaire se transforme en granularité au niveau minute de toutes les approches de base ont été fournies dans le tableau supplémentaire S3. Ceux-ci démontrent la capacité du Devin à traiter des séries temporelles de granularité différente. De plus, la granularité est aussi une manifestation d'échelle. Ces résultats démontrent que la modélisation de caractéristiques multi-échelles est propice au traitement de séries temporelles de granularité différente.

L'ensemble de données ECL enregistre la consommation d'électricité sur deux ans de 321 clients, qui est convertie en consommation horaire en raison des données manquantes, et MT-320 est la caractéristique cible62. Nous prévoyons différents horizons temporels de {7, 14, 30, 40} jours, alignés sur {168, 336, 720, 960} étapes de prédiction à venir. Ensuite, nous analysons les résultats expérimentaux en fonction des intervalles de prédiction (≤360 comme prédiction à court terme, ≥360 comme prédiction à long terme). NBeats atteint les meilleures performances de prévision pour la prévision de la consommation d'électricité à court terme, tandis que Diviner la surpasse dans le cas de la prévision à long terme. Les performances à court et à long terme de toutes les approches ont été fournies dans le tableau supplémentaire S4. Statistiquement, la méthode proposée surpasse la meilleure ligne de base (NBeats) en diminuant 17,43 % MSE (0,367 → 0,303), 15,14 % MAE (0,482 → 0,409) à 720 pas d'avance, et 6,56 % MSE (0,457 → 0,427) à 9,44 % MAE (0,540 → 0,489) à 9 60 pas d'avance. Nous attribuons cela à l'évolutivité, où différents modèles convergent pour fonctionner de manière similaire dans le cas à court terme, mais leurs différences apparaissent lorsque la durée de prédiction devient plus longue.

L'ensemble de données Exchange contient les prix de clôture sur 5 ans d'une once troy d'or aux États-Unis enregistrés quotidiennement de 2016 à 2021. En raison de la fluctuation à haute fréquence du prix du marché, l'objectif prédictif est de prédire raisonnablement sa tendance générale (https://www.lbma.org.uk). À cette fin, nous effectuons une prédiction à long terme de {10, 20, 30, 60} jours. Les résultats expérimentaux montrent clairement des dégradations apparentes des performances pour la plupart des modèles de référence. Étant donné un historique de 90 jours, seuls Autoformer et Diviner peuvent prédire avec des erreurs MAE et MSE inférieures à 1 lorsque la durée de prédiction est de 60 jours. Cependant, Diviner surpasse toujours les autres méthodes avec une réduction moyenne de 38,94 % de l'EQM (0,588 → 0,359) et une réduction moyenne de l'EQM de 22,73 % (0,607 → 0,469) et réalise les meilleures performances de prévision. La performance prédictive de toutes les approches de base a été fournie dans le tableau supplémentaire S5. Ces résultats indiquent l'adaptabilité de Diviner à l'évolution rapide des marchés financiers et son extrapolation raisonnable, considérant qu'il est généralement difficile de prévoir le système financier.

L'ensemble de données solaires contient les données de production d'énergie solaire de niveau 1 sur 10 minutes (2006) de 137 centrales photovoltaïques dans l'État de l'Alabama, et PV-136 est la caractéristique cible (http://www.nrel.gov). Étant donné que la quantité d'énergie solaire produite quotidiennement est généralement stable, il n'est pas nécessaire d'effectuer une prévision à très long terme. Par conséquent, nous avons défini l'horizon de prédiction sur {1, 2, 5, 6} jours, aligné sur {144, 288, 720, 864} étapes de prédiction à venir. De plus, cette caractéristique de l'énergie solaire signifie que ses séries de production ont tendance à être stationnaires, et ainsi la comparaison des performances prédictives entre différents modèles sur cet ensemble de données présente leurs capacités de base de modélisation de séries. Concrètement, étant donné que l'erreur MASE peut être utilisée pour évaluer les performances du modèle sur différentes séries, nous calculons et trions l'erreur MASE moyenne de chaque modèle sous différents paramètres d'horizon de prédiction pour mesurer la capacité de modélisation des séries chronologiques (fournie dans le tableau supplémentaire S6). Les résultats sont les suivants : Diviner > NBeats > Transformer > Autoformer > Informer > LSTM, où Diviner surpasse tous les modèles basés sur Transformer dans les lignes de base sélectionnées. À condition que les données de la série ne soient pas si non stationnaires, les avantages de la non stationnarité des séries chronologiques de modélisation d'Autoformer ne sont pas apparents. Dans le même temps, la capture des dépendances stables à long et à court terme est toujours efficace.

L'ensemble de données Traffic contient le taux d'occupation des routes sur 2 ans (2015-2016) par heure, collecté à partir de 862 capteurs sur les autoroutes de la région de la baie de San Francisco par le California Department of Transportation, où le capteur 861 est la caractéristique cible (http://pems.dot.ca.gov). L'horizon de prédiction est défini sur {7, 14, 30, 40} jours, aligné sur {168, 336, 720, 960} étapes de prédiction à venir. Considérant que le taux d'occupation des routes a tendance à avoir un cycle hebdomadaire, nous utilisons cet ensemble de données pour comparer la capacité de différents réseaux à modéliser le cycle temporel. Lors de la comparaison, nous nous concentrons principalement sur les deux groupes suivants de modèles d'apprentissage en profondeur : le groupe 1 prend en compte la spécialisation non stationnaire des séries temporelles (Diviner, Autoformer) et le groupe 2 n'utilise aucun composant spécifique aux séries temporelles (Transformer, Informer, LSTMa). Nous constatons que le groupe-1 gagne une amélioration significative des performances par rapport au groupe-2, ce qui suggère la nécessité de modéliser la non-stationnarité. Quant au modèle Diviner proposé, il permet d'obtenir une réduction de 27,64 % de l'EMA (0,604 → 0,437) par rapport au modèle Transformer lors de la prévision des taux d'occupation des routes sur 30 jours. Par la suite, nous effectuons une comparaison intra-groupe pour le groupe 1, où Diviner obtient toujours une réduction moyenne de 35,37 % de MAE (0,523 → 0,338) par rapport à Autoformer. Les performances prédictives de toutes les approches ont été fournies dans le tableau supplémentaire S7. Nous attribuons cela à la modélisation à plusieurs échelles de la non-stationnarité de Diviner, tandis que la décomposition tendance-saisonnière d'Autoformer reflète simplement la variation des séries chronologiques à des échelles particulières. Ces résultats expérimentaux démontrent que Diviner est compétent pour prédire les données de séries chronologiques avec des cycles.

Nous étudions le problème de prédiction du trafic à long terme du réseau 5G en modélisant la non-stationnarité avec des techniques d'apprentissage en profondeur. Bien que certaines publications63,64,65 au stade initial soutiennent que la prévision probabiliste du trafic dans des conditions d'incertitude est plus adaptée au trafic variable du réseau qu'une prévision concrète produite par des modèles de séries chronologiques, la prévision probabiliste du trafic et la prévision concrète du trafic partagent essentiellement les mêmes informations historiques. De plus, le développement des techniques de prévision des séries chronologiques ces dernières années a vu une série de travaux utilisant des techniques de prévision des séries chronologiques pour des applications pratiques telles que la gestion de la bande passante14,15, l'allocation des ressources16 et l'approvisionnement des ressources17, où les méthodes basées sur la prédiction des séries chronologiques peuvent fournir des prévisions détaillées du trafic réseau. Cependant, les méthodes de prévision de séries temporelles existantes souffrent d'une grave dégénérescence des performances puisque l'horizon de prédiction à long terme expose la non-stationnarité des séries temporelles, ce qui soulève plusieurs défis : (a) Variations temporelles multi-échelles. (b) Facteurs aléatoires. (c) Décalage de la distribution des données.

Par conséquent, cet article tente de défier le problème de la réalisation d'une prédiction précise à long terme pour les séries chronologiques non stationnaires. Nous partons de la propriété fondamentale de non-stationnarité des séries temporelles et introduisons des processus stationnaires profonds dans un réseau de neurones, qui modélise des régularités stables multi-échelles au sein de séries temporelles non stationnaires. Nous soutenons que la capture des caractéristiques stables est une recette pour générer des prévisions non stationnaires conformes aux régularités historiques. Les caractéristiques stables permettent aux réseaux de restreindre l'espace latent des séries temporelles, qui traitent de divers problèmes de distribution. Des expériences approfondies sur la prédiction du trafic réseau et d'autres scénarios réels démontrent ses avancées par rapport aux modèles basés sur la prédiction existants. Ses avantages se résument comme suit. (a) Diviner apporte une amélioration notable sur les prévisions à long et à court terme et atteint des performances de pointe. (b) Diviner peut fonctionner de manière robuste quelle que soit la sélection de la plage de prédiction et de la granularité, montrant un grand potentiel pour les prévisions à long terme. (c) Diviner maintient une forte généralisation dans divers domaines. Les performances de la plupart des lignes de base peuvent se dégrader rapidement dans certains domaines ou dans d'autres. En revanche, notre modèle se distingue par des performances constantes sur chaque indice de référence.

Ce travail explore une voie pour obtenir des prévisions détaillées et précises du trafic du réseau 5G à long terme, qui peuvent être utilisées pour calculer le temps que le trafic du réseau pourrait dépasser la capacité et aide les opérateurs à formuler des plans de construction de réseau des mois à l'avance. De plus, Diviner génère des prévisions de trafic réseau à long terme au niveau de la minute, facilitant ses applications plus larges pour l'approvisionnement, l'allocation et la surveillance des ressources. Les décideurs peuvent exploiter les prévisions à long terme pour allouer et optimiser les ressources du réseau. Une autre application pratique consiste à réaliser un système de surveillance automatique de l'état du réseau, qui déclenche automatiquement une alarme lorsque le trafic réseau réel dépasse une plage autorisée autour des prévisions. Ce système prend en charge l'alerte précoce ciblée au niveau du port et aide les travailleurs à dépanner à temps, ce qui peut apporter une amélioration substantielle de l'efficacité compte tenu des dizaines de millions de ports réseau fonctionnant en ligne. En plus des réseaux 5G, nous avons étendu notre solution à des domaines d'ingénierie plus larges tels que l'électricité, le climat, le contrôle, l'économie, l'énergie et les transports. La prévision de la température de l'huile peut aider à empêcher la surchauffe du transformateur, ce qui affecte la durée de vie de l'isolation du transformateur et garantit un bon fonctionnement66,67. De plus, la prévision météorologique à long terme aide à sélectionner et à semer les cultures agricoles. Ainsi, nous pouvons découvrir des régularités inaperçues dans les données des séries historiques, ce qui pourrait offrir des opportunités aux industries traditionnelles.

Une limitation de notre modèle proposé est qu'il souffre de transitions critiques des modèles de données. Nous attribuons cela à des facteurs externes, dont les informations ne sont généralement pas incluses dans les données mesurées53,55,68. Notre méthode est utile dans la découverte de la régularité intrinsèque dans la série chronologique, mais ne peut pas prédire des modèles non enregistrés auparavant dans le monde réel. Alternativement, nous pouvons utiliser des méthodes de réseau dynamique69,70,71 pour détecter de telles transitions critiques dans la série temporelle53. De plus, les performances de Diviner pourraient être similaires à celles d'autres modèles d'apprentissage en profondeur si on leur donne quelques séries historiques ou dans le cas d'une prédiction à court terme. Le premier contient des informations insuffisantes pour être exploitées, et la prédiction à court terme nécessite une plus grande évolutivité du problème, alors que les avantages de notre modèle deviennent apparents dans les scénarios de prévision à long terme.

Nous désignons la forme originale des données de séries temporelles par \({{{{{{\bf{X}}}}}}}}=\left[\begin{array}{cccc}{x}_{1}&{x}_{2}&...&{x}_{n}\end{array}\right],{x}_{i}\in {\mathbb{R}}\). Les données de série chronologique d'origine X sont remodelées en une forme matricielle comme \(\widetilde{{{{{{{\bf{X}}}}}}}}}=\left[\begin{array}{cccc}{\tilde{{{{{{{{\bf{x}}}}}}}}}_{1}&{\tilde{{{{{{{{\bf{x}}}}}}}}}_{2}& ...&{\tilde{{{{{{{\bf{x}}}}}}}}}}_{K}\end{tableau}\right]\), où \({\tilde{{{{{{{\bf{x}}}}}}}}}_{i}\) est un vecteur de longueur T avec les données de la série chronologique par jour/semaine/mois/année, K désigne le nombre de jours/semaines/mois/années, \({ \tilde{{{{{{{{\bf{x}}}}}}}}}_{i}\in {{\mathbb{R}}}^{T}\). Après cela, nous pouvons représenter le modèle saisonnier sous la forme \({\tilde{{{{{{{{\bf{x}}}}}}}}}}_{i}\) et utiliser sa variation entre des pas de temps adjacents pour modéliser les tendances, comme suit :

où \(\Delta {\widetilde{{{{{{{\rm{s}}}}}}}}}_{t}\) désigne le changement du modèle saisonnier, \(\Delta {\widetilde{{{{{{{{\rm{s}}}}}}}}_{t}\in {{\mathbb{R}}}^{T}\). Le décalage reflète la variation entre de petites étapes de temps, mais lorsqu'une telle variation (décalage) s'accumule sur une période assez longue, la tendance d apparaît. Il peut être atteint comme \(\mathop{\sum }\nolimits_{t = {t}_{1}}^{{t}_{2}-1}\Delta {\widetilde{{{{{{{{\rm{s}}}}}}}}}_{t}\). Par conséquent, nous pouvons modéliser les tendances en capturant les dépendances à long et à court terme des changements entre différentes étapes de temps.

Ensuite, nous introduisons un mécanisme d'attention de filtre de lissage pour construire des couches de transformation multi-échelles. Un module d'attention aux différences est monté pour capturer et interconnecter les décalages de l'échelle correspondante. Ces mécanismes permettent à notre Diviner de capturer des variations multi-échelles dans des séries temporelles non stationnaires, et la description mathématique est listée ci-dessous.

Étant donné les données de la série temporelle X, nous transformons X en \(\widetilde{{{{{{{{\bf{X}}}}}}}}=\left[\begin{array}{cccc}{\tilde{{{{{{{{\bf{x}}}}}}}}}_{1}&{\tilde{{{{{{{\bf{x}}}}}}}}}_{2}&...&{ \tilde{{{{{{\bf{x}}}}}}}}}_{K}\end{array}\right]\), où \({\tilde{{{{{{{\bf{x}}}}}}}}}}_{i}\) est un vecteur de longueur T avec les données de la série chronologique par jour (saisonnier), et K désigne le nombre de jours, \({\tilde{{{{{{{{\b f{x}}}}}}}}}_{i}\in {{\mathbb{R}}}^{T}\), \(\widetilde{{{{{{{{\bf{X}}}}}}}}}\in {{\mathbb{R}}}^{T\times K}\). Ensuite, nous construisons la double entrée pour Diviner. Constatant que Diviner adopte une architecture encodeur-décodeur, nous construisons \({{{{{{{\bf{X}}}}}}}}_{en}^{in}\) pour l'encodeur et \({{{{{{{{\bf{X}}}}}}}}_{de}^{in}\) pour le décodeur, où \({{{{{{{{\bf{X}}}}}}}}}_{en }^{in}=\left[\begin{array}{cccc}{\tilde{{{{{{{{\bf{x}}}}}}}}}_{1}&{\tilde{{{{{{{{\bf{x}}}}}}}}}_{2}&...&{\tilde{{{{{{{\bf{x}}}}}}}}}}_{K}\end{array }\right]\), \({{{{{{{\bf{X}}}}}}}}_{de}^{in}=\left[\begin{array}{cccc}{\tilde{{{{{{{{\bf{x}}}}}}}}}}_{K-{K}_{de}+1}&{\tilde{{{{{{{{\bf{x}}}}}}}}}}_ {K-{K}_{de}}&...&{\tilde{{{{{{{\bf{x}}}}}}}}}_{K}\end{array}\right]\), et \({{{{{{{{\bf{X}}}}}}}}_{en}^{in}\in {{\mathbb{R}}}^{K}\), \({{{{{{{{\bf{ X}}}}}}}}}_{de}^{in}\in {{\mathbb{R}}}^{{K}_{de}}\). Cela signifie que \({{{{{{{\bf{X}}}}}}}}_{en}^{in}\) prend tous les éléments de \(\widetilde{{{{{{{{\bf{X}}}}}}}}}\) alors que \({{{{{{{\bf{X}}}}}}}}_{de}^{in}\) ne prend que les derniers éléments Kde. Après cela, une couche entièrement connectée sur \({{{{{{{{\bf{X}}}}}}}}_{en}^{in}\) et \({{{{{{{\bf{X}}}}}}}}}_{de}^{in}\) est utilisée pour obtenir \({{{{{{{{\bf{E}}}}}}}}_{en}^{in}\) et \({{{{ {{{{\bf{E}}}}}}}}_{de}^{in}\), où \({{{{{{{{\bf{E}}}}}}}}}_{en}^{in}\in {{\mathbb{R}}}^{{d}_{m}\times K}\), \({{{{{{{\bf{E}}}}}}}}_{de}^{in}\ dans {{\mathbb{R}}}^{{d}_{m}\times {K}_{de}}\) et dm désigne la dimension du modèle.

Inspirés par la régression de Nadaraya-Watson51,52 rapprochant les points adjacents, nous introduisons le mécanisme d'attention du filtre de lissage avec une fonction de noyau apprenable et une architecture auto-masquée, où le premier rapproche des éléments similaires pour filtrer la composante aléatoire et ajuster les données non stationnaires à des caractéristiques stables, et la lettre réduit les valeurs aberrantes. Le mécanisme d'attention du filtre de lissage est implémenté sur la base de l'entrée \({{{{{{{\bf{E}}}}}}}}=\left[\begin{array}{cccc}{{{{{{{\boldsymbol{\xi }}}}}}}}}_{1}&{{{{{{{\boldsymbol{\xi }}}}}}}_{2}&...&{{{{{{{\boldsymbol{ \xi }}}}}}}}_{{K}_{in}}\end{array}\right]\), où \({{{{{{{\boldsymbol{\xi }}}}}}}}}_{i}\in {{\mathbb{R}}}^{{d}_{m}}\), E est la référence générale à l'entrée de chaque couche, pour l'encodeur Kin = K et pour le décodeur Kin = Kde. Plus précisément, \({{{{{{\bf{E}}}}}}}}_{en}^{in}\) et \({{{{{{{\bf{E}}}}}}}}}_{de}^{in}\) sont, respectivement, l'entrée de la première couche d'encodeur et de décodeur. Le processus de calcul se présente comme suit :

où \({{{{{{\bf{w}}}}}}}}}_{i}\in {{\mathbb{R}}}^{{d}_{m}},i\in [1,{K}_{in}]\) désigne les paramètres apprenables, ⊙ désigne le multiple élément par élément, (⋅)2 désigne le carré élément par élément et le carré d'un vecteur représente ici le carré élément par élément. Pour simplifier la représentation, nous attribuons au mécanisme d'attention du filtre de lissage Smoothing-Filter(E) et notons sa sortie Hs. Avant de présenter notre module d'attention aux différences, nous définissons d'abord la différence entre une matrice et son opération inverse CumSum.

Étant donné une matrice \({{{{{\bf{M}}}}}}}}\in {{\mathbb{R}}}^{m\times n}\), \({{{{{{{\bf{M}}}}}}}}=\left[\begin{array}{cccc}{{{{{{{{\bf{m}}}}}}}}}_{1}&{{{{{{{\bf{ m}}}}}}}}_{2}&...&{{{{{{{\bf{m}}}}}}}}_{n}\end{array}\right]\), la différence de M est définie comme :

où \(\Delta {{{{{{{{\bf{m}}}}}}}_{i}={{{{{{{\bf{m}}}}}}}}_{i+1}-{{{{{{{{\bf{m}}}}}}}}_{i},\Delta {{{{{{{{\bf{m}}}}}}}}}_{i}\in {{\mathbb{R}}}^{m},i\in [1,n)\) et on complète Δmn avec Δmn−1 pour garder une longueur fixe avant et après l'opération de différence. L'opération CumSum Σ vers M est définie comme suit :

où \(\Sigma {{{{{{{\bf{m}}}}}}}}_{i}=\mathop{\sum}\nolimits_{j = 1}^{i}{{{{{{{\bf{m}}}}}}}}}_{j},\Sigma {{{{{{{{\bf{m}}}}}}}}}_{i}\in {{\mathbb{R }}}^{m}.\) Le module d'attention différentielle, intuitivement, peut être vu comme un mécanisme d'attention branché entre ces deux opérations, mathématiquement décrit comme suit.

L'entrée de ce modèle implique trois éléments : Q, K, V. Le (Q, K, V) varie entre l'encodeur et le décodeur, qui est \(({{{{{{{\bf{H}}}}}}}}}_{s}^{en},{{{{{{{{\bf{H}}}}}}}}}_{s}^{en},{{{{{{{\bf{H}}}}}}}}_ {s}^{en})\) pour l'encodeur et \(({{{{{{{{\bf{H}}}}}}}}_{s}^{de},{{{{{{{\bf{E}}}}}}}}}_{en}^{out},{{{{{{{{\bf{E}}}}}}}_{en}^{out})\) pour le décodeur, où \({{ {{{{{{\bf{E}}}}}}}}_{en}^{out}\) est le résultat intégré du bloc d'encodeur final (attribué dans le pseudo-code), \({{{{{{{{\bf{H}}}}}}}}}_{s}^{en}\in {{\mathbb{R}}}^{{d}_{m}\times K},{{{{{{{{\bf{H} }}}}}}}}_{s}^{de}\in {{\mathbb{R}}}^{{d}_{m}\times {K}_{de}},{{{{{{{{\bf{E}}}}}}}}}_{en}^{out}\in {{\mathbb{R}}}^{{d}_{m}\times K}\).

où \({{{{{{{\bf{W}}}}}}}}}_{q}^{(i)}\in {{\mathbb{R}}}^{{d}_{a}\times {d}_{m}}\), \({{{{{{{{\bf{W}}}}}}}}_{k}^{(i)}\in {{\mathbb{R}}}^{{d} _{attn}\times {d}_{m}}\), \({{{{{{{\bf{W}}}}}}}}}_{v}^{(i)}\in {{\mathbb{R}}}^{{d}_{a}\times {d}_{m}}\), \({{{{{{{{\bf{W}}}}}}}}_{s}\in {{\mathbb {R}}}^{{d}_{m}\times h{d}_{a}}\), \({{{{{{{\bf{D}}}}}}}}\in {{\mathbb{R}}}^{{d}_{m}\times K}\), i ∈ [1, h], h désigne le nombre d'attentions parallèles. \(\left[\begin{array}{c}\cdot \end{array}\right]\) désigne la concaténation de la matrice, \({\widetilde{{{{{{{{\bf{V}}}}}}}}}}_{s}^{(i)}\) désigne le changement profond et D désigne la tendance profonde. Nous désignons le module d'attention différentielle par Differential-attention(Q, K, V) pour faciliter les représentations.

La sortie finale de Diviner est calculée à l'aide de couches convolutives, appelées le générateur à une étape, qui prend la sortie de la couche de décodeur finale \({{{{{{{\bf{E}}}}}}}}_{de}^{out}\) comme entrée :

où \({{{{{{\bf{R}}}}}}}}}_{prédire}\in {{\mathbb{R}}}^{{d}_{m}\times {K}_{r}},{{{{{{{{\bf{E}}}}}}}}_{de}^{(M)}\in {{\mathbb{R}}}^{{d}_{m}\times { K}_{de}}\), ConvNet est un réseau entièrement convolutif multicouche, dont les canaux d'entrée et de sortie sont respectivement la longueur d'entrée du décodeur Kde et la longueur de prédiction Kr.

Pour la commodité de la reproduction, nous résumons le framework de notre Devin dans le pseudo-code suivant :

Les ensembles de données soutenant notre travail ont été déposés sur https://doi.org/10.5281/zenodo.7827077. Cependant, des restrictions s'appliquent à la disponibilité des données NPT, qui ont été utilisées sous licence pour l'étude actuelle, et ne sont donc pas accessibles au public. Les données sont cependant disponibles auprès des auteurs sur demande raisonnable et avec l'autorisation du China Information Technology Designing Consulting Institute.

Les codes sont disponibles sur https://doi.org/10.5281/zenodo.7825740.

Jovović, I., Husnjak, S., Forenbacher, I. & Maček, S. Application innovante de la 5G et de la technologie blockchain dans l'industrie 4.0. EAI Approuvé Trans. Réseau Ind. Renseignement. Syst. 6, e4 (2019).

Osseiran, A. et al. Scénarios pour les communications mobiles et sans fil 5G : la vision du projet METIS. IEEE commun. Mag. 52, 26–35 (2014).

Article Google Scholar

Wu, G., Yang, C., Li, S. & Li, GY Progrès récents dans les réseaux économes en énergie et leur application dans les systèmes 5G. IEEE Wirel. Commun. 22, 145-151 (2015).

Article Google Scholar

Hui, H., Ding, Y., Shi, Q., Li, F. et Yan, J. Internet des objets basé sur le réseau 5G pour la réponse à la demande dans les réseaux intelligents : une enquête sur le potentiel d'application. Appl. Énergie 257, 113972 (2020).

Article Google Scholar

Johansson, NA, Wang, Y., Eriksson, E. & Hessler, M. Accès radio pour des communications 5G ultra-fiables et à faible latence. dans Actes de l'atelier de la Conférence internationale de l'IEEE sur la communication, 1184-1189 (2015).

Yilmaz, O., Wang, Y., Johansson, NA, Brahmi, N. & Sachs, J. Analyse d'une communication 5G ultra fiable et à faible latence pour un cas d'utilisation d'automatisation d'usine. dans Actes de l'atelier de la Conférence internationale de l'IEEE sur la communication (2015).

Fernández, ML, Huertas, CA, Gil, PM, García, CFJ & Martínez, PG Gestion dynamique d'un système de détection d'anomalies basé sur l'apprentissage profond pour les réseaux 5G. J. Intelligence ambiante. Hum. Calcul. 10, 3083–3097 (2019).

Article Google Scholar

O'Connell, E., Moore, D. et Newe, T. Défis associés à la mise en œuvre de la 5G dans la fabrication. Télécom 1, 48–67 (2020).

Article Google Scholar

Oughton, EJ, Frias, Z., van der Gaast, S. & van der Berg, R. Évaluation de la capacité, de la couverture et du coût des stratégies d'infrastructure 5G : Analyse des Pays-Bas. Télémat. Informer. 37, 50–69 (2019).

Article Google Scholar

Gupta, A. & Jha, RK Une enquête sur le réseau 5g : architecture et technologies émergentes. Accès IEEE 3, 1206–1232 (2015).

Article Google Scholar

Wang, C. et al. Architecture cellulaire et technologies clés pour les réseaux de communication sans fil 5G. IEEE commun. Mag. 52, 122-130 (2014).

Article Google Scholar

Li, QC, Niu, H., Papathanassiou, AT & Wu, G. Capacité du réseau 5G : éléments et technologies clés. IEEE Vehicular Technol. Mag. 9, 71–78 (2014).

Article Google Scholar

Liu, H. Recherche sur la technologie d'allocation et d'optimisation des ressources dans le réseau de communication 5G. Dans Actes de la Conférence internationale sur l'électronique grand public et l'ingénierie informatique, 209-212 (2022).

Yoo, W. & Sim, A. Modélisation des prévisions de séries chronologiques sur les mesures de réseaux à large bande passante. J. Grid Comput. 14, 463–476 (2016).

Article Google Scholar

Wei, Y., Wang, J. & Wang, C. Un algorithme de gestion de la bande passante basé sur la prévision du trafic d'une future architecture Internet. dans Actes de la conférence internationale sur les réseaux intelligents et les systèmes intelligents, 560–563 (2010).

Garroppo, RG, Giordano, S., Pagano, M. & Procissi, G. Sur la prévision du trafic pour l'allocation des ressources : un schéma d'allocation basé sur les limites de Chebyshev. Calcul. Commun. 31, 3741–3751 (2008).

Article Google Scholar

Bega, D., Gramaglia, M., Fiore, M., Banchs, A. & Costa-Pérez, X. Deepcog : Optimisation de l'approvisionnement des ressources dans le découpage du réseau avec des prévisions de capacité basées sur l'IA. IEEE J. Sel. Zones Commun. 38, 361–376 (2019).

Article Google Scholar

Hassidim, A., Raz, D., Segalov, M. & Shaqed, A. Utilisation du réseau : la vue du flux. dans Actes de 2013 IEEE INFOCOM, 1429–1437 (2013).

Box, G., Jenkins, G., Reinsel, G. & Ljung, G. Analyse des séries chronologiques : prévision et contrôle (John Wiley & Sons, Amérique, 2015).

Box, GE & Jenkins, GM Quelques avancées récentes en matière de prévision et de contrôle. Statistique JR. Soc. C 17, 91–109 (1968).

MathSciNetGoogle Scholar

Modèle Moayedi, H. & Masnadi-Shirazi, M. Arima pour la prédiction du trafic réseau et la détection des anomalies. dans Actes du Symposium international sur les technologies de l'information, vol. 4, 1–6 (2008).

Azari, A., Papapetrou, P., Denic, S. & Peters, G. Prévision et classification du trafic cellulaire : Une évaluation comparative de lstm et arima. Dans Actes de la conférence internationale sur la découverte scientifique, 129-144 (2019).

Tikunov, D. & Nishimura, T. Prévision du trafic pour le réseau mobile à l'aide du lissage exponentiel de Holt-Winter. Dans Actes de la Conférence internationale sur les logiciels, les télécommunications et les réseaux informatiques, 1–5 (2007).

Shu, Y., Yu, M., Yang, O., Liu, J. & Feng, H. Modélisation et prévision du trafic sans fil à l'aide de modèles arima saisonniers. IEICE Trans. Commun. 88, 3992–3999 (2005).

Article Google Scholar

Rafsanjani, MK, Rezaei, A., Shahraki, A. & Saeid, AB Qarima : une nouvelle approche de la prédiction dans la théorie des files d'attente. Appl. Mathématiques. L'informatique. Rév. 244, 514–525 (2014).

MathSciNet MATHGoogle Scholar

Taylor, S. & Letham, B. Prévision à grande échelle. Suis. Statistique. 72, 37–45 (2018).

Article MathSciNet MATH Google Scholar

LeCun, Y., Bengio, Y. & Hinton, G. Apprentissage en profondeur. Nature 521, 436–444 (2015).

Article Google Scholar

Hochreiter, S. & Schmidhuber, J. Longue mémoire à court terme. Calcul neuronal. 9, 1735–1780 (1997).

Article Google Scholar

Salinas, D., Flunkert, V., Gasthaus, J. & Januschowski, T. DeepAR : prévision probabiliste avec réseaux récurrents autorégressifs. Int. J. Prévisions. 36, 1181-1191 (2020).

Article Google Scholar

Qin, Y. et al. Un réseau neuronal récurrent basé sur l'attention en deux étapes pour la prédiction de séries chronologiques. dans Actes de la Conférence conjointe internationale sur l'intelligence artificielle, 2627-2633 (2017).

Mona, S., Mazin, E., Stefan, L. & Maja, R. Modélisation de séries temporelles irrégulières avec des unités récurrentes continues. Proc. Int. Conf. Mach. Apprendre. 162, 19388–19405 (2022).

Google Scholar

Kashif, R., Calvin, S., Ingmar, S. et Roland, V. Modèles de diffusion de débruitage autorégressif pour la prévision de séries chronologiques probabilistes multivariées. dans Actes de la conférence internationale sur l'apprentissage automatique, vol. 139, 8857–8868 (2021).

Alasdair, T., Alexander, PM, Cheng, SO & Xie, L. Radflow : Un modèle récurrent, agrégé et décomposable pour les réseaux de séries chronologiques. dans Actes de la conférence internationale sur le World Wide Web, 730–742 (2021).

Ling, F. et al. L'apprentissage automatique multi-tâches améliore la prédiction multi-saisonnière du dipôle de l'océan Indien. Nat. Commun. 13, 1–9 (2022).

Article Google Scholar

Vaswani, A. et al. L'attention est tout ce dont vous avez besoin. Proc. Annu. Conf. Information neuronale. Processus. Syst. 30, 5998–6008 (2017).

Google Scholar

Alexandre, D., Étienne, M. & Nicolas, C. TACTiS : copules transformatrices-attentionnelles pour séries temporelles. dans Actes de la conférence internationale sur l'apprentissage automatique, vol. 162, 5447–5493 (2022).

Tung, N. & Aditya, G. Processus neuronaux transformateurs : méta-apprentissage sensible à l'incertitude via la modélisation de séquences. dans Actes de la conférence internationale sur l'apprentissage automatique, vol. 162, 16569–16594 (2022).

Wen, Q. et al. Transformateurs dans les séries chronologiques : une enquête. CoRR (2022).

Zhou, H. et al. Informer : au-delà d'un transformateur efficace pour la prévision de séries chronologiques à longue séquence. dans Actes de la conférence AAAI sur l'intelligence artificielle (2021).

Kitaev, N., Kaiser, L. & Levskaya, A. Reformer : le transformateur efficace. dans Actes de la Conférence internationale sur les représentations de l'apprentissage (2019).

Li, S. et al. Améliorer la localité et briser le goulot d'étranglement de la mémoire du transformateur sur la prévision des séries chronologiques. dans Actes de la 33e Conférence annuelle sur les systèmes de traitement de l'information neuronale vol. 32, 5244–5254 (2019).

Wu, H., Xu, J., Wang, J. & Long, M. Autoformer : transformateurs de décomposition avec auto-corrélation pour la prévision de séries à long terme. dans Actes de la conférence annuelle sur les systèmes de traitement de l'information neuronale, vol. 34, 22419–22430 (2021).

Zhou, T. et al. Fedformer : transformateur décomposé à fréquence améliorée pour la prévision de séries à long terme. dans Actes de la conférence internationale sur l'apprentissage automatique, vol. 162, 27268–27286 (2022).

Liu, S. et al. Pyraformer : attention pyramidale de faible complexité pour la modélisation et la prévision de séries chronologiques à long terme. dans Actes de la Conférence internationale sur les représentations de l'apprentissage (ICLR) (2021).

Liu, M. et al. SCINet : Modélisation et prévision de séries chronologiques avec convolution et interaction d'échantillons. dans Actes de la conférence annuelle sur les systèmes de traitement de l'information neuronale (2022).

Wang, Z. et al. Apprentissage des représentations latentes des tendances saisonnières pour la prévision des séries chronologiques. dans Actes de la conférence annuelle sur les systèmes de traitement de l'information neuronale (2022).

Xie, C. et al. Analyse des tendances et prévision de l'incidence quotidienne signalée de la maladie mains-pieds-bouche dans le hubei, en chine, par le modèle du prophète. Sci. Rép. 11, 1–8 (2021).

Google Scholar

Cox, DR & Miller, HD La théorie des processus stochastiques (Routledge, Londres, 2017).

Dette, H. & Wu, W. Prédiction dans des séries chronologiques localement stationnaires. J.Bus. Écon. Statistique. 40, 370–381 (2022).

Article MathSciNetGoogle Scholar

Wold, HO Sur la prédiction dans les séries chronologiques stationnaires. Ann. Mathématiques. Statistique. 19, 558–567 (1948).

Article MathSciNet MATH Google Scholar

Watson, GS Analyse de régression lisse. Sankhyā: The Indian Journal of Statistics, série A359–372 (1964).

Nadaraya, EA Sur l'estimation de la régression. Théorie Probab. Appl. 9, 141-142 (1964).

Article MATH Google Scholar

Chen, P., Liu, R., Aihara, K. & Chen, L. Calcul d'autoréservoir pour la prédiction à plusieurs étapes basée sur la transformation spatio-temporelle de l'information. Nat. Commun. 11, 1–15 (2020).

Google Scholar

Lu, J., Wang, Z., Cao, J., Ho, DW et Kurths, J. Épingler la stabilisation impulsive des réseaux dynamiques non linéaires avec un retard variant dans le temps. Int. J. Bifurc. Chaos 22, 1250176 (2012).

Article MATH Google Scholar

Malik, N., Marwan, N., Zou, Y., Mucha, PJ et Kurths, J. Fluctuation de similarité pour détecter les transitions entre des régimes dynamiques distincts dans de courtes séries temporelles. Phys. Rév. E 89, 062908 (2014).

Article Google Scholar

Yang, R., Lai, Y. & Grebogi, C. Prévoir l'avenir : est-ce possible pour des systèmes dynamiques non linéaires variant adiabatiquement dans le temps ? Chaos 22, 033119 (2012).

Article MathSciNet MATH Google Scholar

Henkel, SJ, Martin, JS & Nardari, F. Prévisibilité à court terme variant dans le temps. J. Financ. Écon. 99, 560-580 (2011).

Article Google Scholar

Wu, N., Green, B., Ben, X. & O'Banion, S. Modèles de transformateurs profonds pour la prévision des séries chronologiques : le cas de prévalence de la grippe. Préimpression sur arXiv https://doi.org/10.48550/arXiv.2001.08317 (2020).

Lea, C., Flynn, MD, Vidal, R., Reiter, A. & Hager, GD Réseaux convolutifs temporels pour la segmentation et la détection d'actions. dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 156-165 (2017).

Bahdanau, D., Cho, K. & Bengio, Y. Traduction automatique neurale en apprenant conjointement à aligner et à traduire. dans Actes de la Conférence internationale sur les représentations de l'apprentissage (2015).

Oreshkin, BN, Carpov, D., Chapados, N. & Bengio, Y. N-BEATS : analyse de l'expansion de la base neurale pour la prévision de séries chronologiques interprétables. dans Actes de la Conférence internationale sur les représentations de l'apprentissage (2020).

Li, S. et al. Améliorer la localité et briser le goulot d'étranglement de la mémoire du transformateur sur la prévision des séries chronologiques. dans Actes de la conférence annuelle sur les systèmes de traitement de l'information neuronale 32 (2019).

Geary, N., Antonopoulos, A., Drakopoulos, E., O'Reilly, J. & Mitchell, J. Un cadre pour la planification du réseau optique dans l'incertitude du trafic. dans Actes de l'atelier international sur la conception de réseaux de communication fiables, 50–56 (2001).

Laguna, M. Application d'une optimisation robuste à l'expansion de la capacité d'un emplacement dans les télécommunications avec une demande incertaine. Géré. Sci. 44, S101–S110 (1998).

Article MATH Google Scholar

Bauschert, T. et al. Planification du réseau dans des conditions d'incertitude de la demande avec une optimisation robuste. IEEE commun. Mag. 52, 178-185 (2014).

Article Google Scholar

Radakovic, Z. & Feser, K. Une nouvelle méthode pour le calcul de la température du point chaud dans les transformateurs de puissance avec refroidissement onan. IEEE Trans. Puissance Livr. 18, 1284-1292 (2003).

Article Google Scholar

Zhou, LJ, Wu, GN, Tang, H., Su, C. & Wang, HL Méthode du circuit de chauffage pour calculer l'élévation de température du transformateur de traction scott. Haute tension. Ing. 33, 136–139 (2007).

Google Scholar

Jiang, J. et al. Prédire les points de basculement dans les réseaux mutualistes grâce à la réduction de dimension. Proc. Natl Acad. Sci. États-Unis 115, E639–E647 (2018).

Article MathSciNet MATH Google Scholar

Chen, L., Liu, R., Liu, Z., Li, M. & Aihara, K. Détection des signaux d'alerte précoce pour la détérioration soudaine de maladies complexes par des biomarqueurs de réseau dynamiques. Sci. Rep. 2, 1–8 (2012).

Article Google Scholar

Yang, B. et al. Le biomarqueur de réseau dynamique indique une métastase pulmonaire au point de basculement du carcinome hépatocellulaire. Nat. Commun. 9, 1–14 (2018).

Google Scholar

Liu, R., Chen, P. & Chen, L. L'entropie du paysage à échantillon unique révèle la transition de phase imminente au cours de la progression de la maladie. Bioinformatique 36, 1522-1532 (2020).

Article Google Scholar

Télécharger les références

Ce travail a été soutenu par la National Natural Science Foundation of China sous Grant 62076016 et 12201024, Beijing Natural Science Foundation L223024.

Ces auteurs ont contribué à parts égales : Yuguang Yang et Shupeng Geng.

Université de Pékin, 100191, Pékin, Chine

Yuguang Yang, Shupeng Geng, Baochang Zhang et Juan Zhang

Laboratoire de Zhongguancun, 100094, Pékin, Chine

Baochang Zhang et Juan Zhang

China Unicom, 100037, Pékin, Chine

Zheng Wang et Yong Zhang

Université de Buffalo, 14260, Buffalo, NY, États-Unis

David Doermann

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

YY, SG, BZ, JZ et DD ont conçu la recherche. Tous les auteurs travaillent à la rédaction de l'article. YY et SG ont également contribué à ce travail en réalisant des expériences et en analysant les résultats. ZW et YZ ont collecté les données de trafic du réseau 5G. Tous les auteurs ont lu et approuvé le document final.

Correspondance à Baochang Zhang ou Juan Zhang.

Les auteurs ne déclarent aucun intérêt concurrent.

Aucun cas de « dumping éthique » et de « recherche par hélicoptère » n'a été signalé dans notre recherche.

Communications Engineering remercie Akhil Gupta, Erol Egrioglu et les autres examinateurs anonymes pour leur contribution à l'examen par les pairs de ce travail. Rédacteurs en chef de la manipulation principale : Miranda Vinay et Rosamund Daw. Un dossier d'examen par les pairs est disponible.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Yang, Y., Geng, S., Zhang, B. et al. Prévision à long terme du trafic sur le réseau 5G via la modélisation de la non-stationnarité avec apprentissage en profondeur. Commun Eng 2, 33 (2023). https://doi.org/10.1038/s44172-023-00081-4

Télécharger la citation

Reçu : 07 septembre 2022

Accepté : 10 mai 2023

Publié: 06 juin 2023

DOI : https://doi.org/10.1038/s44172-023-00081-4

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt