Modele lettre de coefficient

Le bootstrap peut être utilisé pour construire des intervalles de confiance pour le coefficient de corrélation de Pearson. Dans le bootstrap “non paramétrique”, les paires n (XI, Yi) sont rééchantillonnées “avec remplacement” de l`ensemble observé de n paires, et le coefficient de corrélation r est calculé en fonction des données rééchantillonnées. Ce processus est répété un grand nombre de fois, et la distribution empirique des valeurs r rééchantillonnées est utilisée pour rapprocher la distribution d`échantillonnage de la statistique. Un intervalle de confiance de 95% pour ρ peut être défini comme l`intervalle qui s`étend du 2,5 ème au 97,5 e percentile des valeurs r rééchantillonnées. où sont k {displaystyle r_ {k}} est le coefficient de corrélation de Pearson pour le segment k {displaystyle k}. Le carré du coefficient de corrélation de l`échantillon est généralement dénoté R2 et est un cas particulier du coefficient de détermination. Dans ce cas, il évalue la fraction de la variance en Y qui est expliquée par X dans une régression linéaire simple. Donc, si nous avons le jeu de données observé Y 1,…, Y n {displaystyle y_ {1}, dots, y_ {n}} et le jeu de données ajusté Y ^ 1,…, Y ^ n {displaystyle {hat {Y}} _ {1}, dots, {hat {Y}} _ {n}} alors comme point de départ, la variation totale dans le Yi autour de leur valeur moyenne peut être décomposable comme suit si un terme n`est constitué que de variables, son coefficient est de 1. Le coefficient de corrélation de Pearson lorsqu`il est appliqué à un échantillon est communément représenté par r x y {displaystyle r_ {XY}} et peut être dénommé coefficient de corrélation de l`échantillon ou coefficient de corrélation de Pearson. Nous pouvons obtenir une formule pour r x y {displaystyle r_ {XY}} en substituant des estimations des covariances et des variances basées sur un échantillon dans la formule ci-dessus.

Données appariées {(x 1, y 1),…, (x n, y n)} {displaystyle left{(x_ {1}, y_ {1}), ldots, (x_ {n}, y_ {n}) right}} composé de n {displaystyle n} paires, r x y {displaystyle r_ {XY}} est défini comme: comme beaucoup de statistiques couramment utilisées, l`exemple de statistique r n`est pas r obust [19], de sorte que sa valeur peut être trompeuse si des valeurs aberrantes sont présentes. 20 [21] plus précisément, le PMCC n`est ni distributionnellement robuste, ni résistant aux aberrants [19] (voir statistiques robustes # Definition). L`inspection du nuage de dispersion entre X et Y révélera généralement une situation où le manque de robustesse pourrait être un problème, et dans ce cas, il peut être souhaitable d`utiliser une mesure robuste de l`Association. Notez cependant que, bien que la plupart des estimateurs robustes d`association mesurent la dépendance statistique d`une certaine façon, ils ne sont généralement pas interprétables sur la même échelle que le coefficient de corrélation de Pearson. Un autre coefficient de corrélation [5] proposé est: [citation nécessaire] pour les variables X = {x1,…, xn} et Y = {Y1,…, Yn} qui sont définies sur le cercle unitaire [0, 2π], il est possible de définir un analogue circulaire du coefficient de Pearson. [30] Ceci est fait en transformant des points de données en X et Y avec une fonction sine telle que le coefficient de corrélation est donné comme: ce coefficient de corrélation non centré est identique à la similarité du cosinus. Notez que les données ci-dessus ont été délibérément choisies pour être parfaitement corrélées: y = 0,10 + 0,01 x.

Click en el link para ver: