プレゼンテーションからデータ分布測定までの学習統計

統計学は、データの収集、処理、分析、および表示を研究する数理科学です。統計は保険会社で広く使用されており、その1つは保険契約の保険料の額を決定することです。すべての保険保有者は、保険料と呼ばれる拠出金を支払う必要があります。支払われる保険料は、彼が受ける保険の補償範囲に応じたものです。

ここで、保険会社は統計を使用して、保険料の額が保険保有者に提供できる補償額に一致するようにします。そうすれば、両方の当事者がそれから利益を得ることができます。

前述のように、統計はデータを収集して処理するだけでなく、データを提示します。統計はまた、データの処理にいくつかのデータ分布尺度を使用します。今日は、プレゼンテーションの種類と統計におけるデータの広がりの大きさについて説明します。

データ表示の種類

統計におけるデータ表示のタイプには、度数分布表、ヒストグラム、ポリゴン、および累積度数分布図が含まれます。

データ表示の最初の形式は、度数分布表を使用することです。名前が示すように、取得したデータの種類と量を表示するためにテーブルを使用します。度数分布表には、単一データとグループデータの度数分布表といういくつかのタイプもあります。

(また読む:統計における2つの測定データ)

単一のデータ度数分布表を使用して、少なくとも30データ未満の少量のデータを表示します。単一のデータ度数分布表を使用してデータを表示する例は次のとおりです。

以下のデータは、30人の学生のテストスコアです。単一のデータ度数分布表に提供します!

4 8 7 9 10 3 4 6 7 6 5 7 7 8 9 6 6 8 7 9 4 5 6 7 8 10 4 5 6 7

注意を払うと、得られた最低のテストスコアは3で、最高のスコアは10です。次に、これらのスコアから、それを取得した学生の数が計算されます。たとえば、3年生の場合、生徒は1人だけです。 4年生の場合、4人の生徒がいます。この図は、次のような表に表示されます。

洋上ウィンドファームの地面にあるタービン

次のタイプの度数分布表は、グループデータ度数分布表です。このテーブルは、30を超えるデータである多くのデータを表示するために使用されます。以下の例を見てみましょう。

以下は、唐辛子農園の唐辛子植物の高さ(ミリメートル単位)です。データをグループデータ分布表に提示します!

123 131 120 128 126 124 125 122

121 126 124 123 122 120 125 126

123 123 134 125 125 126 128 135

120 126 124 133 126 127 123 126

122 125 123 132 124 132 128 124

単一のデータとは対照的に、ここでは、テーブルに表示されるクラスの数とクラスの長さを計算する必要があります。上記のデータを使用して、ここに計算があります。

大量のデータ(n)= 40

最大高さ(x最大) = 135

最小の高さ(x最小) = 120

範囲(J)= x最大 - バツ最小 = 135 – 120 = 15

クラス数(k)= 1 + 3,3logn = 1 + 3,3 log40 = 6,2868…≈k= 6

クラスの長さ(c)= J / k = 15/6 =2.5≈c= 3

これらの結果から、グループデータ分布表を次のように表示できます。

洋上ウィンドファームの地面にあるタービン

次に、他のタイプのグループ化されたデータ表示、つまりヒストグラム、頻度ポリゴン、および累積度数分布図について説明します。以下の度数分布表をご覧ください。この表には、80人のスポーツクラブ会員の体重情報が含まれています。

洋上ウィンドファームの地面にあるタービン

ヒストグラムグラフを使用してデータを表示するには、最初にデカルトグラフを作成します。 x軸は各クラスの上限と下限を示し、y軸は頻度を示します。

統計4(1)

ヒストグラムとは異なり、頻度ポリゴングラフはクラス間隔の平均値を取り、頻度に応じて線で表示します。

統計5(1)

最後に、データの表示には、正の累積または負の周波数曲線が使用されます。まず、y軸に各インターバルクラスの累積度数値をマークします。次に、インターバルクラスと累積度数の上限ペアに従ってポイントの座標をマークします。ドットを滑らかな曲線に接続します。

データスプレッドサイズ

統計には、データ集中のサイズとデータ分布のサイズの2種類のデータ測定があります。説明と違いは何ですか?

データセンターのサイズは、データの場所を表す値です。データ中心の測定には、平均、最頻値、中央値があります。

平均または平均は、観測されたすべてのデータと多数のデータの合計の間の商です。平均は次のように定式化できます。

平均=(すべてのデータの合計)/(大量のデータ)

理解を深めるために、次の問題例に取り組みましょう。 5人が自分の環境で社会活動を行うために必要な1週間の時間数は、10、7、13、20、および15時間です。彼らが社会活動に費やす週の平均時間数を決定してください!

上記の問題に基づいて、次のように数式に数値を入力できます。

平均=(10 + 7 + 13 + 20 + 15)/ 5 = 65/5 = 13

これは、彼らが社会活動に費やす平均時間数が13時間であることを意味します。

平均または平均とは別に、モードもあります。モードは、データに最も頻繁に現れる値です。次の問題の例を見てみましょう。

以下は、7年生の生徒の体重データ(キログラム)です。データの最頻値を決定してください。

32, 35, 33, 32, 34, 31, 35, 35, 31, 34, 35, 3

まず、各値がデータに現れる回数を数える必要があります。これらのデータに基づいて、31(x3)、32(x2)、33(x1)、34(x2)、および35(x4)が得られます。 35が最も頻繁に発生するため、上記のデータの最頻値は35です。

データ中心の測定値の最後のタイプは中央値です。中央値はデータを2つの等しい部分に分割するため、中央値は並べ替えられたデータの中央値になります。

中央値を決定するには、最初にすべてのデータを降順または昇順で並べ替える必要があります。次に、大量のデータを定義し、それを「n」としてシンボル化します。 nが奇数の場合、使用する式は次のとおりです。

中央値=データ数-((n + 1)/ 2)

一方、nが偶数の場合は、次の式を使用します。

中央値=(データi番目(n / 2)+データi番目(n / 2 + 1))/ 2

統計におけるデータの2番目の測定は、データの広がりの測定です。データスプレッドのサイズは、データがデータセンターからどれだけ離れているかを示す値です。データ分布のサイズは、範囲、四分位数、および四分位範囲で構成されます。

範囲は、最大のデータ値と最小のデータ値の差です。最小のデータから最大のデータを差し引くことでリーチを得ることができます。たとえば、あるクラスで、最も背の高い生徒の身長が160 cmで、最も背の低い生徒の身長が143 cmの場合、リーチは23cmになります。

一方、四分位数は、統計データを4つの等しい部分にグループ化したものです。四分位数のサイズは3つに分割されます。つまり、下位四分位数(Q1)、中四分位数(Q2 または中央値)、および上位四分位数(Q3)。各四分位数を決定するには、いくつかの手順を実行する必要があります。

まず、データを昇順または降順で並べ替えます。次に、データの中央値または中央値を決定します。第三に、下位四分位数を見つけます(Q1)、これは中央値(Q2)。最後に、上位四分位数を見つけます(Q3)、つまり中央値を超えるデータグループの平均値(Q2).

最後のタイプのデータ分布尺度は四分位範囲です。四分位範囲は、上位四分位数と下位四分位数の差です。式は次のとおりです。

Qd = Q3 -Q1

最近の投稿

$config[zx-auto] not found$config[zx-overlay] not found