查看: 4136|回复: 0

使用乳腺癌数据集的人工神经网络

字体大小: 正常放大

1178 主题	15 听众	1万积分

TA的每日心情

	开心 2023-7-31 10:17

签到天数: 198 天

[LV.7]常住居民III

自我介绍: 数学中国浅夏

电梯直达

1^#

发表于 2021-10-15 17:10 |只看该作者 |正序浏览

|招呼Ta 关注Ta

使用乳腺癌数据集的人工神经网络人工神经网络
顾名思义，人工神经网络，就是人工神经元的网络。它指的是模仿大脑的生物启发模型。可以说，构建人脑结构的通常是基于生物神经网络的计算网络。

大家都知道，在我们的大脑中，神经元是相互连接和传递数据的过程。它类似于人脑神经元之间相互连接，神经网络由大量人工神经元组成，称为按层顺序排列的单元。具有各层神经元并形成一个完整的网络。这些神经元被称为节点。

它由三层组成，分别是：

输入层

隐藏层

输出层

使用乳腺癌数据集创建ANN
现在我们进入我们的主题，这里我们将采用数据集，然后创建人工神经网络并对诊断进行分类。

首先，我们采用乳腺癌的数据集，然后继续前进。

乳腺癌数据集：https://www.kaggle.com/uciml/breast-cancer-wisconsin-data

下载数据集后，我们将导入所需的重要库。

导入库
#import pandas
import pandas as pd
#import numpy
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sb
这里我们导入了 pandas、NumPy 和一些可视化库。

现在我们使用pandas加载我们的数据集：

df = pd.read_csv('Breast_cancer.csv')
df

在此数据集中，我们指向**“diagnosis”**特征列，因此我们使用 Pandas 检查该列的值计数：

# counting values of variables in 'diagnosis'
df['diagnosis'].value_counts()

现在为了更好地理解，我们可视化“diagnosis列”的值计数。

可视化值计数
plt.figure(figsize=[17,9])
sb.countplot(df['diagnosis'].value_counts())
plt.show()

空值

在数据集中，我们必须检查我们使用pandas的变量中是否存在空值：

df.isnull().sum()
执行程序后，我们得出结论，特征名称“Unnamed:32”包含所有空值，因此我们删除该列。

#droping feature
df.drop(['Unnamed: 32','id'],axis=1,inplace=True)

自变量和因变量

现在是时候将数据集划分为自变量和因变量了，为此我们创建了两个变量，一个代表自变量，另一个代表因变量。

# independent variables
x = df.drop('diagnosis',axis=1)
#dependent variables
y = df.diagnosis
处理分类值
当我们打印因变量y 时，我们看到其中包含分类数据，我们必须将分类数据转换为二进制格式以进行进一步处理，因此我们使用 Scikit learn Label Encoder 对分类数据进行编码。

from sklearn.preprocessing import LabelEncoder
#creating the object
lb = LabelEncoder()
y = lb.fit_transform(y)

拆分数据
现在是时候将数据拆分为训练和测试部分了：

from sklearn.model_selection import train_test_split
xtrain,xtest,ytrain,ytest = train_test_split(x,y,test_size=0.3,random_state=40)

缩放数据
当我们创建人工神经网络时，我们必须将数据缩放为更小的数字，因为深度学习算法将节点的权重和输入数据相乘，这需要大量时间，因此为了减少该时间，我们缩放数据。

对于缩放，我们使用 scikit learn StandardScaler模块，我们缩放训练和测试数据集：

#importing StandardScaler
from sklearn.preprocessing import StandardScaler
#creating object
sc = StandardScaler()
xtrain = sc.fit_transform(xtrain)
xtest = sc.transform(xtest)

从这里我们开始创建人工神经网络，为此我们导入用于创建 ANN 的重要库：

#importing keras
import keras
#importing sequential module
from keras.models import Sequential
# import dense module for hidden layers
from keras.layers import Dense
#importing activation functions
from keras.layers import LeakyReLU,PReLU,ELU
from keras.layers import Dropout

创建层
导入这些库后，我们创建了三种类型的层：

输入层

隐藏层

输出层

首先，我们创建模型：

#creating model
classifier = Sequential()

Sequential模型适用于每一层恰好有一个输入张量和一个输出张量的平面堆栈。

现在我们创建神经网络的层：

#first hidden layer
classifier.add(Dense(units=9,kernel_initializer='he_uniform',activation='relu',input_dim=30))
#second hidden layer
classifier.add(Dense(units=9,kernel_initializer='he_uniform',activation='relu'))
# last layer or output layer
classifier.add(Dense(units=1,kernel_initializer='glorot_uniform',activation='sigmoid'))

在以下代码中，使用 Dense 方法创建图层，因为我们使用基本参数。

第一个参数是输出节点

第二个是内核权重矩阵的初始化器

第三个是激活函数

最后一个参数是输入节点或独立特征的数量。

执行此代码后，我们使用以下方法对其进行总结：
#taking summary of layers
classifier.summary()

编译人工神经网络
现在我们用优化器编译我们的模型：

#compiling the ANN
classifier.compile(optimizer='adam',loss='binary_crossentropy',metrics=['accuracy'])

将 ANN 拟合到训练数据中
编译模型后，我们必须将 ANN 拟合到训练数据中以进行预测：

#fitting the ANN to the training set
model = classifier.fit(xtrain,ytrain,batch_size=100,epochs=100)

it()方法将神经网络与训练数据进行拟合，在参数中设置batch_size、epochs等变量的具体值。

在训练数据之后，我们还要对测试数据的准确性评分进行测试，如下所示:

#now testing for Test data
y_pred = classifier.predict(test)

在执行此代码时，我们发现 y_pred 包含不同的值，因此我们将预测值转换为阈值，如True, False。

#converting values
y_pred = (y_pred>0.5)
print(y_pred)

分数和混淆矩阵
现在我们检查混淆矩阵和预测值的分数。

from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
cm = confusion_matrix(ytest,y_pred)
score = accuracy_score(ytest,y_pred)
print(cm)
print('score is:',score)

输出：

可视化混淆矩阵
在这里，我们可视化预测值的混淆矩阵

# creating heatmap of comfussion matrix
plt.figure(figsize=[14,7])
sb.heatmap(cm,annot=True)
plt.show()

可视化数据历史
现在我们可视化每个时期的损失和准确性。

# list all data in history
print(model.history.keys())
# summarize history for accuracy
plt.plot(model.history['accuracy'])
plt.title('model accuracy')
plt.ylabel('accuracy')
plt.xlabel('epoch')
plt.legend(['train', 'test'], loc='upper left')
plt.show()

# summarize history for loss
plt.plot(model.history['loss'])
plt.title('model loss')
plt.ylabel('loss')
plt.xlabel('epoch')
plt.legend(['train', 'test'], loc='upper left')
plt.show()

保存模型

最后，我们保存我们的模型

# i& `* [$ I& c9 G) M- d
& _, L, `; x9 H k8 k {
#saving the model
0 X, R: l/ E4 y$ Q' E
% l: R' ^% E- g z" Q! I
( L6 f6 Y3 H/ i9 P9 v$ q9 G5 K- a9 o( x) u$ o; H
classifier.save('File_name.h5')
* C# e- E5 O* h* |$ Y$ i" z$ I1 t* B% h& q ?5 H
$ N7 A. N4 J# |. V* U
& u3 S1 V; O5 O& y! Q& V+ _8 S