QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 4121|回复: 0
打印 上一主题 下一主题

[其他资源] 数据挖掘——如何利用Python实现产品关联性分析apriori算法篇

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-12 18:44 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    数据挖掘——如何利用Python实现产品关联性分析apriori算法篇
    , k3 {; H% U7 _: j1 J" r$ V: o; \. Q; @% A8 n7 n; P
    在实际业务场景中,我们常常会探讨到产品的关联性分析,本篇文章将会介绍一下如何在Python环境下如何利用apriori算法进行数据分析。
    3 g' q5 m* q! N, M5 D% X/ h& N. `0 k1 Z4 Q+ V; j2 j3 G
    1.准备工作
    7 p! C; M  [8 g9 |) ?如果需要在Python环境下实现apriori算法,就离不开一个关键的机器学习库mlxtend,运行以下代码进行安装:
    , t' U# Q/ c; _' {' o. s2 f# c0 d& y/ r$ ]
    pip install mlxtend
    ! D1 a" d, a( f4 w$ y/ h7 ]1
    - p% y. [3 m/ }/ D( {* g& O* a# c  T为方便进行过程的演示,在此构建测试数据:
    3 r& l% {5 P5 \3 [& V7 i$ Y+ V  ^. L3 H, S# v" \1 H6 e7 W5 p! w) {
    import pandas as pd
    * P- x: d; w. K* k  U8 k% Wdf=pd.DataFrame({'product_list':['A-C', 'D', 'A-B-C-D','A-C','A-C-D','A-C-B']})# z- I9 t( ?/ i* j0 C7 T
    1( L2 j+ |# X; v  S& f" h+ ~7 V. H
    22 a$ P6 V# T5 ~  i0 m% T
    测试数据截图如下:
    $ ?* P  `# ?/ v- C) G8 F/ j" x+ y( d  m

    4 ?3 Z0 u( {7 r+ u( L4 I对上述的数据进行以下处理:
    : S0 g; y& ]4 N
    8 |' H8 O  i: A' s+ R( H5 idf_chg=df['product_list'].str.split("-")! D3 [) s- K/ u/ t
    1/ I( F, B; p3 I  W" f" K
    数据处理后,结果截图如下:
    # \9 d% h, O7 w2 g) z$ K. O3 \; v
    . V5 m# q+ A; h$ l8 V: m- s) Q8 }截止到此,准备工作已经完成,下面个将会以df_chg作为参数进行建模。5 ]5 S6 C7 c) a4 ^) [* ], Y9 ?$ b
    3 e) `3 h. P& X) B
    2.核心函数及代码
    : ~6 Z5 a1 [/ X. |! i& i% m2.1 数据预处理0 W+ b. n' n$ V& C
    对传入的数据进行预处理,使其成为符合要求的数据。mlxtend模块中有专门用于数据预处理的方法,在这里直接进行调用即可:
    8 P; o2 J1 w5 Z" w# Z
    $ S0 p) n; L6 U- m" b#1.将传入的数据转换为算法可接受的数据类型(布尔值)
    $ \/ V- h3 m  M$ ?& Q1 [from mlxtend.preprocessing import TransactionEncoder; H( C& j* h# d  f
    te = TransactionEncoder(), ~! z( G5 p. B* P+ {. c+ g
    df_tf = te.fit_transform(df_chg)
    , k8 B' }6 E2 W# o2 y#为方便进行查看,生成dataframe8 V! }8 l: r6 j7 W9 Y+ C9 D
    data = pd.DataFrame(df_tf,columns=te.columns_)2 n% [# l" `" n$ Q  [9 f0 w
    1" P+ Z  U8 n! n2 f8 n$ v
    2! _, {4 s5 k* j# I! m; d, y
    3
    ) Y- F4 }  D; \9 X- m2 m8 ?4
    2 p2 k) ]2 K) c5
    ' Z% I# {2 T/ D  f) ~) C5 F$ w6
    + p9 l* x1 K: N/ L0 R2 C6 f运行以上代码后,传入的df_chg数据会被转换成符合要求的数据data,截图如下:
    8 ?* v* k9 s6 U4 a3 B3 ]" V
    7 C, G) f, {/ B& `' T+ ]! W! b9 e
    2.2 两个关键函数6 l" r+ r9 d4 G  w( T
    apriori函数
    + f' O. a9 D2 c( \8 @语法:
    8 P' C, s& k3 F/ o! C1 |& z: A$ ?0 n9 n5 w! G2 w2 p4 X8 ^
    apriori(df, min_support=0.5, use_colnames=False, max_len=None, verbose=0, low_memory=False)% t8 N8 j8 B$ i# K  k% t
    1
    ; y% p" p3 _3 I0 I5 }) p参数详解:
    5 ]3 d3 m- Q, F* Z0 B& }$ T
    - P' `4 W& G  U: Adf: pandas模块中的数据帧,DataFrame形式的数据;4 Y) a1 t5 I1 X1 J$ |2 Q) Z  X
    min_support:一个介于0和1之间的浮点数,表示对返回的项集的最小支持度。7 A, l' h. C! L' k( q
    use_colnames: 如果为 True,则在返回的 DataFrame 中使用 DataFrame 的列名;如果为False,则返回为列索引。通常情况下我们设置为True。
    9 t' ?) ^& {1 t6 a+ Gmax_len: 生成的项目集的最大长度。如果无(默认),则计算所有可能的项集长度。3 c) B/ O4 n" w  ~# p$ d
    verbose: 如果 > = 1且 low_memory 为 True 时,显示迭代次数。如果 = 1且low_memory 为 False,则显示组合的数目。& _; Y2 J5 R  }
    low_memory:如果为 True,则使用迭代器搜索 min_support 之上的组合。low _ memory = True 通常只在内存资源有限的情况下用于大型数据集,因为这个实现比默认设置大约慢3-6倍。
    % i2 ^" D" Y: s9 x; S) Nassociation_rules函数: H( h7 _$ k8 R( P- _& X- K* D
    语法:
    , x1 a( p7 W" k# O( W
    5 R+ L+ D& S/ G0 }$ ^% S/ eassociation_rules(df, metric='confidence', min_threshold=0.8, support_only=False)
    ( v$ f  b- `# E+ u0 u) |7 X1
    6 G4 e7 C  ^& }6 T8 C3 T4 E参数如下:( i! @) L0 s" n& K# r

    . y2 Q% T2 W8 D. ddf: pandas模块中的数据帧,DataFrame形式的数据;
    1 U3 y; Q: `' q/ @metric: 用于评估规则是否有意义的度量。可选参数有以下几种:‘support’, ‘confidence’, ‘lift’, 'leverage’和 ‘conviction’9 z" \0 |- }& J* R6 Z/ o% T1 b
    min_threshold: 评估度量的最小阈值,通过度量参数确定候选规则是否有意义。
    / j, a/ r( y( {, |support_only : 只计算规则支持并用 NaN 填充其他度量列。如果: a)输入 DataFrame 是不完整的,例如,不包含所有规则前因和后果的支持值 b)你只是想加快计算速度,因为你不需要其他度量。
    # k% x6 W1 y8 Q8 T附带metric几种参数的计算方法:
    ! c$ y* R7 H) K
    % d4 x7 V3 p3 l: Bsupport(A->C) = support(A∩C) [aka ‘support’], range: [0, 1]. C& N% Z# L! U6 u0 z6 r

    % d4 W) ~$ O7 L6 z) Oconfidence(A->C) = support(A∩C) / support(A), range: [0, 1]
    " S3 }) f5 g. h  `# \" c. j. [
    * w2 c7 v5 m1 E* H7 v& qlift(A->C) = confidence(A->C) / support(C), range: [0, inf]' Z0 q$ F( B# K) Z" Q

    , B. I1 [* K1 N) o! zleverage(A->C) = support(A->C) - support(A)*support(C),
    6 s% X1 Y/ _  n) @. T" e) a/ x9 urange: [-1, 1]3 Z7 b- y( ?: }: ?0 i  d

    ) j' G& ?4 P" ~( l. h1 qconviction = [1 - support(C)] / [1 - confidence(A->C)],
    3 {3 J3 f) s; i4 m( K/ erange: [0, inf]
    - b) w9 }7 q% w/ T! i. n
    * y; L" H+ G9 W% K% E0 K3.实际应用案例' c- \3 B  b- b& U4 g1 X; t
    以下为完整的调用实例:
    ( @* i) @2 _, `7 s1 j8 Q
      q4 Q/ f+ {: Q5 eimport pandas as pd
    ; V+ L$ d% P+ Q( b+ D9 f6 ]' B; ^from mlxtend.preprocessing import TransactionEncoder7 u+ R0 e6 M6 f9 j- e: f
    from mlxtend.frequent_patterns import apriori8 _3 {( ?  d" v1 o  V0 G
    from mlxtend.frequent_patterns import association_rules
    ! Z. E4 P3 E; S  T2 \% N% `# \#1.构建测试数据4 r+ j/ I6 H" i- w/ H7 b
    df=pd.DataFrame({'product_list':['A-C', 'D', 'A-B-C-D','A-C','A-C-D','A-C-B']})* `- O) R$ X9 J6 G
    df_chg=df['product_list'].str.split("-")$ D, l0 L3 G  j+ b1 ^( J
    #2.数据预处理+ R# N( ~  S! N" J
    #将传入的数据转换为算法可接受的数据类型(布尔值)* a. i2 c1 Y" e) g0 j( J3 r+ g
    te = TransactionEncoder()) M$ w4 b4 R4 f' X( ?: K. n2 j
    df_tf = te.fit_transform(df_chg)
    8 o; @9 T/ Y/ C# l2 X#为方便进行查看,生成dataframe! m1 {. m1 N1 m
    data = pd.DataFrame(df_tf,columns=te.columns_). |5 z$ O. m0 F
    #3.建模; ?1 w2 ?9 q. p2 o, g9 t
    #利用 Apriori函数,设置最小支持度为0.2
    5 [2 l4 E( P% D1 Hfrequent_itemsets = apriori(data,min_support=0.2,use_colnames= True)# l' X  o, O8 ~- i0 n1 k* a# S5 b
    #设置关联规则,设置最小置信度为0.15
    - q5 k3 A: O8 E% T7 etemp= association_rules(frequent_itemsets,metric = 'confidence',min_threshold = 0.15)
    ! J9 E/ V% n4 D#4.剪枝并控制输出
    ( k! D/ A) `/ W6 E1 ^6 H#设置最小提升度,并剔除对应的数据  ?' h2 C  ~. T1 h  ~! n* v! F
    min_lift=1& b- ?3 D) S3 z; l9 K$ o
    rules = temp.drop(temp[temp['lift']<min_lift].index): o/ c* b- R3 z$ v+ E
    #筛选需要输出的列6 y* B% L; @# [! A
    result = rules[['antecedents','consequents','support','confidence','lift']]
    ; i4 _* k* K/ x, K* j" Hresult=result.sort_values(['confidence','lift','support'],ascending=False)
    9 D0 p+ C, N5 h* a5 x% R; f( w- presult.to_csv('apriori_result.csv',index=False,encoding='utf-8-sig')7 p- l7 l: O$ a5 p

    2 g$ |: D/ f& R( U) q" g' Z. u19 d& v6 s" A# u' l( X1 |
    2
    2 P: A; {6 X9 O$ f3" H# X7 n; s9 c) n
    4
    4 m' v( n5 v8 F$ L# |5
    * a9 w' ~2 \: B& t$ t' T' {( _0 R7 I1 I. R6" A% g8 E/ {9 A3 f7 q) @/ u
    7
    % Q, j  J+ a6 a8
    # {3 M9 Q2 i) W( K) @7 C# f9$ ^2 i# z0 i4 N3 m7 F
    10
    - |+ k1 Q" ]) p! g1 L11
    / K, b# Q: ]1 s' ^0 v2 Q12
    ; L0 H6 r# t: A/ C. _+ k) T7 J* S  K13! a' W  y: b& [+ [8 S
    14
    8 ]3 p4 _% [8 M1 I9 V15" Q! h( {$ @- d1 |6 l) t
    16
    0 q  t& @. v+ x# l4 h17
    5 K* J; _$ w9 s3 [18( Q6 B  w1 q7 k' F- j. A4 J% M8 D8 D5 ^
    19, L7 V  o8 ~3 S: h
    20
    9 g! a# ?! U& W: H  J. e  q21* b3 }7 }$ j2 c
    22
    2 r0 I+ u# z( R2 _6 q+ {7 B/ K23
    - y4 n& q0 C8 D24
    0 _. w! W7 |' `25* l5 h- [# U- m
    269 o3 w# {% S/ T
    输出结果见下图:+ _  A  ?7 m( S, S# \

    2 H% r, B' A4 b+ H. O# J————————————————8 W* C5 f$ G8 a; M7 D. n
    版权声明:本文为CSDN博主「theskylife」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。6 \: d7 z2 J4 f; s. X
    原文链接:https://blog.csdn.net/qq_41780234/article/details/121920759
    : Q" w" `6 c# H( T7 u
    . p. ^# U* o+ i) Z
    0 U( e& ^) t1 C, @1 I" E/ W
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-8-4 03:18 , Processed in 0.447902 second(s), 51 queries .

    回顶部