QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 4690|回复: 0
打印 上一主题 下一主题

[其他资源] 数据挖掘——如何利用Python实现产品关联性分析apriori算法篇

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-12 18:44 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    数据挖掘——如何利用Python实现产品关联性分析apriori算法篇# k) @% U5 D) C3 \2 b+ N0 D( j
    & d8 n7 H, l' _* w- O
    在实际业务场景中,我们常常会探讨到产品的关联性分析,本篇文章将会介绍一下如何在Python环境下如何利用apriori算法进行数据分析。
    2 u, M) P8 G- n1 t- [4 h6 H
    6 j, v! }, f! t- v7 o" W1.准备工作
    . g1 r$ C8 q6 i/ \6 R3 t如果需要在Python环境下实现apriori算法,就离不开一个关键的机器学习库mlxtend,运行以下代码进行安装:7 l# _1 q7 L3 F
    5 S3 Y7 d* s, c9 s! f
    pip install mlxtend
    ; G& A4 a  u- |6 d% f  Q0 \1& L0 ~$ R* W$ F* S8 a# D% q
    为方便进行过程的演示,在此构建测试数据:
    ' c& n- M* }) R4 e# A# l+ S2 b: \+ G1 E1 X* X
    import pandas as pd5 c2 q4 D: m( r0 L7 v$ M
    df=pd.DataFrame({'product_list':['A-C', 'D', 'A-B-C-D','A-C','A-C-D','A-C-B']})
    & p# f: A; R& v) i12 [) _1 ], x6 ~4 O7 y% z  r
    2  H8 x2 F+ J8 {- V( r* l( R% x
    测试数据截图如下:
    - I4 d8 E4 `# Z& \  g
    8 j5 D6 `& F& H3 U. f
    % B# w, H$ `, f% \; f对上述的数据进行以下处理:
    $ N1 ]  a$ W) ]4 C( O9 U& a# T/ y8 l, v' ?* W& N
    df_chg=df['product_list'].str.split("-"), l* \0 s8 {3 b& c* j
    1& ~7 _* a7 M  [" H5 X
    数据处理后,结果截图如下:
    , `2 T4 x! R* \7 U/ b
    ) A6 T* S; {7 u" f/ |- B' ]截止到此,准备工作已经完成,下面个将会以df_chg作为参数进行建模。
    9 ^7 P: t) E2 {- c6 [
    ) B$ w% q! M  z  s2.核心函数及代码
    ) f+ V. h% u' E! `% ]- f# B2.1 数据预处理
    ( C) I. [5 B/ |" e对传入的数据进行预处理,使其成为符合要求的数据。mlxtend模块中有专门用于数据预处理的方法,在这里直接进行调用即可:" f' g; e' A" S1 w0 [0 T2 X' ?+ y

    ' x! g' j; ~5 }/ c/ |. ~) @& z; ^#1.将传入的数据转换为算法可接受的数据类型(布尔值)( e5 {' i+ r% k  V" L! M( ?. e+ m
    from mlxtend.preprocessing import TransactionEncoder
    5 P# S* C. [& c# Q7 Q$ I  f! ^$ i( Tte = TransactionEncoder()
    6 ~! U8 V& G$ K" H: Jdf_tf = te.fit_transform(df_chg)) n2 q, q6 z3 u/ |4 B
    #为方便进行查看,生成dataframe# A6 D* Q. Z! Q! t
    data = pd.DataFrame(df_tf,columns=te.columns_), P, t; _5 x0 U6 i7 {+ `/ O
    1
    8 X" s! P8 T" H& d' b+ C2 `2% a) d$ X! x( m
    38 Y1 N3 K$ F/ {# n- b" f
    4, O  _+ ?$ H' _& a& M& E9 F) y
    5) A: i# G  O( N' x5 y$ X2 H
    6
    + F  u; m* `( q9 Q- S; J9 \运行以上代码后,传入的df_chg数据会被转换成符合要求的数据data,截图如下:" u: Z" t9 W+ \, ^

    + b9 i. F3 e( V) d6 f$ c3 r
    " V) R2 H& w* U  f4 x2.2 两个关键函数
    / _; v2 S+ s7 S* y  ]# @" w) B, v8 Yapriori函数
    7 y8 K. d- N8 _6 B2 u- K语法:# T2 {* E, Q- _& h: `. X/ T

    9 C" a8 y* v$ kapriori(df, min_support=0.5, use_colnames=False, max_len=None, verbose=0, low_memory=False)
    0 d; M4 C& `& |7 r1
    " b! d6 L8 k% Q" t参数详解:
    6 |1 {. U$ C9 h0 Z
    2 `( t4 p& u/ c" rdf: pandas模块中的数据帧,DataFrame形式的数据;
    - J, {+ t! c* e! v! P2 V: qmin_support:一个介于0和1之间的浮点数,表示对返回的项集的最小支持度。
    7 r6 F% Y, p: I+ g0 Z; s- Cuse_colnames: 如果为 True,则在返回的 DataFrame 中使用 DataFrame 的列名;如果为False,则返回为列索引。通常情况下我们设置为True。
    * I: A  K, S0 l% X3 ymax_len: 生成的项目集的最大长度。如果无(默认),则计算所有可能的项集长度。( B" _" k, A) F" h1 Y" n5 f" E
    verbose: 如果 > = 1且 low_memory 为 True 时,显示迭代次数。如果 = 1且low_memory 为 False,则显示组合的数目。5 H( O( e: |9 S$ C% S2 w0 o
    low_memory:如果为 True,则使用迭代器搜索 min_support 之上的组合。low _ memory = True 通常只在内存资源有限的情况下用于大型数据集,因为这个实现比默认设置大约慢3-6倍。, Z+ Q& V7 I3 N0 h: t# E* E
    association_rules函数5 u) e( i4 m+ ~, E
    语法:8 ^3 d2 j# z0 X  ]2 N( g
    " A, D& j% Q6 d; H  d) \: l  P# v
    association_rules(df, metric='confidence', min_threshold=0.8, support_only=False). t! }, X/ C; t% l6 r
    1
    4 R$ M: h/ [9 p4 E参数如下:
    $ P5 R9 e8 g) f0 N1 ?0 ^) K  l5 K3 v. i5 E' l/ M
    df: pandas模块中的数据帧,DataFrame形式的数据;8 }' D) D* U/ j* W5 z* U0 r( F
    metric: 用于评估规则是否有意义的度量。可选参数有以下几种:‘support’, ‘confidence’, ‘lift’, 'leverage’和 ‘conviction’
    * v$ X; x9 W+ W* }min_threshold: 评估度量的最小阈值,通过度量参数确定候选规则是否有意义。
    9 f7 q6 D9 j0 csupport_only : 只计算规则支持并用 NaN 填充其他度量列。如果: a)输入 DataFrame 是不完整的,例如,不包含所有规则前因和后果的支持值 b)你只是想加快计算速度,因为你不需要其他度量。2 m# N. C$ T0 K, e8 B2 O
    附带metric几种参数的计算方法:
    ) S) n5 o, C# `  l! a& m0 l- r8 B0 t6 c5 Q( C; b1 o, |4 T: O& Y5 i! @
    support(A->C) = support(A∩C) [aka ‘support’], range: [0, 1]+ n8 f* }  w# J5 @0 W% a
    . @: a0 f- s8 B* r1 S, ?" w8 }
    confidence(A->C) = support(A∩C) / support(A), range: [0, 1]$ ?+ U  c0 r; I$ A

    0 _' Q! N% C6 n9 g9 T  R) ~$ klift(A->C) = confidence(A->C) / support(C), range: [0, inf]
    9 F* {# ]- {) z! j* z& }% g0 l) _
    7 Z" \. L# G4 ]9 Xleverage(A->C) = support(A->C) - support(A)*support(C),
    ) m9 w0 k2 d/ @( b- m. ~" {$ ^, irange: [-1, 1]. b+ I; |  c0 o% l  E  }. }
    5 G, ], N0 I) F' [  N
    conviction = [1 - support(C)] / [1 - confidence(A->C)],0 a+ j4 U8 G4 L. h  f/ [: P3 U' B, N
    range: [0, inf]) K1 A* E7 m0 @# v* Q
    1 Y# b: V0 z$ B5 W1 V
    3.实际应用案例
    4 f( H! E. N! B: s以下为完整的调用实例:# w5 B  V; P% v! _

    2 T$ ~6 ]1 ~- |% }5 Z+ Pimport pandas as pd
    & N4 ]# X" N% M& `$ Ofrom mlxtend.preprocessing import TransactionEncoder$ c. J# a5 n  z
    from mlxtend.frequent_patterns import apriori
    # l' X# _) k6 U  W; |  Hfrom mlxtend.frequent_patterns import association_rules6 S( f% K1 [1 T
    #1.构建测试数据
    # n& H- h- V# i! p* ldf=pd.DataFrame({'product_list':['A-C', 'D', 'A-B-C-D','A-C','A-C-D','A-C-B']})  o$ B( c2 l! J' e7 V: O
    df_chg=df['product_list'].str.split("-")3 V9 Q" V% O0 l! N
    #2.数据预处理: Z, m. D1 h6 j! Z. J
    #将传入的数据转换为算法可接受的数据类型(布尔值)
    + G0 P3 {5 h: |- q# lte = TransactionEncoder()
    ; ?/ K2 f( u, {9 n4 a' _df_tf = te.fit_transform(df_chg)
    7 T- G3 m4 }+ a" s8 S; I/ A  H#为方便进行查看,生成dataframe: B* e8 q, z9 x1 H
    data = pd.DataFrame(df_tf,columns=te.columns_)2 D, F, H) `# v2 H8 B; t9 x
    #3.建模) Y& T! L( h% K5 G2 Q2 j6 z) d
    #利用 Apriori函数,设置最小支持度为0.2
    + M! x. b1 q' `1 _5 x% G0 w& r6 r( \frequent_itemsets = apriori(data,min_support=0.2,use_colnames= True)
    ; X! L& u8 ?6 m% K#设置关联规则,设置最小置信度为0.15" N: W8 R& f% R7 {
    temp= association_rules(frequent_itemsets,metric = 'confidence',min_threshold = 0.15)8 Z8 z# a- Y& o6 w6 A; X- X
    #4.剪枝并控制输出
      ~, C$ U5 l9 {5 n#设置最小提升度,并剔除对应的数据
    * }/ o& b3 w2 P/ Zmin_lift=1" |; c* h- L* z
    rules = temp.drop(temp[temp['lift']<min_lift].index)* o# N/ K- t) b. b; m' n
    #筛选需要输出的列7 }6 D% o5 k6 s- r' j$ w# G; i
    result = rules[['antecedents','consequents','support','confidence','lift']]
    6 |6 F5 C: N3 j! d! Tresult=result.sort_values(['confidence','lift','support'],ascending=False)3 D) A& y: m5 O" l- E1 B7 `" M0 a
    result.to_csv('apriori_result.csv',index=False,encoding='utf-8-sig')
    , y( H. q8 t$ a  N% |; p/ \. b) ?. {7 C8 ~
    1
    " r# t% F# S$ j/ k8 a+ [) Z2
    . w0 r9 e* M. F8 s: p6 Y32 P5 Y# _8 K2 V7 J6 s4 \; y
    4
    ! k6 u0 ]# R; x$ ?1 b( ~5 T5, J: W6 f  j, \# G& B
    6
    . P( I3 j+ b+ i5 ]/ e& ~7
    , @  F/ T8 d* n9 o& w8
    2 c( `) C+ L; d" e$ m" R/ x9
    . R# P* X7 k, ^0 c' C; {. R10
    5 D* m' R/ F. E# G. X* k% ~6 Q$ p11, ]: ]; Q- q+ W% d. r
    12( X" w9 m! Y4 z6 C
    13
    ; f6 i7 m  l  n5 k14
    9 z, e. `9 U7 m7 ?15/ |/ e" ?$ h& [0 X! G, E
    16
    . F) Q8 ?! i/ }17
    2 A3 ?: S2 ?9 E" J2 ^% L# g18
    3 g  b' u* c5 R  h! p" a19
      ~6 p) K0 E4 `; e20
    ! P3 Y: ]1 `7 Y4 M. B# h* C, n) Z% g! t215 i8 P% E' @; v+ u0 b1 H7 \# f
    22% Q2 W' }8 q( A9 ?
    234 b+ ^; ^' s; {  {$ j- ~3 M9 g7 W
    24  j; |) I0 @. @; u0 E
    25
    0 H8 X( M4 `! p, c/ A) {( P260 [; l) r7 |! m$ o6 s& j* ~
    输出结果见下图:
    , S% J/ i" X8 Y- \9 g
    2 J$ W/ z1 G* u2 a8 j2 g  y————————————————
    % F9 T2 V* y5 f* J  |. c版权声明:本文为CSDN博主「theskylife」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。2 Y& H) b4 m5 Y" i0 j
    原文链接:https://blog.csdn.net/qq_41780234/article/details/121920759! b% Q0 q' @% ]; f  R
    8 [$ k& t0 n5 T9 R7 r5 M; ~
    : L) h9 ]0 a" c% v  P2 N: E
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-12-8 06:23 , Processed in 0.283965 second(s), 50 queries .

    回顶部