Path: csiph.com!v102.xanadu-bbs.net!xanadu-bbs.net!goblin2!goblin.stu.neva.ru!newsfeed.xs4all.nl!newsfeed1.news.xs4all.nl!xs4all!newsgate.cistron.nl!newsgate.news.xs4all.nl!post.news.xs4all.nl!not-for-mail
MIME-Version: 1.0
From: Vincent Davis <vincent@vincentdavis.net>
Date: Wed, 30 Jul 2014 17:04:04 -0600
Subject: speed up pandas calculation
To: "python-list@python.org" <python-list@python.org>
Content-Type: multipart/alternative; boundary=089e011828705ea65a04ff712dee
Precedence: list
Newsgroups: comp.lang.python
Message-ID: <mailman.12446.1406761473.18130.python-list@python.org>
Lines: 230
NNTP-Posting-Host: 2001:888:2000:d::a6
Xref: csiph.com comp.lang.python:75389

--089e011828705ea65a04ff712dee
Content-Type: text/plain; charset=UTF-8

I know this is a general python list and I am asking about pandas but this
question is probably not great for asking on stackoverflow.
I have a list of files (~80 files, ~30,000 rows) I need to process with my
current code it is take minutes for each file. Any suggestions of a fast
way. I am try to stick with pandas for educational purposes. Any
suggestions would be great. If you are curious the can find the data file I
am using below here. http://www.nber.org/nhamcs/data/nhamcsopd2010.csv

drugs_current = {'CITALOPRAM': 4332,
         'ESCITALOPRAM': 4812,
         'FLUOXETINE': 236,
         'FLUVOXAMINE': 3804,
         'PAROXETINE': 3157,
         'SERTRALINE': 880,
         'METHYLPHENIDATE': 900,
         'DEXMETHYLPHENIDATE': 4777,
         'AMPHETAMINE-DEXTROAMPHETAMINE': 4035,
         'DEXTROAMPHETAMINE': 804,
         'LISDEXAMFETAMINE': 6663,
         'METHAMPHETAMINE': 805,
         'ATOMOXETINE': 4827,
         'CLONIDINE': 44,
         'GUANFACINE': 717}

drugs_98_05 = { 'SERTRALINE': 56635,
                'CITALOPRAM': 59829,
                'FLUOXETINE': 80006,
                'PAROXETINE_HCL': 57150,
                'FLUVOXAMINE': 57064,
                'ESCITALOPRAM': 70466,
                'DEXMETHYLPHENIDATE': 70427,
                'METHYLPHENIDATE': 70374,
                'METHAMPHETAMINE': 53485,
                'AMPHETAMINE1': 70257,
                'AMPHETAMINE2': 70258,
                'AMPHETAMINE3': 50265,
                'DEXTROAMPHETAMINE1': 70259,
                'DEXTROAMPHETAMINE2': 70260,
                'DEXTROAMPHETAMINE3': 51665,
                'COMBINATION_PRODUCT': 51380,
                'FIXED_COMBINATION': 51381,
                'ATOMOXETINE': 70687,
                'CLONIDINE1': 51275,
                'CLONIDINE2': 70357,
                'GUANFACINE': 52498
               }

df = pd.read_csv('nhamcsopd2010.csv' , index_col='PATCODE',
low_memory=False)
col_init = list(df.columns.values)
keep_col = ['PATCODE', 'PATWT', 'VDAY', 'VMONTH', 'VYEAR', 'MED1', 'MED2',
'MED3', 'MED4', 'MED5']
for col in col_init:
    if col not in keep_col:
        del df[col]
if f[-3:] == 'csv' and f[-6:-4] in ('93', '94', '95', '96', '97', '98',
'99', '00', '91', '02', '03', '04', '05'):
    drugs = drugs_98_05
elif f[-3:]  == 'csv' and f[-6:-4] in ('06', '08', '09', '10'):
    drugs = drugs_current
for n in drugs:
    df[n] = df[['MED1','MED2','MED3','MED4','MED5']].isin([drugs[n]]).any(1)


Vincent Davis
720-301-3003

--089e011828705ea65a04ff712dee
Content-Type: text/html; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

<div dir=3D"ltr"><div class=3D"gmail_default" style=3D"font-family:verdana,=
sans-serif;font-size:small">I know this is a general python list and I am a=
sking about pandas but this question is probably not great for asking on st=
ackoverflow.</div>

<div class=3D"gmail_default" style=3D"font-family:verdana,sans-serif;font-s=
ize:small">I have a list of files (~80 files, ~30,000 rows) I need to proce=
ss with my current code it is take minutes for each file. Any suggestions o=
f a fast way. I am try to stick with pandas for educational purposes. Any s=
uggestions would be great. If you are curious the can find the data file I =
am using below here.=C2=A0<a href=3D"http://www.nber.org/nhamcs/data/nhamcs=
opd2010.csv">http://www.nber.org/nhamcs/data/nhamcsopd2010.csv</a></div>

<div class=3D"gmail_default" style=3D"font-family:verdana,sans-serif;font-s=
ize:small"><br></div><div class=3D"gmail_default" style><div class=3D"gmail=
_default" style><font face=3D"verdana, sans-serif">drugs_current =3D {&#39;=
CITALOPRAM&#39;: 4332,</font></div>

<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0&#39;ESCITALOPRAM&#39;: 4812,</font></div><d=
iv class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=A0 =
=C2=A0 =C2=A0 =C2=A0 =C2=A0&#39;FLUOXETINE&#39;: 236,</font></div>

<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0&#39;FLUVOXAMINE&#39;: 3804,</font></div><di=
v class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=A0 =
=C2=A0 =C2=A0 =C2=A0 =C2=A0&#39;PAROXETINE&#39;: 3157,</font></div>

<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0&#39;SERTRALINE&#39;: 880,</font></div><div =
class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=A0 =C2=
=A0 =C2=A0 =C2=A0 =C2=A0&#39;METHYLPHENIDATE&#39;: 900,</font></div>

<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0&#39;DEXMETHYLPHENIDATE&#39;: 4777,</font></=
div><div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=
=C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0&#39;AMPHETAMINE-DEXTROAMPHETAMINE&#39;: =
4035,</font></div>

<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0&#39;DEXTROAMPHETAMINE&#39;: 804,</font></di=
v><div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0&#39;LISDEXAMFETAMINE&#39;: 6663,</font></di=
v>

<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0&#39;METHAMPHETAMINE&#39;: 805,</font></div>=
<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0&#39;ATOMOXETINE&#39;: 4827,</font></div>

<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0&#39;CLONIDINE&#39;: 44,</font></div><div cl=
ass=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=A0 =C2=
=A0 =C2=A0 =C2=A0 =C2=A0&#39;GUANFACINE&#39;: 717}</font></div>

<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif"><br><=
/font></div><div class=3D"gmail_default" style><font face=3D"verdana, sans-=
serif">drugs_98_05 =3D { &#39;SERTRALINE&#39;: 56635,</font></div><div clas=
s=3D"gmail_default" style>

<font face=3D"verdana, sans-serif">=C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=
=A0 =C2=A0 =C2=A0 &#39;CITALOPRAM&#39;: 59829,</font></div><div class=3D"gm=
ail_default" style><font face=3D"verdana, sans-serif">=C2=A0 =C2=A0 =C2=A0 =
=C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 &#39;FLUOXETINE&#39;: 80006,</font></div=
><div class=3D"gmail_default" style>

<font face=3D"verdana, sans-serif">=C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=
=A0 =C2=A0 =C2=A0 &#39;PAROXETINE_HCL&#39;: 57150,</font></div><div class=
=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=A0 =C2=A0 =
=C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 &#39;FLUVOXAMINE&#39;: 57064,</fo=
nt></div><div class=3D"gmail_default" style>

<font face=3D"verdana, sans-serif">=C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=
=A0 =C2=A0 =C2=A0 &#39;ESCITALOPRAM&#39;: 70466,</font></div><div class=3D"=
gmail_default" style><font face=3D"verdana, sans-serif">=C2=A0 =C2=A0 =C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 &#39;DEXMETHYLPHENIDATE&#39;: 70427,=
</font></div>

<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 &#39;METHYLPHENIDATE&#=
39;: 70374,</font></div><div class=3D"gmail_default" style><font face=3D"ve=
rdana, sans-serif">=C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =
&#39;METHAMPHETAMINE&#39;: 53485,</font></div>

<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 &#39;AMPHETAMINE1&#39;=
: 70257,</font></div><div class=3D"gmail_default" style><font face=3D"verda=
na, sans-serif">=C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =
9;AMPHETAMINE2&#39;: 70258,</font></div>

<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 &#39;AMPHETAMINE3&#39;=
: 50265,</font></div><div class=3D"gmail_default" style><font face=3D"verda=
na, sans-serif">=C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =
9;DEXTROAMPHETAMINE1&#39;: 70259,</font></div>

<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 &#39;DEXTROAMPHETAMINE=
2&#39;: 70260,</font></div><div class=3D"gmail_default" style><font face=3D=
"verdana, sans-serif">=C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=
=A0 &#39;DEXTROAMPHETAMINE3&#39;: 51665,</font></div>

<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 &#39;COMBINATION_PRODU=
CT&#39;: 51380,</font></div><div class=3D"gmail_default" style><font face=
=3D"verdana, sans-serif">=C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =
=C2=A0 &#39;FIXED_COMBINATION&#39;: 51381,</font></div>

<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 &#39;ATOMOXETINE&#39;:=
 70687,</font></div><div class=3D"gmail_default" style><font face=3D"verdan=
a, sans-serif">=C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 &#39=
;CLONIDINE1&#39;: 51275,</font></div>

<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 &#39;CLONIDINE2&#39;: =
70357,</font></div><div class=3D"gmail_default" style><font face=3D"verdana=
, sans-serif">=C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 &#39;=
GUANFACINE&#39;: 52498</font></div>

<div class=3D"gmail_default" style><font face=3D"verdana, sans-serif">=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0}</font></div></div><di=
v class=3D"gmail_default" style=3D"font-family:verdana,sans-serif;font-size=
:small"><br></div><div class=3D"gmail_default" style=3D"font-family:verdana=
,sans-serif;font-size:small">

<div class=3D"gmail_default">df =3D pd.read_csv(&#39;nhamcsopd2010.csv&#39;=
 , index_col=3D&#39;PATCODE&#39;, low_memory=3DFalse)</div><div class=3D"gm=
ail_default">col_init =3D list(df.columns.values)</div><div class=3D"gmail_=
default">
keep_col =3D [&#39;PATCODE&#39;, &#39;PATWT&#39;, &#39;VDAY&#39;, &#39;VMON=
TH&#39;, &#39;VYEAR&#39;, &#39;MED1&#39;, &#39;MED2&#39;, &#39;MED3&#39;, &=
#39;MED4&#39;, &#39;MED5&#39;]</div>
<div class=3D"gmail_default">for col in col_init:</div><div class=3D"gmail_=
default">=C2=A0 =C2=A0 if col not in keep_col:</div><div class=3D"gmail_def=
ault">=C2=A0 =C2=A0 =C2=A0 =C2=A0 del df[col]</div><div class=3D"gmail_defa=
ult">if f[-3:] =3D=3D &#39;csv&#39; and f[-6:-4] in (&#39;93&#39;, &#39;94&=
#39;, &#39;95&#39;, &#39;96&#39;, &#39;97&#39;, &#39;98&#39;, &#39;99&#39;,=
 &#39;00&#39;, &#39;91&#39;, &#39;02&#39;, &#39;03&#39;, &#39;04&#39;, &#39=
;05&#39;):</div>

<div class=3D"gmail_default">=C2=A0 =C2=A0 drugs =3D drugs_98_05</div><div =
class=3D"gmail_default">elif f[-3:] =C2=A0=3D=3D &#39;csv&#39; and f[-6:-4]=
 in (&#39;06&#39;, &#39;08&#39;, &#39;09&#39;, &#39;10&#39;):</div><div cla=
ss=3D"gmail_default">=C2=A0 =C2=A0 drugs =3D drugs_current</div>

<div class=3D"gmail_default">for n in drugs:</div><div class=3D"gmail_defau=
lt">=C2=A0 =C2=A0 df[n] =3D df[[&#39;MED1&#39;,&#39;MED2&#39;,&#39;MED3&#39=
;,&#39;MED4&#39;,&#39;MED5&#39;]].isin([drugs[n]]).any(1)</div><div class=
=3D"gmail_default">

<br></div><div class=3D"gmail_default"><br></div></div><div><div>Vincent Da=
vis</div><div>720-301-3003<span></span><span></span></div></div>
</div>

--089e011828705ea65a04ff712dee--