nsaunier/traffic-intelligence: python/utils.py comparison

comparison python/utils.py @ 670:f72ed51c6b65

corrected other missing imports

author	Nicolas Saunier <nicolas.saunier@polymtl.ca>
date	Tue, 26 May 2015 11:39:36 +0200
parents	df6be882f325
children	849f5f8bf4b9

comparison

equal deleted inserted replaced

-:df6be882f325
+:f72ed51c6b65
 #! /usr/bin/env python
 ''' Generic utilities.'''
 import matplotlib.pyplot as plt
 from datetime import time, datetime
-from math import sqrt
+from math import sqrt, ceil, floor
 from scipy.stats import kruskal, shapiro
 datetimeFormat = "%Y-%m-%d %H:%M:%S"
 #########################
 Use otherwise t.interval or norm.interval
 ex: norm.interval(0.95, loc = 0., scale = 2.3/sqrt(11))
 t.interval(0.95, 10, loc=1.2, scale = 2.3/sqrt(nSamples))
 loc is mean, scale is sigma/sqrt(n) (for Student, 10 is df)'''
-from math import sqrt
 from scipy.stats.distributions import norm, t
 if trueStd:
 k = round(norm.ppf(0.5+percentConfidence/200., 0, 1)*100)/100. # 1.-(100-percentConfidence)/200.
 else: # use Student
 k = round(t.ppf(0.5+percentConfidence/200., nSamples-1)*100)/100.
 return max(d, key=d.get)
 def framesToTime(nFrames, frameRate, initialTime = time()):
 '''returns a datetime.time for the time in hour, minutes and seconds
 initialTime is a datetime.time'''
-from math import floor
 seconds = int(floor(float(nFrames)/float(frameRate))+initialTime.hour*3600+initialTime.minute*60+initialTime.second)
 h = int(floor(seconds/3600.))
 seconds = seconds - h*3600
 m = int(floor(seconds/60))
 seconds = seconds - m*60
 return xsorted, [D[x] for x in xsorted]
 def ceilDecimals(v, nDecimals):
 '''Rounds the number at the nth decimal
 eg 1.23 at 0 decimal is 2, at 1 decimal is 1.3'''
-from math import ceil,pow
+tens = 10**nDecimals
-tens = pow(10,nDecimals)
 return ceil(v*tens)/tens
 def inBetween(bound1, bound2, x):
 return bound1 <= x <= bound2 or bound2 <= x <= bound1
 experiments.loc[i,'nobs'] = int(results.nobs)
 return experiments
 def generateExperiments(independentVariables):
 '''Generates all possible models for including or not each independent variable'''
+from numpy import nan
+from pandas import DataFrame
 experiments = {}
 nIndependentVariables = len(independentVariables)
 if nIndependentVariables != len(set(independentVariables)):
 print("Duplicate variables. Exiting")
 import sys
 sys.exit()
 nModels = 2**nIndependentVariables
 for i,var in enumerate(independentVariables):
 pattern = [False]*(2**i)+[True]*(2**i)
 experiments[var] = pattern*(2**(nIndependentVariables-i-1))
-experiments = pd.DataFrame(experiments)
+experiments = DataFrame(experiments)
 experiments['r2adj'] = 0.
-experiments['condNum'] = np.nan
+experiments['condNum'] = nan
 experiments['shapiroP'] = -1
 experiments['nobs'] = -1
 return experiments
 def findBestModel(data, dependentVariable, independentVariables, regressionType = 'ols', nProcesses = 1):
 '''Generates all possible model with the independentVariables
 and runs them, saving the results in experiments
 with multiprocess option'''
+from pandas import concat
 experiments = generateExperiments(independentVariables)
 nModels = len(experiments)
 print("Running {} models with {} processes".format(nModels, nProcesses))
 if nProcesses == 1:
 return runModels(experiments, data, dependentVariable, independentVariables, regressionType)
 else:
 pool = Pool(processes = nProcesses)
-chunkSize = int(np.ceil(nModels/nProcesses))
+chunkSize = int(ceil(nModels/nProcesses))
 jobs = [pool.apply_async(runModels, args = (experiments[i*chunkSize:(i+1)*chunkSize], data, dependentVariable, independentVariables, regressionType)) for i in range(nProcesses)]
-return pd.concat([job.get() for job in jobs])
+return concat([job.get() for job in jobs])
 def findBestModelFwd(data, dependentVariable, independentVariables, modelFunc, experiments = None):
 '''Forward search for best model (based on adjusted R2)
 Randomly starting with one variable and adding randomly variables
 if they improve the model
 The results are added to experiments if provided as argument
 Storing in experiment relies on the index being the number equal
 to the binary code derived from the independent variables'''
+from numpy.random import permutation as nppermutation
 if experiments is None:
 experiments = generateExperiments(independentVariables)
 nIndependentVariables = len(independentVariables)
-permutation = np.random.permutation(range(nIndependentVariables)).tolist()
+permutation = nppermutation(range(nIndependentVariables)).tolist()
 variableMapping = {j: independentVariables[i] for i,j in enumerate(permutation)}
 print('Tested variables '+', '.join([variableMapping[i] for i in xrange(nIndependentVariables)]))
 bestModel = [False]*nIndependentVariables
 currentVarNum = 0
 currentR2Adj = 0.

Mercurial > hg > nsaunier > traffic-intelligence

comparison python/utils.py @ 670:f72ed51c6b65