nsaunier/traffic-intelligence: python/utils.py comparison

comparison python/utils.py @ 758:0a05883216cf

merge with dev

author	Nicolas Saunier <nicolas.saunier@polymtl.ca>
date	Tue, 03 Nov 2015 13:48:56 -0500
parents	10dbab1e871d
children	e01cabca4c55

comparison

equal deleted inserted replaced

-:d99866b0528a
+:0a05883216cf
 result = 0.
 for e, o in zip(expected, observed):
 result += ((e-o)*(e-o))/e
 return result
-class EmpiricalDistribution(object):
+class DistributionSample(object):
 def nSamples(self):
 return sum(self.counts)
 def cumulativeDensityFunction(sample, normalized = False):
 '''Returns the cumulative density function of the sample of a random variable'''
 counts = arange(1,len(sample)+1) # dtype = float
 if normalized:
 counts /= float(len(sample))
 return xaxis, counts
-class EmpiricalDiscreteDistribution(EmpiricalDistribution):
+class DiscreteDistributionSample(DistributionSample):
-'''Class to represent a sample of a distribution for a discrete random variable
+'''Class to represent a sample of a distribution for a discrete random variable'''
-'''
 def __init__(self, categories, counts):
 self.categories = categories
 self.counts = counts
 def mean(self):
 refProba = [probability(c) for c in self.categories]
 refProba[-1] = 1-npsum(refProba[:-1])
 refCounts = [r*self.nSamples() for r in refProba]
 return refCounts, refProba
-class EmpiricalContinuousDistribution(EmpiricalDistribution):
+class ContinuousDistributionSample(DistributionSample):
 '''Class to represent a sample of a distribution for a continuous random variable
 with the number of observations for each interval
 intervals (categories variable) are defined by their left limits, the last one being the right limit
 categories contain therefore one more element than the counts'''
 def __init__(self, categories, counts):
 # todo add samples for initialization and everything to None? (or setSamples?)
 self.categories = categories
 self.counts = counts
+@staticmethod
+def generate(sample, categories):
+if min(sample) < min(categories):
+print('Sample has lower min than proposed categories ({}, {})'.format(min(sample), min(categories)))
+if max(sample) > max(categories):
+print('Sample has higher max than proposed categories ({}, {})'.format(max(sample), max(categories)))
+dist = ContinuousDistributionSample(sorted(categories), [0]*(len(categories)-1))
+for s in sample:
+i = 0
+while  i<len(dist.categories) and dist.categories[i] <= s:
+i += 1
+if i <= len(dist.counts):
+dist.counts[i-1] += 1
+#print('{} in {} {}'.format(s, dist.categories[i-1], dist.categories[i]))
+else:
+print('Element {} is not in the categories'.format(s))
+return dist
 def mean(self):
 result = 0.
 for i in range(len(self.counts)-1):
 result += self.counts[i]*(self.categories[i]+self.categories[i+1])/2

Mercurial > hg > nsaunier > traffic-intelligence

comparison python/utils.py @ 758:0a05883216cf