[morpheus.git] / pkg / src / functions.c

#include <stdlib.h>
#include <omp.h>

// Index matrix (by columns)
#define mi(i, j, d1, d2) (j*d1 + i)

// Index 3-tensor (by columns, matrices ordered by last dim)
#define ti(i, j, k, d1, d2, d3) (k*d1*d2 + j*d1 + i)

// Empirical cross-moment of order 2 between X size nxd and Y size n
void Moments_M2(double* X, double* Y, int* pn, int* pd, double* M2)
{
  int n=*pn, d=*pd;
  //double* M2 = (double*)calloc(d*d,sizeof(double));

  // M2 = E[Y*X^*2] - E[Y*e^*2] = E[Y (X^*2 - I)]
  for (int j=0; j<d; j++)
  {
    for (int i=0; i<n; i++)
    {
      M2[mi(j,j,d,d)] -= Y[i] / n;
      for (int k=0; k<d; k++)
        M2[mi(j,k,d,d)] += Y[i] * X[mi(i,j,n,d)]*X[mi(i,k,n,d)] / n;
    }
  }
}

// Empirical cross-moment of order 3 between X size nxd and Y size n
void Moments_M3(double* X, double* Y, int* pn, int* pd, double* M3)
{
  int n=*pn, d=*pd;
  //double* M3 = (double*)calloc(d*d*d,sizeof(double));

  // M3 = E[Y*X^*3] - E[Y*e*X*e] - E[Y*e*e*X] - E[Y*X*e*e]
  for (int j=0; j<d; j++)
  {
    for (int k=0; k<d; k++)
    {
      for (int i=0; i<n; i++)
      {
        double tensor_elt = Y[i]*X[mi(i,k,n,d)] / n;
        M3[ti(j,k,j,d,d,d)] -= tensor_elt;
        M3[ti(j,j,k,d,d,d)] -= tensor_elt;
        M3[ti(k,j,j,d,d,d)] -= tensor_elt;
        for (int o=0; o<d; o++)
          M3[ti(j,k,o,d,d,d)] += Y[i] * X[mi(i,j,n,d)]*X[mi(i,k,n,d)]*X[mi(i,o,n,d)] / n;
      }
    }
  }
}

// W = 1/N sum( t(g(Zi,theta)) g(Zi,theta) )
// with g(Zi, theta) = i-th contribution to all moments (size dim) - real moments
void Compute_Omega(double* X, int* Y, double* M, int* pnc, int* pn, int* pd, double* W)
{
  int nc=*pnc, n=*pn, d=*pd;
  int dim = d + d*d + d*d*d;
  //double* W = (double*)malloc(dim*dim*sizeof(double));

  // (Re)Initialize W:
  for (int j=0; j<dim; j++)
  {
    for (int k=0; k<dim; k++)
      W[j*dim+k] = 0.0;
  }
  double* g = (double*)malloc(dim*sizeof(double));
  omp_set_num_threads(nc >= 1 ? nc : omp_get_num_procs());
  #pragma omp parallel for
  for (int i=0; i<n; i++)
  {
    // g == gi:
    for (int j=0; j<d; j++)
      g[j] = Y[i] * X[mi(i,j,n,d)] - M[j];
    for (int j=d; j<d+(d*d); j++)
    {
      int idx1 = (j-d) % d; //num row
      int idx2 = ((j-d) - idx1) / d; //num col
      g[j] = 0.0;
      if (idx1 == idx2)
        g[j] -= Y[i];
      g[j] += Y[i] * X[mi(i,idx1,n,d)]*X[mi(i,idx2,n,d)] - M[j];
    }
    for (int j=d+d*d; j<dim; j++)
    {
      int idx1 = (j-d-d*d) % d; //num row
      int idx2 = ((j-d-d*d - idx1) / d) %d; //num col
      int idx3 = (((j-d-d*d - idx1) / d) - idx2) / d; //num "depth"
      g[j] = 0.0;
      if (idx1 == idx2)
        g[j] -= Y[i] * X[mi(i,idx3,n,d)];
      if (idx1 == idx3)
        g[j] -= Y[i] * X[mi(i,idx2,n,d)];
      if (idx2 == idx3)
        g[j] -= Y[i] * X[mi(i,idx1,n,d)];
      g[j] += Y[i] * X[mi(i,idx1,n,d)]*X[mi(i,idx2,n,d)]*X[mi(i,idx3,n,d)] - M[j];
    }
    // Add 1/n t(gi) %*% gi to W
    for (int j=0; j<dim; j++)
    {
      // This final nested loop is very costly. Some basic optimisations:
      double gj = g[j];
      int baseIdx = j * dim;
      #pragma GCC unroll 32
      for (int k=j; k>=0; k--)
        W[baseIdx+k] += gj * g[k];
    }
  }
  // Normalize W: x 1/n
  for (int j=0; j<dim; j++)
  {
    for (int k=0; k<=j; k++)
      W[mi(j,k,dim,dim)] /= n;
  }
  // Symmetrize W: W[j,k] = W[k,j] for k > j
  for (int j=0; j<dim; j++)
  {
    for (int k=j+1: k<dim; k++)
      W[mi(j,k,dim,dim)] = W[mi(k,j,dim,dim)];
  }
  free(g);
}
Commit	Line	Data
cbd88fe5	1	#include <stdlib.h>
5af71d43	2	#include <omp.h>
cbd88fe5	3
d08fef42	4	// Index matrix (by columns)
9ac8ecc0	5	#define mi(i, j, d1, d2) (j*d1 + i)
cbd88fe5	6
d08fef42	7	// Index 3-tensor (by columns, matrices ordered by last dim)
9ac8ecc0	8	#define ti(i, j, k, d1, d2, d3) (kd1d2 + j*d1 + i)
cbd88fe5	9
d08fef42	10	// Empirical cross-moment of order 2 between X size nxd and Y size n
cbd88fe5 BA	11	void Moments_M2(double* X, double* Y, int* pn, int* pd, double* M2)
cbd88fe5 BA	12	{
6dd5c2ac BA	13	int n=pn, d=pd;
6dd5c2ac BA	14	//double* M2 = (double)calloc(dd,sizeof(double));
cbd88fe5	15
6dd5c2ac BA	16	// M2 = E[YX^2] - E[Ye^2] = E[Y (X^*2 - I)]
	17	for (int j=0; j<d; j++)
	18	{
	19	for (int i=0; i<n; i++)
	20	{
	21	M2[mi(j,j,d,d)] -= Y[i] / n;
	22	for (int k=0; k<d; k++)
	23	M2[mi(j,k,d,d)] += Y[i] * X[mi(i,j,n,d)]*X[mi(i,k,n,d)] / n;
	24	}
	25	}
cbd88fe5 BA	26	}
cbd88fe5 BA	27
d08fef42	28	// Empirical cross-moment of order 3 between X size nxd and Y size n
cbd88fe5 BA	29	void Moments_M3(double* X, double* Y, int* pn, int* pd, double* M3)
cbd88fe5 BA	30	{
6dd5c2ac BA	31	int n=pn, d=pd;
6dd5c2ac BA	32	//double* M3 = (double)calloc(dd*d,sizeof(double));
cbd88fe5	33
6dd5c2ac BA	34	// M3 = E[YX^3] - E[YeXe] - E[YeeX] - E[YXe*e]
	35	for (int j=0; j<d; j++)
	36	{
	37	for (int k=0; k<d; k++)
	38	{
	39	for (int i=0; i<n; i++)
	40	{
	41	double tensor_elt = Y[i]*X[mi(i,k,n,d)] / n;
	42	M3[ti(j,k,j,d,d,d)] -= tensor_elt;
	43	M3[ti(j,j,k,d,d,d)] -= tensor_elt;
	44	M3[ti(k,j,j,d,d,d)] -= tensor_elt;
	45	for (int o=0; o<d; o++)
	46	M3[ti(j,k,o,d,d,d)] += Y[i] * X[mi(i,j,n,d)]X[mi(i,k,n,d)]X[mi(i,o,n,d)] / n;
	47	}
	48	}
	49	}
cbd88fe5	50	}
4263503b	51
d08fef42 BA	52	// W = 1/N sum( t(g(Zi,theta)) g(Zi,theta) )
d08fef42 BA	53	// with g(Zi, theta) = i-th contribution to all moments (size dim) - real moments
5af71d43	54	void Compute_Omega(double* X, int* Y, double* M, int* pnc, int* pn, int* pd, double* W)
4263503b	55	{
5af71d43	56	int nc=pnc, n=pn, d=*pd;
b389a46a	57	int dim = d + dd + dd*d;
bbdcfe44	58	//double* W = (double)malloc(dimdim*sizeof(double));
4bf8494d BA	59
	60	// (Re)Initialize W:
	61	for (int j=0; j<dim; j++)
	62	{
	63	for (int k=0; k<dim; k++)
	64	W[j*dim+k] = 0.0;
	65	}
4bf8494d	66	double* g = (double)malloc(dimsizeof(double));
5af71d43 BA	67	omp_set_num_threads(nc >= 1 ? nc : omp_get_num_procs());
5af71d43 BA	68	#pragma omp parallel for
7737c2fa BA	69	for (int i=0; i<n; i++)
7737c2fa BA	70	{
bbdcfe44	71	// g == gi:
d08fef42	72	for (int j=0; j<d; j++)
19d893c4	73	g[j] = Y[i] * X[mi(i,j,n,d)] - M[j];
d08fef42 BA	74	for (int j=d; j<d+(d*d); j++)
	75	{
	76	int idx1 = (j-d) % d; //num row
	77	int idx2 = ((j-d) - idx1) / d; //num col
	78	g[j] = 0.0;
19d893c4 BA	79	if (idx1 == idx2)
	80	g[j] -= Y[i];
	81	g[j] += Y[i] * X[mi(i,idx1,n,d)]*X[mi(i,idx2,n,d)] - M[j];
d08fef42 BA	82	}
	83	for (int j=d+d*d; j<dim; j++)
	84	{
	85	int idx1 = (j-d-d*d) % d; //num row
	86	int idx2 = ((j-d-d*d - idx1) / d) %d; //num col
	87	int idx3 = (((j-d-d*d - idx1) / d) - idx2) / d; //num "depth"
	88	g[j] = 0.0;
19d893c4 BA	89	if (idx1 == idx2)
	90	g[j] -= Y[i] * X[mi(i,idx3,n,d)];
	91	if (idx1 == idx3)
	92	g[j] -= Y[i] * X[mi(i,idx2,n,d)];
	93	if (idx2 == idx3)
	94	g[j] -= Y[i] * X[mi(i,idx1,n,d)];
	95	g[j] += Y[i] * X[mi(i,idx1,n,d)]X[mi(i,idx2,n,d)]X[mi(i,idx3,n,d)] - M[j];
d08fef42 BA	96	}
d08fef42 BA	97	// Add 1/n t(gi) %*% gi to W
9fdd3e5f	98	for (int j=0; j<dim; j++)
d08fef42	99	{
5af71d43 BA	100	// This final nested loop is very costly. Some basic optimisations:
	101	double gj = g[j];
	102	int baseIdx = j * dim;
9fdd3e5f BA	103	#pragma GCC unroll 32
9fdd3e5f BA	104	for (int k=j; k>=0; k--)
5af71d43	105	W[baseIdx+k] += gj * g[k];
d08fef42	106	}
7737c2fa	107	}
5af71d43 BA	108	// Normalize W: x 1/n
	109	for (int j=0; j<dim; j++)
	110	{
9fdd3e5f	111	for (int k=0; k<=j; k++)
5af71d43 BA	112	W[mi(j,k,dim,dim)] /= n;
5af71d43 BA	113	}
9fdd3e5f BA	114	// Symmetrize W: W[j,k] = W[k,j] for k > j
	115	for (int j=0; j<dim; j++)
	116	{
	117	for (int k=j+1: k<dim; k++)
	118	W[mi(j,k,dim,dim)] = W[mi(k,j,dim,dim)];
	119	}
d08fef42	120	free(g);
4263503b	121	}