Source code for gensbi.models.simformer.model

import jax
import jax.numpy as jnp
from jax import Array
from jax.typing import DTypeLike

from einops import rearrange
from flax import nnx

from functools import partial
from typing import Optional

from dataclasses import dataclass

from .transformer import Transformer
from .embedding import GaussianFourierEmbedding, MLPEmbedder

from gensbi.utils.model_wrapping import ModelWrapper, _expand_dims, _expand_time


@dataclass

[docs]
class SimformerParams:
    """Parameters for the Simformer model.

    Args:
        rngs (nnx.Rngs): Random number generators for initialization.
        in_channels (int): Number of input channels.
        dim_value (int): Dimension of the value embeddings.
        dim_id (int): Dimension of the ID embeddings.
        dim_condition (int): Dimension of the condition embeddings.
        dim_joint (int): Total dimension of the joint embeddings.
        fourier_features (int): Number of Fourier features for time embedding.
        num_heads (int): Number of attention heads.
        num_layers (int): Number of transformer layers.
        widening_factor (int): Widening factor for the transformer.
        qkv_features (int): Number of features for QKV layers.
        num_hidden_layers (int): Number of hidden layers in the transformer.

    """


[docs]
    rngs: nnx.Rngs


[docs]
    in_channels: int


[docs]
    dim_value: int


[docs]
    dim_id: int


[docs]
    dim_condition: int


[docs]
    dim_joint: int


[docs]
    num_heads: int


[docs]
    num_layers: int


[docs]
    num_hidden_layers: int = 1


[docs]
    fourier_features: int = 128


[docs]
    widening_factor: int = 3


[docs]
    qkv_features: int | None = None

    # param_dtype: DTypeLike = jnp.float32


[docs]
    def __post_init__(self):
        if self.qkv_features is None:
            self.qkv_features = self.dim_value + self.dim_id + self.dim_condition





[docs]
class Simformer(nnx.Module):
    """
    Simformer model for joint density estimation.

    Args:
        params (SimformerParams): Parameters for the Simformer model.
    """

    def __init__(
        self,
        params: SimformerParams,
    ):

[docs]
        self.params = params


[docs]
        self.in_channels = params.in_channels


[docs]
        self.dim_value = params.dim_value


[docs]
        self.dim_id = params.dim_id


[docs]
        self.dim_condition = params.dim_condition



[docs]
        self.embedding_net_value = MLPEmbedder(
            in_dim=self.in_channels, hidden_dim=params.dim_value, rngs=params.rngs
        )

        # self.embedding_net_value = lambda obs: jnp.repeat(obs, dim_value, axis=-1)

        fourier_features = params.fourier_features

[docs]
        self.embedding_time = GaussianFourierEmbedding(
            fourier_features, rngs=params.rngs, learnable=True
        )


[docs]
        self.embedding_net_id = nnx.Embed(
            num_embeddings=params.dim_joint, features=params.dim_id, rngs=params.rngs
        )


[docs]
        self.condition_embedding = nnx.Param(
            0.01 * jnp.ones((1, 1, params.dim_condition))
        )



[docs]
        self.total_tokens = params.dim_value + params.dim_id + params.dim_condition



[docs]
        self.transformer = Transformer(
            din=self.total_tokens,
            dcontext=fourier_features,
            num_heads=params.num_heads,
            num_layers=params.num_layers,
            features=params.qkv_features,
            widening_factor=params.widening_factor,
            num_hidden_layers=params.num_hidden_layers,
            act=jax.nn.gelu,
            skip_connection_attn=True,
            skip_connection_mlp=True,
            rngs=params.rngs,
        )



[docs]
        self.output_fn = nnx.Linear(self.total_tokens, self.in_channels, rngs=params.rngs)

        return


[docs]
    def __call__(
        self,
        t: Array,
        obs: Array,
        node_ids: Array,
        condition_mask: Array,
        edge_mask: Optional[Array] = None,
    ) -> Array:
        """
        Forward pass of the Simformer model.

        Args:
            t (Array): Time steps.
            obs (Array): Input data.
            args (Optional[dict]): Additional arguments.
            node_ids (Array): Node identifiers.
            condition_mask (Array): Mask for conditioning.
            edge_mask (Optional[Array]): Mask for edges.

        Returns:
            Array: Model output.
        """

        obs = jnp.asarray(obs)
        t = jnp.atleast_1d(t)

        assert (
            obs.ndim == 3
        ), f"Input obs must be of shape (batch_size, seq_len, 1), got {obs.shape}"
        assert (
            len(t.ravel()) == obs.shape[0] or len(t.ravel()) == 1
        ), "t must have the same batch size as obs or size 1, got {} and {}".format(
            t.shape, obs.shape
        )

        t = t.reshape(-1, 1, 1)

        batch_size, seq_len, _ = obs.shape
        condition_mask = condition_mask.astype(jnp.bool_).reshape(-1, seq_len, 1)
        condition_mask = jnp.broadcast_to(condition_mask, (batch_size, seq_len, 1))

        if node_ids.ndim == 1:
            node_ids = node_ids.reshape(-1, seq_len)
        elif node_ids.ndim == 2:
            assert (
                node_ids.shape[1] == seq_len
            ), f"node_ids must have shape (-1, {seq_len}), got {node_ids.shape}"
        elif node_ids.ndim == 3:
            assert (
                node_ids.shape[1] == seq_len and node_ids.shape[2] == 1
            ), f"node_ids must have shape (-1, {seq_len}, 1), got {node_ids.shape}"
            node_ids = jnp.squeeze(node_ids, axis=-1)
        else:
            raise ValueError(f"node_ids must have ndim <=3, got {node_ids.ndim}")

        time_embeddings = self.embedding_time(t)

        condition_embedding = (
            self.condition_embedding * condition_mask
        )  # If condition_mask is 0, then the embedding is 0, otherwise it is the condition_embedding vector
        condition_embedding = jnp.broadcast_to(
            condition_embedding, (batch_size, seq_len, self.dim_condition)
        )

        # Embed inputs and broadcast
        value_embeddings = self.embedding_net_value(obs)
        id_embeddings = self.embedding_net_id(node_ids)
        id_embeddings = jnp.broadcast_to(
            id_embeddings, (batch_size, seq_len, self.dim_id)
        )

        # Concatenate embeddings (alternatively you can also add instead of concatenating)
        x_encoded = jnp.concatenate(
            [value_embeddings, id_embeddings, condition_embedding], axis=-1
        )

        h = self.transformer(x_encoded, context=time_embeddings, mask=edge_mask)

        out = self.output_fn(h)
        # out = jnp.squeeze(out, axis=-1)
        return out




# class JointWrapper(ModelWrapper):
#     """
#     Module to handle conditioning in the Simformer model.

#     Args:
#         model (Simformer): Simformer model instance.
#     """
#     def __init__(self, model):
#         super().__init__(model)

#     def conditioned(
#         self, 
#         obs: Array, 
#         obs_ids: Array, 
#         cond: Array, 
#         cond_ids: Array, 
#         t: Array, 
#         edge_mask: Optional[Array] = None
#     ) -> Array:
#         """
#         Perform conditioned inference.

#         Args:
#             obs (Array): Observations.
#             obs_ids (Array): Observation identifiers.
#             cond (Array): Conditioning values.
#             cond_ids (Array): Conditioning identifiers.
#             t (Array): Time steps.
#             edge_mask (Optional[Array]): Mask for edges.

#         Returns:
#             Array: Conditioned output.
#         """
        
#         obs_dim = obs.shape[1]
#         cond_dim = cond.shape[1]
#         # repeat cond on the first dimension to match obs
#         cond = jnp.broadcast_to(
#             cond, (obs.shape[0], *cond.shape[1:])
#         )

#         condition_mask_dim = obs_dim + cond_dim

#         condition_mask = jnp.zeros((condition_mask_dim,), dtype=jnp.bool_)
#         condition_mask = condition_mask.at[obs_dim:].set(True)

#         x = jnp.concatenate([obs, cond], axis=1)
#         node_ids = jnp.concatenate([obs_ids, cond_ids], axis=1)

#         res = self.model(
#             obs=x,
#             t=t,
#             node_ids=node_ids,
#             condition_mask=condition_mask,
#             edge_mask=edge_mask,
#         )
#         # now return only the values on which we are not conditioning
#         res = res[:, :obs_dim]
#         return res

#     def unconditioned(
#         self, 
#         obs: Array, 
#         obs_ids: Array, 
#         t: Array, 
#         edge_mask: Optional[Array] = None
#     ) -> Array:
#         """
#         Perform unconditioned inference.

#         Args:
#             obs (Array): Observations.
#             obs_ids (Array): Observation identifiers.
#             t (Array): Time steps.
#             edge_mask (Optional[Array]): Mask for edges.

#         Returns:
#             Array: Unconditioned output.
#         """

#         condition_mask = jnp.zeros((obs.shape[1],), dtype=jnp.bool_)

#         node_ids = obs_ids

#         res = self.model(
#             obs=obs,
#             t=t,
#             node_ids=node_ids,
#             condition_mask=condition_mask,
#             edge_mask=edge_mask,
#         )

#         return res

#     def __call__(
#         self, 
#         t: Array, 
#         obs: Array, 
#         obs_ids: Array, 
#         cond: Array, 
#         cond_ids: Array, 
#         conditioned: bool = True, 
#         edge_mask: Optional[Array] = None
#     ) -> Array:
#         """
#         Perform inference based on conditioning.

#         Args:
#             obs (Array): Observations.
#             obs_ids (Array): Observation identifiers.
#             cond (Array): Conditioning values.
#             cond_ids (Array): Conditioning identifiers.
#             timesteps (Array): Time steps.
#             conditioned (bool): Whether to perform conditioned inference.
#             edge_mask (Optional[Array]): Mask for edges.

#         Returns:
#             Array: Model output.
#         """
#         t = _expand_time(t)
#         obs = _expand_dims(obs)
#         cond = _expand_dims(cond)
        
#         obs_ids = _expand_dims(obs_ids)
#         cond_ids = _expand_dims(cond_ids)
        
#         if conditioned:
#             return self.conditioned(
#                 obs, obs_ids, cond, cond_ids, t, edge_mask=edge_mask
#             )
#         else:
#             return self.unconditioned(obs, obs_ids, t, edge_mask=edge_mask)