Ingester

Sequence Diagram

sequenceDiagram
    Ingester ->>+ accept_workers: run
    Ingester ->>+ work: run
    Ingester ->>+ manage_assignments: run
    Ingester ->>+ update_metrics: run
    Ingester ->>+ register: run


    work ->>- Ingester: restart work
    manage_assignments ->>- Ingester: restart work
    Ingester ->>+ work: restart work
    Ingester ->>+ manage_assignments: restart work

    accept_workers ->>- Ingester: close
    work ->>- Ingester: close
    update_metrics ->>- Ingester: close
    manage_assignments ->>- Ingester: close

`Ingester`

Bases: DistributedService

The Ingester class provides a basis to write custom ingesters for any protocol. It handles all the forwarding to workers and managing assignments. For the instance to do anything, await run()

Source code in dranspose/ingester.py

class Ingester(DistributedService):
    """
    The Ingester class provides a basis to write custom ingesters for any protocol.
    It handles all the forwarding to workers and managing assignments.
    For the instance to do anything, await `run()`
    """

    def __init__(self, settings: Optional[IngesterSettings] = None):
        if settings is None:
            settings = IngesterSettings()
        self._ingester_settings = settings
        state = IngesterState(
            name=self._ingester_settings.ingester_name,
            url=self._ingester_settings.ingester_url,
            streams=self._ingester_settings.ingester_streams,
        )

        super().__init__(state=state, settings=self._ingester_settings)
        self._logger.info(
            "created ingester with state %s and settings %s",
            state,
            self._ingester_settings,
        )
        self.state: IngesterState
        self.active_streams: list[StreamName] = []
        self.dumper: Dumper | None = None

    def _final_dump_path(self) -> str | None:
        """Determines the filepath to write the dump to, if one should be written. Returns None otherwise."""
        if ret := self._ingester_settings.dump_path:
            return str(ret)
        if "dump_prefix" in self.parameters:
            val = self.parameters[ParameterName("dump_prefix")].data.decode("utf8")
            if len(val) > 0:
                return f"{val}{self._ingester_settings.ingester_name}-{self.state.mapping_uuid}.cbors"
        return None

    def open_socket(self) -> None:
        self.ctx = zmq.asyncio.Context()
        self.out_socket = self.ctx.socket(zmq.ROUTER)
        self.out_socket.setsockopt(zmq.ROUTER_MANDATORY, 1)
        self.out_socket.setsockopt(zmq.TCP_KEEPALIVE, 1)
        self.out_socket.setsockopt(zmq.TCP_KEEPALIVE_IDLE, 300)
        self.out_socket.setsockopt(zmq.TCP_KEEPALIVE_INTVL, 300)
        self.out_socket.bind(f"tcp://*:{self._ingester_settings.ingester_url.port}")

    async def run(self) -> None:
        """
        Main function orchestrating the dependent tasks. This needs to be called from an async context once an instance is created.
        """
        try:
            self.open_socket()
        except Exception as e:
            self._logger.error(
                "unable to open inward facing router socket %s", e.__repr__()
            )

        self.accept_task = asyncio.create_task(self.accept_workers())
        self.accept_task.add_done_callback(done_callback)
        self.work_task = asyncio.create_task(self.work())
        self.work_task.add_done_callback(done_callback)
        self.assign_task = asyncio.create_task(self.manage_assignments())
        self.assign_task.add_done_callback(done_callback)
        self.assignment_queue: asyncio.Queue[WorkAssignment] = asyncio.Queue()
        self.metrics_task = asyncio.create_task(self.update_metrics())
        self.metrics_task.add_done_callback(done_callback)
        self._logger.info("all subtasks running")
        await self.register()

    async def restart_work(self, uuid: UUID4, active_streams: list[StreamName]) -> None:
        """
        Restarts all work related tasks to make sure no old state is present in a new scan.

        Arguments:
            uuid: The uuid of the new mapping
        """
        await cancel_and_wait(self.work_task)
        await cancel_and_wait(self.assign_task)
        self.state.mapping_uuid = uuid
        self.active_streams = list(set(active_streams).intersection(self.state.streams))
        self.assignment_queue = asyncio.Queue()
        self.work_task = asyncio.create_task(self.work())
        self.work_task.add_done_callback(done_callback)
        self.assign_task = asyncio.create_task(self.manage_assignments())
        self.assign_task.add_done_callback(done_callback)

    async def finish_work(self) -> None:
        """
        This hook is called when all events of a trigger map were ingested. It is useful for e.g. closing open files.
        """
        self._logger.info("finishing work")
        if self.dumper:
            self.dumper.close()
            self.dumper = None

        await self.redis.xadd(
            RedisKeys.ready(self.state.mapping_uuid),
            {
                "data": IngesterUpdate(
                    state=DistributedStateEnum.FINISHED,
                    ingester=self.state.name,
                ).model_dump_json()
            },
        )

    async def manage_assignments(self) -> None:
        """
        A background task reading assignments from the controller, filering them for the relevant ones and enqueueing them for when the frame arrives.
        """
        self._logger.info("started ingester manage assign task")
        lastev = 0
        while True:
            sub = RedisKeys.assigned(self.state.mapping_uuid)
            try:
                assignments = await self.redis.xread({sub: lastev}, block=1000)
            except rexceptions.ConnectionError:
                break
            if sub not in assignments:
                continue
            assignment_evs = assignments[sub][0]
            self._logger.debug("got assignments %s", assignment_evs)
            for assignment in assignment_evs:
                was = WorkAssignmentList.validate_json(assignment[1]["data"])
                for wa in was:
                    mywa = wa.get_workers_for_streams(self.active_streams)
                    if len(mywa.assignments) > 0:
                        await self.assignment_queue.put(mywa)
                lastev = assignment[0]

    async def _send_workermessages(
        self, workermessages: dict[WorkerName, InternalWorkerMessage]
    ) -> None:
        for worker, message in workermessages.items():
            self._logger.debug(
                "header is %s",
                message.model_dump_json(exclude={"streams": {"__all__": "frames"}}),
            )
            await self.out_socket.send_multipart(
                [worker.encode("ascii")]
                + [
                    message.model_dump_json(
                        exclude={"streams": {"__all__": "frames"}}
                    ).encode("utf8")
                ]
                + message.get_all_frames()
            )
            self._logger.debug("sent message to worker %s", worker)

    async def _get_zmqparts(
        self,
        work_assignment: WorkAssignment,
        sourcegens: dict[
            StreamName, AsyncGenerator[StreamData | IsSoftwareTriggered, None]
        ],
        swtriggen: Iterator[dict[StreamName, StreamData]] | None,
    ) -> dict[StreamName, StreamData]:
        zmqyields: list[Awaitable[StreamData | IsSoftwareTriggered]] = []
        streams: list[StreamName] = []
        for stream in work_assignment.assignments:
            zmqyields.append(anext(sourcegens[stream]))
            streams.append(stream)
        try:
            zmqstreams: list[StreamData | IsSoftwareTriggered] = await asyncio.gather(
                *zmqyields
            )
        except StopAsyncIteration:
            self._logger.warning("stream source stopped before end")
            raise asyncio.exceptions.CancelledError()
        zmqparts: dict[StreamName, StreamData | IsSoftwareTriggered] = {
            stream: zmqpart for stream, zmqpart in zip(streams, zmqstreams)
        }
        self._logger.debug("stream triggered zmqparts %s", zmqparts)
        if swtriggen is not None:
            swparts = next(swtriggen)
            zmqparts.update(swparts)
            # that has to overwrite all IsSoftwareTriggered instance

        return zmqparts

    async def work(self) -> None:
        """
        The heavy liftig function of an ingester. It consumes a generator `run_source()` which
        should be implemented for a specific protocol.
        It then assembles all streams for this ingester and forwards them to the assigned workers.

        Optionally the worker dumps the internal messages to disk. This is useful for developing workers with actual data captured.
        """
        self._logger.info("started ingester work task")
        if path := self._final_dump_path():
            if self.dumper:
                self.dumper.close()
            self.dumper = Dumper(path, logger_name=f"dumper-{self._logger.name}")
        sourcegens = {stream: self.run_source(stream) for stream in self.active_streams}
        if len(sourcegens) == 0:
            self._logger.warning("this ingester has no active streams, stopping worker")
            return
        swtriggen: Iterator[dict[StreamName, StreamData]] | None = getattr(
            self, "software_trigger", lambda: None
        )()
        time_spent_per_assignment = []
        times_waiting_for_assignment = 0
        try:
            while True:
                start_time = time.perf_counter()
                if self.assignment_queue.empty():
                    times_waiting_for_assignment += 1
                work_assignment: WorkAssignment = await self.assignment_queue.get()
                zmqparts = await self._get_zmqparts(
                    work_assignment, sourcegens, swtriggen
                )
                if self.dumper:
                    self.dumper.write_dump(
                        InternalWorkerMessage(
                            event_number=work_assignment.event_number,
                            streams={k: v.get_bytes() for k, v in zmqparts.items()},
                        )
                    )
                workermessages: dict[WorkerName, InternalWorkerMessage] = {}
                for stream, workers in work_assignment.assignments.items():
                    for worker in workers:
                        if worker not in workermessages:
                            workermessages[worker] = InternalWorkerMessage(
                                event_number=work_assignment.event_number
                            )
                        workermessages[worker].streams[stream] = zmqparts[stream]
                self._logger.debug("workermessages %s", workermessages)
                await self._send_workermessages(workermessages)
                end_time = time.perf_counter()
                time_spent_per_assignment.append(end_time - start_time)
                if len(time_spent_per_assignment) > 1000:
                    self._logger.info(
                        "forwarding took avg %lf, min %f max %f. had to wait for %f/1000 assignments",
                        sum(time_spent_per_assignment) / len(time_spent_per_assignment),
                        min(time_spent_per_assignment),
                        max(time_spent_per_assignment),
                        times_waiting_for_assignment,
                    )
                    # reset counters
                    time_spent_per_assignment = []
                    times_waiting_for_assignment = 0
                self.state.processed_events += 1
        except asyncio.exceptions.CancelledError:
            self._logger.info("stopping worker")
            for stream in self.active_streams:
                await self.stop_source(stream)
        finally:
            if self.dumper:
                self.dumper.close()
                self.dumper = None

    async def run_source(
        self, stream: StreamName
    ) -> AsyncGenerator[StreamData | IsSoftwareTriggered, None]:
        """
        This generator must be implemented by the customised subclass. It should return exactly one `StreamData` object
        for every frame arriving from upstream.

        Arguments:
            stream: optionally it received a stream name for which is should yield frames.

        Returns:
            Yield a StreamData object for every received frame.
        """
        yield StreamData(typ="", frames=[])
        return

    async def stop_source(self, stream: StreamName) -> None:
        pass

    async def accept_workers(self) -> None:
        """
        To allow zmq to learn the names of attached workers, they periodically send empty packets.
        There is no information flow directly from workers to ingesters, so we discard the data.
        """
        poller = zmq.asyncio.Poller()
        poller.register(self.out_socket, zmq.POLLIN)
        while True:
            socks = dict(await poller.poll(timeout=1))
            # clean up old workers
            now = time.time()
            self.state.connected_workers = {
                uuid: cw
                for uuid, cw in self.state.connected_workers.items()
                if now - cw.last_seen < 4
            }
            for sock in socks:
                data = await sock.recv_multipart()
                connected_worker = ConnectedWorker(
                    name=data[0], service_uuid=UUID(bytes=data[1])
                )
                fast_publish = False
                if connected_worker.service_uuid not in self.state.connected_workers:
                    fast_publish = True
                self.state.connected_workers[
                    connected_worker.service_uuid
                ] = connected_worker
                self._logger.debug("worker pinnged %s", connected_worker)
                if fast_publish:
                    self._logger.debug("fast publish")
                    await self.publish_config()

    async def close(self) -> None:
        """
        Clean up any open connections
        """
        await cancel_and_wait(self.accept_task)
        await cancel_and_wait(self.work_task)
        await cancel_and_wait(self.metrics_task)
        await cancel_and_wait(self.assign_task)
        await self.redis.delete(RedisKeys.config("ingester", self.state.name))
        await super().close()
        self.ctx.destroy(linger=0)
        self._logger.info("closed ingester")

`accept_workers()` `async`

To allow zmq to learn the names of attached workers, they periodically send empty packets. There is no information flow directly from workers to ingesters, so we discard the data.

Source code in dranspose/ingester.py

async def accept_workers(self) -> None:
    """
    To allow zmq to learn the names of attached workers, they periodically send empty packets.
    There is no information flow directly from workers to ingesters, so we discard the data.
    """
    poller = zmq.asyncio.Poller()
    poller.register(self.out_socket, zmq.POLLIN)
    while True:
        socks = dict(await poller.poll(timeout=1))
        # clean up old workers
        now = time.time()
        self.state.connected_workers = {
            uuid: cw
            for uuid, cw in self.state.connected_workers.items()
            if now - cw.last_seen < 4
        }
        for sock in socks:
            data = await sock.recv_multipart()
            connected_worker = ConnectedWorker(
                name=data[0], service_uuid=UUID(bytes=data[1])
            )
            fast_publish = False
            if connected_worker.service_uuid not in self.state.connected_workers:
                fast_publish = True
            self.state.connected_workers[
                connected_worker.service_uuid
            ] = connected_worker
            self._logger.debug("worker pinnged %s", connected_worker)
            if fast_publish:
                self._logger.debug("fast publish")
                await self.publish_config()

`close()` `async`

Clean up any open connections

Source code in dranspose/ingester.py

async def close(self) -> None:
    """
    Clean up any open connections
    """
    await cancel_and_wait(self.accept_task)
    await cancel_and_wait(self.work_task)
    await cancel_and_wait(self.metrics_task)
    await cancel_and_wait(self.assign_task)
    await self.redis.delete(RedisKeys.config("ingester", self.state.name))
    await super().close()
    self.ctx.destroy(linger=0)
    self._logger.info("closed ingester")

`finish_work()` `async`

This hook is called when all events of a trigger map were ingested. It is useful for e.g. closing open files.

Source code in dranspose/ingester.py

async def finish_work(self) -> None:
    """
    This hook is called when all events of a trigger map were ingested. It is useful for e.g. closing open files.
    """
    self._logger.info("finishing work")
    if self.dumper:
        self.dumper.close()
        self.dumper = None

    await self.redis.xadd(
        RedisKeys.ready(self.state.mapping_uuid),
        {
            "data": IngesterUpdate(
                state=DistributedStateEnum.FINISHED,
                ingester=self.state.name,
            ).model_dump_json()
        },
    )

`manage_assignments()` `async`

A background task reading assignments from the controller, filering them for the relevant ones and enqueueing them for when the frame arrives.

Source code in dranspose/ingester.py

async def manage_assignments(self) -> None:
    """
    A background task reading assignments from the controller, filering them for the relevant ones and enqueueing them for when the frame arrives.
    """
    self._logger.info("started ingester manage assign task")
    lastev = 0
    while True:
        sub = RedisKeys.assigned(self.state.mapping_uuid)
        try:
            assignments = await self.redis.xread({sub: lastev}, block=1000)
        except rexceptions.ConnectionError:
            break
        if sub not in assignments:
            continue
        assignment_evs = assignments[sub][0]
        self._logger.debug("got assignments %s", assignment_evs)
        for assignment in assignment_evs:
            was = WorkAssignmentList.validate_json(assignment[1]["data"])
            for wa in was:
                mywa = wa.get_workers_for_streams(self.active_streams)
                if len(mywa.assignments) > 0:
                    await self.assignment_queue.put(mywa)
            lastev = assignment[0]

`restart_work(uuid, active_streams)` `async`

Restarts all work related tasks to make sure no old state is present in a new scan.

Parameters:

Name	Type	Description	Default
`uuid`	`UUID4`	The uuid of the new mapping	required

Source code in dranspose/ingester.py

async def restart_work(self, uuid: UUID4, active_streams: list[StreamName]) -> None:
    """
    Restarts all work related tasks to make sure no old state is present in a new scan.

    Arguments:
        uuid: The uuid of the new mapping
    """
    await cancel_and_wait(self.work_task)
    await cancel_and_wait(self.assign_task)
    self.state.mapping_uuid = uuid
    self.active_streams = list(set(active_streams).intersection(self.state.streams))
    self.assignment_queue = asyncio.Queue()
    self.work_task = asyncio.create_task(self.work())
    self.work_task.add_done_callback(done_callback)
    self.assign_task = asyncio.create_task(self.manage_assignments())
    self.assign_task.add_done_callback(done_callback)

`run()` `async`

Main function orchestrating the dependent tasks. This needs to be called from an async context once an instance is created.

Source code in dranspose/ingester.py

async def run(self) -> None:
    """
    Main function orchestrating the dependent tasks. This needs to be called from an async context once an instance is created.
    """
    try:
        self.open_socket()
    except Exception as e:
        self._logger.error(
            "unable to open inward facing router socket %s", e.__repr__()
        )

    self.accept_task = asyncio.create_task(self.accept_workers())
    self.accept_task.add_done_callback(done_callback)
    self.work_task = asyncio.create_task(self.work())
    self.work_task.add_done_callback(done_callback)
    self.assign_task = asyncio.create_task(self.manage_assignments())
    self.assign_task.add_done_callback(done_callback)
    self.assignment_queue: asyncio.Queue[WorkAssignment] = asyncio.Queue()
    self.metrics_task = asyncio.create_task(self.update_metrics())
    self.metrics_task.add_done_callback(done_callback)
    self._logger.info("all subtasks running")
    await self.register()

`run_source(stream)` `async`

This generator must be implemented by the customised subclass. It should return exactly one StreamData object for every frame arriving from upstream.

Parameters:

Name	Type	Description	Default
`stream`	`StreamName`	optionally it received a stream name for which is should yield frames.	required

Returns:

Type	Description
`AsyncGenerator[StreamData \| IsSoftwareTriggered, None]`	Yield a StreamData object for every received frame.

Source code in dranspose/ingester.py

async def run_source(
    self, stream: StreamName
) -> AsyncGenerator[StreamData | IsSoftwareTriggered, None]:
    """
    This generator must be implemented by the customised subclass. It should return exactly one `StreamData` object
    for every frame arriving from upstream.

    Arguments:
        stream: optionally it received a stream name for which is should yield frames.

    Returns:
        Yield a StreamData object for every received frame.
    """
    yield StreamData(typ="", frames=[])
    return

`work()` `async`

The heavy liftig function of an ingester. It consumes a generator run_source() which should be implemented for a specific protocol. It then assembles all streams for this ingester and forwards them to the assigned workers.

Optionally the worker dumps the internal messages to disk. This is useful for developing workers with actual data captured.

Source code in dranspose/ingester.py

async def work(self) -> None:
    """
    The heavy liftig function of an ingester. It consumes a generator `run_source()` which
    should be implemented for a specific protocol.
    It then assembles all streams for this ingester and forwards them to the assigned workers.

    Optionally the worker dumps the internal messages to disk. This is useful for developing workers with actual data captured.
    """
    self._logger.info("started ingester work task")
    if path := self._final_dump_path():
        if self.dumper:
            self.dumper.close()
        self.dumper = Dumper(path, logger_name=f"dumper-{self._logger.name}")
    sourcegens = {stream: self.run_source(stream) for stream in self.active_streams}
    if len(sourcegens) == 0:
        self._logger.warning("this ingester has no active streams, stopping worker")
        return
    swtriggen: Iterator[dict[StreamName, StreamData]] | None = getattr(
        self, "software_trigger", lambda: None
    )()
    time_spent_per_assignment = []
    times_waiting_for_assignment = 0
    try:
        while True:
            start_time = time.perf_counter()
            if self.assignment_queue.empty():
                times_waiting_for_assignment += 1
            work_assignment: WorkAssignment = await self.assignment_queue.get()
            zmqparts = await self._get_zmqparts(
                work_assignment, sourcegens, swtriggen
            )
            if self.dumper:
                self.dumper.write_dump(
                    InternalWorkerMessage(
                        event_number=work_assignment.event_number,
                        streams={k: v.get_bytes() for k, v in zmqparts.items()},
                    )
                )
            workermessages: dict[WorkerName, InternalWorkerMessage] = {}
            for stream, workers in work_assignment.assignments.items():
                for worker in workers:
                    if worker not in workermessages:
                        workermessages[worker] = InternalWorkerMessage(
                            event_number=work_assignment.event_number
                        )
                    workermessages[worker].streams[stream] = zmqparts[stream]
            self._logger.debug("workermessages %s", workermessages)
            await self._send_workermessages(workermessages)
            end_time = time.perf_counter()
            time_spent_per_assignment.append(end_time - start_time)
            if len(time_spent_per_assignment) > 1000:
                self._logger.info(
                    "forwarding took avg %lf, min %f max %f. had to wait for %f/1000 assignments",
                    sum(time_spent_per_assignment) / len(time_spent_per_assignment),
                    min(time_spent_per_assignment),
                    max(time_spent_per_assignment),
                    times_waiting_for_assignment,
                )
                # reset counters
                time_spent_per_assignment = []
                times_waiting_for_assignment = 0
            self.state.processed_events += 1
    except asyncio.exceptions.CancelledError:
        self._logger.info("stopping worker")
        for stream in self.active_streams:
            await self.stop_source(stream)
    finally:
        if self.dumper:
            self.dumper.close()
            self.dumper = None

Ingester

Sequence Diagram

Ingester

accept_workers() async

close() async

finish_work() async

manage_assignments() async

restart_work(uuid, active_streams) async

run() async

run_source(stream) async

work() async

`Ingester`

`accept_workers()` `async`

`close()` `async`

`finish_work()` `async`

`manage_assignments()` `async`

`restart_work(uuid, active_streams)` `async`

`run()` `async`

`run_source(stream)` `async`

`work()` `async`