external/android-nn-driver/ArmnnPreparedModel.cpp

*3e777be0SXin Li//
*3e777be0SXin Li// Copyright © 2017-2023 Arm Ltd and Contributors. All rights reserved.
*3e777be0SXin Li// SPDX-License-Identifier: MIT
*3e777be0SXin Li//
*3e777be0SXin Li
*3e777be0SXin Li#define LOG_TAG "ArmnnDriver"
*3e777be0SXin Li
*3e777be0SXin Li#include "ArmnnPreparedModel.hpp"
*3e777be0SXin Li#include "Utils.hpp"
*3e777be0SXin Li
*3e777be0SXin Li#include <armnn/Types.hpp>
*3e777be0SXin Li
*3e777be0SXin Li#include <log/log.h>
*3e777be0SXin Li#include <OperationsUtils.h>
*3e777be0SXin Li#include <ValidateHal.h>
*3e777be0SXin Li
*3e777be0SXin Li#include <chrono>
*3e777be0SXin Li#include <cinttypes>
*3e777be0SXin Li
*3e777be0SXin Li#ifdef ARMNN_ANDROID_S
*3e777be0SXin Li#include <LegacyUtils.h>
*3e777be0SXin Li#endif
*3e777be0SXin Li
*3e777be0SXin Liusing namespace android;
*3e777be0SXin Li
*3e777be0SXin Linamespace
*3e777be0SXin Li{
*3e777be0SXin Liusing namespace armnn_driver;
*3e777be0SXin Li
*3e777be0SXin Livoid NotifyCallbackAndCheck(const ::android::sp<V1_0::IExecutionCallback>& callback, V1_0::ErrorStatus errorStatus,
*3e777be0SXin Li                            std::string callingFunction)
*3e777be0SXin Li{
*3e777be0SXin Li    Return<void> returned = callback->notify(errorStatus);
*3e777be0SXin Li    // This check is required, if the callback fails and it isn't checked it will bring down the service
*3e777be0SXin Li    if (!returned.isOk())
*3e777be0SXin Li    {
*3e777be0SXin Li        ALOGE("ArmnnDriver::%s: hidl callback failed to return properly: %s",
*3e777be0SXin Li            callingFunction.c_str(), returned.description().c_str());
*3e777be0SXin Li    }
*3e777be0SXin Li}
*3e777be0SXin Li
*3e777be0SXin Libool ValidateRequestArgument(const V1_0::RequestArgument& requestArg, const armnn::TensorInfo& tensorInfo)
*3e777be0SXin Li{
*3e777be0SXin Li    if (requestArg.dimensions.size() != 0)
*3e777be0SXin Li    {
*3e777be0SXin Li        if (requestArg.dimensions.size() != tensorInfo.GetNumDimensions())
*3e777be0SXin Li        {
*3e777be0SXin Li            ALOGE("Mismatched dimensions (request argument: %zu, expected: %u)",
*3e777be0SXin Li                  requestArg.dimensions.size(), tensorInfo.GetNumDimensions());
*3e777be0SXin Li            return false;
*3e777be0SXin Li        }
*3e777be0SXin Li
*3e777be0SXin Li        for (unsigned int d = 0; d < tensorInfo.GetNumDimensions(); ++d)
*3e777be0SXin Li        {
*3e777be0SXin Li            if (requestArg.dimensions[d] != 0 && requestArg.dimensions[d] != tensorInfo.GetShape()[d])
*3e777be0SXin Li            {
*3e777be0SXin Li                ALOGE("Mismatched size for dimension %d (request argument: %u, expected %u)",
*3e777be0SXin Li                    d, requestArg.dimensions[d], tensorInfo.GetShape()[d]);
*3e777be0SXin Li                return false;
*3e777be0SXin Li            }
*3e777be0SXin Li        }
*3e777be0SXin Li    }
*3e777be0SXin Li
*3e777be0SXin Li    return true;
*3e777be0SXin Li}
*3e777be0SXin Li
*3e777be0SXin Liarmnn::Tensor GetTensorForRequestArgument(const V1_0::RequestArgument& requestArg,
*3e777be0SXin Li    const armnn::TensorInfo& tensorInfo,
*3e777be0SXin Li    const std::vector<::android::nn::RunTimePoolInfo>& requestPools)
*3e777be0SXin Li{
*3e777be0SXin Li    if (!ValidateRequestArgument(requestArg, tensorInfo))
*3e777be0SXin Li    {
*3e777be0SXin Li        return armnn::Tensor();
*3e777be0SXin Li    }
*3e777be0SXin Li
*3e777be0SXin Li    return armnn::Tensor(tensorInfo, GetMemoryFromPool(requestArg.location, requestPools));
*3e777be0SXin Li}
*3e777be0SXin Li
*3e777be0SXin Liinline std::string BuildTensorName(const char* tensorNamePrefix, std::size_t index)
*3e777be0SXin Li{
*3e777be0SXin Li    return tensorNamePrefix + std::to_string(index);
*3e777be0SXin Li}
*3e777be0SXin Li
*3e777be0SXin Li} // anonymous namespace
*3e777be0SXin Li
*3e777be0SXin Liusing namespace android::hardware;
*3e777be0SXin Li
*3e777be0SXin Linamespace armnn_driver
*3e777be0SXin Li{
*3e777be0SXin Litemplate<typename HalVersion>
*3e777be0SXin LiRequestThread<ArmnnPreparedModel, HalVersion, CallbackContext_1_0>
*3e777be0SXin Li    ArmnnPreparedModel<HalVersion>::m_RequestThread;
*3e777be0SXin Li
*3e777be0SXin Litemplate<typename HalVersion>
*3e777be0SXin Listd::unique_ptr<armnn::Threadpool> ArmnnPreparedModel<HalVersion>::m_Threadpool(nullptr);
*3e777be0SXin Li
*3e777be0SXin Litemplate<typename HalVersion>
*3e777be0SXin Litemplate <typename TensorBindingCollection>
*3e777be0SXin Livoid ArmnnPreparedModel<HalVersion>::DumpTensorsIfRequired(char const* tensorNamePrefix,
*3e777be0SXin Li                                                           const TensorBindingCollection& tensorBindings)
*3e777be0SXin Li{
*3e777be0SXin Li    if (!m_RequestInputsAndOutputsDumpDir.empty())
*3e777be0SXin Li    {
*3e777be0SXin Li        const std::string requestName = std::to_string(m_NetworkId) + "_" + std::to_string(m_RequestCount) + ".dump";
*3e777be0SXin Li        for (std::size_t i = 0u; i < tensorBindings.size(); ++i)
*3e777be0SXin Li        {
*3e777be0SXin Li            DumpTensor(m_RequestInputsAndOutputsDumpDir,
*3e777be0SXin Li                requestName,
*3e777be0SXin Li                BuildTensorName(tensorNamePrefix, i),
*3e777be0SXin Li                tensorBindings[i].second);
*3e777be0SXin Li        }
*3e777be0SXin Li    }
*3e777be0SXin Li}
*3e777be0SXin Li
*3e777be0SXin Litemplate<typename HalVersion>
*3e777be0SXin LiArmnnPreparedModel<HalVersion>::ArmnnPreparedModel(armnn::NetworkId networkId,
*3e777be0SXin Li                                                   armnn::IRuntime* runtime,
*3e777be0SXin Li                                                   const HalModel& model,
*3e777be0SXin Li                                                   const std::string& requestInputsAndOutputsDumpDir,
*3e777be0SXin Li                                                   const bool gpuProfilingEnabled,
*3e777be0SXin Li                                                   const bool asyncModelExecutionEnabled,
*3e777be0SXin Li                                                   const unsigned int numberOfThreads,
*3e777be0SXin Li                                                   const bool importEnabled,
*3e777be0SXin Li                                                   const bool exportEnabled)
*3e777be0SXin Li    : m_NetworkId(networkId)
*3e777be0SXin Li    , m_Runtime(runtime)
*3e777be0SXin Li    , m_Model(model)
*3e777be0SXin Li    , m_RequestCount(0)
*3e777be0SXin Li    , m_RequestInputsAndOutputsDumpDir(requestInputsAndOutputsDumpDir)
*3e777be0SXin Li    , m_GpuProfilingEnabled(gpuProfilingEnabled)
*3e777be0SXin Li    , m_AsyncModelExecutionEnabled(asyncModelExecutionEnabled)
*3e777be0SXin Li    , m_EnableImport(importEnabled)
*3e777be0SXin Li    , m_EnableExport(exportEnabled)
*3e777be0SXin Li{
*3e777be0SXin Li    // Enable profiling if required.
*3e777be0SXin Li    m_Runtime->GetProfiler(m_NetworkId)->EnableProfiling(m_GpuProfilingEnabled);
*3e777be0SXin Li
*3e777be0SXin Li    if (m_AsyncModelExecutionEnabled)
*3e777be0SXin Li    {
*3e777be0SXin Li        std::vector<std::shared_ptr<armnn::IWorkingMemHandle>> memHandles;
*3e777be0SXin Li        for (unsigned int i=0; i < numberOfThreads; ++i)
*3e777be0SXin Li        {
*3e777be0SXin Li            memHandles.emplace_back(m_Runtime->CreateWorkingMemHandle(networkId));
*3e777be0SXin Li        }
*3e777be0SXin Li
*3e777be0SXin Li        if (!m_Threadpool)
*3e777be0SXin Li        {
*3e777be0SXin Li            m_Threadpool = std::make_unique<armnn::Threadpool>(numberOfThreads, runtime, memHandles);
*3e777be0SXin Li        }
*3e777be0SXin Li        else
*3e777be0SXin Li        {
*3e777be0SXin Li            m_Threadpool->LoadMemHandles(memHandles);
*3e777be0SXin Li        }
*3e777be0SXin Li
*3e777be0SXin Li        m_WorkingMemHandle = memHandles.back();
*3e777be0SXin Li    }
*3e777be0SXin Li}
*3e777be0SXin Li
*3e777be0SXin Litemplate<typename HalVersion>
*3e777be0SXin LiArmnnPreparedModel<HalVersion>::~ArmnnPreparedModel()
*3e777be0SXin Li{
*3e777be0SXin Li    // Get a hold of the profiler used by this model.
*3e777be0SXin Li    std::shared_ptr<armnn::IProfiler> profiler = m_Runtime->GetProfiler(m_NetworkId);
*3e777be0SXin Li    if (profiler && m_GpuProfilingEnabled)
*3e777be0SXin Li    {
*3e777be0SXin Li        // Dump the profiling info to a file if required.
*3e777be0SXin Li        DumpJsonProfilingIfRequired(m_GpuProfilingEnabled, m_RequestInputsAndOutputsDumpDir, m_NetworkId,
*3e777be0SXin Li                                    profiler.get());
*3e777be0SXin Li    }
*3e777be0SXin Li
*3e777be0SXin Li    // Unload the network associated with this model.
*3e777be0SXin Li    m_Runtime->UnloadNetwork(m_NetworkId);
*3e777be0SXin Li
*3e777be0SXin Li    // Unload the network memhandles from the threadpool
*3e777be0SXin Li    if (m_AsyncModelExecutionEnabled)
*3e777be0SXin Li    {
*3e777be0SXin Li        m_Threadpool->UnloadMemHandles(m_NetworkId);
*3e777be0SXin Li    }
*3e777be0SXin Li}
*3e777be0SXin Li
*3e777be0SXin Litemplate<typename HalVersion>
*3e777be0SXin LiReturn<V1_0::ErrorStatus> ArmnnPreparedModel<HalVersion>::execute(
*3e777be0SXin Li    const V1_0::Request& request,
*3e777be0SXin Li    const ::android::sp<V1_0::IExecutionCallback>& callback)
*3e777be0SXin Li{
*3e777be0SXin Li    ALOGV("ArmnnPreparedModel::execute(): %s", GetModelSummary(m_Model).c_str());
*3e777be0SXin Li    m_RequestCount++;
*3e777be0SXin Li
*3e777be0SXin Li    if (callback.get() == nullptr) {
*3e777be0SXin Li        ALOGE("ArmnnPreparedModel::execute invalid callback passed");
*3e777be0SXin Li        return V1_0::ErrorStatus::INVALID_ARGUMENT;
*3e777be0SXin Li    }
*3e777be0SXin Li
*3e777be0SXin Li    if (!android::nn::validateRequest(request, m_Model))
*3e777be0SXin Li    {
*3e777be0SXin Li        NotifyCallbackAndCheck(callback, V1_0::ErrorStatus::INVALID_ARGUMENT, "ArmnnPreparedModel::execute");
*3e777be0SXin Li        return V1_0::ErrorStatus::INVALID_ARGUMENT;
*3e777be0SXin Li    }
*3e777be0SXin Li
*3e777be0SXin Li    if (!m_RequestInputsAndOutputsDumpDir.empty())
*3e777be0SXin Li    {
*3e777be0SXin Li        ALOGD("Dumping inputs and outputs for request %" PRIuPTR, reinterpret_cast<std::uintptr_t>(callback.get()));
*3e777be0SXin Li    }
*3e777be0SXin Li
*3e777be0SXin Li    // allocate the tensors on the heap, as they are passed to the request thread
*3e777be0SXin Li    auto pInputTensors = std::make_shared<armnn::InputTensors>();
*3e777be0SXin Li    auto pOutputTensors = std::make_shared<armnn::OutputTensors>();
*3e777be0SXin Li
*3e777be0SXin Li    // map the memory pool into shared pointers
*3e777be0SXin Li    // use a shared memory pools vector on the heap, as it is passed to the request thread
*3e777be0SXin Li    auto pMemPools = std::make_shared<std::vector<android::nn::RunTimePoolInfo>>();
*3e777be0SXin Li#if !defined(ARMNN_ANDROID_S)
*3e777be0SXin Li    if (!setRunTimePoolInfosFromHidlMemories(pMemPools.get(), request.pools))
*3e777be0SXin Li#else
*3e777be0SXin Li    if (!setRunTimePoolInfosFromCanonicalMemories(pMemPools.get(), uncheckedConvert(request.pools)))
*3e777be0SXin Li#endif
*3e777be0SXin Li    {
*3e777be0SXin Li        NotifyCallbackAndCheck(callback, V1_0::ErrorStatus::GENERAL_FAILURE, "ArmnnPreparedModel::execute");
*3e777be0SXin Li        return V1_0::ErrorStatus::GENERAL_FAILURE;
*3e777be0SXin Li    }
*3e777be0SXin Li
*3e777be0SXin Li    // add the inputs and outputs with their data
*3e777be0SXin Li    try
*3e777be0SXin Li    {
*3e777be0SXin Li        pInputTensors->reserve(request.inputs.size());
*3e777be0SXin Li        for (unsigned int i = 0; i < request.inputs.size(); i++)
*3e777be0SXin Li        {
*3e777be0SXin Li            const auto& inputArg = request.inputs[i];
*3e777be0SXin Li            armnn::TensorInfo inputTensorInfo = m_Runtime->GetInputTensorInfo(m_NetworkId, i);
*3e777be0SXin Li            // pInputTensors (of type InputTensors) is composed of a vector of ConstTensors.
*3e777be0SXin Li            // Therefore, set all TensorInfo isConstant parameters of input Tensors to true.
*3e777be0SXin Li            inputTensorInfo.SetConstant();
*3e777be0SXin Li            auto result = ValidateRequestArgument<V1_0::ErrorStatus, V1_0::Request>(request,
*3e777be0SXin Li                                                                                    inputTensorInfo,
*3e777be0SXin Li                                                                                    inputArg,
*3e777be0SXin Li                                                                                    "input");
*3e777be0SXin Li            if (result != V1_0::ErrorStatus::NONE)
*3e777be0SXin Li            {
*3e777be0SXin Li                return result;
*3e777be0SXin Li            }
*3e777be0SXin Li
*3e777be0SXin Li            const armnn::Tensor inputTensor = GetTensorForRequestArgument(inputArg, inputTensorInfo, *pMemPools);
*3e777be0SXin Li            if (inputTensor.GetMemoryArea() == nullptr)
*3e777be0SXin Li            {
*3e777be0SXin Li                ALOGE("Cannot execute request. Error converting request input %u to tensor", i);
*3e777be0SXin Li                return V1_0::ErrorStatus::GENERAL_FAILURE;
*3e777be0SXin Li            }
*3e777be0SXin Li
*3e777be0SXin Li            pInputTensors->emplace_back(i, inputTensor);
*3e777be0SXin Li        }
*3e777be0SXin Li
*3e777be0SXin Li        pOutputTensors->reserve(request.outputs.size());
*3e777be0SXin Li        for (unsigned int i = 0; i < request.outputs.size(); i++)
*3e777be0SXin Li        {
*3e777be0SXin Li            const auto& outputArg = request.outputs[i];
*3e777be0SXin Li            const armnn::TensorInfo outputTensorInfo = m_Runtime->GetOutputTensorInfo(m_NetworkId, i);
*3e777be0SXin Li            auto result = ValidateRequestArgument<V1_0::ErrorStatus, V1_0::Request>(request,
*3e777be0SXin Li                                                                                    outputTensorInfo,
*3e777be0SXin Li                                                                                    outputArg,
*3e777be0SXin Li                                                                                    "output");
*3e777be0SXin Li
*3e777be0SXin Li            if (result != V1_0::ErrorStatus::NONE)
*3e777be0SXin Li            {
*3e777be0SXin Li                return result;
*3e777be0SXin Li            }
*3e777be0SXin Li
*3e777be0SXin Li            const armnn::Tensor outputTensor = GetTensorForRequestArgument(outputArg, outputTensorInfo, *pMemPools);
*3e777be0SXin Li            if (outputTensor.GetMemoryArea() == nullptr)
*3e777be0SXin Li            {
*3e777be0SXin Li                ALOGE("Cannot execute request. Error converting request output %u to tensor", i);
*3e777be0SXin Li                return V1_0::ErrorStatus::GENERAL_FAILURE;
*3e777be0SXin Li            }
*3e777be0SXin Li
*3e777be0SXin Li            pOutputTensors->emplace_back(i, outputTensor);
*3e777be0SXin Li        }
*3e777be0SXin Li    }
*3e777be0SXin Li    catch (armnn::Exception& e)
*3e777be0SXin Li    {
*3e777be0SXin Li        ALOGW("armnn::Exception caught while preparing for EnqueueWorkload: %s", e.what());
*3e777be0SXin Li        NotifyCallbackAndCheck(callback, V1_0::ErrorStatus::GENERAL_FAILURE, "ArmnnPreparedModel::execute");
*3e777be0SXin Li        return V1_0::ErrorStatus::GENERAL_FAILURE;
*3e777be0SXin Li    }
*3e777be0SXin Li    catch (std::exception& e)
*3e777be0SXin Li    {
*3e777be0SXin Li        ALOGE("std::exception caught while preparing for EnqueueWorkload: %s", e.what());
*3e777be0SXin Li        NotifyCallbackAndCheck(callback, V1_0::ErrorStatus::GENERAL_FAILURE, "ArmnnPreparedModel::execute");
*3e777be0SXin Li        return V1_0::ErrorStatus::GENERAL_FAILURE;
*3e777be0SXin Li    }
*3e777be0SXin Li
*3e777be0SXin Li    auto cb = [callback](V1_0::ErrorStatus errorStatus, std::string callingFunction)
*3e777be0SXin Li    {
*3e777be0SXin Li        NotifyCallbackAndCheck(callback, errorStatus, callingFunction);
*3e777be0SXin Li    };
*3e777be0SXin Li
*3e777be0SXin Li    CallbackContext_1_0 armnnCb;
*3e777be0SXin Li    armnnCb.callback = cb;
*3e777be0SXin Li
*3e777be0SXin Li    if (m_AsyncModelExecutionEnabled)
*3e777be0SXin Li    {
*3e777be0SXin Li        ALOGV("ArmnnPreparedModel::execute(...) before ScheduleGraphForExecution");
*3e777be0SXin Li        ScheduleGraphForExecution(pMemPools, pInputTensors, pOutputTensors, armnnCb);
*3e777be0SXin Li        ALOGV("ArmnnPreparedModel::execute(...) after ScheduleGraphForExecution");
*3e777be0SXin Li        return V1_0::ErrorStatus::NONE;
*3e777be0SXin Li    }
*3e777be0SXin Li
*3e777be0SXin Li    // post the request for asynchronous execution
*3e777be0SXin Li    ALOGV("ArmnnPreparedModel::execute(...) before PostMsg");
*3e777be0SXin Li    m_RequestThread.PostMsg(this, pMemPools, pInputTensors, pOutputTensors, armnnCb);
*3e777be0SXin Li    ALOGV("ArmnnPreparedModel::execute(...) after PostMsg");
*3e777be0SXin Li    return V1_0::ErrorStatus::NONE; // successfully queued
*3e777be0SXin Li}
*3e777be0SXin Li
*3e777be0SXin Litemplate<typename HalVersion>
*3e777be0SXin Livoid ArmnnPreparedModel<HalVersion>::ExecuteGraph(
*3e777be0SXin Li        std::shared_ptr<std::vector<::android::nn::RunTimePoolInfo>>& pMemPools,
*3e777be0SXin Li        armnn::InputTensors& inputTensors,
*3e777be0SXin Li        armnn::OutputTensors& outputTensors,
*3e777be0SXin Li        CallbackContext_1_0 cb)
*3e777be0SXin Li{
*3e777be0SXin Li    ALOGV("ArmnnPreparedModel::ExecuteGraph(...)");
*3e777be0SXin Li    // Capture the graph execution start time.
*3e777be0SXin Li    std::chrono::time_point<std::chrono::system_clock> graphExecutionStart = std::chrono::system_clock::now();
*3e777be0SXin Li
*3e777be0SXin Li    DumpTensorsIfRequired("Input", inputTensors);
*3e777be0SXin Li
*3e777be0SXin Li    // run it
*3e777be0SXin Li    try
*3e777be0SXin Li    {
*3e777be0SXin Li        armnn::Status status;
*3e777be0SXin Li        if (m_AsyncModelExecutionEnabled)
*3e777be0SXin Li        {
*3e777be0SXin Li            ALOGW("ArmnnPreparedModel::ExecuteGraph m_AsyncModelExecutionEnabled true");
*3e777be0SXin Li            status = m_Runtime->Execute(*m_WorkingMemHandle, inputTensors, outputTensors);
*3e777be0SXin Li        }
*3e777be0SXin Li        else
*3e777be0SXin Li        {
*3e777be0SXin Li            ALOGW("ArmnnPreparedModel::ExecuteGraph m_AsyncModelExecutionEnabled false");
*3e777be0SXin Li            // Create a vector of Input and Output Ids which can be imported. An empty vector means all will be copied.
*3e777be0SXin Li            std::vector<armnn::ImportedInputId> importedInputIds;
*3e777be0SXin Li            if (m_EnableImport)
*3e777be0SXin Li            {
*3e777be0SXin Li                importedInputIds =  m_Runtime->ImportInputs(m_NetworkId, inputTensors, armnn::MemorySource::Malloc);
*3e777be0SXin Li            }
*3e777be0SXin Li            std::vector<armnn::ImportedOutputId> importedOutputIds;
*3e777be0SXin Li            if (m_EnableExport)
*3e777be0SXin Li            {
*3e777be0SXin Li                importedOutputIds = m_Runtime->ImportOutputs(m_NetworkId, outputTensors, armnn::MemorySource::Malloc);
*3e777be0SXin Li            }
*3e777be0SXin Li            status = m_Runtime->EnqueueWorkload(m_NetworkId, inputTensors, outputTensors,
*3e777be0SXin Li                                                importedInputIds, importedOutputIds);
*3e777be0SXin Li        }
*3e777be0SXin Li        if (status != armnn::Status::Success)
*3e777be0SXin Li        {
*3e777be0SXin Li            ALOGW("EnqueueWorkload failed");
*3e777be0SXin Li            cb.callback(V1_0::ErrorStatus::GENERAL_FAILURE, "ArmnnPreparedModel::ExecuteGraph");
*3e777be0SXin Li            return;
*3e777be0SXin Li        }
*3e777be0SXin Li    }
*3e777be0SXin Li    catch (armnn::Exception& e)
*3e777be0SXin Li    {
*3e777be0SXin Li        ALOGW("armnn::Exception caught from EnqueueWorkload: %s", e.what());
*3e777be0SXin Li        cb.callback(V1_0::ErrorStatus::GENERAL_FAILURE, "ArmnnPreparedModel::ExecuteGraph");
*3e777be0SXin Li        return;
*3e777be0SXin Li    }
*3e777be0SXin Li    catch (std::exception& e)
*3e777be0SXin Li    {
*3e777be0SXin Li        ALOGE("std::exception caught from EnqueueWorkload: %s", e.what());
*3e777be0SXin Li        cb.callback(V1_0::ErrorStatus::GENERAL_FAILURE, "ArmnnPreparedModel::ExecuteGraph");
*3e777be0SXin Li        return;
*3e777be0SXin Li    }
*3e777be0SXin Li
*3e777be0SXin Li    DumpTensorsIfRequired("Output", outputTensors);
*3e777be0SXin Li
*3e777be0SXin Li    // Commit output buffers.
*3e777be0SXin Li    // Note that we update *all* pools, even if they aren't actually used as outputs -
*3e777be0SXin Li    // this is simpler and is what the CpuExecutor does.
*3e777be0SXin Li    for (android::nn::RunTimePoolInfo& pool : *pMemPools)
*3e777be0SXin Li    {
*3e777be0SXin Li        // Type android::nn::RunTimePoolInfo has changed between Android P & Q and Android R, where
*3e777be0SXin Li        // update() has been removed and flush() added.
*3e777be0SXin Li        #if defined(ARMNN_ANDROID_R) || defined(ARMNN_ANDROID_S) // Use the new Android implementation.
*3e777be0SXin Li            pool.flush();
*3e777be0SXin Li        #else
*3e777be0SXin Li            pool.update();
*3e777be0SXin Li        #endif
*3e777be0SXin Li    }
*3e777be0SXin Li
*3e777be0SXin Li    // Log the total time in this call. This is a good number to compare to that printed out by
*3e777be0SXin Li    // RuntimeImpl::EnqueueWorkload. The difference should be the execution overhead of the driver.
*3e777be0SXin Li    ALOGI("ArmnnPreparedModel::ExecuteGraph Execution time = %lld µs",
*3e777be0SXin Li           std::chrono::duration_cast<std::chrono::microseconds>
*3e777be0SXin Li          (std::chrono::system_clock::now() - graphExecutionStart).count());
*3e777be0SXin Li
*3e777be0SXin Li    cb.callback(V1_0::ErrorStatus::NONE, "ExecuteGraph");
*3e777be0SXin Li}
*3e777be0SXin Li
*3e777be0SXin Litemplate<typename HalVersion>
*3e777be0SXin Libool ArmnnPreparedModel<HalVersion>::ExecuteWithDummyInputs()
*3e777be0SXin Li{
*3e777be0SXin Li    std::vector<std::vector<char>> storage;
*3e777be0SXin Li    armnn::InputTensors inputTensors;
*3e777be0SXin Li    for (unsigned int i = 0; i < getMainModel(m_Model).inputIndexes.size(); i++)
*3e777be0SXin Li    {
*3e777be0SXin Li        armnn::TensorInfo inputTensorInfo = m_Runtime->GetInputTensorInfo(m_NetworkId, i);
*3e777be0SXin Li        // pInputTensors (of type InputTensors) is composed of a vector of ConstTensors.
*3e777be0SXin Li        // Therefore, set all TensorInfo isConstant parameters of input Tensors to true.
*3e777be0SXin Li        inputTensorInfo.SetConstant();
*3e777be0SXin Li
*3e777be0SXin Li        storage.emplace_back(inputTensorInfo.GetNumBytes());
*3e777be0SXin Li        const armnn::ConstTensor inputTensor(inputTensorInfo, storage.back().data());
*3e777be0SXin Li
*3e777be0SXin Li        inputTensors.emplace_back(i, inputTensor);
*3e777be0SXin Li    }
*3e777be0SXin Li
*3e777be0SXin Li    armnn::OutputTensors outputTensors;
*3e777be0SXin Li    for (unsigned int i = 0; i < getMainModel(m_Model).outputIndexes.size(); i++)
*3e777be0SXin Li    {
*3e777be0SXin Li        const armnn::TensorInfo outputTensorInfo = m_Runtime->GetOutputTensorInfo(m_NetworkId, i);
*3e777be0SXin Li        storage.emplace_back(outputTensorInfo.GetNumBytes());
*3e777be0SXin Li        const armnn::Tensor outputTensor(outputTensorInfo, storage.back().data());
*3e777be0SXin Li
*3e777be0SXin Li        outputTensors.emplace_back(i, outputTensor);
*3e777be0SXin Li    }
*3e777be0SXin Li
*3e777be0SXin Li    try
*3e777be0SXin Li    {
*3e777be0SXin Li        armnn::Status status;
*3e777be0SXin Li        if (m_AsyncModelExecutionEnabled)
*3e777be0SXin Li        {
*3e777be0SXin Li            ALOGW("ArmnnPreparedModel::ExecuteGraph m_AsyncModelExecutionEnabled true");
*3e777be0SXin Li            status = m_Runtime->Execute(*m_WorkingMemHandle, inputTensors, outputTensors);
*3e777be0SXin Li        }
*3e777be0SXin Li        else
*3e777be0SXin Li        {
*3e777be0SXin Li            ALOGW("ArmnnPreparedModel::ExecuteGraph m_AsyncModelExecutionEnabled false");
*3e777be0SXin Li            // Create a vector of Input and Output Ids which can be imported. An empty vector means all will be copied.
*3e777be0SXin Li            std::vector<armnn::ImportedInputId> importedInputIds;
*3e777be0SXin Li            if (m_EnableImport)
*3e777be0SXin Li            {
*3e777be0SXin Li                importedInputIds =  m_Runtime->ImportInputs(m_NetworkId, inputTensors, armnn::MemorySource::Malloc);
*3e777be0SXin Li            }
*3e777be0SXin Li            std::vector<armnn::ImportedOutputId> importedOutputIds;
*3e777be0SXin Li            if (m_EnableExport)
*3e777be0SXin Li            {
*3e777be0SXin Li                importedOutputIds = m_Runtime->ImportOutputs(m_NetworkId, outputTensors, armnn::MemorySource::Malloc);
*3e777be0SXin Li            }
*3e777be0SXin Li            status = m_Runtime->EnqueueWorkload(m_NetworkId, inputTensors, outputTensors,
*3e777be0SXin Li                                                importedInputIds, importedOutputIds);
*3e777be0SXin Li        }
*3e777be0SXin Li        if (status != armnn::Status::Success)
*3e777be0SXin Li        {
*3e777be0SXin Li            ALOGW("ExecuteWithDummyInputs: EnqueueWorkload failed");
*3e777be0SXin Li            return false;
*3e777be0SXin Li        }
*3e777be0SXin Li    }
*3e777be0SXin Li    catch (armnn::Exception& e)
*3e777be0SXin Li    {
*3e777be0SXin Li        ALOGW("ExecuteWithDummyInputs: armnn::Exception caught from EnqueueWorkload: %s", e.what());
*3e777be0SXin Li        return false;
*3e777be0SXin Li    }
*3e777be0SXin Li    catch (std::exception& e)
*3e777be0SXin Li    {
*3e777be0SXin Li        ALOGE("ExecuteWithDummyInputs: std::exception caught from EnqueueWorkload: %s", e.what());
*3e777be0SXin Li        return false;
*3e777be0SXin Li    }
*3e777be0SXin Li    return true;
*3e777be0SXin Li}
*3e777be0SXin Li
*3e777be0SXin Li/// Schedule the graph prepared from the request for execution
*3e777be0SXin Litemplate<typename HalVersion>
*3e777be0SXin Litemplate<typename CallbackContext>
*3e777be0SXin Livoid ArmnnPreparedModel<HalVersion>::ScheduleGraphForExecution(
*3e777be0SXin Li        std::shared_ptr<std::vector<::android::nn::RunTimePoolInfo>>& pMemPools,
*3e777be0SXin Li        std::shared_ptr<armnn::InputTensors>& inputTensors,
*3e777be0SXin Li        std::shared_ptr<armnn::OutputTensors>& outputTensors,
*3e777be0SXin Li        CallbackContext callbackContext)
*3e777be0SXin Li{
*3e777be0SXin Li    ALOGV("ArmnnPreparedModel::ScheduleGraphForExecution(...)");
*3e777be0SXin Li
*3e777be0SXin Li    DumpTensorsIfRequired("Input", *inputTensors);
*3e777be0SXin Li
*3e777be0SXin Li
*3e777be0SXin Li    auto tpCb = std::make_shared<
*3e777be0SXin Li                ArmnnThreadPoolCallback<CallbackContext_1_0>>(this,
*3e777be0SXin Li                                                              pMemPools,
*3e777be0SXin Li                                                              inputTensors,
*3e777be0SXin Li                                                              outputTensors,
*3e777be0SXin Li                                                              callbackContext);
*3e777be0SXin Li
*3e777be0SXin Li    m_Threadpool->Schedule(m_NetworkId,
*3e777be0SXin Li                           *tpCb->m_InputTensors,
*3e777be0SXin Li                           *tpCb->m_OutputTensors,
*3e777be0SXin Li                           armnn::QosExecPriority::Medium,
*3e777be0SXin Li                           tpCb);
*3e777be0SXin Li    ALOGV("ArmnnPreparedModel::ScheduleGraphForExecution end");
*3e777be0SXin Li}
*3e777be0SXin Li
*3e777be0SXin Litemplate<typename HalVersion>
*3e777be0SXin Litemplate <typename CallbackContext>
*3e777be0SXin Livoid ArmnnPreparedModel<HalVersion>::ArmnnThreadPoolCallback<CallbackContext>::Notify(
*3e777be0SXin Li        armnn::Status status, armnn::InferenceTimingPair timeTaken)
*3e777be0SXin Li{
*3e777be0SXin Li    armnn::IgnoreUnused(status, timeTaken);
*3e777be0SXin Li    ALOGV("ArmnnPreparedModel::ArmnnThreadPoolCallback_1_2 Notify");
*3e777be0SXin Li
*3e777be0SXin Li    m_Model->DumpTensorsIfRequired("Output", *m_OutputTensors);
*3e777be0SXin Li
*3e777be0SXin Li    // Commit output buffers.
*3e777be0SXin Li    // Note that we update *all* pools, even if they aren't actually used as outputs -
*3e777be0SXin Li    // this is simpler and is what the CpuExecutor does.
*3e777be0SXin Li    for (android::nn::RunTimePoolInfo& pool : *m_MemPools)
*3e777be0SXin Li    {
*3e777be0SXin Li        // Type android::nn::RunTimePoolInfo has changed between Android P & Q and Android R, where
*3e777be0SXin Li        // update() has been removed and flush() added.
*3e777be0SXin Li        #if defined(ARMNN_ANDROID_R) || defined(ARMNN_ANDROID_S) // Use the new Android implementation.
*3e777be0SXin Li            pool.flush();
*3e777be0SXin Li        #else
*3e777be0SXin Li            pool.update();
*3e777be0SXin Li        #endif
*3e777be0SXin Li    }
*3e777be0SXin Li
*3e777be0SXin Li    m_CallbackContext.callback(V1_0::ErrorStatus::NONE, "ArmnnPreparedModel::ArmnnThreadPoolCallback_1_2 Notify");
*3e777be0SXin Li    return;
*3e777be0SXin Li}
*3e777be0SXin Li
*3e777be0SXin Li///
*3e777be0SXin Li/// Class template specializations
*3e777be0SXin Li///
*3e777be0SXin Li
*3e777be0SXin Litemplate class ArmnnPreparedModel<hal_1_0::HalPolicy>;
*3e777be0SXin Litemplate void ArmnnPreparedModel<hal_1_0::HalPolicy>::ScheduleGraphForExecution<CallbackContext_1_0>(
*3e777be0SXin Li        std::shared_ptr<std::vector<::android::nn::RunTimePoolInfo>>& pMemPools,
*3e777be0SXin Li        std::shared_ptr<armnn::InputTensors>& inputTensors,
*3e777be0SXin Li        std::shared_ptr<armnn::OutputTensors>& outputTensors,
*3e777be0SXin Li        CallbackContext_1_0 callbackContext);
*3e777be0SXin Li
*3e777be0SXin Li#ifdef ARMNN_ANDROID_NN_V1_1
*3e777be0SXin Litemplate class ArmnnPreparedModel<hal_1_1::HalPolicy>;
*3e777be0SXin Li#endif
*3e777be0SXin Li
*3e777be0SXin Li#ifdef ARMNN_ANDROID_NN_V1_2
*3e777be0SXin Litemplate class ArmnnPreparedModel<hal_1_1::HalPolicy>;
*3e777be0SXin Litemplate class ArmnnPreparedModel<hal_1_2::HalPolicy>;
*3e777be0SXin Li#endif
*3e777be0SXin Li
*3e777be0SXin Li#ifdef ARMNN_ANDROID_NN_V1_3
*3e777be0SXin Litemplate class ArmnnPreparedModel<hal_1_1::HalPolicy>;
*3e777be0SXin Litemplate class ArmnnPreparedModel<hal_1_2::HalPolicy>;
*3e777be0SXin Litemplate class ArmnnPreparedModel<hal_1_3::HalPolicy>;
*3e777be0SXin Li#endif
*3e777be0SXin Li} // namespace armnn_driver