emulated_textures/shaders/Astc.comp

// Copyright 2019 The Android Open Source Project
//
// Licensed under the Apache License, Version 2.0 (the "License");
// you may not use this file except in compliance with the License.
// You may obtain a copy of the License at
//
// http://www.apache.org/licenses/LICENSE-2.0
//
// Unless required by applicable law or agreed to in writing, software
// distributed under the License is distributed on an "AS IS" BASIS,
// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
// See the License for the specific language governing permissions and
// limitations under the License.

// For implementation details, please refer to:
// https://www.khronos.org/registry/OpenGL/extensions/KHR/KHR_texture_compression_astc_hdr.txt

// Please refer to this document for operator precendence (slightly different from C):
// https://www.khronos.org/registry/OpenGL/specs/gl/GLSLangSpec.4.60.html#operators

#version 450
#include "AstcUnquantMap.comp"
#include "Common.comp"

precision highp int;

layout(local_size_x = 8, local_size_y = 8, local_size_z = 1) in;

layout(push_constant) uniform ImageFormatBlock {
    uvec2 blockSize;
    uint baseLayer;
    uint smallBlock;
}
u_pushConstant;

layout(binding = 0, rgba32ui) readonly uniform WITH_TYPE(uimage) u_image0;
layout(binding = 1, rgba8ui) writeonly uniform WITH_TYPE(uimage) u_image1;

// HDR CEM: 2, 3, 7, 11, 14, 15

const bool kHDRCEM[16] = {
    false, false, true,  true, false, false, false, true,
    false, false, false, true, false, false, true,  true,
};

// Encoding table for C.2.12

const uint kTritEncodings[256][5] = {
    {0, 0, 0, 0, 0}, {1, 0, 0, 0, 0}, {2, 0, 0, 0, 0}, {0, 0, 2, 0, 0}, {0, 1, 0, 0, 0},
    {1, 1, 0, 0, 0}, {2, 1, 0, 0, 0}, {1, 0, 2, 0, 0}, {0, 2, 0, 0, 0}, {1, 2, 0, 0, 0},
    {2, 2, 0, 0, 0}, {2, 0, 2, 0, 0}, {0, 2, 2, 0, 0}, {1, 2, 2, 0, 0}, {2, 2, 2, 0, 0},
    {2, 0, 2, 0, 0}, {0, 0, 1, 0, 0}, {1, 0, 1, 0, 0}, {2, 0, 1, 0, 0}, {0, 1, 2, 0, 0},
    {0, 1, 1, 0, 0}, {1, 1, 1, 0, 0}, {2, 1, 1, 0, 0}, {1, 1, 2, 0, 0}, {0, 2, 1, 0, 0},
    {1, 2, 1, 0, 0}, {2, 2, 1, 0, 0}, {2, 1, 2, 0, 0}, {0, 0, 0, 2, 2}, {1, 0, 0, 2, 2},
    {2, 0, 0, 2, 2}, {0, 0, 2, 2, 2}, {0, 0, 0, 1, 0}, {1, 0, 0, 1, 0}, {2, 0, 0, 1, 0},
    {0, 0, 2, 1, 0}, {0, 1, 0, 1, 0}, {1, 1, 0, 1, 0}, {2, 1, 0, 1, 0}, {1, 0, 2, 1, 0},
    {0, 2, 0, 1, 0}, {1, 2, 0, 1, 0}, {2, 2, 0, 1, 0}, {2, 0, 2, 1, 0}, {0, 2, 2, 1, 0},
    {1, 2, 2, 1, 0}, {2, 2, 2, 1, 0}, {2, 0, 2, 1, 0}, {0, 0, 1, 1, 0}, {1, 0, 1, 1, 0},
    {2, 0, 1, 1, 0}, {0, 1, 2, 1, 0}, {0, 1, 1, 1, 0}, {1, 1, 1, 1, 0}, {2, 1, 1, 1, 0},
    {1, 1, 2, 1, 0}, {0, 2, 1, 1, 0}, {1, 2, 1, 1, 0}, {2, 2, 1, 1, 0}, {2, 1, 2, 1, 0},
    {0, 1, 0, 2, 2}, {1, 1, 0, 2, 2}, {2, 1, 0, 2, 2}, {1, 0, 2, 2, 2}, {0, 0, 0, 2, 0},
    {1, 0, 0, 2, 0}, {2, 0, 0, 2, 0}, {0, 0, 2, 2, 0}, {0, 1, 0, 2, 0}, {1, 1, 0, 2, 0},
    {2, 1, 0, 2, 0}, {1, 0, 2, 2, 0}, {0, 2, 0, 2, 0}, {1, 2, 0, 2, 0}, {2, 2, 0, 2, 0},
    {2, 0, 2, 2, 0}, {0, 2, 2, 2, 0}, {1, 2, 2, 2, 0}, {2, 2, 2, 2, 0}, {2, 0, 2, 2, 0},
    {0, 0, 1, 2, 0}, {1, 0, 1, 2, 0}, {2, 0, 1, 2, 0}, {0, 1, 2, 2, 0}, {0, 1, 1, 2, 0},
    {1, 1, 1, 2, 0}, {2, 1, 1, 2, 0}, {1, 1, 2, 2, 0}, {0, 2, 1, 2, 0}, {1, 2, 1, 2, 0},
    {2, 2, 1, 2, 0}, {2, 1, 2, 2, 0}, {0, 2, 0, 2, 2}, {1, 2, 0, 2, 2}, {2, 2, 0, 2, 2},
    {2, 0, 2, 2, 2}, {0, 0, 0, 0, 2}, {1, 0, 0, 0, 2}, {2, 0, 0, 0, 2}, {0, 0, 2, 0, 2},
    {0, 1, 0, 0, 2}, {1, 1, 0, 0, 2}, {2, 1, 0, 0, 2}, {1, 0, 2, 0, 2}, {0, 2, 0, 0, 2},
    {1, 2, 0, 0, 2}, {2, 2, 0, 0, 2}, {2, 0, 2, 0, 2}, {0, 2, 2, 0, 2}, {1, 2, 2, 0, 2},
    {2, 2, 2, 0, 2}, {2, 0, 2, 0, 2}, {0, 0, 1, 0, 2}, {1, 0, 1, 0, 2}, {2, 0, 1, 0, 2},
    {0, 1, 2, 0, 2}, {0, 1, 1, 0, 2}, {1, 1, 1, 0, 2}, {2, 1, 1, 0, 2}, {1, 1, 2, 0, 2},
    {0, 2, 1, 0, 2}, {1, 2, 1, 0, 2}, {2, 2, 1, 0, 2}, {2, 1, 2, 0, 2}, {0, 2, 2, 2, 2},
    {1, 2, 2, 2, 2}, {2, 2, 2, 2, 2}, {2, 0, 2, 2, 2}, {0, 0, 0, 0, 1}, {1, 0, 0, 0, 1},
    {2, 0, 0, 0, 1}, {0, 0, 2, 0, 1}, {0, 1, 0, 0, 1}, {1, 1, 0, 0, 1}, {2, 1, 0, 0, 1},
    {1, 0, 2, 0, 1}, {0, 2, 0, 0, 1}, {1, 2, 0, 0, 1}, {2, 2, 0, 0, 1}, {2, 0, 2, 0, 1},
    {0, 2, 2, 0, 1}, {1, 2, 2, 0, 1}, {2, 2, 2, 0, 1}, {2, 0, 2, 0, 1}, {0, 0, 1, 0, 1},
    {1, 0, 1, 0, 1}, {2, 0, 1, 0, 1}, {0, 1, 2, 0, 1}, {0, 1, 1, 0, 1}, {1, 1, 1, 0, 1},
    {2, 1, 1, 0, 1}, {1, 1, 2, 0, 1}, {0, 2, 1, 0, 1}, {1, 2, 1, 0, 1}, {2, 2, 1, 0, 1},
    {2, 1, 2, 0, 1}, {0, 0, 1, 2, 2}, {1, 0, 1, 2, 2}, {2, 0, 1, 2, 2}, {0, 1, 2, 2, 2},
    {0, 0, 0, 1, 1}, {1, 0, 0, 1, 1}, {2, 0, 0, 1, 1}, {0, 0, 2, 1, 1}, {0, 1, 0, 1, 1},
    {1, 1, 0, 1, 1}, {2, 1, 0, 1, 1}, {1, 0, 2, 1, 1}, {0, 2, 0, 1, 1}, {1, 2, 0, 1, 1},
    {2, 2, 0, 1, 1}, {2, 0, 2, 1, 1}, {0, 2, 2, 1, 1}, {1, 2, 2, 1, 1}, {2, 2, 2, 1, 1},
    {2, 0, 2, 1, 1}, {0, 0, 1, 1, 1}, {1, 0, 1, 1, 1}, {2, 0, 1, 1, 1}, {0, 1, 2, 1, 1},
    {0, 1, 1, 1, 1}, {1, 1, 1, 1, 1}, {2, 1, 1, 1, 1}, {1, 1, 2, 1, 1}, {0, 2, 1, 1, 1},
    {1, 2, 1, 1, 1}, {2, 2, 1, 1, 1}, {2, 1, 2, 1, 1}, {0, 1, 1, 2, 2}, {1, 1, 1, 2, 2},
    {2, 1, 1, 2, 2}, {1, 1, 2, 2, 2}, {0, 0, 0, 2, 1}, {1, 0, 0, 2, 1}, {2, 0, 0, 2, 1},
    {0, 0, 2, 2, 1}, {0, 1, 0, 2, 1}, {1, 1, 0, 2, 1}, {2, 1, 0, 2, 1}, {1, 0, 2, 2, 1},
    {0, 2, 0, 2, 1}, {1, 2, 0, 2, 1}, {2, 2, 0, 2, 1}, {2, 0, 2, 2, 1}, {0, 2, 2, 2, 1},
    {1, 2, 2, 2, 1}, {2, 2, 2, 2, 1}, {2, 0, 2, 2, 1}, {0, 0, 1, 2, 1}, {1, 0, 1, 2, 1},
    {2, 0, 1, 2, 1}, {0, 1, 2, 2, 1}, {0, 1, 1, 2, 1}, {1, 1, 1, 2, 1}, {2, 1, 1, 2, 1},
    {1, 1, 2, 2, 1}, {0, 2, 1, 2, 1}, {1, 2, 1, 2, 1}, {2, 2, 1, 2, 1}, {2, 1, 2, 2, 1},
    {0, 2, 1, 2, 2}, {1, 2, 1, 2, 2}, {2, 2, 1, 2, 2}, {2, 1, 2, 2, 2}, {0, 0, 0, 1, 2},
    {1, 0, 0, 1, 2}, {2, 0, 0, 1, 2}, {0, 0, 2, 1, 2}, {0, 1, 0, 1, 2}, {1, 1, 0, 1, 2},
    {2, 1, 0, 1, 2}, {1, 0, 2, 1, 2}, {0, 2, 0, 1, 2}, {1, 2, 0, 1, 2}, {2, 2, 0, 1, 2},
    {2, 0, 2, 1, 2}, {0, 2, 2, 1, 2}, {1, 2, 2, 1, 2}, {2, 2, 2, 1, 2}, {2, 0, 2, 1, 2},
    {0, 0, 1, 1, 2}, {1, 0, 1, 1, 2}, {2, 0, 1, 1, 2}, {0, 1, 2, 1, 2}, {0, 1, 1, 1, 2},
    {1, 1, 1, 1, 2}, {2, 1, 1, 1, 2}, {1, 1, 2, 1, 2}, {0, 2, 1, 1, 2}, {1, 2, 1, 1, 2},
    {2, 2, 1, 1, 2}, {2, 1, 2, 1, 2}, {0, 2, 2, 2, 2}, {1, 2, 2, 2, 2}, {2, 2, 2, 2, 2},
    {2, 1, 2, 2, 2},
};

const uint kQuintEncodings[128][3] = {
    {0, 0, 0}, {1, 0, 0}, {2, 0, 0}, {3, 0, 0}, {4, 0, 0}, {0, 4, 0}, {4, 4, 0}, {4, 4, 4},
    {0, 1, 0}, {1, 1, 0}, {2, 1, 0}, {3, 1, 0}, {4, 1, 0}, {1, 4, 0}, {4, 4, 1}, {4, 4, 4},
    {0, 2, 0}, {1, 2, 0}, {2, 2, 0}, {3, 2, 0}, {4, 2, 0}, {2, 4, 0}, {4, 4, 2}, {4, 4, 4},
    {0, 3, 0}, {1, 3, 0}, {2, 3, 0}, {3, 3, 0}, {4, 3, 0}, {3, 4, 0}, {4, 4, 3}, {4, 4, 4},
    {0, 0, 1}, {1, 0, 1}, {2, 0, 1}, {3, 0, 1}, {4, 0, 1}, {0, 4, 1}, {4, 0, 4}, {0, 4, 4},
    {0, 1, 1}, {1, 1, 1}, {2, 1, 1}, {3, 1, 1}, {4, 1, 1}, {1, 4, 1}, {4, 1, 4}, {1, 4, 4},
    {0, 2, 1}, {1, 2, 1}, {2, 2, 1}, {3, 2, 1}, {4, 2, 1}, {2, 4, 1}, {4, 2, 4}, {2, 4, 4},
    {0, 3, 1}, {1, 3, 1}, {2, 3, 1}, {3, 3, 1}, {4, 3, 1}, {3, 4, 1}, {4, 3, 4}, {3, 4, 4},
    {0, 0, 2}, {1, 0, 2}, {2, 0, 2}, {3, 0, 2}, {4, 0, 2}, {0, 4, 2}, {2, 0, 4}, {3, 0, 4},
    {0, 1, 2}, {1, 1, 2}, {2, 1, 2}, {3, 1, 2}, {4, 1, 2}, {1, 4, 2}, {2, 1, 4}, {3, 1, 4},
    {0, 2, 2}, {1, 2, 2}, {2, 2, 2}, {3, 2, 2}, {4, 2, 2}, {2, 4, 2}, {2, 2, 4}, {3, 2, 4},
    {0, 3, 2}, {1, 3, 2}, {2, 3, 2}, {3, 3, 2}, {4, 3, 2}, {3, 4, 2}, {2, 3, 4}, {3, 3, 4},
    {0, 0, 3}, {1, 0, 3}, {2, 0, 3}, {3, 0, 3}, {4, 0, 3}, {0, 4, 3}, {0, 0, 4}, {1, 0, 4},
    {0, 1, 3}, {1, 1, 3}, {2, 1, 3}, {3, 1, 3}, {4, 1, 3}, {1, 4, 3}, {0, 1, 4}, {1, 1, 4},
    {0, 2, 3}, {1, 2, 3}, {2, 2, 3}, {3, 2, 3}, {4, 2, 3}, {2, 4, 3}, {0, 2, 4}, {1, 2, 4},
    {0, 3, 3}, {1, 3, 3}, {2, 3, 3}, {3, 3, 3}, {4, 3, 3}, {3, 4, 3}, {0, 3, 4}, {1, 3, 4}};

const int kRQuantParamTableLength = 19;
// T, Q, B values in Table c.2.16, including binaries, in reversed order
const uint kRQuantParamTable[kRQuantParamTableLength][3] = {
    {0, 0, 8},  // 255
    {1, 0, 6},  // 191
    {0, 1, 5},  // 159
    {0, 0, 7},  // 127
    {1, 0, 5},  // 95
    {0, 1, 4},  // 79
    {0, 0, 6},  // 63
    {1, 0, 4},  // 47
    {0, 1, 3},  // 39
    {0, 0, 5},  // 31
    {1, 0, 3},  // 23
    {0, 1, 2},  // 19
    {0, 0, 4},  // 15
    {1, 0, 2},  // 11
    {0, 1, 1},  // 9
    {0, 0, 3},  // 7
    {1, 0, 1},  // 5
    //{0, 1, 0}, // 4
    {0, 0, 2},  // 3
    //{1, 0, 0}, // 2
    {0, 0, 1},  // 1
};

uint bit(uint u, int bit) { return (u >> bit) & 1; }

uint bits128(uvec4 u, uint bitStart, uint bitCount) {
    uint firstIdx = bitStart / 32;
    uint firstOffset = bitStart % 32;
    uint bitMask = (1 << bitCount) - 1;
    if (firstIdx == ((bitStart + bitCount - 1) / 32)) {
        return (u[3 - firstIdx] >> firstOffset) & bitMask;
    } else {
        uint firstCount = 32 - firstOffset;
        uint ret = u[3 - firstIdx - 1] << firstCount;
        ret |= ((u[3 - firstIdx] >> firstOffset) & ((1 << firstCount) - 1));
        return ret & bitMask;
    }
}

uint bits128fillZeros(uvec4 u, uint bitStart, uint bitEnd, uint bitCount) {
    if (bitEnd <= bitStart) {
        return 0;
    }
    return bits128(u, bitStart, min(bitEnd - bitStart, bitCount));
}

uint get_bit_count(uint num_vals, uint trits, uint quints, uint bits) {
    // See section C.2.22 for the formula used here.
    uint trit_bit_count = ((num_vals * 8 * trits) + 4) / 5;
    uint quint_bit_count = ((num_vals * 7 * quints) + 2) / 3;
    uint base_bit_count = num_vals * bits;
    return trit_bit_count + quint_bit_count + base_bit_count;
}

void get_pack_size(uint trits, uint quints, uint bits, out uint pack, out uint packedSize) {
    if (trits == 1) {
        pack = 5;
        packedSize = 8 + 5 * bits;
    } else if (quints == 1) {
        pack = 3;
        packedSize = 7 + 3 * bits;
    } else {
        pack = 1;
        packedSize = bits;
    }
}

uint[5] decode_trit(uvec4 data, uint start, uint end, uint n) {
    // We either have three quints or five trits
    const int kNumVals = 5;
    const int kInterleavedBits[5] = {2, 2, 1, 2, 1};

    // Decode the block
    uint m[kNumVals];
    uint encoded = 0;
    uint encoded_bits_read = 0;
    for (int i = 0; i < kNumVals; ++i) {
        m[i] = bits128fillZeros(data, start, end, n);
        start += n;

        uint encoded_bits = bits128fillZeros(data, start, end, kInterleavedBits[i]);
        start += kInterleavedBits[i];
        encoded |= encoded_bits << encoded_bits_read;
        encoded_bits_read += kInterleavedBits[i];
    }

    uint[kNumVals] result;
    for (int i = 0; i < kNumVals; ++i) {
        result[i] = kTritEncodings[encoded][i] << n | m[i];
    }
    return result;
}

uint[3] decode_quint(uvec4 data, uint start, uint end, uint n) {
    // We either have three quints or five trits
    const int kNumVals = 3;
    const int kInterleavedBits[3] = {3, 2, 2};

    // Decode the block
    uint m[kNumVals];
    uint encoded = 0;
    uint encoded_bits_read = 0;
    uint bitMask = (1 << n) - 1;
    for (int i = 0; i < kNumVals; ++i) {
        m[i] = bits128fillZeros(data, start, end, n);
        start += n;

        uint encoded_bits = bits128fillZeros(data, start, end, kInterleavedBits[i]);
        start += kInterleavedBits[i];
        encoded |= encoded_bits << encoded_bits_read;
        encoded_bits_read += kInterleavedBits[i];
    }

    uint[kNumVals] result;
    for (int i = 0; i < kNumVals; ++i) {
        result[i] = kQuintEncodings[encoded][i] << n | m[i];
    }
    return result;
}

uint get_v_count(uint cem) { return (cem / 4 + 1) * 2; }

const uint kLDRLumaDirect = 0;
const uint kLDRLumaBaseOffset = 1;
const uint kHDRLumaLargeRange = 2;
const uint kHDRLumaSmallRange = 3;
const uint kLDRLumaAlphaDirect = 4;
const uint kLDRLumaAlphaBaseOffset = 5;
const uint kLDRRGBBaseScale = 6;
const uint kHDRRGBBaseScale = 7;
const uint kLDRRGBDirect = 8;
const uint kLDRRGBBaseOffset = 9;
const uint kLDRRGBBaseScaleTwoA = 10;
const uint kHDRRGBDirect = 11;
const uint kLDRRGBADirect = 12;
const uint kLDRRGBABaseOffset = 13;
const uint kHDRRGBDirectLDRAlpha = 14;
const uint kHDRRGBDirectHDRAlpha = 15;

void swap(inout ivec4 v1, inout ivec4 v2) {
    ivec4 tmp = v1;
    v1 = v2;
    v2 = tmp;
}

void bit_transfer_signed(inout int a, inout int b) {
    b >>= 1;
    b |= (a & 0x80);
    a >>= 1;
    a &= 0x3F;
    if ((a & 0x20) != 0) a -= 0x40;
}

void blue_contract(inout ivec4 val) {
    val.r = (val.r + val.b) / 2;
    val.g = (val.g + val.b) / 2;
}

void decode_ldr_for_mode(const uint[40] vals, uint start_idx, uint mode, out uvec4 c1,
                         out uvec4 c2) {
    int v0 = int(vals[start_idx + 0]);
    int v1 = int(vals[start_idx + 1]);
    int v2 = int(vals[start_idx + 2]);
    int v3 = int(vals[start_idx + 3]);
    int v4 = int(vals[start_idx + 4]);
    int v5 = int(vals[start_idx + 5]);
    int v6 = int(vals[start_idx + 6]);
    int v7 = int(vals[start_idx + 7]);
    ivec4 endpoint_low_rgba;
    ivec4 endpoint_high_rgba;
    switch (mode) {
        case kLDRLumaDirect: {
            endpoint_low_rgba = ivec4(v0, v0, v0, 255);
            endpoint_high_rgba = ivec4(v1, v1, v1, 255);
        } break;

        case kLDRLumaBaseOffset: {
            const int l0 = (v0 >> 2) | (v1 & 0xC0);
            const int l1 = min(l0 + (v1 & 0x3F), 0xFF);

            endpoint_low_rgba = ivec4(l0, l0, l0, 255);
            endpoint_high_rgba = ivec4(l1, l1, l1, 255);
        } break;

        case kLDRLumaAlphaDirect: {
            endpoint_low_rgba = ivec4(v0, v0, v0, v2);
            endpoint_high_rgba = ivec4(v1, v1, v1, v3);
        } break;

        case kLDRLumaAlphaBaseOffset: {
            bit_transfer_signed(v1, v0);
            bit_transfer_signed(v3, v2);

            endpoint_low_rgba = clamp(ivec4(v0, v0, v0, v2), 0, 255);
            const int high_luma = v0 + v1;
            endpoint_high_rgba = clamp(ivec4(high_luma, high_luma, high_luma, v2 + v3), 0, 255);
        } break;

        case kLDRRGBBaseScale: {
            endpoint_high_rgba = ivec4(v0, v1, v2, 255);
            for (int i = 0; i < 3; ++i) {
                const int x = endpoint_high_rgba[i];
                endpoint_low_rgba[i] = (x * v3) >> 8;
            }
            endpoint_low_rgba[3] = 255;
        } break;

        case kLDRRGBDirect: {
            const int s0 = v0 + v2 + v4;
            const int s1 = v1 + v3 + v5;

            endpoint_low_rgba = ivec4(v0, v2, v4, 255);
            endpoint_high_rgba = ivec4(v1, v3, v5, 255);

            if (s1 < s0) {
                swap(endpoint_low_rgba, endpoint_high_rgba);
                blue_contract(endpoint_low_rgba);
                blue_contract(endpoint_high_rgba);
            }
        } break;

        case kLDRRGBBaseOffset: {
            bit_transfer_signed(v1, v0);
            bit_transfer_signed(v3, v2);
            bit_transfer_signed(v5, v4);

            endpoint_low_rgba = ivec4(v0, v2, v4, 255);
            endpoint_high_rgba = ivec4(v0 + v1, v2 + v3, v4 + v5, 255);

            if (v1 + v3 + v5 < 0) {
                swap(endpoint_low_rgba, endpoint_high_rgba);
                blue_contract(endpoint_low_rgba);
                blue_contract(endpoint_high_rgba);
            }

            endpoint_low_rgba = clamp(endpoint_low_rgba, 0, 255);
            endpoint_high_rgba = clamp(endpoint_high_rgba, 0, 255);
        } break;

        case kLDRRGBBaseScaleTwoA: {
            // Base
            endpoint_low_rgba = endpoint_high_rgba = ivec4(v0, v1, v2, 255);

            // Scale
            endpoint_low_rgba = (endpoint_low_rgba * v3) >> 8;

            // Two A
            endpoint_low_rgba[3] = v4;
            endpoint_high_rgba[3] = v5;
        } break;

        case kLDRRGBADirect: {
            const uint s0 = v0 + v2 + v4;
            const uint s1 = v1 + v3 + v5;

            endpoint_low_rgba = ivec4(v0, v2, v4, v6);
            endpoint_high_rgba = ivec4(v1, v3, v5, v7);

            if (s1 < s0) {
                swap(endpoint_low_rgba, endpoint_high_rgba);
                blue_contract(endpoint_low_rgba);
                blue_contract(endpoint_high_rgba);
            }
        } break;

        case kLDRRGBABaseOffset: {
            bit_transfer_signed(v1, v0);
            bit_transfer_signed(v3, v2);
            bit_transfer_signed(v5, v4);
            bit_transfer_signed(v7, v6);

            endpoint_low_rgba = ivec4(v0, v2, v4, v6);
            endpoint_high_rgba = ivec4(v0 + v1, v2 + v3, v4 + v5, v6 + v7);

            if (v1 + v3 + v5 < 0) {
                swap(endpoint_low_rgba, endpoint_high_rgba);
                blue_contract(endpoint_low_rgba);
                blue_contract(endpoint_high_rgba);
            }

            endpoint_low_rgba = clamp(endpoint_low_rgba, 0, 255);
            endpoint_high_rgba = clamp(endpoint_high_rgba, 0, 255);
        } break;

        default:
            // Unimplemented color encoding.
            // TODO(google): Is this the correct error handling?
            endpoint_high_rgba = endpoint_low_rgba = ivec4(0, 0, 0, 0);
    }
    c1 = uvec4(endpoint_low_rgba);
    c2 = uvec4(endpoint_high_rgba);
}

uint hash52(uint p) {
    p ^= p >> 15;
    p -= p << 17;
    p += p << 7;
    p += p << 4;
    p ^= p >> 5;
    p += p << 16;
    p ^= p >> 7;
    p ^= p >> 3;
    p ^= p << 6;
    p ^= p >> 17;
    return p;
}

uint select_partition(uint seed, uint x, uint y, uint partitioncount) {
    if (partitioncount == 1) {
        return 0;
    }
    uint z = 0;
    if (u_pushConstant.smallBlock != 0) {
        x <<= 1;
        y <<= 1;
    }
    seed += (partitioncount - 1) * 1024;
    uint rnum = hash52(seed);
    uint seed1 = rnum & 0xF;
    uint seed2 = (rnum >> 4) & 0xF;
    uint seed3 = (rnum >> 8) & 0xF;
    uint seed4 = (rnum >> 12) & 0xF;
    uint seed5 = (rnum >> 16) & 0xF;
    uint seed6 = (rnum >> 20) & 0xF;
    uint seed7 = (rnum >> 24) & 0xF;
    uint seed8 = (rnum >> 28) & 0xF;
    uint seed9 = (rnum >> 18) & 0xF;
    uint seed10 = (rnum >> 22) & 0xF;
    uint seed11 = (rnum >> 26) & 0xF;
    uint seed12 = ((rnum >> 30) | (rnum << 2)) & 0xF;

    seed1 *= seed1;
    seed2 *= seed2;
    seed3 *= seed3;
    seed4 *= seed4;
    seed5 *= seed5;
    seed6 *= seed6;
    seed7 *= seed7;
    seed8 *= seed8;
    seed9 *= seed9;
    seed10 *= seed10;
    seed11 *= seed11;
    seed12 *= seed12;

    uint sh1, sh2, sh3;
    if ((seed & 1) != 0) {
        sh1 = ((seed & 2) != 0 ? 4 : 5);
        sh2 = (partitioncount == 3 ? 6 : 5);
    } else {
        sh1 = (partitioncount == 3 ? 6 : 5);
        sh2 = ((seed & 2) != 0 ? 4 : 5);
    }
    sh3 = ((seed & 0x10) != 0) ? sh1 : sh2;

    seed1 >>= sh1;
    seed2 >>= sh2;
    seed3 >>= sh1;
    seed4 >>= sh2;
    seed5 >>= sh1;
    seed6 >>= sh2;
    seed7 >>= sh1;
    seed8 >>= sh2;
    seed9 >>= sh3;
    seed10 >>= sh3;
    seed11 >>= sh3;
    seed12 >>= sh3;

    uint a = seed1 * x + seed2 * y + seed11 * z + (rnum >> 14);
    uint b = seed3 * x + seed4 * y + seed12 * z + (rnum >> 10);
    uint c = seed5 * x + seed6 * y + seed9 * z + (rnum >> 6);
    uint d = seed7 * x + seed8 * y + seed10 * z + (rnum >> 2);

    a &= 0x3F;
    b &= 0x3F;
    c &= 0x3F;
    d &= 0x3F;

    if (partitioncount < 4) d = 0;
    if (partitioncount < 3) c = 0;

    if (a >= b && a >= c && a >= d)
        return 0;
    else if (b >= c && b >= d)
        return 1;
    else if (c >= d)
        return 2;
    else
        return 3;
}

uvec4[144] single_color_block(uvec4 color) {
    uvec4 ret[144];
    for (int h = 0; h < u_pushConstant.blockSize.y; h++) {
        for (int w = 0; w < u_pushConstant.blockSize.x; w++) {
            ret[h * u_pushConstant.blockSize.x + w] = color;
        }
    }
    return ret;
}

uvec4[144] error_color_block() { return single_color_block(uvec4(0xff, 0, 0xff, 0xff)); }

uvec4[144] astc_decode_block(const uvec4 u) {
    uint d;
    uint hdr;
    uint b;
    uint a;
    uint r;
    uint width;
    uint height;
    uvec4 cem;
    uint weightGrid[120];
    const uint u3 = u[3];
    const uint b87 = u3 >> 7 & 3;
    const uint b65 = u3 >> 5 & 3;
    const uint b32 = u3 >> 2 & 3;
    a = b65;
    b = b87;
    d = bit(u3, 10);
    hdr = bit(u3, 9);
    if ((u3 & 3) == 0) {
        r = b32 << 1 | bit(u3, 4);
        if (b87 == 0) {
            width = 12;
            height = a + 2;
        } else if (b87 == 1) {
            width = a + 2;
            height = 12;
        } else if (b87 == 3) {
            if (b65 == 0) {
                width = 6;
                height = 10;
            } else if (b65 == 1) {
                width = 10;
                height = 6;
            } else if ((u3 & 0xDFF) == 0xDFC) {
                // Void-extent
                // In void extend, the last 12 bits should be
                // 1 1 D 1 1 1 1 1 1 1 0 0
                // Where D is the HDR bit

                uvec4 color =
                    uvec4(u[1] >> 8 & 0xff, u[1] >> 24 & 0xff, u[0] >> 8 & 0xff, u[0] >> 24 & 0xff);
                return single_color_block(color);
            } else {  // reserved
                return error_color_block();
            }
        } else {  // b87 == 2
            b = u3 >> 9 & 3;
            width = a + 6;
            height = b + 6;
            d = 0;
            hdr = 0;
        }
    } else {
        r = (u3 & 3) << 1 | bit(u3, 4);
        if (b32 == 0) {
            width = b + 4;
            height = a + 2;
        } else if (b32 == 1) {
            width = b + 8;
            height = a + 2;
        } else if (b32 == 2) {
            width = a + 2;
            height = b + 8;
        } else if (bit(u3, 8) == 0) {
            width = a + 2;
            height = (b & 1) + 6;
        } else {
            width = (b & 1) + 2;
            height = a + 2;
        }
    }

    if (width > u_pushConstant.blockSize.x || height > u_pushConstant.blockSize.y) {
        return error_color_block();
    }
    // Decode weight
    uint trits = 0;
    uint quints = 0;
    uint bits = 0;
    const uint weightCounts = height * width * (d + 1);
    const int kMaxNumWeights = 64;
    if (kMaxNumWeights < weightCounts) {
        return error_color_block();
    }
    {
        if (hdr == 0) {
            switch (r) {
                case 2:
                    bits = 1;
                    break;
                case 3:
                    trits = 1;
                    break;
                case 4:
                    bits = 2;
                    break;
                case 5:
                    quints = 1;
                    break;
                case 6:
                    trits = 1;
                    bits = 1;
                    break;
                case 7:
                    bits = 3;
                    break;
                default:
                    return error_color_block();
            }
        } else {
            switch (r) {
                case 2:
                    bits = 1;
                    quints = 1;
                    break;
                case 3:
                    trits = 1;
                    bits = 2;
                    break;
                case 4:
                    bits = 4;
                    break;
                case 5:
                    quints = 1;
                    bits = 2;
                    break;
                case 6:
                    trits = 1;
                    bits = 3;
                    break;
                case 7:
                    bits = 5;
                    break;
                default:
                    return error_color_block();
            }
        }
        uint packedSize = 0;
        uint pack = 0;
        get_pack_size(trits, quints, bits, pack, packedSize);
        uint srcIdx = 0;
        uint dstIdx = 0;
        uvec4 uReversed = bitfieldReverse(u);
        const uint weightBitCount = get_bit_count(weightCounts, trits, quints, bits);
        const int kWeightGridMinBitLength = 24;
        const int kWeightGridMaxBitLength = 96;
        if (weightBitCount < kWeightGridMinBitLength || weightBitCount > kWeightGridMaxBitLength) {
            return error_color_block();
        }
        uReversed = uvec4(uReversed[3], uReversed[2], uReversed[1], uReversed[0]);
        const uint kUnquantBinMulTable[] = {0x3f, 0x15, 0x9, 0x4, 0x2, 0x1};
        const uint kUnquantBinMovTable[] = {0x8, 0x8, 0x8, 0x2, 0x4, 0x8};
        while (dstIdx < weightCounts) {
            if (trits == 1) {
                uint decoded[5] = decode_trit(uReversed, srcIdx, weightBitCount, bits);
                // uint decoded[5] = {0, 0, 0, 0, 0};
                for (int i = 0; i < 5; i++) {
                    weightGrid[dstIdx] =
                        kUnquantTritWeightMap[kUnquantTritWeightMapBitIdx[bits] + decoded[i]];
                    if (weightGrid[dstIdx] > 32) {
                        weightGrid[dstIdx] += 1;
                    }
                    dstIdx++;
                    if (dstIdx >= weightCounts) {
                        break;
                    }
                }
            } else if (quints == 1) {
                uint decoded[3] = decode_quint(uReversed, srcIdx, weightBitCount, bits);
                for (int i = 0; i < 3; i++) {
                    // TODO: handle overflow in the last
                    weightGrid[dstIdx] =
                        kUnquantQuintWeightMap[kUnquantQuintWeightMapBitIdx[bits] + decoded[i]];
                    if (weightGrid[dstIdx] > 32) {
                        weightGrid[dstIdx] += 1;
                    }
                    dstIdx++;
                    if (dstIdx >= weightCounts) {
                        break;
                    }
                }
            } else {
                uint decodedRaw = bits128(uReversed, srcIdx, packedSize);
                uint decoded = decodedRaw * kUnquantBinMulTable[bits - 1] |
                               decodedRaw >> kUnquantBinMovTable[bits - 1];
                weightGrid[dstIdx] = decoded;
                if (weightGrid[dstIdx] > 32) {
                    weightGrid[dstIdx] += 1;
                }
                dstIdx++;
            }
            srcIdx += packedSize;
        }
    }
    uint partitionCount = (u3 >> 11 & 3) + 1;
    if (d == 1 && partitionCount == 4) {
        return error_color_block();
    }
    const uint weightStart = 128 - get_bit_count(weightCounts, trits, quints, bits);
    uint dualPlaneStart = 0;
    // Decode cem mode
    if (partitionCount == 1) {
        // Single-partition mode
        cem[0] = u3 >> 13 & 0xf;
        dualPlaneStart = weightStart - d * 2;
    } else {
        // Multi-partition mode
        // Calculate CEM for all 4 partitions, even when partitionCount < 4
        uint partMode = u3 >> 23 & 3;
        const uint kExtraMBitsTable[4] = {0, 2, 5, 8};
        const uint extraMBitCount = (partMode == 0) ? 0 : kExtraMBitsTable[partitionCount - 1];
        const uint extraMStart = weightStart - extraMBitCount;
        dualPlaneStart = extraMStart - d * 2;

        if (partMode == 0) {
            uint cem_all = u3 >> 25 & 0xf;
            cem = uvec4(cem_all, cem_all, cem_all, cem_all);
        } else {
            uint cemBase = partMode - 1;
            uvec4 cemHigh = cemBase + uvec4(bit(u3, 25), bit(u3, 26), bit(u3, 27), bit(u3, 28));
            const uint extraM = bits128(u, extraMStart, extraMBitCount);
            const uint kMainMBitsTable[4] = {0, 2, 1, 0};
            const uint mainMBitCount = kMainMBitsTable[partitionCount - 1];
            const uint m = extraM << mainMBitCount | ((u3 >> 27 & 3) >> (2 - mainMBitCount));
            cem = cemHigh << 2 | uvec4(m & 3, m >> 2 & 3, m >> 4 & 3, m >> 6 & 3);
        }
    }
    // Decode end points
    uvec4 endPoints[4][2];
    {
        uint totalV = 0;
        for (uint part = 0; part < partitionCount; part++) {
            totalV += get_v_count(cem[part]);
        }
        const uint epStart = (partitionCount == 1) ? 17 : 29;
        const uint totalAvailBits = dualPlaneStart - epStart;
        if (totalAvailBits >= 128) {
            // overflowed
            return error_color_block();
        }
        uint epQuints = 0;
        uint epTrits = 0;
        uint epBits = 0;
        uint i;
        for (i = 0; i < kRQuantParamTableLength; i++) {
            epTrits = kRQuantParamTable[i][0];
            epQuints = kRQuantParamTable[i][1];
            epBits = kRQuantParamTable[i][2];
            if (get_bit_count(totalV, epTrits, epQuints, epBits) <= totalAvailBits) {
                break;
            }
        }
        if (i >= kRQuantParamTableLength) {
            return error_color_block();
        }

        const uint epBitCount = get_bit_count(totalV, epTrits, epQuints, epBits);
        const uint epEnd = epStart + epBitCount;
        uint packedSize = 0;
        uint pack = 0;
        get_pack_size(epTrits, epQuints, epBits, pack, packedSize);

        // Decode end point parameters into buffer
        uint vBuffer[40];
        uint srcIdx = epStart;
        uint dstIdx = 0;
        const uint kUnquantBinMulTable[8] = {0xff, 0x55, 0x24, 0x11, 0x8, 0x4, 0x2, 0x1};
        const uint kUnquantBinMovTable[8] = {8, 8, 1, 8, 2, 4, 6, 8};
        while (dstIdx < totalV) {
            if (epTrits == 1) {
                uint decoded[5] = decode_trit(u, srcIdx, epEnd, epBits);
                for (int i = 0; i < 5; i++) {
                    vBuffer[dstIdx] =
                        kUnquantTritColorMap[kUnquantTritColorMapBitIdx[epBits] + decoded[i]];
                    dstIdx++;
                    if (dstIdx >= totalV) {
                        break;
                    }
                }
            } else if (epQuints == 1) {
                uint decoded[3] = decode_quint(u, srcIdx, epEnd, epBits);
                for (int i = 0; i < 3; i++) {
                    vBuffer[dstIdx] =
                        kUnquantQuintColorMap[kUnquantQuintColorMapBitIdx[epBits] + decoded[i]];
                    dstIdx++;
                    if (dstIdx >= totalV) {
                        break;
                    }
                }
            } else {
                uint src = bits128(u, srcIdx, packedSize);
                uint decoded =
                    src * kUnquantBinMulTable[epBits - 1] | src >> kUnquantBinMovTable[epBits - 1];
                vBuffer[dstIdx] = decoded;
                dstIdx++;
            }
            srcIdx += packedSize;
        }
        uint bufferIdx = 0;
        for (uint part = 0; part < partitionCount; part++) {
            // TODO: HDR support
            decode_ldr_for_mode(vBuffer, bufferIdx, cem[part], endPoints[part][0],
                                endPoints[part][1]);
            bufferIdx += get_v_count(cem[part]);
        }
    }
    uvec4 ret[144];
    {
        uvec2 dst = (1024 + u_pushConstant.blockSize / 2) / (u_pushConstant.blockSize - 1);
        uint dd = d + 1;
        for (uint h = 0; h < u_pushConstant.blockSize.y; h++) {
            for (uint w = 0; w < u_pushConstant.blockSize.x; w++) {
                uint part = select_partition(u3 >> 13 & 1023, w, h, partitionCount);
                if (kHDRCEM[cem[part]]) {
                    // HDR not supported
                    ret[h * u_pushConstant.blockSize.x + w] = uvec4(0xff, 0, 0xff, 0xff);
                    continue;
                }
                // Calculate weight
                uvec2 st = uvec2(w, h);
                uvec2 cst = dst * st;
                uvec2 gst = (cst * (uvec2(width, height) - 1) + 32) >> 6;
                uvec2 jst = gst >> 4;
                uvec2 fst = gst & 0xf;
                uint v0 = jst.x + jst.y * width;
                uvec2 p00 = uvec2(weightGrid[v0 * dd], weightGrid[v0 * dd + 1]);
                uvec2 p01 = uvec2(weightGrid[(v0 + 1) * dd], weightGrid[(v0 + 1) * dd + 1]);
                uvec2 p10 = uvec2(weightGrid[(v0 + width) * dd], weightGrid[(v0 + width) * dd + 1]);
                uvec2 p11 =
                    uvec2(weightGrid[(v0 + width + 1) * dd], weightGrid[(v0 + width + 1) * dd + 1]);
                uint w11 = (fst.x * fst.y + 8) >> 4;
                uint w10 = fst.y - w11;
                uint w01 = fst.x - w11;
                uint w00 = 16 - fst.x - fst.y + w11;
                uvec2 i = (p00 * w00 + p01 * w01 + p10 * w10 + p11 * w11 + 8) >> 4;

                uvec4 c0 = endPoints[part][0];
                uvec4 c1 = endPoints[part][1];
                uvec4 c = (c0 * (64 - i[0]) + c1 * i[0] + 32) / 64;
                if (d == 1) {
                    uint ccs = bits128(u, dualPlaneStart, 2);
                    c[ccs] = (c0[ccs] * (64 - i[1]) + c1[ccs] * i[1] + 32) / 64;
                }
                ret[h * u_pushConstant.blockSize.x + w] = c;
            }
        }
    }
    return ret;
}

uint block_y_size_1DArray() { return 1; }

uint block_y_size_2DArray() { return u_pushConstant.blockSize.y; }

uint block_y_size_3D() { return u_pushConstant.blockSize.y; }

uvec4 flip32(uvec4 a) {
    return ((a & 0xff) << 24) | ((a & 0xff00) << 8) | ((a & 0xff0000) >> 8) |
           ((a & 0xff000000) >> 24);
}

void main(void) {
    ivec3 pos = ivec3(gl_GlobalInvocationID.xyz);
    pos.z += int(u_pushConstant.baseLayer);
    uvec4 srcBlock = uvec4(imageLoad(u_image0, WITH_TYPE(getPos)(pos)));
    srcBlock = uvec4(srcBlock[3], srcBlock[2], srcBlock[1], srcBlock[0]);
    uvec4[144] decompressed = astc_decode_block(srcBlock);

    for (uint y = 0; y < WITH_TYPE(block_y_size_)(); y++) {
        for (uint x = 0; x < u_pushConstant.blockSize.x; x++) {
            imageStore(
                u_image1,
                WITH_TYPE(getPos)(ivec3(pos.xy * u_pushConstant.blockSize + ivec2(x, y), pos.z)),
                decompressed[y * u_pushConstant.blockSize.x + x]);
        }
    }
}