src/dsp/ssim_sse2.c

*b2055c35SXin Li// Copyright 2017 Google Inc. All Rights Reserved.
*b2055c35SXin Li//
*b2055c35SXin Li// Use of this source code is governed by a BSD-style license
*b2055c35SXin Li// that can be found in the COPYING file in the root of the source
*b2055c35SXin Li// tree. An additional intellectual property rights grant can be found
*b2055c35SXin Li// in the file PATENTS. All contributing project authors may
*b2055c35SXin Li// be found in the AUTHORS file in the root of the source tree.
*b2055c35SXin Li// -----------------------------------------------------------------------------
*b2055c35SXin Li//
*b2055c35SXin Li// SSE2 version of distortion calculation
*b2055c35SXin Li//
*b2055c35SXin Li// Author: Skal ([email protected])
*b2055c35SXin Li
*b2055c35SXin Li#include "src/dsp/dsp.h"
*b2055c35SXin Li
*b2055c35SXin Li#if defined(WEBP_USE_SSE2)
*b2055c35SXin Li
*b2055c35SXin Li#include <assert.h>
*b2055c35SXin Li#include <emmintrin.h>
*b2055c35SXin Li
*b2055c35SXin Li#include "src/dsp/common_sse2.h"
*b2055c35SXin Li
*b2055c35SXin Li#if !defined(WEBP_DISABLE_STATS)
*b2055c35SXin Li
*b2055c35SXin Li// Helper function
*b2055c35SXin Listatic WEBP_INLINE void SubtractAndSquare_SSE2(const __m128i a, const __m128i b,
*b2055c35SXin Li                                               __m128i* const sum) {
*b2055c35SXin Li  // take abs(a-b) in 8b
*b2055c35SXin Li  const __m128i a_b = _mm_subs_epu8(a, b);
*b2055c35SXin Li  const __m128i b_a = _mm_subs_epu8(b, a);
*b2055c35SXin Li  const __m128i abs_a_b = _mm_or_si128(a_b, b_a);
*b2055c35SXin Li  // zero-extend to 16b
*b2055c35SXin Li  const __m128i zero = _mm_setzero_si128();
*b2055c35SXin Li  const __m128i C0 = _mm_unpacklo_epi8(abs_a_b, zero);
*b2055c35SXin Li  const __m128i C1 = _mm_unpackhi_epi8(abs_a_b, zero);
*b2055c35SXin Li  // multiply with self
*b2055c35SXin Li  const __m128i sum1 = _mm_madd_epi16(C0, C0);
*b2055c35SXin Li  const __m128i sum2 = _mm_madd_epi16(C1, C1);
*b2055c35SXin Li  *sum = _mm_add_epi32(sum1, sum2);
*b2055c35SXin Li}
*b2055c35SXin Li
*b2055c35SXin Li//------------------------------------------------------------------------------
*b2055c35SXin Li// SSIM / PSNR entry point
*b2055c35SXin Li
*b2055c35SXin Listatic uint32_t AccumulateSSE_SSE2(const uint8_t* src1,
*b2055c35SXin Li                                   const uint8_t* src2, int len) {
*b2055c35SXin Li  int i = 0;
*b2055c35SXin Li  uint32_t sse2 = 0;
*b2055c35SXin Li  if (len >= 16) {
*b2055c35SXin Li    const int limit = len - 32;
*b2055c35SXin Li    int32_t tmp[4];
*b2055c35SXin Li    __m128i sum1;
*b2055c35SXin Li    __m128i sum = _mm_setzero_si128();
*b2055c35SXin Li    __m128i a0 = _mm_loadu_si128((const __m128i*)&src1[i]);
*b2055c35SXin Li    __m128i b0 = _mm_loadu_si128((const __m128i*)&src2[i]);
*b2055c35SXin Li    i += 16;
*b2055c35SXin Li    while (i <= limit) {
*b2055c35SXin Li      const __m128i a1 = _mm_loadu_si128((const __m128i*)&src1[i]);
*b2055c35SXin Li      const __m128i b1 = _mm_loadu_si128((const __m128i*)&src2[i]);
*b2055c35SXin Li      __m128i sum2;
*b2055c35SXin Li      i += 16;
*b2055c35SXin Li      SubtractAndSquare_SSE2(a0, b0, &sum1);
*b2055c35SXin Li      sum = _mm_add_epi32(sum, sum1);
*b2055c35SXin Li      a0 = _mm_loadu_si128((const __m128i*)&src1[i]);
*b2055c35SXin Li      b0 = _mm_loadu_si128((const __m128i*)&src2[i]);
*b2055c35SXin Li      i += 16;
*b2055c35SXin Li      SubtractAndSquare_SSE2(a1, b1, &sum2);
*b2055c35SXin Li      sum = _mm_add_epi32(sum, sum2);
*b2055c35SXin Li    }
*b2055c35SXin Li    SubtractAndSquare_SSE2(a0, b0, &sum1);
*b2055c35SXin Li    sum = _mm_add_epi32(sum, sum1);
*b2055c35SXin Li    _mm_storeu_si128((__m128i*)tmp, sum);
*b2055c35SXin Li    sse2 += (tmp[3] + tmp[2] + tmp[1] + tmp[0]);
*b2055c35SXin Li  }
*b2055c35SXin Li
*b2055c35SXin Li  for (; i < len; ++i) {
*b2055c35SXin Li    const int32_t diff = src1[i] - src2[i];
*b2055c35SXin Li    sse2 += diff * diff;
*b2055c35SXin Li  }
*b2055c35SXin Li  return sse2;
*b2055c35SXin Li}
*b2055c35SXin Li#endif  // !defined(WEBP_DISABLE_STATS)
*b2055c35SXin Li
*b2055c35SXin Li#if !defined(WEBP_REDUCE_SIZE)
*b2055c35SXin Li
*b2055c35SXin Listatic uint32_t HorizontalAdd16b_SSE2(const __m128i* const m) {
*b2055c35SXin Li  uint16_t tmp[8];
*b2055c35SXin Li  const __m128i a = _mm_srli_si128(*m, 8);
*b2055c35SXin Li  const __m128i b = _mm_add_epi16(*m, a);
*b2055c35SXin Li  _mm_storeu_si128((__m128i*)tmp, b);
*b2055c35SXin Li  return (uint32_t)tmp[3] + tmp[2] + tmp[1] + tmp[0];
*b2055c35SXin Li}
*b2055c35SXin Li
*b2055c35SXin Listatic uint32_t HorizontalAdd32b_SSE2(const __m128i* const m) {
*b2055c35SXin Li  const __m128i a = _mm_srli_si128(*m, 8);
*b2055c35SXin Li  const __m128i b = _mm_add_epi32(*m, a);
*b2055c35SXin Li  const __m128i c = _mm_add_epi32(b, _mm_srli_si128(b, 4));
*b2055c35SXin Li  return (uint32_t)_mm_cvtsi128_si32(c);
*b2055c35SXin Li}
*b2055c35SXin Li
*b2055c35SXin Listatic const uint16_t kWeight[] = { 1, 2, 3, 4, 3, 2, 1, 0 };
*b2055c35SXin Li
*b2055c35SXin Li#define ACCUMULATE_ROW(WEIGHT) do {                         \
*b2055c35SXin Li  /* compute row weight (Wx * Wy) */                        \
*b2055c35SXin Li  const __m128i Wy = _mm_set1_epi16((WEIGHT));              \
*b2055c35SXin Li  const __m128i W = _mm_mullo_epi16(Wx, Wy);                \
*b2055c35SXin Li  /* process 8 bytes at a time (7 bytes, actually) */       \
*b2055c35SXin Li  const __m128i a0 = _mm_loadl_epi64((const __m128i*)src1); \
*b2055c35SXin Li  const __m128i b0 = _mm_loadl_epi64((const __m128i*)src2); \
*b2055c35SXin Li  /* convert to 16b and multiply by weight */               \
*b2055c35SXin Li  const __m128i a1 = _mm_unpacklo_epi8(a0, zero);           \
*b2055c35SXin Li  const __m128i b1 = _mm_unpacklo_epi8(b0, zero);           \
*b2055c35SXin Li  const __m128i wa1 = _mm_mullo_epi16(a1, W);               \
*b2055c35SXin Li  const __m128i wb1 = _mm_mullo_epi16(b1, W);               \
*b2055c35SXin Li  /* accumulate */                                          \
*b2055c35SXin Li  xm  = _mm_add_epi16(xm, wa1);                             \
*b2055c35SXin Li  ym  = _mm_add_epi16(ym, wb1);                             \
*b2055c35SXin Li  xxm = _mm_add_epi32(xxm, _mm_madd_epi16(a1, wa1));        \
*b2055c35SXin Li  xym = _mm_add_epi32(xym, _mm_madd_epi16(a1, wb1));        \
*b2055c35SXin Li  yym = _mm_add_epi32(yym, _mm_madd_epi16(b1, wb1));        \
*b2055c35SXin Li  src1 += stride1;                                          \
*b2055c35SXin Li  src2 += stride2;                                          \
*b2055c35SXin Li} while (0)
*b2055c35SXin Li
*b2055c35SXin Listatic double SSIMGet_SSE2(const uint8_t* src1, int stride1,
*b2055c35SXin Li                           const uint8_t* src2, int stride2) {
*b2055c35SXin Li  VP8DistoStats stats;
*b2055c35SXin Li  const __m128i zero = _mm_setzero_si128();
*b2055c35SXin Li  __m128i xm = zero, ym = zero;                // 16b accums
*b2055c35SXin Li  __m128i xxm = zero, yym = zero, xym = zero;  // 32b accum
*b2055c35SXin Li  const __m128i Wx = _mm_loadu_si128((const __m128i*)kWeight);
*b2055c35SXin Li  assert(2 * VP8_SSIM_KERNEL + 1 == 7);
*b2055c35SXin Li  ACCUMULATE_ROW(1);
*b2055c35SXin Li  ACCUMULATE_ROW(2);
*b2055c35SXin Li  ACCUMULATE_ROW(3);
*b2055c35SXin Li  ACCUMULATE_ROW(4);
*b2055c35SXin Li  ACCUMULATE_ROW(3);
*b2055c35SXin Li  ACCUMULATE_ROW(2);
*b2055c35SXin Li  ACCUMULATE_ROW(1);
*b2055c35SXin Li  stats.xm  = HorizontalAdd16b_SSE2(&xm);
*b2055c35SXin Li  stats.ym  = HorizontalAdd16b_SSE2(&ym);
*b2055c35SXin Li  stats.xxm = HorizontalAdd32b_SSE2(&xxm);
*b2055c35SXin Li  stats.xym = HorizontalAdd32b_SSE2(&xym);
*b2055c35SXin Li  stats.yym = HorizontalAdd32b_SSE2(&yym);
*b2055c35SXin Li  return VP8SSIMFromStats(&stats);
*b2055c35SXin Li}
*b2055c35SXin Li
*b2055c35SXin Li#endif  // !defined(WEBP_REDUCE_SIZE)
*b2055c35SXin Li
*b2055c35SXin Liextern void VP8SSIMDspInitSSE2(void);
*b2055c35SXin Li
*b2055c35SXin LiWEBP_TSAN_IGNORE_FUNCTION void VP8SSIMDspInitSSE2(void) {
*b2055c35SXin Li#if !defined(WEBP_DISABLE_STATS)
*b2055c35SXin Li  VP8AccumulateSSE = AccumulateSSE_SSE2;
*b2055c35SXin Li#endif
*b2055c35SXin Li#if !defined(WEBP_REDUCE_SIZE)
*b2055c35SXin Li  VP8SSIMGet = SSIMGet_SSE2;
*b2055c35SXin Li#endif
*b2055c35SXin Li}
*b2055c35SXin Li
*b2055c35SXin Li#else  // !WEBP_USE_SSE2
*b2055c35SXin Li
*b2055c35SXin LiWEBP_DSP_INIT_STUB(VP8SSIMDspInitSSE2)
*b2055c35SXin Li
*b2055c35SXin Li#endif  // WEBP_USE_SSE2