string/aarch64/memcpy-sve.S

*412f47f9SXin Li/*
*412f47f9SXin Li * memcpy - copy memory area
*412f47f9SXin Li *
*412f47f9SXin Li * Copyright (c) 2019-2023, Arm Limited.
*412f47f9SXin Li * SPDX-License-Identifier: MIT OR Apache-2.0 WITH LLVM-exception
*412f47f9SXin Li */
*412f47f9SXin Li
*412f47f9SXin Li/* Assumptions:
*412f47f9SXin Li *
*412f47f9SXin Li * ARMv8-a, AArch64, Advanced SIMD, SVE, unaligned accesses.
*412f47f9SXin Li *
*412f47f9SXin Li */
*412f47f9SXin Li
*412f47f9SXin Li#include "asmdefs.h"
*412f47f9SXin Li
*412f47f9SXin Li#ifdef HAVE_SVE
*412f47f9SXin Li
*412f47f9SXin Li.arch armv8-a+sve
*412f47f9SXin Li
*412f47f9SXin Li#define dstin	x0
*412f47f9SXin Li#define src	x1
*412f47f9SXin Li#define count	x2
*412f47f9SXin Li#define dst	x3
*412f47f9SXin Li#define srcend	x4
*412f47f9SXin Li#define dstend	x5
*412f47f9SXin Li#define tmp1	x6
*412f47f9SXin Li#define vlen	x6
*412f47f9SXin Li
*412f47f9SXin Li#define A_q	q0
*412f47f9SXin Li#define B_q	q1
*412f47f9SXin Li#define C_q	q2
*412f47f9SXin Li#define D_q	q3
*412f47f9SXin Li#define E_q	q4
*412f47f9SXin Li#define F_q	q5
*412f47f9SXin Li#define G_q	q6
*412f47f9SXin Li#define H_q	q7
*412f47f9SXin Li
*412f47f9SXin Li/* This implementation handles overlaps and supports both memcpy and memmove
*412f47f9SXin Li   from a single entry point.  It uses unaligned accesses and branchless
*412f47f9SXin Li   sequences to keep the code small, simple and improve performance.
*412f47f9SXin Li   SVE vectors are used to speedup small copies.
*412f47f9SXin Li
*412f47f9SXin Li   Copies are split into 3 main cases: small copies of up to 32 bytes, medium
*412f47f9SXin Li   copies of up to 128 bytes, and large copies.  The overhead of the overlap
*412f47f9SXin Li   check is negligible since it is only required for large copies.
*412f47f9SXin Li
*412f47f9SXin Li   Large copies use a software pipelined loop processing 64 bytes per iteration.
*412f47f9SXin Li   The source pointer is 16-byte aligned to minimize unaligned accesses.
*412f47f9SXin Li   The loop tail is handled by always copying 64 bytes from the end.
*412f47f9SXin Li*/
*412f47f9SXin Li
*412f47f9SXin LiENTRY_ALIAS (__memmove_aarch64_sve)
*412f47f9SXin LiENTRY (__memcpy_aarch64_sve)
*412f47f9SXin Li	PTR_ARG (0)
*412f47f9SXin Li	PTR_ARG (1)
*412f47f9SXin Li	SIZE_ARG (2)
*412f47f9SXin Li
*412f47f9SXin Li	cmp	count, 128
*412f47f9SXin Li	b.hi	L(copy_long)
*412f47f9SXin Li	cntb	vlen
*412f47f9SXin Li	cmp	count, vlen, lsl 1
*412f47f9SXin Li	b.hi	L(copy32_128)
*412f47f9SXin Li
*412f47f9SXin Li	whilelo p0.b, xzr, count
*412f47f9SXin Li	whilelo p1.b, vlen, count
*412f47f9SXin Li	ld1b	z0.b, p0/z, [src, 0, mul vl]
*412f47f9SXin Li	ld1b	z1.b, p1/z, [src, 1, mul vl]
*412f47f9SXin Li	st1b	z0.b, p0, [dstin, 0, mul vl]
*412f47f9SXin Li	st1b	z1.b, p1, [dstin, 1, mul vl]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	/* Medium copies: 33..128 bytes.  */
*412f47f9SXin LiL(copy32_128):
*412f47f9SXin Li	add	srcend, src, count
*412f47f9SXin Li	add	dstend, dstin, count
*412f47f9SXin Li	ldp	A_q, B_q, [src]
*412f47f9SXin Li	ldp	C_q, D_q, [srcend, -32]
*412f47f9SXin Li	cmp	count, 64
*412f47f9SXin Li	b.hi	L(copy128)
*412f47f9SXin Li	stp	A_q, B_q, [dstin]
*412f47f9SXin Li	stp	C_q, D_q, [dstend, -32]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	/* Copy 65..128 bytes.  */
*412f47f9SXin LiL(copy128):
*412f47f9SXin Li	ldp	E_q, F_q, [src, 32]
*412f47f9SXin Li	cmp	count, 96
*412f47f9SXin Li	b.ls	L(copy96)
*412f47f9SXin Li	ldp	G_q, H_q, [srcend, -64]
*412f47f9SXin Li	stp	G_q, H_q, [dstend, -64]
*412f47f9SXin LiL(copy96):
*412f47f9SXin Li	stp	A_q, B_q, [dstin]
*412f47f9SXin Li	stp	E_q, F_q, [dstin, 32]
*412f47f9SXin Li	stp	C_q, D_q, [dstend, -32]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	/* Copy more than 128 bytes.  */
*412f47f9SXin LiL(copy_long):
*412f47f9SXin Li	add	srcend, src, count
*412f47f9SXin Li	add	dstend, dstin, count
*412f47f9SXin Li
*412f47f9SXin Li	/* Use backwards copy if there is an overlap.  */
*412f47f9SXin Li	sub	tmp1, dstin, src
*412f47f9SXin Li	cmp	tmp1, count
*412f47f9SXin Li	b.lo	L(copy_long_backwards)
*412f47f9SXin Li
*412f47f9SXin Li	/* Copy 16 bytes and then align src to 16-byte alignment.  */
*412f47f9SXin Li	ldr	D_q, [src]
*412f47f9SXin Li	and	tmp1, src, 15
*412f47f9SXin Li	bic	src, src, 15
*412f47f9SXin Li	sub	dst, dstin, tmp1
*412f47f9SXin Li	add	count, count, tmp1	/* Count is now 16 too large.  */
*412f47f9SXin Li	ldp	A_q, B_q, [src, 16]
*412f47f9SXin Li	str	D_q, [dstin]
*412f47f9SXin Li	ldp	C_q, D_q, [src, 48]
*412f47f9SXin Li	subs	count, count, 128 + 16	/* Test and readjust count.  */
*412f47f9SXin Li	b.ls	L(copy64_from_end)
*412f47f9SXin LiL(loop64):
*412f47f9SXin Li	stp	A_q, B_q, [dst, 16]
*412f47f9SXin Li	ldp	A_q, B_q, [src, 80]
*412f47f9SXin Li	stp	C_q, D_q, [dst, 48]
*412f47f9SXin Li	ldp	C_q, D_q, [src, 112]
*412f47f9SXin Li	add	src, src, 64
*412f47f9SXin Li	add	dst, dst, 64
*412f47f9SXin Li	subs	count, count, 64
*412f47f9SXin Li	b.hi	L(loop64)
*412f47f9SXin Li
*412f47f9SXin Li	/* Write the last iteration and copy 64 bytes from the end.  */
*412f47f9SXin LiL(copy64_from_end):
*412f47f9SXin Li	ldp	E_q, F_q, [srcend, -64]
*412f47f9SXin Li	stp	A_q, B_q, [dst, 16]
*412f47f9SXin Li	ldp	A_q, B_q, [srcend, -32]
*412f47f9SXin Li	stp	C_q, D_q, [dst, 48]
*412f47f9SXin Li	stp	E_q, F_q, [dstend, -64]
*412f47f9SXin Li	stp	A_q, B_q, [dstend, -32]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	/* Large backwards copy for overlapping copies.
*412f47f9SXin Li	   Copy 16 bytes and then align srcend to 16-byte alignment.  */
*412f47f9SXin LiL(copy_long_backwards):
*412f47f9SXin Li	cbz	tmp1, L(return)
*412f47f9SXin Li	ldr	D_q, [srcend, -16]
*412f47f9SXin Li	and	tmp1, srcend, 15
*412f47f9SXin Li	bic	srcend, srcend, 15
*412f47f9SXin Li	sub	count, count, tmp1
*412f47f9SXin Li	ldp	A_q, B_q, [srcend, -32]
*412f47f9SXin Li	str	D_q, [dstend, -16]
*412f47f9SXin Li	ldp	C_q, D_q, [srcend, -64]
*412f47f9SXin Li	sub	dstend, dstend, tmp1
*412f47f9SXin Li	subs	count, count, 128
*412f47f9SXin Li	b.ls	L(copy64_from_start)
*412f47f9SXin Li
*412f47f9SXin LiL(loop64_backwards):
*412f47f9SXin Li	str	B_q, [dstend, -16]
*412f47f9SXin Li	str	A_q, [dstend, -32]
*412f47f9SXin Li	ldp	A_q, B_q, [srcend, -96]
*412f47f9SXin Li	str	D_q, [dstend, -48]
*412f47f9SXin Li	str	C_q, [dstend, -64]!
*412f47f9SXin Li	ldp	C_q, D_q, [srcend, -128]
*412f47f9SXin Li	sub	srcend, srcend, 64
*412f47f9SXin Li	subs	count, count, 64
*412f47f9SXin Li	b.hi	L(loop64_backwards)
*412f47f9SXin Li
*412f47f9SXin Li	/* Write the last iteration and copy 64 bytes from the start.  */
*412f47f9SXin LiL(copy64_from_start):
*412f47f9SXin Li	ldp	E_q, F_q, [src, 32]
*412f47f9SXin Li	stp	A_q, B_q, [dstend, -32]
*412f47f9SXin Li	ldp	A_q, B_q, [src]
*412f47f9SXin Li	stp	C_q, D_q, [dstend, -64]
*412f47f9SXin Li	stp	E_q, F_q, [dstin, 32]
*412f47f9SXin Li	stp	A_q, B_q, [dstin]
*412f47f9SXin LiL(return):
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin LiEND (__memcpy_aarch64_sve)
*412f47f9SXin Li
*412f47f9SXin Li#endif