string/aarch64/memcpy-advsimd.S

*412f47f9SXin Li/*
*412f47f9SXin Li * memcpy - copy memory area
*412f47f9SXin Li *
*412f47f9SXin Li * Copyright (c) 2019-2023, Arm Limited.
*412f47f9SXin Li * SPDX-License-Identifier: MIT OR Apache-2.0 WITH LLVM-exception
*412f47f9SXin Li */
*412f47f9SXin Li
*412f47f9SXin Li/* Assumptions:
*412f47f9SXin Li *
*412f47f9SXin Li * ARMv8-a, AArch64, Advanced SIMD, unaligned accesses.
*412f47f9SXin Li *
*412f47f9SXin Li */
*412f47f9SXin Li
*412f47f9SXin Li#include "asmdefs.h"
*412f47f9SXin Li
*412f47f9SXin Li#define dstin	x0
*412f47f9SXin Li#define src	x1
*412f47f9SXin Li#define count	x2
*412f47f9SXin Li#define dst	x3
*412f47f9SXin Li#define srcend	x4
*412f47f9SXin Li#define dstend	x5
*412f47f9SXin Li#define A_l	x6
*412f47f9SXin Li#define A_lw	w6
*412f47f9SXin Li#define A_h	x7
*412f47f9SXin Li#define B_l	x8
*412f47f9SXin Li#define B_lw	w8
*412f47f9SXin Li#define B_h	x9
*412f47f9SXin Li#define C_lw	w10
*412f47f9SXin Li#define tmp1	x14
*412f47f9SXin Li
*412f47f9SXin Li#define A_q	q0
*412f47f9SXin Li#define B_q	q1
*412f47f9SXin Li#define C_q	q2
*412f47f9SXin Li#define D_q	q3
*412f47f9SXin Li#define E_q	q4
*412f47f9SXin Li#define F_q	q5
*412f47f9SXin Li#define G_q	q6
*412f47f9SXin Li#define H_q	q7
*412f47f9SXin Li
*412f47f9SXin Li/* This implementation handles overlaps and supports both memcpy and memmove
*412f47f9SXin Li   from a single entry point.  It uses unaligned accesses and branchless
*412f47f9SXin Li   sequences to keep the code small, simple and improve performance.
*412f47f9SXin Li
*412f47f9SXin Li   Copies are split into 3 main cases: small copies of up to 32 bytes, medium
*412f47f9SXin Li   copies of up to 128 bytes, and large copies.  The overhead of the overlap
*412f47f9SXin Li   check is negligible since it is only required for large copies.
*412f47f9SXin Li
*412f47f9SXin Li   Large copies use a software pipelined loop processing 64 bytes per iteration.
*412f47f9SXin Li   The source pointer is 16-byte aligned to minimize unaligned accesses.
*412f47f9SXin Li   The loop tail is handled by always copying 64 bytes from the end.
*412f47f9SXin Li*/
*412f47f9SXin Li
*412f47f9SXin LiENTRY_ALIAS (__memmove_aarch64_simd)
*412f47f9SXin LiENTRY (__memcpy_aarch64_simd)
*412f47f9SXin Li	PTR_ARG (0)
*412f47f9SXin Li	PTR_ARG (1)
*412f47f9SXin Li	SIZE_ARG (2)
*412f47f9SXin Li	add	srcend, src, count
*412f47f9SXin Li	cmp	count, 128
*412f47f9SXin Li	b.hi	L(copy_long)
*412f47f9SXin Li	add	dstend, dstin, count
*412f47f9SXin Li	cmp	count, 32
*412f47f9SXin Li	b.hi	L(copy32_128)
*412f47f9SXin Li	nop
*412f47f9SXin Li
*412f47f9SXin Li	/* Small copies: 0..32 bytes.  */
*412f47f9SXin Li	cmp	count, 16
*412f47f9SXin Li	b.lo	L(copy16)
*412f47f9SXin Li	ldr	A_q, [src]
*412f47f9SXin Li	ldr	B_q, [srcend, -16]
*412f47f9SXin Li	str	A_q, [dstin]
*412f47f9SXin Li	str	B_q, [dstend, -16]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	.p2align 4
*412f47f9SXin Li	/* Medium copies: 33..128 bytes.  */
*412f47f9SXin LiL(copy32_128):
*412f47f9SXin Li	ldp	A_q, B_q, [src]
*412f47f9SXin Li	ldp	C_q, D_q, [srcend, -32]
*412f47f9SXin Li	cmp	count, 64
*412f47f9SXin Li	b.hi	L(copy128)
*412f47f9SXin Li	stp	A_q, B_q, [dstin]
*412f47f9SXin Li	stp	C_q, D_q, [dstend, -32]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	.p2align 4
*412f47f9SXin Li	/* Copy 8-15 bytes.  */
*412f47f9SXin LiL(copy16):
*412f47f9SXin Li	tbz	count, 3, L(copy8)
*412f47f9SXin Li	ldr	A_l, [src]
*412f47f9SXin Li	ldr	A_h, [srcend, -8]
*412f47f9SXin Li	str	A_l, [dstin]
*412f47f9SXin Li	str	A_h, [dstend, -8]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	/* Copy 4-7 bytes.  */
*412f47f9SXin LiL(copy8):
*412f47f9SXin Li	tbz	count, 2, L(copy4)
*412f47f9SXin Li	ldr	A_lw, [src]
*412f47f9SXin Li	ldr	B_lw, [srcend, -4]
*412f47f9SXin Li	str	A_lw, [dstin]
*412f47f9SXin Li	str	B_lw, [dstend, -4]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	/* Copy 65..128 bytes.  */
*412f47f9SXin LiL(copy128):
*412f47f9SXin Li	ldp	E_q, F_q, [src, 32]
*412f47f9SXin Li	cmp	count, 96
*412f47f9SXin Li	b.ls	L(copy96)
*412f47f9SXin Li	ldp	G_q, H_q, [srcend, -64]
*412f47f9SXin Li	stp	G_q, H_q, [dstend, -64]
*412f47f9SXin LiL(copy96):
*412f47f9SXin Li	stp	A_q, B_q, [dstin]
*412f47f9SXin Li	stp	E_q, F_q, [dstin, 32]
*412f47f9SXin Li	stp	C_q, D_q, [dstend, -32]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	/* Copy 0..3 bytes using a branchless sequence.  */
*412f47f9SXin LiL(copy4):
*412f47f9SXin Li	cbz	count, L(copy0)
*412f47f9SXin Li	lsr	tmp1, count, 1
*412f47f9SXin Li	ldrb	A_lw, [src]
*412f47f9SXin Li	ldrb	C_lw, [srcend, -1]
*412f47f9SXin Li	ldrb	B_lw, [src, tmp1]
*412f47f9SXin Li	strb	A_lw, [dstin]
*412f47f9SXin Li	strb	B_lw, [dstin, tmp1]
*412f47f9SXin Li	strb	C_lw, [dstend, -1]
*412f47f9SXin LiL(copy0):
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	.p2align 3
*412f47f9SXin Li	/* Copy more than 128 bytes.  */
*412f47f9SXin LiL(copy_long):
*412f47f9SXin Li	add	dstend, dstin, count
*412f47f9SXin Li
*412f47f9SXin Li	/* Use backwards copy if there is an overlap.  */
*412f47f9SXin Li	sub	tmp1, dstin, src
*412f47f9SXin Li	cmp	tmp1, count
*412f47f9SXin Li	b.lo	L(copy_long_backwards)
*412f47f9SXin Li
*412f47f9SXin Li	/* Copy 16 bytes and then align src to 16-byte alignment.  */
*412f47f9SXin Li	ldr	D_q, [src]
*412f47f9SXin Li	and	tmp1, src, 15
*412f47f9SXin Li	bic	src, src, 15
*412f47f9SXin Li	sub	dst, dstin, tmp1
*412f47f9SXin Li	add	count, count, tmp1	/* Count is now 16 too large.  */
*412f47f9SXin Li	ldp	A_q, B_q, [src, 16]
*412f47f9SXin Li	str	D_q, [dstin]
*412f47f9SXin Li	ldp	C_q, D_q, [src, 48]
*412f47f9SXin Li	subs	count, count, 128 + 16	/* Test and readjust count.  */
*412f47f9SXin Li	b.ls	L(copy64_from_end)
*412f47f9SXin LiL(loop64):
*412f47f9SXin Li	stp	A_q, B_q, [dst, 16]
*412f47f9SXin Li	ldp	A_q, B_q, [src, 80]
*412f47f9SXin Li	stp	C_q, D_q, [dst, 48]
*412f47f9SXin Li	ldp	C_q, D_q, [src, 112]
*412f47f9SXin Li	add	src, src, 64
*412f47f9SXin Li	add	dst, dst, 64
*412f47f9SXin Li	subs	count, count, 64
*412f47f9SXin Li	b.hi	L(loop64)
*412f47f9SXin Li
*412f47f9SXin Li	/* Write the last iteration and copy 64 bytes from the end.  */
*412f47f9SXin LiL(copy64_from_end):
*412f47f9SXin Li	ldp	E_q, F_q, [srcend, -64]
*412f47f9SXin Li	stp	A_q, B_q, [dst, 16]
*412f47f9SXin Li	ldp	A_q, B_q, [srcend, -32]
*412f47f9SXin Li	stp	C_q, D_q, [dst, 48]
*412f47f9SXin Li	stp	E_q, F_q, [dstend, -64]
*412f47f9SXin Li	stp	A_q, B_q, [dstend, -32]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	.p2align 4
*412f47f9SXin Li	nop
*412f47f9SXin Li
*412f47f9SXin Li	/* Large backwards copy for overlapping copies.
*412f47f9SXin Li	   Copy 16 bytes and then align srcend to 16-byte alignment.  */
*412f47f9SXin LiL(copy_long_backwards):
*412f47f9SXin Li	cbz	tmp1, L(copy0)
*412f47f9SXin Li	ldr	D_q, [srcend, -16]
*412f47f9SXin Li	and	tmp1, srcend, 15
*412f47f9SXin Li	bic	srcend, srcend, 15
*412f47f9SXin Li	sub	count, count, tmp1
*412f47f9SXin Li	ldp	A_q, B_q, [srcend, -32]
*412f47f9SXin Li	str	D_q, [dstend, -16]
*412f47f9SXin Li	ldp	C_q, D_q, [srcend, -64]
*412f47f9SXin Li	sub	dstend, dstend, tmp1
*412f47f9SXin Li	subs	count, count, 128
*412f47f9SXin Li	b.ls	L(copy64_from_start)
*412f47f9SXin Li
*412f47f9SXin LiL(loop64_backwards):
*412f47f9SXin Li	str	B_q, [dstend, -16]
*412f47f9SXin Li	str	A_q, [dstend, -32]
*412f47f9SXin Li	ldp	A_q, B_q, [srcend, -96]
*412f47f9SXin Li	str	D_q, [dstend, -48]
*412f47f9SXin Li	str	C_q, [dstend, -64]!
*412f47f9SXin Li	ldp	C_q, D_q, [srcend, -128]
*412f47f9SXin Li	sub	srcend, srcend, 64
*412f47f9SXin Li	subs	count, count, 64
*412f47f9SXin Li	b.hi	L(loop64_backwards)
*412f47f9SXin Li
*412f47f9SXin Li	/* Write the last iteration and copy 64 bytes from the start.  */
*412f47f9SXin LiL(copy64_from_start):
*412f47f9SXin Li	ldp	E_q, F_q, [src, 32]
*412f47f9SXin Li	stp	A_q, B_q, [dstend, -32]
*412f47f9SXin Li	ldp	A_q, B_q, [src]
*412f47f9SXin Li	stp	C_q, D_q, [dstend, -64]
*412f47f9SXin Li	stp	E_q, F_q, [dstin, 32]
*412f47f9SXin Li	stp	A_q, B_q, [dstin]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin LiEND (__memcpy_aarch64_simd)
*412f47f9SXin Li