Algoritmo de Strassen

Para multiplicar matrizes (2x2), são utilizados os produtos das somas e diferenças dos elementos. Na imagem, cada produto é colocado em uma moldura colorida separada, e a forma como eles são combinados na matriz final é indicada por raios que saem deles.

Em álgebra linear, o algoritmo de Strassen, em homenagem a Volker Strassen, é um algoritmo de multiplicação de matrizes. É mais rápido que o algoritmo de multiplicação de matrizes padrão para matrizes grandes, com melhor complexidade assintótica ( $O(n^{\log _{2}7})$ versus $O(n^{3})$ ), embora o algoritmo ingênuo seja frequentemente melhor para matrizes menores. O algoritmo de Strassen é mais lento do que os algoritmos conhecidos mais rápidos para matrizes extremamente grandes, mas tais algoritmos galácticos não são úteis na prática, pois são muito mais lentos para matrizes de tamanho prático. Para matrizes pequenas, existem algoritmos ainda mais rápidos.

O algoritmo de Strassen funciona para qualquer anel, como soma/multiplicação, mas não para todos os semianéis, como min-plus ou álgebra booliana, onde o algoritmo ingênuo ainda funciona, sendo a chamada multiplicação de matrizes combinatória.

História

Volker Strassen publicou este algoritmo pela primeira vez em 1969 e, assim, provou que o algoritmo de multiplicação de matrizes geral $n^{3}$ não era ótimo.^[1] A publicação do algoritmo de Strassen resultou em mais pesquisas sobre multiplicação de matrizes que levaram a limites inferiores assintóticos e a limites superiores computacionais melhorados.

Algoritmo

Sejam $A$ , $B$ duas matrizes quadradas sobre um anel ${\mathcal {R}}$ , por exemplo, matrizes cujas entradas são números inteiros ou números reais. O objetivo da multiplicação de matrizes é calcular o produto matricial $C=AB$ . A seguinte exposição do algoritmo assume que todas essas matrizes têm tamanhos que são potências de dois (isto é, $A,\,B,\,C\in \operatorname {Matr} _{2^{n}\times 2^{n}}({\mathcal {R}})$ ), mas isso é apenas conceitualmente necessário — se as matrizes $A$ , $B$ não são do tipo $2^{n}\times 2^{n}$ , as linhas e colunas "faltantes" podem ser preenchidas com zeros para obter matrizes com tamanhos de potências de dois — embora implementações reais do algoritmo não façam isso na prática.

O algoritmo de Strassen particiona $A$ , $B$ e $C$ em matrizes blocos de tamanhos iguais

A={\begin{bmatrix}A_{11}&A_{12}\\A_{21}&A_{22}\end{bmatrix}},\quad B={\begin{bmatrix}B_{11}&B_{12}\\B_{21}&B_{22}\end{bmatrix}},\quad C={\begin{bmatrix}C_{11}&C_{12}\\C_{21}&C_{22}\end{bmatrix}},\quad

com $A_{ij},B_{ij},C_{ij}\in \operatorname {Mat} _{2^{n-1}\times 2^{n-1}}({\mathcal {R}})$ . O algoritmo ingênuo seria:

{\begin{bmatrix}C_{11}&C_{12}\\C_{21}&C_{22}\end{bmatrix}}={\begin{bmatrix}A_{11}{\color {red}\times }B_{11}+A_{12}{\color {red}\times }B_{21}\quad &A_{11}{\color {red}\times }B_{12}+A_{12}{\color {red}\times }B_{22}\\A_{21}{\color {red}\times }B_{11}+A_{22}{\color {red}\times }B_{21}\quad &A_{21}{\color {red}\times }B_{12}+A_{22}{\color {red}\times }B_{22}\end{bmatrix}}.

Esta construção não reduz o número de multiplicações: ainda são necessárias 8 multiplicações de blocos de matrizes para calcular as matrizes $C_{ij}$ , o mesmo número de multiplicações necessário ao usar a multiplicação de matrizes padrão.

O algoritmo de Strassen define, em vez disso, novos valores:

{\begin{aligned}M_{1}&=(A_{11}+A_{22}){\color {red}\times }(B_{11}+B_{22});\\M_{2}&=(A_{21}+A_{22}){\color {red}\times }B_{11};\\M_{3}&=A_{11}{\color {red}\times }(B_{12}-B_{22});\\M_{4}&=A_{22}{\color {red}\times }(B_{21}-B_{11});\\M_{5}&=(A_{11}+A_{12}){\color {red}\times }B_{22};\\M_{6}&=(A_{21}-A_{11}){\color {red}\times }(B_{11}+B_{12});\\M_{7}&=(A_{12}-A_{22}){\color {red}\times }(B_{21}+B_{22}),\\\end{aligned}}

usando apenas 7 multiplicações (uma para cada $M_{k}$ ) em vez de 8. Podemos agora expressar os $C_{ij}$ em termos de $M_{k}$ :

{\begin{bmatrix}C_{11}&C_{12}\\C_{21}&C_{22}\end{bmatrix}}={\begin{bmatrix}M_{1}+M_{4}-M_{5}+M_{7}\quad &M_{3}+M_{5}\\M_{2}+M_{4}\quad &M_{1}-M_{2}+M_{3}+M_{6}\end{bmatrix}}.

Iteramos recursivamente este processo de divisão até que as submatrizes degenerem em números (elementos do anel ${\mathcal {R}}$ ). Se, como mencionado acima, a matriz original tivesse um tamanho que não é potência de 2, então o produto resultante terá linhas e colunas zero assim como $A$ e $B$ , e estas serão então removidas neste ponto para obter a matriz $C$ (menor) que realmente queríamos.

Implementações práticas do algoritmo de Strassen alternam para métodos padrão de multiplicação de matrizes para submatrizes suficientemente pequenas, para as quais esses algoritmos são mais eficientes. O ponto de transição específico para o qual o algoritmo de Strassen é mais eficiente depende da implementação e do hardware. Autores anteriores estimaram que o algoritmo de Strassen é mais rápido para matrizes com larguras de 32 a 128 para implementações otimizadas.^[2] No entanto, observou-se que este ponto de transição tem aumentado nos últimos anos, e um estudo de 2010 descobriu que mesmo uma única etapa do algoritmo de Strassen muitas vezes não é benéfica em arquiteturas atuais, em comparação com uma multiplicação tradicional altamente otimizada, até que os tamanhos das matrizes excedam 1000 ou mais, e mesmo para tamanhos de matriz de vários milhares, o benefício é tipicamente marginal na melhor das hipóteses (cerca de 10% ou menos).^[3] Um estudo mais recente (2016) observou benefícios para matrizes tão pequenas quanto 512 e um benefício em torno de 20%.^[4]

Melhorias no algoritmo de Strassen

É possível reduzir o número de adições de matrizes usando a seguinte forma descoberta por Winograd em 1971:^[5]

${\begin{bmatrix}a&b\\c&d\end{bmatrix}}{\begin{bmatrix}A&C\\B&D\end{bmatrix}}={\begin{bmatrix}t+b{\color {red}\times }B&w+v+(a+b-c-d){\color {red}\times }D\\w+u+d{\color {red}\times }(B+C-A-D)&w+u+v\end{bmatrix}}$

onde $t=a{\color {red}\times }A,\;u=(c-a){\color {red}\times }(C-D),\;v=(c+d){\color {red}\times }(C-A),\;w=t+(c+d-a){\color {red}\times }(A+D-C)$ .

Isso reduz o número de adições e subtrações de matrizes de 18 para 15. O número de multiplicações de matrizes continua sendo 7, e a complexidade assintótica é a mesma.^[6]

O algoritmo foi posteriormente otimizado em 2017 usando uma base alternativa,^[7] reduzindo o número de adições de matrizes por etapa bilinear para 12, mantendo o número de multiplicações de matrizes, e novamente em 2023:^[8]

${\begin{aligned}A_{22}&=A_{12}-A_{21}+A_{22};\\B_{22}&=B_{12}-B_{21}+B_{22},\end{aligned}}$

${\begin{aligned}t_{1}&=A_{21}+A_{22};\\t_{2}&=A_{22}-A_{12};\\t_{3}&=A_{22}-A_{11};\\t_{4}&=B_{22}-B_{11};\\t_{5}&=B_{21}+B_{22};\\t_{6}&=B_{22}-B_{12},\end{aligned}}$

${\begin{aligned}M_{1}&=A_{11}{\color {red}\times }B_{11};\\M_{2}&=A_{12}{\color {red}\times }B_{21};\\M_{3}&=A_{21}{\color {red}\times }t_{4};\\M_{4}&=A_{22}{\color {red}\times }B_{22};\\M_{5}&=t_{1}{\color {red}\times }t_{5};\\M_{6}&=t_{2}{\color {red}\times }t_{6};\\M_{7}&=t_{3}{\color {red}\times }B_{12},\end{aligned}}$

${\begin{aligned}C_{11}&=M_{1}+M_{2};\\C_{12}&=M_{5}-M_{7};\\C_{21}&=M_{3}+M_{6};\\C_{22}&=M_{5}+M_{6}-M_{2}-M_{4}.\\\end{aligned}}$

${\begin{aligned}C_{12}&=C_{12}-C_{22};\\C_{21}&=C_{22}-C_{21},\end{aligned}}$

Complexidade assintótica

O esboço do algoritmo acima mostrou que podemos nos livrar de apenas 7, em vez das tradicionais 8, multiplicações matriz-matriz para os sub-blocos da matriz. Por outro lado, é necessário fazer adições e subtrações de blocos, embora isso não seja preocupante para a complexidade geral: Adicionar matrizes de tamanho $N/2$ requer apenas $(N/2)^{2}$ operações, enquanto a multiplicação é substancialmente mais cara (tradicionalmente $2(N/2)^{3}$ operações de adição ou multiplicação).

A questão é quantas operações exatamente são necessárias para o algoritmo de Strassen e como isso se compara com a multiplicação de matrizes padrão que leva aproximadamente $2N^{3}$ (onde $N=2^{n}$ ) operações aritméticas, ou seja, uma complexidade assintótica $\Theta (N^{3})$ .

O número de adições e multiplicações necessárias no algoritmo de Strassen pode ser calculado como segue: seja $f(n)$ o número de operações para uma matriz $2^{n}\times 2^{n}$ . Então, pela aplicação recursiva do algoritmo de Strassen, vemos que $f(n)=7f(n-1)+l4^{n}$ , para alguma constante $l$ que depende do número de adições realizadas em cada aplicação do algoritmo. Portanto, $f(n)=(7+o(1))^{n}$ , ou seja, a complexidade assintótica para multiplicar matrizes de tamanho $N=2^{n}$ usando o algoritmo de Strassen é $O([7+o(1)]^{n})=O(N^{\log _{2}7+o(1)})\approx O(N^{2.8074})$ . A redução no número de operações aritméticas, no entanto, tem o preço de uma estabilidade numérica um pouco reduzida,^[9] e o algoritmo também requer significativamente mais memória em comparação com o algoritmo ingênuo. Ambas as matrizes iniciais devem ter suas dimensões expandidas para a próxima potência de 2, o que resulta no armazenamento de até quatro vezes mais elementos, e as sete matrizes auxiliares contêm cada uma um quarto dos elementos das matrizes expandidas.

O algoritmo de Strassen precisa ser comparado com a maneira "ingênua" de fazer a multiplicação de matrizes que exigiria 8 em vez de 7 multiplicações de sub-blocos. Isso daria então origem à complexidade que se espera da abordagem padrão: $O(8^{n})=O(N^{\log _{2}8})=O(N^{3})$ . A comparação desses dois algoritmos mostra que, assintoticamente, o algoritmo de Strassen é mais rápido: existe um tamanho $N_{\text{threshold}}$ tal que matrizes maiores são multiplicadas de forma mais eficiente com o algoritmo de Strassen do que da maneira "tradicional". No entanto, a afirmação assintótica não implica que o algoritmo de Strassen seja sempre mais rápido, mesmo para matrizes pequenas, e na prática este não é o caso: Para matrizes pequenas, o custo das adições adicionais de blocos de matrizes supera as economias no número de multiplicações. Há também outros fatores não capturados pela análise acima, como a diferença no custo em hardware atual entre carregar dados da memória para os processadores versus o custo de realmente realizar operações sobre esses dados. Como consequência desses tipos de considerações, o algoritmo de Strassen é tipicamente usado apenas em matrizes "grandes". Esse tipo de efeito é ainda mais pronunciado com algoritmos alternativos como o de Coppersmith e Winograd: Embora assintoticamente ainda mais rápidos, o ponto de transição $N_{\text{threshold}}$ é tão grande que o algoritmo geralmente não é usado em matrizes que encontramos na prática.

Posto ou complexidade bilinear

A complexidade bilinear ou posto de um mapa bilinear é um conceito importante na complexidade assintótica da multiplicação de matrizes. O posto de um mapa bilinear ${\displaystyle \phi$ sobre um corpo F é definido como (um tanto quanto um abuso de notação)

R(\phi /\mathbf {F} )=\min \left\{r\left|\exists f_{i}\in \mathbf {A} ^{*},g_{i}\in \mathbf {B} ^{*},w_{i}\in \mathbf {C} ,\forall \mathbf {a} \in \mathbf {A} ,\mathbf {b} \in \mathbf {B} ,\phi (\mathbf {a} ,\mathbf {b} )=\sum _{i=1}^{r}f_{i}(\mathbf {a} )g_{i}(\mathbf {b} )w_{i}\right.\right\}

Em outras palavras, o posto de um mapa bilinear é o comprimento de seu cálculo bilinear mais curto.^[10] A existência do algoritmo de Strassen mostra que o posto da multiplicação de matrizes $2\times 2$ não é maior que sete. Para ver isso, vamos expressar este algoritmo (juntamente com o algoritmo padrão) como tal cálculo bilinear. No caso de matrizes, os espaços duais A* e B* consistem em mapas para o corpo F induzidos por um produto duplo escalar (ou seja, neste caso, a soma de todas as entradas de um produto de Hadamard.)

	Algoritmo padrão			Algoritmo de Strassen
$i$	$f_{i}(\mathbf {a} )$	$g_{i}(\mathbf {b} )$	$w_{i}$	$f_{i}(\mathbf {a} )$	$g_{i}(\mathbf {b} )$	$w_{i}$
1	${\begin{bmatrix}1&0\\0&0\end{bmatrix}}:\mathbf {a}$	${\begin{bmatrix}1&0\\0&0\end{bmatrix}}:\mathbf {b}$	${\begin{bmatrix}1&0\\0&0\end{bmatrix}}$	${\begin{bmatrix}1&0\\0&1\end{bmatrix}}:\mathbf {a}$	${\begin{bmatrix}1&0\\0&1\end{bmatrix}}:\mathbf {b}$	${\begin{bmatrix}1&0\\0&1\end{bmatrix}}$
2	${\begin{bmatrix}0&1\\0&0\end{bmatrix}}:\mathbf {a}$	${\begin{bmatrix}0&0\\1&0\end{bmatrix}}:\mathbf {b}$	${\begin{bmatrix}1&0\\0&0\end{bmatrix}}$	${\begin{bmatrix}0&0\\1&1\end{bmatrix}}:\mathbf {a}$	${\begin{bmatrix}1&0\\0&0\end{bmatrix}}:\mathbf {b}$	${\begin{bmatrix}0&0\\1&-1\end{bmatrix}}$
3	${\begin{bmatrix}1&0\\0&0\end{bmatrix}}:\mathbf {a}$	${\begin{bmatrix}0&1\\0&0\end{bmatrix}}:\mathbf {b}$	${\begin{bmatrix}0&1\\0&0\end{bmatrix}}$	${\begin{bmatrix}1&0\\0&0\end{bmatrix}}:\mathbf {a}$	${\begin{bmatrix}0&1\\0&-1\end{bmatrix}}:\mathbf {b}$	${\begin{bmatrix}0&1\\0&1\end{bmatrix}}$
4	${\begin{bmatrix}0&1\\0&0\end{bmatrix}}:\mathbf {a}$	${\begin{bmatrix}0&0\\0&1\end{bmatrix}}:\mathbf {b}$	${\begin{bmatrix}0&1\\0&0\end{bmatrix}}$	${\begin{bmatrix}0&0\\0&1\end{bmatrix}}:\mathbf {a}$	${\begin{bmatrix}-1&0\\1&0\end{bmatrix}}:\mathbf {b}$	${\begin{bmatrix}1&0\\1&0\end{bmatrix}}$
5	${\begin{bmatrix}0&0\\1&0\end{bmatrix}}:\mathbf {a}$	${\begin{bmatrix}1&0\\0&0\end{bmatrix}}:\mathbf {b}$	${\begin{bmatrix}0&0\\1&0\end{bmatrix}}$	${\begin{bmatrix}1&1\\0&0\end{bmatrix}}:\mathbf {a}$	${\begin{bmatrix}0&0\\0&1\end{bmatrix}}:\mathbf {b}$	${\begin{bmatrix}-1&1\\0&0\end{bmatrix}}$
6	${\begin{bmatrix}0&0\\0&1\end{bmatrix}}:\mathbf {a}$	${\begin{bmatrix}0&0\\1&0\end{bmatrix}}:\mathbf {b}$	${\begin{bmatrix}0&0\\1&0\end{bmatrix}}$	${\begin{bmatrix}-1&0\\1&0\end{bmatrix}}:\mathbf {a}$	${\begin{bmatrix}1&1\\0&0\end{bmatrix}}:\mathbf {b}$	${\begin{bmatrix}0&0\\0&1\end{bmatrix}}$
7	${\begin{bmatrix}0&0\\1&0\end{bmatrix}}:\mathbf {a}$	${\begin{bmatrix}0&1\\0&0\end{bmatrix}}:\mathbf {b}$	${\begin{bmatrix}0&0\\0&1\end{bmatrix}}$	${\begin{bmatrix}0&1\\0&-1\end{bmatrix}}:\mathbf {a}$	${\begin{bmatrix}0&0\\1&1\end{bmatrix}}:\mathbf {b}$	${\begin{bmatrix}1&0\\0&0\end{bmatrix}}$
8	${\begin{bmatrix}0&0\\0&1\end{bmatrix}}:\mathbf {a}$	${\begin{bmatrix}0&0\\0&1\end{bmatrix}}:\mathbf {b}$	${\begin{bmatrix}0&0\\0&1\end{bmatrix}}$
	$\mathbf {a} \mathbf {b} =\sum _{i=1}^{8}f_{i}(\mathbf {a} )g_{i}(\mathbf {b} )w_{i}$			$\mathbf {a} \mathbf {b} =\sum _{i=1}^{7}f_{i}(\mathbf {a} )g_{i}(\mathbf {b} )w_{i}$

Pode-se mostrar que o número total de multiplicações elementares $L$ necessárias para a multiplicação de matrizes está assintoticamente fortemente ligado ao posto $R$ , isto é, $L=\Theta (R)$ , ou mais especificamente, como as constantes são conhecidas, $R/2\leq L\leq R$ . Uma propriedade útil do posto é que ele é submultiplicativo para produtos tensoriais, e isso permite mostrar que a multiplicação de matrizes $2^{n}\times 2^{n}\times 2^{n}$ pode ser realizada com não mais que $7^{n}$ multiplicações elementares para qualquer $n$ . (Este produto tensorial $n$ -vezes do mapa de multiplicação de matrizes $2\times 2\times 2$ consigo mesmo — uma $n$ -ésima potência tensorial — é realizado pela etapa recursiva no algoritmo mostrado.)

Comportamento de cache

O algoritmo de Strassen é cache-oblivious. A análise de seu comportamento de cache mostrou que ele incorre em

\Theta \left(1+{\frac {n^{2}}{b}}+{\frac {n^{\log _{2}7}}{b{\sqrt {M}}}}\right)

falhas de cache durante sua execução, assumindo um cache idealizado de tamanho $M$ (isto é, com $M/b$ linhas de comprimento $b$ ).^[11]^:13

Considerações de implementação

A descrição acima afirma que as matrizes são quadradas e o tamanho é uma potência de dois, e que o preenchimento com zeros deve ser usado se necessário. Essa restrição permite que as matrizes sejam divididas ao meio, recursivamente, até o limite da multiplicação escalar. A restrição simplifica a explicação e a análise de complexidade, mas não é realmente necessária;^[12] e, de fato, preencher a matriz como descrito aumentará o tempo de computação e pode facilmente eliminar as pequenas economias de tempo obtidas pelo uso do método em primeiro lugar.

Uma boa implementação observará o seguinte:

Não é necessário nem desejável usar o algoritmo de Strassen até o limite dos escalares. Em comparação com a multiplicação de matrizes convencional, o algoritmo adiciona uma carga de trabalho considerável $O(n^{2})$ em adições/subtrações; portanto, abaixo de um certo tamanho, será melhor usar a multiplicação convencional. Assim, por exemplo, uma matriz $1600\times 1600$ não precisa ser preenchida para $2048\times 2048$ , pois poderia ser subdividida até matrizes $25\times 25$ e a multiplicação convencional pode então ser usada nesse nível.
O método pode de fato ser aplicado a matrizes quadradas de qualquer dimensão.^[3] Se a dimensão for par, elas são divididas ao meio como descrito. Se a dimensão for ímpar, o preenchimento com zero por uma linha e uma coluna é aplicado primeiro. Esse preenchimento pode ser aplicado sob demanda e de forma preguiçosa, e as linhas e colunas extras são descartadas à medida que o resultado é formado. Por exemplo, suponha que as matrizes sejam $199\times 199$ . Elas podem ser divididas de modo que a parte superior esquerda seja $100\times 100$ e a inferior direita seja $99\times 99$ . Onde as operações exigirem, as dimensões de $99$ são preenchidas com zero para $100$ primeiro. Observe, por exemplo, que o produto $M_{2}$ é usado apenas na linha inferior da saída, portanto, é necessário apenas ter $99$ linhas de altura; e assim o fator esquerdo $A_{21}+A_{22}$ usado para gerá-lo precisa ter apenas $99$ linhas de altura; consequentemente, não há necessidade de preencher essa soma para $100$ linhas; só é necessário preencher $A_{22}$ para $100$ colunas para corresponder a $A_{21}$ .

Além disso, não há necessidade de as matrizes serem quadradas. Matrizes não quadradas podem ser divididas ao meio usando os mesmos métodos, resultando em matrizes não quadradas menores. Se as matrizes forem suficientemente não quadradas, valerá a pena reduzir a operação inicial a produtos mais quadrados, usando métodos simples que são essencialmente $O(n^{2})$ , por exemplo:

Um produto de tamanho $[2N\times N]\ast [N\times 10N]$ pode ser feito como 20 operações separadas $[N\times N]\ast [N\times N]$ , arranjadas para formar o resultado;
Um produto de tamanho $[N\times 10N]\ast [10N\times N]$ pode ser feito como 10 operações separadas $[N\times N]\ast [N\times N]$ , somadas para formar o resultado.

Essas técnicas tornarão a implementação mais complicada, em comparação com simplesmente preencher para um quadrado de potência de dois; no entanto, é uma suposição razoável que qualquer pessoa que realize uma implementação de Strassen, em vez da multiplicação convencional, colocará uma prioridade maior na eficiência computacional do que na simplicidade da implementação.

Na prática, o algoritmo de Strassen pode ser implementado para alcançar melhor desempenho do que a multiplicação convencional mesmo para matrizes tão pequenas quanto $500\times 500$ , para matrizes que não são nada quadradas e sem exigir espaço de trabalho além dos buffers já necessários para uma multiplicação convencional de alto desempenho.^[4]

Implementação em C

/*------------------------------------------------------------------------------*/
void strassen(double **a, double **b, double **c, int tam){

	// caso base:
	if(tam == 1){
		c[0][0] = a[0][0] * b[0][0];
		return;
	}


	else{
		int novoTam = tam/2;
		double **a11, **a12, **a21, **a22;
		double **b11, **b12, **b21, **b22;
		double **c11, **c12, **c21, **c22;
		double **p1, **p2, **p3, **p4, **p5, **p6, **p7;

		// alocação de memória:
		a11 = alocar_matriz_real(novoTam, -1);
		a12 = alocar_matriz_real(novoTam, -1);
		a21 = alocar_matriz_real(novoTam, -1);
		a22 = alocar_matriz_real(novoTam, -1);

		b11 = alocar_matriz_real(novoTam, -1);
		b12 = alocar_matriz_real(novoTam, -1);
		b21 = alocar_matriz_real(novoTam, -1);
		b22 = alocar_matriz_real(novoTam, -1);

		c11 = alocar_matriz_real(novoTam, -1);
		c12 = alocar_matriz_real(novoTam, -1);
		c21 = alocar_matriz_real(novoTam, -1);
		c22 = alocar_matriz_real(novoTam, -1);

		p1 = alocar_matriz_real(novoTam, -1);
		p2 = alocar_matriz_real(novoTam, -1);
		p3 = alocar_matriz_real(novoTam, -1);
		p4 = alocar_matriz_real(novoTam, -1);
		p5 = alocar_matriz_real(novoTam, -1);
		p6 = alocar_matriz_real(novoTam, -1);
		p7 = alocar_matriz_real(novoTam, -1);
		
		double **aResult = alocar_matriz_real(novoTam, -1);
		double **bResult = alocar_matriz_real(novoTam, -1);

		int i, j;


		//dividindo as matrizes de entrada nas 4 submatrizes:
            for (i = 0; i < novoTam; i++)
            {
                for (j = 0; j < novoTam; j++)
                {
                    a11[i][j] = a[i][j];
                    a12[i][j] = a[i][j + novoTam];
                    a21[i][j] = a[i + novoTam][j];
                    a22[i][j] = a[i + novoTam][j + novoTam];

                    b11[i][j] = b[i][j];
                    b12[i][j] = b[i][j + novoTam];
                    b21[i][j] = b[i + novoTam][j];
                    b22[i][j] = b[i + novoTam][j + novoTam];
                }
            }

		// Cálculos de p1 até p7:

		soma(a11, a22, aResult, novoTam); // a11 + a22
		soma(b11, b22, bResult, novoTam); // b11 + b22
		strassen(aResult, bResult, p1, novoTam); // p1 = (a11+a22) * (b11+b22)

		soma(a21, a22, aResult, novoTam); // a21 + a22
		strassen(aResult, b11, p2, novoTam); // p2 = (a21+a22) * (b11)

		subtrai(b12, b22, bResult, novoTam); // b12 - b22
		strassen(a11, bResult, p3, novoTam); // p3 = (a11) * (b12 - b22)

		subtrai(b21, b11, bResult, novoTam); // b21 - b11
		strassen(a22, bResult, p4, novoTam); // p4 = (a22) * (b21 - b11)

		soma(a11, a12, aResult, novoTam); // a11 + a12
		strassen(aResult, b22, p5, novoTam); // p5 = (a11+a12) * (b22)	

		subtrai(a21, a11, aResult, novoTam); // a21 - a11
		soma(b11, b12, bResult, novoTam); // b11 + b12
		strassen(aResult, bResult, p6, novoTam); // p6 = (a21-a11) * (b11+b12)
		
		subtrai(a12, a22, aResult, novoTam); // a12 - a22
		soma(b21, b22, bResult, novoTam); // b21 + b22
		strassen(aResult, bResult, p7, novoTam); // p6 = (a21-a11) * (b11+b12)

		soma(p3, p5, c12, novoTam); // c12 = p3 + p5
		soma(p2, p4, c21, novoTam); // c21 = p2 + p4

		soma(p1, p4, aResult, novoTam); // p1 + p4
		soma(aResult, p7, bResult, novoTam); // p1 + p4 + p7
		subtrai(bResult, p5, c11, novoTam); // c11 = p1 + p4 - p5 + p7

		soma(p1, p3, aResult, novoTam); // p1 + p3
		soma(aResult, p6, bResult, novoTam); // p1 + p3 + p6
		subtrai(bResult, p2, c22, novoTam); // c22 = p1 + p3 - p2 + p6


		// agrupando os resultados obtidos em uma única matriz (conquista):
		 for (i = 0; i < novoTam ; i++)
            {
                for (j = 0 ; j < novoTam ; j++)
                {
                    c[i][j] = c11[i][j];
                    c[i][j + novoTam] = c12[i][j];
                    c[i + novoTam][j] = c21[i][j];
                    c[i + novoTam][j + novoTam] = c22[i][j];
                }
            }



		// desalocação de memória:
		a11 = liberar_matriz_real(a11, novoTam);
		a12 = liberar_matriz_real(a12, novoTam);
		a21 = liberar_matriz_real(a21, novoTam);
		a22 = liberar_matriz_real(a22, novoTam);

		b11 = liberar_matriz_real(b11, novoTam);
		b12 = liberar_matriz_real(b12, novoTam);
		b21 = liberar_matriz_real(b21, novoTam);
		b22 = liberar_matriz_real(b22, novoTam);

		c11 = liberar_matriz_real(c11, novoTam);
		c12 = liberar_matriz_real(c12, novoTam);
		c21 = liberar_matriz_real(c21, novoTam);
		c22 = liberar_matriz_real(c22, novoTam);

		p1 = liberar_matriz_real(p1, novoTam);
		p2 = liberar_matriz_real(p2, novoTam);
		p3 = liberar_matriz_real(p3, novoTam);
		p4 = liberar_matriz_real(p4, novoTam);
		p5 = liberar_matriz_real(p5, novoTam);
		p6 = liberar_matriz_real(p6, novoTam);
		p7 = liberar_matriz_real(p7, novoTam);
		aResult = liberar_matriz_real(aResult, novoTam);
		bResult = liberar_matriz_real(bResult, novoTam);
	} // fim do else

} // fim da função strassen

/*------------------------------------------------------------------------------*/
void soma(double **a, double **b, double **resultado, int tam){

	int i, j;

	for(i=0; i< tam; i++){
		for(j=0; j<tam; j++){
			resultado[i][j] = a[i][j] + b[i][j];
		}
	}
}

/*------------------------------------------------------------------------------*/
void subtrai(double **a, double **b, double **resultado, int tam){

	int i, j;

	for(i=0; i< tam; i++){
		for(j=0; j<tam; j++){
			resultado[i][j] = a[i][j] - b[i][j];
		}
	}	
}

/*------------------------------------------------------------------------------*/
// passar valor 0 para a variável randomico se quiser que matriz seja inicializada com 0, passar valor 1 se quiser que seja
// inicializada com valores aleatórios, e passar qualquer outro valor (-1 por exemplo) se quiser que a matriz
// não seja inicializada com valor nenhum.
double **alocar_matriz_real (int tam, int randomico)
{
   int i, j, n = tam, m = tam;
   double **v, a;         // ponteiro para o vetor

  // aloca o vetor
   v = (double**)malloc(n*sizeof(double*));

   if (v == NULL) {
       printf ("** Erro na alocacao da matriz: Memoria Insuficiente **");
       return (NULL);
       }

    
   for(i=0;i<n;i++)
   {
      v[i] = (double*)malloc(m*sizeof(double));
		
		if (v[i] == NULL) {
	       printf ("** Erro: Memoria Insuficiente **");
			   liberar_matriz_real(v, n);
	       return (NULL);
       }

		// inicializa a matriz com zeros
		if(randomico == 0){
			for(j=0; j<m; j++)
				v[i][j] = 0.0;
		}

		// inicializa a matriz com valores aleatórios entre 0 e 10
		else{
			if(randomico == 1){
				for(j=0; j<m; j++){
					a = rand();
					v[i][j] = (a - (int)a) * 10;
				}
			}
		}
   }

   return (v);     // retorna o ponteiro para o vetor
}

/*------------------------------------------------------------------------------*/
double **liberar_matriz_real (double **v, int tam)
{ // inicio funçao
   int i;
   if (v == NULL) return (NULL);

	for(i=0;i<tam;i++){ // inicio for
		if(v[i]){ // inicio if
   	   free(v[i]);
			 v[i] = NULL;
		} // fim if
	} // fim for

   free(v);         // libera o vetor /
	v = NULL;

   return (NULL);   //retorna um ponteiro nulo /
} // fim funcao

/*------------------------------------------------------------------------------*/

Ver também

Complexidade computacional de operações matemáticas
Eliminação de Gauss-Jordan
Complexidade computacional da multiplicação de matrizes
Curva de ordem Z
Algoritmo de Karatsuba, para multiplicar inteiros de n dígitos em $O(n^{\log _{2}3})$ $O(n^{\log _{2}3})$ em vez de $O(n^{2})$ $O(n^{2})$ tempo
- Um algoritmo de multiplicação complexa semelhante multiplica dois números complexos usando 3 multiplicações reais em vez de 4
Algoritmo de Toom-Cook, uma generalização mais rápida do algoritmo de Karatsuba que permite decomposição recursiva de dividir para conquistar em mais de 2 blocos de cada vez

Referências

↑ Strassen, Volker (1969). «Gaussian Elimination is not Optimal». Numer. Math. 13 (4): 354–356. doi:10.1007/BF02165411
↑ Skiena, Steven S. (1998). «§8.2.3 Matrix multiplication». The Algorithm Design Manual. Berlim, Nova Iorque: Springer-Verlag. ISBN 978-0-387-94860-7
1 2 D'Alberto, Paolo; Nicolau, Alexandru (2005). Using Recursion to Boost ATLAS's Performance (PDF). Sixth Int'l Symp. on High Performance Computing
1 2 Huang, Jianyu; Smith, Tyler M.; Henry, Greg M.; van de Geijn, Robert A. (13 de novembro de 2016). Strassen's Algorithm Reloaded. SC16: The International Conference for High Performance Computing, Networking, Storage and Analysis. IEEE Press. pp. 690–701. ISBN 9781467388153. doi:10.1109/SC.2016.58. Consultado em 1 de novembro de 2022
↑ Winograd, S. (Outubro de 1971). «On multiplication of 2 × 2 matrices». Linear Algebra and Its Applications (em inglês). 4 (4): 381–388. doi:10.1016/0024-3795(71)90009-7
↑ Knuth (1997), p. 500.
↑ Karstadt, Elaye; Schwartz, Oded (24 de julho de 2017). Matrix Multiplication, a Little Faster. Proceedings of the 29th ACM Symposium on Parallelism in Algorithms and Architectures. pp. 101–110. ISBN 978-1-4503-4593-4. doi:10.1145/3087556.3087579
↑ Schwartz, Oded; Vaknin, Noa (31 de dezembro de 2023). «Pebbling Game and Alternative Basis for High Performance Matrix Multiplication». SIAM Journal on Scientific Computing (em inglês). 45 (6): C277–C303. Bibcode:2023SJSC...45C.277S. ISSN 1064-8275. doi:10.1137/22M1502719
↑ Webb, Miller (1975). «Computational complexity and numerical stability». SIAM J. Comput. 4 (2): 97–107. doi:10.1137/0204009
↑ Burgisser; Clausen; Shokrollahi (1997). Algebraic Complexity Theory. [S.l.]: Springer-Verlag. ISBN 3-540-60582-7
↑ Frigo, M.; Leiserson, C. E.; Prokop, H.; Ramachandran, S. (1999). Cache-oblivious algorithms (PDF). Proc. IEEE Symp. on Foundations of Computer Science (FOCS). pp. 285–297
↑ Higham, Nicholas J. (1990). «Exploiting fast matrix multiplication within the level 3 BLAS» (PDF). ACM Transactions on Mathematical Software. 16 (4): 352–368. doi:10.1145/98267.98290. hdl:1813/6900

Bibliografia

Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest, e Clifford Stein. Introduction to Algorithms, Segunda Edição. MIT Press e McGraw-Hill, 2001. ISBN 0-262-03293-7. Capítulo 28: Seção 28.2: Strassen's algorithm for matrix multiplication, pp. 735–741.
Knuth, Donald (1997). The Art of Computer Programming, Seminumerical Algorithms. II 3rd ed. [S.l.]: Addison-Wesley. ISBN 0-201-89684-2

Ligações externas

Weisstein, Eric W. «Strassen's Formulas». MathWorld (em inglês) (também inclui fórmulas para inversão de matriz rápida)
Tyler J. Earnest, Strassen's Algorithm on the Cell Broadband Engine

[1] Strassen, Volker (1969). «Gaussian Elimination is not Optimal». Numer. Math. 13 (4): 354–356. doi:10.1007/BF02165411

[2] Skiena, Steven S. (1998). «§8.2.3 Matrix multiplication». The Algorithm Design Manual. Berlim, Nova Iorque: Springer-Verlag. ISBN 978-0-387-94860-7

[dalberto-3] 1 2 D'Alberto, Paolo; Nicolau, Alexandru (2005). Using Recursion to Boost ATLAS's Performance (PDF). Sixth Int'l Symp. on High Performance Computing

[huang_et_al.-4] 1 2 Huang, Jianyu; Smith, Tyler M.; Henry, Greg M.; van de Geijn, Robert A. (13 de novembro de 2016). Strassen's Algorithm Reloaded. SC16: The International Conference for High Performance Computing, Networking, Storage and Analysis. IEEE Press. pp. 690–701. ISBN 9781467388153. doi:10.1109/SC.2016.58. Consultado em 1 de novembro de 2022

[5] Winograd, S. (Outubro de 1971). «On multiplication of 2 × 2 matrices». Linear Algebra and Its Applications (em inglês). 4 (4): 381–388. doi:10.1016/0024-3795(71)90009-7

[FOOTNOTEKnuth1997500-6] Knuth (1997), p. 500.

[7] Karstadt, Elaye; Schwartz, Oded (24 de julho de 2017). Matrix Multiplication, a Little Faster. Proceedings of the 29th ACM Symposium on Parallelism in Algorithms and Architectures. pp. 101–110. ISBN 978-1-4503-4593-4. doi:10.1145/3087556.3087579

[8] Schwartz, Oded; Vaknin, Noa (31 de dezembro de 2023). «Pebbling Game and Alternative Basis for High Performance Matrix Multiplication». SIAM Journal on Scientific Computing (em inglês). 45 (6): C277–C303. Bibcode:2023SJSC...45C.277S. ISSN 1064-8275. doi:10.1137/22M1502719

[9] Webb, Miller (1975). «Computational complexity and numerical stability». SIAM J. Comput. 4 (2): 97–107. doi:10.1137/0204009

[10] Burgisser; Clausen; Shokrollahi (1997). Algebraic Complexity Theory. [S.l.]: Springer-Verlag. ISBN 3-540-60582-7

[prokop-11] Frigo, M.; Leiserson, C. E.; Prokop, H.; Ramachandran, S. (1999). Cache-oblivious algorithms (PDF). Proc. IEEE Symp. on Foundations of Computer Science (FOCS). pp. 285–297

[12] Higham, Nicholas J. (1990). «Exploiting fast matrix multiplication within the level 3 BLAS» (PDF). ACM Transactions on Mathematical Software. 16 (4): 352–368. doi:10.1145/98267.98290. hdl:1813/6900

[1]