En matemática una matriz es un conjunto bidimensional de números Dado que puede definirse tanto la suma como el producto

En matemática, una matriz es un conjunto bidimensional de números. Dado que puede definirse tanto la suma como el producto de matrices, en mayor generalidad se dice que son elementos de un anillo. Una matriz se representa por medio de una letra mayúscula y sus elementos con la misma letra en minúscula con un doble subíndice donde el primero indica la fila y el segundo la columna a la que pertenece:

$A={\begin{pmatrix}a_{11}&a_{12}&\cdots &a_{1n}\\a_{21}&a_{22}&\cdots &a_{2n}\\\vdots &\vdots &\ddots &\vdots \\a_{m1}&a_{m2}&\cdots &a_{mn}\\\end{pmatrix}}_{m\times n}$

Los elementos individuales de una matriz $m$ x $n$ , se denotan a menudo por $a_{ij}$ , donde el máximo valor de $i$ es $m$ , y el máximo valor de $j$ es $n$ . Siempre que la matriz tenga el mismo número de filas y de columnas que otra matriz, estas se pueden sumar o restar elemento por elemento.

Pueden sumarse, multiplicarse y descomponerse de varias formas, lo que también las hace un concepto clave en el campo del álgebra lineal.

Historia

**Cronología**^[1]
Año	Acontecimiento
200 a. C.	En China los matemáticos usan series de números.
1848	J. J. Sylvester introduce el término «matriz».
1858	Cayley publica Memorias sobre la teoría de matrices.
1878	Frobenius demuestra resultados fundamentales en álgebra matricial.
1925	Heisenberg utiliza la teoría matricial en la mecánica cuántica

El origen de las matrices es muy antiguo. Los cuadrados latinos y los cuadrados mágicos se estudiaron desde hace mucho tiempo. Un cuadrado mágico, 3 por 3, se registra en la literatura china hacia el 650 a. C.^[2]

Es larga la historia del uso de las matrices para resolver ecuaciones lineales. Un importante texto matemático chino que proviene del año 300 a. C. a 200 a. C., Nueve capítulos sobre el Arte de las matemáticas (Jiu Zhang Suan Shu), es el primer ejemplo conocido de uso del método de matrices para resolver un sistema de ecuaciones simultáneas.^[3] En el capítulo séptimo, "Ni mucho ni poco", el concepto de determinante apareció por primera vez, dos mil años antes de su publicación por el matemático japonés Seki Kōwa en 1683 y el matemático alemán Gottfried Leibniz en 1693.

Los «cuadrados mágicos» eran conocidos por los matemáticos árabes, posiblemente desde comienzos del s. VII d. C., quienes a su vez pudieron tomarlos de los matemáticos y astrónomos de la India, junto con otros aspectos de la matemática combinatoria. Todo esto sugiere que la idea provino de China. Los primeros «cuadrados mágicos» de orden 5 y 6 aparecieron en Bagdad en el año 983, en la Enciclopedia de la Hermandad de Pureza (Rasa'il Ihkwan al-Safa).^[2]

Después del desarrollo de la teoría de determinantes por Seki Kowa y Leibniz para facilitar la resolución de ecuaciones lineales, a finales del siglo XVII, Gabriel Cramer presentó en 1750 la ahora denominada regla de Cramer. Carl Friedrich Gauss y Wilhelm Jordan desarrollaron la eliminación de Gauss-Jordan en el siglo XIX

Fue James Joseph Sylvester quien utilizó por primera vez el término «matriz» en 1848/1850.

En 1853, William Rowan Hamilton hizo algunos aportes a la teoría de matrices. Cayley introdujo en 1858 la notación matricial, como forma abreviada de escribir un sistema de m ecuaciones lineales con n incógnitas.

Cayley, Hamilton, Hermann Grassmann, Ferdinand Georg Frobenius, Olga Taussky-Todd y John von Neumann cuentan entre los matemáticos famosos que trabajaron sobre la teoría de las matrices. En 1925, Werner Heisenberg redescubre el cálculo matricial fundando una primera formulación de lo que iba a pasar a ser la mecánica cuántica. Se le considera a este respecto como uno de los padres de la mecánica cuántica.

Olga Taussky-Todd (1906-1995), durante la II Guerra Mundial, usó la teoría de matrices para investigar el fenómeno de inestabilidad aeroelastica llamado flameo.

Definición

Una matriz es un conjunto bidimensional de números (elementos de la matriz) ordenados en filas y columnas. A una matriz con $m$ filas y $n$ columnas se le denomina «matriz $m$ por $n$ » (escrito $m\times n$ ) donde $m,n\in \mathbb {N}$ . El conjunto de las matrices de tamaño $m\times n$ se representa como ${\mathcal {M}}_{m\times n}(\mathbb {K} )$ , donde $\mathbb {K}$ es el cuerpo al cual pertenecen los elementos de la matriz.

Se dice que dos matrices son iguales si tienen el mismo tamaño (dimensión u orden) y los mismos elementos en las mismas posiciones. El elemento de una matriz que se encuentra en la fila $i-\,\!$ ésima y la columna $j-\,\!$ ésima se le llama elemento $i,j\,\!$ o elemento $(i,j)\,\!$ -ésimo de la matriz.

Dos matrices $A,B\in {\mathcal {M}}_{m\times n}(\mathbb {K} )$ son iguales si los elementos correspondientes son iguales:

$a_{ij}=b_{ij},1\leq i\leq m,1\leq j\leq n$ .

Para definir el concepto de matriz, el término "conjunto bidimensional" es útil, aunque poco formal, pero puede formalizarse usando el concepto de función. De este modo, una matriz de $m$ filas y $n$ columnas con entradas en un cuerpo $\mathbb {K}$ es una función cuyo dominio es el conjunto de los pares ordenados $(i,j)\,\!$ , donde $1\leq i\leq m$ y $1\leq j\leq n$ , y cuyo codominio es $\mathbb {K}$ . Con esta definición, la entrada $i,j\,\!$ es el valor de la función en el par ordenado $(i,j)\,\!$ .

Se denota a las matrices con letra mayúscula, mientras que se utiliza la correspondiente letra en minúsculas para denotar a las entradas de las mismas, con subíndices que refieren al número de fila y columna del elemento.^[4] Por ejemplo, al elemento de una matriz $A$ de tamaño $m\times n$ que se encuentra en la fila $i-\,\!$ ésima y la columna $j-\,\!$ ésima se le denota como $a_{ij}\,\!$ , donde $1\leq i\leq m$ y $1\leq j\leq n$ .

Cuando se va a representar explícitamente una entrada la cual está indexada con un $i\,\!$ o un $j\,\!$ con dos cifras se introduce una coma entre el índice de filas y de columnas. Así por ejemplo, la entrada que está en la primera fila y la segunda columna de la matriz $A\,\!$ de tamaño $50\times 100$ se representa como $a_{1,2}\,\!$ mientras que la entrada que está en la fila número 23 y la columna 100 se representa como $a_{23,100}\,\!$ .

Además de utilizar letras mayúsculas para representar matrices, numerosos autores representan a las matrices con fuentes en negrita para distinguirlas de otros objetos matemáticos.^{[cita requerida]} Así $\mathbf {A}$ es una matriz, mientras que $A\,\!$ es un escalar en esa notación. Sin embargo esta notación generalmente se deja para libros y publicaciones, donde es posible hacer esta distinción tipográfica con facilidad. En otras notaciones se considera que el contexto es lo suficientemente claro como para no usar negritas.

Otra notación, en sí un abuso de notación, representa a la matriz por sus entradas, i.e. $A:=(a_{ij})\,\!$ o incluso $A:=a_{ij}\,\!$ .

Como caso particular de matriz, se definen los vectores fila y los vectores columna. Un vector fila o vector renglón es cualquier matriz de tamaño $1\times n$ mientras que un vector columna es cualquier matriz de tamaño $m\times 1$ .

A las matrices que tienen el mismo número de filas que de columnas, se les llama matrices cuadradas y el conjunto se denota ${\mathcal {M}}_{n}(\mathbb {R} )$

Ejemplo

Dada la matriz $A\in {\mathcal {M}}_{4\times 3}(\mathbb {K} )$

A={\begin{pmatrix}1&2&3\\1&2&7\\4&9&2\\6&0&5\\\end{pmatrix}}

es una matriz de tamaño $4\times 3$ . La entrada $a_{23}\,\!$ es 7.

La matriz $R\in {\mathcal {M}}_{1\times 9}(\mathbb {K} )$

R={\begin{bmatrix}1&2&3&4&5&6&7&8&9\end{bmatrix}}

es una matriz de tamaño $1\times 9$ : un vector fila con 9 entradas.

Operaciones básicas entre matrices

Las operaciones que se pueden hacer con matrices provienen de sus aplicaciones, sobre todo de las aplicaciones en álgebra lineal. De ese modo las operaciones, o su forma muy particular de ser implementadas, no son únicas.

Suma o adición

Sean $A,B\in {\mathcal {M}}_{n\times m}(\mathbb {K} )$

${\begin{pmatrix}2&2&1\\3&2&1\\2&3&2\\2&0&4\end{pmatrix}}\quad +\quad {\begin{pmatrix}0&1&4\\1&4&0\\2&1&1\\0&2&2\end{pmatrix}}\quad =\quad {\begin{pmatrix}2&3&5\\4&6&1\\4&4&3\\2&2&6\end{pmatrix}}$

. Se define la operación de suma o adición de matrices como una operación binaria $+:{\mathcal {M}}_{m\times n}(\mathbb {K} )\times {\mathcal {M}}_{m\times n}(\mathbb {K} )\longrightarrow {\mathcal {M}}_{m\times n}(\mathbb {K} )$ tal que $(A,B)\mapsto C=A+B$ y donde $c_{ij}=a_{ij}+b_{ij}\,\!$ en el que la operación de suma en la última expresión es la operación binaria correspondiente pero en el cuerpo $\mathbb {K}$ . Por ejemplo, la entrada $c_{12}\,\!$ es igual a la suma de los elementos $a_{12}\,\!$ y $b_{12}\,\!$ lo cual es $a_{12}+b_{12}\,\!$ .

Veamos un ejemplo más explícito. Sea $A,B\in {\mathcal {M}}_{3}(\mathbb {R} )$

{\begin{pmatrix}1&3&2\\1&0&0\\1&2&2\end{pmatrix}}+{\begin{pmatrix}1&0&5\\7&5&0\\2&1&1\end{pmatrix}}={\begin{pmatrix}1+1&3+0&2+5\\1+7&0+5&0+0\\1+2&2+1&2+1\end{pmatrix}}={\begin{pmatrix}2&3&7\\8&5&0\\3&3&3\end{pmatrix}}

No es necesario que las matrices sean cuadradas:

A la luz de estos ejemplos es inmediato ver que dos matrices se pueden sumar solamente si ambas tienen el mismo tamaño. La suma de matrices, en el caso de que las entradas estén en un cuerpo, poseen las propiedades de asociatividad, conmutatividad, existencia de elemento neutro aditivo y existencia de inverso aditivo. Esto es así ya que estas son propiedades de los cuerpos en los que están las entradas de la matriz.

Propiedades de la suma de matrices

Sean $A,B,C\in {\mathcal {M}}_{n\times m}(\mathbb {K} )$ , donde $\mathbb {K}$ es un cuerpo entonces se cumplen las siguientes propiedades para la operación binaria $+$ . Todas las demostraciones que siguen se basan en la siguiente observación: dos matrices son iguales si y sólo si tienen los mismos elementos en las mismas posiciones, es decir, si y sólo si para cada par $(i,j)$ , la entrada $(i,j)$ de la primera matriz es igual a la entrada $(i,j)$ de la segunda. Por ello en las demostraciones se fija un par $(i,j)$ arbitrario y se comprueba que las correspondientes entradas de las matrices izquierda y derecha de la igualdad son iguales. Esto permite concluir, por lo anterior, que las matrices son iguales.

Asociatividad

(A+B)+C=A+(B+C)\,\!

Demostración
Dada la definición de la operación binaria $+\,\!$ se sigue el resultado ya que $(a_{ij}+b_{ij})+c_{ij}=a_{ij}+(b_{ij}+c_{ij})\,\!$ debido a que $a_{ij},b_{ij},c_{ij}\in \mathbb {K}$ para todo $i,j\,\!$ (pues $\mathbb {K}$ es un cuerpo).

Conmutatividad

(A+B)=(B+A)\,\!

Demostración
Dada la definición de la operación binaria $+\,\!$ se sigue el resultado ya que $a_{ij}+b_{ij}=b_{ij}+a_{ij}\,\!$ debido a que $a_{ij},b_{ij}\in \mathbb {K}$ para todo $i,j\,\!$ (pues $\mathbb {K}$ es un cuerpo).

Existencia del elemento neutro aditivo

Existe $0\in {\mathcal {M}}_{n\times m}(\mathbb {K} )$ tal que

A+0=0+A=A\,\!

Demostración
Tómese $0\in {\mathcal {M}}_{n\times m}(\mathbb {K} )$ tal que $0_{ij}=0_{\mathbb {K} }\in \mathbb {K}$ para cualquier $i,j\,\!$ (donde este último es el elemento neutro aditivo en el cuerpo, el cual existe necesariamente por definición de cuerpo). Entonces para cualquier $A\in {\mathcal {M}}_{n\times m}(\mathbb {K} )$ se sigue que $A+0=A\,\!$ ya que $a_{ij}+0_{ij}=a_{ij}+0_{\mathbb {K} }=a_{ij}$ para cualquier $i,j\,\!$ , dado que las entradas están en un cuerpo.

Existencia del inverso aditivo

Existe $D\in {\mathcal {M}}_{n\times m}(\mathbb {K} )$ tal que

A+D=0\,\!

a esta matriz $D\,\!$ se le denota por $-A\,\!$ .

Demostración
Dada $A\in {\mathcal {M}}_{n\times m}(\mathbb {K} )$ , vamos a construir $D\in {\mathcal {M}}_{n\times m}(\mathbb {K} )$ tal que $A+D=0\,\!$ . Queremos pues que $a_{ij}+d_{ij}=0_{ij}=0_{\mathbb {K} }$ ; luego, por las propiedades de cuerpo, necesariamente $d_{ij}=-a_{ij}\,\!$ donde $-a_{ij}\,\!$ es el inverso aditivo de $a_{ij}\,\!$ en el cuerpo para cualquier $i,j\,\!$ . Es decir, podemos construir la inversa aditiva de $A$ como la matriz $D$ con entradas $d_{ij}=-a_{ij}$ .

En efecto, estas propiedades dependen del conjunto en el que estén las entradas, como se ha dicho antes, aunque en las aplicaciones generalmente los cuerpos usados son $\mathbb {R}$ (los números reales) y $\mathbb {C}$ (los números complejos).

Por como se definió la operación binaria adición se dice que esta operación es una operación interna por lo que se cumple intrínsecamente la propiedad de que ${\mathcal {M}}_{n\times m}(\mathbb {K} )$ es cerrado bajo adición. Con éstas propiedades se tiene que $({\mathcal {M}}_{n\times m}(\mathbb {K} ),+)$ es un grupo abeliano.

En el caso en que el conjunto al que pertenecen las entradas de la matriz sea un anillo $(A,+_{A},\cdot _{A})$ , la operación de adición de matrices continúa dotando de estructura de grupo abeliano a $({\mathcal {M}}_{n\times m}(A),+)$ , ya que bajo un anillo $(A,+_{A},\cdot _{A})$ se tiene que $(A,+_{A})\,\!$ es un grupo abeliano. En el caso de que las entradas estén en un grupo $(G,+_{G})\,\!$ , este necesita ser un grupo abeliano para que la adición de matrices siga dotando de estructura de grupo abeliano a $({\mathcal {M}}_{n\times m}(G),+)$ .

Producto por un escalar

Sean $A\in {\mathcal {M}}_{n\times m}(\mathbb {K} )$ y $\lambda \in \mathbb {K}$ . Se define la operación de producto por un escalar como una función $\mathbb {K} \times {\mathcal {M}}_{n\times m}(\mathbb {K} )\longrightarrow {\mathcal {M}}_{n\times m}(\mathbb {K} )$ tal que $(\lambda ,A)\mapsto B=\lambda A$ y donde $b_{ij}=\lambda a_{ij}\,\!$ en donde el producto es la operación binaria correspondiente pero en el cuerpo $\mathbb {K}$ . Por ejemplo, la entrada $b_{12}\,\!$ es igual al producto $\lambda a_{12}\,\!$ .

Veamos un ejemplo más explícito. Sea $A\in {\mathcal {M}}_{2\times 3}(\mathbb {R} )$ y $2\in \mathbb {R}$

2{\begin{pmatrix}1&\,\,\ \,8&-3\\4&-2&\,\,\,6\end{pmatrix}}={\begin{pmatrix}2(1)&\,\,\,\,2(8)&2(-3)\\2(4)&2(-2)&\,\,\,\,2(6)\end{pmatrix}}={\begin{pmatrix}2&\,16&-6\\8&-4&\,12\end{pmatrix}}

También es inmediato observar que el producto por un escalar da como resultado una matriz del mismo tamaño que la original. También el producto por un escalar dependerá de la estructura algebraica en la que las entradas están. En el caso de que estén en un cuerpo serán dos distributividades (una respecto de suma de matrices y otra respecto de suma en el cuerpo), asociatividad y una propiedad concerniente al producto por el elemento neutro multiplicativo del cuerpo. A continuación se presentan las propiedades.

Propiedades del producto por un escalar

Sean $A,B\in {\mathcal {M}}_{n\times m}(\mathbb {K} )$ y $\lambda ,\mu \in \mathbb {K}$ , donde $\mathbb {K}$ es un cuerpo, entonces se cumplen las siguientes propiedades para la operación producto por un escalar. Como antes, las demostraciones se basan en que dos matrices son iguales si y sólo si tienen los mismos elementos en las mismas posiciones.

Asociatividad

(\lambda \mu )A=\lambda (\mu A)\,\!

Demostración
Dada la definición de la operación se sigue el resultado ya que $(\lambda \mu )a_{ij}=\lambda (\mu a_{ij})\,\!$ debido a que $\lambda ,\mu \in \mathbb {K}$ y $a_{ij}\in \mathbb {K}$ para todo $i,j\,\!$ y $\mathbb {K}$ es un cuerpo.

Distributividad respecto de la suma de matrices

\lambda (A+B)=\lambda A+\lambda B\,\!

Demostración
Dada la definición de la operación se sigue el resultado ya que $\lambda (a_{ij}+b_{ij})=\lambda a_{ij}+\lambda b_{ij}\,\!$ debido a que $\lambda \in \mathbb {K}$ y $a_{ij},b_{ij}\in \mathbb {K}$ para todo $i,j\,\!$ (pues $\mathbb {K}$ es un cuerpo).

Distributividad respecto de la suma en el cuerpo

(\lambda +\mu )A=\lambda A+\mu A\,\!

Demostración
Dada la definición de la operación se sigue el resultado ya que $(\lambda +\mu )a_{ij}=\lambda a_{ij}+\mu a_{ij}\,\!$ debido a que $\lambda ,\mu \in \mathbb {K}$ y $a_{ij}\in \mathbb {K}$ para todo $i,j\,\!$ (pues $\mathbb {K}$ es un cuerpo).

Producto por el neutro multiplicativo del cuerpo

1_{\mathbb {K} }A=A\,\!

Demostración
Dada la definición de la operación se sigue el resultado ya que $1_{\mathbb {K} }(a_{ij})=a_{ij}$ debido a que $a_{ij}\in \mathbb {K}$ para todo $i,j\,\!$ y $\mathbb {K}$ es un cuerpo.

Como el producto de una matriz de ${\mathcal {M}}_{n\times m}(\mathbb {K} )$ por un escalar cualquiera en $\mathbb {K}$ vuelve a ser una matriz de ${\mathcal {M}}_{n\times m}(\mathbb {K} )$ (por la definición que se ha dado y porque $\mathbb {K}$ es cerrado para el producto al ser un cuerpo), se dice que ${\mathcal {M}}_{n\times m}(\mathbb {K} )$ es cerrado bajo producto por escalares. Por estas propiedades y las de la adición se tiene que ${\mathcal {M}}_{n\times m}(\mathbb {K} )$ es por definición un espacio vectorial con las operaciones de suma y producto por escalares definidas antes.

En el caso de que las entradas y los escalares no estén en un cuerpo sino en un anillo entonces no necesariamente existe el neutro multiplicativo. En caso de que exista, con lo cual el anillo es un anillo con uno, se dice que ${\mathcal {M}}_{n\times m}(A)$ es un módulo sobre $A\,\!$ .

Ahora, a partir de las propiedades básicas se puede demostrar inmediatamente que:

$\lambda 0=0\,\!$

Demostración
Dada la definición de la operación se sigue el resultado ya que $c_{ij}=\lambda (0_{ij})=\lambda (0_{\mathbb {K} })=0_{\mathbb {K} }$ para todo $i,j\,\!$

$0_{\mathbb {K} }A=0$

Demostración
Dada la definición de la operación se sigue el resultado ya que $c_{ij}=0_{\mathbb {K} }(a_{ij})=0_{\mathbb {K} }$ para todo $i,j\,\!$ debido a que $a_{ij}\in \mathbb {K}$ para todo $i,j\,\!$ .

$\lambda A=0\longrightarrow \lambda =0_{\mathbb {K} }{\text{ o }}A=0$

Demostración
Dada la definición de la operación se sigue el resultado ya que como en un cuerpo no hay divisores de cero entonces $\lambda (a_{ij})=0_{\mathbb {K} }$ para todo $i,j\,\!$ implica que $\lambda =0_{\mathbb {K} }$ o $a_{ij}=0_{\mathbb {K} }$ para todo $i,j\,\!$ , i.e. $A=0\,\!$ . No es posible un caso en el que sólo algunas entradas de la matriz sean cero y el escalar sea no nulo ya que en esos casos estaríamos diciendo que hay divisores de cero y llegaríamos a una contradicción, ya que la suposición es que las entradas y los escalares están en un cuerpo.

$(-\lambda )A=\lambda (-A)\,\!$

Demostración
Dada la definición de la operación se sigue el resultado ya que $(-\lambda )(a_{ij})=(-1_{\mathbb {K} }(\lambda ))a_{ij}=(\lambda (-1_{\mathbb {K} }))a_{ij}=\lambda (-1_{\mathbb {K} }(a_{ij}))=\lambda (-a_{ij})$ debido a que $a_{ij}\in \mathbb {K}$ para todo $i,j\,\!$ .

Este último resultado permite usar la notación $-\lambda A\,\!$ sin riesgo de ambigüedad.

Producto de matrices

Diagrama esquemático que ilustra el producto de dos matrices $A\,\!$ y $B\,\!$ dando como resultado la matriz $AB\,\!$ .

Artículo principal: Multiplicación de matrices

Artículo principal: Aplicación lineal

El producto de matrices se define de una manera muy peculiar y hasta caprichosa cuando no se conoce su origen. El origen proviene del papel de las matrices como representaciones de aplicaciones lineales. Así, la definición del producto de matrices proviene de la composición de aplicaciones lineales. En este contexto, el tamaño de la matriz se corresponde con las dimensiones de los espacios vectoriales entre los cuales se establece la aplicación lineal. De ese modo, el producto de matrices representa la composición de aplicaciones lineales.

Producto de matrices por vectores

Conviene primero estudiar el caso del producto de una matriz y un vector. Para ello, sean $V,W$ dos espacios vectoriales y fijemos bases $v=(v_{1},\dots ,v_{m})$ y $w=(w_{1},\dots ,w_{n})$ para cada uno de ellos. Tomemos ahora una aplicación lineal $f\colon V\rightarrow W$ y calculemos las imágenes de los vectores de la primera base: $f(v_{j}),\ j=1,\dots ,m$ . Podemos ahora expresar estas imágenes en base $w$ , y obtener que $f(v_{j})=a_{1j}w_{1}+\dots +a_{nj}w_{n}$ para cada $j=1,\dots ,m$ . Si ahora tomamos un vector $x\in V$ cualquiera, con lo anterior ya podemos calcular su imagen (usando la linealidad). En efecto, calculamos sus coordenadas en base $v$ , $x=x_{1}v_{1}+\dots +x_{n}v_{m}$ , y tenemos por linealidad que $f(x)=f(x_{1}v_{1}+\dots +x_{m}v_{m})=x_{1}f(v_{1})+\dots +x_{m}f(v_{m})=x_{1}(a_{11}w_{1}+\dots +a_{n1}w_{n})+\dots +x_{m}(a_{1m}w_{1}+\dots +a_{nm}w_{n})=$

$\quad \quad =(x_{1}a_{11}+\dots +x_{m}a_{1m})w_{1}+\dots +(x_{1}a_{n1}+\dots +x_{m}a_{nm})w_{n}$ .

Nótese que si denotamos por $X$ el vector de coordenadas de $x$ en base $v$ , el vector de coordenadas de su imagen $f(x)$ en base $w$ es lo que se suele definir como el producto de una matriz y un vector $AX$ , con $A=(a_{ij})$ . Es decir, la definición de producto de matriz por vector viene de cómo se transforman las coordenadas de vectores por aplicaciones lineales: dada una aplicación lineal y bases de los espacios de salida y llegada, podemos construir una matriz (los coeficientes $a_{ij}$ ) de forma que podemos calcular las coordenadas de la imagen de un vector a partir de las del original como $f(X)=AX$ . Se dice en este caso que la matriz $A$ representa la aplicación lineal $f$ .

Por todo esto es por lo que se define el producto de una matriz $A\in {\mathcal {M}}_{n\times m}(\mathbb {K} )$ y un vector $X$ de $m$ componentes como el vector $Y:=AX$ de componentes $y_{i}=\sum _{k=1}^{m}a_{ik}x_{k}$ . Al calcular este producto, de hecho, estamos calculando la imagen de un vector por una aplicación lineal.

Producto de matrices por matrices

Veamos cómo se justifica entonces la definición de producto de matrices por matrices. Si tenemos dos aplicaciones lineales $f:V\longrightarrow W$ y $g:W\longrightarrow U$ y fijamos bases de $V,W,U$ , entonces existen unas matrices $A,B$ tales que podemos calcular las componentes de las imágenes de vectores como $f(X)=BX\,\!$ y $g(Y)=AY\,\!$ . Si consideramos la composición $g\circ f:V\longrightarrow U$ (que vuelve a ser lineal), podremos calcular $g\circ f(X)=g(f(X))=g(BX)=A(BX)$ . Querríamos escribir ahora (definiendo convenientemente el producto de matrices) que esto es igual a $(AB)X$ , y esto es lo que vamos a hacer. Calculemos primero los dos productos matriz por vector $BX$ y $A(BX)$ . Es decir, si escribimos $Y=BX$ y $Z=AY=A(BX)$ , tenemos que

$y_{k}=\sum _{j=1}^{p}b_{kj}x_{j}$

$z_{i}=\sum _{k=1}^{m}a_{ik}y_{k}=\sum _{k=1}^{m}a_{ik}\sum _{j=1}^{p}b_{kj}x_{j}=\sum _{j=1}^{p}\left(\sum _{k=1}^{m}a_{ik}b_{kj}\right)x_{j}$

Por tanto (por definición de producto de matriz por vector), tenemos que $Z=CX$ para una matriz $C$ con entradas $c_{ij}=\sum _{k=1}^{m}a_{ik}b_{kj}$ . Pero $Z=A(BX)$ por lo que si queremos escribir $A(BX)=(AB)X$ tendremos que definir $AB=C$ , y esta es la definición usual de producto de matrices. Intuitivamente, lo que hemos hecho ha sido definir la matriz producto $AB$ como aquella que, al multiplicarla por vectores, tiene el mismo efecto que multiplicar primero $B$ y después $A$ (nótese que $A$ y $B$ tienen en esta definición papeles distintos, por lo que ya se puede intuir que puede fallar la conmutatividad).

Obsérvese también que para definir el producto de matrices hemos usado la composición de dos funciones, y esta no se puede dar entre cualquier par de aplicaciones sino entre aplicaciones que vayan de $V\rightarrow W\rightarrow U\,\!$ (en general, que la segunda salga del espacio a donde llegó la primera); en particular, debe haber una relación entre las dimensiones de los espacios vectoriales: el espacio de llegada de la primera aplicación debe tener la misma dimensión que el de salida de la segunda. Esto se traduce en las matrices en que sólo se pueden multiplicar aquellas tales que el número de columnas de la primera sea igual al número de filas de la segunda. Una vez dicho esto podemos definir el producto de la siguiente manera.

Sean $A\in {\mathcal {M}}_{n\times m}(\mathbb {K} )$ y $B\in {\mathcal {M}}_{m\times p}(\mathbb {K} )$ . Se define el producto de matrices como una función ${\mathcal {M}}_{n\times m}(\mathbb {K} )\times {\mathcal {M}}_{m\times p}(\mathbb {K} )\longrightarrow {\mathcal {M}}_{n\times p}(\mathbb {K} )$ tal que $(A,B)\mapsto C=AB$ y donde $c_{ij}=\sum _{k=1}^{m}a_{ik}b_{kj}$ para toda $i,j\,\!$ , es decir $c_{ij}=a_{i1}b_{1j}+a_{i2}b_{2j}+a_{i3}b_{3j}+\dots +a_{im}b_{mj}\,\!$ . Por ejemplo, podemos calcular $c_{12}=a_{11}b_{12}+a_{12}b_{22}+a_{13}b_{32}+\dots +a_{1m}b_{m2}$ .

Veamos un ejemplo más explícito. Sean $A\in {\mathcal {M}}_{2\times 3}(\mathbb {R} )$ y $B\in {\mathcal {M}}_{3\times 2}(\mathbb {R} )$

{\begin{pmatrix}\,\,\ \,1&0&2\\-1&3&1\end{pmatrix}}{\begin{pmatrix}3&1\\2&1\\1&0\end{pmatrix}}={\begin{pmatrix}\,\,\,\,1(3)+0(2)+2(1)&\,\,\,\,1(1)+0(1)+2(0)\\-1(3)+3(2)+1(1)&-1(1)+3(1)+1(0)\\\end{pmatrix}}={\begin{pmatrix}5&1\\4&2\\\end{pmatrix}}

donde la matriz producto es como habíamos establecido en la definición: una matriz $C\in {\mathcal {M}}_{2\times 2}(\mathbb {R} )$ .

Sin tomar en cuenta la motivación que viene desde las aplicaciones lineales, es evidente ver que si ignoramos la definición de la función de producto de matrices y sólo se toma en cuenta la definición de las entradas, el producto no estará bien definido, ya que si $A\,\!$ no tiene el mismo número de columnas que $B\,\!$ de filas entonces no podremos establecer en donde acaba la suma: si la acabamos en el mayor de éstos números habrá sumandos que no están definidos ya que una de las matrices no tendrá más entradas, mientras que si tomamos el menor habrá entradas de alguna de las matrices que no se tomen en cuenta. Así es necesario que $A\,\!$ tenga el mismo número de columnas que $B\,\!$ de filas para que $AB\,\!$ esté definida.

Como se puede suponer también, las propiedades de esta operación serán más limitadas en la generalidad ya que además de las limitaciones impuestas por la naturaleza de las entradas está esta limitación respecto a tamaño. Es claro, además, que el producto de matrices no siempre es una operación interna.

El producto de las matrices A x B también puede realizarse sumando el producto de cada columna de A por la correspondiente fila de B y expresarse utilizando el convenio de suma de Einstein. La enésima columna del producto de las matrices A x B es combinación lineal de las columnas de A siendo cada escalar en dicha combinación el elemento correspondiente de la enésima columna de B. La enésima fila del producto de las matrices A x B es combinación lineal de las filas de B siendo cada escalar en dicha combinación el elemento correspondiente de la enésima fila de A.

Propiedades del producto de matrices

Sean $A,B,C\,\!$ matrices con entradas en $\mathbb {K}$ , donde $\mathbb {K}$ es un cuerpo, entonces se cumplen las siguientes propiedades para el producto de matrices (considerando que los productos existan)

Asociatividad

A(BC)=(AB)C\,\!

Demostración
Dada la definición de la operación se sigue el resultado ya que, si $A(BC)=AH=R\,\!$ , $r_{ij}=\sum _{k=1}^{m}a_{ik}h_{kj}\,\!$ y $h_{ij}=\sum _{\ell =1}^{p}b_{i\ell }c_{\ell j}\,\!$ por lo que $r_{ij}=\sum _{k=1}^{m}a_{ik}\sum _{\ell =1}^{p}b_{k\ell }c_{\ell j}=\sum _{\ell =1}^{p}\sum _{k=1}^{m}a_{ik}b_{k\ell }c_{\ell j}=\sum _{\ell =1}^{p}s_{i\ell }c_{\ell j}=t_{ij}\,\!$ donde $(AB)C=SC=T\,\!$ debido a que $a_{ij},b_{ij},c_{ij}\in \mathbb {K}$ para todo $i,j\,\!$ . Aquí estamos considerando que $A\,\!$ es $n\times m$ , $B\,\!$ es $m\times p$ y $C\,\!$ es $p\times q$ .

Distributividad respecto de la suma de matrices por la derecha

(A+B)C=AC+BC\,\!

Demostración
Dada la definición de la operación se sigue el resultado ya que $\sum _{k=1}^{m}(a_{ik}+b_{ik})c_{kj}=\sum _{k=1}^{m}a_{ik}c_{kj}+b_{ik}c_{kj}=\sum _{k=1}^{m}a_{ik}c_{kj}+\sum _{k=1}^{m}b_{ik}c_{kj}\,\!$ debido a que $a_{ij},b_{ij},c_{ij}\in \mathbb {K}$ para todo $i,j\,\!$ . Aquí estamos considerando que $A\,\!$ es $n\times m$ , $B\,\!$ es $n\times m$ y $C\,\!$ es $m\times p$ .

Distributividad respecto de la suma de matrices por la izquierda

A(B+C)=AB+AC\,\!

Demostración
Dada la definición de la operación se sigue el resultado ya que $\sum _{k=1}^{m}a_{ik}(b_{kj}+c_{kj})=\sum _{k=1}^{m}(a_{ik}b_{kj}+a_{ik}c_{kj})=\sum _{k=1}^{m}a_{ik}b_{kj}+\sum _{k=1}^{m}a_{ik}c_{kj}\,\!$ debido a que $a_{ij},b_{ij},c_{ij}\in \mathbb {K}$ para todo $i,j\,\!$ . Aquí estamos considerando que $A\,\!$ es $n\times m$ , $B\,\!$ es $m\times p$ y $C\,\!$ es $m\times p$ .

El producto de matrices no es conmutativo, si lo fuera la composición de funciones lineales sería conmutativa y eso en general no sucede. De hecho, aun existiendo $AB$ , el producto $BA$ puede no estar ni bien definido (pueden cuadrar las dimensiones para hacer un producto y no el otro; por ejemplo, en matrices $n\times m$ y $m\times p$ , $n\neq p$ ). Pero ni siquiera cuando existan ambas expresiones tienen por qué valer lo mismo. Por ejemplo, el producto del siguiente par de matrices no conmuta:

${\begin{pmatrix}0&&1\\0&&0\end{pmatrix}}{\begin{pmatrix}0&&0\\1&&0\end{pmatrix}}={\begin{pmatrix}1&&0\\0&&0\end{pmatrix}}$ pero ${\begin{pmatrix}0&&0\\1&&0\end{pmatrix}}{\begin{pmatrix}0&&1\\0&&0\end{pmatrix}}={\begin{pmatrix}0&&0\\0&&1\end{pmatrix}}$ .

Obviamente, existen casos particulares de algunos tipos de matrices en los que sí hay conmutatividad, pero con un solo contraejemplo, como el anterior, no podemos asegurar la propiedad en general.

En el caso particular del espacio ${\mathcal {M}}_{n}(\mathbb {K} )$ (matrices cuadradas $n\times n$ ) tendremos que el producto entre matrices en ${\mathcal {M}}_{n}(\mathbb {K} )$ también está en ${\mathcal {M}}_{n}(\mathbb {K} )$ . En ese caso ${\mathcal {M}}_{n}(\mathbb {K} )$ además de espacio vectorial es un álgebra sobre un cuerpo. En el caso de que el conjunto al que pertenecen las entradas sea un anillo conmutativo con unidad $A$ entonces ${\mathcal {M}}_{n}(A)$ además de módulo es un álgebra sobre un anillo. Más aún, $({\mathcal {M}}_{n}(\mathbb {K} ),+,\cdot )$ con $\cdot$ el producto de matrices es un anillo.

Otros conceptos relacionados con matrices

Rango de una matriz

Artículo principal: Rango de una matriz

El rango de una matriz $A\,\!$ es la dimensión de la imagen de la aplicación lineal representada por $A\,\!$ , que coincide con la dimensión de los espacios vectoriales generados por las filas o columnas de $A\,\!$ .

Matriz traspuesta

Artículo principal: Matriz traspuesta

La traspuesta de una matriz $A\in {\mathcal {M}}_{n\times m}(X)\,\!$ , donde $X\,\!$ no es necesariamente un cuerpo, es una matriz $B\in {\mathcal {M}}_{m\times n}(X)\,\!$ tal que $b_{ij}=a_{ji}\,\!$ . Por ejemplo la entrada $b_{12}=a_{21}\,\!$ .

Veamos un ejemplo más explícito. Sea $A\in {\mathcal {M}}_{2\times 3}(\mathbb {R} )$

{\begin{pmatrix}1&\,\,\ \,8&-3\\4&-2&\,\,\ 6\end{pmatrix}}_{2\times 3}

[1]

[2]

[3]

[4]