import numpy as np
eps = 0
p = 5
a = np.eye(p)
for i in range(p-1):
    a[i, i+1] = 1
    
a[p-1, 2] = eps

print(a)
val, vec = np.linalg.eig(a)
print(val)
print(vec)
print(np.linalg.norm(a - vec @ np.diag(val) @ np.linalg.inv(vec)))
print(vec.dot(val[:, np.newaxis] * np.linalg.inv(vec)))

[[1. 1. 0. 0. 0.]
 [0. 1. 1. 0. 0.]
 [0. 0. 1. 1. 0.]
 [0. 0. 0. 1. 1.]
 [0. 0. 0. 0. 1.]]
[1. 1. 1. 1. 1.]
[[ 1.00000000e+00 -1.00000000e+00  1.00000000e+00 -1.00000000e+00
   1.00000000e+00]
 [ 0.00000000e+00  2.22044605e-16 -2.22044605e-16  2.22044605e-16
  -2.22044605e-16]
 [ 0.00000000e+00  0.00000000e+00  4.93038066e-32 -4.93038066e-32
   4.93038066e-32]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00  1.09476443e-47
  -1.09476443e-47]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00  0.00000000e+00
   2.43086534e-63]]
2.0
[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


import numpy as np
eps = 1e-16
p = 5
a = np.eye(p)
for i in range(p-1):
    a[i, i+1] = 1
    
a[p-1, 0] = eps
a = np.array(a)
val, vec = np.linalg.eig(a)
print(np.linalg.norm(a - vec.dot(np.diag(val)).dot(np.linalg.inv(vec))))

fun = lambda x: np.exp(x)

#Using diagonalization
fun_diag = vec.dot(np.diag(fun(val))).dot(np.linalg.inv(vec))


#Using Schur
import scipy.linalg
fun_m = scipy.linalg.expm(a)
print('Difference = {}'.format(np.linalg.norm(fun_m - fun_diag)))

2.0
Difference = 5.959978842992802


import numpy as np

x = -30.0 #Point
k = 1000000 #Number of terms
b = 1.0
x0 = x
for i in range(1, k):
    b += x0
    x0 *= x/(i+1)
    
print('Error in the exponent: {}'.format((b - np.exp(x))/np.exp(x)))

Error in the exponent: 65220007.32064143


#Computing Pade approximant
import numpy as np
import mpmath
%matplotlib inline
from mpmath import pade, taylor, polyval
import matplotlib.pyplot as plt
x = np.linspace(-5, -1, 128)
a = taylor(mpmath.exp, 0, 20) #Taylor series
k1 = 10
k2 = 10
p, q = pade(a, k1, k2) #Pade approximant
#plt.plot(x, polyval(p[::-1], x)/polyval(q[::-1], x) - np.exp(x))
plt.semilogy(x, polyval(a[::-1], x) - np.exp(x))

_ = plt.title('Error of the Pade of order {0:d}/{1:d}'.format(k1, k2) )


import numpy as np

n = 1000
k = 100
m = 200
# Lowrank matrix
A = np.random.randn(n, k)
B = np.random.randn(k, m)
A = A @ B

# Random matrix
# A = np.random.randn(n, m)

def randomized_svd(A, rank, p):
    m, n = A.shape
    G = np.random.randn(n, rank + p)
    Y = A @ G
    Q, _ = np.linalg.qr(Y)
    B = Q.T @ A
    u, S, V = np.linalg.svd(B)
    U = Q @ u
    return U, S, V

rank = 70
p = 20
U, S, V = randomized_svd(A, rank, p)
print("Error from randomized SVD", np.linalg.norm(A - U[:, :rank] * S[None, :rank] @ V[:rank, :]))
plt.semilogy(S[:rank] / S[0], label="Random SVD")
u, s, v = np.linalg.svd(A)
print("Error from exact SVD", np.linalg.norm(A - u[:, :rank] * s[None, :rank] @ v[:rank, :]))
plt.semilogy(s[:rank] / s[0], label="Exact SVD")
plt.legend(fontsize=18)
plt.xticks(fontsize=16)
plt.yticks(fontsize=16)
plt.ylabel("$\sigma_i / \sigma_0$", fontsize=16)
_ = plt.xlabel("Index of singular value", fontsize=16)

Error from randomized SVD 1406.5506347825522
Error from exact SVD 1206.4459662873328


import scipy.sparse.linalg as spsplin
# !pip install fbpca
# More details about Facebook package for computing randomized SVD is here: https://research.fb.com/blog/2014/09/fast-randomized-svd/ 
import fbpca
n = 1000
m = 200
A = np.random.randn(n, m)
k = 10
p = 10
%timeit spsplin.svds(A, k=k)
%timeit randomized_svd(A, k, p)
%timeit fbpca.pca(A, k=k, raw=False)

9.47 ms ± 172 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
1.65 ms ± 57.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
1.36 ms ± 81 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


n = 1000
m = 200
A = np.random.randn(n, m)
s = np.linalg.svd(A, compute_uv=False)
Aq = A @ A.T @ A
sq = np.linalg.svd(Aq, compute_uv=False)
plt.semilogy(s / s[0], label="$A$")
plt.semilogy(sq / sq[0], label="$A^{(1)}$")
plt.legend(fontsize=18)
plt.xticks(fontsize=16)
plt.yticks(fontsize=16)
plt.ylabel("$\sigma_i / \sigma_0$", fontsize=16)
_ = plt.xlabel("Index of singular value", fontsize=16)


def more_accurate_randomized_svd(A, rank, p, q):
    m, n = A.shape
    G = np.random.randn(n, rank + p)
    Y = A @ G
    Q, _ = np.linalg.qr(Y)
    for i in range(q):
        W = A.T @ Q
        W, _ = np.linalg.qr(W)
        Q = A @ W
        Q, _ = np.linalg.qr(Q)
    B = Q.T @ A
    u, S, V = np.linalg.svd(B)
    U = Q @ u
    return U, S, V

n = 1000
m = 200
A = np.random.randn(n, m)

rank = 100
p = 20
U, S, V = randomized_svd(A, rank, p)
print("Error from randomized SVD", np.linalg.norm(A - U[:, :rank] * S[None, :rank] @ V[:rank, :]))
plt.semilogy(S[:rank] / S[0], label="Random SVD")

Uq, Sq, Vq = more_accurate_randomized_svd(A, rank, p, 5)
print("Error from more accurate randomized SVD", np.linalg.norm(A - Uq[:, :rank] * Sq[None, :rank] @ Vq[:rank, :]))
plt.semilogy(Sq[:rank] / Sq[0], label="Accurate random SVD")

u, s, v = np.linalg.svd(A)
print("Error from exact SVD", np.linalg.norm(A - u[:, :rank] * s[None, :rank] @ v[:rank, :]))
plt.semilogy(s[:rank] / s[0], label="Exact SVD")
plt.legend(fontsize=18)
plt.xticks(fontsize=16)
plt.yticks(fontsize=16)
plt.ylabel("$\sigma_i / \sigma_0$", fontsize=16)
_ = plt.xlabel("Index of singular value", fontsize=16)

Error from randomized SVD 286.78254212536973
Error from more accurate randomized SVD 250.30918436760263
Error from exact SVD 249.43968443603225


%timeit spsplin.svds(A, k=k)
%timeit fbpca.pca(A, k=k, raw=False)
%timeit randomized_svd(A, k, p) 
%timeit more_accurate_randomized_svd(A, k, p, 1)
%timeit more_accurate_randomized_svd(A, k, p, 2)
%timeit more_accurate_randomized_svd(A, k, p, 5)

9.05 ms ± 152 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
1.4 ms ± 141 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
2.17 ms ± 22.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
3.29 ms ± 97.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
4.23 ms ± 55.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
7.59 ms ± 309 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


import numpy as np

n = 20
p = 1000
m = 20
A = np.random.randn(n, p)
B = np.random.randn(p, m)
C = A @ B

def randomized_matmul(A, B, k):
    p = np.linalg.norm(A, axis=0) * np.linalg.norm(B, axis=1)
    p = p.ravel() / p.sum()
    n = A.shape[1]
    idx = np.random.choice(np.arange(n), (k,), False, p)
    d = 1 / np.sqrt(k * p[idx])
    A_sketched = A[:, idx] * d[None, :]
    B_sketched = B[idx, :] * d[:, None]
    C = A_sketched @ B_sketched
    return C

def randomized_matmul_topk(A, B, K):
    
    norm_mult = np.linalg.norm(A,axis=0) * np.linalg.norm(B,axis=1)
    top_k_idx = np.sort(np.argsort(norm_mult)[::-1][:K])
    
    A_top_k_cols = A[:, top_k_idx]
    B_top_k_rows = B[top_k_idx, :]

    C_approx = A_top_k_cols @ B_top_k_rows
    return C_approx

num_items = 300
C_appr_samples = randomized_matmul(A, B, num_items)
C_appr_topk = randomized_matmul_topk(A, B, num_items)
print(np.linalg.norm(C_appr_topk - C) / np.linalg.norm(C))
print(np.linalg.norm(C_appr_samples - C) / np.linalg.norm(C))

0.7514219112352372
1.496214137738649


from IPython.core.display import HTML
def css_styling():
    styles = open("./styles/custom.css", "r").read()
    return HTML(styles)
css_styling()

Lecture 16: Matrix functions. Introduction to randomized linear algebra¶

Previous lecture¶

Today lecture¶

Outline of this part¶

The simplest matrix function: matrix polynomial¶

Matrix polynomials as building blocks¶

Matrix exponential series¶

Why matrix exponential is important¶

ODE and matrix exponentials¶

Sidenote: matrix exponential and time stepping¶

How to compute matrix functions, including exponential?¶

How funm function works¶

Schur-Parlett algorithm¶

Computing functions of triangular matrices¶

Matrix functions: definition¶

Important matrix functions¶

Matrix exponential¶

Series convergence¶

Method 1: Krylov method¶

Pade approximations¶

Scaling & squaring algorithm¶

Large-scale matrix exponentials¶

Rational Krylov subspaces¶

Rational Krylov methods¶

Inverse square root of the matrix¶

Application to compute distance between manifolds¶

Stochastic trace estimator¶

Distances between languages (original paper)¶

Where do stochastic methods also help?¶

Randomized SVD (Halko et al, 2011)¶

Randomized approximation of basis in column space of $A$¶

Covergence theorem¶

Accuracy enhanced randomized SVD¶

Loss of accuracy with rounding errors¶

Convergence theorem¶

Summary on randomized SVD¶

Kaczmarz method to solve linear systems¶

Convergence theorem¶

Inconsistent overdetermined linear system¶

Sampling and sketching¶

Summary on randomized methods in solving linear systems¶

Randomized matrix multiplication¶

Approximation error¶

Summary on randomized matmul¶

Take home message¶

Plan for the next class¶

How `funm` function works¶