bashで文字列を切り出す方法を解説

bashで文字列を切り出す方法はいくつかあります。本記事では、その中でも主な方法を説明します。具体的には、パラメータ展開、cut、awk、sed、grepを使った方法です。

パラメータ展開を使う方法

パラメータ展開はbashに組み込まれている機能で、変数から部分文字列を抽出することができます。外部コマンドを呼び出す必要がないため、処理速度が速いのが特徴です。

構文

${変数名:開始位置:長さ}

開始位置: 抽出を開始する位置（0から始まる）
長さ: 抽出する文字数（省略すると、開始位置から文字列の末尾まで）

例

文字列の先頭から3文字を抽出します。

str="Hello World"
echo ${str:0:3}  # 出力: Hel

5番目の文字から3文字を抽出します。

str="Hello World"
echo ${str:5:3}  # 出力: Wor

文字列の先頭から5文字目以降をすべて抽出します。

str="Hello World"
echo ${str:5}  # 出力: World

文字列の末尾から5文字を抽出します。

str="Hello World"
echo ${str: -5}  # 出力: World

文字列の末尾から5文字目から2文字を抽出します。

str="Hello World"
echo ${str: -5:2}  # 出力: Wo

cutを使う方法

cutはファイルから指定した部分を切り出すためのコマンドです。区切り文字（デリミタ）を指定して文字列を分割し、特定のフィールドを抽出できます。

構文

cut [オプション] [ファイル]

主なオプション

d 区切り文字: 区切り文字を指定
f 番号: 抽出するフィールド番号
c 文字位置: 抽出する文字位置

例

カンマ区切りの文字列から2番目のフィールドを抽出します。

echo "apple,banana,cherry" | cut -d ',' -f 2  # 出力: banana

スペース区切りの文字列から1番目と3番目のフィールドを抽出します。

echo "user data info" | cut -d ' ' -f 1,3  # 出力: user info

文字列の2文字目から4文字目までを抽出します。

echo "Hello" | cut -c 2-4  # 出力: ell

awkを使う方法

awkはテキスト処理に特化したプログラミング言語で、より複雑な文字列操作が可能です。パターンマッチングと処理アクションを組み合わせて使用します。

構文

awk 'パターン {アクション}' [ファイル]

例

スペース区切りの文字列から2番目のフィールドを抽出します。

echo "Hello World Bash" | awk '{print $2}'  # 出力: World

カンマ区切りの文字列から最初のフィールドを抽出します。

echo "apple,banana,cherry" | awk -F ',' '{print $1}'  # 出力: apple

文字列の一部を正規表現で抽出します。

echo "ID: 12345, Name: John" | awk '{match($0, /ID: ([0-9]+)/, a); print a[1]}'  # 出力: 12345

sedを使う方法

sedはストリームエディタで、テキストの置換や抽出などの編集操作ができます。正規表現を使った高度なパターンマッチングが可能です。

構文

sed [オプション] 'コマンド' [ファイル]

主なコマンド

s/パターン/置換文字列/ : 置換
/パターン/p : パターンに一致する行を表示

例

文字列から特定のパターンを抽出

この正規表現の内容

s/ : 置換コマンド
User: : 「User: 」という文字列を検索
(.*) : 括弧で囲んだ部分が抽出対象（任意の文字列）
\1 : 1番目の括弧で囲んだ部分を参照
/p : マッチした内容を出力（-nオプションと組み合わせて使用）

echo "User: John" | sed -n 's/User: \\(.*\\)/\\1/p'  # 出力: John

特定のパターンに一致する行全体を抽出

この正規表現の内容

/ana/ : 文字列「ana」を含む行を検索
p : マッチした行を出力（-nオプションと組み合わせて使用）

echo -e "apple\\nbanana\\ncherry" | sed -n '/ana/p'  # 出力: banana

文字列から特定の範囲を抽出

この正規表現の内容

(.{3}) : 最初の3文字を捕捉（第1グループ）。「.」は任意の1文字、「{3}」は3回の繰り返し
.{3} : 次の3文字（捕捉せずに飛ばす）
(.{5}) : 次の5文字を捕捉（第2グループ）
\1\2 : 第1グループと第2グループを結合して出力（中間の3文字を除く）

echo "Hello World" | sed 's/\\(.\\{3\\}\\).\\{3\\}\\(.\\{5\\}\\)/\\1\\2/'  # 出力: HelWorld

grepを使う方法

grepはパターンマッチングに特化したコマンドで、指定したパターンに一致する行を抽出できます。正規表現を使った検索が可能です。

構文

grep [オプション] パターン [ファイル]

主なオプション

o: 一致した部分だけを表示
P: Perl互換の正規表現を使用
E: 拡張正規表現を使用

例

文字列から数字部分だけを抽出します。

echo "ID: 12345" | grep -o '[0-9]\\+'  # 出力: 12345

正規表現で特定のパターンを抽出します。

echo "Email: info@example.com" | grep -o -E '[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}'  # 出力: info@example.com

複数行のテキストから特定のパターンを含む行を抽出します。

echo -e "apple\\nbanana\\ncherry" | grep "an"  # 出力: banana

使い分け

それぞれの方法には長所と短所があります。状況に応じて適切な方法を選びましょう。

パラメータ展開:
- 外部コマンドを使わないため最も高速
- 変数内の文字列を位置指定で抽出する単純な場合に最適
- 正規表現は使えない
cutコマンド:
- 区切り文字で分割された列データから特定の列を抽出するのに適している
- CSVファイルなどの構造化データに有効
- 複雑なパターンマッチングには不向き
awkコマンド:
- より複雑な文字列処理に対応可能
- 条件分岐や計算などプログラミング的な処理ができる
- 複数のフィールドを操作する場合に便利
- 学習コストが高い
sedコマンド:
- パターンマッチングと置換が得意
- 正規表現を使った抽出に適している
- 構文が複雑で初心者には難しい場合がある
grepコマンド:
- パターンに一致する行の抽出に特化
- oオプションで一致部分だけを抽出可能
- 複雑な処理には不向き

まとめ

bashで文字列を切り出す方法として、パラメータ展開、cut、awk、sed、grepの5つの方法を紹介しました。

単純な位置指定の抽出ならパラメータ展開が最速
区切り文字でフィールドを抽出するならcutが簡単
より複雑な文字列処理ならawkが柔軟
正規表現でのパターンマッチングならsedやgrepが便利

目的や状況に応じて、最適な方法を選択することで、効率的に文字列処理を行うことができます。bash上でのテキスト処理スキルを磨いて、シェルスクリプトの幅を広げていきましょう。