Qt 文字列処理：QRegExp を使ったパターンマッチングの基礎（日本語）

2025-05-27

QRegExp クラスとは

QRegExp クラスは、Qtフレームワークで提供されるクラスの一つで、正規表現を扱うための機能を提供します。正規表現とは、文字列のパターンを記述するための強力なツールであり、テキストの検索、置換、検証など、さまざまなテキスト処理タスクに利用できます。

QRegExp クラスは、Perl互換の正規表現エンジンをベースにしており、柔軟で強力なパターンマッチングを可能にします。

主な機能

QRegExp クラスでできる主なことは以下の通りです。

検証
入力された文字列が特定の形式（例えば、メールアドレス、電話番号など）に合致するかどうかを検証できます。
検索と置換
文字列内でパターンに一致する部分を検索し、別の文字列で置換できます。
部分一致の取得
パターンに一致した文字列全体だけでなく、パターン内の特定の部分（キャプチャグループ）に一致した文字列を取得できます。
マッチング
定義したパターンに文字列が一致するかどうかを調べます。
パターンの定義
正規表現の構文を使って、検索したい文字列のパターンを定義します。

基本的な使い方

QRegExp クラスの基本的な使い方は以下のようになります。

QRegExp オブジェクトの作成
正規表現のパターンを引数に指定して QRegExp オブジェクトを作成します。
```
QRegExp rx("a[bc]+d"); // "a" の後に "b" または "c" が1回以上続き、その後に "d" が続くパターン
```
マッチングの実行
exactMatch() 関数や indexIn() 関数などを使って、文字列がパターンに一致するかどうかを調べます。
- exactMatch(const QString &str): 文字列全体がパターンに完全に一致するかどうかを返します。
- indexIn(const QString &str, int offset = 0): 文字列内でパターンに一致する最初の位置を返します。一致しない場合は -1 を返します。offset を指定すると、検索を開始する位置を指定できます。
```
QString str1 = "abbcd";
QString str2 = "axd";

bool match1 = rx.exactMatch(str1); // true
bool match2 = rx.exactMatch(str2); // false

int index = rx.indexIn(str1); // 0 (先頭から一致)
```

部分一致の取得 (キャプチャグループ)
正規表現内で () で囲まれた部分をキャプチャグループと呼びます。cap() 関数や capturedTexts() 関数を使って、これらの部分に一致した文字列を取得できます。

QRegExp rx2("(\\d+)-(\\d+)-(\\d+)"); // 電話番号のようなパターン (例: 123-456-7890)
QString phone = "123-456-7890";

if (rx2.exactMatch(phone)) {
    QString areaCode = rx2.cap(1);   // "123"
    QString prefix = rx2.cap(2);     // "456"
    QString lineNumber = rx2.cap(3); // "7890"
    QStringList captured = rx2.capturedTexts(); // ["123-456-7890", "123", "456", "7890"] (0番目は全体一致)
}

置換
replace() 関数を使って、パターンに一致する部分を別の文字列で置換します。

QRegExp rx3("apple");
QString text = "I like apple and banana.";
QString replacedText = text.replace(rx3, "orange"); // "I like orange and banana."

フラグ (Flags)

QRegExp の動作を制御するために、さまざまなフラグを設定できます。例えば、大文字・小文字を区別しないマッチング、空白文字を無視するマッチングなどがあります。フラグは setCaseSensitivity() や setPatternSyntax() などの関数で設定できます。

QRegExp rx4("hello", Qt::CaseInsensitive); // 大文字・小文字を区別しない
QString text2 = "Hello world";
rx4.exactMatch(text2); // true

注意点

既存のコードを保守する場合や、QRegExp 特有の機能が必要な場合には、QRegExp を使用することもできます。
新しいQtプロジェクトでは、可能な限り QRegularExpression を使用することを推奨します。
QRegExp は Qt 5 で非推奨となり、代わりに QRegularExpression クラスが推奨されています。QRegularExpression はより強力で、パフォーマンスも向上しています。

一般的なエラーとトラブルシューティング

- 症状
  exactMatch() や indexIn() などの関数を使った際に、期待しない文字列にマッチしたり、期待する文字列にマッチしなかったりする場合があります。
- 原因
  正規表現のパターンが、意図した範囲よりも広すぎる、または狭すぎる場合に発生します。例えば、ワイルドカード . の使用、量指定子の指定ミス、アンカー (^, $) の不足などが考えられます。
- 対策
  - 正規表現のパターンが、実際にマッチさせたい文字列のパターンを正確に表現しているか見直してください。
  - 具体的な例をいくつか用意し、それぞれの例で期待通りのマッチング結果が得られるかテストしてください。
  - 必要に応じて、より具体的な文字クラス ([a-z], [0-9]) やアンカー (^ 行頭, $ 行末) を使用してください。
```
QRegExp rx("a.*b"); // "a" で始まり "b" で終わる任意の文字列 (貪欲マッチ)
QString str = "axxxbyyyb";
rx.indexIn(str); // 0 (全体にマッチ) - 意図によっては "axxxb" のみにマッチさせたいかもしれない

QRegExp rx2("a[^b]*b"); // "a" で始まり "b" で終わるが、間に "b" を含まない文字列
rx2.indexIn(str); // 0 ("axxxb" にマッチ) - こちらが意図した動作かもしれない
```
キャプチャグループの誤り
- 症状
  cap() 関数や capturedTexts() 関数で、期待する部分文字列が取得できない、または間違った順番で取得される場合があります。
- 原因
  正規表現のパターンにおけるキャプチャグループ (()) の定義が誤っている場合に発生します。例えば、括弧の対応が取れていない、意図しない部分をキャプチャしている、キャプチャしたい部分が括弧で囲まれていないなどが考えられます。
- 対策
  - 正規表現のパターンにおける括弧の対応と位置を慎重に確認してください。
  - capturedTexts() の戻り値のリストのインデックスを正しく理解してください (インデックス 0 は全体のマッチ、1以降がキャプチャグループに対応します)。
  - 不要なキャプチャグループはノンキャプチャグループ (?:...) を使用することを検討してください。
```
QRegExp rx("(\\d+)-(\\d+)");
QString date = "2023-10-26";
if (rx.exactMatch(date)) {
    qDebug() << "年:" << rx.cap(1); // "2023" を期待
    qDebug() << "月日:" << rx.cap(2); // "10" を期待 (実際は "10-26" にマッチ) - パターンの修正が必要
}

QRegExp rx_fixed("(\\d+)-(\\d+)-(\\d+)");
if (rx_fixed.exactMatch(date)) {
    qDebug() << "年:" << rx_fixed.cap(1); // "2023"
    qDebug() << "月:" << rx_fixed.cap(2); // "10"
    qDebug() << "日:" << rx_fixed.cap(3); // "26"
}
```
パフォーマンスの問題
- 症状
  複雑な正規表現を大きな文字列に対して実行すると、処理に時間がかかり、アプリケーションの応答性が悪くなる場合があります。
- 原因
  正規表現のパターンが非効率である、または入力文字列が非常に大きい場合に発生します。特に、バックトラックが多く発生するようなパターンはパフォーマンスに影響を与えやすいです。
- 対策
  - 正規表現のパターンをより効率的なものに書き換えることを検討してください。例えば、不要な繰り返しや曖昧な表現を避ける、具体的な文字クラスを使用するなど。
  - 可能であれば、正規表現以外の方法で文字列処理を行うことも検討してください。
  - QRegularExpression は QRegExp よりも一般的にパフォーマンスが優れているため、移行を検討するのも有効な手段です。
文字エンコーディングの問題
- 症状
  特定の文字を含む文字列に対して、期待通りのマッチングが行われない場合があります。
- 原因
  文字列のエンコーディングと、正規表現エンジンが想定するエンコーディングが一致していない場合に発生する可能性があります。Qt は通常 Unicode を扱うため、明示的にエンコーディングを指定する必要は少ないですが、外部からのデータや古いコードを扱う際には注意が必要です。
- 対策
  - 文字列のエンコーディングを確認し、必要に応じて変換してください。
  - Qt の文字列処理は Unicode を基本としていることを念頭に置いてください。

QRegExp 特有の注意点 (非推奨であること)

可能な限り QRegularExpression への移行を検討してください。QRegularExpression は Perl 互換の正規表現 (PCRE) をより忠実に実装しており、多くの点で QRegExp よりも優れています。
QRegExp は Qt 5 で非推奨となり、新しい機能の追加やパフォーマンスの改善は期待できません。

トラブルシューティングの一般的なヒント

オンラインの正規表現テスター
正規表現のパターンが意図した通りに動作するかどうかをオンラインのテスターで試してみるのも有効です。
Qt のドキュメントを参照
QRegExp クラスのドキュメントには、各関数の詳細な説明や使用例が記載されています。
テストケースの作成
さまざまな入力文字列に対して、期待される出力と実際の結果を比較するテストケースを作成することで、問題を再現しやすくなります。
ログ出力
マッチングの結果やキャプチャされた文字列をログ出力して確認することで、何が起こっているかを把握しやすくなります。
問題を切り分ける
複雑な正規表現で問題が発生した場合は、より単純なパターンで試してみて、問題の原因となっている部分を特定してください。

注意
新しいプロジェクトでは QRegularExpression の使用を強く推奨します。以下の例は、既存のコードの理解や、QRegExp の基本的な概念を学ぶために役立ててください。

例1: 文字列全体がパターンに一致するかどうかを確認する (exactMatch)

#include <QCoreApplication>
#include <QRegExp>
#include <QDebug>

int main(int argc, char *argv[])
{
    QCoreApplication a(argc, argv);

    QRegExp rx("^[0-9]+$"); // 文字列全体が1つ以上の数字で構成されているか
    QString str1 = "12345";
    QString str2 = "abc123";
    QString str3 = "123 45";

    qDebug() << str1 << "はパターンに完全に一致するか？" << rx.exactMatch(str1); // true
    qDebug() << str2 << "はパターンに完全に一致するか？" << rx.exactMatch(str2); // false
    qDebug() << str3 << "はパターンに完全に一致するか？" << rx.exactMatch(str3); // false

    return a.exec();
}

この例では、^ は文字列の先頭、[0-9]+ は1つ以上の数字、$ は文字列の末尾を意味する正規表現パターンを作成しています。exactMatch() 関数を使って、指定した文字列全体がこのパターンに完全に一致するかどうかを判定しています。

例2: 文字列内でパターンに一致する最初の位置を見つける (indexIn)

#include <QCoreApplication>
#include <QRegExp>
#include <QDebug>

int main(int argc, char *argv[])
{
    QCoreApplication a(argc, argv);

    QRegExp rx("\\bword\\b"); // 単語 "word" (前後が単語区切り)
    QString text = "This is a word in the sentence, and another word.";

    int index1 = rx.indexIn(text);
    qDebug() << "最初の 'word' の位置:" << index1; // 10

    int index2 = rx.indexIn(text, index1 + 1); // 最初のマッチの次の位置から検索
    qDebug() << "次の 'word' の位置:" << index2; // 42

    int index3 = rx.indexIn(text, index2 + 1);
    qDebug() << "さらに次の 'word' の位置:" << index3; // -1 (見つからない)

    return a.exec();
}

この例では、\\b は単語区切りを表す正規表現です。indexIn() 関数を使って、文字列 text 内で最初にパターンに一致する位置を見つけています。2番目の indexIn() では、最初のマッチの次の位置から検索を開始しています。一致するものがなければ -1 が返されます。

例3: 部分一致 (キャプチャグループ) を取得する (cap, capturedTexts)

#include <QCoreApplication>
#include <QRegExp>
#include <QDebug>

int main(int argc, char *argv[])
{
    QCoreApplication a(argc, argv);

    QRegExp rx("(\\d{4})-(\\d{2})-(\\d{2})"); // YYYY-MM-DD 形式の日付
    QString date = "2023-10-26";

    if (rx.exactMatch(date)) {
        qDebug() << "全体一致:" << rx.cap(0); // "2023-10-26"
        qDebug() << "年:" << rx.cap(1);     // "2023" (最初の括弧)
        qDebug() << "月:" << rx.cap(2);     // "10"   (2番目の括弧)
        qDebug() << "日:" << rx.cap(3);     // "26"   (3番目の括弧)

        QStringList capturedList = rx.capturedTexts();
        qDebug() << "キャプチャされた文字列リスト:" << capturedList; // ("2023-10-26", "2023", "10", "26")
    } else {
        qDebug() << "日付形式が一致しません。";
    }

    return a.exec();
}

この例では、() で囲まれた部分がキャプチャグループになります。cap(n) 関数を使うと、n番目のキャプチャグループに一致した文字列を取得できます (cap(0) は全体の一致)。capturedTexts() 関数は、すべての一致 (全体とキャプチャグループ) を含む QStringList を返します。

例4: パターンに一致する部分を置換する (replace)

#include <QCoreApplication>
#include <QRegExp>
#include <QString>
#include <QDebug>

int main(int argc, char *argv[])
{
    QCoreApplication a(argc, argv);

    QRegExp rx("apple");
    QString text = "I like apple and red apple.";
    QString replacedText = text.replace(rx, "orange");
    qDebug() << "置換後の文字列:" << replacedText; // "I like orange and red orange."

    QRegExp rx2("(\\d{3})-(\\d{4})");
    QString phone = "My phone number is 123-4567.";
    QString maskedPhone = phone.replace(rx2, "***-****");
    qDebug() << "マスクされた電話番号:" << maskedPhone; // "My phone number is ***-****."

    return a.exec();
}

この例では、replace() 関数を使って、正規表現パターンに一致する部分を別の文字列で置換しています。最初の例では、すべての "apple" を "orange" に置換しています。2番目の例では、電話番号の形式 (\d{3}-\d{4}) に一致する部分を "-*" に置換しています。

例5: 大文字・小文字を区別しないマッチング (setCaseSensitivity)

#include <QCoreApplication>
#include <QRegExp>
#include <QDebug>

int main(int argc, char *argv[])
{
    QCoreApplication a(argc, argv);

    QRegExp rx("hello");
    rx.setCaseSensitivity(Qt::CaseInsensitive); // 大文字・小文字を区別しない

    QString str1 = "Hello world";
    QString str2 = "hello world";
    QString str3 = "HELLO world";

    qDebug() << str1 << "は 'hello' に一致するか？" << (rx.indexIn(str1) != -1); // true
    qDebug() << str2 << "は 'hello' に一致するか？" << (rx.indexIn(str2) != -1); // true
    qDebug() << str3 << "は 'hello' に一致するか？" << (rx.indexIn(str3) != -1); // true

    return a.exec();
}

この例では、setCaseSensitivity(Qt::CaseInsensitive) を呼び出すことで、正規表現のマッチングで大文字・小文字が区別されなくなります。

QRegularExpression クラス (推奨)

基本的な使い方
QRegularExpression の使い方は QRegExp と似ていますが、クラス名や一部の関数名が異なります。

#include <QCoreApplication>
#include <QRegularExpression>
#include <QRegularExpressionMatch>
#include <QDebug>

int main(int argc, char *argv[])
{
    QCoreApplication a(argc, argv);

    QRegularExpression rx("^[0-9]+$");
    QString str = "12345";

    QRegularExpressionMatch match = rx.match(str);
    if (match.hasMatch()) {
        qDebug() << str << "はパターンに一致します。";
    } else {
        qDebug() << str << "はパターンに一致しません。";
    }

    QRegularExpression rx2("(\\d{4})-(\\d{2})-(\\d{2})");
    QString date = "2023-10-26";
    QRegularExpressionMatch match2 = rx2.match(date);
    if (match2.hasMatch()) {
        qDebug() << "全体一致:" << match2.captured(0);
        qDebug() << "年:" << match2.captured(1);
        qDebug() << "月:" << match2.captured(2);
        qDebug() << "日:" << match2.captured(3);
    }

    return a.exec();
}

C++ 標準ライブラリの <regex> ヘッダー

基本的な使い方
<regex> を使用するには、std::regex クラスで正規表現オブジェクトを作成し、std::regex_match、std::regex_search、std::regex_replace などの関数を使用します。

#include <iostream>
#include <string>
#include <regex>

int main()
{
    std::regex rx("^[0-9]+$");
    std::string str = "12345";

    if (std::regex_match(str, rx)) {
        std::cout << str << " はパターンに一致します。" << std::endl;
    } else {
        std::cout << str << " はパターンに一致しません。" << std::endl;
    }

    std::regex rx2("(\\d{4})-(\\d{2})-(\\d{2})");
    std::string date = "2023-10-26";
    std::smatch match;
    if (std::regex_match(date, match, rx2)) {
        std::cout << "全体一致: " << match[0] << std::endl;
        std::cout << "年: " << match[1] << std::endl;
        std::cout << "月: " << match[2] << std::endl;
        std::cout << "日: " << match[3] << std::endl;
    }

    return 0;
}

主な利点
- 標準規格
  C++ の標準機能であるため、Qt 以外の環境でも利用できます。
- 移植性
  標準規格に準拠したコンパイラであれば、異なるプラットフォームで動作します。

文字列操作関数 (単純なパターン)

主な QString の関連関数

startsWith(const QString &s): 文字列が指定されたプレフィックスで始まるかどうかをチェックします。
endsWith(const QString &s): 文字列が指定されたサフィックスで終わるかどうかをチェックします。
contains(const QString &s): 文字列が指定された部分文字列を含むかどうかをチェックします。
indexOf(const QString &s, int from = 0): 文字列内で指定された部分文字列が最初に出現する位置を見つけます。
lastIndexOf(const QString &s, int from = -1): 文字列内で指定された部分文字列が最後に出現する位置を見つけます。
split(const QString &sep, Qt::SplitBehavior behavior = Qt::KeepEmptyParts): 文字列を指定された区切り文字で分割します。

#include <QCoreApplication>
#include <QString>
#include <QDebug>

int main(int argc, char *argv[])
{
    QCoreApplication a(argc, argv);

    QString text = "hello world";
    QString prefix = "hello";
    QString suffix = "world";
    QString part = "o w";

    qDebug() << text << "は '" << prefix << "' で始まるか？" << text.startsWith(prefix); // true
    qDebug() << text << "は '" << suffix << "' で終わるか？" << text.endsWith(suffix);   // true
    qDebug() << text << "は '" << part << "' を含むか？" << text.contains(part);       // true
    qDebug() << "'" << part << "' の最初の位置:" << text.indexOf(part);                // 4

    QString csv = "apple,banana,orange";
    QStringList parts = csv.split(",");
    qDebug() << "分割された文字列:" << parts; // ("apple", "banana", "orange")

    return a.exec();
}

主な利点
- パフォーマンス
  正規表現エンジンのオーバーヘッドがないため、高速に動作します。
- 簡潔性
  単純な処理であれば、正規表現よりもコードが簡潔になる場合があります。

QRegExp の代替としては、以下の方法が考えられます。

QRegularExpression (推奨)
ほとんどのケースで QRegExp の上位互換として利用でき、より強力で高性能です。
C++ 標準ライブラリの <regex>
Qt に依存しない標準的な正規表現機能が必要な場合に適しています。
QString の文字列操作関数
単純なパターンであれば、正規表現よりも効率的で簡潔なコードで実現できます。

Qt 正規表現キャプチャ QRegExp::capturedTexts() の使い方と注意点

QRegExp::capturedTexts() は、QRegExp オブジェクトを使って文字列に対して正規表現によるマッチングを行った後に、キャプチャされた部分文字列（グループ）をリスト形式で取得するための関数です。もう少し詳しく説明します。

QRegExp::caseSensitivity() エラー解決！Qt 正規表現のトラブルシューティング

QRegExp::caseSensitivity()は、Qtの正規表現クラスであるQRegExpにおいて、正規表現のマッチング時に大文字と小文字を区別するかどうかを取得するための関数です。つまり、正規表現が**大文字小文字を区別する（case sensitive）**か、**区別しない（case insensitive）**かを調べます。

Qt 文字列カウントの決定版：QRegExp::countIn() から QRegularExpression へ

QRegExp::countIn() は、Qtの正規表現クラス QRegExp のメンバ関数の一つで、指定された文字列（またはQString）の中で、正規表現にマッチする部分の重複しない出現回数を数えるために使用されます。関数のシグネチャ戻り値: 文字列 str の中で、この QRegExp オブジェクトの正規表現にマッチする重複しない部分の数を返します。マッチする部分が一つもない場合は 0 を返します。

Qt 正規表現オブジェクトの破棄：デストラクタの挙動とプログラマーの責任

QRegExp::~QRegExp() は、Qtのクラスである QRegExp のデストラクタです。QRegExp::~QRegExp() は、QRegExp クラスのインスタンス（オブジェクト）がメモリから解放される際に自動的に呼び出される特別な関数（メソッド）です。

Qt 正規表現 QRegExp エラー原因と解決策

Qt プログラミングにおいて、QRegExp::errorString() は、QRegExp オブジェクトが最後に試みた正規表現のコンパイルまたはマッチング操作で発生したエラーに関する説明文字列を返します。QRegExp クラスは、正規表現を使用してテキストを検索、置換、検証するためのクラスです。正規表現のパターンは複雑になることがあり、構文エラーなどが発生することがあります。QRegExp::errorString() は、そのようなエラーが発生した場合に、そのエラーの内容をユーザーに分かりやすく伝えるための情報を提供します。