北山 一樹、細川 清人、猪原 秀典 ≪耳鼻咽喉科・頭頸部外科学≫ ガラガラ声の程度を自動的に定量化する 音響モデル「ARI」を開発! ~声がれの診断精度向上、リモート診療への応用へ~
2025年5月20日
掲載誌 npj Digital Medicine
図: 音響モデルARIのイメージ
クリックで拡大表示します
研究成果のポイント
- ガラガラした声に特徴的な「サブハーモニクス※1」という音の成分を自動で検出し、声のざらつきを0~10のスコアで評価する音響モデル「ARI」を開発
- ガラガラした声の度合いは、専門家が耳で聞いて判断する主観的な方法が中心で、評価する人によってばらつきがあったが、作成したサブハーモニクスの種類と量を自動で判定するプログラムにより、専門家の耳での判断と高精度で一致する定量的な評価が可能に
- ARIを使うことで、声の病気を客観的に評価できるうえ、治療の効果もわかりやすくなり、将来的にAIを使った音声診断や、遠隔医療などへの応用に期待
概要
大阪大学大学院医学系研究科の北山一樹さん(博士課程)、細川清人講師、猪原秀典教授(耳鼻咽喉科・頭頸部外科学)の研究グループは、ガラガラした声の評価に使える新しい指標「ARI(アコースティック・ラフネス・インデックス)」を開発しました。
ARIは、声に含まれるサブハーモニクスの種類と強さを計算し、従来の音響データと組み合わせて声のざらつきを0~10のスコアで表すしくみです。ガラガラした声は、人が耳で聞いて判断すると主観的でばらつきがあるという課題がありましたが、今回、約450人分の声のデータで検証を重ね、専門家の判断とよく一致する音響モデルの開発に成功しました。ARIは声の病気の診断や治療の前後での比較、研究などで使うことができ、誰でも使えるようにプログラムをインターネットで公開しているため、医療現場や研究機関などでの活用が期待されます。
本研究の背景
ガラガラ声は、声帯の振動が乱れることで生じます。今までは「GRBASスケール※2」などの方法を用いて人が耳で聞いて評価していましたが、主観的でばらつきがあるという課題がありました。ガラガラ声の原因となるサブハーモニクスという音の成分を正確に見つけて評価する方法はありませんでした。
本研究の内容
この研究では、これまで同研究グループで開発したSFEEDS(Spectral-Based Fundamental frequency Estimator Emphasized by Domination and Sequence)という声の波形の基本周波数※3を正確に見つけるしくみを使って、サブハーモニクスの種類と量を自動で判定するプログラムを作りました。その情報と、従来からある声の特徴を表す数値を組み合わせて、ガラガラ声の度合いを数値で表すモデル・ARIを作成しました。
ARIは、文章を読む声と「あー」と声を出すデータを組み合わせて声の質を評価します。ARIのスコアは専門家の耳での判断とよく一致し、スコアが2.09以上だとざらつきがある声、2.09未満だと滑らかな声と高い確率で見分けることができました。
本研究が社会に与える影響(本研究成果の意義)
ARIは、これまで人の耳に頼っていた評価を客観的にしてくれるツールです。声の病気の診断や治療の前後での比較、研究などで使うことができます。また、誰でも使えるようにプログラムをインターネットで公開しており、医療現場や研究機関などでの活用が期待されます。
今後は、日本語以外の言語や感情がこもった声、歌などにも応用し、診療やリモートでの声のチェックにも使えるようにしていきたいと考えています。
研究者のコメント
<猪原 秀典 教授>
「ガラガラ声」を科学的に定量評価するのはとても難しい課題でした。今回、ガラガラ声の原因となる音の成分を分類して数値化する方法ができたことで、より正確な診断や研究に役立てられると感じています。今後は、もっと幅広い場面で使えるようにしていきたいと思います。
用語説明
※1 サブハーモニクス
サブハーモニクスとは、声の中に現れる基本周波数の整数分の1(たとえば1/2や1/3など)の周波数成分のことを指す。声帯の振動が不規則になったときに現れやすく、ガラガラ声の特徴として知られている。
※2 GRBASスケール
日本音声言語医学会発声機能検査法委員会で作成された評価法である。GRBAS はGrade, Rough, Breathy, Asthenic, Strained の頭文字を表し、嗄声(させい、声のかすれ)の全体的な重症度を評定する尺度である。嗄声の性状は問わない。
※3 基本周波数
基本周波数とは、声の中で最も低い周期的な成分の周波数をさす。これは声帯が1秒間に何回振動しているかを示し、声の高さを決める要素で、たとえば、男性の話し声ではおおよそ100~150Hz、女性では200~250Hz程度が一般的とされている。
特記事項
本研究成果は、2025年5月20日(火)に米国科学誌「npj Digital Medicine」(オンライン)に掲載されました。
【タイトル】
“A Multivariate Model Incorporating Subharmonic Measurements for Evaluating Vocal Roughness”
【著者名】
Itsuki Kitayama, Kiyohito Hosokawa, Shinobu Iwaki, Misao Yoshida, Akira Miyauchi, Kenji Aruga, Takanari Kawabe, Toshihiro Kishikawa, Hidenori Tanaka, Takeshi Tsuda, Takashi Sato, Yukinori Takenaka, Makoto Ogawa, Hidenori Inohara.
DOI:10.1038/s41746-025-01702-2
なお、本研究は、JSPS科研費(JP21K16842)の支援を受けて行われました。