>>さくらインターネットの生成AI向けクラウドサービスとは?
AIによる音声認識技術が急速に進化しているなか、国内音声認識市場の先駆者として業界を牽引するのが、株式会社アドバンスト・メディア(以下、アドバンスト・メディア)だ。
同社は自社開発のAI音声認識エンジン「AmiVoice(アミボイス)」をベースに、さまざまなソリューションを展開している。なかでも「ScribeAssist(スクライブアシスト)」は、地方自治体を中心に民間企業や金融機関など、多くの導入実績を誇る。同サービスの開発背景や地方自治体が抱える議事録作成の課題、今後の展開について、VoXT事業部の川嶋さんと上原さんに聞いた。
川嶋 創司(かわしま そうし)さん プロフィール(写真左)
株式会社アドバンスト・メディア VoXT事業部 営業グループ長。2012年に入社以来、当時はまだ馴染みの少なかった文字起こし支援アプリケーションの導入を全国に向けて実施。2,000以上の契約ユーザーを持つ営業部門を取りまとめる。
上原 亜美(うえはら あみ)さん プロフィール(写真右)
株式会社アドバンスト・メディア VoXT事業部 営業グループ。同部門のマーケティング業務も担う。2021年に入社。1年目よりAmiVoice議事録DXサービスの提案に注力。北海道から九州まで全国大小の地方自治体、および大手銀行や保険会社など企業向けの導入も多く手がける。
音声録音から議事録作成までワンストップで自動化
アドバンスト・メディアは1997年に創業。AI音声認識「AmiVoice」を軸として多様なサービスを展開し、音声認識のパイオニアとして国内トップシェアを誇る。
同社が開発した「ScribeAssist」は、議事録作成を支援するソリューションだ。録音した音声の認識と文字起こしをはじめ、リアルタイム文字認識やテキスト化、字幕表示など、会議運営に役立つ機能も備えている。
「認識した音声は、約2〜3秒後にはリアルタイムに文字起こしができます。テキストは会議中の修正も可能で、初めて扱う方も使いやすいようUIを工夫しました。また、話者名を登録し、最初の3〜4行のみ手動で紐づけをおこなうと、AIによる機械学習が始まります。以降はその話者の声を自動で見分けられるようになり、より正確に人の声を判別します」(川嶋さん)
さらに、インターネット接続なしで利用できるスタンドアローン型であることも、ScribeAssistの特徴の1つだ。秘匿性が求められる地方自治体を中心に、民間企業や金融機関など、分野を問わず1,200以上の企業・団体に導入されている。
また、ChatGPTと連携した「議事録エディタ」もサービスに含まれていて、ワンクリックで概要や決定事項、次のアクションをまとめた音声の要約が完成する。このAI要約機能を使う際にはクラウドサービスに接続する必要があるが、入力データがAI学習に利用されることはない。
自治体DXのハードルとは?
>>資料のダウンロードはこちらから
認識精度の高さと字幕表示が自治体導入の決め手に
川嶋さんによると、ScribeAssistの全導入先のうち、3割以上が地方自治体だという。議会事務局の負担を減らし、業務効率化を図るために導入する自治体が多いと話す。
「神奈川県南足柄市役所では、ScribeAssistの導入前、議事録作成に年間1,700時間かかっていたそうです。導入後は従来の約半分、年間900時間以上もの削減に成功しました。マイク設備も同時に導入したことにより、認識精度がさらに高まり、効果を実感していただけたようです」
また、同じく導入自治体の長崎市役所は、これまで文字起こし業務を外部へ委託し、議事録作成まで20日以上かかっていた。しかし、ScribeAssistの導入後は3〜10日と大幅に短縮。文字起こし済みのテキストを委託業者に渡すことにより、作業の効率化につながったという。
「長崎市役所の課題は、会議録作成までのリードタイム短縮と、議会事務局の負担軽減でした。当社の販売パートナーを通じてお問い合わせを頂戴し、ScribeAssistをお試しいただくなかで、リアルタイム字幕表示が決め手となり導入に至りました。業務の効率化はもちろん、字幕表示としても利用できる使い道があり、議会に関心を持つ住民が増える効果も期待してくださったようです」(上原さん)
実際、傍聴席に字幕表示用モニターを設置してから、モニターの近くまで見に来る傍聴者もいるという。営業担当として導入にも携わった上原さんはこう話す。
「リアルタイム字幕表示は、聴覚に障がいを持つ方だけでなく、議会中の情報共有にも役立っているようです。また、別の自治体の議会担当者によると、『耳だけで聞くより内容の理解が深まる』という市民からのお声もあったと伺いました。会議の議事録作成以外でも活用いただいているようです」
地道な取り組みにより、音声認識の精度が格段にアップ
アドバンスト・メディアでは、2004年ごろから議事録作成支援システムを開発していたものの、当時の音声認識性能は現在のレベルとは程遠かったという。どのようにして認識精度を進化させたのだろう。
「当時はまだAI音声認識が当たり前ではない時代です。導入前に実際の議事録データを数年分提供いただき、汎用の音声認識エンジンとのカスタマイズを個別に実施。お客さまごとに専用の音声認識エンジンを構築・納品していました。しかしそこまでしても、ようやく業務に使えるかどうかといったレベルだったので、音声認識の精度を高めるため、会議用マイクの事業者や施工業者ともタッグを組み、マイクの保守サポートまでしていました」(川嶋さん)
そこからお客さまの需要に応えるべく、音声認識エンジンのアップデートを重ね、個別のカスタマイズを必要としないレベルを目指す。2015年ごろには、これまでにない高い認識精度を実現し、地方自治体への導入が次々と増えていったという。2020年6月には、文字起こし支援アプリケーションとして正式なリリースに至った。当時の様子について、川嶋さんはこう語る。
「既存のお客さまからは、『UIが格段によくなった』というお言葉をいただきました。以前は、音声認識アプリと文字起こし結果を編集するアプリが別々で、操作性に課題がありました。この2つを統合して、音声認識をしながら同時に編集も可能にしました」
ScribeAssistをリリースした2020年は、コロナ禍の始まりと重なる。Web会議サービスを取り入れる自治体や企業が増えたことも後押しになったという。
「とくに好評だったのは、Web会議から出力される音声と、会議室のマイクを通して出力される音声をそれぞれ認識し、両方が混ざることなく同時に処理できる機能です。いまでは当たり前ですが、2020年ごろはほぼ例のない機能でした。しかもインターネット接続の有無にかかわらず利用可能で、秘匿性の高い会議でも通常の会議でも、使い分ける必要がない。この点が、多くの地方自治体に選ばれる要因になったと感じています」(川嶋さん)
音声認識の先駆者として、顧客のニーズを先回りして実現する
ScribeAssistは、議事録作成以外にもさまざまなシーンで利用されている。たとえば、役所の窓口に小さな透明ディスプレイを設置し、聴覚障がい者が訪れた際は、画面に表示された文字を見ながらの対話を可能にした。個人情報保護の観点から、周囲からは見えにくく、かつ相談者からは判別しやすい文字サイズに調整しているという。実際に、茨城県取手市役所の障害福祉課では、窓口業務のバリアフリー化に向けて設置済みで、大分県の中津市役所では実証実験がおこなわれている。
AIを活用した取り組みが増え、作業の効率化や自動化が進む現在、今後の展開について、VoXT事業部の営業グループ長を務める川嶋さんに聞いた。
「ScribeAssistのAI要約パターンを増やすことを検討しています。既存の議事録形式と要点まとめ形式に加えて、取材や面談、セミナー記録など、より多様な利用シーンにマッチした要約パターンが求められていると感じます。また、ハード面では、認識精度を高める1つの手段として、利用環境に適したマイクのご提案もしていきたいですね。とはいえ、われわれの強みはあくまでも音声認識。今後は認識精度のよさだけでは差別化が難しいので、議事録の準備や回覧機能など、気の利いたサービスも提供していきたいと思います」
IT企業が自治体ビジネスに参入するメリットとは?
>>資料のダウンロードはこちらから