会話型AIのデータ収集

会話型AIのデータ収集へのアプローチ方法

今日、私たちの家、自動車システム、ポータブルデバイス、ホームオートメーションソリューションなどには、チャットボット、仮想アシスタントなどの会話ロボットがあります。これらのデバイスは、私たちの言うことや話し方を正確に聞き取り、結果を取得したり、特定のタスクを実行したりします。 。

そして、あなたが次のようなアシスタントを使用している場合 SiriまたはAlexa、あなたはまた、彼らが日ごとに風変わりになっていることに気付くでしょう。 彼らの反応は機知に富んでいて、話をし、こっそりと褒め言葉を返し、あなたが知っている同僚の何人かよりも人間らしい振る舞いをします。 私たちは冗談ではありません。 PwCによると、最近のカスタマーサービスアソシエイトとやり取りしたユーザーの27%は、人間と話しているのかチャットボットと話しているのかを知りませんでした。

このような複雑な会話システムやデバイスの開発は、非常に複雑で困難です。 これは、明確な開発アプローチを備えたまったく別の球技です。 そのため、理解しやすいように分解する必要があると考えました。 したがって、会話型AIエンジンまたは仮想アシスタントの開発を検討している場合は、このガイドがわかりやすくなります。

会話型AIの重要性

テクノロジーが新しいデバイスやシステムの形で私たちの生活のより不可欠な側面になるにつれて、障壁を押し広げ、慣習を破り、それらと相互作用する新しい方法を考え出す必要が生じます。 マウスやキーボードなどの接続された周辺機器を使用するだけでなく、より便利なマウスパッドに切り替えました。 次に、入力の入力とタスクの実行にさらに便利なタッチスクリーンに移行しました。

デバイスが自分たちの延長線上にあることで、私たちは今、音声によるコマンドの新しい媒体のロックを解除しています。 デバイスを操作するために、デバイスの近くにいる必要はありません。 私たちがしなければならないのは、声を使ってロックを解除し、入力を命令することだけです。 近くの部屋から、運転中、別のデバイスを同時に使用しながら、会話型AIは目的のタスクをシームレスに実行します。 では、どこから始めればよいのでしょうか。すべては、MLモデルをトレーニングするための高品質の音声データから始まります。

音声トレーニングデータ収集の基本

会話型AIのAIトレーニングデータの収集と注釈付けは大きく異なります。 人間の命令には多くの複雑さが関わっており、影響力のある結果を得るためにあらゆる側面に対応できるように、さまざまな対策を講じる必要があります。 音声データの基本のいくつかを見てみましょう。

自然言語理解(NLU)

チャットボットと仮想アシスタントがテキストやコマンドの内容を理解して応答するために、 NLU 実装されています。 それはの略です 自然言語理解 さまざまな入力タイプを解釈および処理するためのXNUMXつの技術概念が含まれます。

  • 意図

    それはすべて意図から始まります。 コマンドを介して伝達、通信、または達成しようとしている特定のユーザーは何ですか? ユーザーは情報を探していますか? 彼らは行動の更新を待っていますか? 彼らはシステムに実行するように命令していますか? 彼らはどのようにそれを指揮していますか? それは質問によるものですか、それともリクエストによるものですか? これらすべての側面は、機械がそれぞれ気密応答を考え出す意図と目的を理解して分類するのに役立ちます。

  • 発話コレクション

    「最寄りのATMはどこですか?」というコマンドには違いがあります。 とコマンド、「近くのATMを見つけてください。」 今、人間は両方が同じことを意味することを認めるでしょうが、機械はこの違いで説明されなければなりません。 意図は同じですが、意図がどのように形成されているかは完全に異なります。

    発話の収集とは、タスクと応答を正確に実行するための特定の目標に向けて、さまざまな発話とフレーズを定義およびマッピングすることです。 技術的には、データ注釈のスペシャリストは、音声データまたはテキストデータに取り組み、マシンがこれを区別できるようにします。

  • エンティティの抽出

    すべての文には、重みが強調された特定の単語やフレーズがあり、文脈と目的の解釈につながるのはこの強調です。 機械は、それらがそうである堅いシステムのように、そのような実体をスプーンで供給する必要があります。 たとえば、「6番街の近くでギターの弦はどこにありますか?」

    文を洗練すると、findはエンティティ6、stringsは4、ギターはXNUMX、XNUMXth avenueはXNUMXです。これらのエンティティは、適切な結果を取得するためにマシンによってまとめられ、これを実現するために、専門家がバックエンドで作業します。

既成の音声/音声/音声データセットで会話型AIモデルをより高速にトレーニング

会話型AIの対話の設計

AIの目標は、主にジェスチャー、アクション、応答を通じて人間の行動を再現することです。 意識的な人間の心には、文脈、意図、口調、感情、およびその他の要因を理解し、それに応じて対応する生来の能力があります。 しかし、マシンはこれらの側面をどのように区別できますか? 

のための対話の設計 会話型AI 非常に複雑で、さらに重要なことに、ユニバーサルモデルを展開することは非常に不可能です。 個人ごとに、考え方、話し方、対応の仕方が異なります。 返答の中でも、私たちは皆、自分の考えを独自に表現しています。 したがって、マシンはそれに応じてリッスンして応答する必要があります。 

ただし、これもスムーズではありません。 人間が話すとき、アクセント、発音、民族性、言語などの要素が入り込み、機械が単語を誤解して誤解し、応答するのは簡単ではありません。。 特定の単語は、インド人、イギリス人、アメリカ人、およびメキシコ人によって口述されたときに、無数の方法で機械によって理解することができます。 さまざまな言語の壁が関係しており、応答システムを考案するための最も実用的な方法は、フローチャートベースのビジュアルプログラミングを使用することです。 

専用ブロックを介して ジェスチャー、応答、トリガー、作成者と専門家は、マシンがキャラクターを開発するのを助けることができます。 これは、アルゴリズムマシンが正しい応答を考え出すために使用できるようなものです。 入力が供給されると、情報は対応する要素を流れ、マシンが提供する適切な応答につながります。 

多様性のためにDをダイヤル

私たちが述べたように、人間の相互作用は非常にユニークです。 世界中の人々は、さまざまな人生の歩み、背景、国籍、人口統計、民族、アクセント、辞書、発音などから来ています。 

会話型ボットまたはシステムを普遍的に操作できるようにするには、可能な限り多様なトレーニングデータを使用してトレーニングする必要があります。 たとえば、モデルがXNUMXつの特定の言語または民族の音声データのみでトレーニングされている場合、新しいアクセントはシステムを混乱させ、間違った結果を提供するように強制します。 これは、事業主にとって恥ずかしいだけでなく、ユーザーにとっても侮辱的です。 

そのため、開発フェーズには、考えられるすべてのバックグラウンドを持つ人々で構成される多様なデータセットの豊富なプールからのAIトレーニングデータを含める必要があります。 システムが理解するアクセントと民族が多ければ多いほど、システムはより普遍的になります。 その上、ユーザーをさらに苛立たせるのは、情報の誤った検索ではなく、そもそもユーザーの入力を理解できないことです。 

バイアスを排除することが重要な優先事項であり、企業がこれを行うXNUMXつの方法は、クラウドソーシングされたデータを選択することです。 音声データまたはテキストデータをクラウドソーシングすると、世界中の人々が要件に貢献できるようになり、データプールが健全なものになります( ブログ クラウドソーシングワーカーにデータをアウトソーシングすることの利点と落とし穴を理解するため)。 これで、モデルはさまざまなアクセントと発音を理解し、それに応じて応答します。 

行く手

会話型AIの開発は、乳児を育てるのと同じくらい難しいです。 唯一の違いは、乳児はやがて成長して物事を理解し、自律的にコミュニケーションをとることができるようになることです。 一貫してプッシュする必要があるのはマシンです。 現在、この分野にはいくつかの課題があり、これらの課題にもかかわらず、最も革新的な会話型AIシステムのいくつかが生まれているという事実を認識しておく必要があります。 待って、フレンドリーな近所のチャットボットとバーチャルアシスタントの将来がどうなるか見てみましょう。 一方、Google Homeのような会話型AIをビジネス向けに開発する場合は、 AIトレーニングデータとアノテーションのニーズについては、お問い合わせください.

社会シェア