MLのNLPデータセット

自然言語処理モデルをトレーニングするための15の最高のNLPデータセット

自然言語処理は、機械学習の鎧の重要な部分です。 ただし、モデルが正常に機能するには、大量のデータとトレーニングが必要です。 NLPの重要な問題のXNUMXつは、ドメイン内の広大な関心分野をカバーできるトレーニングデータセットがないことです。

この広大な分野で始めている場合、データセットを作成することは困難で実質的に冗長であることに気付くかもしれません。 特に品質がある場合 NLP 目的に基づいて機械学習モデルをトレーニングするために利用できるデータセット。

NLP市場は、11.7年と2018年の間に2026%のCAGRで成長し、到達する予定です。 28.6年までに2026億ドル。 NLPと機械学習に対する需要の高まりのおかげで、感情分析、レビュー、質疑応答分析、音声分析データセットに対応する高品質のデータセットを手に入れることができるようになりました。

信頼できる機械学習用のNLPデータセット

さまざまなニーズに焦点を当てた無数のデータセットがほぼ毎日リリースされているため、高品質で信頼性が高く、最高のデータセットにアクセスするのは難しい場合があります。 ここでは、提供するカテゴリに基づいて分離されたキュレーションされたデータセットを提示したため、作業が簡単になりました。

Hewlett-Packard Labsで作成されたSpambaseには、パーソナライズされたスパムフィルターの開発を目的とした、ユーザーによるスパムメールのコレクションがあります。 電子メールメッセージからの4600以上の観測があり、そのうち1820近くがスパムです。

エンロンのデータセットには、機械学習モデルをトレーニングするために一般に公開されている匿名化された「実際の」電子メールの膨大なコレクションがあります。 150人以上のユーザー、主にエンロンの上級管理職からのXNUMX万通以上の電子メールを誇っています。 このデータセットは、構造化形式と非構造化形式の両方で使用できます。 非構造化データを整えるには、データ処理技術を適用する必要があります。

レコメンダーシステムデータセットは、次のようなさまざまな機能を含むさまざまなデータセットの膨大なコレクションです。

  • 製品レビュー
  • 星による評価
  • フィットネス追跡
  • 曲データ
  • ソーシャルネットワーク
  • タイムスタンプ
  • ユーザー/アイテムの相互作用
  • GPSデータ

感情分析

感情分析
Dictionaries for Movies and Financeデータセットは、Financeフィリングと映画レビューの正または負の極性のドメイン固有の辞書を提供します。 これらの辞書は、IMDbおよびUSForm-8の詰め物から引用されています。

Sentiment 140には、ツイートの日付、極性、テキスト、ユーザー名、ID、クエリの160,000つの異なるフィールドに分類されたさまざまな絵文字を含む6を超えるツイートがあります。 このデータセットを使用すると、Twitterのアクティビティに基づいて、ブランド、製品、さらにはトピックの感情を見つけることができます。 このデータセットは、他の人間が注釈を付けたツイートとは異なり、自動的に作成されるため、ポジティブな感情とネガティブな感情を持つツイートを好ましくないものとして分類します。

このマルチドメイン感情データセットは、さまざまな製品のAmazonレビューのリポジトリです。 書籍などの一部の製品カテゴリでは、レビューが数千に達するものもあれば、数百のレビューしかないものもあります。 さらに、星評価のあるレビューはバイナリラベルに変換できます。

今日は、AIトレーニングデータの要件について説明しましょう。

テキスト

オープンドメインの質問と回答の調査を支援するために作成されたWiKiQAコーパスは、公開されている中で最も広範なデータセットの3000つです。 Bing検索エンジンのクエリログからコンパイルされ、質問と回答のペアが付属しています。 1500以上の質問とXNUMXのラベル付き回答文があります。

Legal Case Reportsデータセットには、4000の法的ケースのコレクションがあり、自動テキスト要約と引用分析のトレーニングに使用できます。 各ドキュメント、キャッチフレーズ、引用クラス、引用キャッチフレーズなどが使用されます。

Jeopardyデータセットは、Redditユーザーが集めた人気のクイズテレビ番組で取り上げられた200,000を超える質問のコレクションです。 各データポイントは、放送日、エピソード番号、値、ラウンド、および質問/回答によって分類されます。

オーディオスピーチ

オーディオスピーチ このデータセットは、英語を超えたいと考えているすべての人に最適です。 このデータセットには、オランダ語、ドイツ語、英語で話された記事のコレクションが含まれています。 さまざまなトピックとスピーカーセットが数百時間に渡って実行されています。

2000 HUB5英語データセットには、英語の40の電話会話トランスクリプトがあります。 データは米国国立標準技術研究所によって提供され、その主な焦点は会話音声の認識と音声のテキストへの変換にあります。

LibriSpeechデータセットは、約1000時間の英語のスピーチを収集し、トピックごとにオーディオブックの章に適切にセグメント化したものであり、自然言語処理に最適なツールです。

レビュー

Yelpデータセットには、8.5以上の企業の約160,000万件のレビュー、そのレビュー、およびユーザーデータの膨大なコレクションがあります。 レビューは、感情分析でモデルをトレーニングするために使用できます。 さらに、このデータセットには、200,000つの大都市圏をカバーするXNUMX枚以上の写真も含まれています。

IMDBレビューは、50万本以上の映画のキャスト情報、評価、説明、ジャンルを含む最も人気のあるデータセットのXNUMXつです。 このデータセットは、機械学習モデルのテストとトレーニングに使用できます。

Amazonのレビューと評価のデータセットには、1996年から2014年に収集されたAmazonのさまざまな製品のメタデータとレビューの貴重なコレクション(約142.8億XNUMX万件のレコード)が含まれています。 メタデータには価格、製品の説明、ブランド、カテゴリなどが含まれ、レビューにはテキストの品質、テキストの有用性、評価などが含まれます。

では、機械学習モデルをトレーニングするためにどのデータセットを選択しましたか?

私たちが行くにつれて、私たちはあなたに プロのヒント。 

必要に応じてNLPデータセットを選択する前に、必ずREADMEファイルをよく調べてください。 データセットには、データセットのコンテンツ、データが分類されたさまざまなパラメータ、データセットの考えられるユースケースなど、必要になる可能性のあるすべての情報が含まれます。

構築するモデルに関係なく、私たちのマシンを私たちの生活とより緊密かつ本質的に統合するというエキサイティングな見通しがあります。 NLPを使用すると、ビジネス、映画、音声認識、財務などの可能性が広がります。 あなたがより多くのそのようなデータセットを探しているなら ここをクリック。

社会シェア

こんな商品もお勧めしています